このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220915となっている論文です。

PDF登録状況(公開日: 20220915)

TitleAuthorsAbstract論文公表日・翻訳日
# 非信号境界上の量子相関:自己テストなど

Quantum correlations on the no-signaling boundary: self-testing and more ( http://arxiv.org/abs/2207.13850v2 )

ライセンス: Link先を確認
Kai-Siang Chen, Gelo Noel M. Tabia, Chellasamy Jebarathinam, Shiladitya Mal, Jun-Yi Wu, Yeong-Cherng Liang(参考訳) デバイス非依存の量子情報では、ベルテストにおいて空間的に分離されたパーティによって観測される局所的な測定結果の相関が基本的役割を果たす。 量子論において許容される相関の集合がベル局所集合と無符号集合の間に厳密に存在することは長く知られているが、量子集合の幾何学に関する多くの疑問は未解決のままである。 ここで、量子集合の境界が最も単純なベルシナリオにおける無符号集合と一致する場合の問題を再検討する。 特に、これらの共通境界の非自明なクラスにおいて、ハーディ型相関の既知の例を超えて自己テストが可能であることを証明し、これらの自己テスト結果の堅牢性を支持する数値的証拠を提供する。 副産物として、極端に局所的な相関につながる量子ビット戦略が局所的に等価である場合、この相関に基づく自己テストステートメントが従うことを示す。 興味深いことに、無信号境界で発見されたこれらの自己テスト相関はすべて、証明不能である。 有限次元の最大絡み合った状態から生じる量子相関の集合 $\mathcal{M}$ の類似特性も提供される。 この最後の結果を確立するために、最も単純なベルシナリオにおける$\mathcal{M}$のすべての相関がベル対と射影測度を用いて達成できるような凸結合として達成可能であることを示す。 すると、極大クレーター・ホルン・シモニー・ホルトベルの不等式は、任意の最大絡み合った2量子状態と、そのような状態の自己テストに関するノーゴー定理によって破られる。

In device-independent quantum information, correlations between local measurement outcomes observed by spatially separated parties in a Bell test play a fundamental role. Even though it is long-known that the set of correlations allowed in quantum theory lies strictly between the Bell-local set and the no-signaling set, many questions concerning the geometry of the quantum set remain unanswered. Here, we revisit the problem of when the boundary of the quantum set coincides with the no-signaling set in the simplest Bell scenario. In particular, we prove that self-testing is possible in nontrivial classes of these common boundaries beyond the known examples of Hardy-type correlations and provide numerical evidence supporting the robustness of these self-testing results. As a byproduct, we also show that if the qubit strategies leading to an extremal nonlocal correlation are local-unitarily equivalent, a self-testing statement based on this correlation follows. Interestingly, all these self-testing correlations found on the no-signaling boundary are provably non-exposed. An analogous characterization for the set $\mathcal{M}$ of quantum correlations arising from finite-dimensional maximally entangled states is also provided. En route to establishing this last result, we show that all correlations of $\mathcal{M}$ in the simplest Bell scenario are attainable as convex combinations of those achievable using a Bell pair and projective measurements. In turn, we obtain the maximal Clauser-Horne-Shimony-Holt Bell inequality violation by any maximally entangled two-qudit state and a no-go theorem regarding the self-testing of such states.
翻訳日:2023-02-03 05:16:10 公開日:2022-09-15
# 暗カウントを用いた最適伝送推定

Optimal transmission estimation with dark counts ( http://arxiv.org/abs/2208.12831v2 )

ライセンス: Link先を確認
Aaron Z. Goldberg and Khabat Heshami(参考訳) 透過測定は光ファイバーから分光まで必須である。 量子理論は、送信または損失を推定する究極の精度は、定値光子数と光子数分解検出器(pnrds)を持つプローブ状態を用いて達成される。 古典的プローブ光に対する量子的な優位性は、ダークカウントやその他のスプリアス事象によって検出器が点火したときも維持できるのだろうか? この質問に対する回答は肯定的であり、量子アドバンテージがフォック状態の強さでダークカウントと増加にどのように依存しているかを詳細に示す。 これらの結果は、PNRDの現在の能力が劇的に改善されているため、特に顕著である。

Transmission measurements are essential from fiber optics to spectroscopy. Quantum theory dictates that the ultimate precision in estimating transmission or loss is achieved using probe states with definite photon number and photon-number-resolving detectors (PNRDs). Can the quantum advantage relative to classical probe light still be maintained when the detectors fire due to dark counts and other spurious events? We demonstrate that the answer to this question is affirmative and show in detail how the quantum advantage depends on dark counts and increases with Fock-state-probe strength. These results are especially pertinent as the present capabilities of PNRDs are being dramatically improved.
翻訳日:2023-01-29 14:25:02 公開日:2022-09-15
# 1つの2レベル原子が同時に2つの光子を散乱するのか?

Will a single two-level atom simultaneously scatter two photons? ( http://arxiv.org/abs/2209.02547v2 )

ライセンス: Link先を確認
Luke Masters, Xinxin Hu, Martin Cordier, Gabriele Maron, Lucas Pache, Arno Rauschenbeutel, Max Schemmer and J\"urgen Volz(参考訳) 単一2レベルエミッターと光の相互作用は量子光学における最も基本的なプロセスであり、多くの量子応用にとって鍵となる。 特徴的な特徴として、2つの光子はエミッタによって散乱された光の中で同時には検出されない。 これは一般に、単一の2レベル量子エミッタが単一の光子を吸収して放出することしかできないと解釈される。 しかし、理論的には、光子反相関は2つの可能な2光子散乱振幅の間の量子的干渉から生じると考えられており、1つはコヒーレントで非コヒーレントである。 この図は上記の図とは対照的で、原子は2つの光子を同時に散乱させるために2つの異なるメカニズムを持っていると仮定している。 ここでは, 干渉像を実験的に検証し, 単一2層原子の蛍光光のコヒーレント成分のみを分光的に除去することにより, 残光は同時に散乱した光子対からなるという40年前の予想を検証した。 本研究は,光と物質の間の量子力学的相互作用に関する基礎的知見を提供し,非古典的光場の生成のための新しいアプローチを開拓する。

The interaction of light with a single two-level emitter is the most fundamental process in quantum optics, and is key to many quantum applications. As a distinctive feature, two photons are never detected simultaneously in the light scattered by the emitter. This is commonly interpreted by saying that a single two-level quantum emitter can only absorb and emit single photons. However, it has been theoretically proposed that the photon anti-correlations can be thought to arise from quantum interference between two possible two-photon scattering amplitudes, which one refers to as coherent and incoherent. This picture is in stark contrast to the aforementioned one, in that it assumes that the atom even has two different mechanisms at its disposal to scatter two photons at the same time. Here, we validate the interference picture by experimentally verifying the 40-year-old conjecture that, by spectrally rejecting only the coherent component of the fluorescence light of a single two-level atom, the remaining light consists of photon pairs that have been simultaneously scattered by the atom. Our results offer fundamental insights into the quantum-mechanical interaction between light and matter and open up novel approaches for the generation of highly non-classical light fields.
翻訳日:2023-01-27 18:19:04 公開日:2022-09-15
# 高品質物理キュービットのポストセレクションフリー合成

Post-selection-free preparation of high-quality physical qubits ( http://arxiv.org/abs/2209.05391v2 )

ライセンス: Link先を確認
Ben Barber and Neil I. Gillespie and J. M. Taylor(参考訳) コヒーレント演算におけるゲート忠実性の急速な改善は、状態準備と測定(SPAM)におけるエラーが、量子コンピュータのフォールトトレラント演算におけるエラーの主要な原因となることを意味する。 特に超伝導系では、測定忠実度と量子ビット寿命のトレードオフが全体的な性能に制限される。 幸いなことに、準備と測定の本質的に古典的な性質は、古典的な制御とポストセレクションを組み合わせた補助量子ビットによる品質向上のための多種多様な技術を可能にする。 しかし実際には、ポストセレクションはシンドローム抽出などのプロセスのスケジューリングを大幅に複雑にする。 ここでは、cnot と toffoli ゲートを用いて非線形に計算基底を浸透させる、高品質な |0> 状態を生成する量子回路のファミリを示す。 2量子ビットゲートのエラーが0.2%以下になった場合の有意義なパフォーマンス向上と、ネイティブな toffoli ゲートが利用可能になった場合のパフォーマンス向上が得られます。

Rapidly improving gate fidelities for coherent operations mean that errors in state preparation and measurement (SPAM) may become a dominant source of error for fault-tolerant operation of quantum computers. This is particularly acute in superconducting systems, where tradeoffs in measurement fidelity and qubit lifetimes have limited overall performance. Fortunately, the essentially classical nature of preparation and measurement enables a wide variety of techniques for improving quality using auxiliary qubits combined with classical control and post-selection. In practice, however, post-selection greatly complicates the scheduling of processes such as syndrome extraction. Here we present a family of quantum circuits that prepare high-quality |0> states without post-selection, instead using CNOT and Toffoli gates to non-linearly permute the computational basis. We find meaningful performance enhancements when two-qubit gate fidelities errors go below 0.2%, and even better performance when native Toffoli gates are available.
翻訳日:2023-01-26 22:13:38 公開日:2022-09-15
# デバイス非依存量子鍵分布のための量子光学実験の自動設計

Automated design of quantum optical experiments for device-independent quantum key distribution ( http://arxiv.org/abs/2209.06468v2 )

ライセンス: Link先を確認
Xavier Valcarce, Pavel Sekatski, Elie Gouzien, Alexey Melnikov and Nicolas Sangouard(参考訳) デバイス非依存量子鍵分布(DIQKD)は、特徴量子デバイスの必要性を取り除くことにより、標準QKDプロトコルのサイドチャネルアタックに脆弱性を還元する。 しかし、より高いセキュリティ保証は、挑戦的な実装の値段でもたらされる。 そこで本研究では,DIQKDをフォトニックデバイスに実装する実験のコンセプトに挑戦する。 本稿では,強化学習と最適化アルゴリズム,量子光学実験のカスタム効率シミュレーションを組み合わせた手法を導入し,測定統計の所定の関数を最大化するフォトニックセットアップの設計を自動化する。 このアルゴリズムをDIQKDに適用すると、予期せぬ実験的な構成が得られ、高い鍵レートと損失やノイズに対する高い耐性が得られる。 これらの構成は、フォトニックデバイスによるDIQKDの最初の実装を容易にし、パフォーマンスの改善を目的とした将来の開発に役立つかもしれない。

Device-independent quantum key distribution (DIQKD) reduces the vulnerability to side-channel attacks of standard QKD protocols by removing the need for characterized quantum devices. The higher security guarantees come however, at the price of a challenging implementation. Here, we tackle the question of the conception of an experiment for implementing DIQKD with photonic devices. We introduce a technique combining reinforcement learning, optimisation algorithm and a custom efficient simulation of quantum optics experiments to automate the design of photonic setups maximizing a given function of the measurement statistics. Applying the algorithm to DIQKD, we get unexpected experimental configurations leading to high key rates and to a high resistance to loss and noise. These configurations might be helpful to facilitate a first implementation of DIQKD with photonic devices and for future developments targeting improved performances.
翻訳日:2023-01-26 17:06:16 公開日:2022-09-15
# 量子状態転送:ゲートとリードアウトエラーの相互作用

Quantum State Transfer: Interplay between Gate and Readout Errors ( http://arxiv.org/abs/2209.07021v1 )

ライセンス: Link先を確認
Bharat Thotakura, Tzu-Chieh Wei(参考訳) 量子ネットワークは、絡み合いによってリンクされる量子ノードで構成され、量子情報はあるノードから別のノードに転送できる。 古典的な通信によって調整された局所ノードの量子ビットに演算を適用して量子状態を操作する。 ここでは、量子回路を用いて、線形幾何学で接続された2つのノード間の量子状態伝達をシミュレーションする。 状態転送性能におけるゲートと読み出しエラーの相互作用について検討する。 名目的成功確率は2つの誤差率の単調な関数ではなく、それらの相互作用を理解するために数値シミュレーションと解析ツールを用いる。

Quantum networks consist of quantum nodes that are linked by entanglement and quantum information can be transferred from one node to another. Operations can be applied to qubits of local nodes coordinated by classical communication to manipulate quantum states and readout/measurement will be employed to obtain results. Here, we use quantum circuits to simulate quantum state transfer between two nodes connected in a linear geometry through other nodes. We explore the interplay between gate and readout errors on the performance of state transfer. We find that the nominal success probability is not necessarily a monotonic function of the two error rates and employ numerical simulations and analytic tools to understand their interplay.
翻訳日:2023-01-26 12:20:13 公開日:2022-09-15
# 高圧水素の周波数変換

Frequency Conversion in High-Pressure Hydrogen ( http://arxiv.org/abs/2209.07298v1 )

ライセンス: Link先を確認
Alireza Aghababaei, Christoph Biesek, Frank Vewinger, and Simon Stellmer(参考訳) 光領域における状態保存周波数変換は、量子情報処理と通信の多くの構成において必要な構成要素である。 今のところ、この目的のために非線形結晶を用いる。 本稿では,高濃度水素ガス中におけるコヒーレント反ストークスラマン散乱(CARS)に基づく新しいアプローチについて報告する。 この4波混合プロセスは結晶特性によって課される制限を回避し、本質的に広帯域であり、望ましくない背景を生成しない。 この方法は、光子を434nmから370nmに変換し、偏光が保存されていることを示す。

State-preserving frequency conversion in the optical domain is a necessary component in many configurations of quantum information processing and communication. Thus far, nonlinear crystals are used for this purpose. Here, we report on a new approach based on coherent anti-Stokes Raman scattering (CARS) in a dense molecular hydrogen gas. This four-wave mixing process sidesteps the limitations imposed by crystal properties, it is intrinsically broadband and does not generate an undesired background. We demonstrate this method by converting photons from 434 nm to 370 nm and show that their polarization is preserved.
翻訳日:2023-01-26 12:18:32 公開日:2022-09-15
# 量子talagrand, kkl, friedgutの定理と量子ブール関数の学習可能性

Quantum Talagrand, KKL and Friedgut's theorems and the learnability of quantum Boolean functions ( http://arxiv.org/abs/2209.07279v1 )

ライセンス: Link先を確認
Cambyse Rouz\'e, Melchior Wirth, Haonan Zhang(参考訳) ブール関数の影響の分析から、KKL Theorem、FriedgutのJunta Theorem、幾何学的影響に対するTalagrandの分散不等式など、関連する3つの結果を拡張する。 以上の結果は,最近研究したハイパーコントラクティビティと勾配推定の併用によるものである。 これらのジェネリックツールはまた、これらの結果の一般化を、連続変数量子システムのような量子情報理論に関連する無限次元の例を含む量子超キューブの場合を超えて、一般のフォン・ノイマン代数的設定で導出することができる。 最後に,等尺型不等式非可換拡張と量子可観測性の学習可能性に関して,この結果が与える影響について考察する。

We extend three related results from the analysis of influences of Boolean functions to the quantum setting, namely the KKL Theorem, Friedgut's Junta Theorem and Talagrand's variance inequality for geometric influences. Our results are derived by a joint use of recently studied hypercontractivity and gradient estimates. These generic tools also allow us to derive generalizations of these results in a general von Neumann algebraic setting beyond the case of the quantum hypercube, including examples in infinite dimensions relevant to quantum information theory such as continuous variables quantum systems. Finally, we comment on the implications of our results as regards to noncommutative extensions of isoperimetric type inequalities and the learnability of quantum observables.
翻訳日:2023-01-26 12:18:22 公開日:2022-09-15
# 3レベルトラップイオン系におけるLeggett-Garg不平等の実験的検討

Experimental violation of Leggett-Garg inequality in a three-level trapped-ion system ( http://arxiv.org/abs/2209.07254v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Chunwang Wu, Manchao Zhang, Qingqing Qin, Xueying Yang, Han Hu, Wenbo Su, Jie Zhang, Ting Chen, Yi Xie, Wei Wu, Pingxing Chen(参考訳) Leggett-Garg inequality (LGI) は物理系の進化における時間的相関を研究する。 古典系はLGIに従うが、量子系はそれを侵害する可能性がある。 違反の範囲は、量子系の次元と状態更新規則に依存する。 本研究では,LGIを磁場中に存在する大きなスピン前駆体のモデルの下で3レベルトラップイオン系で実験的に試験する。 Von Neumann と L\"uders の状態更新規則は直接比較解析に使用される。 Von Neumann状態更新規則の下でのLeggett-Garg相関器の観測値の最大値は$K_3 = 1.739 \pm 0.014$であり、これは17の標準偏差で束縛されたL\ "uders" の違反を示し、自然三層系における最も大きな違反である。

Leggett-Garg inequality (LGI) studies the temporal correlation in the evolution of physical systems. Classical systems obey the LGI but quantum systems may violate it. The extent of the violation depends on the dimension of the quantum system and the state update rule. In this work, we experimentally test the LGI in a three-level trapped-ion system under the model of a large spin precessing in a magnetic field. The Von Neumann and L\"uders state update rules are employed in our system for direct comparative analysis. The maximum observed value of Leggett-Garg correlator under the Von Neumann state update rule is $K_3 = 1.739 \pm 0.014$, which demonstrates a violation of the L\"uders bound by 17 standard deviations and is by far the most significant violation in natural three-level systems.
翻訳日:2023-01-26 12:18:06 公開日:2022-09-15
# キラルポラリトニクス : 解析解と直観とその利用

Chiral Polaritonics: Analytic Solutions, Intuition and its Use ( http://arxiv.org/abs/2209.07177v1 )

ライセンス: Link先を確認
Christian Sch\"afer and Denis G. Baranov(参考訳) 所定のエナンチオマーのキラルなエナンチオマーよりも優先的な選択は、医療薬品デザインの次の時代の到来に益々関係している。 並行して、キャビティ量子電磁力学は、エネルギー移動と化学反応を制御するための固体の枠組みへと成長した。 本研究では,キラルキャビティと相互作用する多数のキラルエミッタの系に対する解析解を導出し,量子光学のtavis-cummingモデルやhopfieldモデルと類似させる。 我々は, キラル偏光学の識別強度を推定し, 今後の発展方向, ホモキラリティーの解明などのエキサイティングな応用を議論し, キラル偏光学の新たな発展分野を育むために必要な直観を提供する。

Preferential selection of a given enantiomer over its chiral counterpart becomes increasingly relevant in the advent of the next era of medical drug design. In parallel, cavity quantum electrodynamics has grown into a solid framework to control energy transfer and chemical reactivity. In this work, we derive an analytical solution to a system of many chiral emitters interacting with a chiral cavity -- in analogy to the widely used Tavis-Cummings and Hopfield models of quantum optics. We are able to estimate the discriminating strength of chiral polaritonics, discuss possible future development directions, exciting applications such as elucidating homochirality, and deliver much needed intuition to foster the freshly flourishing field of chiral polaritonics.
翻訳日:2023-01-26 12:17:50 公開日:2022-09-15
# 単一活性電子近似を超える強磁場分子イオン化

Strong-Field Molecular Ionization Beyond The Single Active Electron Approximation ( http://arxiv.org/abs/2209.07174v1 )

ライセンス: Link先を確認
Jean-Nicolas Vigneau (ISMO), Tung Nguyen-Dang, Eric Charron (ISMO), Osman Atabek (ISMO)(参考訳) 本研究は、強い電界イオン化とそれに続くアト秒ダイナミクスを扱うためにしばしば用いられる単一活性電子近似(SAE)の量的限界を探求する。 時間依存型多重配位法、特に時間依存型構成相互作用(TDCI)法を用いて、2電子二水素分子に対する時間依存型Schr{\「o}dinger方程式(TDSE)を解き、断熱スイッチオン/スウィッチオフ関数による電子-電子相互作用のチューニングが可能となる。 我々は, 強い近赤外(nir)4サイクル, 線形偏光レーザーパルス, 振動凍結分子モデルにおいて, 単一イオン化量$h_2$の信号に焦点をあてた。 観測可能なものは、レーザーピーク強度の関数としてのパルス後全電離確率プロファイルである。 パラメータとして取る核間距離Rの3つの値は、R = R$_{eq}$ = 1.4 a.u、分子の平衡幾何学、R = 5.0 a.u、R = 10.2 a.uである。 最も顕著な観測は、中間伸長距離におけるイオン化確率プロファイルの非単調な挙動であり、イオン化の強化と部分イオン化の焼成の例である。 我々は、励起電子状態による重なり合う共鳴を干渉する共振強化多光子イオン化(REMPI)機構の観点から、これを解釈する。

The present work explores quantitative limits to the Single-Active Electron (SAE) approximation, often used to deal with strong-field ionization and subsequent attosecond dynamics. Using a time-dependent multi\-configuration approach, specifically a Time-Dependent Configuration Interaction (TDCI) method, we solve the time-dependent Schr{\"o}dinger equation (TDSE) for the two-electron dihydrogen molecule, with the possibility of tuning at will the electron-electron interaction by an adiabatic switch-on/switch-off function. We focus on signals of the single ionization of $H_2$ under a strong near-infrared (NIR) four-cycle, linearly-polarized laser pulse of varying intensity, and within a vibrationally frozen molecule model. The observables we address are post-pulse total ionization probability profiles as a function of the laser peak intensity. Three values of the internuclear distance R taken as a parameter are considered, R = R$_{eq}$ = 1.4 a.u, the equilibrium geometry of the molecule, R = 5.0 a.u for an elongated molecule and R = 10.2 a.u for a dissociating molecule. The most striking observation is the non-monotonous behavior of the ionization probability profiles at intermediate elongation distances with an instance of enhanced ionization and one of partial ionization quenching. We give an interpretation of this in terms of a Resonance-Enhanced-Multiphoton Ionization (REMPI) mechanism with interfering overlapping resonances resulting from excited electronic states.
翻訳日:2023-01-26 12:17:37 公開日:2022-09-15
# 時間分解トモグラフィによるポラリトン凝縮中の量子コヒーレンス追跡

Tracking quantum coherence in polariton condensates with time-resolved tomography ( http://arxiv.org/abs/2209.07129v1 )

ライセンス: Link先を確認
Carolin L\"uders, Matthias Pukrop, Franziska Barkhausen, Elena Rozas, Christian Schneider, Sven H\"ofling, Jan Sperling, Stefan Schumacher, Marc A{\ss}mann(参考訳) 長期量子コヒーレンス(英語版)は、量子デバイスを工学する際の大きな課題の1つである。 しかし、複雑なデコヒーレンス機構を定量化するための容易な手段は、容易には利用できない。 高特異なグラウバー・スダルシャン準確率の非ガウス的畳み込みによって表現される新しい位相空間法を用いて、コヒーレンス時間を大幅に向上させたポラリトン凝縮体の量子コヒーレンスを動的に観測する。 ホモダイン検出データからの位相空間関数の強度と時間分解による再構成により,ナノ秒までの量子情報処理におけるシステムの資源性を調べる。 実験の結果を数値シミュレーションにより確認し, 確立したアルゴリズムを手法に適合させる手法を開発した。 一般に適用されている位相空間関数とは対照的に、我々の分布は不確実性を含む測定データから直接サンプリングすることができ、位相の分散による簡単な量子コヒーレンスの測定を行うことができる。 そこで本稿では,時間依存の量子現象と資源を探索するフレームワークとプラットフォームを提案する。

Long-term quantum coherence constitutes one of the main challenges when engineering quantum devices. However, easily accessible means to quantify complex decoherence mechanisms are not readily available, nor are sufficiently stable systems. We harness novel phase-space methods - expressed through non-Gaussian convolutions of highly singular Glauber-Sudarshan quasiprobabilities - to dynamically monitor quantum coherence in polariton condensates with significantly enhanced coherence times. Via intensity- and time-resolved reconstructions of such phase-space functions from homodyne detection data, we probe the systems's resourcefulness for quantum information processing up to the nanosecond regime. Our experimental findings are confirmed through numerical simulations for which we develop an approach that renders established algorithms compatible with our methodology. In contrast to commonly applied phase-space functions, our distributions can be directly sampled from measured data, including uncertainties, and yield a simple operational measure of quantum coherence via the distribution's variance in phase. Therefore, we present a broadly applicable framework and a platform to explore time-dependent quantum phenomena and resources.
翻訳日:2023-01-26 12:17:09 公開日:2022-09-15
# 自由電子のための量子論理ゲート

A quantum logic gate for free electrons ( http://arxiv.org/abs/2209.07123v1 )

ライセンス: Link先を確認
Stefan L\"offler, Thomas Schachinger, Peter Hartel, Peng-Han Lu, Rafal E. Dunin-Borkowski, Martin Obermair, Manuel Dries, Dagmar Gerthsen, Peter Schattschneider(参考訳) 渦電子の位相電荷 $m$ は無限次元ヒルベルト空間にまたがる。 m=\pm 1$ の2次元部分空間を選択すると、透過電子顕微鏡(tem)内のビーム電子はカラム内で自由に伝播する量子ビット(量子ビット)と見なすことができる。 電子光学シリンダーレンズの組み合わせは、実験者の判断においてそのような量子ビットを操作する普遍的な装置として機能することができる。 我々はTEMプローブ形成レンズシステムを量子ゲートとして設置し,その動作を数値的,実験的に実証した。 収差補正器を備えたハイエンドTEMは、そのような実験のための有望なプラットフォームであり、電子顕微鏡における量子論理ゲートの研究の道を開く。

The topological charge $m$ of vortex electrons spans an infinite-dimensional Hilbert space. Selecting a two-dimensional subspace spanned by $m=\pm 1$, a beam electron in a transmission electron microscope (TEM) can be considered as a quantum bit (qubit) freely propagating in the column. A combination of electron optical cylinder lenses can serve as a universal device to manipulate such qubits at the experimenter's discretion. We set up a TEM probe forming lens system as a quantum gate and demonstrate its action numerically and experimentally. High-end TEMs with aberration correctors are a promising platform for such experiments, opening the way to study quantum logic gates in the electron microscope.
翻訳日:2023-01-26 12:16:48 公開日:2022-09-15
# 量子エンタングルメントによる三成分ステアリングの検出

Detecting Tripartite Steering via Quantum Entanglement ( http://arxiv.org/abs/2209.07110v1 )

ライセンス: Link先を確認
Zhihua Chen and Shao-Ming Fei(参考訳) アインシュタイン=ポドルスキー=ローゼンステアリング(einstein-podolsky-rosen steering)は量子暗号や量子通信といった量子情報処理における強力な非局所量子資源の一種である。 過去数年間に、二部量子系に対する解析的および数値的にステアビリティを検出するための多くの基準が提案されてきた。 本研究では, トリパルタイトステアビリティ (resp. true tripartite steerability) と, 対応する量子状態のトリパルタイトエンタングルメント (resp. true tripartite entanglement) との接続を確立することで, 3量子量子状態のトリパルタイトステアビリティと真のトリパルタイトステアビリティの効果的な基準を提案する。 これらの接続から、ステアリングの不等式を使わずに、三成分ステアビリティと真の三成分ステアビリティを検出することができる。 実験において、新たに構築された状態の絡みを検知することにより、トリパルトステアリングと真のトリパルトステアリングを決定する「複合コスト」を低減することができる。 トリパルタイト状態の(元)トリパルタイトステアビリティの検出における我々の基準の力を説明するための詳細な例を示す。

Einstein-Podolsky-Rosen steering is a kind of powerful nonlocal quantum resource in quantum information processing such as quantum cryptography and quantum communication. Many criteria have been proposed in the past few years to detect steerability, both analytically and numerically, for bipartite quantum systems. We propose effective criteria for tripartite steerability and genuine tripartite steerability of three-qubit quantum states by establishing connections between the tripartite steerability (resp. genuine tripartite steerability) and the tripartite entanglement (resp. genuine tripartite entanglement) of certain corresponding quantum states. From these connections, tripartite steerability and genuine tripartite steerability can be detected without using any steering inequalities. The ``complex cost'' of determining tripartite steering and genuine tripartite steering can be reduced by detecting the entanglement of the newly constructed states in the experiment. Detailed examples are given to illustrate the power of our criteria in detecting the (genuine) tripartite steerability of tripartite states.
翻訳日:2023-01-26 12:16:36 公開日:2022-09-15
# 量子前処理アルゴリズム --密度行列再正規化群支援量子正準変換

Preentangling Quantum Algorithms -- the Density Matrix Renormalization Group-assisted Quantum Canonical Transformation ( http://arxiv.org/abs/2209.07106v1 )

ライセンス: Link先を確認
Mohsin Iqbal, David Mu\~noz Ramo, Henrik Dreyer(参考訳) 量子アルゴリズムの初期状態としてパラメータフリープリエンタングルを用いる手法を提案する。 この考え方を電子構造問題に適用し、ヤナイとチャン(J. Chem. Phys. 124, 194106 (2006))による正準変換の量子化バージョンと完全アクティブ空間密度行列正規化群を組み合わせた。 この新しいansatzは、量子プロセッサと古典プロセッサの間で計算負荷をシフトできる。 H$_2$O, N$_2$, BeH$_2$およびP4系のポテンシャルエネルギー表面における多重参照点の近傍では、対応する一般化ユニタリ結合クラスタ回路よりもはるかに少ないパラメータを必要とする。 本稿では,ユニタリの線形結合に基づいて行列積状態を生成する新しいアルゴリズムを提案し,run in a 101, 032310 (2020) で提案した逐次ユニタリアルゴリズムと比較する。

We propose the use of parameter-free preentanglers as initial states for quantum algorithms. We apply this idea to the electronic structure problem, combining a quantized version of the Canonical Transformation by Yanai and Chan [J. Chem. Phys. 124, 194106 (2006)] with the Complete Active Space Density Matrix Renormalization Group. This new ansatz allows to shift the computational burden between the quantum and the classical processor. In the vicinity of multi-reference points in the potential energy surfaces of H$_2$O, N$_2$, BeH$_2$ and the P4 system, we find this strategy to require significantly less parameters than corresponding generalized unitary coupled cluster circuits. We propose a new algorithm to prepare Matrix Product States based on the Linear Combination of Unitaries and compare it to the Sequential Unitary Algorithm proposed by Ran in [Phys. Rev. A 101, 032310 (2020)].
翻訳日:2023-01-26 12:16:12 公開日:2022-09-15
# 集中型絡み合いに基づく多部相関の階層化

A Hierarchy of Multipartite Correlations Based on Concentratable Entanglement ( http://arxiv.org/abs/2209.07607v1 )

ライセンス: Link先を確認
Louis Schatzki, Guangkuo Liu, M. Cerezo, Eric Chitambar(参考訳) マルチパーティの絡み合いは量子力学の目印の一つであり、量子情報処理の中心である。 本研究では,操作的動機付けによる絡み合い尺度であるConcentratable Entanglement (CE)が,異なる絡み合い構造を証明可能な純粋状態の階層を誘導することを示す。 特に、ほぼ全ての真の多部交絡状態がCEを通して検証可能であることが分かる。 この過程において、最大18キュービットのCEおよび対応する状態の正確な最大値を求め、これらが極端量子誤り訂正符号に対応することを示す。 後者はCEと符号化理論の深い関係を解明することを可能にする。 最後に、我々の結果は、最大31キュービットの別の証明も提供しており、絶対的に極大に絡み合った状態は存在しない。

Multipartite entanglement is one of the hallmarks of quantum mechanics and is central to quantum information processing. In this work we show that Concentratable Entanglement (CE), an operationally motivated entanglement measure, induces a hierarchy upon pure states from which different entanglement structures can be certified. In particular, we find that nearly all genuine multipartite entangled states can be verified through CE. In the process we find the exact maximal value of CE and corresponding states for up to 18 qubits and show that these correspond to extremal quantum error correcting codes. The latter allows us to unravel a deep connection between CE and coding theory. Finally, our results also offer an alternative proof, on up to 31 qubits, that absolutely maximally entangled states do not exist.
翻訳日:2023-01-26 12:10:13 公開日:2022-09-15
# 回路パラメータの周期変化を考慮した3波混合走行波パラメトリック増幅器

Three-wave mixing traveling-wave parametric amplifier with periodic variation of the circuit parameters ( http://arxiv.org/abs/2209.07551v1 )

ライセンス: Link先を確認
Anita Fadavi Roudsari, Daryoush Shiri, Hampus Renberg Nilsson, Giovanna Tancredi, Amr Osman, Ida-Maria Svensson, Marina Kudra, Marcus Rommel, Jonas Bylander, Vitaly Shumeiko, and Per Delsing(参考訳) 3波混合(3wm)を用いた近量子制限進行波パラメトリック増幅器の実装について報告する。 3WMで増幅するために、超伝導非線形非対称誘導素子(SNAIL)ループをdc磁束でバイアスする。 さらに,装置に分散工学的特徴を持たせ,ポンプの第2高調波に停止帯域を発生させ,それ以外は増幅を劣化させる高調波の伝搬を抑制する。 440 SNAILのチェーンで、増幅器は最大20dBのゲインと3dBの帯域幅1GHzを提供する。 増幅器による付加ノイズは1光子未満であることが判明した。

We report the implementation of a near-quantum-limited, traveling-wave parametric amplifier that uses three-wave mixing (3WM). To favor amplification by 3WM, we use the superconducting nonlinear asymmetric inductive element (SNAIL) loops, biased with a dc magnetic flux. In addition, we equip the device with dispersion engineering features to create a stop-band at the second harmonic of the pump and suppress the propagation of the higher harmonics that otherwise degrade the amplification. With a chain of 440 SNAILs, the amplifier provides up to 20 dB gain and a 3-dB bandwidth of 1 GHz. The added noise by the amplifier is found to be less than one photon.
翻訳日:2023-01-26 12:09:11 公開日:2022-09-15
# 重力接触相互作用 -ヨルダンフレームは存在するか?

Gravitational Contact Interactions -- Does the Jordan Frame Exist? ( http://arxiv.org/abs/2209.07523v1 )

ライセンス: Link先を確認
Christopher T. Hill(参考訳) アインシュタインヒルベルトと非ミニマル相互作用を持つスカラー-テンソル理論、$\sim m^2r/2 -\alpha\phi^2r/12 $は重力交換による接触相互作用を持つ。 これらは常に理論を、$\alpha$ が存在しない形式的なアインシュタインの枠組みに戻す。 アインシュタインの枠組みでは、接触項が誘導され、それが他のカップリングに吸収され、有効ポテンシャル(あるいは同値な再正規化群)を定義する。 両フレームの差分表示における有効ポテンシャルを計算することにより,これらの効果が単純なモデルでどのように現れるかを示す。

Scalar--tensor theories, with Einstein Hilbert and non-minimal interactions, $\sim M^2R/2 -\alpha\phi^2R/12 $, have graviton exchange induced contact interactions. These always pull the theory back into a formal Einstein frame in which $\alpha$ does not exist. In the Einstein frame, contact terms are induced, that are then absorbed back into other couplings to define the effective potential (or equivalently, the renormalization group). We show how these effects manifest themselves in a simple model by computing the effective potential in both frames displaying the discrepancy.
翻訳日:2023-01-26 12:08:57 公開日:2022-09-15
# 量子シミュレータとしてゼロフィールド分割を持つs=1$スピン中心 : $s=1/2$臨界挙動

Solid-state $S=1$ spin centers with zero-field splitting as quantum simulators for $S=1/2$ critical behavior ( http://arxiv.org/abs/2209.07516v1 )

ライセンス: Link先を確認
Troy Losey, Denis R. Candido, Y. Meurice, M. E. Flatt\'e, S.-W. Tsai, and Jin Zhang(参考訳) 本研究では半導体にS=1$スピンセンターを埋め込んだ量子シミュレータを構築するための新しい固体プラットフォームを提案する。 外部磁場の存在下では、磁気双極子-双極子相互作用を介して相互作用する$S=1$スピンセンターの配列を、外部磁場におけるXYZモデルと同等の有効スピンハーフ系にマッピングできることを示す。 興味深いことに、このシステムはスピン中心の磁場と向きの変位の両方を主対称軸に変化させることによって得られる幅広い位相と臨界挙動を示す。 特に,本モデルでは,ベレジンスキー-コステルリッツ-トゥーレス遷移点とポクロフスキー-タラポフ遷移点で終端する臨界浮遊相にある直線を含む。 これはまた、等方的ハイゼンベルク点と横イジング普遍性類の間に調整することもできる。 固体材料中のスピン中心を持つ浮遊相の量子シミュレータとして,本システムを提案する。

In this work we propose a novel solid-state platform for creating quantum simulators based on implanted $S=1$ spin centers in semiconductors. We show that under the presence of an external magnetic field, an array of $S=1$ spin centers interacting through magnetic dipole-dipole interaction can be mapped into an effective spin-half system equivalent to the XYZ model in an external field. Interestingly, this system shows a wide range of phases and critical behaviors that can be obtained by changing both the magnetic field and the orientational displacement of the spin centers with respect to their main symmetry axis. Notably, our model contains a line where the system is in a critical floating phase that terminates at a Berezinskii-Kosterlitz-Thouless transition point and a Pokrovsky-Talapov transition point. It can also be tuned between an isotropic Heisenberg point and a transverse Ising universality class. We propose this system as the first quantum simulator for the floating phase with spin-centers in solid-state materials.
翻訳日:2023-01-26 12:08:47 公開日:2022-09-15
# 非アノマラス行列積演算子対称性を持つ量子状態のゲージ

Gauging quantum states with non-anomalous matrix product operator symmetries ( http://arxiv.org/abs/2209.07355v1 )

ライセンス: Link先を確認
Jos\'e Garre Rubio and Ilya Kull(参考訳) 系の大域対称性を評価することは、変換規則が系全体に局所対称性を観察させる新しい自由度を導入することにつながる。 量子系では、大域対称性をゲージする障害が存在する。 これが起こると対称性は異常と呼ばれる。 そのような障害は、大域対称性が局所作用素のテンソル積として書けないという事実と関連している。 この写本では、追加構造を持つ非局所対称性を研究する:それらは行列積作用素(mpo)の形を取る。 我々は、mposのテンソルネットワーク構造を利用して、それらから同じグループ関係を満たす局所演算子、すなわち異常なmposさえローカライズすることができる。 非正則MPOに対して、これらの局所作用素を用いて、非自明なゲージ状態を得る一次元量子状態のMPO対称性を明示的に測定する。 標準のオンサイトケースのように,所望のプロパティをすべて満たしていることを示す。 また、MPO対称性によって保護された行列積状態において、この手順が自然にどのように表現されるかを示す。 異常MPOの場合には,これらの対称性を計測する障害に光を当てる。

Gauging a global symmetry of a system amounts to introducing new degrees of freedom whose transformation rule makes the overall system observe a local symmetry. In quantum systems there can be obstructions to gauging a global symmetry. When this happens the symmetry is dubbed anomalous. Such obstructions are related to the fact that the global symmetry cannot be written as a tensor product of local operators. In this manuscript we study non-local symmetries that have an additional structure: they take the form of a matrix product operator (MPO). We exploit the tensor network structure of the MPOs to construct local operators from them satisfying the same group relations, that is, we are able to localize even anomalous MPOs. For non-anomalous MPOs, we use these local operators to explicitly gauge the MPO symmetry of a one-dimensional quantum state obtaining non-trivial gauged states. We show that our gauging procedure satisfies all the desired properties as the standard on-site case does. We also show how this procedure is naturally represented in matrix product states protected by MPO symmetries. In the case of anomalous MPOs, we shed light on the obstructions to gauging these symmetries.
翻訳日:2023-01-26 12:08:11 公開日:2022-09-15
# オフライン強化学習は自然言語理解に役立つか?

Can Offline Reinforcement Learning Help Natural Language Understanding? ( http://arxiv.org/abs/2212.03864v1 )

ライセンス: Link先を確認
Ziqi Zhang, Yile Wang, Yue Zhang and Donglin Wang(参考訳) 事前学習は暗黙的な伝達可能な知識を学ぶための有用な方法であり、様々なモダリティに相補的な特徴を提供することの利点を示している。 最近の研究は主に画像やテキストなどのモダリティに焦点を当てており、画像から学習した視覚的特徴が視覚的な言語理解に役立つことを示している。 本稿では,オフライン強化学習(RL)と言語モデリング(LM)との関係について検討する。 直感的には、RLとLMは、状態間の局所的および長距離的依存に依存する現在の状態と以前の状態に基づいて次の状態を予測するのに類似している。 このような仮定を検証するために,Transformer を用いて様々なオフライン RL タスクを事前学習し,それらのモデルを様々な言語関連タスクで評価した。 実験の結果, RL事前学習モデルでは, LM学習目標を用いたモデルと比較して, 性能が良く, それらの2つのモードに共通する有用な特徴があることがわかった。 潜在的な関係をさらに探求するため,マルコフ特性やRL軌道の逐次的性質などの要因について検討する。

Pre-training has been a useful method for learning implicit transferable knowledge and it shows the benefit of offering complementary features across different modalities. Recent work mainly focuses on the modalities such as image and text, for example, studies show that visual features learned from images can help visual-grounded language understanding. In this paper, we consider investigating the potential connection between offline reinforcement learning (RL) and language modeling (LM). Intuitively, RL and LM are similar in predicting the next states based on the current and previous states, which rely on both local and long-range dependency across states. To validate such an assumption, we pre-trained different offline RL tasks using Transformer and then evaluate these models on various language-related tasks. Experimental results show that our RL pre-trained models can give close performance compared with the models using the LM training objective, showing that there exist common useful features across these two modalities. To further explore the potential relationship, we investigate some factors such as Markov property and the sequential nature of RL trajectory.
翻訳日:2023-01-26 11:59:01 公開日:2022-09-15
# 事前学習した言語モデルからのコンスティテュートパース抽出の実際的有効性の検討

Revisiting the Practical Effectiveness of Constituency Parse Extraction from Pre-trained Language Models ( http://arxiv.org/abs/2211.00479v1 )

ライセンス: Link先を確認
Taeuk Kim(参考訳) CPE-PLM (Constituency Parse extract from Pre-trained Language Models) は、事前訓練された言語モデルの内部知識にのみ依存する選挙区解析木を誘導しようとする最近のパラダイムである。 文脈内学習と同様にタスク固有の微調整を必要としないという観点からは魅力的だが、言語モデルの内部動作を調査するためのプローブとして機能するが、そのようなアプローチの実際的有効性はまだ不明である。 本研究では,CPE-PLMを数学的に再構成し,それに適した2つの高度なアンサンブル手法を提案する。 さらに,CPE-PLMが生成する木が実際に有用であるシナリオについても検討する。 具体的には,cpe-plmは,数ショット設定において,通常の教師付きパーサよりも効果的であることを示す。

Constituency Parse Extraction from Pre-trained Language Models (CPE-PLM) is a recent paradigm that attempts to induce constituency parse trees relying only on the internal knowledge of pre-trained language models. While attractive in the perspective that similar to in-context learning, it does not require task-specific fine-tuning, the practical effectiveness of such an approach still remains unclear, except that it can function as a probe for investigating language models' inner workings. In this work, we mathematically reformulate CPE-PLM and propose two advanced ensemble methods tailored for it, demonstrating that the new parsing paradigm can be competitive with common unsupervised parsers by introducing a set of heterogeneous PLMs combined using our techniques. Furthermore, we explore some scenarios where the trees generated by CPE-PLM are practically useful. Specifically, we show that CPE-PLM is more effective than typical supervised parsers in few-shot settings.
翻訳日:2023-01-26 11:58:40 公開日:2022-09-15
# 逆最適化による最適ロバスト刺激ラマン完全通過

Optimal robust stimulated Raman exact passage by inverse optimization ( http://arxiv.org/abs/2209.07631v1 )

ライセンス: Link先を確認
Xavier Laforgue, Ghassen Dridi and St\'ephane Gu\'erin(参考訳) 評価パラメータとして上状態の損失を考慮した最適かつロバストなラマン正確な通過(STIREP)を生成するために,逆幾何最適化手法を適用した。 パルス領域, エネルギー, 持続時間に対して最適である制御場の時間的形状は, 直感的に(始点と終点付近) パルス対と反故意に順序づけられたパルス対を組み合わせた単純なシーケンスを形成する。 結果として生じるダイナミクスは、ロバストでない最適STIREPの約3分の1の損失を生み出す。 より低い損失、より大きなパルス領域、完全に直観的なパルスシーケンスを含む別の最適解が導かれる。

We apply the inverse geometric optimization technique to generate an optimal and robust stimulated Raman exact passage (STIREP) considering the loss of the upper state as a characterization parameter. Control fields temporal shapes that are optimal with respect to pulse area, energy, and duration, are found to form a simple sequence with a combination of intuitively (near the beginning and the end) and counter-intuitively ordered pulse pairs. The resulting dynamics produces a loss which is about a third of that of the non-robust optimal STIREP. Alternative optimal solutions featuring lower losses, larger pulse areas, and fully counter-intuitive pulse sequences are derived.
翻訳日:2023-01-26 11:58:23 公開日:2022-09-15
# 教師なし視覚表現のための画像間不変性

Delving into Inter-Image Invariance for Unsupervised Visual Representations ( http://arxiv.org/abs/2008.11702v3 )

ライセンス: Link先を確認
Jiahao Xie, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy(参考訳) コントラスト学習は近年,教師なし視覚表現学習において大きな可能性を示している。 既存の研究は主に画像内不変学習に焦点を当てている。 学習は通常、豊富な画像内変換を用いて正のペアを構築し、コントラスト損失を用いて一致を最大化する。 画像間不変性の利点は、逆に、探索がはるかに少ないままである。 画像間不変性を利用する大きな障害の1つは、画像間正のペアを確実に構築する方法が不明確であり、ペアアノテーションが利用できないため、それらから効果的な監督を導出することである。 本稿では,疑似ラベル維持,サンプリング戦略,決定境界設計という3つの主構成成分から画像間不変性学習の役割をより深く理解するために,総合的な実証研究を行う。 本研究では,教師なしと画像間不変学習の統合を支援する統一的で汎用的なフレームワークを提案する。 慎重に設計された比較と分析によって、複数の貴重な観察が明らかになる。 1)オンラインレーベルは,オフラインレーベルよりも速く収束し,優れた性能を発揮する 2)半硬質陰性試料は硬質陰性試料よりも信頼性が高く偏りがない。 3) 画像間不変学習において, より厳密な決定境界が好ましい。 得られたすべてのレシピにおいて、最終モデルであるInterCLRは、複数の標準ベンチマーク上での最先端の不変性学習法に対して一貫した改善を示す。 我々は、この研究が効果的な教師なし画像間不変学習を考案するための有用な経験を提供することを望んでいる。 コード: https://github.com/open-mmlab/mmselfsup。

Contrastive learning has recently shown immense potential in unsupervised visual representation learning. Existing studies in this track mainly focus on intra-image invariance learning. The learning typically uses rich intra-image transformations to construct positive pairs and then maximizes agreement using a contrastive loss. The merits of inter-image invariance, conversely, remain much less explored. One major obstacle to exploit inter-image invariance is that it is unclear how to reliably construct inter-image positive pairs, and further derive effective supervision from them since no pair annotations are available. In this work, we present a comprehensive empirical study to better understand the role of inter-image invariance learning from three main constituting components: pseudo-label maintenance, sampling strategy, and decision boundary design. To facilitate the study, we introduce a unified and generic framework that supports the integration of unsupervised intra- and inter-image invariance learning. Through carefully-designed comparisons and analysis, multiple valuable observations are revealed: 1) online labels converge faster and perform better than offline labels; 2) semi-hard negative samples are more reliable and unbiased than hard negative samples; 3) a less stringent decision boundary is more favorable for inter-image invariance learning. With all the obtained recipes, our final model, namely InterCLR, shows consistent improvements over state-of-the-art intra-image invariance learning methods on multiple standard benchmarks. We hope this work will provide useful experience for devising effective unsupervised inter-image invariance learning. Code: https://github.com/open-mmlab/mmselfsup.
翻訳日:2022-10-24 21:10:21 公開日:2022-09-15
# 自動モデル発見に向けた構成型ニューラルネットワークの新ファミリー

A new family of Constitutive Artificial Neural Networks towards automated model discovery ( http://arxiv.org/abs/2210.02202v1 )

ライセンス: Link先を確認
Kevin Linka and Ellen Kuhl(参考訳) 100年以上にわたり、化学、物理、材料科学者は、機械的荷重に反応して自然および人工物の挙動を最適に特徴づけるために、競合する構成モデルを提案した。 コンピュータサイエンスは、ニューラルネットワークという普遍的な解決策を提供します。 ニューラルネットワークは、基礎となる物理を知らずに、大規模データから構成関係を学習できる強力な関数近似器である。 しかし、古典ニューラルネットワークは構成モデリングの1世紀にわたる研究を完全に無視し、熱力学的考察に反し、トレーニング体制の外での振る舞いを予測できない。 ここでは,一般的な運動,熱力学,物理の制約を本質的に満たす構成的ニューラルネットワークの新たなファミリーを設計し,同時に許容関数の設計空間を制約し,スパースデータの存在下においてもロバストな近似器を作成する。 この目的に向けて、力学の非線形場の理論を再検討し、材料客観性、対称性、非圧縮性を考慮したネットワーク入力、熱力学的一貫性を強制するネットワーク出力、物理的に合理的な制約を実装するためのアクティベーション関数、多凸性を保証するネットワークアーキテクチャについて検討する。 新しいタイプのモデルは、古典的なneo hooke, blatz ko, mooney rivlin, yeoh, demirayモデルの一般化であり、ネットワークの重みは明確な物理的解釈を持つことを実証する。 一軸張力, 二軸伸張, 純せん断条件下でのゴムの古典的ベンチマークデータを用いて訓練すると, ネットワークは最適構成モデルを自律的に選択し, そのパラメータ集合を学習する。 その結果,構成型ニューラルネットワークは,ユーザ定義モデル選択から自動モデル発見まで,構成型モデルにパラダイムシフトをもたらす可能性が示唆された。

For more than 100 years, chemical, physical, and material scientists have proposed competing constitutive models to best characterize the behavior of natural and man-made materials in response to mechanical loading. Now, computer science offers a universal solution: Neural Networks. Neural Networks are powerful function approximators that can learn constitutive relations from large data without any knowledge of the underlying physics. However, classical Neural Networks entirely ignore a century of research in constitutive modeling, violate thermodynamic considerations, and fail to predict the behavior outside the training regime. Here we design a new family of Constitutive Artificial Neural Networks that inherently satisfy common kinematic, thermodynamic, and physic constraints and, at the same time, constrain the design space of admissible functions to create robust approximators, even in the presence of sparse data. Towards this goal we revisit the non-linear field theories of mechanics and reverse-engineer the network input to account for material objectivity, symmetry, and incompressibility; the network output to enforce thermodynamic consistency; the activation functions to implement physically reasonable restrictions; and the network architecture to ensure polyconvexity. We demonstrate that this new class of models is a generalization of the classical neo Hooke, Blatz Ko, Mooney Rivlin, Yeoh, and Demiray models and that the network weights have a clear physical interpretation. When trained with classical benchmark data for rubber under uniaxial tension, biaxial extension, and pure shear, our network autonomously selects the best constitutive model and learns its set of parameters. Our findings suggests that Constitutive Artificial Neural Networks have the potential to induce a paradigm shift in constitutive modeling, from user-defined model selection to automated model discovery.
翻訳日:2022-10-09 17:25:39 公開日:2022-09-15
# 高次元におけるサンプルおよび計算効率の高い確率的クリグ

Sample and Computationally Efficient Stochastic Kriging in High Dimensions ( http://arxiv.org/abs/2010.06802v5 )

ライセンス: Link先を確認
Liang Ding and Xiaowei Zhang(参考訳) 確率クリギングは複雑なシミュレーションモデルの応答面を予測するためにシミュレーションメタモデリングに広く用いられている。 しかし、その用途は設計空間が低次元である場合に限られる。なぜなら一般に、標本の複雑さ(すなわち、正確な予測を行うのに確率的クリグティングに必要な設計点の数)は設計空間の次元において指数関数的に増加するからである。 大きなサンプルサイズは、シミュレーションモデルを実行するための禁止的なサンプルコストと、大きな共分散行列を反転させる必要性による厳しい計算チャレンジの両方をもたらす。 テンソルマルコフ核とスパースグリッド実験設計に基づき,次元の呪いを劇的に緩和する新しい手法を開発した。 提案手法のサンプル複雑性は, モデル的不特定性の下でも, 次元的にわずかに増大する。 また, 近似スキームを使わずに, 確率krigingを計算できる高速アルゴリズムを開発した。 我々は,提案手法が1万次元以上の設計空間で問題に対処できることを示す広範な数値実験を通じて,予測精度と計算効率を,従来の代替手法と比較して桁違いに向上できることを示した。

Stochastic kriging has been widely employed for simulation metamodeling to predict the response surface of complex simulation models. However, its use is limited to cases where the design space is low-dimensional because, in general, the sample complexity (i.e., the number of design points required for stochastic kriging to produce an accurate prediction) grows exponentially in the dimensionality of the design space. The large sample size results in both a prohibitive sample cost for running the simulation model and a severe computational challenge due to the need to invert large covariance matrices. Based on tensor Markov kernels and sparse grid experimental designs, we develop a novel methodology that dramatically alleviates the curse of dimensionality. We show that the sample complexity of the proposed methodology grows only slightly in the dimensionality, even under model misspecification. We also develop fast algorithms that compute stochastic kriging in its exact form without any approximation schemes. We demonstrate via extensive numerical experiments that our methodology can handle problems with a design space of more than 10,000 dimensions, improving both prediction accuracy and computational efficiency by orders of magnitude relative to typical alternative methods in practice.
翻訳日:2022-10-07 14:03:21 公開日:2022-09-15
# 協調型マルチエージェントシステムを用いた分類問題の解法

How to solve a classification problem using a cooperative tiling Multi-Agent System? ( http://arxiv.org/abs/2209.14239v1 )

ライセンス: Link先を確認
Thibault Fourez (IRIT-SMAC), Nicolas Verstaevel (IRIT-SMAC), Fr\'ed\'eric Migeon (IRIT-SMAC), Fr\'ed\'eric Schettini, Fr\'ed\'eric Amblard (IRIT-SMAC)(参考訳) 適応多エージェントシステム(AMAS)は動的問題をエージェント間の局所的な協調の問題に変換する。 エージェントに協調ルールに加えて機械学習モデルを提供する移動予測のためのアンサンブルベースのAMAS実装であるsmapyを提案する。 詳細な手法を用いて,分類問題を入力変数空間の協調的タイリングに変換する枠組みを提案する。 協調型マルチエージェント構造に統合された場合, 線形分離性の異なる3種類のベンチマーク玩具問題に対して, オンライン非線形分類に線形分類器を用いることが可能であることを示す。 その結果,非線形文脈における線形分類器の性能は,協調的アプローチにより,分類精度と決定境界の観点から有意に向上した。

Adaptive Multi-Agent Systems (AMAS) transform dynamic problems into problems of local cooperation between agents. We present smapy, an ensemble based AMAS implementation for mobility prediction, whose agents are provided with machine learning models in addition to their cooperation rules. With a detailed methodology, we propose a framework to transform a classification problem into a cooperative tiling of the input variable space. We show that it is possible to use linear classifiers for online non-linear classification on three benchmark toy problems chosen for their different levels of linear separability, if they are integrated in a cooperative Multi-Agent structure. The results obtained show a significant improvement of the performance of linear classifiers in non-linear contexts in terms of classification accuracy and decision boundaries, thanks to the cooperative approach.
翻訳日:2022-10-02 23:31:43 公開日:2022-09-15
# 材料工学における人工知能: 材料工学におけるAIの応用に関するレビュー

Artificial Intelligence in Material Engineering: A review on applications of AI in Material Engineering ( http://arxiv.org/abs/2209.11234v1 )

ライセンス: Link先を確認
Lipichanda Goswami, Manoj Deka and Mohendra Roy(参考訳) 近年,材料工学の分野で人工知能(AI)が広く利用されている。 これは、高性能コンピューティングの開発に起因し、大きなパラメータを持つディープラーニングモデルをテストすることが可能である。 この記事では、物質工学におけるAIの応用における最新の発展のいくつかをレビューしようと試みた。

Recently, there has been extensive use of artificial Intelligence (AI) in the field of material engineering. This can be attributed to the development of high performance computing and thereby feasibility to test deep learning models with large parameters. In this article we tried to review some of the latest developments in the applications of AI in material engineering.
翻訳日:2022-10-02 23:31:06 公開日:2022-09-15
# 公共の知恵! ソーシャルテキスト分類のための対話型ハイパーボリックフーリエ共用

Public Wisdom Matters! Discourse-Aware Hyperbolic Fourier Co-Attention for Social-Text Classification ( http://arxiv.org/abs/2209.13017v1 )

ライセンス: Link先を確認
Karish Grover, S.M. Phaneendra Angara, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) ソーシャルメディアはあらゆる形のコミュニケーションの基盤となっている。 偽ニュース、噂、皮肉などのソーシャルテキストの分類が注目されている。 ソーシャルテキスト自体で表される表面レベルの信号は,そのようなタスクには適さない可能性があるため,近年ではユーザ行動や基礎となるグラフ構造などの本質的な信号を組み込もうと試みている。 しばしば、社会テキストへのコメントや返信を通じて表現される「公的な知恵」は、クラウドソースの視点の代理として機能し、補完的なシグナルを提供する。 ソーシャルテキスト分類における最先端の手法は、このようなリッチな階層的シグナルを無視する傾向がある。 本稿では,対話型双曲スペクトルコアテンションネットワークHyphenを提案する。 ハイフンは双曲グラフ表現学習と新しいフーリエ協調機構の融合であり、公の談話を取り込むことで社会的テキスト分類タスクを一般化しようとする試みである。 我々は公言を抽象的意味表現(amr)グラフとして解析し、階層構造を持つグラフをモデル化するために強力な双曲幾何学表現を用いる。 最後に,新しいフーリエ・コアテンション・メカニズムを取り入れ,ソースポストと公開談話の相関関係を捉える。 フェイクニュース、ヘイトスピーチ、噂、皮肉といった4つのソーシャルテキスト分類タスクに関する大規模な実験は、Hyphenがうまく一般化し、10のベンチマークデータセットで最先端の結果を達成することを示す。 また、文レベルのファクトチェックと注釈付きデータセットを用いて、最終予測の類似の証拠としてハイフンがどのように生成できるかを評価する。

Social media has become the fulcrum of all forms of communication. Classifying social texts such as fake news, rumour, sarcasm, etc. has gained significant attention. The surface-level signals expressed by a social-text itself may not be adequate for such tasks; therefore, recent methods attempted to incorporate other intrinsic signals such as user behavior and the underlying graph structure. Oftentimes, the `public wisdom' expressed through the comments/replies to a social-text acts as a surrogate of crowd-sourced view and may provide us with complementary signals. State-of-the-art methods on social-text classification tend to ignore such a rich hierarchical signal. Here, we propose Hyphen, a discourse-aware hyperbolic spectral co-attention network. Hyphen is a fusion of hyperbolic graph representation learning with a novel Fourier co-attention mechanism in an attempt to generalise the social-text classification tasks by incorporating public discourse. We parse public discourse as an Abstract Meaning Representation (AMR) graph and use the powerful hyperbolic geometric representation to model graphs with hierarchical structure. Finally, we equip it with a novel Fourier co-attention mechanism to capture the correlation between the source post and public discourse. Extensive experiments on four different social-text classification tasks, namely detecting fake news, hate speech, rumour, and sarcasm, show that Hyphen generalises well, and achieves state-of-the-art results on ten benchmark datasets. We also employ a sentence-level fact-checked and annotated dataset to evaluate how Hyphen is capable of producing explanations as analogous evidence to the final prediction.
翻訳日:2022-10-02 23:24:12 公開日:2022-09-15
# 点過程生成のための粒子勾配降下モデル

Particle gradient descent model for point process generation ( http://arxiv.org/abs/2010.14928v3 )

ライセンス: Link先を確認
Antoine Brochard, Bart{\l}omiej B{\l}aszczyszyn, St\'ephane Mallat, Sixin Zhang(参考訳) 本稿では,正方形窓で観測される単一実現から推定される定常エルゴード点過程の統計モデルを提案する。 既存の確率幾何学のアプローチでは、多数の粒子によって形成される複雑な測地を持つ過程をモデル化することは極めて困難である。 最大エントロピーモデルをサンプリングするための勾配降下アルゴリズムに関する最近の研究に触発され、与えられた観測統計を再現する新しい構成を素早くサンプリングできるモデルを記述する。 最初のランダムな構成から始めると、その粒子は所定のモーメント(関数)の集合に一致するように、エネルギーの勾配に応じて移動される。 我々のモーメントは、点パターンのウェーブレット変換上の位相調和演算子によって定義される。 粒子間のマルチスケールの相互作用を捉えることができ、モデル化する構造のスケールによってモーメントの数を明示的に制御できる。 様々な幾何学的構造を持つ点過程に関する数値実験を行い、スペクトルおよび位相データ解析によりモデルの品質を評価する。

This paper presents a statistical model for stationary ergodic point processes, estimated from a single realization observed in a square window. With existing approaches in stochastic geometry, it is very difficult to model processes with complex geometries formed by a large number of particles. Inspired by recent works on gradient descent algorithms for sampling maximum-entropy models, we describe a model that allows for fast sampling of new configurations reproducing the statistics of the given observation. Starting from an initial random configuration, its particles are moved according to the gradient of an energy, in order to match a set of prescribed moments (functionals). Our moments are defined via a phase harmonic operator on the wavelet transform of point patterns. They allow one to capture multi-scale interactions between the particles, while controlling explicitly the number of moments by the scales of the structures to model. We present numerical experiments on point processes with various geometric structures, and assess the quality of the model by spectral and topological data analysis.
翻訳日:2022-10-02 11:59:11 公開日:2022-09-15
# 生産における能力と技能の共通理解のための参照モデル

A Reference Model for Common Understanding of Capabilities and Skills in Manufacturing ( http://arxiv.org/abs/2209.09632v1 )

ライセンス: Link先を確認
Aljosha K\"ocher, Alexander Belyaev, Jesko Hermann, J\"urgen Bock, Kristof Meixner, Magnus Volkmann, Michael Winter, Patrick Zimmermann, Stephan Grimm, and Christian Diedrich(参考訳) 製造において、Industrial 4.0の多くのユースケースは、リソース機能を記述、実装、実行するためにベンダーニュートラルおよびマシン可読な情報モデルを必要とする。 このようなモデルは、能力と技術によって研究されている。 このようなモデルの標準化は必要だが、現在は利用できない。 本稿では,Plattform Industrie 4.0のワーキンググループにおいて,様々な組織のメンバーが共同で開発したリファレンスモデルを提案する。 このモデルは能力とスキルの最も重要な側面を定義します。 これはさらなる標準化努力の基盤と見なすことができる。

In manufacturing, many use cases of Industry 4.0 require vendor-neutral and machine-readable information models to describe, implement and execute resource functions. Such models have been researched under the terms capabilities and skills. Standardization of such models is required, but currently not available. This paper presents a reference model developed jointly by members of various organizations in a working group of the Plattform Industrie 4.0. This model covers definitions of most important aspects of capabilities and skills. It can be seen as a basis for further standardization efforts.
翻訳日:2022-09-25 17:23:19 公開日:2022-09-15
# リモートセンシングローカルデータを用いたワイルドファイアグリッドマップのマルチタイム予測

Multi-time Predictions of Wildfire Grid Map using Remote Sensing Local Data ( http://arxiv.org/abs/2209.10102v1 )

ライセンス: Link先を確認
Hyung-Jin Yoon and Petros Voulgaris(参考訳) 近年の気候変動により、米国ではより頻繁で厳しい山火事が起きている。 森林火災の予測は自然災害の予防と緩和に重要である。 データ処理と通信技術の進歩により、リモートセンシングデータへのアクセスが可能になった。 リモートセンシングデータでは、貴重な時空間統計モデルを作成し、リソース管理のプラクティスに使用できる。 本稿では,米国西部の10か所で収集されたローカルデータをローカルエージェントで共有する分散学習フレームワークを提案する。 ローカルエージェントは、リモートセンシングデータストリームをオンラインで処理している間、1、2、3、4週間前にwildfireグリッドマップを事前に予測することを目指している。 提案モデルは,動的オンライン推定や時系列モデリングなど,予測評価における特性ニーズに対応する特徴を有する。 局所的な火災イベントトリガーは場所間では分離されず、不完全な状態観測によって局所的なデータが分析される際には、相反する要因が存在する。 wildfire時系列データ内の不完全な状態観測を考慮しない既存のアプローチと比較して、平均して高い予測性能を達成できる。

Due to recent climate changes, we have seen more frequent and severe wildfires in the United States. Predicting wildfires is critical for natural disaster prevention and mitigation. Advances in technologies in data processing and communication enabled us to access remote sensing data. With the remote sensing data, valuable spatiotemporal statistical models can be created and used for resource management practices. This paper proposes a distributed learning framework that shares local data collected in ten locations in the western USA throughout the local agents. The local agents aim to predict wildfire grid maps one, two, three, and four weeks in advance while online processing the remote sensing data stream. The proposed model has distinct features that address the characteristic need in prediction evaluations, including dynamic online estimation and time-series modeling. Local fire event triggers are not isolated between locations, and there are confounding factors when local data is analyzed due to incomplete state observations. Compared to existing approaches that do not account for incomplete state observation within wildfire time-series data, on average, we can achieve higher prediction performance.
翻訳日:2022-09-25 17:22:25 公開日:2022-09-15
# Neural-iLQR: 軌道最適化のための学習支援シューティング手法

Neural-iLQR: A Learning-Aided Shooting Method for Trajectory Optimization ( http://arxiv.org/abs/2011.10737v3 )

ライセンス: Link先を確認
Zilong Cheng, Yulin Li, Kai Chen, Jun Ma, Tong Heng Lee(参考訳) 反復線形二次レギュレータ (iLQR) は非線形システムモデルによる軌道最適化問題に対処するために広く普及している。 しかし、モデルベースの射撃法として、最適な制御アクションと前方統合によって決定される軌道を更新するための正確なシステムモデルに大きく依存し、避けられないモデルの不正確さに脆弱になる。 近年,未知のシステムモデル,特に環境との複雑な相互作用に対処する上で,学習に基づく最適制御問題の解法の研究が盛んに進められている。 しかし、ディープニューラルネットワークは通常、大量のサンプリングデータに適合するように要求される。 本研究では,非拘束的制御空間上の学習支援型シューティング手法であるNeural-iLQRを提案する。 この枠組みでは、システムモデルの事前知識に頼らずに、最適なポリシーとニューラルネットワークを反復的に洗練することで軌道最適化タスクを実現する。 2つの図形制御タスクの総合的な評価を通じて,システムモデルにおける不正確さの存在下で,従来のiLQRよりも優れた性能を示すことを示す。

Iterative linear quadratic regulator (iLQR) has gained wide popularity in addressing trajectory optimization problems with nonlinear system models. However, as a model-based shooting method, it relies heavily on an accurate system model to update the optimal control actions and the trajectory determined with forward integration, thus becoming vulnerable to inevitable model inaccuracies. Recently, substantial research efforts in learning-based methods for optimal control problems have been progressing significantly in addressing unknown system models, particularly when the system has complex interactions with the environment. Yet a deep neural network is normally required to fit substantial scale of sampling data. In this work, we present Neural-iLQR, a learning-aided shooting method over the unconstrained control space, in which a neural network with a simple structure is used to represent the local system model. In this framework, the trajectory optimization task is achieved with simultaneous refinement of the optimal policy and the neural network iteratively, without relying on the prior knowledge of the system model. Through comprehensive evaluations on two illustrative control tasks, the proposed method is shown to outperform the conventional iLQR significantly in the presence of inaccuracies in system models.
翻訳日:2022-09-22 22:56:20 公開日:2022-09-15
# MIPI 2022 RGBWセンサリモザイクの課題:データセットと報告

MIPI 2022 Challenge on RGBW Sensor Re-mosaic: Dataset and Report ( http://arxiv.org/abs/2209.08471v1 )

ライセンス: Link先を確認
Qingyu Yang, Guang Yang, Jun Jiang, Chongyi Li, Ruicheng Feng, Shangchen Zhou, Wenxiu Sun, Qingpeng Zhu, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータがないことと、産業や学界からの視点を深く交換する稀な機会が、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 このギャップを埋めるために,新しいイメージセンサとイメージングアルゴリズムに焦点を当てた5つのトラックを含む,最初のmipiチャレンジを紹介する。 本稿では,RGBW CFAをバイエルにフル解像度で補間する5トラックの1つであるRGBW Joint Remosaic and Denoiseを紹介する。 参加者は、高品質のrgbwとbayerペアの70(トレーニング)と15(評価)のシーンを含む新しいデータセットを提供した。 さらに、各シーン毎に、0dB、24dB、42dBで異なるノイズレベルのRGBWが提供された。 すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。 最終結果は、PSNR、SSIM、LPIPS、KLDなどの客観的指標を用いて評価される。 本論文では,本課題で開発された全モデルについて詳述する。 この課題の詳細とデータセットへのリンクは、https://github.com/mipi-challenge/mipi2022にある。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). To bridge the gap, we introduce the first MIPI challenge including five tracks focusing on novel image sensors and imaging algorithms. In this paper, RGBW Joint Remosaic and Denoise, one of the five tracks, working on the interpolation of RGBW CFA to Bayer at full resolution, is introduced. The participants were provided with a new dataset including 70 (training) and 15 (validation) scenes of high-quality RGBW and Bayer pairs. In addition, for each scene, RGBW of different noise levels was provided at 0dB, 24dB, and 42dB. All the data were captured using an RGBW sensor in both outdoor and indoor conditions. The final results are evaluated using objective metrics including PSNR, SSIM, LPIPS, and KLD. A detailed description of all models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://github.com/mipi-challenge/MIPI2022.
翻訳日:2022-09-20 19:29:54 公開日:2022-09-15
# ラベル選択の有無による偏りのある臨床機械学習モデルパフォーマンス推定の回避

Avoiding Biased Clinical Machine Learning Model Performance Estimates in the Presence of Label Selection ( http://arxiv.org/abs/2209.09188v1 )

ライセンス: Link先を確認
Conor K. Corbin, Michael Baiocchi, Jonathan H. Chen(参考訳) 臨床機械学習モデルの性能を評価する場合、展開人口を考慮する必要がある。 観察されたラベルを持つ患者の集団が展開人口のサブセットである場合(ラベル選択)、観察された人口に関する標準モデルの性能推定は誤解を招く可能性がある。 本研究では,ラベル選択の3つのクラスを記述し,5つの因果的に異なるシナリオをシミュレートし,特定の選択メカニズムが,一般的に報告されている2つの機械学習モデルのパフォーマンス指標のスイートをどのようにバイアスするかを評価する。 シミュレーションにより、選択が観察された特徴によって影響を受ける場合、モデル識別のナイーブな推定は誤解を招く可能性があることが判明した。 ラベルによって選択が影響を受ける場合、キャリブレーションのナイーブ推定は現実を反映しない。 因果推論文献から従来の重み付け推定器を借用し,選択確率を適切に指定すると,全人口推定値を回収する。 次に、臨床医とのインタラクションがラベルの選択メカニズムに影響を与える、デプロイされた機械学習モデルのパフォーマンスを監視する現実的なタスクに取り組む。 低収率の研究室診断にフラグを付けるために3つの機械学習モデルを訓練し、無駄な研究室利用を減らすための意図した結果をシミュレートした。 その結果, 観測個体群におけるAUROCの有意な推定値が, 実成績を最大20%下回ることがわかった。 このような格差は、成功した臨床意思決定支援ツールの誤った終了につながる可能性がある。 我々は,注入ランダム化と従来の重み付け推定を組み合わせた配置手順の修正を提案し,真のモデル性能を回復させる。

When evaluating the performance of clinical machine learning models, one must consider the deployment population. When the population of patients with observed labels is only a subset of the deployment population (label selection), standard model performance estimates on the observed population may be misleading. In this study we describe three classes of label selection and simulate five causally distinct scenarios to assess how particular selection mechanisms bias a suite of commonly reported binary machine learning model performance metrics. Simulations reveal that when selection is affected by observed features, naive estimates of model discrimination may be misleading. When selection is affected by labels, naive estimates of calibration fail to reflect reality. We borrow traditional weighting estimators from causal inference literature and find that when selection probabilities are properly specified, they recover full population estimates. We then tackle the real-world task of monitoring the performance of deployed machine learning models whose interactions with clinicians feed-back and affect the selection mechanism of the labels. We train three machine learning models to flag low-yield laboratory diagnostics, and simulate their intended consequence of reducing wasteful laboratory utilization. We find that naive estimates of AUROC on the observed population undershoot actual performance by up to 20%. Such a disparity could be large enough to lead to the wrongful termination of a successful clinical decision support tool. We propose an altered deployment procedure, one that combines injected randomization with traditional weighted estimates, and find it recovers true model performance.
翻訳日:2022-09-20 19:14:09 公開日:2022-09-15
# UNet-based Adversarial Domain Homogenizerによるミトコンドリア検出の改善

Improving Mitosis Detection Via UNet-based Adversarial Domain Homogenizer ( http://arxiv.org/abs/2209.09193v1 )

ライセンス: Link先を確認
Tirupati Saketh Chandr, Sahar Almahfouz Nasser, Nikhil Cherian Kurian, and Amit Sethi(参考訳) 有糸分裂の効果的な局在化は腫瘍の予後とグレードを決定する重要な前駆的課題である。 深層学習指向の画像解析によるミトコンドリアの自動検出は、固有のドメインバイアスのため、目に見えない患者データに失敗することが多い。 本稿では,入力画像の敵対的再構成による組織像の領域差の軽減を試み,mitosis検出のためのドメインホモゲナイザを提案する。 提案したホモジェナイザーはU-Netアーキテクチャに基づいており、組織像データでよく見られる領域差を効果的に低減することができる。 我々は,前処理画像間の領域差の低減を観察することにより,ドメインホモジェナイザの有効性を示す。 このホモジェナイザーと後続の網膜-網状物体検出器を用いて、検出されたミオティックな図形の平均精度で2021 MIDOGチャレンジのベースラインを上回りました。

The effective localization of mitosis is a critical precursory task for deciding tumor prognosis and grade. Automated mitosis detection through deep learning-oriented image analysis often fails on unseen patient data due to inherent domain biases. This paper proposes a domain homogenizer for mitosis detection that attempts to alleviate domain differences in histology images via adversarial reconstruction of input images. The proposed homogenizer is based on a U-Net architecture and can effectively reduce domain differences commonly seen with histology imaging data. We demonstrate our domain homogenizer's effectiveness by observing the reduction in domain differences between the preprocessed images. Using this homogenizer, along with a subsequent retina-net object detector, we were able to outperform the baselines of the 2021 MIDOG challenge in terms of average precision of the detected mitotic figures.
翻訳日:2022-09-20 18:36:09 公開日:2022-09-15
# 空中ビデオ行動認識のための周波数に基づく周波数差アンタングル

Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition ( http://arxiv.org/abs/2209.09194v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Ming Lin, Dinesh Manocha(参考訳) ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。 我々のアプローチはUAVビデオのために設計されており、主に人間のアクターと背景の動きを含む斜めに配置されたダイナミックカメラから取得される。 通常、人間の俳優は空間分解能の10分の1以下を占める。 本手法では,信号処理における古典的解析ツールである周波数領域表現と,データ駆動ニューラルネットワークの利点を同時に活用する。 本研究では,映像中の静的および動的画素をモデル化するために,動作認識の基本的なタスクに不可欠な,微分可能な静的な周波数マスクを構築する。 我々は、この識別可能なマスクを使用して、ニューラルネットワークが識別損失関数を介して本質的に非絡み合った特徴表現を学習できるようにする。 提案方式によりネットワークは,その層内の不連続なサルエント特徴を本質的に計算できる。 さらに,時間的関係と空間的内容をカプセル化したコスト関数を提案し,一様空間の映像セグメント内で最も重要なフレームをサンプリングする。 我々はUAV HumanデータセットとNEC Droneデータセットに関する広範な実験を行い、最先端技術に対する5.72%~13.00%、対応するベースラインモデルに対する14.28%~38.05%の相対的な改善を示す。

We present a learning algorithm for human activity recognition in videos. Our approach is designed for UAV videos, which are mainly acquired from obliquely placed dynamic cameras that contain a human actor along with background motion. Typically, the human actors occupy less than one-tenth of the spatial resolution. Our approach simultaneously harnesses the benefits of frequency domain representations, a classical analysis tool in signal processing, and data driven neural networks. We build a differentiable static-dynamic frequency mask prior to model the salient static and dynamic pixels in the video, crucial for the underlying task of action recognition. We use this differentiable mask prior to enable the neural network to intrinsically learn disentangled feature representations via an identity loss function. Our formulation empowers the network to inherently compute disentangled salient features within its layers. Further, we propose a cost-function encapsulating temporal relevance and spatial content to sample the most important frame within uniformly spaced video segments. We conduct extensive experiments on the UAV Human dataset and the NEC Drone dataset and demonstrate relative improvements of 5.72% - 13.00% over the state-of-the-art and 14.28% - 38.05% over the corresponding baseline model.
翻訳日:2022-09-20 18:35:55 公開日:2022-09-15
# パートベースモデルによる対向ロバスト性の改善

Part-Based Models Improve Adversarial Robustness ( http://arxiv.org/abs/2209.09117v1 )

ライセンス: Link先を確認
Chawin Sitawarin, Kornrapat Pongmala, Yizheng Chen, Nicholas Carlini, David Wagner(参考訳) 人間の事前知識とエンドツーエンド学習を組み合わせることで、オブジェクト分類のためのパートベースモデルを導入することにより、ディープニューラルネットワークの堅牢性を向上させることができることを示す。 よりリッチなアノテーションは、より多くのサンプルやより大きなモデルを必要とすることなく、ニューラルネットワークがより堅牢な機能を学ぶのに役立つと信じています。 私たちのモデルは、部分セグメンテーションモデルと小さな分類器を組み合わせることで、エンドツーエンドで、同時にオブジェクトをパーツにセグメンテーションし、次にセグメンテーションされたオブジェクトを分類します。 実験的に、我々のパートベースモデルは、3つのデータセットのResNet-50ベースラインよりも高い精度と高い対逆ロバスト性を達成する。 例えば、我々のパーツモデルのクリーンな精度は、同じレベルの堅牢性を考慮して、ベースラインよりも最大15パーセント高い。 私たちの実験では、これらのモデルがテクスチャバイアスを低減し、共通の腐敗やスプリアス相関に対するロバスト性を高めることも示しています。 コードはhttps://github.com/chawins/adv-part-modelで公開されている。

We show that combining human prior knowledge with end-to-end learning can improve the robustness of deep neural networks by introducing a part-based model for object classification. We believe that the richer form of annotation helps guide neural networks to learn more robust features without requiring more samples or larger models. Our model combines a part segmentation model with a tiny classifier and is trained end-to-end to simultaneously segment objects into parts and then classify the segmented object. Empirically, our part-based models achieve both higher accuracy and higher adversarial robustness than a ResNet-50 baseline on all three datasets. For instance, the clean accuracy of our part models is up to 15 percentage points higher than the baseline's, given the same level of robustness. Our experiments indicate that these models also reduce texture bias and yield better robustness against common corruptions and spurious correlations. The code is publicly available at https://github.com/chawins/adv-part-model.
翻訳日:2022-09-20 17:36:31 公開日:2022-09-15
# 時間論理記述を用いた解釈可能な時系列分類のためのニューロシンボリックモデル

Neuro-symbolic Models for Interpretable Time Series Classification using Temporal Logic Description ( http://arxiv.org/abs/2209.09114v1 )

ライセンス: Link先を確認
Ruixuan Yan, Tengfei Ma, Achille Fokoue, Maria Chang, Agung Julius(参考訳) 既存の時系列分類(TSC)モデルは解釈可能性に欠けており、検査が困難である。 解釈可能な機械学習モデルは、データ内のパターンの発見を支援し、ドメインの専門家に理解しやすい洞察を与える。 本研究では、信号時相論理(STL)とニューラルネットワーク(NN)を利用して、マルチビューデータ表現を用いてTSCタスクを達成し、そのモデルを人間可読で解釈可能な公式として表現するニューロシンボリック時系列分類(NSTSC)を提案する。 NSTSCでは、各ニューロンは記号的表現、すなわちSTL(sub)formulaにリンクされる。 したがって、NSTSCの出力は自然言語に似たSTL式として解釈され、データに隠された時間的および論理的関係を記述する。 式構造を学習し,マルチクラス TSC タスクを達成するための決定木アプローチを採用した NSTSC ベースの分類器を提案する。 提案したwSTLのスムーズなアクティベーション関数により、モデルをエンドツーエンドで学習することができる。 我々は,マウスによる実際の創傷治癒データセットとUCR時系列リポジトリからのベンチマークデータセットを用いてNSTSCを試験し,NSTSCが最先端のモデルと同等のパフォーマンスを達成することを示す。 さらに、NSTSCはドメイン知識と一致する解釈式を生成することができる。

Most existing Time series classification (TSC) models lack interpretability and are difficult to inspect. Interpretable machine learning models can aid in discovering patterns in data as well as give easy-to-understand insights to domain specialists. In this study, we present Neuro-Symbolic Time Series Classification (NSTSC), a neuro-symbolic model that leverages signal temporal logic (STL) and neural network (NN) to accomplish TSC tasks using multi-view data representation and expresses the model as a human-readable, interpretable formula. In NSTSC, each neuron is linked to a symbolic expression, i.e., an STL (sub)formula. The output of NSTSC is thus interpretable as an STL formula akin to natural language, describing temporal and logical relations hidden in the data. We propose an NSTSC-based classifier that adopts a decision-tree approach to learn formula structures and accomplish a multiclass TSC task. The proposed smooth activation functions for wSTL allow the model to be learned in an end-to-end fashion. We test NSTSC on a real-world wound healing dataset from mice and benchmark datasets from the UCR time-series repository, demonstrating that NSTSC achieves comparable performance with the state-of-the-art models. Furthermore, NSTSC can generate interpretable formulas that match with domain knowledge.
翻訳日:2022-09-20 16:33:23 公開日:2022-09-15
# インクリメンタル構造拡大のためのシーングラフ修正

Scene Graph Modification as Incremental Structure Expanding ( http://arxiv.org/abs/2209.09093v1 )

ライセンス: Link先を確認
Xuming Hu, Zhijiang Guo, Yu Fu, Lijie Wen, Philip S. Yu(参考訳) シーングラフは、シーン内のオブジェクト、属性、およびオブジェクト間の関係を表現する意味表現である。 シーングラフは、画像とテキスト間の相互作用をキャプチャできるため、多くの横断的なタスクにおいて重要な役割を果たす。 本稿では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。 シーングラフ全体を再構築する従来のアプローチとは異なり、SGMはインクリメンタル構造拡張(ISE)を導入してグラフ拡張タスクとして構成する。 ISEは、修正されていない構造を変更することなく、ソースグラフを漸進的に拡張することでターゲットグラフを構築する。 iseに基づいて,ノード予測とエッジ予測を反復し,より正確かつ調和的な拡張決定を段階的に推論するモデルを提案する。 さらに、既存のデータセットよりも複雑なクエリと大きなシーングラフを含む挑戦的なデータセットを構築する。 4つのベンチマークを用いた実験により,従来の最先端モデルを大きく上回る手法の有効性が示された。

A scene graph is a semantic representation that expresses the objects, attributes, and relationships between objects in a scene. Scene graphs play an important role in many cross modality tasks, as they are able to capture the interactions between images and texts. In this paper, we focus on scene graph modification (SGM), where the system is required to learn how to update an existing scene graph based on a natural language query. Unlike previous approaches that rebuilt the entire scene graph, we frame SGM as a graph expansion task by introducing the incremental structure expanding (ISE). ISE constructs the target graph by incrementally expanding the source graph without changing the unmodified structure. Based on ISE, we further propose a model that iterates between nodes prediction and edges prediction, inferring more accurate and harmonious expansion decisions progressively. In addition, we construct a challenging dataset that contains more complicated queries and larger scene graphs than existing datasets. Experiments on four benchmarks demonstrate the effectiveness of our approach, which surpasses the previous state-of-the-art model by large margins.
翻訳日:2022-09-20 15:57:59 公開日:2022-09-15
# vs-cam: ビジョングラフニューラルネットワークを解釈するための頂点意味クラスアクティベーションマッピング

VS-CAM: Vertex Semantic Class Activation Mapping to Interpret Vision Graph Neural Network ( http://arxiv.org/abs/2209.09104v1 )

ライセンス: Link先を確認
Zhenpeng Feng, Xiyang Cui, Hongbing Ji, Mingzhe Zhu, Ljubisa Stankovic(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、様々なコンピュータビジョンタスクにおいて注目され、優れた性能を達成したが、GCNの内部メカニズムの明確な解釈が欠けている。 標準畳み込みニューラルネットワーク(CNN)では、クラスアクティベーションマッピング(CAM)法が、ヒートマップを生成することでCNNの決定と画像領域の間の接続を可視化するために一般的に使用される。 それでも、このようなヒートマップは通常、これらのCAMがGCNに直接適用される際にセマンティックカオスを示す。 本稿では,特にGCN,Vertex Semantic Class Activation Mapping (VS-CAM)に適用可能な新しい可視化手法を提案する。 VS-CAMには2つの独立したパイプラインがあり、それぞれセマンティックプローブマップとセマンティックベースマップを生成する。 semantic-probe mapは、セマンティック・ベース・マップから意味情報を検出し、セマンティック・アウェア・ヒートマップを集約するために使用される。 定性的な結果は、VS-CAMがCNNベースのCAMよりもはるかに正確に対象にマッチするヒートマップを得ることができることを示している。 定量的評価はVS-CAMの優位性をさらに示している。

Graph convolutional neural network (GCN) has drawn increasing attention and attained good performance in various computer vision tasks, however, there lacks a clear interpretation of GCN's inner mechanism. For standard convolutional neural networks (CNNs), class activation mapping (CAM) methods are commonly used to visualize the connection between CNN's decision and image region by generating a heatmap. Nonetheless, such heatmap usually exhibits semantic-chaos when these CAMs are applied to GCN directly. In this paper, we proposed a novel visualization method particularly applicable to GCN, Vertex Semantic Class Activation Mapping (VS-CAM). VS-CAM includes two independent pipelines to produce a set of semantic-probe maps and a semantic-base map, respectively. Semantic-probe maps are used to detect the semantic information from semantic-base map to aggregate a semantic-aware heatmap. Qualitative results show that VS-CAM can obtain heatmaps where the highlighted regions match the objects much more precisely than CNN-based CAM. The quantitative evaluation further demonstrates the superiority of VS-CAM.
翻訳日:2022-09-20 15:57:20 公開日:2022-09-15
# 潜在ランダム関数を用いた構成法則解析

Compositional Law Parsing with Latent Random Functions ( http://arxiv.org/abs/2209.09115v1 )

ライセンス: Link先を確認
Fan Shi, Bin Li, Xiangyang Xue(参考訳) 人間の認知には構成性がある。 我々は、シーンを異なる概念(例えば、物体の形や位置)に分解し、自然(例えば、運動の法則)または人工(例えば、ゲームの法則)であるこれらの概念のそれぞれの法則を学ぶことによって、シーンを理解する。 これらの法則の自動解析は、モデルがシーンを理解する能力を示しているため、多くのビジュアルタスクにおいて、ローパースが中心的な役割を果たす。 本稿では,Law Parsing (CLAP) のための潜時変数モデルを提案する。 CLAPは、シーン内の概念を潜時変数として表現するエンコーディング・デコーディングアーキテクチャを通じて人間のような構成能力を実現し、さらに、潜時空間における各概念に関する法則を捉えるために、ニューラルプロセスでインスタンス化された概念固有のランダム関数を用いる。 実験の結果,クラップは,直感的物理,抽象的視覚推論,シーン表現など,複数の視覚課題において比較基準法よりも優れていた。 さらに、CLAPは、監督のないシーンで概念固有の法則を学習でき、対応する潜在乱数関数を変更して、解釈可能性と操作性を検証することで法を編集することができる。

Human cognition has compositionality. We understand a scene by decomposing the scene into different concepts (e.g. shape and position of an object) and learning the respective laws of these concepts which may be either natural (e.g. laws of motion) or man-made (e.g. laws of a game). The automatic parsing of these laws indicates the model's ability to understand the scene, which makes law parsing play a central role in many visual tasks. In this paper, we propose a deep latent variable model for Compositional LAw Parsing (CLAP). CLAP achieves the human-like compositionality ability through an encoding-decoding architecture to represent concepts in the scene as latent variables, and further employ concept-specific random functions, instantiated with Neural Processes, in the latent space to capture the law on each concept. Our experimental results demonstrate that CLAP outperforms the compared baseline methods in multiple visual tasks including intuitive physics, abstract visual reasoning, and scene representation. In addition, CLAP can learn concept-specific laws in a scene without supervision and one can edit laws through modifying the corresponding latent random functions, validating its interpretability and manipulability.
翻訳日:2022-09-20 15:56:59 公開日:2022-09-15
# LAVIS: 言語ビジョンインテリジェンスのためのライブラリ

LAVIS: A Library for Language-Vision Intelligence ( http://arxiv.org/abs/2209.09019v1 )

ライセンス: Link先を確認
Dongxu Li, Junnan Li, Hung Le, Guangsen Wang, Silvio Savarese, Steven C.H. Hoi(参考訳) LAVISはLAnguage-VISion研究と応用のためのオープンソースのディープラーニングライブラリである。 LAVISは、研究者や実践者が利用できる言語視野分野の最近の進歩と将来の研究・開発を促進させる、ワンストップの総合図書館として機能することを目指している。 最先端の画像言語、ビデオ言語モデル、共通データセットへのアクセスを容易にする統一インターフェースを備えている。 LAVISは、マルチモーダル分類、検索、キャプション、視覚的質問応答、対話、事前訓練など、さまざまなタスクのトレーニング、評価、ベンチマークをサポートする。 その間、ライブラリは高度に拡張可能で構成可能であり、将来の開発とカスタマイズを促進する。 本稿では,設計原則,重要なコンポーネント,ライブラリの機能について述べるとともに,共通言語ビジョンタスクにおけるベンチマーク結果を示す。 ライブラリはhttps://github.com/salesforce/lavis.com/。

We introduce LAVIS, an open-source deep learning library for LAnguage-VISion research and applications. LAVIS aims to serve as a one-stop comprehensive library that brings recent advancements in the language-vision field accessible for researchers and practitioners, as well as fertilizing future research and development. It features a unified interface to easily access state-of-the-art image-language, video-language models and common datasets. LAVIS supports training, evaluation and benchmarking on a rich variety of tasks, including multimodal classification, retrieval, captioning, visual question answering, dialogue and pre-training. In the meantime, the library is also highly extensible and configurable, facilitating future development and customization. In this technical report, we describe design principles, key components and functionalities of the library, and also present benchmarking results across common language-vision tasks. The library is available at: https://github.com/salesforce/LAVIS.
翻訳日:2022-09-20 15:48:29 公開日:2022-09-15
# グラフトポロジーを用いた効率的な部分グラフ同型

Efficient Subgraph Isomorphism using Graph Topology ( http://arxiv.org/abs/2209.09090v1 )

ライセンス: Link先を確認
Arpan Kusari and Wenbo Sun(参考訳) 部分グラフ同型 (subgraph isomorphism) あるいは部分グラフマッチング (subgraph matching) は一般にNP完全問題(NP完全問題)とみなされ、エッジウェイトが実値をとり、測定ノイズと可能な異常にさらされる実用的な応用においてより複雑である。 我々の知る限り、ほとんどのサブグラフマッチング手法はノードラベルを用いてノード-ノードマッチングを行う。 このようなラベルが存在しない場合(画像マッチングやマップマッチングなどのアプリケーションでは)、これらのサブグラフマッチングメソッドは動作しない。 ノードラベルを2段階に含まない不正確な場合において,サブグラフとフルグラフのノード対応を同定する手法を提案する。 (a)部分グラフから最小一意位相保存部分集合を抽出し、全グラフでその実現可能なマッチングを見つけ、 (b)境界可換性に基づく一意経路をペアリングすることによりマッチングノード集合を拡張するためのコンセンサスベースアルゴリズムの実装。 提案手法は,既存のサブグラフマッチング手法を超えて,現実的なサブ線形計算効率,ランダムな計測ノイズに対する頑健性,および優れた統計特性を有することを示す。 本手法は一般性を損なうことなく正確なマッチングケースにも容易に適用できる。 提案手法の有効性を実証するために,エルドス・レーニランダムグラフと画像に基づくアフィン共変特徴データセットを用いて,シミュレーションとケーススタディを行った。

Subgraph isomorphism or subgraph matching is generally considered as an NP-complete problem, made more complex in practical applications where the edge weights take real values and are subject to measurement noise and possible anomalies. To the best of our knowledge, almost all subgraph matching methods utilize node labels to perform node-node matching. In the absence of such labels (in applications such as image matching and map matching among others), these subgraph matching methods do not work. We propose a method for identifying the node correspondence between a subgraph and a full graph in the inexact case without node labels in two steps - (a) extract the minimal unique topology preserving subset from the subgraph and find its feasible matching in the full graph, and (b) implement a consensus-based algorithm to expand the matched node set by pairing unique paths based on boundary commutativity. Going beyond the existing subgraph matching approaches, the proposed method is shown to have realistically sub-linear computational efficiency, robustness to random measurement noise, and good statistical properties. Our method is also readily applicable to the exact matching case without loss of generality. To demonstrate the effectiveness of the proposed method, a simulation and a case study is performed on the Erdos-Renyi random graphs and the image-based affine covariant features dataset respectively.
翻訳日:2022-09-20 15:40:16 公開日:2022-09-15
# 確率動的モデルを用いた非分離ハミルトニアンのベイズ同定

Bayesian Identification of Nonseparable Hamiltonian Systems Using Stochastic Dynamic Models ( http://arxiv.org/abs/2209.07646v1 )

ライセンス: Link先を確認
Harsh Sharma, Nicholas Galioto, Alex A. Gorodetsky, Boris Kramer(参考訳) 本稿では,システム同定(ID)の確率ベイズ的定式化と確率力学モデルを用いた非分離ハミルトン系の推定を提案する。 非分離ハミルトニアン系は、天体物理学、ロボティクス、渦動力学、荷電粒子動力学、量子力学などの様々な科学および工学応用のモデルから生じる。 数値実験により, 提案手法は, 最先端手法と比較して精度が高く, 予測の不確実性を低減できることを示した。 さらに,スパース測定や雑音測定でトレーニング時間間隔をはるかに超える精度の予測が可能であり,提案手法の堅牢性と一般化性に寄与することを示した。 定量的利点は、ベンチマーク問題における最小二乗法よりも12倍以上長い相対誤差が10%未満の予測精度である。

This paper proposes a probabilistic Bayesian formulation for system identification (ID) and estimation of nonseparable Hamiltonian systems using stochastic dynamic models. Nonseparable Hamiltonian systems arise in models from diverse science and engineering applications such as astrophysics, robotics, vortex dynamics, charged particle dynamics, and quantum mechanics. The numerical experiments demonstrate that the proposed method recovers dynamical systems with higher accuracy and reduced predictive uncertainty compared to state-of-the-art approaches. The results further show that accurate predictions far outside the training time interval in the presence of sparse and noisy measurements are possible, which lends robustness and generalizability to the proposed approach. A quantitative benefit is prediction accuracy with less than 10% relative error for more than 12 times longer than a comparable least-squares-based method on a benchmark problem.
翻訳日:2022-09-19 13:55:08 公開日:2022-09-15
# 声帯バーストによる感情認識における自己関係意識と時間意識

Self-Relation Attention and Temporal Awareness for Emotion Recognition via Vocal Burst ( http://arxiv.org/abs/2209.07629v1 )

ライセンス: Link先を確認
Dang-Linh Trinh, Minh-Cong Vo, Guee-Sang Lee(参考訳) 本報告では, acii affective vocal bursts (a-vb) 2022 workshop \& competitionにおいて, 高次元感情タスク(a-vb high)に対する感情認識パイプラインを提案する。 提案手法は3段階を含む。 まず,自己教師型学習手法により生音声信号とそのメルスペクトルから潜時特徴を抽出する。 次に、生信号からの特徴を自己相関注意および時間認識(sa-ta)モジュールに与え、これらの潜在特徴間の貴重な情報を得る。 最後に、すべての特徴を結合し、各感情のスコアを予測するために完全に接続された層を利用する。 実験により,提案手法はベースラインモデルでは0.5686に対して,テストセットでは0.7295の平均一致相関係数(CCC)を達成する。 このメソッドのコードはhttps://github.com/linhtd812/a-vb2022で入手できる。

The technical report presents our emotion recognition pipeline for high-dimensional emotion task (A-VB High) in The ACII Affective Vocal Bursts (A-VB) 2022 Workshop \& Competition. Our proposed method contains three stages. Firstly, we extract the latent features from the raw audio signal and its Mel-spectrogram by self-supervised learning methods. Then, the features from the raw signal are fed to the self-relation attention and temporal awareness (SA-TA) module for learning the valuable information between these latent features. Finally, we concatenate all the features and utilize a fully-connected layer to predict each emotion's score. By empirical experiments, our proposed method achieves a mean concordance correlation coefficient (CCC) of 0.7295 on the test set, compared to 0.5686 on the baseline model. The code of our method is available at https://github.com/linhtd812/A-VB2022.
翻訳日:2022-09-19 13:54:23 公開日:2022-09-15
# 順序パターンからのエントロピーの統計的性質

Statistical Properties of the Entropy from Ordinal Patterns ( http://arxiv.org/abs/2209.07650v1 )

ライセンス: Link先を確認
Eduarda T. C. Chagas, Alejandro. C. Frery, Juliana Gambini, Magdalena M. Lucini, Heitor S. Ramos, and Andrea A. Rey(参考訳) 順序パターンの統計的分析の最終的な目的は、それらが引き起こす特徴の分布を特徴づけることである。 特に、多くの時系列モデルに対するペアエントロピー-統計複雑性の合同分布を知ることは、今日では利用できない統計テストを可能にする。 この方向に働くことによって、真の正規化エントロピーがゼロでも1でもない任意のモデルに対する経験的シャノンのエントロピーの漸近分布を特徴づける。 我々は,Central Limit Theorem(大時系列を仮定する),Multivarate Delta Method,およびその平均値の3次補正から漸近分布を求める。 本稿では,その精度と数値安定性について,他の結果の適用性(実測,第1,第2次補正)について論じる。 シャノンのエントロピーに関するテスト統計を構築するための一般的な枠組みの中で、2つの信号が同じシャノンのエントロピーを持つ順序パターンを生成するという仮説を否定する十分な証拠があるかどうかを検証する2つのテストを示す。 本試験を3都市(ダブリン,エディンバラ,マイアミ)の日中最高気温時系列に応用し,有意な結果を得た。

The ultimate purpose of the statistical analysis of ordinal patterns is to characterize the distribution of the features they induce. In particular, knowing the joint distribution of the pair Entropy-Statistical Complexity for a large class of time series models would allow statistical tests that are unavailable to date. Working in this direction, we characterize the asymptotic distribution of the empirical Shannon's Entropy for any model under which the true normalized Entropy is neither zero nor one. We obtain the asymptotic distribution from the Central Limit Theorem (assuming large time series), the Multivariate Delta Method, and a third-order correction of its mean value. We discuss the applicability of other results (exact, first-, and second-order corrections) regarding their accuracy and numerical stability. Within a general framework for building test statistics about Shannon's Entropy, we present a bilateral test that verifies if there is enough evidence to reject the hypothesis that two signals produce ordinal patterns with the same Shannon's Entropy. We applied this bilateral test to the daily maximum temperature time series from three cities (Dublin, Edinburgh, and Miami) and obtained sensible results.
翻訳日:2022-09-19 13:52:18 公開日:2022-09-15
# ZeroEGGS: 音声からのゼロショット例に基づくジェスチャー生成

ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech ( http://arxiv.org/abs/2209.07556v1 )

ライセンス: Link先を確認
Saeed Ghorbani, Ylva Ferstl, Daniel Holden, Nikolaus F. Troje, Marc-Andr\'e Carbonneau(参考訳) 我々は,ゼロショットスタイル制御による音声駆動ジェスチャ生成のためのニューラルネットワークフレームワークZeroEGGSを提案する。 これは、トレーニング中に見えない動作スタイルであっても、短い例のモーションクリップだけでスタイルを制御できることを意味する。 我々のモデルはスタイル埋め込みを学習するために変分フレームワークを使用し、遅延空間操作やスタイル埋め込みのブレンディングやスケーリングによるスタイルの変更を容易にする。 このフレームワークの確率的性質により、ジェスチャー動作の確率的性質に対処して、同じ入力が与えられた様々な出力を生成することができる。 一連の実験で、我々はまずモデルの柔軟性と一般化性を新しい話者やスタイルに示す。 ユーザ調査の結果,本モデルは,運動の自然性,発話の適切性,表現様式において,これまでの最先端技術に匹敵することを示した。 最後に、19種類のスタイルにまたがる、指を含む全身のジェスチャー動作の高品質データセットをリリースする。

We present ZeroEGGS, a neural network framework for speech-driven gesture generation with zero-shot style control by example. This means style can be controlled via only a short example motion clip, even for motion styles unseen during training. Our model uses a Variational framework to learn a style embedding, making it easy to modify style through latent space manipulation or blending and scaling of style embeddings. The probabilistic nature of our framework further enables the generation of a variety of outputs given the same input, addressing the stochastic nature of gesture motion. In a series of experiments, we first demonstrate the flexibility and generalizability of our model to new speakers and styles. In a user study, we then show that our model outperforms previous state-of-the-art techniques in naturalness of motion, appropriateness for speech, and style portrayal. Finally, we release a high-quality dataset of full-body gesture motion including fingers, with speech, spanning across 19 different styles.
翻訳日:2022-09-19 13:42:37 公開日:2022-09-15
# 電離圏計測の回収と電離圏パラメータ抽出のための空間的注意U-Netの開発

The Development of Spatial Attention U-Net for The Recovery of Ionospheric Measurements and The Extraction of Ionospheric Parameters ( http://arxiv.org/abs/2209.07581v1 )

ライセンス: Link先を確認
Guan-Han Huang, Alexei V. Dmitriev, Chia-Hsien Lin, Yu-Chi Chang, Mon-Chai Hsieh, Enkhtuya Tsogtbaatar, Merlin M. Mendoza, Hao-Wei Hsu, Yu-Chiang Lin, Lung-Chih Tsai, Yung-Hui Li(参考訳) 深層学習型ニューラルネットワークモデルであるspatial attention u-netを訓練し,hualienの垂直入射パルス電離層レーダで測定したノイズイオノグラムデータから有用な電離層信号を復元する。 以上の結果から,本モデルでは,通常のF2層と異常モード(F2o,F2x)とE層の信号(通常モード,異常モード,散発Es)をよく識別できることがわかった。 このモデルはラベルが付けられていない信号も識別することができる。 モデルの性能は、データセット内のサンプル数が不足することで著しく低下する可能性がある。 得られた信号からF2oとF2xの臨界周波数と2つの信号間の交差周波数を決定する。 2つの臨界周波数の差は0.63MHzであり、不確実性は0.18MHzである。

We train a deep learning artificial neural network model, Spatial Attention U-Net to recover useful ionospheric signals from noisy ionogram data measured by Hualien's Vertical Incidence Pulsed Ionospheric Radar. Our results show that the model can well identify F2 layer ordinary and extraordinary modes (F2o, F2x) and the combined signals of the E layer (ordinary and extraordinary modes and sporadic Es). The model is also capable of identifying some signals that were not labeled. The performance of the model can be significantly degraded by insufficient number of samples in the data set. From the recovered signals, we determine the critical frequencies of F2o and F2x and the intersection frequency between the two signals. The difference between the two critical frequencies is peaking at 0.63 MHz, with the uncertainty being 0.18 MHz.
翻訳日:2022-09-19 13:42:24 公開日:2022-09-15
# snowmass 2021 computational frontier compf03 topical group report: machine learning

Snowmass 2021 Computational Frontier CompF03 Topical Group Report: Machine Learning ( http://arxiv.org/abs/2209.07559v1 )

ライセンス: Link先を確認
Phiala Shanahan, Kazuhiro Terao, Daniel Whiteson(参考訳) 機械学習(ML)と高エネルギー物理学(HEP)の急速に発展する交差点は、私たちのコミュニティに機会と課題を提示します。 HEP問題への標準のMLツールの応用をはるかに超えて、真に新しく、潜在的に革命的なアプローチは、両方の分野で才能のある世代によって開発されている。 この2つの分野の交差点における専用研究の資金提供、大学におけるハイパフォーマンスコンピューティングへの投資、この研究を支援するためのアロケーションポリシーの調整、コミュニティツールや標準の開発、高エネルギー物理学における機械学習の知的活力に惹きつけられた若手研究者の教育とキャリアパスの提供など、これらの発展を支える学際的コミュニティのニーズを緊急に支援する必要がある。

The rapidly-developing intersection of machine learning (ML) with high-energy physics (HEP) presents both opportunities and challenges to our community. Far beyond applications of standard ML tools to HEP problems, genuinely new and potentially revolutionary approaches are being developed by a generation of talent literate in both fields. There is an urgent need to support the needs of the interdisciplinary community driving these developments, including funding dedicated research at the intersection of the two fields, investing in high-performance computing at universities and tailoring allocation policies to support this work, developing of community tools and standards, and providing education and career paths for young researchers attracted by the intellectual vitality of machine learning for high energy physics.
翻訳日:2022-09-19 13:37:01 公開日:2022-09-15
# stackelberg congestionゲームのための微分可能双レベルプログラミング

Differentiable Bilevel Programming for Stackelberg Congestion Games ( http://arxiv.org/abs/2209.07618v1 )

ライセンス: Link先を確認
Jiayang Li, Jing Yu, Qianni Wang, Boyi Liu, Zhaoran Wang, Yu Marco Nie(参考訳) スタックルバーグ混雑ゲーム(英: stackelberg crowded game, scg)は、リーダーが、混雑ゲームを行うことでフォロワーが落ち着く平衡状態を予測し、操作することで、自身の利益を最大化することを目指す、二段階のプログラムである。 大規模scgはその難易度と複雑さでよく知られている。 本研究は,従来の手法と機械学習の最新の発展を融合した,微分可能プログラミングによるSCGにアプローチする。 核となるアイデアは、模倣ロジットダイナミクスによって形成された進化経路を用いて、低レベルの平衡問題を表現することに集中する。 これにより、平衡への進化経路上の自動微分が可能となり、二重ループ勾配降下アルゴリズムが実現される。 さらに, 低次平衡の固定は, 自発的計算障害である可能性が示唆された。 代わりに、リーダーはフォロワの進化経路に沿って数ステップしか前進しないが、共同進化プロセスを通じてフォロワと同期して決定を更新できる。 この啓示により、メモリ消費と計算時間の両方においてより効率的なシングルループアルゴリズムが生まれる。 幅広いベンチマーク問題をカバーする数値実験により、単一ループアルゴリズムはソリューションの品質と効率のバランスが良く、標準のダブルループ実装だけでなく、文献からの他の手法よりも優れていることがわかった。 以上より,「完全な期待」の無駄さと「ゼロ期待」の危険を浮き彫りにした。 非常に大きなSCGを解くためには、素早い経験則を必要とする場合、ワンステップルックアヘッドによるシングルループアルゴリズムが理想的な候補となる。

A Stackelberg congestion game (SCG) is a bilevel program in which a leader aims to maximize their own gain by anticipating and manipulating the equilibrium state at which followers settle by playing a congestion game. Large-scale SCGs are well known for their intractability and complexity. This study approaches SCGs through differentiable programming, which marries the latest developments in machine learning with conventional methodologies. The core idea centers on representing the lower-level equilibrium problem using an evolution path formed by the imitative logit dynamics. It enables the use of automatic differentiation over the evolution path towards equilibrium, leading to a double-loop gradient descent algorithm. We further show the fixation on the lower-level equilibrium may be a self-imposed computational obstacle. Instead, the leader may only look ahead along the followers' evolution path for a few steps, while updating their decisions in sync with the followers through a co-evolution process. The revelation gives rise to a single-loop algorithm that is more efficient in terms of both memory consumption and computation time. Through numerical experiments that cover a wide range of benchmark problems, we find the single-loop algorithm consistently strikes a good balance between solution quality and efficiency, outperforming not only the standard double-loop implementation but also other methods from the literature. Importantly, our results highlight both the wastefulness of "full anticipation" and the peril of "zero anticipation". If a quick-and-dirty heuristic is needed for solving a really large SCG, the proposed single-loop algorithm with a one-step look-ahead makes an ideal candidate.
翻訳日:2022-09-19 13:36:47 公開日:2022-09-15
# 超新星光曲線近似のためのニューラルネットワークアプローチの特性の理解に向けて

Toward an understanding of the properties of neural network approaches for supernovae light curve approximation ( http://arxiv.org/abs/2209.07542v1 )

ライセンス: Link先を確認
Mariia Demianenko, Konstantin Malanchev, Ekaterina Samorodova, Mikhail Sysak, Aleksandr Shiriaev, Denis Derkach, Mikhail Hushchyn(参考訳) 現代の時間領域測光サーベイは様々な天体の多くの観測を収集し、大規模なサーベイの次なる時代はさらに多くの情報を提供するだろう。 ほとんどの天体は、超新星のような過渡期にとって特に重要な分光観測の追跡を受けていない。 このような場合、観測された光度曲線は安価な代替となる可能性がある。 時系列は、ピークや光度低下推定などの光度分類や特徴付けに積極的に使用される。 しかし、収集された時系列は多次元で不規則にサンプリングされ、外れ値を含み、体系的な不確実性を持たない。 機械学習は、利用可能なデータから最も効率的な方法で有用な情報を抽出するのに役立つ。 一つの光曲線を近似するために,多層パーセプトロン,ベイズニューラルネットワーク,正規化流れなど,ニューラルネットワークに基づく複数の光曲線近似法を検討した。 シミュレーションされたPLAsTiCCと実際のZwicky Transient Facilityのデータサンプルの両方を使用したテストでは、ネットワークに適合し、他の最先端の手法よりも優れた近似品質を実現するのに十分な観測結果が得られている。 本研究で記述した手法は,ガウス過程よりも計算量が多く,より高速に動作することを示す。 光曲線の観測におけるギャップを埋めることを目的とした近似手法の性能解析を行い、適切な手法を用いることでピーク検出と超新星分類の精度が向上することを示す。 さらに、調査結果はGitHubで利用可能なFlu Pythonライブラリにまとめられている。

The modern time-domain photometric surveys collect a lot of observations of various astronomical objects, and the coming era of large-scale surveys will provide even more information. Most of the objects have never received a spectroscopic follow-up, which is especially crucial for transients e.g. supernovae. In such cases, observed light curves could present an affordable alternative. Time series are actively used for photometric classification and characterization, such as peak and luminosity decline estimation. However, the collected time series are multidimensional, irregularly sampled, contain outliers, and do not have well-defined systematic uncertainties. Machine learning methods help extract useful information from available data in the most efficient way. We consider several light curve approximation methods based on neural networks: Multilayer Perceptrons, Bayesian Neural Networks, and Normalizing Flows, to approximate observations of a single light curve. Tests using both the simulated PLAsTiCC and real Zwicky Transient Facility data samples demonstrate that even few observations are enough to fit networks and achieve better approximation quality than other state-of-the-art methods. We show that the methods described in this work have better computational complexity and work faster than Gaussian Processes. We analyze the performance of the approximation techniques aiming to fill the gaps in the observations of the light curves, and show that the use of appropriate technique increases the accuracy of peak finding and supernova classification. In addition, the study results are organized in a Fulu Python library available on GitHub, which can be easily used by the community.
翻訳日:2022-09-19 13:35:57 公開日:2022-09-15
# eコマースサイトにおけるユーザ検索エクスペリエンス向上のためのコンテキスト対応クエリ書き換え

Context-Aware Query Rewriting for Improving Users' Search Experience on E-commerce Websites ( http://arxiv.org/abs/2209.07584v1 )

ライセンス: Link先を確認
Simiao Zuo, Qingyu Yin, Haoming Jiang, Shaohui Xi, Bing Yin, Chao Zhang, Tuo Zhao(参考訳) 電子商取引のクエリはしばしば短く曖昧である。 その結果、クエリ理解はしばしばクエリ書き換えを使用して、ユーザの入力クエリを曖昧にします。 eコマース検索ツールを使用している間、ユーザーは複数の検索を入力する傾向にある。 これらの履歴検索は、ユーザの真のショッピング意図に関する文脈的な洞察を含んでいる。 したがって、このようなコンテキスト情報のモデリングは、より良いクエリ書き換えモデルに不可欠である。 しかし、既存のクエリ書き換えモデルはユーザーの履歴の振る舞いを無視し、実際のショッピング意図に関する限られた情報を提供する短い文字列であるインスタント検索クエリのみを考慮する。 本稿では,このギャップを埋めるため,検索コンテキストを考慮したエンドツーエンドの問合せ書き換えモデルを提案する。 具体的には,履歴検索クエリとそれらの単語を用いたセッショングラフを構築した。 次に、クロスクエリ関係をモデル化し、セッションのコンテキスト情報を計算するグラフアテンション機構を用いる。 モデルはその後、アグリゲーションネットワークを用いて、コンテキスト情報とインスタント検索クエリを組み合わせることでセッション表現を算出する。 セッション表現はデコードされ、書き直されたクエリを生成する。 実験により,本手法の各種指標による最先端手法に対する優位性を実証した。 オンラインショッピングプラットフォームからの社内データでは、文脈情報の導入により、mdr(相互ランク)基準で11.6%改善し、hit@16メートル(ヒットレートメートル法)で20.1%改善し、最高のベースライン法(トランスフォーマベースモデル)と比較した。

E-commerce queries are often short and ambiguous. Consequently, query understanding often uses query rewriting to disambiguate user-input queries. While using e-commerce search tools, users tend to enter multiple searches, which we call context, before purchasing. These history searches contain contextual insights about users' true shopping intents. Therefore, modeling such contextual information is critical to a better query rewriting model. However, existing query rewriting models ignore users' history behaviors and consider only the instant search query, which is often a short string offering limited information about the true shopping intent. We propose an end-to-end context-aware query rewriting model to bridge this gap, which takes the search context into account. Specifically, our model builds a session graph using the history search queries and their contained words. We then employ a graph attention mechanism that models cross-query relations and computes contextual information of the session. The model subsequently calculates session representations by combining the contextual information with the instant search query using an aggregation network. The session representations are then decoded to generate rewritten queries. Empirically, we demonstrate the superiority of our method to state-of-the-art approaches under various metrics. On in-house data from an online shopping platform, by introducing contextual information, our model achieves 11.6% improvement under the MRR (Mean Reciprocal Rank) metric and 20.1% improvement under the HIT@16 metric (a hit rate metric), in comparison with the best baseline method (Transformer-based model).
翻訳日:2022-09-19 13:35:32 公開日:2022-09-15
# STPOTR:非自己回帰変換器を用いた頭部追従ロボットの同時追従と姿勢予測

STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a Non-Autoregressive Transformer for Robot Following Ahead ( http://arxiv.org/abs/2209.07600v1 )

ライセンス: Link先を確認
Mohammad Mahdavian, Payam Nikdel, Mahdi TaherAhmadi and Mo Chen(参考訳) 本稿では,観察された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発する。 本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。 提案手法は人間の運動予測を2つの部分に分割する。 1) 時間の経過とともに股関節3次元位置となるヒトの軌跡 2)固定された股関節に対する他の関節3D位置である人間のポーズ。 共有表現がモデル性能を向上できるため,2つの予測を同時に行うことを提案する。 したがって、モデルは2つのエンコーダとデコーダから構成される。 まず、エンコーダ出力に適用されたマルチヘッドアテンションモジュールは、人間の軌道を改善する。 第二に、デコーダ出力と連結されたエンコーダ出力に適用される別のマルチヘッド自己アテンションモジュールは、時間依存の学習を容易にする。 我々のモデルは、テスト精度と速度の観点からロボット応用に適しており、最先端の手法と比較して好適である。 提案するモデルに対する挑戦的かつ実用的なケーススタディであるロボットのフォロー・アヘッドタスクを通じて,実世界への適用性を示す。

In this paper, we develop a neural network model to predict future human motion from an observed human motion history. We propose a non-autoregressive transformer architecture to leverage its parallel nature for easier training and fast, accurate predictions at test time. The proposed architecture divides human motion prediction into two parts: 1) the human trajectory, which is the hip joint 3D position over time and 2) the human pose which is the all other joints 3D positions over time with respect to a fixed hip joint. We propose to make the two predictions simultaneously, as the shared representation can improve the model performance. Therefore, the model consists of two sets of encoders and decoders. First, a multi-head attention module applied to encoder outputs improves human trajectory. Second, another multi-head self-attention module applied to encoder outputs concatenated with decoder outputs facilitates learning of temporal dependencies. Our model is well-suited for robotic applications in terms of test accuracy and speed, and compares favorably with respect to state-of-the-art methods. We demonstrate the real-world applicability of our work via the Robot Follow-Ahead task, a challenging yet practical case study for our proposed model.
翻訳日:2022-09-19 13:35:09 公開日:2022-09-15
# ハブ対応ランダムウォークグラフ埋め込み法による分類

Hub-aware Random Walk Graph Embedding Methods for Classification ( http://arxiv.org/abs/2209.07603v1 )

ライセンス: Link先を確認
Aleksandar Tom\v{c}i\'c and Milo\v{s} Savi\'c and Milo\v{s} Radovanovi\'c(参考訳) 過去20年間、私たちはグラフやネットワークの形で構造化された貴重なビッグデータの膨大な増加を目の当たりにしている。 このようなデータに従来の機械学習とデータ解析技術を適用するためには、グラフの最も重要な構造特性を保持するベクトルベースの表現に変換する必要がある。 この目的のために,本研究では多数のグラフ埋め込み手法が提案されている。 その多くは、ノードクラスタリング、ノード分類、グラフの視覚化、リンク予測など、さまざまなアプリケーションに適した汎用組み込みを生成する。 本稿では,ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。 提案されたアルゴリズムのランダムウォークサンプリング戦略は、大規模グラフ全体の連結性に最も重要な役割を果たす高次ノードであるハブに特に注意を払うように設計されている。 提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。 その結果,本手法は汎用グラフ埋め込み(node2vec)を生成するための最も一般的なランダムウォーク法に比べて,分類器の予測能力が大幅に向上することが示唆された。

In the last two decades we are witnessing a huge increase of valuable big data structured in the form of graphs or networks. To apply traditional machine learning and data analytic techniques to such data it is necessary to transform graphs into vector-based representations that preserve the most essential structural properties of graphs. For this purpose, a large number of graph embedding methods have been proposed in the literature. Most of them produce general-purpose embeddings suitable for a variety of applications such as node clustering, node classification, graph visualisation and link prediction. In this paper, we propose two novel graph embedding algorithms based on random walks that are specifically designed for the node classification problem. Random walk sampling strategies of the proposed algorithms have been designed to pay special attention to hubs -- high-degree nodes that have the most critical role for the overall connectedness in large-scale graphs. The proposed methods are experimentally evaluated by analyzing the classification performance of three classification algorithms trained on embeddings of real-world networks. The obtained results indicate that our methods considerably improve the predictive power of examined classifiers compared to currently the most popular random walk method for generating general-purpose graph embeddings (node2vec).
翻訳日:2022-09-19 13:34:39 公開日:2022-09-15
# limeとshapを用いたバグおよび非バグ問題の自動予測のための説明の研究

Studying the explanations for the automated prediction of bug and non-bug issues using LIME and SHAP ( http://arxiv.org/abs/2209.07623v1 )

ライセンス: Link先を確認
Benjamin Ledel and Steffen Herbold(参考訳) コンテキスト: 問題トラッカーにおける報告された問題内のバグの特定は、問題のトリアージに不可欠です。 機械学習モデルは、自動イシュータイプ予測のパフォーマンスに関する有望な結果を示している。 しかし、そのようなモデルがどのようにバグを特定するかという仮定以上の知識は限られています。 LIMEとSHAPは分類器の予測を説明する一般的な手法である。 目的: マシンラーニングモデルが私たち人間として妥当な分類の説明を提供し、モデルが何を学べるかという仮定に合致するかどうかを理解したい。 また、予測品質が説明の質と相関しているかどうかも知りたい。 方法: 課題型予測モデルの結果を説明する品質に基づいて, LIME と SHAP の説明を評価検討する。 このために、私たちは説明自体の品質を評価します。つまり、それが私たちの期待に合致し、基礎となる機械学習モデルを理解するのに役立ちます。

Context: The identification of bugs within the reported issues in an issue tracker is crucial for the triage of issues. Machine learning models have shown promising results regarding the performance of automated issue type prediction. However, we have only limited knowledge beyond our assumptions how such models identify bugs. LIME and SHAP are popular technique to explain the predictions of classifiers. Objective: We want to understand if machine learning models provide explanations for the classification that are reasonable to us as humans and align with our assumptions of what the models should learn. We also want to know if the prediction quality is correlated with the quality of explanations. Method: We conduct a study where we rate LIME and SHAP explanations based on their quality of explaining the outcome of an issue type prediction model. For this, we rate the quality of the explanations themselves, i.e., if they align with our expectations and if they help us to understand the underlying machine learning model.
翻訳日:2022-09-19 13:34:22 公開日:2022-09-15
# コミットすべき最適分散ロバスト戦略の計算

Computing the optimal distributionally-robust strategy to commit to ( http://arxiv.org/abs/2209.07647v1 )

ライセンス: Link先を確認
Sai Mali Ananthanarayanan and Christian Kroer(参考訳) stackelbergのゲームモデルは、リーダーが戦略にコミットし、フォロー者が最善の反応をするが、特にセキュリティ問題に対して広く応用されている。 セキュリティ設定において、ゴールは、ある資産を保護するために、リーダーがコミットする最適な戦略を計算することである。 これらのアプリケーションの多くでは、従属ユーティリティモデルのパラメータは確実には分かっていない。 分散ロバスト最適化は、この分布が可能な分布の集合から来るモデルパラメータの分布を許容することでこの問題に対処する。 目標は、最悪のケースの分布に関して、期待されるユーティリティを最大化することである。 我々は, 最適戦略を計算するための分散ロバストモデルの研究を開始する。 従属ユーティリティモデルに不確実性のある正規形式ゲームの場合を考える。 我々の理論の主な結果は、分布論的にロバストなスタックルバーグ平衡が常に幅広い不確実性モデルにわたって存在することを示すことである。 有限組の追従ユーティリティ関数の場合、数学的プログラムを用いて分布的に損なわれる強いスタックルバーグ均衡(DRSSE)を計算する2つのアルゴリズムを示す。 次に、無限個のフォロワー効用関数が存在し、不確実性が有限支持な名目分布の周りでワッサーシュタイン球で表される場合、最適分布ロバスト戦略を計算するためのインクリメンタルな混合整数プログラミングに基づくアルゴリズムを与える。 実験は古典的stackelbergゲームにおけるアルゴリズムの扱いやすさを実証し,中規模ゲームへのアプローチを示唆する。

The Stackelberg game model, where a leader commits to a strategy and the follower best responds, has found widespread application, particularly to security problems. In the security setting, the goal is for the leader to compute an optimal strategy to commit to, in order to protect some asset. In many of these applications, the parameters of the follower utility model are not known with certainty. Distributionally-robust optimization addresses this issue by allowing a distribution over possible model parameters, where this distribution comes from a set of possible distributions. The goal is to maximize the expected utility with respect to the worst-case distribution. We initiate the study of distributionally-robust models for computing the optimal strategy to commit to. We consider the case of normal-form games with uncertainty about the follower utility model. Our main theoretical result is to show that a distributionally-robust Stackelberg equilibrium always exists across a wide array of uncertainty models. For the case of a finite set of possible follower utility functions we present two algorithms to compute a distributionally-robust strong Stackelberg equilibrium (DRSSE) using mathematical programs. Next, in the general case where there is an infinite number of possible follower utility functions and the uncertainty is represented by a Wasserstein ball around a finitely-supported nominal distribution, we give an incremental mixed-integer-programming-based algorithm for computing the optimal distributionally-robust strategy. Experiments substantiate the tractability of our algorithm on a classical Stackelberg game, showing that our approach scales to medium-sized games.
翻訳日:2022-09-19 13:25:47 公開日:2022-09-15
# mipi 2022がrgbwセンサー融合に挑戦:データセットと報告

MIPI 2022 Challenge on RGBW Sensor Fusion: Dataset and Report ( http://arxiv.org/abs/2209.07530v1 )

ライセンス: Link先を確認
Qingyu Yang, Guang Yang, Jun Jiang, Chongyi Li, Ruicheng Feng, Shangchen Zhou, Wenxiu Sun, Qingpeng Zhu, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータがないことと、産業や学界からの視点を深く交換する稀な機会が、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 このギャップを埋めるために,新しいイメージセンサとイメージングアルゴリズムに焦点を当てた5つのトラックを含む,最初のmipiチャレンジを紹介する。 本稿では,バイエルへのバイニングモードrgbwの融合に取り組んでいる5つのトラックのうちの1つであるrgbw joint fusion and denoiseについて紹介する。 参加者は、高品質のrgbwとbayerペアの70(トレーニング)と15(評価)のシーンを含む新しいデータセットを提供した。 さらに、各シーンごとに異なるノイズレベルのRGBWが24dBと42dBで提供された。 すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。 最終結果は、PSNR、SSIM、LPIPS、KLDなどの客観的指標を用いて評価される。 本論文では,本課題で開発された全モデルについて詳述する。 この課題の詳細とデータセットへのリンクは、https://github.com/mipi-challenge/mipi2022にある。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). To bridge the gap, we introduce the first MIPI challenge, including five tracks focusing on novel image sensors and imaging algorithms. In this paper, RGBW Joint Fusion and Denoise, one of the five tracks, working on the fusion of binning-mode RGBW to Bayer, is introduced. The participants were provided with a new dataset including 70 (training) and 15 (validation) scenes of high-quality RGBW and Bayer pairs. In addition, for each scene, RGBW of different noise levels was provided at 24dB and 42dB. All the data were captured using an RGBW sensor in both outdoor and indoor conditions. The final results are evaluated using objective metrics, including PSNR, SSIM}, LPIPS, and KLD. A detailed description of all models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://github.com/mipi-challenge/MIPI2022.
翻訳日:2022-09-19 13:18:16 公開日:2022-09-15
# 液位評価システムのコンテンツレコメンデーションへの応用

Application of Liquid Rank Reputation System for Content Recommendation ( http://arxiv.org/abs/2209.07641v1 )

ライセンス: Link先を確認
Abhishek Saxena (Novosibirsk State University) and Anton Kolonin (Novosibirsk State University)(参考訳) ソーシャルメディアプラットフォーム上の効果的なコンテンツレコメンデーションは、クリエーターが公正な報酬を得るのに役立ち、消費者は本当に関連性があり、興味深く、パーソナライズされたコンテンツを楽しむことができるだろう。 本稿では,コンテンツレコメンデーションシステムのための液体民主主義の原則を実現するためのモデルを提案する。 評価ランキングシステムに基づくパーソナライズドレコメンデーションモデルを使用して、個人の関心に基づくレコメンデーションを促進する。 さらに、ソーシャルネットワーク上でのエンドユーザーの高次友人(本事例における初期入力twitterチャネル)に対するパーソナライズ要因により、レコメンデーション結果の正確性と多様性が向上した。 本稿では,twitter上の暗号通貨ニュースに基づくデータセットを分析し,液体ランク評価システムを用いて意見リーダを見つける。 本稿では,コンテンツレコメンデーションモデルにおける液体ランクのtier-2実装について述べる。 このモデルは、他のレコメンデーションシステムにおける追加レイヤとしても使用できる。 本稿では,液体ランク評価モデルの実装,課題,今後の展望について述べる。

An effective content recommendation on social media platforms should be able to benefit both creators to earn fair compensation and consumers to enjoy really relevant, interesting, and personalized content. In this paper, we propose a model to implement the liquid democracy principle for the content recommendation system. It uses a personalized recommendation model based on reputation ranking system to encourage personal interests driven recommendation. Moreover, the personalization factors to an end users' higher-order friends on the social network (initial input Twitter channels in our case study) to improve the accuracy and diversity of recommendation results. This paper analyzes the dataset based on cryptocurrency news on Twitter to find the opinion leader using the liquid rank reputation system. This paper deals with the tier-2 implementation of a liquid rank in a content recommendation model. This model can be also used as an additional layer in the other recommendation systems. The paper proposes the implementation, challenges, and future scope of the liquid rank reputation model.
翻訳日:2022-09-19 13:08:06 公開日:2022-09-15
# 組織スポーツ分野におけるデータサイエンスと分析の応用に関する調査研究

A Survey on the application of Data Science And Analytics in the field of Organised Sports ( http://arxiv.org/abs/2209.07528v1 )

ライセンス: Link先を確認
Sachin Kumar S, Prithvi HV, C Nandini(参考訳) データサイエンスと分析の成果の最適化や予測への応用は、現代世界ではユビキタスである。 Data ScienceとAnalyticsは、市場に存在するほぼすべてのドメインを最適化した。 本調査では,スポーツ分野におけるアナリティクスの分野がいかに採用されてきたか,また,フィールド上の選手の評価から優勝チームへの選抜,ビッグスポーツトーナメントのチケットやビジネス面のマーケティングへの転換にどのように貢献したかに注目した。 我々は,スポーツアナリティクスの分野で採用されている分析ツール,アルゴリズム,方法論をさまざまなスポーツ向けに提示し,また,これに対する見解を提示するとともに,既存のアプローチを比較比較・対比する。 そうすることで、スポーツデータを実験し、ゲームのさまざまな側面を分析したい人なら誰でも考慮すべき、最高のツール、アルゴリズム、分析方法論も提示します。

The application of Data Science and Analytics to optimize or predict outcomes is Ubiquitous in the Modern World. Data Science and Analytics have optimized almost every domain that exists in the market. In our survey, we focus on how the field of Analytics has been adopted in the field of sports, and how it has contributed to the transformation of the game right from the assessment of on-field players and their selection to the prediction of winning team and to the marketing of tickets and business aspects of big sports tournaments. We will present the analytical tools, algorithms, and methodologies adopted in the field of Sports Analytics for different sports and also present our views on the same and we will also compare and contrast these existing approaches. By doing so, we will also present the best tools, algorithms, and analytical methodologies to be considered by anyone who is looking to experiment with sports data and analyze various aspects of the game.
翻訳日:2022-09-19 13:00:34 公開日:2022-09-15
# 人間レベルのAtari 200倍高速

Human-level Atari 200x faster ( http://arxiv.org/abs/2209.07550v1 )

ライセンス: Link先を確認
Steven Kapturowski, V\'ictor Campos, Ray Jiang, Nemanja Raki\'cevi\'c, Hado van Hasselt, Charles Blundell, Adri\`a Puigdom\`enech Badia(参考訳) 幅広いタスクをこなす汎用エージェントを構築するというタスクは、その開始以来、強化学習において重要な役割を担ってきた。 この問題は、Atari 57ベンチマークに含まれる幅広い環境のスコアを観測することで頻繁に測定される大規模作業体の研究の対象となっている。 Agent57は57のゲームで人為的なベンチマークを超えた最初のエージェントであったが、これはデータ効率が悪く、80億フレーム近い経験を必要とした。 Agent57を出発点として、我々は多種多様な戦略を用いて、人間のベースラインを上回る200倍の経験を減らした。 データ体制を縮小しながら直面するさまざまな不安定性とボトルネックを調査し、より堅牢で効率的なエージェントを構築する効果的なソリューションを提案します。 また,Muesli や MuZero のような高性能な手法による競争性能を示す。 The four key components toour approach are (1) an approximate trust region method which enables stable bootstrapping from theonline network, (2) a normalisation scheme for the loss and priorities which improves robustness whenlearning a set of value functions with a wide range of scales, (3) an improved architecture employingtechniques from NFNets in order to leverage deeper networks without the need for normalization layers,and (4) a policy distillation method which serves to smooth out the instantaneous greedy policy overtime.

The task of building general agents that perform well over a wide range of tasks has been an importantgoal in reinforcement learning since its inception. The problem has been subject of research of alarge body of work, with performance frequently measured by observing scores over the wide rangeof environments contained in the Atari 57 benchmark. Agent57 was the first agent to surpass thehuman benchmark on all 57 games, but this came at the cost of poor data-efficiency, requiring nearly 80billion frames of experience to achieve. Taking Agent57 as a starting point, we employ a diverse set ofstrategies to achieve a 200-fold reduction of experience needed to outperform the human baseline. Weinvestigate a range of instabilities and bottlenecks we encountered while reducing the data regime, andpropose effective solutions to build a more robust and efficient agent. We also demonstrate competitiveperformance with high-performing methods such as Muesli and MuZero. The four key components toour approach are (1) an approximate trust region method which enables stable bootstrapping from theonline network, (2) a normalisation scheme for the loss and priorities which improves robustness whenlearning a set of value functions with a wide range of scales, (3) an improved architecture employingtechniques from NFNets in order to leverage deeper networks without the need for normalization layers,and (4) a policy distillation method which serves to smooth out the instantaneous greedy policy overtime.
翻訳日:2022-09-19 13:00:19 公開日:2022-09-15
# 入射空間分離を伴う階層的超二次分解

Hierarchical Superquadric Decomposition with Implicit Space Separation ( http://arxiv.org/abs/2209.07619v1 )

ライセンス: Link先を確認
Jaka \v{S}ircelj, Peter Peer, Franc Solina, Vitomir \v{S}truc(参考訳) ボリュームプリミティブの集合、すなわちスーパークワッドリックを用いて3Dオブジェクトを再構成する新しい手法を提案する。 この方法は、ターゲットの3dオブジェクトを、より細部と細部を復元するスーパークアドリックのペアに階層的に分解する。 このような階層的手法はこれまで研究されてきたが、予測された超二次体の性質のみを用いて対象空間を分割する新しい方法を導入する。 この方法はShapeNetデータセットでトレーニングされ評価される。 実験の結果, 複雑な形状を持つ多種多様な物体に対して, 合理的な再構成が可能であることが示唆された。

We introduce a new method to reconstruct 3D objects using a set of volumetric primitives, i.e., superquadrics. The method hierarchically decomposes a target 3D object into pairs of superquadrics recovering finer and finer details. While such hierarchical methods have been studied before, we introduce a new way of splitting the object space using only properties of the predicted superquadrics. The method is trained and evaluated on the ShapeNet dataset. The results of our experiments suggest that reasonable reconstructions can be obtained with the proposed approach for a diverse set of objects with complex geometry.
翻訳日:2022-09-19 12:44:04 公開日:2022-09-15
# PIZZA:6DF追跡のための強力な画像専用ゼロショットゼロCADアプローチ

PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF Tracking ( http://arxiv.org/abs/2209.07589v1 )

ライセンス: Link先を確認
Van Nguyen Nguyen, Yuming Du, Yang Xiao, Michael Ramamonjisoa, Vincent Lepetit(参考訳) 新しい物体の相対的なポーズを事前知識なしで推定することは難しい問題であり、ロボット工学や拡張現実において非常に必要な能力である。 本稿では,トレーニング画像や物体の3次元形状が得られない場合,rgb映像列内の物体の6次元運動を追跡する手法を提案する。 先行研究とは対照的に,提案手法では,事前情報や特定のトレーニングフェーズを必要とせずに,オープンワールドにおける未知のオブジェクトを即座に検討することができる。 我々は2つのアーキテクチャを考える。1つは2つのフレームに基づいており、もう1つは任意の数の過去のフレームを活用できるトランスフォーマエンコーダに依存している。 ドメインランダム化による合成レンダリングのみを使用してアーキテクチャをトレーニングする。 挑戦的なデータセットに関する私たちの結果は、はるかに多くの情報を必要とする以前の作業(対象オブジェクトの画像、3Dモデル、および/または深度データ)と同等です。 ソースコードはhttps://github.com/nv-nguyen/pizzaで入手できます。

Estimating the relative pose of a new object without prior knowledge is a hard problem, while it is an ability very much needed in robotics and Augmented Reality. We present a method for tracking the 6D motion of objects in RGB video sequences when neither the training images nor the 3D geometry of the objects are available. In contrast to previous works, our method can therefore consider unknown objects in open world instantly, without requiring any prior information or a specific training phase. We consider two architectures, one based on two frames, and the other relying on a Transformer Encoder, which can exploit an arbitrary number of past frames. We train our architectures using only synthetic renderings with domain randomization. Our results on challenging datasets are on par with previous works that require much more information (training images of the target objects, 3D models, and/or depth data). Our source code is available at https://github.com/nv-nguyen/pizza
翻訳日:2022-09-19 12:31:57 公開日:2022-09-15
# 領域シフトによる物体検出におけるキャリブレーションの改善

Towards Improving Calibration in Object Detection Under Domain Shift ( http://arxiv.org/abs/2209.07601v1 )

ライセンス: Link先を確認
Muhammad Akhtar Munir, Muhammad Haris Khan, M. Saquib Sarfraz, Mohsen Ali(参考訳) 安全クリティカルなアプリケーションにおけるディープニューラルネットワークの利用の増加は、トレーニングされたモデルを適切に調整する必要がある。 現在のキャリブレーション技術のほとんどは、ドメイン内予測のキャリブレーションの改善に焦点を合わせながら、分類問題に対処する。 多くの意思決定システムにおいて、同様の空間と重要性を占有する視覚オブジェクト検出器の校正にはほとんど注意を払わない。 本稿では,現在の物体検出モデルの校正について,特にドメインシフト下で検討する。 そこで我々はまず,物体検出のためのプラグアンドプレイ列車時校正損失を導入する。 検出器の校正を改善するために補助損失関数として使用できる。 次に,一般の自己学習型領域適応型検出器を暗黙的に校正可能な物体検出のための新しい不確実性定量化機構を考案する。 我々は1段階と2段階の両方の物体検出器の研究に含める。 我々の損失は,領域内および領域外検出のキャリブレーションを顕著なマージンで改善できることを実証する。 最後に、ドメイン適応型オブジェクト検出器を様々なドメインシフトシナリオで校正する手法の有用性を示す。

The increasing use of deep neural networks in safety-critical applications requires the trained models to be well-calibrated. Most current calibration techniques address classification problems while focusing on improving calibration on in-domain predictions. Little to no attention is paid towards addressing calibration of visual object detectors which occupy similar space and importance in many decision making systems. In this paper, we study the calibration of current object detection models, particularly under domain shift. To this end, we first introduce a plug-and-play train-time calibration loss for object detection. It can be used as an auxiliary loss function to improve detector's calibration. Second, we devise a new uncertainty quantification mechanism for object detection which can implicitly calibrate the commonly used self-training based domain adaptive detectors. We include in our study both single-stage and two-stage object detectors. We demonstrate that our loss improves calibration for both in-domain and out-of-domain detections with notable margins. Finally, we show the utility of our techniques in calibrating the domain adaptive object detectors in diverse domain shift scenarios.
翻訳日:2022-09-19 12:31:40 公開日:2022-09-15
# 思春期データの深層学習による縦型mriデータからの性別推定は2年間の脳構造と変化に特有のパターンを示す

Prediction of Gender from Longitudinal MRI data via Deep Learning on Adolescent Data Reveals Unique Patterns Associated with Brain Structure and Change over a Two-year Period ( http://arxiv.org/abs/2209.07590v1 )

ライセンス: Link先を確認
Yuda Bi, Anees Abrol, Zening Fu, Jiayu Chen, Jingyu Liu, Vince Calhoun(参考訳) ニューロイメージングデータの予測のためのディープラーニングアルゴリズムは、様々な応用においてかなりの可能性を秘めている。 これまでの研究は、データの3D構造を利用するディープラーニングモデルが、いくつかの学習タスクで標準的な機械学習より優れていることを示した。 しかし、この分野のほとんどの先行研究は、成人の神経画像データに焦点を当てている。 思春期脳認知発達(ABCD)データセットにおいて,脳構造における性別関連変化を推定し,性別関連変化を識別する構造MRIデータについて検討した。 その結果, 性別予測精度は, 訓練時期が200歳以上で非常に高く(>97%), この精度は年齢とともに増加することが示された。 研究対象の最も識別性の高い脳領域は、主に前頭葉と側頭葉である。 2年間の年齢増加に特有の性別予測の変化を評価すると、より広い視野、帯状、管状領域が明らかにされる。 以上の結果より, 性別関連脳構造変化パターンは小年齢でも良好であった。 これは、これらの変化が行動や環境の異なる要因とどのように関連しているかを調べることで、青年期の脳がどのように変化するかを研究することができることを示唆している。

Deep learning algorithms for predicting neuroimaging data have shown considerable promise in various applications. Prior work has demonstrated that deep learning models that take advantage of the data's 3D structure can outperform standard machine learning on several learning tasks. However, most prior research in this area has focused on neuroimaging data from adults. Within the Adolescent Brain and Cognitive Development (ABCD) dataset, a large longitudinal development study, we examine structural MRI data to predict gender and identify gender-related changes in brain structure. Results demonstrate that gender prediction accuracy is exceptionally high (>97%) with training epochs >200 and that this accuracy increases with age. Brain regions identified as the most discriminative in the task under study include predominantly frontal areas and the temporal lobe. When evaluating gender predictive changes specific to a two-year increase in age, a broader set of visual, cingulate, and insular regions are revealed. Our findings show a robust gender-related structural brain change pattern, even over a small age range. This suggests that it might be possible to study how the brain changes during adolescence by looking at how these changes are related to different behavioral and environmental factors.
翻訳日:2022-09-19 12:25:32 公開日:2022-09-15
# TwHIN-BERT:多言語つぶやき表現のための言語モデル

TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations ( http://arxiv.org/abs/2209.07562v1 )

ライセンス: Link先を確認
Xinyang Zhang, Yury Malkov, Omar Florez, Serim Park, Brian McWilliams, Jiawei Han, Ahmed El-Kishky(参考訳) 人気ソーシャルネットワークtwitterのドメイン内データに基づく多言語モデルであるtwhin-bertを提案する。 TwHIN-BERTは、テキストベースのセルフスーパービジョンだけでなく、Twitterの異種情報ネットワーク(TwHIN)内でのリッチなソーシャルエンゲージメントに基づく社会的目的によって訓練されているため、事前訓練済みの言語モデルとは異なる。 私たちのモデルは、100以上の異なる言語をカバーする70億のつぶやきで訓練されています。 我々は,多言語ソーシャルレコメンデーションとセマンティック理解タスクを多言語で評価し,確立した事前学習言語モデルに対して有意な改善効果を示した。 研究コミュニティに無償でtwhin-bertとハッシュタグ予測とソーシャルエンゲージメントベンチマークデータセットをオープンソースとして公開します。

We present TwHIN-BERT, a multilingual language model trained on in-domain data from the popular social network Twitter. TwHIN-BERT differs from prior pre-trained language models as it is trained with not only text-based self-supervision, but also with a social objective based on the rich social engagements within a Twitter heterogeneous information network (TwHIN). Our model is trained on 7 billion tweets covering over 100 distinct languages providing a valuable representation to model short, noisy, user-generated text. We evaluate our model on a variety of multilingual social recommendation and semantic understanding tasks and demonstrate significant metric improvement over established pre-trained language models. We will freely open-source TwHIN-BERT and our curated hashtag prediction and social engagement benchmark datasets to the research community.
翻訳日:2022-09-19 12:24:04 公開日:2022-09-15
# 対話モデリングのための状態記憶型トランスフォーマ

Stateful Memory-Augmented Transformers for Dialogue Modeling ( http://arxiv.org/abs/2209.07634v1 )

ライセンス: Link先を確認
Qingyang Wu and Zhou Yu(参考訳) トランスフォーマーエンコーダ-デコーダモデルでは対話モデルの性能が顕著である。 しかし、トランスフォーマーは長いシーケンスを処理するのに非効率であるため、対話履歴の長さを縮める必要がある。 そこで本研究では,既存のプリトレーニングエンコーダ・デコーダモデルと互換性を持ち,履歴情報の効率的な保存を可能にする新しいメモリ表示トランスを提案する。 トレーニング済みのTransformerと一緒に別々のメモリモジュールを組み込んで、メモリ状態と現在の入力コンテキストの間で情報を効果的に交換する。 3つの対話データセットと2つの言語モデリングデータセットでモデルを評価する。 実験結果から,本手法は他のトレーニング済みトランスフォーマーベースラインに比べて効率と性能が優れていた。

Transformer encoder-decoder models have shown impressive performance in dialogue modeling. However, as Transformers are inefficient in processing long sequences, dialogue history length often needs to be truncated. To address this problem, we propose a new memory-augmented Transformer that is compatible with existing pre-trained encoder-decoder models and enables efficient preservation of history information. It incorporates a separate memory module alongside the pre-trained Transformer to effectively interchange information between the memory states and the current input context. We evaluate our model on three dialogue datasets and two language modeling datasets. Experimental results show that our method has achieved superior efficiency and performance compared to other pre-trained Transformer baselines.
翻訳日:2022-09-19 12:23:42 公開日:2022-09-15
# 減衰プルーニングマスクを用いたn:m構造スパルシティのトレーニングレシピ

Training Recipe for N:M Structured Sparsity with Decaying Pruning Mask ( http://arxiv.org/abs/2209.07617v1 )

ライセンス: Link先を確認
Sheng-Chun Kao, Amir Yazdanbakhsh, Suvinay Subramanian, Shivani Agrawal, Utku Evci, Tushar Krishna(参考訳) sparsityはディープニューラルネットワーク(dnn)を圧縮・加速する有望な方法の1つとなっている。 sparsityのさまざまなカテゴリにおいて、構造化スパーシティは、現代のアクセラレーター上での効率的な実行のために、より注目を集めている。 特に、N:Mスパシティは、特定の形式のN:M構造化空間を利用して高い計算効率を得ることができるハードウェアアクセラレータアーキテクチャがすでに存在するので、魅力的である。 本研究では,モデル精度と計算コスト(FLOP)のトレードオフの観点から,N:Mスパシティに着目し,N:Mスパシティのための様々なトレーニングレシピを幅広く研究し,評価する。 本研究は,2つの新しい崩壊型プルーニング法,すなわち「プルーニングマスク崩壊」と「スパース構造崩壊」を提案する。 提案手法は,トランスフォーマーに基づく翻訳タスクのモデル上で,非構造化空間に匹敵する,最先端(SOTA)モデルの精度を一貫して提供することを示す。 新しいトレーニングレシピを用いたスパースモデルの精度の向上は、トータルトレーニング計算(flops)の限界増加のコストがかかっている。

Sparsity has become one of the promising methods to compress and accelerate Deep Neural Networks (DNNs). Among different categories of sparsity, structured sparsity has gained more attention due to its efficient execution on modern accelerators. Particularly, N:M sparsity is attractive because there are already hardware accelerator architectures that can leverage certain forms of N:M structured sparsity to yield higher compute-efficiency. In this work, we focus on N:M sparsity and extensively study and evaluate various training recipes for N:M sparsity in terms of the trade-off between model accuracy and compute cost (FLOPs). Building upon this study, we propose two new decay-based pruning methods, namely "pruning mask decay" and "sparse structure decay". Our evaluations indicate that these proposed methods consistently deliver state-of-the-art (SOTA) model accuracy, comparable to unstructured sparsity, on a Transformer-based model for a translation task. The increase in the accuracy of the sparse model using the new training recipes comes at the cost of marginal increase in the total training compute (FLOPs).
翻訳日:2022-09-19 12:16:49 公開日:2022-09-15
# 画像とセグメンテーションマスクのワンショット合成

One-Shot Synthesis of Images and Segmentation Masks ( http://arxiv.org/abs/2209.07547v1 )

ライセンス: Link先を確認
Vadim Sushko, Dan Zhang, Juergen Gall, Anna Khoreva(参考訳) 画像合成とGAN(Generative Adversarial Network)とのセグメンテーションマスクの併用により,画像データをピクセル単位のアノテーションで収集する作業の削減が期待されている。 しかし、高忠実度画像マスク合成を学習するためには、既存のGANアプローチでは、まず大量の画像データを必要とする事前学習フェーズが必要である。 本研究では,この制限を減らすための一歩を踏み出し,ワンショット画像マスク合成のタスクを導入する。 我々は,単一のラベル付き例のみを付与した多様な画像とセグメンテーションマスクを生成し,従来のモデルとは対照的に,事前学習データにアクセスできないことを仮定する。 この目的のために, 単一画像GANの最近のアーキテクチャ開発に触発されたOSMISモデルを導入し, ワンショット方式で生成した画像に正確に整合したセグメンテーションマスクの合成を可能にする。 生成マスクの忠実度の向上に加えて、OSMISは画像合成の品質と多様性において最先端の単一イメージGANモデルより優れている。 さらに、追加データを使用しないにもかかわらず、OSMISはワンショットセグメンテーションアプリケーションの有用なデータ拡張の源として機能し、標準的なデータ拡張技術に補完するパフォーマンス向上を提供するという印象的な能力を示している。 コードはhttps://github.com/ boschresearch/one-shot- synthesisで入手できる。

Joint synthesis of images and segmentation masks with generative adversarial networks (GANs) is promising to reduce the effort needed for collecting image data with pixel-wise annotations. However, to learn high-fidelity image-mask synthesis, existing GAN approaches first need a pre-training phase requiring large amounts of image data, which limits their utilization in restricted image domains. In this work, we take a step to reduce this limitation, introducing the task of one-shot image-mask synthesis. We aim to generate diverse images and their segmentation masks given only a single labelled example, and assuming, contrary to previous models, no access to any pre-training data. To this end, inspired by the recent architectural developments of single-image GANs, we introduce our OSMIS model which enables the synthesis of segmentation masks that are precisely aligned to the generated images in the one-shot regime. Besides achieving the high fidelity of generated masks, OSMIS outperforms state-of-the-art single-image GAN models in image synthesis quality and diversity. In addition, despite not using any additional data, OSMIS demonstrates an impressive ability to serve as a source of useful data augmentation for one-shot segmentation applications, providing performance gains that are complementary to standard data augmentation techniques. Code is available at https://github.com/ boschresearch/one-shot-synthesis
翻訳日:2022-09-19 12:08:44 公開日:2022-09-15
# 逆境と自然分布のロバスト性との明確なトレードオフ

Explicit Tradeoffs between Adversarial and Natural Distributional Robustness ( http://arxiv.org/abs/2209.07592v1 )

ライセンス: Link先を確認
Mazda Moayeri, Kiarash Banihashem, Soheil Feizi(参考訳) いくつかの既存の研究は、ディープニューラルネットワークの逆あるいは自然分布の堅牢性を別々に研究している。 しかし実際には、モデルは信頼性を確保するために両方のタイプの堅牢性を享受する必要があります。 本研究は, このギャップを埋め, 実際, 対角的および自然分布的ロバスト性の間に明確なトレードオフが存在することを示す。 まず,コアとスプリアスの特徴を分離したガウスデータ上の単純な線形回帰設定を考える。 この環境では 理論的かつ実証的な分析を通して (i) $\ell_1$ および $\ell_2$ノルムによる逆トレーニングは、刺激的な特徴によるモデル依存を増大させる。 (ii)$\ell_\infty$逆行訓練の場合、急激な特徴の規模が中心的特徴の規模よりも大きい場合にのみ、急激な依存が発生する。 (iii) 敵対的訓練は、特に新しいテスト領域でスプリアス相関が変化した場合に、分布的ロバスト性を低減する意図しない結果をもたらすことができる。 次に,5つのベンチマークデータセット(objectnet, rival10, salient imagenet-1m, imagenet-9, waterbirds)で評価された20の敵意訓練モデルのテストスイートを用いて,敵意訓練された分類器が,標準訓練された相手よりも背景に依存して理論的結果を検証する,広範な実証的証拠を示す。 また,(テスト領域に保持されている場合)トレーニングデータにおけるスプリアス相関は,敵のロバスト性を改善する可能性を示し,先行する攻撃的脆弱性はスプリアス相関に根ざしているという主張は不完全であることを明らかにした。

Several existing works study either adversarial or natural distributional robustness of deep neural networks separately. In practice, however, models need to enjoy both types of robustness to ensure reliability. In this work, we bridge this gap and show that in fact, explicit tradeoffs exist between adversarial and natural distributional robustness. We first consider a simple linear regression setting on Gaussian data with disjoint sets of core and spurious features. In this setting, through theoretical and empirical analysis, we show that (i) adversarial training with $\ell_1$ and $\ell_2$ norms increases the model reliance on spurious features; (ii) For $\ell_\infty$ adversarial training, spurious reliance only occurs when the scale of the spurious features is larger than that of the core features; (iii) adversarial training can have an unintended consequence in reducing distributional robustness, specifically when spurious correlations are changed in the new test domain. Next, we present extensive empirical evidence, using a test suite of twenty adversarially trained models evaluated on five benchmark datasets (ObjectNet, RIVAL10, Salient ImageNet-1M, ImageNet-9, Waterbirds), that adversarially trained classifiers rely on backgrounds more than their standardly trained counterparts, validating our theoretical results. We also show that spurious correlations in training data (when preserved in the test domain) can improve adversarial robustness, revealing that previous claims that adversarial vulnerability is rooted in spurious correlations are incomplete.
翻訳日:2022-09-19 12:08:20 公開日:2022-09-15
# CES-KD: ガイド付き知識蒸留のためのカリキュラムベースのエキスパート選択

CES-KD: Curriculum-based Expert Selection for Guided Knowledge Distillation ( http://arxiv.org/abs/2209.07606v1 )

ライセンス: Link先を確認
Ibtihel Amara, Maryam Ziaeefard, Brett H. Meyer, Warren Gross and James J. Clark(参考訳) 知識蒸留(KD)はエッジデバイスの深い分類モデルを圧縮するための有効なツールである。 しかし,KDの性能は,教師ネットワークと学生ネットワークの容量ギャップに大きな影響を受けている。 近年, 教師モデルのサイズを連続的に減少させ, モデル間のサイズギャップを相対的に橋渡しする, KD のための多元的教師アシスタント (TA) 方式が提案されている。 本稿では, 容量ギャップ問題下でのコンパクトな学生の学習を効率的に促進するための, 知識蒸留のためのカリキュラムエキスパート選択 (CES-KD) と呼ばれる新しい手法を提案する。 本手法は,より低い(高い)能力を持つ教師ネットワークから,より容易に(堅い)データサンプルを学習し,階層化された教育カリキュラムを用いて,学生ネットワークを段階的に指導するべきであるという仮説に基づいている。 具体的には、画像の分類が困難であるカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。 本研究では,我々の仮説を実証的に検証し,CIFAR-10,CIFAR-100,CINIC-10,ImageNetデータセットを用いて厳密に実験し,VGGライクなモデル,ResNets,WideResNetsアーキテクチャの精度向上を示す。

Knowledge distillation (KD) is an effective tool for compressing deep classification models for edge devices. However, the performance of KD is affected by the large capacity gap between the teacher and student networks. Recent methods have resorted to a multiple teacher assistant (TA) setting for KD, which sequentially decreases the size of the teacher model to relatively bridge the size gap between these models. This paper proposes a new technique called Curriculum Expert Selection for Knowledge Distillation (CES-KD) to efficiently enhance the learning of a compact student under the capacity gap problem. This technique is built upon the hypothesis that a student network should be guided gradually using stratified teaching curriculum as it learns easy (hard) data samples better and faster from a lower (higher) capacity teacher network. Specifically, our method is a gradual TA-based KD technique that selects a single teacher per input image based on a curriculum driven by the difficulty in classifying the image. In this work, we empirically verify our hypothesis and rigorously experiment with CIFAR-10, CIFAR-100, CINIC-10, and ImageNet datasets and show improved accuracy on VGG-like models, ResNets, and WideResNets architectures.
翻訳日:2022-09-19 12:07:50 公開日:2022-09-15
# バランス対抗訓練によるロバストフェアネスの改善

Improving Robust Fairness via Balance Adversarial Training ( http://arxiv.org/abs/2209.07534v1 )

ライセンス: Link先を確認
Chunyu Sun, Chenye Xu, Chengyuan Yao, Siyuan Liang, Yichao Wu, Ding Liang, XiangLong Liu, Aishan Liu(参考訳) 敵対的訓練(adversarial training, at)法は、敵の攻撃に対して有効であるが、ロバストフェアネス問題として知られる、異なるクラス間の正確性と堅牢性の厳密な格差をもたらす。 以前提案されたfair robust learning (frl)は、フェアネスを改善するために異なるクラスを適応的に重み付けする。 しかし、高性能なクラスのパフォーマンスは低下し、パフォーマンスが低下する。 本稿では,各クラスから敵意生成の難しさ(ソース・クラス・フェアネス)と,敵意生成時の異なるターゲット・クラス傾向(ターゲット・クラスフェアネス)の2つの不公平な現象を観察した。 そこで本研究では,バランス適応学習(BAT)を提案し,ロバスト公正性問題に対処する。 ソースクラスフェアネスについては、より容易でフェアなモデル学習のために、各クラスが決定境界付近でサンプルを生成するための攻撃強度と難易度を調整し、ターゲットクラスフェアネスを考慮して、一様分布制約を導入することにより、公平な傾向を持つ各クラスに対する敵対的なサンプル生成プロセスを奨励する。 複数データセット (CIFAR-10, CIFAR-100, ImageNette) で実施した大規模な実験により, 本手法はロバストフェアネス問題(最悪のクラス精度では+5-10\%)を緩和する上で, 他のベースラインを著しく上回り得ることを示した。

Adversarial training (AT) methods are effective against adversarial attacks, yet they introduce severe disparity of accuracy and robustness between different classes, known as the robust fairness problem. Previously proposed Fair Robust Learning (FRL) adaptively reweights different classes to improve fairness. However, the performance of the better-performed classes decreases, leading to a strong performance drop. In this paper, we observed two unfair phenomena during adversarial training: different difficulties in generating adversarial examples from each class (source-class fairness) and disparate target class tendencies when generating adversarial examples (target-class fairness). From the observations, we propose Balance Adversarial Training (BAT) to address the robust fairness problem. Regarding source-class fairness, we adjust the attack strength and difficulties of each class to generate samples near the decision boundary for easier and fairer model learning; considering target-class fairness, by introducing a uniform distribution constraint, we encourage the adversarial example generation process for each class with a fair tendency. Extensive experiments conducted on multiple datasets (CIFAR-10, CIFAR-100, and ImageNette) demonstrate that our method can significantly outperform other baselines in mitigating the robust fairness problem (+5-10\% on the worst class accuracy)
翻訳日:2022-09-19 12:05:32 公開日:2022-09-15
# GNNInterpreter:グラフニューラルネットワークのための確率的生成モデルレベル記述

GNNInterpreter: A Probabilistic Generative Model-Level Explanation for Graph Neural Networks ( http://arxiv.org/abs/2209.07924v1 )

ライセンス: Link先を確認
Xiaoqi Wang, Han-Wei Shen(参考訳) 近年、グラフニューラルネットワーク(gnns)は、グラフ上の機械学習タスクのパフォーマンスを著しく向上させている。 しかし、この技術的ブレークスルーは、人々が不思議に思う。GNNは、どうやってそのような決定を下すのか、そして、高い信頼で予測を信頼できるのか? バイオメディシンのようないくつかの重要な分野において、間違った決定を下すと深刻な結果をもたらす場合、gnnの内部動作メカニズムを適用前に解釈することが重要である。 本稿では,GNNモデルの高次決定過程を説明するために,メッセージパッシング方式であるGNNInterpreterに従う異なるGNNに対して,モデルに依存しないモデルレベルの説明手法を提案する。 より具体的には、グラフの連続的な緩和と再パラメータ化のトリックにより、GNNInterpreterはGNNモデルにおいてターゲット予測のための最も代表的なグラフを生成する確率的生成グラフ分布を学習する。 GNNInterpreterは、GNNを説明するために別のブラックボックスを導入することなく、異なるタイプのノード特徴とエッジ特徴を持つ説明グラフを生成する際に、より計算効率が高く、より柔軟である。 さらに、GNNInterpreterが生成した説明グラフは、モデルが理想である場合の所望のグラフパターンと一致し、もし存在する場合の潜在的なモデル落とし穴を明らかにすることができることを示す。

Recently, Graph Neural Networks (GNNs) have significantly advanced the performance of machine learning tasks on graphs. However, this technological breakthrough makes people wonder: how does a GNN make such decisions, and can we trust its prediction with high confidence? When it comes to some critical fields such as biomedicine, where making wrong decisions can have severe consequences, interpreting the inner working mechanisms of GNNs before applying them is crucial. In this paper, we propose a novel model-agnostic model-level explanation method for different GNNs that follow the message passing scheme, GNNInterpreter, to explain the high-level decision-making process of the GNN model. More specifically, with continuous relaxation of graphs and the reparameterization trick, GNNInterpreter learns a probabilistic generative graph distribution which produces the most representative graph for the target prediction in the eye of the GNN model. Compared with the only existing work, GNNInterpreter is more computationally efficient and more flexible in generating explanation graphs with different types of node features and edge features, without introducing another blackbox to explain the GNN and without requiring domain-specific knowledge. Additionally, the experimental studies conducted on four different datasets demonstrate that the explanation graph generated by GNNInterpreter can match the desired graph pattern when the model is ideal and reveal potential model pitfalls if there exist any.
翻訳日:2022-09-19 11:58:21 公開日:2022-09-15
# ptab: 事前学習された言語モデルを用いた表データモデリング

PTab: Using the Pre-trained Language Model for Modeling Tabular Data ( http://arxiv.org/abs/2209.08060v1 )

ライセンス: Link先を確認
Guang Liu and Jie Yang and Ledell Wu(参考訳) タブラルデータは情報時代の基礎であり、広く研究されている。 近年の研究では、ニューラルネットワークモデルが表データの文脈表現の学習に有効であることが示されている。 効果的な文脈表現の学習には意味のある特徴と大量のデータが必要である。 しかし、現在の手法は意味情報のない特徴から文脈表現を適切に学習できないことが多い。 さらに、データセット間の差異により、混合表型データセットを通じてトレーニングセットを拡大することは難題である。 これらの問題に対処するために,事前学習言語モデルを用いてタブラルデータをモデル化する新しいフレームワークPTabを提案する。 PTabは3段階の処理(MT)、Masked-Language Fine-tuning(MF)、分類ファインチューニング(CF))によって表データのコンテキスト表現を学習する。 我々は,大規模言語データから学習した意味情報を含む事前学習モデル(PTM)でモデルを初期化する。 これにより、微調整段階において文脈表現を効果的に学習することができる。 さらに、テキスト化された表データを組み合わせて、トレーニングセットを拡大することで、表現学習をさらに改善することができる。 PTabを8つの一般的な表型分類データセットで評価する。 実験の結果,本手法は最先端のベースライン (xgboost など) と比較して,教師あり設定で平均 auc スコアが向上し,半教師あり設定で比較した。 PTabのインスタンスベースの解釈性が良好であることを示す可視化結果を示す。

Tabular data is the foundation of the information age and has been extensively studied. Recent studies show that neural-based models are effective in learning contextual representation for tabular data. The learning of an effective contextual representation requires meaningful features and a large amount of data. However, current methods often fail to properly learn a contextual representation from the features without semantic information. In addition, it's intractable to enlarge the training set through mixed tabular datasets due to the difference between datasets. To address these problems, we propose a novel framework PTab, using the Pre-trained language model to model Tabular data. PTab learns a contextual representation of tabular data through a three-stage processing: Modality Transformation(MT), Masked-Language Fine-tuning(MF), and Classification Fine-tuning(CF). We initialize our model with a pre-trained Model (PTM) which contains semantic information learned from the large-scale language data. Consequently, contextual representation can be learned effectively during the fine-tuning stages. In addition, we can naturally mix the textualized tabular data to enlarge the training set to further improve representation learning. We evaluate PTab on eight popular tabular classification datasets. Experimental results show that our method has achieved a better average AUC score in supervised settings compared to the state-of-the-art baselines(e.g. XGBoost), and outperforms counterpart methods under semi-supervised settings. We present visualization results that show PTab has well instance-based interpretability.
翻訳日:2022-09-19 11:57:15 公開日:2022-09-15
# バッチ正規化に関するtheroretical insight: 正規化率の自動チューニングデータ依存性

Theroretical Insight into Batch Normalization: Data Dependant Auto-Tuning of Regularization Rate ( http://arxiv.org/abs/2209.07587v1 )

ライセンス: Link先を確認
Lakshmi Annamalai and Chetan Singh Thakur(参考訳) バッチ正規化はディープラーニングにおいて、中間アクティベーションの正規化に広く使われている。 ディープネットワークはトレーニングの複雑さが高まり、重みの注意深い初期化、学習率の低下などに悩まされている。 これらの問題は、アクティベーションの入力をゼロ平均と単位標準偏差に正規化することで、バッチ正規化(\textbf{BN})によって解決されている。 このバッチ正規化をトレーニングプロセスの一部にすることで、非常に深いネットワークのトレーニングプロセスを劇的に加速する。 新しい研究分野は、 \textbf{BN} の成功の裏にある正確な理論的な説明を調べるために進んでいる。 これらの理論的な洞察のほとんどは、最適化、重みスケール不変性、正規化にその影響を置くことによって、 \textbf{bn} の利点を説明しようとするものである。 一般化を加速する上での\textbf{bn} の成功にもかかわらず、正規化パラメータに対する \textbf{bn} の効果を解析的に関連付けるギャップは依然として欠けている。 本稿では,解析的証明を伴うtextbf{BN} による正規化パラメータの自動チューニングを実現することを目的とする。 我々は、正規化パラメータのオートチューニングに依存するデータ統計を実証するため、非\textbf{BN}重み付けに課される制約付き最適化として \textbf{BN} を提唱した。 また, 信号と正規化パラメータのノイズチューニングの関係を明らかにする, 雑音入力条件下での挙動を解析的に証明した。 また,mnistデータセット実験の結果から,我々の主張を実証的に裏付けた。

Batch normalization is widely used in deep learning to normalize intermediate activations. Deep networks suffer from notoriously increased training complexity, mandating careful initialization of weights, requiring lower learning rates, etc. These issues have been addressed by Batch Normalization (\textbf{BN}), by normalizing the inputs of activations to zero mean and unit standard deviation. Making this batch normalization part of the training process dramatically accelerates the training process of very deep networks. A new field of research has been going on to examine the exact theoretical explanation behind the success of \textbf{BN}. Most of these theoretical insights attempt to explain the benefits of \textbf{BN} by placing them on its influence on optimization, weight scale invariance, and regularization. Despite \textbf{BN} undeniable success in accelerating generalization, the gap of analytically relating the effect of \textbf{BN} to the regularization parameter is still missing. This paper aims to bring out the data-dependent auto-tuning of the regularization parameter by \textbf{BN} with analytical proofs. We have posed \textbf{BN} as a constrained optimization imposed on non-\textbf{BN} weights through which we demonstrate its data statistics dependant auto-tuning of regularization parameter. We have also given analytical proof for its behavior under a noisy input scenario, which reveals the signal vs. noise tuning of the regularization parameter. We have also substantiated our claim with empirical results from the MNIST dataset experiments.
翻訳日:2022-09-19 11:56:48 公開日:2022-09-15
# 授業増分学習のためのソフトサブネットについて

On the Soft-Subnetwork for Few-shot Class Incremental Learning ( http://arxiv.org/abs/2209.07529v1 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, Sultan Rizky Hikmawan Madjid, Sung Ju Hwang, Chang D. Yoo(参考訳) RLTH(Regularized Lottery Ticket hypothesis)に触発されて、高密度ネットワークの競争性能を達成するような、スムーズな(非バイナリな)サブネットが存在するという仮説を立て、我々は'emph{Soft-SubNetworks (SoftNet)}と呼ばれる数ショットクラスインクリメンタルラーニング(FSCIL)手法を提案する。 私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。 SoftNetは、各マスクが主要なサブネットワークとマイナーなサブネットワークで構成されているベーストレーニングセッションにおいて、モデルウェイトと適応非バイナリのソフトマスクを共同で学習する。 我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。

Inspired by Regularized Lottery Ticket Hypothesis (RLTH), which hypothesizes that there exist smooth (non-binary) subnetworks within a dense network that achieve the competitive performance of the dense network, we propose a few-shot class incremental learning (FSCIL) method referred to as \emph{Soft-SubNetworks (SoftNet)}. Our objective is to learn a sequence of sessions incrementally, where each session only includes a few training instances per class while preserving the knowledge of the previously learned ones. SoftNet jointly learns the model weights and adaptive non-binary soft masks at a base training session in which each mask consists of the major and minor subnetwork; the former aims to minimize catastrophic forgetting during training, and the latter aims to avoid overfitting to a few samples in each new training session. We provide comprehensive empirical validations demonstrating that our SoftNet effectively tackles the few-shot incremental learning problem by surpassing the performance of state-of-the-art baselines over benchmark datasets.
翻訳日:2022-09-19 11:49:13 公開日:2022-09-15
# コーパスガイドによる低資源英語品種のモルフォシンタクティック特徴検出用コントラストセット

Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in Low-Resource English Varieties ( http://arxiv.org/abs/2209.07611v1 )

ライセンス: Link先を確認
Tessa Masis, Anissa Neal, Lisa Green, Brendan O'Connor(参考訳) 言語変化の研究は、言語が話者の異なるグループ間でどのように変化するかを調べ、言語を用いてアイデンティティを構築する方法と、社会的文脈が言語の使用に与える影響について光を当てる。 一般的な方法は、コーパス内で特定の言語的特徴(例えばゼロコプラ構成)のインスタンスを識別し、話者、話題、その他の変数間の特徴の分布を分析し、特徴の機能の定性的理解を得るか、あるいは体系的に変化を測定することである。 本稿では,低リソース英語における自動形態素特徴検出の課題について検討する。 コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。 本手法は,インド英語とアフリカ英語の両方の機能検出を改善し,言語研究を支援する方法を示し,他の研究者が使用する微調整モデルをリリースする。

The study of language variation examines how language varies between and within different groups of speakers, shedding light on how we use language to construct identities and how social contexts affect language use. A common method is to identify instances of a certain linguistic feature - say, the zero copula construction - in a corpus, and analyze the feature's distribution across speakers, topics, and other variables, to either gain a qualitative understanding of the feature's function or systematically measure variation. In this paper, we explore the challenging task of automatic morphosyntactic feature detection in low-resource English varieties. We present a human-in-the-loop approach to generate and filter effective contrast sets via corpus-guided edits. We show that our approach improves feature detection for both Indian English and African American English, demonstrate how it can assist linguistic research, and release our fine-tuned models for use by other researchers.
翻訳日:2022-09-19 11:38:44 公開日:2022-09-15
# ASR増強のための非パラレル音声変換

Non-Parallel Voice Conversion for ASR Augmentation ( http://arxiv.org/abs/2209.06987v1 )

ライセンス: Link先を確認
Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran, Fadi Biadsy, Yinghui Huang, Jesse Emond, Pedro Moreno Mengibar(参考訳) 音声認識(ASR)は話者差に頑健である必要がある。 音声変換(VC)は入力音声の話者特性を変更する。 これは、ASRデータ拡張の魅力的な機能である。 本稿では,2,456 人の話者を含む LibriSpeech 上でも,データ拡張手法として音声変換がASR の性能向上に有効であることを示す。 ASR強化には、VCモデルが幅広い入力音声に対して堅牢であることが必要である。 これは、非自己回帰的、非並列VCモデルの使用と、VCモデル内で事前訓練されたASRエンコーダの使用を動機付けている。 この研究は、多くの話者を含むにもかかわらず、話者の多様性がASRの品質に制限されることを示唆している。 最後に、VCのパフォーマンスの検査は、VC品質の客観的評価に有用な指標を提供している。

Automatic speech recognition (ASR) needs to be robust to speaker differences. Voice Conversion (VC) modifies speaker characteristics of input speech. This is an attractive feature for ASR data augmentation. In this paper, we demonstrate that voice conversion can be used as a data augmentation technique to improve ASR performance, even on LibriSpeech, which contains 2,456 speakers. For ASR augmentation, it is necessary that the VC model be robust to a wide range of input speech. This motivates the use of a non-autoregressive, non-parallel VC model, and the use of a pretrained ASR encoder within the VC model. This work suggests that despite including many speakers, speaker diversity may remain a limitation to ASR quality. Finally, interrogation of our VC performance has provided useful metrics for objective evaluation of VC quality.
翻訳日:2022-09-16 13:47:38 公開日:2022-09-15
# 入力制約付き確率線形システムの学習に基づく適応制御

Learning-Based Adaptive Control for Stochastic Linear Systems with Input Constraints ( http://arxiv.org/abs/2209.07040v1 )

ライセンス: Link先を確認
Seth Siriya, Jingge Zhu, Dragan Ne\v{s}i\'c, Ye Pu(参考訳) そこで本研究では,加法を受けるスカラー線形系,すなわちガウス外乱と有界制御入力制約に対する適応制御について,システムパラメータの境界や制御方向の事前知識を必要とせず,確実性同値スキームを提案する。 系が極端に安定であると仮定すると、閉ループ系の平均二乗有界性は証明される。 最後に, この結果を示す数値的な例を示す。

We propose a certainty-equivalence scheme for adaptive control of scalar linear systems subject to additive, i.i.d. Gaussian disturbances and bounded control input constraints, without requiring prior knowledge of the bounds of the system parameters, nor the control direction. Assuming that the system is at-worst marginally stable, mean square boundedness of the closed-loop system states is proven. Lastly, numerical examples are presented to illustrate our results.
翻訳日:2022-09-16 13:47:26 公開日:2022-09-15
# 分離データを用いた分散学習:一般化と高速アルゴリズム

Decentralized Learning with Separable Data: Generalization and Fast Algorithms ( http://arxiv.org/abs/2209.07116v1 )

ライセンス: Link先を確認
Hossein Taheri, Christos Thrampoulidis(参考訳) 分散学習は、基礎となるグラフ上で通信するエージェント間でデータが自然に分散されるときに、プライバシと通信効率を提供する。 モデルがトレーニング損失ゼロにトレーニングされる過パラメータ学習設定に動機づけられ,分散学習のアルゴリズム的,一般化的特性と勾配降下を分離可能なデータで検討した。 具体的には、分散勾配降下(DGD)と無限遠点ゼロ(指数的およびロジスティックな損失を含む)に漸近する様々な損失関数に対して、新しい有限時間一般化境界を導出する。 これは、一般化性能と分離可能なデータに対する勾配降下の暗黙バイアスを研究する最近の長い研究を補完するものであるが、これまでは集中的な学習シナリオに限られてきた。 特に、我々の一般化は中央集権化の順に一致する。 この背景には、また独立した関心から、自己拘束的損失のクラスに対するDGDのトレーニング損失とコンセンサス率に新たな限界を定めている。 最後に、アルゴリズム面では、分離可能なデータによる分散学習のための勾配ベースルーチンの改善を設計し、トレーニングと一般化性能の両方の観点から、スピードアップの順序を実証的に示す。

Decentralized learning offers privacy and communication efficiency when data are naturally distributed among agents communicating over an underlying graph. Motivated by overparameterized learning settings, in which models are trained to zero training loss, we study algorithmic and generalization properties of decentralized learning with gradient descent on separable data. Specifically, for decentralized gradient descent (DGD) and a variety of loss functions that asymptote to zero at infinity (including exponential and logistic losses), we derive novel finite-time generalization bounds. This complements a long line of recent work that studies the generalization performance and the implicit bias of gradient descent over separable data, but has thus far been limited to centralized learning scenarios. Notably, our generalization bounds match in order their centralized counterparts. Critical behind this, and of independent interest, is establishing novel bounds on the training loss and the rate-of-consensus of DGD for a class of self-bounded losses. Finally, on the algorithmic front, we design improved gradient-based routines for decentralized learning with separable data and empirically demonstrate orders-of-magnitude of speed-up in terms of both training and generalization performance.
翻訳日:2022-09-16 13:47:18 公開日:2022-09-15
# 因果解析に基づく適応フェアネス改善

Adaptive Fairness Improvement Based on Causality Analysis ( http://arxiv.org/abs/2209.07190v1 )

ライセンス: Link先を確認
Mengdi Zhang and Jun Sun(参考訳) 識別ニューラルネットワークが与えられた場合、公平性改善の問題は、その性能(すなわち精度)を著しく損なうことなく、体系的に識別を減らすことである。 ニューラルネットワークでは、前処理、内処理、後処理など、複数のフェアネス改善手法が提案されている。 しかし、経験的な研究では、これらの手法が必ずしも有効ではない(例えば、大きな精度低下の代償を支払うことで公正性を改善する)、あるいは役に立たない(例えば、公平さと正確さの両方を悪化させる)ことが示されています。 本研究では,因果解析に基づくフェアネス改善手法を適応的に選択する手法を提案する。 すなわち、入力属性と隠れたニューロンの間に不公平の原因となるニューロンと属性がどう分配されるかに基づいて、この方法を選択する。 実験結果から,我々のアプローチは効果的(つまり,常に最善の公平性改善方法を特定する)かつ効率的(つまり,平均5分間のオーバーヘッドで)であることが示された。

Given a discriminating neural network, the problem of fairness improvement is to systematically reduce discrimination without significantly scarifies its performance (i.e., accuracy). Multiple categories of fairness improving methods have been proposed for neural networks, including pre-processing, in-processing and post-processing. Our empirical study however shows that these methods are not always effective (e.g., they may improve fairness by paying the price of huge accuracy drop) or even not helpful (e.g., they may even worsen both fairness and accuracy). In this work, we propose an approach which adaptively chooses the fairness improving method based on causality analysis. That is, we choose the method based on how the neurons and attributes responsible for unfairness are distributed among the input attributes and the hidden neurons. Our experimental evaluation shows that our approach is effective (i.e., always identify the best fairness improving method) and efficient (i.e., with an average time overhead of 5 minutes).
翻訳日:2022-09-16 13:46:58 公開日:2022-09-15
# 公平な誤情報検出のための効率的一階予測-補正多目的最適化

Efficient first-order predictor-corrector multiple objective optimization for fair misinformation detection ( http://arxiv.org/abs/2209.07245v1 )

ライセンス: Link先を確認
Eric Enouen and Katja Mathesius and Sean Wang and Arielle Carr and Sihong Xie(参考訳) 多目的最適化(MOO)は、複数の競合する目的を同時に最適化することを目的としており、分類損失の最小化や、異なる集団を公平に扱う際の不一致など、機械学習において重要な応用を見出している。 最適性において、ある目的をさらに最適化することは、少なくとも別の目的を損なうことは必然であり、意思決定者は1つの最終解を見極めるために、複数の最適化(パレートフロントと呼ばれる)を包括的に探索する必要がある。 我々はパレート前線を見つける効率について論じる。 まず、確率的多段階降下(SMGD)を使用してスクラッチから正面を見つけることは、大きなニューラルネットワークとデータセットで高価である。 本稿では,数個の初期最適値からパレートフロントを多様体として探索することを提案する。 第二に、探索の各ステップにおいて、予測器はモデルパラメータの2次スケールの大規模線形系を解き、解法の反復ごとに2階のヘッセンベクトル積を評価するために1つのバックプロパゲーションを必要とする。 線形にスケールし,イテレーション毎に1次内積のみを必要とするgauss-newton近似を提案する。 これにより、線形系をおよそ解く際に、MINRESと共役勾配法を選択できる。 イノベーションによって、大規模なネットワークで予測訂正が可能になる。 多目的(フェアネスと精度)誤情報検出課題の実験 1)予測器・相関器法は、より少ない時間で、SMGDに類似したパレートフロントを見つけることができる。 2) 提案手法は, 2次法で同定されたパレートフロントの品質を損なうことなく, ランニング時間を短縮する。

Multiple-objective optimization (MOO) aims to simultaneously optimize multiple conflicting objectives and has found important applications in machine learning, such as minimizing classification loss and discrepancy in treating different populations for fairness. At optimality, further optimizing one objective will necessarily harm at least another objective, and decision-makers need to comprehensively explore multiple optima (called Pareto front) to pinpoint one final solution. We address the efficiency of finding the Pareto front. First, finding the front from scratch using stochastic multi-gradient descent (SMGD) is expensive with large neural networks and datasets. We propose to explore the Pareto front as a manifold from a few initial optima, based on a predictor-corrector method. Second, for each exploration step, the predictor solves a large-scale linear system that scales quadratically in the number of model parameters and requires one backpropagation to evaluate a second-order Hessian-vector product per iteration of the solver. We propose a Gauss-Newton approximation that only scales linearly, and that requires only first-order inner-product per iteration. This also allows for a choice between the MINRES and conjugate gradient methods when approximately solving the linear system. The innovations make predictor-corrector possible for large networks. Experiments on multi-objective (fairness and accuracy) misinformation detection tasks show that 1) the predictor-corrector method can find Pareto fronts better than or similar to SMGD with less time; and 2) the proposed first-order method does not harm the quality of the Pareto front identified by the second-order method, while further reduce running time.
翻訳日:2022-09-16 13:46:39 公開日:2022-09-15
# 逆ネットワークを用いたブラインドとチャネル非依存の等化

Blind and Channel-agnostic Equalization Using Adversarial Networks ( http://arxiv.org/abs/2209.07277v1 )

ライセンス: Link先を確認
Vincent Lauinger, Manuel Hoffmann, Jonas Ney, Norbert Wehn, and Laurent Schmalen(参考訳) 自動運転、モノのインターネット、ストリーミングサービスの急速な発展により、現代の通信システムは様々なチャネル条件と着実に増加するユーザとデバイスに対応しなければならない。 このような帯域幅の要求は、高度にフレキシブルで盲目なトランシーバアルゴリズムを必要とするインテリジェントなネットワーク自動化によってのみ満たされる。 これらの課題に対処するため,我々は,敵ネットワークを用いたイコライザを訓練することにより,ディープラーニングの隆盛を生かした適応的イコライズスキームを提案する。 学習は、送信信号の統計のみに基づいて行われるため、実際の送信シンボルに関しては盲目であり、チャネルモデルとは無関係である。 提案手法はイコライザトポロジとは独立であり,強力なニューラルネットワークベースのイコライザの適用を可能にする。 本研究では, 非線形・非線形の異なる伝送チャネルのシミュレーションにおいて, この概念を証明し, 非盲検等化器の性能にアプローチするためのブラインド学習方式の有効性を示す。 さらに,理論的な視点を提供し,アプローチの課題を強調する。

Due to the rapid development of autonomous driving, the Internet of Things and streaming services, modern communication systems have to cope with varying channel conditions and a steadily rising number of users and devices. This, and the still rising bandwidth demands, can only be met by intelligent network automation, which requires highly flexible and blind transceiver algorithms. To tackle those challenges, we propose a novel adaptive equalization scheme, which exploits the prosperous advances in deep learning by training an equalizer with an adversarial network. The learning is only based on the statistics of the transmit signal, so it is blind regarding the actual transmit symbols and agnostic to the channel model. The proposed approach is independent of the equalizer topology and enables the application of powerful neural network based equalizers. In this work, we prove this concept in simulations of different -- both linear and nonlinear -- transmission channels and demonstrate the capability of the proposed blind learning scheme to approach the performance of non-blind equalizers. Furthermore, we provide a theoretical perspective and highlight the challenges of the approach.
翻訳日:2022-09-16 13:46:10 公開日:2022-09-15
# 物理ベースのグラフニューラルネットワークによるオーバーヘッドフリーブロック検出とプリコーディング:lidarデータによるレイトレーシング

Overhead-Free Blockage Detection and Precoding Through Physics-Based Graph Neural Networks: LIDAR Data Meets Ray Tracing ( http://arxiv.org/abs/2209.07350v1 )

ライセンス: Link先を確認
Matteo Nerini, Bruno Clerckx(参考訳) 本稿では,マルチインプット多重出力(MIMO)リンクに対するブロック検出とプリコーダの設計に,通信オーバーヘッドを伴わずに対処する。 ブロック検出は、物理学ベースのグラフニューラルネットワーク(GNN)を介して、光検出と範囲(LIDAR)データを分類することで達成される。 プリコーダ設計には、LIDARデータから得られた3D面にレイトレーシングを行うことにより、予備チャネル推定を行う。 この推定は順次洗練され、したがってプリコーダが設計される。 数値シミュレーションでは、ブロック検出は95%精度で成功している。 我々のディジタルプリコーディングは、容量の90%を達成し、アナログプリコーディングは、プリコーダ設計にLIDARを利用した以前の作業よりも優れていた。

In this letter, we address blockage detection and precoder design for multiple-input multiple-output (MIMO) links, without communication overhead required. Blockage detection is achieved by classifying light detection and ranging (LIDAR) data through a physics-based graph neural network (GNN). For precoder design, a preliminary channel estimate is obtained by running ray tracing on a 3D surface obtained from LIDAR data. This estimate is successively refined and the precoder is designed accordingly. Numerical simulations show that blockage detection is successful with 95% accuracy. Our digital precoding achieves 90% of the capacity and analog precoding outperforms previous works exploiting LIDAR for precoder design.
翻訳日:2022-09-16 13:45:53 公開日:2022-09-15
# 制約付き最適化のためのOmnipredictors

Omnipredictors for Constrained Optimization ( http://arxiv.org/abs/2209.07463v1 )

ライセンス: Link先を確認
Lunjia Hu, Inbal Livni-Navon, Omer Reingold, Chutong Yang(参考訳) オムニプレクタ(Gopalan, Kalai, Reingold, Sharan, Wieder ITCS 2021)の概念は、損失最小化のための新しいパラダイムを提唱した。 既知の損失関数に基づいて予測子を学習する代わりに、omnipredictorは、クラス$c$の損失と比較して、損失関数の豊富な族のいずれかを最小化するために、後処理が容易である。 そのような全方位予測子は、アルゴリズム的公正文学からの多重校正の概念により(すべての凸関数とリプシッツ損失関数に対して)存在することが示されている。 それでも、選択されたアクションがいくつかの追加の制約(キャパシティやパリティの制約など)に従う必要がある場合が多い。 それ自体、Omnipredictor の本来の概念は、このよく動機づけられた、制約された損失最小化の文脈を深く研究するには適用されない。 本稿では,制約付き最適化のためのomnipredictorを導入し,その複雑性と影響について検討する。 私たちが導入する概念により、学習者は、後に割り当てられる損失関数と、これらの制約を定義するために使用されるサブポピュレーションが分かっている限り、後から課される制約を知らないことができる。 本論文は,制約付き最適化問題に対する全予測器の獲得方法を示す。 いくつかの興味深い制約と一般損失関数、および一般的な制約といくつかの興味深い損失関数について、標準多重化と複雑に類似した多重化の変種によって、omnipredictorがどのように含んでいるかを示す。 一般の場合、標準の多重校正は不十分であり、すべての仮説のレベルセットを$C$で含むクラスに対して、全単項述語が多重校正によって暗示されることを示す。 また,制約がグループフェアネス概念である場合の意味についても検討する。

The notion of omnipredictors (Gopalan, Kalai, Reingold, Sharan and Wieder ITCS 2021), suggested a new paradigm for loss minimization. Rather than learning a predictor based on a known loss function, omnipredictors can easily be post-processed to minimize any one of a rich family of loss functions compared with the loss of a class $C$. It has been shown that such omnipredictors exist and are implied (for all convex and Lipschitz loss functions) by the notion of multicalibration from the algorithmic fairness literature. Nevertheless, it is often the case that the action selected must obey some additional constraints (such as capacity or parity constraints). In itself, the original notion of omnipredictors does not apply in this well-motivated and heavily studied the context of constrained loss minimization. In this paper, we introduce omnipredictors for constrained optimization and study their complexity and implications. The notion that we introduce allows the learner to be unaware of the loss function that will be later assigned as well as the constraints that will be later imposed, as long as the subpopulations that are used to define these constraints are known. The paper shows how to obtain omnipredictors for constrained optimization problems, relying on appropriate variants of multicalibration. For some interesting constraints and general loss functions and for general constraints and some interesting loss functions, we show how omnipredictors are implied by a variant of multicalibration that is similar in complexity to standard multicalibration. We demonstrate that in the general case, standard multicalibration is insufficient and show that omnipredictors are implied by multicalibration with respect to a class containing all the level sets of hypotheses in $C$. We also investigate the implications when the constraints are group fairness notions.
翻訳日:2022-09-16 13:45:42 公開日:2022-09-15
# MRI-MECH : 食道の健康を推定するメカニックインフォームドMRI

MRI-MECH: Mechanics-informed MRI to estimate esophageal health ( http://arxiv.org/abs/2209.07492v1 )

ライセンス: Link先を確認
Sourav Halder, Ethan M. Johnson, Jun Yamasaki, Peter J. Kahrilas, Michael Markl, John E. Pandolfino, Neelesh A. Patankar(参考訳) dynamic magnetic resonance imaging(mri)は、組織や臓器内の造影剤の流れの画像配列を生成する一般的な医用イメージング技術である。 しかし、食道を経由するボロース運動のイメージングへの応用は、実現可能性の研究でのみ実証されており、比較的未検討である。 本研究では,MRI-MECH(Mechanics-informed MRI)と呼ばれる,食道疾患の診断におけるダイナミックMRIの適用性を高めるための計算フレームワークを提案する。 ダイナミックMRIの造影剤としてパイナップルジュースを使用し,MRI-MECHの入力としてMRI画像シーケンスを使用した。 MRI-MECHは食道を柔軟な1次元管としてモデル化し,弾性管壁は線形管法則に従っている。 食道内の流れは1次元の質量と運動量保存方程式によって制御された。 これらの方程式は物理インフォームドニューラルネットワーク(PINN)を用いて解かれた。 PINNはMRIとモデル予測の差を最小限に抑え、流体流問題の物理が常に追従されることを保証した。 MRI-MECHは食道通過時の血流速度と圧力を算出し,壁硬さと能動緩和を算出して食道の機械的健康度を推定した。 さらにmri-mechは,空腹時に下部食道括約筋に関する情報の欠如を予測し,欠如したデータや画像解像度の悪いシナリオへの適用性を示した。 食道のメカニカルヘルスを定量的に見積もって臨床診断を改善することに加え、MRI-MECHは、他の医用画像モダリティにも適用でき、機能を高めることができる。

Dynamic magnetic resonance imaging (MRI) is a popular medical imaging technique to generate image sequences of the flow of a contrast material inside tissues and organs. However, its application to imaging bolus movement through the esophagus has only been demonstrated in few feasibility studies and is relatively unexplored. In this work, we present a computational framework called mechanics-informed MRI (MRI-MECH) that enhances that capability thereby increasing the applicability of dynamic MRI for diagnosing esophageal disorders. Pineapple juice was used as the swallowed contrast material for the dynamic MRI and the MRI image sequence was used as input to the MRI-MECH. The MRI-MECH modeled the esophagus as a flexible one-dimensional tube and the elastic tube walls followed a linear tube law. Flow through the esophagus was then governed by one-dimensional mass and momentum conservation equations. These equations were solved using a physics-informed neural network (PINN). The PINN minimized the difference between the measurements from the MRI and model predictions ensuring that the physics of the fluid flow problem was always followed. MRI-MECH calculated the fluid velocity and pressure during esophageal transit and estimated the mechanical health of the esophagus by calculating wall stiffness and active relaxation. Additionally, MRI-MECH predicted missing information about the lower esophageal sphincter during the emptying process, demonstrating its applicability to scenarios with missing data or poor image resolution. In addition to potentially improving clinical decisions based on quantitative estimates of the mechanical health of the esophagus, MRI-MECH can also be enhanced for application to other medical imaging modalities to enhance their functionality as well.
翻訳日:2022-09-16 13:45:08 公開日:2022-09-15
# Rho-Tau Bregman情報と焼成経路の幾何学

Rho-Tau Bregman Information and the Geometry of Annealing Paths ( http://arxiv.org/abs/2209.07481v1 )

ライセンス: Link先を確認
Rob Brekelmans, Frank Nielsen(参考訳) マルコフ連鎖モンテカルロ法による複素分布のサンプリングと正規化定数の推定は、移動可能な初期分布と関心のターゲット密度とを橋渡しするアニーリングパスに沿った中間分布の列からサンプルをシミュレートすることが多い。 従来の研究は準算術的な手段を用いてアニーリングパスを構築し、結果として生じる中間密度は、エンドポイントへの期待分散を最小限に抑えるものとして解釈した。 密度関数の単調な埋め込みの下で,ブレグマン発散体を用いたこの「セントロイド」特性の包括的解析を行い,Amari's や Renyi's ${\alpha}$-divergences,${(\alpha,\beta)}$-divergences,およびJensen-Shannon発散体を焼鈍経路に沿って中間密度に関連付ける。 本解析では,zhang 2004;2013 の rho-tau bregman divergence framework を用いたパラメトリックファミリー,準アリスメティックな手段,および発散関数間の相互作用に注目した。

Markov Chain Monte Carlo methods for sampling from complex distributions and estimating normalization constants often simulate samples from a sequence of intermediate distributions along an annealing path, which bridges between a tractable initial distribution and a target density of interest. Prior work has constructed annealing paths using quasi-arithmetic means, and interpreted the resulting intermediate densities as minimizing an expected divergence to the endpoints. We provide a comprehensive analysis of this 'centroid' property using Bregman divergences under a monotonic embedding of the density function, thereby associating common divergences such as Amari's and Renyi's ${\alpha}$-divergences, ${(\alpha,\beta)}$-divergences, and the Jensen-Shannon divergence with intermediate densities along an annealing path. Our analysis highlights the interplay between parametric families, quasi-arithmetic means, and divergence functions using the rho-tau Bregman divergence framework of Zhang 2004;2013.
翻訳日:2022-09-16 13:44:41 公開日:2022-09-15
# 機械学習可能なソフトウェアシステムのためのMDE:MontiAnnaとML-Quadratのケーススタディと比較

MDE for Machine Learning-Enabled Software Systems: A Case Study and Comparison of MontiAnna & ML-Quadrat ( http://arxiv.org/abs/2209.07282v1 )

ライセンス: Link先を確認
J\"org Christian Kirchhof and Evgeny Kusmenko and Jonas Ritz and Bernhard Rumpe and Armin Moin and Atta Badii and Stephan G\"unnemann and Moharram Challenger(参考訳) 本稿では,モノのインターネット(IoT)分野に着目した機械学習(ML)対応ソフトウェアシステムの開発に,MDEパラダイムを採用することを提案する。 この目的のために,montianna と ml-quadrat という2つの最先端のオープンソースモデリングツールが,ケーススタディで実証されている。 このケーススタディでは、ML、特にディープニューラルネットワーク(ANN)を使用して、MNIST参照データセットを使用して手書き桁の自動認識を行い、マシンラーニングコンポーネントをIoTシステムに統合する方法について説明している。 その後、我々は2つのフレームワークの機能比較を行い、問題領域、大規模システムへのML統合の方法、MLメソッドのサポートなど幅広い設計上の考慮事項を含む分析基盤を設定し、AutoMLやMLOpsといったMLコミュニティへの近年の関心の高まりについて論じる。 そこで本稿では,ML領域におけるMDEアプローチの可能性を明らかにすることを目的とした。 これは、コードを実装するのではなく、MLエンジニアが(ML/ソフトウェア)モデルを開発するのをサポートすると同時に、IoTやサイバー物理システムのコンポーネントとしてML機能を最初から統合可能にすることで、設計の再利用性とモジュール性も強化する。

In this paper, we propose to adopt the MDE paradigm for the development of Machine Learning (ML)-enabled software systems with a focus on the Internet of Things (IoT) domain. We illustrate how two state-of-the-art open-source modeling tools, namely MontiAnna and ML-Quadrat can be used for this purpose as demonstrated through a case study. The case study illustrates using ML, in particular deep Artificial Neural Networks (ANNs), for automated image recognition of handwritten digits using the MNIST reference dataset, and integrating the machine learning components into an IoT system. Subsequently, we conduct a functional comparison of the two frameworks, setting out an analysis base to include a broad range of design considerations, such as the problem domain, methods for the ML integration into larger systems, and supported ML methods, as well as topics of recent intense interest to the ML community, such as AutoML and MLOps. Accordingly, this paper is focused on elucidating the potential of the MDE approach in the ML domain. This supports the ML engineer in developing the (ML/software) model rather than implementing the code, and additionally enforces reusability and modularity of the design through enabling the out-of-the-box integration of ML functionality as a component of the IoT or cyber-physical systems.
翻訳日:2022-09-16 13:41:05 公開日:2022-09-15
# cu系単原子合金触媒のco2還元反応予測のための多タスク混合密度グラフニューラルネットワーク

Multi-Task Mixture Density Graph Neural Networks for Predicting Cu-based Single-Atom Alloy Catalysts for CO2 Reduction Reaction ( http://arxiv.org/abs/2209.07300v1 )

ライセンス: Link先を確認
Chen Liang, Bowen Wang, Shaogang Hao, Guangyong Chen, Pheng-Ann Heng and Xiaolong Zou(参考訳) グラフニューラルネットワーク(GNN)は、材料科学者からますます注目を集め、構造と特性の間の接続を確立するための高い能力を示した。 しかし、入力として提供された非緩和構造のみにより、緩和された構成の熱力学特性を許容レベルの誤差で予測できるGNNモデルはほとんどない。 本研究では,dimenet++ とmixed density network を基盤としたマルチタスク (mt) アーキテクチャを開発し,タスクの性能を向上させる。 本研究では,Cu系単原子合金触媒へのCO吸着を図示として,コストのかかる第一原理計算を行うことなく,初期CO吸着構造から平均絶対誤差0.087 eVでCO吸着エネルギーを確実に推定できることを示す。 さらに, 現状のgnn法と比較して, ドメイン外構成の触媒性能を予測する際の一般化性能が向上し, 基質表面やドーピング種で構築した。 提案したMT GNN戦略が触媒発見を促進することを示す。

Graph neural networks (GNNs) have drawn more and more attention from material scientists and demonstrated a high capacity to establish connections between the structure and properties. However, with only unrelaxed structures provided as input, few GNN models can predict the thermodynamic properties of relaxed configurations with an acceptable level of error. In this work, we develop a multi-task (MT) architecture based on DimeNet++ and mixture density networks to improve the performance of such task. Taking CO adsorption on Cu-based single-atom alloy catalysts as an illustration, we show that our method can reliably estimate CO adsorption energy with a mean absolute error of 0.087 eV from the initial CO adsorption structures without costly first-principles calculations. Further, compared to other state-of-the-art GNN methods, our model exhibits improved generalization ability when predicting catalytic performance of out-of-domain configurations, built with either unseen substrate surfaces or doping species. We show that the proposed MT GNN strategy can facilitate catalyst discovery.
翻訳日:2022-09-16 13:40:42 公開日:2022-09-15
# 下流フェアネスのマルチキャリブレーション回帰

Multicalibrated Regression for Downstream Fairness ( http://arxiv.org/abs/2209.07312v1 )

ライセンス: Link先を確認
Ira Globus-Harris and Varun Gupta and Christopher Jung and Michael Kearns and Jamie Morgenstern and Aaron Roth(参考訳) 回帰関数 $\hat{f}$ を ` `multicalibrated'' として適切に取り、様々なフェアネス制約を満たす近似誤差最小化分類器に効率的に後処理する方法を示す。 ポストプロセッシングはラベル付きデータを必要としず、ラベル付きデータと計算の少ない量しか必要としない。 計算量とサンプルの複雑性の要件は、1つの公正な学習タスクを最適に解くことの要件に匹敵するが、実際には多くの下流の公平性に制約のある学習問題を効率的に解くために使うことができる。 本手法は, 相互処理群を扱いやすく, 処理後回帰関数の事前処理を一般化し, 不一致群にのみ適用される公平性制約を満たす。 我々の研究は、多重校正回帰関数が'omnipredictors'(すなわち制約のないERM問題を最適に解くために後処理できる)であることを示す最近の研究を拡張した。

We show how to take a regression function $\hat{f}$ that is appropriately ``multicalibrated'' and efficiently post-process it into an approximately error minimizing classifier satisfying a large variety of fairness constraints. The post-processing requires no labeled data, and only a modest amount of unlabeled data and computation. The computational and sample complexity requirements of computing $\hat f$ are comparable to the requirements for solving a single fair learning task optimally, but it can in fact be used to solve many different downstream fairness-constrained learning problems efficiently. Our post-processing method easily handles intersecting groups, generalizing prior work on post-processing regression functions to satisfy fairness constraints that only applied to disjoint groups. Our work extends recent work showing that multicalibrated regression functions are ``omnipredictors'' (i.e. can be post-processed to optimally solve unconstrained ERM problems) to constrained optimization.
翻訳日:2022-09-16 13:40:24 公開日:2022-09-15
# 協調制約付きマルチエージェント強化学習(CMARL)の平均場近似

Mean-Field Approximation of Cooperative Constrained Multi-Agent Reinforcement Learning (CMARL) ( http://arxiv.org/abs/2209.07437v1 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri(参考訳) Mean-Field Control (MFC)は,大規模マルチエージェント強化学習(MARL)問題を概ね解くための,スケーラブルなツールであることが最近証明されている。 しかしながら、これらの研究は通常、制約のない累積報酬最大化フレームワークに限られる。 本稿では, 制約が存在する場合でも, MFC を用いて MARL 問題を近似できることを示す。 具体的には、各エージェントがそれぞれ大きさ$|\mathcal{X}|$と$|\mathcal{U}|$の値を持つ$N$-agent制約付きMARL問題と、各エージェントのアクション空間が、関連する制約付きMFC問題([\sqrt{|\mathcal{X}|}+\sqrt{|\mathcal{U}|}]/\sqrt{N}\right)$によって誤差で近似できることを証明している。 報酬、コスト、状態遷移関数が集団の行動分布とは独立な特別な場合において、誤差を $e=\mathcal{o}(\sqrt{|\mathcal{x}|}/\sqrt{n})$ に改善できることを証明する。 また、自然ポリシー勾配に基づくアルゴリズムを提供し、制約付きmarl問題を$\mathcal{o}(e)$の誤差で、$\mathcal{o}(e^{-6})$のサンプル複雑性で解くことができることを証明した。

Mean-Field Control (MFC) has recently been proven to be a scalable tool to approximately solve large-scale multi-agent reinforcement learning (MARL) problems. However, these studies are typically limited to unconstrained cumulative reward maximization framework. In this paper, we show that one can use the MFC approach to approximate the MARL problem even in the presence of constraints. Specifically, we prove that, an $N$-agent constrained MARL problem, with state, and action spaces of each individual agents being of sizes $|\mathcal{X}|$, and $|\mathcal{U}|$ respectively, can be approximated by an associated constrained MFC problem with an error, $e\triangleq \mathcal{O}\left([\sqrt{|\mathcal{X}|}+\sqrt{|\mathcal{U}|}]/\sqrt{N}\right)$. In a special case where the reward, cost, and state transition functions are independent of the action distribution of the population, we prove that the error can be improved to $e=\mathcal{O}(\sqrt{|\mathcal{X}|}/\sqrt{N})$. Also, we provide a Natural Policy Gradient based algorithm and prove that it can solve the constrained MARL problem within an error of $\mathcal{O}(e)$ with a sample complexity of $\mathcal{O}(e^{-6})$.
翻訳日:2022-09-16 13:39:42 公開日:2022-09-15
# 長期制約を伴うオンライン最適化のための統一フレームワーク

A Unifying Framework for Online Optimization with Long-Term Constraints ( http://arxiv.org/abs/2209.07454v1 )

ライセンス: Link先を確認
Matteo Castiglioni, Andrea Celli, Alberto Marchesi, Giulia Romano, Nicola Gatti(参考訳) 我々は,意思決定者が長期的制約を課した一連の意思決定を行なわなければならないオンライン学習問題について検討する。 意思決定者の目標は、合計報酬を最大化すると同時に、t$ラウンド全体にわたる小さな累積制約違反を実現することだ。 本稿では,この一般的な問題に対して,未知の確率モデルに基づいて報酬と制約が選択される場合と,各ラウンドで敵が選択する場合の両方において,最良な両世界型アルゴリズムを提案する。 本アルゴリズムは, 長期的制約を満たす最適固定戦略に対して, 敵設定で保証を提供する最初のアルゴリズムである。 特に、$\rho/(1+\rho)$の最適報酬とサブ線形後悔の分数を保証するが、$\rho$は厳密に実現可能な解の存在に関連する実現可能性パラメータである。 当社のフレームワークでは、従来の後悔の最小化をブラックボックスコンポーネントとして採用しています。 したがって、後悔の最小化の適切な選択でインスタンス化することで、フルフィードバックとバンディットフィードバックの設定を処理できる。 さらに、意思決定者は非凸報酬と制約でシナリオをシームレスに処理できる。 私たちのフレームワークは、パッケージ化されていない長期的制約(ROI制約など)を保証するために、繰り返しオークションの予算管理メカニズムの文脈でどのように適用できるかを示します。

We study online learning problems in which a decision maker has to take a sequence of decisions subject to $m$ long-term constraints. The goal of the decision maker is to maximize their total reward, while at the same time achieving small cumulative constraints violation across the $T$ rounds. We present the first best-of-both-world type algorithm for this general class of problems, with no-regret guarantees both in the case in which rewards and constraints are selected according to an unknown stochastic model, and in the case in which they are selected at each round by an adversary. Our algorithm is the first to provide guarantees in the adversarial setting with respect to the optimal fixed strategy that satisfies the long-term constraints. In particular, it guarantees a $\rho/(1+\rho)$ fraction of the optimal reward and sublinear regret, where $\rho$ is a feasibility parameter related to the existence of strictly feasible solutions. Our framework employs traditional regret minimizers as black-box components. Therefore, by instantiating it with an appropriate choice of regret minimizers it can handle the full-feedback as well as the bandit-feedback setting. Moreover, it allows the decision maker to seamlessly handle scenarios with non-convex rewards and constraints. We show how our framework can be applied in the context of budget-management mechanisms for repeated auctions in order to guarantee long-term constraints that are not packing (e.g., ROI constraints).
翻訳日:2022-09-16 13:39:07 公開日:2022-09-15
# 潜時拡散モデルを用いた脳画像生成

Brain Imaging Generation with Latent Diffusion Models ( http://arxiv.org/abs/2209.07162v1 )

ライセンス: Link先を確認
Walter H. L. Pinaya, Petru-Daniel Tudosiu, Jessica Dafflon, Pedro F da Costa, Virginia Fernandez, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 深層ニューラルネットワークは、医療画像解析に驚くべきブレークスルーをもたらした。 しかし、そのデータ不足の性質から、医療画像プロジェクトにおける控えめなデータセットサイズは、その可能性を完全に妨げているかもしれない。 合成データの生成は有望な代替手段であり、トレーニングデータセットを補完し、より大規模な医療画像研究を行うことができる。 拡散モデルは最近、フォトリアリスティック合成画像を作成することでコンピュータビジョンコミュニティの注目を集めている。 本研究では,高解像度3次元脳画像から合成画像を生成するために潜在拡散モデルを用いて検討する。 我々は、英国バイオバンクのデータセット(N=31,740)から得られたT1w MRI画像を用いて、年齢、性別、脳構造ボリュームなどの共変量に基づく脳画像の確率分布について学習した。 我々のモデルは現実的なデータを作成し、条件変数を使ってデータ生成を効果的に制御できることがわかった。 さらに、脳の画像10万枚からなる合成データセットを作成し、科学コミュニティに公開しました。

Deep neural networks have brought remarkable breakthroughs in medical image analysis. However, due to their data-hungry nature, the modest dataset sizes in medical imaging projects might be hindering their full potential. Generating synthetic data provides a promising alternative, allowing to complement training datasets and conducting medical image research at a larger scale. Diffusion models recently have caught the attention of the computer vision community by producing photorealistic synthetic images. In this study, we explore using Latent Diffusion Models to generate synthetic images from high-resolution 3D brain images. We used T1w MRI images from the UK Biobank dataset (N=31,740) to train our models to learn about the probabilistic distribution of brain images, conditioned on covariables, such as age, sex, and brain structure volumes. We found that our models created realistic data, and we could use the conditioning variables to control the data generation effectively. Besides that, we created a synthetic dataset with 100,000 brain images and made it openly available to the scientific community.
翻訳日:2022-09-16 13:38:42 公開日:2022-09-15
# M^4I:マルチモーダルモデルのメンバーシップ推論

M^4I: Multi-modal Models Membership Inference ( http://arxiv.org/abs/2209.06997v1 )

ライセンス: Link先を確認
Pingyi Hu, Zihan Wang, Ruoxi Sun, Hu Wang, Minhui Xue(参考訳) 機械学習技術の発展に伴い、現実世界のデータが異なるモダリティの形で存在するため、研究の関心はシングルモーダル学習からマルチモーダル学習へと移っている。 しかし、マルチモーダルモデルはシングルモーダルモデルよりも多くの情報を持ち、医療報告の生成や病気の特定といったセンシティブなシナリオに応用されることが多い。 機械学習分類器に対する既存のメンバシップ推論と比較して、マルチモーダルモデルの入力と出力が、画像キャプションのような異なるモダリティにあるという問題に焦点を当てる。 本研究は、データレコードがモデルトレーニングプロセスにかかわるかどうかを判断するプロセスであるメンバーシップ推論攻撃のレンズを通して、マルチモーダルモデルのプライバシー漏洩を研究する。 そこで,本研究では,m^4iとm^4iという2つの攻撃手法を組み込んだマルチモーダルモデルメンバーシップ推論(m^4i)を提案する。 具体的には、MB M^4Iは、ターゲットデータメンバーシップを推測する攻撃中に類似度メトリクスを採用する。 fb m^4iは、予め訓練されたシャドーマルチモーダル特徴抽出器を用いて、抽出された入出力特徴の類似性を比較することにより、データ推論攻撃の目的を達成する。 実験結果から, どちらの攻撃方法も高い性能が得られることが示された。 平均的な攻撃成功率の72.5%と94.83%は、制限のないシナリオで得ることができる。 さらに,攻撃に対する複数の防御機構を評価する。 M^4I攻撃のソースコードはhttps://github.com/MultimodalMI/Multimodal-membership-inference.gitで公開されている。

With the development of machine learning techniques, the attention of research has been moved from single-modal learning to multi-modal learning, as real-world data exist in the form of different modalities. However, multi-modal models often carry more information than single-modal models and they are usually applied in sensitive scenarios, such as medical report generation or disease identification. Compared with the existing membership inference against machine learning classifiers, we focus on the problem that the input and output of the multi-modal models are in different modalities, such as image captioning. This work studies the privacy leakage of multi-modal models through the lens of membership inference attack, a process of determining whether a data record involves in the model training process or not. To achieve this, we propose Multi-modal Models Membership Inference (M^4I) with two attack methods to infer the membership status, named metric-based (MB) M^4I and feature-based (FB) M^4I, respectively. More specifically, MB M^4I adopts similarity metrics while attacking to infer target data membership. FB M^4I uses a pre-trained shadow multi-modal feature extractor to achieve the purpose of data inference attack by comparing the similarities from extracted input and output features. Extensive experimental results show that both attack methods can achieve strong performances. Respectively, 72.5% and 94.83% of attack success rates on average can be obtained under unrestricted scenarios. Moreover, we evaluate multiple defense mechanisms against our attacks. The source code of M^4I attacks is publicly available at https://github.com/MultimodalMI/Multimodal-membership-inference.git.
翻訳日:2022-09-16 13:35:53 公開日:2022-09-15
# 離散潜在変数モデルの公正な推論

Fair Inference for Discrete Latent Variable Models ( http://arxiv.org/abs/2209.07044v1 )

ライセンス: Link先を確認
Rashidul Islam, Shimei Pan and James R. Foulds(参考訳) 現在では、注意を払わずにデータに基づいてトレーニングされた機械学習モデルは、特定の集団に対して不公平で差別的な行動を示すことがよく理解されている。 伝統的なアルゴリズムフェアネス研究は主に教師付き学習タスク、特に分類に焦点を当てている。 教師なし学習の公平性は注目されているが、この文学は主に連続埋め込みの公正表現学習を扱っている。 本稿では,確率的グラフィカルモデルと離散潜在変数を用いた教師なし学習に着目した。 本研究は, 離散潜伏変数に対する公正確率的変分推論手法を開発し, 交差性の原理を尊重する変分分布に対する公平性ペナルティ, 法学, 社会科学, 人文科学の公正性に対する批判レンズ, そして, このペナルティの下で変分パラメータを最適化することによって達成される。 まず,ベンチマークデータセット上でna\"ive bayesおよびgaussian mixed modelを用いたクラスタリングの公平性と公平性を改善する手法の有用性を示す。 提案手法の一般化と実世界への影響の可能性を示すため,刑事司法リスク評価のための特殊なグラフィカルモデルを開発し,不公平な社会的偏見の符号化を防止するために公正性アプローチを用いる。

It is now well understood that machine learning models, trained on data without due care, often exhibit unfair and discriminatory behavior against certain populations. Traditional algorithmic fairness research has mainly focused on supervised learning tasks, particularly classification. While fairness in unsupervised learning has received some attention, the literature has primarily addressed fair representation learning of continuous embeddings. In this paper, we conversely focus on unsupervised learning using probabilistic graphical models with discrete latent variables. We develop a fair stochastic variational inference technique for the discrete latent variables, which is accomplished by including a fairness penalty on the variational distribution that aims to respect the principles of intersectionality, a critical lens on fairness from the legal, social science, and humanities literature, and then optimizing the variational parameters under this penalty. We first show the utility of our method in improving equity and fairness for clustering using na\"ive Bayes and Gaussian mixture models on benchmark datasets. To demonstrate the generality of our approach and its potential for real-world impact, we then develop a special-purpose graphical model for criminal justice risk assessments, and use our fairness approach to prevent the inferences from encoding unfair societal biases.
翻訳日:2022-09-16 13:35:25 公開日:2022-09-15
# iFlipper: 個別のフェアネスのためのラベルフリップ

iFlipper: Label Flipping for Individual Fairness ( http://arxiv.org/abs/2209.07047v1 )

ライセンス: Link先を確認
Hantian Zhang, Ki Hyun Tae, Jaeyoung Park, Xu Chu, Steven Euijong Whang(参考訳) 機械学習が普及するにつれて、トレーニングデータに存在する不公平さの軽減が重要になる。 公平性に関する様々な概念のうち、本論文はよく知られた個々人の公平性に焦点をあて、同様の個性は同じように扱うべきであると述べる。 モデル(インプロセス)のトレーニングでは、個々の公平性が向上しますが、モデルトレーニング(プリプロセス)の前にデータを修正することは、より基本的なソリューションである、と私たちは主張します。 特に,ラベルフリップは,個人の公正性向上に有効な事前処理手法であることを示す。 我々のシステムiFlipperは、トレーニングデータに類似した2つのサンプルが異なるラベルを持つ場合の、個々の公正違反に制限されたラベルを最小に反転する最適化問題を解く。 まず、問題はNPハードであることを証明する。 次に、近似線形プログラミングアルゴリズムを提案し、ラベルフリップ数の観点から、その結果が最適解にどの程度近いかを理論的に保証する。 また,違反の限界を超えることなく線形計画法をより最適にする手法を提案する。 実際のデータセットの実験では、iFlipperは未確認のテストセットの個々の公正性と正確性の観点から、他の前処理ベースラインを大幅に上回っている。 さらにiflipperは、より良い結果を得るために、処理中のテクニックと組み合わせられる。

As machine learning becomes prevalent, mitigating any unfairness present in the training data becomes critical. Among the various notions of fairness, this paper focuses on the well-known individual fairness, which states that similar individuals should be treated similarly. While individual fairness can be improved when training a model (in-processing), we contend that fixing the data before model training (pre-processing) is a more fundamental solution. In particular, we show that label flipping is an effective pre-processing technique for improving individual fairness. Our system iFlipper solves the optimization problem of minimally flipping labels given a limit to the individual fairness violations, where a violation occurs when two similar examples in the training data have different labels. We first prove that the problem is NP-hard. We then propose an approximate linear programming algorithm and provide theoretical guarantees on how close its result is to the optimal solution in terms of the number of label flips. We also propose techniques for making the linear programming solution more optimal without exceeding the violations limit. Experiments on real datasets show that iFlipper significantly outperforms other pre-processing baselines in terms of individual fairness and accuracy on unseen test sets. In addition, iFlipper can be combined with in-processing techniques for even better results.
翻訳日:2022-09-16 13:35:03 公開日:2022-09-15
# GAGA:一般化セルフパッチ正規化器の年齢パスの解読

GAGA: Deciphering Age-path of Generalized Self-paced Regularizer ( http://arxiv.org/abs/2209.07063v1 )

ライセンス: Link先を確認
Xingyu Qu, Diyang Li, Xiaohan Zhao, Bin Gu(参考訳) 現在、SPL(Self-paced Learning)は、人間や動物の認知過程を模倣する重要な機械学習パラダイムである。 SPL体制は、自費正規化器と年齢パラメータが徐々に増加し、SPLにおいて重要な役割を担っているが、このプロセスを最適に終了させる場所はいまだに決定しづらい。 自然な考え方は、解経路 w.r.t. 年齢パラメータ(すなわち年齢パス)を計算することである。 しかし、現在の年齢パスアルゴリズムは、最も単純な正規化器に制限されているか、あるいは理論的な確固たる理解と計算効率が欠如している。 この課題に対処するために、通常の微分方程式(ODE)に基づいて様々な自己ペース正則化子を持つSPL用の新規な \underline{G}eneralized \underline{Ag}e-path \underline{A}lgorithm (GAGA) を提案し、年齢パラメータの範囲の解スペクトル全体を学習できる制御を設定する。 我々の知る限り、GAGAは一般のセルフペース正規化器の年齢パスに対処する最初の正確な経路追従アルゴリズムである。 最後に、古典的なSVMとLassoのアルゴリズムステップを詳述する。 実世界のデータセットにおけるGAGAの性能を実証し、アルゴリズムと競合するベースラインの間にかなりのスピードアップを見出す。

Nowadays self-paced learning (SPL) is an important machine learning paradigm that mimics the cognitive process of humans and animals. The SPL regime involves a self-paced regularizer and a gradually increasing age parameter, which plays a key role in SPL but where to optimally terminate this process is still non-trivial to determine. A natural idea is to compute the solution path w.r.t. age parameter (i.e., age-path). However, current age-path algorithms are either limited to the simplest regularizer, or lack solid theoretical understanding as well as computational efficiency. To address this challenge, we propose a novel \underline{G}eneralized \underline{Ag}e-path \underline{A}lgorithm (GAGA) for SPL with various self-paced regularizers based on ordinary differential equations (ODEs) and sets control, which can learn the entire solution spectrum w.r.t. a range of age parameters. To the best of our knowledge, GAGA is the first exact path-following algorithm tackling the age-path for general self-paced regularizer. Finally the algorithmic steps of classic SVM and Lasso are described in detail. We demonstrate the performance of GAGA on real-world datasets, and find considerable speedup between our algorithm and competing baselines.
翻訳日:2022-09-16 13:34:39 公開日:2022-09-15
# グラフニューラルネットワークによる地震相の関連

Earthquake Phase Association with Graph Neural Networks ( http://arxiv.org/abs/2209.07086v1 )

ライセンス: Link先を確認
Ian W. McBrearty, Gregory C. Beroza(参考訳) 地震相関係は, 地震の到着時刻をその原因源と結びつける。 効果的なアソシエーションは、個々の事象の数、その位置、発生時刻を決定し、実際の到着を測定成果物と区別しなければならない。 重なり合う小さなマグニチュードの地震から高いピック率を提供するディープラーニングピッカーの出現は、フェーズ連想問題の再検討と、ディープラーニングの手法によるアプローチを動機付けている。 我々は,空間的空間的局所化と離散的情報源的関連性の両方を同時に予測するグラフニューラルネットワークアソシエータを開発した。 この手法は、数百の局の任意の幾何、時間変化の地震波ネットワークに適用可能であり、ノイズや品質の異なるソースや入力ピックの高いレートに頑健である。 我々のグラフ地震ニューラルネットワークエンジン(GENIE)は1つのグラフを用いて局を表現し、もう1つは空間源領域を表す。 GENIEは、この複合表現でデータから関係を学習し、ロバストなソースとソースとターゲットの関連を決定できる。 合成データを訓練し, フェーズネット深層学習フェーズピッカーによる入力を用いて, 北カリフォルニア(nc)地震ネットワークからの実データを用いて本手法を検証した。 我々は2000$\unicode{x2013}$2022の間の500日間にUSGSが報告した全ての事象M>1の約96%を再検出した。 2017$\unicode{x2013}$2018の100日間の連続処理で、USGSが報告した事象の数を約4.2倍検出した。 我々の新しい事象はUSGSカタログの完全度よりも小さい大きさの見積もりを持ち、地域の活断層や採石場に近い位置にある。 以上の結果から, 複雑な地震モニタリング条件下では, GENIEが相関を効果的に解決できることが示唆された。

Seismic phase association connects earthquake arrival time measurements to their causative sources. Effective association must determine the number of discrete events, their location and origin times, and it must differentiate real arrivals from measurement artifacts. The advent of deep learning pickers, which provide high rates of picks from closely overlapping small magnitude earthquakes, motivates revisiting the phase association problem and approaching it using the methods of deep learning. We have developed a Graph Neural Network associator that simultaneously predicts both source space-time localization, and discrete source-arrival association likelihoods. The method is applicable to arbitrary geometry, time-varying seismic networks of hundreds of stations, and is robust to high rates of sources and input picks with variable noise and quality. Our Graph Earthquake Neural Interpretation Engine (GENIE) uses one graph to represent the station set and another to represent the spatial source region. GENIE learns relationships from data in this combined representation that enable it to determine robust source and source-arrival associations. We train on synthetic data, and test our method on real data from the Northern California (NC) seismic network using input generated by the PhaseNet deep learning phase picker. We successfully re-detect ~96% of all events M>1 reported by the USGS during 500 random days between 2000$\unicode{x2013}$2022. Over a 100-day continuous interval of processing in 2017$\unicode{x2013}$2018, we detect ~4.2x the number of events reported by the USGS. Our new events have small magnitude estimates below the magnitude of completeness of the USGS catalog, and are located close to the active faults and quarries in the region. Our results demonstrate that GENIE can effectively solve the association problem under complex seismic monitoring conditions.
翻訳日:2022-09-16 13:34:13 公開日:2022-09-15
# COOL-MC:強化学習とモデルチェックのための総合ツール

COOL-MC: A Comprehensive Tool for Reinforcement Learning and Model Checking ( http://arxiv.org/abs/2209.07133v1 )

ライセンス: Link先を確認
Dennis Gross, Nils Jansen, Sebastian Junges, Guillermo A. Perez(参考訳) 本稿では,最先端強化学習(RL)とモデル検査を統合したCOOL-MCを提案する。 具体的には、このツールはopenai gymと確率的モデルチェッカーstorm上に構築されている。 COOL-MCは,(1) ストームの入力として定義されたマルコフ決定プロセス(MDP)のためのOpenAIジムでRLポリシーを訓練するシミュレータ,(2) RLポリシーの検証(神経ネットワーク)にコールバック関数を使用するStormの新しいモデルビルダー,(3) OpenAIジムやストームで指定されたモデルとポリシーを関連づける形式的抽象化,(4) いわゆるパーミッションポリシーのパフォーマンスの限界を求めるアルゴリズムを提供する。 我々はCOOL-MCのコンポーネントとアーキテクチャを説明し、その特徴を複数のベンチマーク環境で示す。

This paper presents COOL-MC, a tool that integrates state-of-the-art reinforcement learning (RL) and model checking. Specifically, the tool builds upon the OpenAI gym and the probabilistic model checker Storm. COOL-MC provides the following features: (1) a simulator to train RL policies in the OpenAI gym for Markov decision processes (MDPs) that are defined as input for Storm, (2) a new model builder for Storm, which uses callback functions to verify (neural network) RL policies, (3) formal abstractions that relate models and policies specified in OpenAI gym or Storm, and (4) algorithms to obtain bounds on the performance of so-called permissive policies. We describe the components and architecture of COOL-MC and demonstrate its features on multiple benchmark environments.
翻訳日:2022-09-16 13:33:42 公開日:2022-09-15
# 四足歩行のための弾性アクチュエータの爆発学習

Learning to Exploit Elastic Actuators for Quadruped Locomotion ( http://arxiv.org/abs/2209.07171v1 )

ライセンス: Link先を確認
Antonin Raffin, Daniel Seidel, Jens Kober, Alin Albu-Sch\"affer, Jo\~ao Silv\'erio, Freek Stulp(参考訳) 足の移動におけるスプリングベースのアクチュエータは、エネルギー効率と性能の向上を提供するが、コントローラ設計の難しさは増す。 従来の研究では,このようなシステムの最適制御器を見つけるための広範なモデリングとシミュレーションに重点を置いてきたが,本研究では実ロボット上でモデルフリー制御器を直接学習することを提案する。 提案手法では,まず中央パターン生成器(CPG)を用いて歩行を合成し,パラメータを最適化し,効率的な移動を実現するオープンループ制御器を迅速に得る。 そして、そのコントローラをより堅牢にし、さらにパフォーマンスを向上させるために、強化学習を使用してループを閉じ、cpg上での修正動作を学習します。 提案手法をDLRの弾性四重項ベルトで評価する。 その結果,スプリングアクチュエータの動力学の活用が動的動作の最適化から自然に出現し,モデルフリーであるにもかかわらず高い運動能力が得られることがわかった。 このプロセス全体は、実際のロボットに1.5時間しかかからず、自然に見えます。

Spring-based actuators in legged locomotion provide energy-efficiency and improved performance, but increase the difficulty of controller design. Whereas previous works have focused on extensive modeling and simulation to find optimal controllers for such systems, we propose to learn model-free controllers directly on the real robot. In our approach, gaits are first synthesized by central pattern generators (CPGs), whose parameters are optimized to quickly obtain an open-loop controller that achieves efficient locomotion. Then, to make that controller more robust and further improve the performance, we use reinforcement learning to close the loop, to learn corrective actions on top of the CPGs. We evaluate the proposed approach in DLR's elastic quadruped bert. Our results in learning trotting and pronking gaits show that exploitation of the spring actuator dynamics emerges naturally from optimizing for dynamic motions, yielding high-performing locomotion despite being model-free. The whole process takes no more than 1.5 hours on the real robot and results in natural-looking gaits.
翻訳日:2022-09-16 13:33:23 公開日:2022-09-15
# ProAPT:深層強化学習によるAPT脅威の予測

ProAPT: Projection of APT Threats with Deep Reinforcement Learning ( http://arxiv.org/abs/2209.07215v1 )

ライセンス: Link先を確認
Motahareh Dehghan, Babak Sadeghiyan, Erfan Khosravian, Alireza Sedighi Moghaddam, Farshid Nooshi(参考訳) エンドリー状況認識モデルにおける最高レベルは、近い将来の環境における要素の状態が予測されたときに投影と呼ばれる。 サイバーセキュリティの状況認識においては、APT(Advanced Persistent Threat)の予測はAPTの次のステップを予測する必要がある。 脅威は常に変化し、より複雑になっています。 教師なしおよび教師なしの学習方法は、APTの次のステップを投影するためにAPTデータセットを必要とするため、未知のAPT脅威を特定することはできない。 強化学習では、エージェントは環境と相互作用し、既知のaptと未知のaptの次のステップを投影する。 これまでのところ、強化学習はAPTの次のステップを推し進めるために使われていない。 強化学習では、エージェントは前の状態とアクションを使用して現在の状態の最良の動作を近似する。 状態と行動の数が豊富である場合、エージェントはディープラーニングと呼ばれるニューラルネットワークを使用して各状態の最良の動作を近似する。 本稿では,APTの次のステップを予測するための深層強化学習システムを提案する。 攻撃ステップの間に何らかの関係があるため、各状態のベストアクションを近似するためにlong- short-term memory (lstm) 法を用いる。 提案システムでは,現状に基づいて,apt脅威の次のステップを計画する。

The highest level in the Endsley situation awareness model is called projection when the status of elements in the environment in the near future is predicted. In cybersecurity situation awareness, the projection for an Advanced Persistent Threat (APT) requires predicting the next step of the APT. The threats are constantly changing and becoming more complex. As supervised and unsupervised learning methods require APT datasets for projecting the next step of APTs, they are unable to identify unknown APT threats. In reinforcement learning methods, the agent interacts with the environment, and so it might project the next step of known and unknown APTs. So far, reinforcement learning has not been used to project the next step for APTs. In reinforcement learning, the agent uses the previous states and actions to approximate the best action of the current state. When the number of states and actions is abundant, the agent employs a neural network which is called deep learning to approximate the best action of each state. In this paper, we present a deep reinforcement learning system to project the next step of APTs. As there exists some relation between attack steps, we employ the Long- Short-Term Memory (LSTM) method to approximate the best action of each state. In our proposed system, based on the current situation, we project the next steps of APT threats.
翻訳日:2022-09-16 13:33:06 公開日:2022-09-15
# MIXRTs:繰り返しソフト決定木を混合した多エージェント強化学習に向けて

MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees ( http://arxiv.org/abs/2209.07225v1 )

ライセンス: Link先を確認
Zichuan Liu, Yuanyang Zhu, Zhi Wang, Chunlin Chen(参考訳) マルチエージェント強化学習(MARL)は近年,幅広い分野で大きな成功を収めている。 しかし、ブラックボックスニューラルネットワークアーキテクチャでは、既存のmarlメソッドは、人間が学習した知識を理解することを妨げる不透明な方法で決定を下す。 我々のソリューションはMIXing Recurrent soft decision Trees (MIXRT)であり、決定木のルート・ツー・リーフパスを通じて明確な決定プロセスを表現することができる新しい解釈可能なアーキテクチャである。 本研究では,部分観測可能性に対処するため,ソフト決定木に新たな再帰構造を導入し,局所観測のみに基づいて再帰木の出力を線形混合することにより共同動作値を推定する。 理論的解析により、MIXRTsは因子化における付加性と単調性による構造的制約を保証することが示されている。 課題であるStarCraft IIタスクに対してMIXRTを評価した。 実験の結果,広く研究されているベースラインと比較して,解釈可能な学習フレームワークは競争性能が得られ,意思決定過程に関するより分かりやすい説明とドメイン知識が得られていることがわかった。

Multi-agent reinforcement learning (MARL) recently has achieved tremendous success in a wide range of fields. However, with a black-box neural network architecture, existing MARL methods make decisions in an opaque fashion that hinders humans from understanding the learned knowledge and how input observations influence decisions. Our solution is MIXing Recurrent soft decision Trees (MIXRTs), a novel interpretable architecture that can represent explicit decision processes via the root-to-leaf path of decision trees. We introduce a novel recurrent structure in soft decision trees to address partial observability, and estimate joint action values via linearly mixing outputs of recurrent trees based on local observations only. Theoretical analysis shows that MIXRTs guarantees the structural constraint with additivity and monotonicity in factorization. We evaluate MIXRTs on a range of challenging StarCraft II tasks. Experimental results show that our interpretable learning framework obtains competitive performance compared to widely investigated baselines, and delivers more straightforward explanations and domain knowledge of the decision processes.
翻訳日:2022-09-16 13:32:45 公開日:2022-09-15
# 4DenoiseNet: 隣接点雲からの逆気象観測

4DenoiseNet: Adverse Weather Denoising from Adjacent Point Clouds ( http://arxiv.org/abs/2209.07121v1 )

ライセンス: Link先を確認
Alvari Sepp\"anen, Risto Ojala, Kari Tammi(参考訳) 信頼できるポイントクラウドデータは、ロボットや自動運転アプリケーションにおける認識タスク \textit{e} に不可欠である。 逆天候は特定の種類のノイズを光検出・測光(LiDAR)センサーデータに生じさせ、点雲の品質を著しく低下させる。 この問題に対処するため,本論文では,ニューポイントクラウドの悪天候検出型深層学習アルゴリズム(4denoisenet)を提案する。 本アルゴリズムは,本論文における悪天候発生手法と異なり,時間次元の利点を生かしている。 これは、以前の研究と比べてユニオン計量の交叉で約10\%良く、より計算的に効率的である。 これらの結果は,40000以上の悪天候アノテート点雲を持つsnownowkittiデータセットで得られた。 さらに、Canadian Adverse Driving Conditionsデータセットの強い定性的な結果から、ドメインシフトと異なるセンサー内在性に優れた一般化性を示す。

Reliable point cloud data is essential for perception tasks \textit{e.g.} in robotics and autonomous driving applications. Adverse weather causes a specific type of noise to light detection and ranging (LiDAR) sensor data, which degrades the quality of the point clouds significantly. To address this issue, this letter presents a novel point cloud adverse weather denoising deep learning algorithm (4DenoiseNet). Our algorithm takes advantage of the time dimension unlike deep learning adverse weather denoising methods in the literature. It performs about 10\% better in terms of intersection over union metric compared to the previous work and is more computationally efficient. These results are achieved on our novel SnowyKITTI dataset, which has over 40000 adverse weather annotated point clouds. Moreover, strong qualitative results on the Canadian Adverse Driving Conditions dataset indicate good generalizability to domain shifts and to different sensor intrinsics.
翻訳日:2022-09-16 13:29:41 公開日:2022-09-15
# forgetting to remember: クロスタスクブラインド画像品質評価のためのスケーラブルなインクリメンタル学習フレームワーク

Forgetting to Remember: A Scalable Incremental Learning Framework for Cross-Task Blind Image Quality Assessment ( http://arxiv.org/abs/2209.07126v1 )

ライセンス: Link先を確認
Rui Ma, Qingbo Wu, King N. Ngan, Hongliang Li, Fanman Meng, Linfeng Xu(参考訳) 近年、様々なタスク固有のシナリオにおいて視覚画像品質評価(BIQA)が大成功し、様々な歪みタイプと評価基準が提示されている。 しかし、厳密な構造と学習フレームワークのため、実際の応用において歪みタイプと評価基準が変化し続けるクロスタスクなBIQAシナリオには適用できない。 本稿では,メモリ容量を制限した複数の評価タスクでbiqaを順次実行するスケーラブルなインクリメンタル学習フレームワーク(silf)を提案する。 より具体的には、タスク固有のパラメータサブセットを順次更新するための動的パラメータ分離戦略を開発する。 各パラメータサブセットは一時的に解決され、対応するタスクに対する1つの評価優先度を記憶し、予め設定されたパラメータサブセットを次のBIQAで適応的に再利用してタスク関連性に基づいてより良いパフォーマンスを達成する。 逐次的タスク学習におけるメモリ容量の無制約拡大を抑制するため,既存のパラメータサブセットから重要でないニューロンを段階的かつ選択的に切り離し,それまでの経験の一部を忘れることができ,新たなタスクに適応するための限られたメモリ容量を解放することで,スケーラブルなメモリユニットを開発する。 11個のIQAデータセットに対する大規模な実験により,提案手法はBIQAの他手法よりも有意に優れていた。

Recent years have witnessed the great success of blind image quality assessment (BIQA) in various task-specific scenarios, which present invariable distortion types and evaluation criteria. However, due to the rigid structure and learning framework, they cannot apply to the cross-task BIQA scenario, where the distortion types and evaluation criteria keep changing in practical applications. This paper proposes a scalable incremental learning framework (SILF) that could sequentially conduct BIQA across multiple evaluation tasks with limited memory capacity. More specifically, we develop a dynamic parameter isolation strategy to sequentially update the task-specific parameter subsets, which are non-overlapped with each other. Each parameter subset is temporarily settled to Remember one evaluation preference toward its corresponding task, and the previously settled parameter subsets can be adaptively reused in the following BIQA to achieve better performance based on the task relevance. To suppress the unrestrained expansion of memory capacity in sequential tasks learning, we develop a scalable memory unit by gradually and selectively pruning unimportant neurons from previously settled parameter subsets, which enable us to Forget part of previous experiences and free the limited memory capacity for adapting to the emerging new tasks. Extensive experiments on eleven IQA datasets demonstrate that our proposed method significantly outperforms the other state-of-the-art methods in cross-task BIQA.
翻訳日:2022-09-16 13:29:26 公開日:2022-09-15
# 居住域のワンショット移動? アフコラーズ!

One-Shot Transfer of Affordance Regions? AffCorrs! ( http://arxiv.org/abs/2209.07147v1 )

ライセンス: Link先を確認
Denis Hadjivelichkov, Sicelukwanda Zwane, Marc Deisenroth, Lourdes Agapito, Dimitrios Kanoulas(参考訳) 本研究では,対象部品のワンショットビジュアル検索に挑戦する。 注釈付き空き領域を持つオブジェクトの単一の参照画像が与えられた場合、ターゲットシーン内で意味的に対応する部分をセグメンテーションする。 本稿では、事前学習したDINO-ViTの画像記述子と巡回対応を結合した教師なしモデルであるAffCorrsを提案する。 affcorrを使ってクラス内およびクラス間ワンショット部分セグメンテーションの対応するアプライアンスを見つける。 このタスクは教師付き代替案よりも難しいが、模倣や遠隔操作による学習能力などの将来の作業を可能にする。

In this work, we tackle one-shot visual search of object parts. Given a single reference image of an object with annotated affordance regions, we segment semantically corresponding parts within a target scene. We propose AffCorrs, an unsupervised model that combines the properties of pre-trained DINO-ViT's image descriptors and cyclic correspondences. We use AffCorrs to find corresponding affordances both for intra- and inter-class one-shot part segmentation. This task is more difficult than supervised alternatives, but enables future work such as learning affordances via imitation and assisted teleoperation.
翻訳日:2022-09-16 13:29:03 公開日:2022-09-15
# OCTにおける高精度かつ効率的な完全自動3次元運動補正のための時空間モデル

A Spatiotemporal Model for Precise and Efficient Fully-automatic 3D Motion Correction in OCT ( http://arxiv.org/abs/2209.07232v1 )

ライセンス: Link先を確認
Stefan Ploner, Siyu Chen, Jungeun Won, Lennart Husvogt, Katharina Breininger, Julia Schottenhamml, James Fujimoto, Andreas Maier(参考訳) 光コヒーレンストモグラフィー (OCT) は、眼科における臨床標準となったマイクロメートルスケールの体積画像モダリティである。 OCT機器は網膜を横断する焦点スポットをラスター走査し、連続した断面画像を取得し、体積データを生成する。 非厳密で不連続な歪みが生じ、データと歪みした地形測定のギャップが生じる。 直交ラスター走査型網膜octボリュームにおける計算運動補正のための新しい歪みモデルと、それに対応する完全自動参照フリー最適化戦略を提案する。 フォワードウォーピング変位の領域特異的時空間パラメトリゼーションにより、眼球運動を初めて連続的に補正することができる。 時間的正則化によるパラメータ推定は、従来の空間的アプローチよりも堅牢性と精度を向上させる。 我々は,OCTアンギオグラフィープロトコルの繰り返し取得を含む,各Aスキャンを1つのマッピングで個別に補正する。 特殊な3Dフォワード画像ワープは、中央値のランタイムを9秒以下に減らし、臨床使用に十分速い。 眼病理18例を定量的に評価し,マイクロサーケードの精度を検証した。 横方向補正は眼振のみに制限されるが, サブミクロン再現性は軸方向(0.51平均中央値)で達成され, 従来よりも劇的な改善が見られた。 これにより、疾患進行または治療反応の指標として焦点網膜病理の経時的変化を評価することができ、スーパーサンプリング/スーパーレゾリューションボリューム再構成や、神経疾患で発生する病理眼球運動の分析など、複数の新しい機能を実現することができる。

Optical coherence tomography (OCT) is a micrometer-scale, volumetric imaging modality that has become a clinical standard in ophthalmology. OCT instruments image by raster-scanning a focused light spot across the retina, acquiring sequential cross-sectional images to generate volumetric data. Patient eye motion during the acquisition poses unique challenges: Non-rigid, discontinuous distortions can occur, leading to gaps in data and distorted topographic measurements. We present a new distortion model and a corresponding fully-automatic, reference-free optimization strategy for computational motion correction in orthogonally raster-scanned, retinal OCT volumes. Using a novel, domain-specific spatiotemporal parametrization of forward-warping displacements, eye motion can be corrected continuously for the first time. Parameter estimation with temporal regularization improves robustness and accuracy over previous spatial approaches. We correct each A-scan individually in 3D in a single mapping, including repeated acquisitions used in OCT angiography protocols. Specialized 3D forward image warping reduces median runtime to < 9 s, fast enough for clinical use. We present a quantitative evaluation on 18 subjects with ocular pathology and demonstrate accurate correction during microsaccades. Transverse correction is limited only by ocular tremor, whereas submicron repeatability is achieved axially (0.51 um median of medians), representing a dramatic improvement over previous work. This allows assessing longitudinal changes in focal retinal pathologies as a marker of disease progression or treatment response, and promises to enable multiple new capabilities such as supersampled/super-resolution volume reconstruction and analysis of pathological eye motion occuring in neurological diseases.
翻訳日:2022-09-16 13:28:55 公開日:2022-09-15
# HarDNet-DFUS: 糖尿病性足底画像分割と大腸内視鏡ポリープ分割のための高調波接続型ネットワーク

HarDNet-DFUS: An Enhanced Harmonically-Connected Network for Diabetic Foot Ulcer Image Segmentation and Colonoscopy Polyp Segmentation ( http://arxiv.org/abs/2209.07313v1 )

ライセンス: Link先を確認
Ting-Yu Liao, Ching-Hui Yang, Yu-Wen Lo, Kuan-Ying Lai, Po-Huai Shen and Youn-Long Lin (Department of Computer Science, National Tsing Hua University, Hsinchu, TAIWAN)(参考訳) 糖尿病性足潰瘍と大腸内視鏡ポリープの医用画像分割のためのニューラルネットワークアーキテクチャを提案する。 糖尿病性足潰瘍は糖尿病の神経因性および血管性合併症によって引き起こされる。 適切な診断と治療を行うためには、傷口から正確な形態的特徴を抽出する必要がある。 コンピュータ支援システムの使用は、関連する形態的特徴を抽出し、病変を分断するための有望なアプローチである。 2021年の大腸内視鏡ポリープ分離のためのSOTAであるHarDNet-MSEGのバックボーンを強化し,デコーダを置き換えることで,HarDNet-DFUSと呼ばれる畳み込みニューラルネットワークを提案する。 MICCAI 2022 Diabetic Foot Ulcer Segmentation Challenge (DFUC2022)では、DFUC2022データセットを用いてHarDNet-DFUSをトレーニングし、5倍のクロスバリデーション、テスト時間拡張などを用いてその堅牢性を高める。 DFUC2022の検証段階では、HarDNet-DFUSは平均ダイス0.7063に達し、全参加者の中で3位となった。 DFUC2022の最終試験段階では平均ダイス0.7287を達成し、初優勝となった。 HarDNet-DFUSは大腸内視鏡ポリープ分割作業にも優れた性能を示した。 有名な kvasir データセット上で 0.924 平均 dice を達成し、オリジナルの hardnet-mseg よりも 1.2\% 向上した。 コードはhttps://github.com/kytimmylai/DFUC2022 (糖尿病足潰瘍分節)とhttps://github.com/YuWenLo/HarDNet-DFUS (大腸ポリープ分節)で入手できる。

We present a neural network architecture for medical image segmentation of diabetic foot ulcers and colonoscopy polyps. Diabetic foot ulcers are caused by neuropathic and vascular complications of diabetes mellitus. In order to provide a proper diagnosis and treatment, wound care professionals need to extract accurate morphological features from the foot wounds. Using computer-aided systems is a promising approach to extract related morphological features and segment the lesions. We propose a convolution neural network called HarDNet-DFUS by enhancing the backbone and replacing the decoder of HarDNet-MSEG, which was SOTA for colonoscopy polyp segmentation in 2021. For the MICCAI 2022 Diabetic Foot Ulcer Segmentation Challenge (DFUC2022), we train HarDNet-DFUS using the DFUC2022 dataset and increase its robustness by means of five-fold cross validation, Test Time Augmentation, etc. In the validation phase of DFUC2022, HarDNet-DFUS achieved 0.7063 mean dice and was ranked third among all participants. In the final testing phase of DFUC2022, it achieved 0.7287 mean dice and was the first place winner. HarDNet-DFUS also deliver excellent performance for the colonoscopy polyp segmentation task. It achieves 0.924 mean Dice on the famous Kvasir dataset, an improvement of 1.2\% over the original HarDNet-MSEG. The codes are available on https://github.com/kytimmylai/DFUC2022 (for Diabetic Foot Ulcers Segmentation) and https://github.com/YuWenLo/HarDNet-DFUS (for Colonoscopy Polyp Segmentation).
翻訳日:2022-09-16 13:28:24 公開日:2022-09-15
# 個人キーポイント検出によるオンラインマーカーレス外部カメラキャリブレーション

Online Marker-free Extrinsic Camera Calibration using Person Keypoint Detections ( http://arxiv.org/abs/2209.07393v1 )

ライセンス: Link先を確認
Bastian P\"atzold, Simon Bultmann, Sven Behnke(参考訳) マルチカメラシステムのキャリブレーション、すなわちカメラ間の相対的なポーズを決定することは、コンピュータビジョンやロボット工学における多くのタスクの前提条件である。 カメラキャリブレーションは通常、チェッカーボードキャリブレーションターゲットを使用するオフラインメソッドを使用して達成される。 しかし、カメラのポーズが変わるたびに新しいキャリブレーションが必要となることを考えると、これらの方法は面倒で長いことが多い。 本研究では,RGBカメラ画像からセンサボード上で局所的に計算される2次元人間のキーポイント検出のみに依存する,複数のスマートエッジセンサの外部校正のための新しいマーカーレスオンライン手法を提案する。 本手法では, カメラのパラメータを把握し, カメラのポーズの粗い初期推定を行う必要がある。 複数のビューからの人物キーポイント検出は中央のバックエンドで受信され、同期され、フィルタリングされ、仮説に割り当てられる。 我々はこれらの仮説を用いて、因子グラフの形で最適化問題を繰り返し解決する。 現場を横断する1人または複数の人物の適切な観察から、推定されたカメラポーズは数分以内にコヒーレントな外部校正に向かって収束する。 本研究では,従来のキャリブレーションターゲットを用いたオフライン手法による基準キャリブレーションと比較し,本手法によるキャリブレーションが低いリジェクション誤差を実現することを示す。

Calibration of multi-camera systems, i.e. determining the relative poses between the cameras, is a prerequisite for many tasks in computer vision and robotics. Camera calibration is typically achieved using offline methods that use checkerboard calibration targets. These methods, however, often are cumbersome and lengthy, considering that a new calibration is required each time any camera pose changes. In this work, we propose a novel, marker-free online method for the extrinsic calibration of multiple smart edge sensors, relying solely on 2D human keypoint detections that are computed locally on the sensor boards from RGB camera images. Our method assumes the intrinsic camera parameters to be known and requires priming with a rough initial estimate of the camera poses. The person keypoint detections from multiple views are received at a central backend where they are synchronized, filtered, and assigned to person hypotheses. We use these person hypotheses to repeatedly solve optimization problems in the form of factor graphs. Given suitable observations of one or multiple persons traversing the scene, the estimated camera poses converge towards a coherent extrinsic calibration within a few minutes. We evaluate our approach in real-world settings and show that the calibration with our method achieves lower reprojection errors compared to a reference calibration generated by an offline method using a traditional calibration target.
翻訳日:2022-09-16 13:27:49 公開日:2022-09-15
# 音声バーストにおけるマルチタスク感情認識のための自己監督型注意ネットワークと不確かさ損失重み付け

Self-Supervised Attention Networks and Uncertainty Loss Weighting for Multi-Task Emotion Recognition on Vocal Bursts ( http://arxiv.org/abs/2209.07384v1 )

ライセンス: Link先を確認
Vincent Karas, Andreas Triantafyllopoulos, Meishu Song and Bj\"orn W. Schuller(参考訳) 音声バーストはコミュニケーションへの影響において重要な役割を担い、音声の感情認識を改善するのに有用である。 本稿では, acii affective vocal burst workshop & challenge 2022 (a-vb) において発声バーストを分類し, その感情的意義を予測する手法を提案する。 我々は,共有特徴抽出器として大規模自己教師付き音声モデルを用い,分類器チェーンとアテンションネットワーク上に構築した複数のアーキテクチャと不確実性損失重み付け戦略とを比較した。 当社のアプローチは,4つのタスクすべてにおいて,チャレンジベースラインをはるかに上回っています。

Vocal bursts play an important role in communicating affect, making them valuable for improving speech emotion recognition. Here, we present our approach for classifying vocal bursts and predicting their emotional significance in the ACII Affective Vocal Burst Workshop & Challenge 2022 (A-VB). We use a large self-supervised audio model as shared feature extractor and compare multiple architectures built on classifier chains and attention networks, combined with uncertainty loss weighting strategies. Our approach surpasses the challenge baseline by a wide margin on all four tasks.
翻訳日:2022-09-16 13:27:04 公開日:2022-09-15
# ネットワークの固定点中心性

Fixed-Point Centrality for Networks ( http://arxiv.org/abs/2209.07070v1 )

ライセンス: Link先を確認
Shuang Gao(参考訳) 本稿では,固定点集中というネットワーク集中のファミリーを提案する。 この中心性族は、基礎となるネットワークに関連する置換同変写像の固定点を通して定義される。 そのような中心性の概念は、グラフで特徴づけられる無限グラフの固定点中心性を定義するためにすぐに拡張される。 温和な仮定の下での下位グラフやグラフの変動に関して、そのような中心性の変動境界が確立される。 固定点集中性は、グラフニューラルネットワーク、ネットワーク上の静的および動的ゲーム、マルコフ決定プロセスなど、ネットワーク上のさまざまなモデルと接続する。

This paper proposes a family of network centralities called fixed-point centralities. This centrality family is defined via the fixed point of permutation equivariant mappings related to the underlying network. Such a centrality notion is immediately extended to define fixed-point centralities for infinite graphs characterized by graphons. Variation bounds of such centralities with respect to the variations of the underlying graphs and graphons under mild assumptions are established. Fixed-point centralities connect with a variety of different models on networks including graph neural networks, static and dynamic games on networks, and Markov decision processes.
翻訳日:2022-09-16 13:26:52 公開日:2022-09-15
# 過渡的ニューラルイベントにおける因果影響の情報理論

Information Theoretic Measures of Causal Influences during Transient Neural Events ( http://arxiv.org/abs/2209.07508v1 )

ライセンス: Link先を確認
Kaidi Shao, Nikos K. Logothetis and Michel Besserve(参考訳) 過渡現象は、複数のスケールで脳の活動を調整する上で重要な役割を果たすが、基礎となるメカニズムはほとんど不明である。 したがって、ニューラルネットワーク科学の重要な課題は、これらのイベント中のネットワーク相互作用を特徴づけることである。 構造因果モデルの定式化とその図形表現を用いて,自然発生的過渡事象の文脈における情報理論に基づく因果強度測定の理論的および経験的特性について検討する。 このような設定において伝達エントロピーと動的因果強度の限界を示した後、相対的動的因果強度という新しい尺度を導入し、その利点に対する理論的および経験的支援を提供する。 これらの手法は、シミュレーションおよび実験的に記録された神経時系列に適用され、基礎となる脳回路の現在の理解と一致した結果が得られる。

Transient phenomena play a key role in coordinating brain activity at multiple scales, however,their underlying mechanisms remain largely unknown. A key challenge for neural data science is thus to characterize the network interactions at play during these events. Using the formalism of Structural Causal Models and their graphical representation, we investigate the theoretical and empirical properties of Information Theory based causal strength measures in the context of recurring spontaneous transient events. After showing the limitations of Transfer Entropy and Dynamic Causal Strength in such a setting, we introduce a novel measure, relative Dynamic Causal Strength, and provide theoretical and empirical support for its benefits. These methods are applied to simulated and experimentally recorded neural time series, and provide results in agreement with our current understanding of the underlying brain circuits.
翻訳日:2022-09-16 13:26:44 公開日:2022-09-15
# AssembleRL: ポイントクラウドから家具を組み立てることを学ぶ

AssembleRL: Learning to Assemble Furniture from Their Point Clouds ( http://arxiv.org/abs/2209.07268v1 )

ライセンス: Link先を確認
\"Ozg\"ur Aslan, Burak Bolat, Batuhan Bal, Tu\u{g}ba T\"umer, Erol \c{S}ahin, and Sinan Kalkan(参考訳) シミュレーション環境の台頭により、組み立て計画のための学習ベースのアプローチが実現され、それ以外は労働集約的で厄介なタスクである。 家具は複雑で、学習に基づくアプローチに挑戦するので、家具の組み立ては特に興味深い。 驚いたことに、人間は組み立てた製品の2dスナップショットをほとんど与えて家具の組み立てを解決できる。 近年,家具組立における有望な学習的アプローチが注目されているが,各組立工程で適切な接続ラベルが利用可能であることが想定されている。 本稿では,この仮定を緩和し,できるだけ人的知識と監督力の少ない家具組み立ての解決を目指す。 具体的には、組立点雲の可用性を仮定し、現在の組立点雲と対象物の点雲を比較し、不正確性と不完全性という2つの尺度に基づく新たな報奨信号を得る。 我々は,新しい報奨信号がディープネットワークを訓練し,様々な家具の組み立てを成功させることを示す。 コードとネットワーク:https://github.com/METU-KALFA/AssembleRL

The rise of simulation environments has enabled learning-based approaches for assembly planning, which is otherwise a labor-intensive and daunting task. Assembling furniture is especially interesting since furniture are intricate and pose challenges for learning-based approaches. Surprisingly, humans can solve furniture assembly mostly given a 2D snapshot of the assembled product. Although recent years have witnessed promising learning-based approaches for furniture assembly, they assume the availability of correct connection labels for each assembly step, which are expensive to obtain in practice. In this paper, we alleviate this assumption and aim to solve furniture assembly with as little human expertise and supervision as possible. To be specific, we assume the availability of the assembled point cloud, and comparing the point cloud of the current assembly and the point cloud of the target product, obtain a novel reward signal based on two measures: Incorrectness and incompleteness. We show that our novel reward signal can train a deep network to successfully assemble different types of furniture. Code and networks available here: https://github.com/METU-KALFA/AssembleRL
翻訳日:2022-09-16 13:24:00 公開日:2022-09-15
# UAV支援スマートファームネットワークにおけるタスクオフロードの深層強化学習

Deep Reinforcement Learning for Task Offloading in UAV-Aided Smart Farm Networks ( http://arxiv.org/abs/2209.07367v1 )

ライセンス: Link先を確認
Anne Catherine Nguyen, Turgay Pamuklu, Aisha Syed, W. Sean Kennedy, Melike Erol-Kantarci(参考訳) 第5世代と第6世代の無線通信ネットワークは、物のインターネット、無人航空機(UAV)、人工知能などのツールを、デバイスのネットワークを使って農地を自動的に監視する農業の景観を改善する。 広い範囲を調査するには、火災や洪水などの事故で農地が被害を受けるのを防ぐために、特定の期間内に多くの画像分類タスクを実行する必要がある。 UAVは限られたエネルギーと計算能力を持ち、局所的かつ適切な時間内に画像分類タスクを全て実行できない可能性がある。 したがって、UAVは作業負荷の一部を近くのマルチアクセスエッジコンピューティングデバイスにオフロードすることができると仮定される。 UAVは、ネットワーク内の他のUAVの時間制約とエネルギーレベルを考慮して、タスクがどこで実行されるかを決定する決定アルゴリズムが必要である。 本稿では,この多目的問題を解決するために,Deep Q-Learning (DQL) アプローチを提案する。 提案手法をq-learningと3つのヒューリスティックベースラインと比較し,提案手法がuavsの残バッテリーレベルと期限違反率において同等の結果を得たことを示す。 また,本手法はq-learningよりも13倍高速に収束できる。

The fifth and sixth generations of wireless communication networks are enabling tools such as internet of things devices, unmanned aerial vehicles (UAVs), and artificial intelligence, to improve the agricultural landscape using a network of devices to automatically monitor farmlands. Surveying a large area requires performing a lot of image classification tasks within a specific period of time in order to prevent damage to the farm in case of an incident, such as fire or flood. UAVs have limited energy and computing power, and may not be able to perform all of the intense image classification tasks locally and within an appropriate amount of time. Hence, it is assumed that the UAVs are able to partially offload their workload to nearby multi-access edge computing devices. The UAVs need a decision-making algorithm that will decide where the tasks will be performed, while also considering the time constraints and energy level of the other UAVs in the network. In this paper, we introduce a Deep Q-Learning (DQL) approach to solve this multi-objective problem. The proposed method is compared with Q-Learning and three heuristic baselines, and the simulation results show that our proposed DQL-based method achieves comparable results when it comes to the UAVs' remaining battery levels and percentage of deadline violations. In addition, our method is able to reach convergence 13 times faster than Q-Learning.
翻訳日:2022-09-16 13:23:29 公開日:2022-09-15
# スマート農業におけるリスク感性強化学習によるIoT-航空基地局タスクオフロード

IoT-Aerial Base Station Task Offloading with Risk-Sensitive Reinforcement Learning for Smart Agriculture ( http://arxiv.org/abs/2209.07382v1 )

ライセンス: Link先を確認
Turgay Pamuklu, Anne Catherine Nguyen, Aisha Syed, W. Sean Kennedy, Melike Erol-Kantarci(参考訳) 航空基地局(ABS)は、スマートファームがモノのインターネット(IoT)デバイスからABSへの複雑なタスクの処理責任をオフロードすることを可能にする。 iotデバイスはエネルギーとコンピューティングリソースが限られているので、abssのサポートを必要とするシステムに高度なソリューションを提供する必要がある。 本稿では, スマート農業におけるABSタスクスケジューリングのための, マルチアクタに基づくリスク感性強化学習手法を提案する。 問題は、期限前にIoTタスクを完了する厳格な条件でタスクオフロードとして定義される。 さらに、アルゴリズムはABSの限られたエネルギー容量も考慮しなければならない。 その結果,提案手法はいくつかのヒューリスティックスや古典的なQ-Learning手法よりも優れていた。 さらに、我々は、性能の低い境界を決定できる混合整数線形プログラミングソリューションを提供し、また、リスクに敏感な解と最適解とのギャップを明らかにする。 比較の結果から,本手法はスマートファーム内のabsのホバリング時間を増加させつつ,iotタスクに対して保証されたタスク処理サービスを提供するための有望なアプローチであることを証明した。

Aerial base stations (ABSs) allow smart farms to offload processing responsibility of complex tasks from internet of things (IoT) devices to ABSs. IoT devices have limited energy and computing resources, thus it is required to provide an advanced solution for a system that requires the support of ABSs. This paper introduces a novel multi-actor-based risk-sensitive reinforcement learning approach for ABS task scheduling for smart agriculture. The problem is defined as task offloading with a strict condition on completing the IoT tasks before their deadlines. Moreover, the algorithm must also consider the limited energy capacity of the ABSs. The results show that our proposed approach outperforms several heuristics and the classic Q-Learning approach. Furthermore, we provide a mixed integer linear programming solution to determine a lower bound on the performance, and clarify the gap between our risk-sensitive solution and the optimal solution, as well. The comparison proves our extensive simulation results demonstrate that our method is a promising approach for providing a guaranteed task processing services for the IoT tasks in a smart farm, while increasing the hovering time of the ABSs in this farm.
翻訳日:2022-09-16 13:23:07 公開日:2022-09-15
# 拡張インテリジェンス

Extended Intelligence ( http://arxiv.org/abs/2209.07449v1 )

ライセンス: Link先を確認
David L Barack and Andrew Jaegle(参考訳) 我々は、知性は、タスクを成功させる性質として構成され、エージェントとそのコンテキストからなるシステムの特性であると主張する。 これは拡張インテリジェンスの理論です。 エージェントのパフォーマンスは、そのコンテキストが変化しても一般的には保存されない、と我々は主張する。 したがって、この分布はエージェント単独で保持されるのではなく、エージェントとそのコンテキストからなるシステムによって保持され、エージェント・イン・コンテキストをダブする。 エージェントのコンテキストには、環境、他のエージェント、文化的なアーティファクト(言語や技術のような)、あるいはこれら全てが含まれ、人間や人工知能システムや多くの非人間動物の場合と同様である。 インテリジェンスの拡張という理論により、エージェント間でのインテリジェンスは文脈に縛られ、特にタスクに縛られ、不可避である、と我々は主張する。 私たちの論文は、心理学と人工知能の両方の文脈において、インテリジェンスがどのように分析されるかについて、強い意味を持つ。

We argue that intelligence, construed as the disposition to perform tasks successfully, is a property of systems composed of agents and their contexts. This is the thesis of extended intelligence. We argue that the performance of an agent will generally not be preserved if its context is allowed to vary. Hence, this disposition is not possessed by an agent alone, but is rather possessed by the system consisting of an agent and its context, which we dub an agent-in-context. An agent's context may include an environment, other agents, cultural artifacts (like language, technology), or all of these, as is typically the case for humans and artificial intelligence systems, as well as many non-human animals. In virtue of the thesis of extended intelligence, we contend that intelligence is context-bound, task-particular and incommensurable among agents. Our thesis carries strong implications for how intelligence is analyzed in the context of both psychology and artificial intelligence.
翻訳日:2022-09-16 13:22:49 公開日:2022-09-15
# 理想的ハミルトニアンモンテカルロ・サンプラーの散逸について

On the Dissipation of Ideal Hamiltonian Monte Carlo Sampler ( http://arxiv.org/abs/2209.07438v1 )

ライセンス: Link先を確認
Qijia Jiang(参考訳) 本報告では,Ideal Hamiltonian Monte Carlo サンプルの変動積分時間と部分速度リフレッシュとの興味深い関係について報告する。 より具体的には、二次ポテンシャルでは、古典的定積分時間(HMC)と比較して、ワッサーシュタイン2距離の$$\sqrt{\kappa}$因子によって効率を改善できることが示される。

We report on what seems to be an intriguing connection between variable integration time and partial velocity refreshment of Ideal Hamiltonian Monte Carlo samplers, both of which can be used for reducing the dissipative behavior of the dynamics. More concretely, we show that on quadratic potentials, efficiency can be improved through these means by a $\sqrt{\kappa}$ factor in Wasserstein-2 distance, compared to classical constant integration time, fully refreshed HMC.
翻訳日:2022-09-16 13:22:33 公開日:2022-09-15
# MRI超解像再構成のためのモデル誘導マルチコントラスト深部展開ネットワーク

Model-Guided Multi-Contrast Deep Unfolding Network for MRI Super-resolution Reconstruction ( http://arxiv.org/abs/2209.07030v1 )

ライセンス: Link先を確認
Gang Yang, Li Zhang, Man Zhou, Aiping Liu, Xun Chen, Zhiwei Xiong, Feng Wu(参考訳) 高分解能(HR)のMRIは、正確な診断と定量的画像解析のためのより詳細な情報を提供する。 大幅な進歩にもかかわらず、既存の医療画像の超解像再構成ネットワークには2つの欠点がある。 1)これらはすべてブラックボックスの原理で設計されており、十分な解釈性がなく、実用的な用途を制限している。 解釈可能なニューラルネットワークモデルは、医療画像を扱う際に臨床実践に必要な信頼性を高めるため、重要な関心事である。 2) 既存のsr再構成法は, 単一のコントラストのみを用いるか, 単純なマルチコントラスト融合機構を用い, sr改善に不可欠な異なるコントラスト間の複雑な関係を無視する。 これらの問題に対処するために,医療画像SR再構成のための新しいモデル誘導解釈型Deep Unfolding Network(MGDUN)を提案する。 モデルガイド画像sr再構成手法は,hr mriを手作業で再構成する目的関数を解決している。 終末最適化において、MRI観察行列と明示的マルチコントラスト関係行列を考慮に入れ、反復MGDUNアルゴリズムを新しいモデル誘導深部展開ネットワークにどのように展開するかを示す。 マルチコントラストIXIデータセットとBraTs 2019データセットに関する大規模な実験は、提案モデルの優位性を実証している。

Magnetic resonance imaging (MRI) with high resolution (HR) provides more detailed information for accurate diagnosis and quantitative image analysis. Despite the significant advances, most existing super-resolution (SR) reconstruction network for medical images has two flaws: 1) All of them are designed in a black-box principle, thus lacking sufficient interpretability and further limiting their practical applications. Interpretable neural network models are of significant interest since they enhance the trustworthiness required in clinical practice when dealing with medical images. 2) most existing SR reconstruction approaches only use a single contrast or use a simple multi-contrast fusion mechanism, neglecting the complex relationships between different contrasts that are critical for SR improvement. To deal with these issues, in this paper, a novel Model-Guided interpretable Deep Unfolding Network (MGDUN) for medical image SR reconstruction is proposed. The Model-Guided image SR reconstruction approach solves manually designed objective functions to reconstruct HR MRI. We show how to unfold an iterative MGDUN algorithm into a novel model-guided deep unfolding network by taking the MRI observation matrix and explicit multi-contrast relationship matrix into account during the end-to-end optimization. Extensive experiments on the multi-contrast IXI dataset and BraTs 2019 dataset demonstrate the superiority of our proposed model.
翻訳日:2022-09-16 13:21:33 公開日:2022-09-15
# MIPI 2022 アンダーディスクカメラ画像復元への挑戦:方法と結果

MIPI 2022 Challenge on Under-Display Camera Image Restoration: Methods and Results ( http://arxiv.org/abs/2209.07052v1 )

ライセンス: Link先を確認
Ruicheng Feng, Chongyi Li, Shangchen Zhou, Wenxiu Sun, Qingpeng Zhu, Jun Jiang, Qingyu Yang, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータがないことと、産業や学界からの視点を深く交換する稀な機会が、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 このギャップを埋めるために,新しいイメージセンサとイメージングアルゴリズムに焦点を当てた5つのトラックを含む,最初のmipiチャレンジを紹介する。 本稿では,mipi 2022のアンダーディスプレイカメラ(udc)画像復元トラックについて概説する。 合計167人の参加者が登録され、19チームが最終テストフェーズで結果を提出した。 この課題で開発されたソリューションは、Under-Display Camera Image Restorationにおける最先端のパフォーマンスを達成した。 本論文では,本課題で開発された全モデルについて詳述する。 この課題の詳細とデータセットへのリンクは、https://github.com/mipi-challenge/mipi2022にある。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). To bridge the gap, we introduce the first MIPI challenge including five tracks focusing on novel image sensors and imaging algorithms. In this paper, we summarize and review the Under-Display Camera (UDC) Image Restoration track on MIPI 2022. In total, 167 participants were successfully registered, and 19 teams submitted results in the final testing phase. The developed solutions in this challenge achieved state-of-the-art performance on Under-Display Camera Image Restoration. A detailed description of all models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://github.com/mipi-challenge/MIPI2022.
翻訳日:2022-09-16 13:21:13 公開日:2022-09-15
# MIPI 2022 四面体再モザイクへの挑戦:データセットと報告

MIPI 2022 Challenge on Quad-Bayer Re-mosaic: Dataset and Report ( http://arxiv.org/abs/2209.07060v1 )

ライセンス: Link先を確認
Qingyu Yang, Guang Yang, Jun Jiang, Chongyi Li, Ruicheng Feng, Shangchen Zhou, Wenxiu Sun, Qingpeng Zhu, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータがないことと、産業や学界からの視点を深く交換する稀な機会が、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 このギャップを埋めるために,新しいイメージセンサとイメージングアルゴリズムに焦点を当てた5つのトラックを含む,最初のmipiチャレンジを紹介する。 本稿では,5つのトラックのうちの1つであるQuad Joint Remosaic and Denoiseについて,完全分解能でQuad CFAとBaierの補間作業について紹介する。 参加者は新しいデータセットを提供し、70(トレーニング)と15(評価)の高品質クワッドとバイエルペアのシーンを提供した。 さらに、各シーンごとに0dB、24dB、42dBのノイズレベルが異なるQuadが提供された。 すべてのデータは、屋外と屋内の両方の状況でクワッドセンサーを使って取得された。 最終結果は、PSNR、SSIM、LPIPS、KLDなどの客観的指標を用いて評価される。 本論文では,本課題で開発された全モデルについて詳述する。 この課題の詳細とデータセットへのリンクは、https://github.com/mipi-challenge/mipi2022にある。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). To bridge the gap, we introduce the first MIPI challenge, including five tracks focusing on novel image sensors and imaging algorithms. In this paper, Quad Joint Remosaic and Denoise, one of the five tracks, working on the interpolation of Quad CFA to Bayer at full resolution, is introduced. The participants were provided a new dataset, including 70 (training) and 15 (validation) scenes of high-quality Quad and Bayer pairs. In addition, for each scene, Quad of different noise levels was provided at 0dB, 24dB, and 42dB. All the data were captured using a Quad sensor in both outdoor and indoor conditions. The final results are evaluated using objective metrics, including PSNR, SSIM, LPIPS, and KLD. A detailed description of all models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://github.com/mipi-challenge/MIPI2022.
翻訳日:2022-09-16 13:20:56 公開日:2022-09-15
# 連続MDP準同型と同型政策勾配

Continuous MDP Homomorphisms and Homomorphic Policy Gradient ( http://arxiv.org/abs/2209.07364v1 )

ライセンス: Link先を確認
Sahand Rezaei-Shoshtari, Rosie Zhao, Prakash Panangaden, David Meger, Doina Precup(参考訳) 抽象化は強化学習アルゴリズムの効率と一般化を改善する方法として広く研究されている。 本稿では,連続制御における抽象化について検討する。 mdp準同型の定義を拡張し、連続状態空間内の連続作用を包含する。 我々は、政策最適化のために環境の近似対称性を活用できる抽象MDPのポリシー勾配定理を導出する。 この定理に基づいて,laxの双シミュレーションメトリックを用いて,ポリシーとmdp準同型写像を同時に学習できるアクタ-クリティックアルゴリズムを提案する。 本稿では,DeepMind Control Suiteのベンチマークタスクにおける手法の有効性を示す。 表現学習にMDPの準同型を活用できることは,画素観測から学習する際の性能向上につながる。

Abstraction has been widely studied as a way to improve the efficiency and generalization of reinforcement learning algorithms. In this paper, we study abstraction in the continuous-control setting. We extend the definition of MDP homomorphisms to encompass continuous actions in continuous state spaces. We derive a policy gradient theorem on the abstract MDP, which allows us to leverage approximate symmetries of the environment for policy optimization. Based on this theorem, we propose an actor-critic algorithm that is able to learn the policy and the MDP homomorphism map simultaneously, using the lax bisimulation metric. We demonstrate the effectiveness of our method on benchmark tasks in the DeepMind Control Suite. Our method's ability to utilize MDP homomorphisms for representation learning leads to improved performance when learning from pixel observations.
翻訳日:2022-09-16 13:17:49 公開日:2022-09-15
# $\epsilon$-Greedyによる強化学習における深部神経機能近似の理解

Understanding Deep Neural Function Approximation in Reinforcement Learning via $\epsilon$-Greedy Exploration ( http://arxiv.org/abs/2209.07376v1 )

ライセンス: Link先を確認
Fanghui Liu, Luca Viano, Volkan Cevher(参考訳) 本稿では,強化学習(RL)における深部神経機能近似の理論的研究と,オンライン環境下での$\epsilon$-greedy探索について述べる。 この問題設定は、この体制に該当するDQN(Deep Q-networks)フレームワークの成功によって動機付けられます。 本研究では、関数クラスとニューラルネットワークアーキテクチャ(例えば、幅と深さ)の観点からの深いRLの理論的理解を「線形」体制を超えて初めて試みる。 具体的には、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$\epsilon$-greedy探索を、$d$次元の特徴空間で$\alpha$-smooth Q-functionを近似することを目的とした、バリューベースアルゴリズムに焦点を当てる。 我々は、$T$エピソードにおいて、幅$m = \widetilde{\mathcal{O}}(T^{\frac{d}{2\alpha + d}})$と深さ$L=\mathcal{O}(\log T)$をスケーリングすると、深いRLのためのニューラルネットワークはベソフ空間におけるサブ線形後悔を学習するのに十分であることを示す。 さらに、バロン空間によって与えられる2層ニューラルネットワークでは、幅$\Omega(\sqrt{T})$のスケーリングが十分である。 これを実現するために、我々は、深い神経機能近似の下で時間差誤差を推定する方法を、$\epsilon$-greedyの探索では「最適化」を保証するには不十分である。 我々の解析は、ある平均測度$\mu$上の$L^2(\mathrm{d}\mu)$-可積分空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。 これは、深いRLにおける$\epsilon$-greedyの探索をよりよく理解するために、RL理論に独自の関心を持つかもしれない。

This paper provides a theoretical study of deep neural function approximation in reinforcement learning (RL) with the $\epsilon$-greedy exploration under the online setting. This problem setting is motivated by the successful deep Q-networks (DQN) framework that falls in this regime. In this work, we provide an initial attempt on theoretical understanding deep RL from the perspective of function class and neural networks architectures (e.g., width and depth) beyond the "linear" regime. To be specific, we focus on the value based algorithm with the $\epsilon$-greedy exploration via deep (and two-layer) neural networks endowed by Besov (and Barron) function spaces, respectively, which aims at approximating an $\alpha$-smooth Q-function in a $d$-dimensional feature space. We prove that, with $T$ episodes, scaling the width $m = \widetilde{\mathcal{O}}(T^{\frac{d}{2\alpha + d}})$ and the depth $L=\mathcal{O}(\log T)$ of the neural network for deep RL is sufficient for learning with sublinear regret in Besov spaces. Moreover, for a two layer neural network endowed by the Barron space, scaling the width $\Omega(\sqrt{T})$ is sufficient. To achieve this, the key issue in our analysis is how to estimate the temporal difference error under deep neural function approximation as the $\epsilon$-greedy exploration is not enough to ensure "optimism". Our analysis reformulates the temporal difference error in an $L^2(\mathrm{d}\mu)$-integrable space over a certain averaged measure $\mu$, and transforms it to a generalization problem under the non-iid setting. This might have its own interest in RL theory for better understanding $\epsilon$-greedy exploration in deep RL.
翻訳日:2022-09-16 13:17:36 公開日:2022-09-15
# マルチタスク学習とマージンクエリのためのプライベート合成データ

Private Synthetic Data for Multitask Learning and Marginal Queries ( http://arxiv.org/abs/2209.07400v1 )

ライセンス: Link先を確認
Giuseppe Vietri, Cedric Archambeau, Sergul Aydore, William Brown, Michael Kearns, Aaron Roth, Ankit Siva, Shuai Tang, Zhiwei Steven Wu(参考訳) マージンクェリとマルチタスク機械学習(ml)という、複数のタスクに同時に有用な合成データを生成するための差分プライベートアルゴリズムを提供する。 我々のアルゴリズムにおける重要な革新は、数値的特徴を {a binning strategy} を通じて {high cardinality} のカテゴリ的特徴に変換するために、いくつかの関連する先行的アプローチと対照的に、数値的特徴を直接扱う能力である。 高いバイナリの粒度がより正確さに要求されるが、これはスケーラビリティに悪影響を及ぼす。 バイナリ化の必要性を解消することで,数値的な特徴の辺りやクラス条件の線形しきい値クエリなど,多数の統計的クエリを保持する合成データを生成することができる。 後者を保存することは、ある半空間上の各クラスラベルの点の分数は、実データと合成データの両方でほぼ同じであることを意味する。 これは、マルチタスク設定で線形分類器を訓練するために必要な特性である。 また,提案アルゴリズムにより,分類的特徴と数値的特徴を組み合わせ,高品質な合成データを生成することができる。 提案手法は,最良手法よりも2~5倍高速に動作し,混合型データセットに対する限界クエリおよび線形予測タスクの精度向上を実現している。

We provide a differentially private algorithm for producing synthetic data simultaneously useful for multiple tasks: marginal queries and multitask machine learning (ML). A key innovation in our algorithm is the ability to directly handle numerical features, in contrast to a number of related prior approaches which require numerical features to be first converted into {high cardinality} categorical features via {a binning strategy}. Higher binning granularity is required for better accuracy, but this negatively impacts scalability. Eliminating the need for binning allows us to produce synthetic data preserving large numbers of statistical queries such as marginals on numerical features, and class conditional linear threshold queries. Preserving the latter means that the fraction of points of each class label above a particular half-space is roughly the same in both the real and synthetic data. This is the property that is needed to train a linear classifier in a multitask setting. Our algorithm also allows us to produce high quality synthetic data for mixed marginal queries, that combine both categorical and numerical features. Our method consistently runs 2-5x faster than the best comparable techniques, and provides significant accuracy improvements in both marginal queries and linear prediction tasks for mixed-type datasets.
翻訳日:2022-09-16 13:16:56 公開日:2022-09-15
# 確率勾配降下の効率秩序化

Efficiency Ordering of Stochastic Gradient Descent ( http://arxiv.org/abs/2209.07446v1 )

ライセンス: Link先を確認
Jie Hu, Vishwaraj Doshi, Do Young Eun(参考訳) 確率勾配降下(sgd)アルゴリズムは,任意のグラフ上のノイズやランダムウォークを含む一般確率列によって駆動され,漸近的に解析される。 具体的には,sgdアルゴリズムにおけるマルコフ連鎖モンテカルロ(mcmc)サンプラーの性能を比較するためのよく分析されたツールである「効率順序」の概念を,長期の反復誤差のスケールに伴う共分散行列のルーナー順序という形で採用する。 この順序付けを用いて,MCMCサンプリングにおいてより効率的である入力シーケンスが,その制限下でのSGDアルゴリズムの誤差の共分散を小さくすることを示した。 これはまた、より効率的な連鎖によって駆動されるとき、SGDの任意の重み付けされたMSEが制限を繰り返すことが示唆される。 我々の発見は、分散最適化やSwarm Learningのようなアプリケーションにおいて特に関心があり、SGDはコスト問題やデータプライバシに関する基礎となる通信グラフ上でランダムなウォーク方式で実装されている。 典型的な混合時間に基づく非漸近境界が難解であるような非マルコフ過程が、sgdの効率順序の点でマルコフ過程よりも優れていることを示す。 本手法の有効性を,シャッフルとミニバッチの勾配勾配による勾配降下に適用し,既存の文献から得られた重要な結果を再確認する。 経験的に、加速SGDやAdamのようなSGDの変種に対する効率順序付けも観察し、より広範な確率最適化アルゴリズムの族に効率順序付けの概念を拡張する可能性を広げる。

We consider the stochastic gradient descent (SGD) algorithm driven by a general stochastic sequence, including i.i.d noise and random walk on an arbitrary graph, among others; and analyze it in the asymptotic sense. Specifically, we employ the notion of `efficiency ordering', a well-analyzed tool for comparing the performance of Markov Chain Monte Carlo (MCMC) samplers, for SGD algorithms in the form of Loewner ordering of covariance matrices associated with the scaled iterate errors in the long term. Using this ordering, we show that input sequences that are more efficient for MCMC sampling also lead to smaller covariance of the errors for SGD algorithms in the limit. This also suggests that an arbitrarily weighted MSE of SGD iterates in the limit becomes smaller when driven by more efficient chains. Our finding is of particular interest in applications such as decentralized optimization and swarm learning, where SGD is implemented in a random walk fashion on the underlying communication graph for cost issues and/or data privacy. We demonstrate how certain non-Markovian processes, for which typical mixing-time based non-asymptotic bounds are intractable, can outperform their Markovian counterparts in the sense of efficiency ordering for SGD. We show the utility of our method by applying it to gradient descent with shuffling and mini-batch gradient descent, reaffirming key results from existing literature under a unified framework. Empirically, we also observe efficiency ordering for variants of SGD such as accelerated SGD and Adam, open up the possibility of extending our notion of efficiency ordering to a broader family of stochastic optimization algorithms.
翻訳日:2022-09-16 13:16:35 公開日:2022-09-15
# 集中によるニューラルネットワークの低減

Neural Networks Reduction via Lumping ( http://arxiv.org/abs/2209.07475v1 )

ライセンス: Link先を確認
Dalila Ressi, Riccardo Romanello, Sabina Rossi and Carla Piazza(参考訳) 最近提案されたニューラルネットワークのサイズが大きくなると、メモリ、バッテリ、計算能力が非自明なボトルネックである組込みデバイスでは実装が困難になる。 このため、ここ数年間、ネットワーク圧縮文学が盛んになり、運用数とモデルに関連するパラメータの両方を減らすための多くのソリューションが公開された。 残念なことに、これらの削減技術のほとんどは実際にはヒューリスティックな方法であり、精度を回復するには少なくとも1つの再トレーニングステップが必要です。 モデル削減のための手続きの必要性は、検証と性能評価の分野でもよく知られており、そこでは観測可能な振る舞いを保存する商の定義に多大な努力が払われている。 本稿では,マルコフ連鎖の検証と評価のために導入された,最も普及し,非常に有効なネットワーク削減戦略と,疎結合性などの形式的概念とのギャップを埋める試みを行う。 我々は,ネットワーク内のニューロン数を,データや微調整を使わずに削減し,正確な動作を完全に保持するプルーニング手法を提案する。 商法の正確な定義に関する制約を緩和することで、最も一般的な還元手法のいくつかを公式に説明することができる。

The increasing size of recently proposed Neural Networks makes it hard to implement them on embedded devices, where memory, battery and computational power are a non-trivial bottleneck. For this reason during the last years network compression literature has been thriving and a large number of solutions has been been published to reduce both the number of operations and the parameters involved with the models. Unfortunately, most of these reducing techniques are actually heuristic methods and usually require at least one re-training step to recover the accuracy. The need of procedures for model reduction is well-known also in the fields of Verification and Performances Evaluation, where large efforts have been devoted to the definition of quotients that preserve the observable underlying behaviour. In this paper we try to bridge the gap between the most popular and very effective network reduction strategies and formal notions, such as lumpability, introduced for verification and evaluation of Markov Chains. Elaborating on lumpability we propose a pruning approach that reduces the number of neurons in a network without using any data or fine-tuning, while completely preserving the exact behaviour. Relaxing the constraints on the exact definition of the quotienting method we can give a formal explanation of some of the most common reduction techniques.
翻訳日:2022-09-16 13:16:04 公開日:2022-09-15
# DiP-GNN: グラフニューラルネットワークの識別前トレーニング

DiP-GNN: Discriminative Pre-Training of Graph Neural Networks ( http://arxiv.org/abs/2209.07499v1 )

ライセンス: Link先を確認
Simiao Zuo, Haoming Jiang, Qingyu Yin, Xianfeng Tang, Bing Yin, Tuo Zhao(参考訳) GNNのパワーを高めるために,グラフニューラルネットワーク(GNN)事前学習法が提案されている。 特に、GNNは、まず大規模未ラベルグラフ上で事前訓練され、その後ノード分類などの下流アプリケーションのために、別の小さなラベル付きグラフで微調整される。 一般的な事前トレーニング方法は、エッジの比率をマスクアウトし、gnnをトレーニングして回復させる方法だ。 しかし、このような生成方法はグラフミスマッチに悩まされる。 すなわち、GNNに入力されたマスグラフは、元のグラフから逸脱する。 この問題を軽減するために,我々はDIP-GNN (Discriminative Pre-training of Graph Neural Networks)を提案する。 具体的には、マスキングエッジの識別性を復元するためにジェネレータを訓練し、同時に、生成されたエッジと元のグラフエッジを区別する判別器を訓練する。 筆者らのフレームワークでは, 識別器が見るグラフは, マスキングエッジの比率を回復できるため, 元のグラフとよく一致している。 大規模等質グラフおよび異種グラフに関する広範な実験により,提案手法の有効性が示された。

Graph neural network (GNN) pre-training methods have been proposed to enhance the power of GNNs. Specifically, a GNN is first pre-trained on a large-scale unlabeled graph and then fine-tuned on a separate small labeled graph for downstream applications, such as node classification. One popular pre-training method is to mask out a proportion of the edges, and a GNN is trained to recover them. However, such a generative method suffers from graph mismatch. That is, the masked graph inputted to the GNN deviates from the original graph. To alleviate this issue, we propose DiP-GNN (Discriminative Pre-training of Graph Neural Networks). Specifically, we train a generator to recover identities of the masked edges, and simultaneously, we train a discriminator to distinguish the generated edges from the original graph's edges. In our framework, the graph seen by the discriminator better matches the original graph because the generator can recover a proportion of the masked edges. Extensive experiments on large-scale homogeneous and heterogeneous graphs demonstrate the effectiveness of the proposed framework.
翻訳日:2022-09-16 13:15:45 公開日:2022-09-15
# 偶然以上のランダム初期化とそれを見つける方法

Random initialisations performing above chance and how to find them ( http://arxiv.org/abs/2209.07509v1 )

ライセンス: Link先を確認
Frederik Benzing, Simon Schug, Robert Meier, Johannes von Oswald, Yassir Akram, Nicolas Zucchet, Laurence Aitchison, Angelika Steger(参考訳) 確率勾配降下(SGD)で訓練されたニューラルネットワークは、異なるランダム初期化から始まり、機能的に非常によく似た解を見つけ、異なるSGD解の間に有意な違いがあるかどうかという問題を提起する。 Entezariらは最近、異なる初期化にもかかわらず、SGDが発見した解はニューラルネットワークの置換不変性を考慮して同じ損失谷にあると推測した。 具体的には、SGDによって発見された任意の2つの解は、それらのパラメータ間の線形補間が損失を著しく増加させることなく経路を形成するように置換できると仮定する。 ここでは、単純だが強力なアルゴリズムを用いて、この仮説が完全連結ネットワークにおいて真であることを示す直接的な実証的証拠を得ることができるような置換を見つける。 驚くべきことに、2つのネットワークは、初期化と平均化の時点ですでに同じ損失谷に住んでいますが、適度に置換された初期化は、チャンスをはるかに上回っています。 対照的に、畳み込みアーキテクチャでは、我々の証拠は仮説が成り立たないことを示唆している。 特に大きな学習率の体制では、SGDは多様なモードを発見できる。

Neural networks trained with stochastic gradient descent (SGD) starting from different random initialisations typically find functionally very similar solutions, raising the question of whether there are meaningful differences between different SGD solutions. Entezari et al. recently conjectured that despite different initialisations, the solutions found by SGD lie in the same loss valley after taking into account the permutation invariance of neural networks. Concretely, they hypothesise that any two solutions found by SGD can be permuted such that the linear interpolation between their parameters forms a path without significant increases in loss. Here, we use a simple but powerful algorithm to find such permutations that allows us to obtain direct empirical evidence that the hypothesis is true in fully connected networks. Strikingly, we find that two networks already live in the same loss valley at the time of initialisation and averaging their random, but suitably permuted initialisation performs significantly above chance. In contrast, for convolutional architectures, our evidence suggests that the hypothesis does not hold. Especially in a large learning rate regime, SGD seems to discover diverse modes.
翻訳日:2022-09-16 13:15:29 公開日:2022-09-15
# 勾配Bスプライン軌道最適化を用いた視覚支援型UAVナビゲーションと動的障害物回避

Vision-aided UAV Navigation and Dynamic Obstacle Avoidance using Gradient-based B-spline Trajectory Optimization ( http://arxiv.org/abs/2209.07003v1 )

ライセンス: Link先を確認
Zhefan Xu, Yumeng Xiu, Xiaoyang Zhan, Baihan Chen, Kenji Shimada(参考訳) 動的環境をナビゲートするには、ロボットが衝突のない軌道を生成し、移動する障害物を積極的に回避する必要がある。 これまでのほとんどの研究は、幾何学、占有、ESDFマップのような単一の地図表現に基づく経路計画アルゴリズムを設計した。 静的な環境では成功したが、マップ表現の制限のため、これらの手法は静的および動的障害を同時に扱うことはできない。 そこで本研究では,ロボットのオンボードビジョンを用いた勾配に基づくbスプライン軌道最適化アルゴリズムを提案する。 深度ビジョンにより、ロボットはボクセルマップに基づいて幾何学的に動的オブジェクトを追跡し、表現することができる。 提案手法は,まず円状ガイドポイントアルゴリズムを適用し,静的障害を回避するためのコストと勾配を近似する。 そして、視覚検出された移動物体により、後退水平距離場が動的衝突を防止するために同時に使用される。 最後に、繰り返しリガイド戦略を適用して、無衝突軌道を生成する。 シミュレーションと物理実験により,提案手法が動的環境を安全にナビゲートするためにリアルタイムに動作できることが証明された。

Navigating dynamic environments requires the robot to generate collision-free trajectories and actively avoid moving obstacles. Most previous works designed path planning algorithms based on one single map representation, such as the geometric, occupancy, or ESDF map. Although they have shown success in static environments, due to the limitation of map representation, those methods cannot reliably handle static and dynamic obstacles simultaneously. To address the problem, this paper proposes a gradient-based B-spline trajectory optimization algorithm utilizing the robot's onboard vision. The depth vision enables the robot to track and represent dynamic objects geometrically based on the voxel map. The proposed optimization first adopts the circle-based guide-point algorithm to approximate the costs and gradients for avoiding static obstacles. Then, with the vision-detected moving objects, our receding-horizon distance field is simultaneously used to prevent dynamic collisions. Finally, the iterative re-guide strategy is applied to generate the collision-free trajectory. The simulation and physical experiments prove that our method can run in real-time to navigate dynamic environments safely.
翻訳日:2022-09-16 13:15:08 公開日:2022-09-15
# MR4MR:メロディリカーネーションのための混合現実感

MR4MR: Mixed Reality for Melody Reincarnation ( http://arxiv.org/abs/2209.07023v1 )

ライセンス: Link先を確認
Atsuya Kobayashi, Ryogo Ishino, Ryuku Nobusue, Takumi Inoue, Keisuke Okazaki, Shoma Sawa and Nao Tokui(参考訳) 音楽の要素を我々を取り巻く実体や空間、例えば音楽コンクレートや周囲の音楽で探求する努力の長い歴史がある。 コンピュータ音楽やデジタルアートの文脈では、周囲の物体や物理的な空間に集中するインタラクティブな体験もデザインされている。 近年、デバイスの開発や普及に伴い、このような音楽体験を生み出すために拡張現実において多くの作品がデザインされている。 本稿ではMR4MRについて述べる。MR(Mixed Reality)のコンテキストにおいて,周囲空間との相互作用から発生するメロディをユーザが体験することを可能にする。 MRヘッドマウントディスプレイであるHoloLensを使えば、ユーザーは周囲の実際の物体に対して音を発する仮想オブジェクトを打つことができる。 そして、オブジェクトが発する音に追従するメロディを連続的に作成し、音楽生成機械学習モデルを用いてランダムに徐々にメロディを再生することで、周囲のメロディを「取り入れる」ことができる。

There is a long history of an effort made to explore musical elements with the entities and spaces around us, such as musique concr\`ete and ambient music. In the context of computer music and digital art, interactive experiences that concentrate on the surrounding objects and physical spaces have also been designed. In recent years, with the development and popularization of devices, an increasing number of works have been designed in Extended Reality to create such musical experiences. In this paper, we describe MR4MR, a sound installation work that allows users to experience melodies produced from interactions with their surrounding space in the context of Mixed Reality (MR). Using HoloLens, an MR head-mounted display, users can bump virtual objects that emit sound against real objects in their surroundings. Then, by continuously creating a melody following the sound made by the object and re-generating randomly and gradually changing melody using music generation machine learning models, users can feel their ambient melody "reincarnating".
翻訳日:2022-09-16 13:14:51 公開日:2022-09-15
# 責任あるAI実装:イノベーションプロセスを加速するための人間中心のフレームワーク

Responsible AI Implementation: A Human-centered Framework for Accelerating the Innovation Process ( http://arxiv.org/abs/2209.07076v1 )

ライセンス: Link先を確認
Dian Tjondronegoro, Elizabeth Yuwono, Brent Richards, Damian Green, and Siiri Hatakka(参考訳) ビジネスを革新し、改善するためのAIの採用の成功には、依然として大きなギャップがある。 ディープラーニングの出現により、ビッグデータと物のインターネットを多く含んでいるため、AIの採用はより複雑になり、データのプライバシに影響を及ぼす。 既存のフレームワークは、技術とビジネス/組織の観点から、人間中心の設計に焦点を当てる必要性を認識している。 しかし、信頼は最初から設計する必要がある重要な問題である。 提案されたフレームワークは、人間中心の設計アプローチから拡大し、プロセスを支える信頼を強調し、維持する。 本稿では,人工知能(AI)の実装に関する理論的枠組みを提案する。 提案されたフレームワークは、アジャイル共同創造プロセスのための相乗的ビジネス技術アプローチを強調している。 目的は、プロジェクト全体を通じてすべての利害関係者を巻き込むことで、AIの採用プロセスの合理化とビジネスの改善であり、AIテクノロジは、独立してではなく、人々と一緒に設計、開発、デプロイされる。 このフレームワークは、分析文献レビュー、概念フレームワーク設計、実践者の仲介専門知識に基づく、責任あるAI実装に関する新たな視点を示す。 このフレームワークは,AIの人間中心の設計とアジャイル開発を通じて,信頼の確立と維持を重視している。 この人間中心のアプローチは、設計原則によるプライバシーと一致し、有効になっている。 この技術とエンドユーザは、ビジネス要件と人間の特性に特化してAIソリューションをカスタマイズするために協力しています。 病院における計画を支援するaiの導入に関する実証的なケーススタディでは,提案手法が実生活アプリケーションに適用できることを実証する。

There is still a significant gap between expectations and the successful adoption of AI to innovate and improve businesses. Due to the emergence of deep learning, AI adoption is more complex as it often incorporates big data and the internet of things, affecting data privacy. Existing frameworks have identified the need to focus on human-centered design, combining technical and business/organizational perspectives. However, trust remains a critical issue that needs to be designed from the beginning. The proposed framework expands from the human-centered design approach, emphasizing and maintaining the trust that underpins the process. This paper proposes a theoretical framework for responsible artificial intelligence (AI) implementation. The proposed framework emphasizes a synergistic business technology approach for the agile co-creation process. The aim is to streamline the adoption process of AI to innovate and improve business by involving all stakeholders throughout the project so that the AI technology is designed, developed, and deployed in conjunction with people and not in isolation. The framework presents a fresh viewpoint on responsible AI implementation based on analytical literature review, conceptual framework design, and practitioners' mediating expertise. The framework emphasizes establishing and maintaining trust throughout the human-centered design and agile development of AI. This human-centered approach is aligned with and enabled by the privacy by design principle. The creators of the technology and the end-users are working together to tailor the AI solution specifically for the business requirements and human characteristics. An illustrative case study on adopting AI for assisting planning in a hospital will demonstrate that the proposed framework applies to real-life applications.
翻訳日:2022-09-16 13:14:36 公開日:2022-09-15
# 勝利したファンタシークリケットチームドリーム11ファンタシースポーツ予測のためのデータサイエンスアプローチ

Data Science Approach to predict the winning Fantasy Cricket Team Dream 11 Fantasy Sports ( http://arxiv.org/abs/2209.06999v1 )

ライセンス: Link先を確認
Sachin Kumar S, Prithvi HV, C Nandini(参考訳) デジタル技術の進化とスポーツの人気の高まりにより、イノベーターたちは、ファンタジースポーツプラットフォームであるfspsを導入することで、スポーツに対するプロクティビティを持つユーザーの体験を全く新しいレベルに引き上げた。 データサイエンスとアナリティクスの応用は、現代世界においてユビキタスである。 データサイエンスと分析は、意思決定プロセスの深い理解と支援を得るための扉を開く。 私たちは、fspのdream 11で勝利したファンタジークリケットチームを予測するために、データサイエンスを採用することができると信じていました。 予測モデルを構築し,将来的なゲームにおけるプレイヤーのパフォーマンスを予測した。 グリーディとナップサックのアルゴリズムを組み合わせることで、11人のプレイヤーのコンビネーションを規定し、最も強力なチームとしてフィニッシュする最も大きな統計的な確率を持つファンタジークリケットチームを作り、ドリーム11fspで賭けのポットを勝ち取るチャンスを高いものにしました。 PyCaret Python Libraryを使って、問題ステートメントに最適なRegressor Algorithmを理解し、採用して正確な予測をしました。 さらに、Plotly Python Libraryを使ってチームやプレイヤーのパフォーマンスを視覚的に把握し、将来的なゲームの統計的、主観的要因を考慮に入れました。 インタラクティブなプロットは、予測モデルの推奨を補強するのに役立ちます。 大勝するか、小勝ちするか、または将来のゲームであなたのファンタジーチームに選ばれたプレイヤーのパフォーマンスに基づいて賭けを失うかのどちらかであり、我々のモデルは、大勝する確率を増加させる。

The evolution of digital technology and the increasing popularity of sports inspired the innovators to take the experience of users with a proclivity towards sports to a whole new different level, by introducing Fantasy Sports Platforms FSPs. The application of Data Science and Analytics is Ubiquitous in the Modern World. Data Science and Analytics open doors to gain a deeper understanding and help in the decision making process. We firmly believed that we could adopt Data Science to predict the winning fantasy cricket team on the FSP, Dream 11. We built a predictive model that predicts the performance of players in a prospective game. We used a combination of Greedy and Knapsack Algorithms to prescribe the combination of 11 players to create a fantasy cricket team that has the most significant statistical odds of finishing as the strongest team thereby giving us a higher chance of winning the pot of bets on the Dream 11 FSP. We used PyCaret Python Library to help us understand and adopt the best Regressor Algorithm for our problem statement to make precise predictions. Further, we used Plotly Python Library to give us visual insights into the team, and players performances by accounting for the statistical, and subjective factors of a prospective game. The interactive plots help us to bolster the recommendations of our predictive model. You either win big, win small, or lose your bet based on the performance of the players selected for your fantasy team in the prospective game, and our model increases the probability of you winning big.
翻訳日:2022-09-16 13:11:34 公開日:2022-09-15
# FRANS:時系列予測のための自動特徴抽出

FRANS: Automatic Feature Extraction for Time Series Forecasting ( http://arxiv.org/abs/2209.07018v1 )

ライセンス: Link先を確認
Alexey Chernikov, Chang Wei Tan, Pablo Montero-Manso, Christoph Bergmeir(参考訳) 特徴抽出法は次元の減少と関連する情報の捕捉に役立つ。 時系列予測(TSF)では、特徴を補助情報として使用して精度を向上させることができる。 伝統的に、tsfで使われる機能は手作りであり、ドメイン知識と重要なデータエンジニアリング作業を必要とする。 本研究では,まず静的および動的機能の概念を導入し,ドメイン知識を必要としない自律的機能検索型ネットワーク(frans)の開発を可能にする。 このメソッドはCNN分類器に基づいており、各シリーズのために、シリーズの一部またはクラスラベルが利用可能であれば、同じクラスの一連の集合から集合的でユニークなクラス表現を作成するように訓練されている。 類似した振る舞いを持つ級数と異なるクラスを区別することができ、分類器から抽出された特徴を最大に判別することができる。 本稿では,特徴の解釈可能性を調査し,予測型メタ学習環境fformaにおける手法の予測能力を評価する。 その結果,我々の機能はほとんどの状況で精度が向上することがわかった。 一度訓練すると、我々のアプローチは統計的手法よりも桁違いに早く特徴を生み出す。

Feature extraction methods help in dimensionality reduction and capture relevant information. In time series forecasting (TSF), features can be used as auxiliary information to achieve better accuracy. Traditionally, features used in TSF are handcrafted, which requires domain knowledge and significant data-engineering work. In this research, we first introduce a notion of static and dynamic features, which then enables us to develop our autonomous Feature Retrieving Autoregressive Network for Static features (FRANS) that does not require domain knowledge. The method is based on a CNN classifier that is trained to create for each series a collective and unique class representation either from parts of the series or, if class labels are available, from a set of series of the same class. It allows to discriminate series with similar behaviour but from different classes and makes the features extracted from the classifier to be maximally discriminatory. We explore the interpretability of our features, and evaluate the prediction capabilities of the method within the forecasting meta-learning environment FFORMA. Our results show that our features lead to improvement in accuracy in most situations. Once trained our approach creates features orders of magnitude faster than statistical methods.
翻訳日:2022-09-16 13:11:03 公開日:2022-09-15
# オフポリティ強化学習における再利用バイアスについて

On the Reuse Bias in Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2209.07074v1 )

ライセンス: Link先を確認
Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Dong Yan, Jun Zhu(参考訳) 重要サンプリング (is) はオフポリシー評価において一般的な手法であり、サンプル効率を高めるためにリプレイバッファ内の軌道の再重み付けを行う。 しかし、ISによるトレーニングは不安定であり、この問題に対処する以前の試みは、主にISのばらつきの分析に焦点を当てていた。 本稿では,isの再利用バイアスの新しい概念 -- 評価と最適化のためにリプレイバッファの再利用によって生じるオフポリシー評価のバイアス -- にも不安定性が関係していることを明らかにする。 理論的には、リプレイバッファのデータによる現在のポリシーの非政治的評価と最適化が目的を過大評価する結果となり、誤って勾配が更新され、性能が劣化する可能性がある。 さらに、再利用バイアスの高確率上限を提供し、オフポリシーアルゴリズムの安定性の概念を導入することにより、上限の一方の項を制御することで再利用バイアスを制御できることを示す。 これらの分析に基づいて, 再利用バイアスの悪影響を緩和する実用的なアルゴリズムとともに, 新たなバイアス正規化重要度サンプリング(biris)フレームワークを提案する。 実験の結果,本手法はムジョコにおける一連の連続制御タスクのサンプル効率を大幅に向上できることがわかった。

Importance sampling (IS) is a popular technique in off-policy evaluation, which re-weights the return of trajectories in the replay buffer to boost sample efficiency. However, training with IS can be unstable and previous attempts to address this issue mainly focus on analyzing the variance of IS. In this paper, we reveal that the instability is also related to a new notion of Reuse Bias of IS -- the bias in off-policy evaluation caused by the reuse of the replay buffer for evaluation and optimization. We theoretically show that the off-policy evaluation and optimization of the current policy with the data from the replay buffer result in an overestimation of the objective, which may cause an erroneous gradient update and degenerate the performance. We further provide a high-probability upper bound of the Reuse Bias, and show that controlling one term of the upper bound can control the Reuse Bias by introducing the concept of stability for off-policy algorithms. Based on these analyses, we finally present a novel Bias-Regularized Importance Sampling (BIRIS) framework along with practical algorithms, which can alleviate the negative impact of the Reuse Bias. Experimental results show that our BIRIS-based methods can significantly improve the sample efficiency on a series of continuous control tasks in MuJoCo.
翻訳日:2022-09-16 13:10:47 公開日:2022-09-15
# Broydenの過勾配を用いたPDE制約最適化のためのバイレベル物理インフォームニューラルネットワーク

Bi-level Physics-Informed Neural Networks for PDE Constrained Optimization using Broyden's Hypergradients ( http://arxiv.org/abs/2209.07075v1 )

ライセンス: Link先を確認
Zhongkai Hao, Chengyang Ying, Hang Su, Jun Zhu, Jian Song, Ze Cheng(参考訳) 物理情報ニューラルネットワーク(PINN)やDeepONetsといったディープラーニングベースのアプローチは、PDE制約最適化(PDECO)問題を解決することを約束している。 しかし、既存の手法は最適化対象に複雑なあるいは非線形な依存を持つPDE制約を扱うには不十分である。 本稿では,目標と制約の最適化を分離し,課題を解決するための新しい2レベル最適化フレームワークを提案する。 内部ループ最適化では、PDE制約のみを解決するためにPINNを採用する。 外部ループに対して,過次関数の近似に効率的かつ正確であるIFT(Implicit Function Theorem)に基づくブロイデン法を用いて,新しい手法を設計する。 さらに,過次計算の理論的説明と誤り解析について述べる。 複数の大規模・非線形PDE制約最適化問題に対する広範囲な実験により,本手法は強いベースラインと比較して最先端の結果が得られることを示した。

Deep learning based approaches like Physics-informed neural networks (PINNs) and DeepONets have shown promise on solving PDE constrained optimization (PDECO) problems. However, existing methods are insufficient to handle those PDE constraints that have a complicated or nonlinear dependency on optimization targets. In this paper, we present a novel bi-level optimization framework to resolve the challenge by decoupling the optimization of the targets and constraints. For the inner loop optimization, we adopt PINNs to solve the PDE constraints only. For the outer loop, we design a novel method by using Broyden's method based on the Implicit Function Theorem (IFT), which is efficient and accurate for approximating hypergradients. We further present theoretical explanations and error analysis of the hypergradients computation. Extensive experiments on multiple large-scale and nonlinear PDE constrained optimization problems demonstrate that our method achieves state-of-the-art results compared with strong baselines.
翻訳日:2022-09-16 13:10:26 公開日:2022-09-15
# 階層的ブレグマン表現学習と知識蒸留への応用

Layerwise Bregman Representation Learning with Applications to Knowledge Distillation ( http://arxiv.org/abs/2209.07080v1 )

ライセンス: Link先を確認
Ehsan Amid, Rohan Anil, Christopher Fifty, Manfred K. Warmuth(参考訳) 本研究では,ニューラルネットワークの階層的表現学習のための新しい手法を提案する。 特に, 平均ベクトルを包含し, 平均周りの局所凸関数の幾何に関して主方向を正規化することにより, 層の伝達関数に基づいてブレグマン分岐を形成し, 元のブレグマンPCA定式化の拡張を構成する。 この一般化により、学習した表現を非線形な固定層としてエクスポートすることができる。 知識蒸留への応用として,輸入層への入力として渡される教師の表現の圧縮係数の予測として,学生ネットワークの学習問題を提起した。 実験結果から,本手法は教師の垂直層表現とソフトラベルを用いた教師学生の訓練よりも,ネットワーク間の情報伝達に効果的であることが示唆された。

In this work, we propose a novel approach for layerwise representation learning of a trained neural network. In particular, we form a Bregman divergence based on the layer's transfer function and construct an extension of the original Bregman PCA formulation by incorporating a mean vector and normalizing the principal directions with respect to the geometry of the local convex function around the mean. This generalization allows exporting the learned representation as a fixed layer with a non-linearity. As an application to knowledge distillation, we cast the learning problem for the student network as predicting the compression coefficients of the teacher's representations, which are passed as the input to the imported layer. Our empirical findings indicate that our approach is substantially more effective for transferring information between networks than typical teacher-student training using the teacher's penultimate layer representations and soft labels.
翻訳日:2022-09-16 13:10:09 公開日:2022-09-15
# DEQGAN: 生成逆ネットワークを用いたPINNの損失関数学習

DEQGAN: Learning the Loss Function for PINNs with Generative Adversarial Networks ( http://arxiv.org/abs/2209.07081v1 )

ライセンス: Link先を確認
Blake Bullwinkel, Dylan Randle, Pavlos Protopapas, David Sondak(参考訳) 微分方程式の解は、科学的および工学的関連性が重要である。 物理学式ニューラルネットワーク(PINN)は微分方程式を解くための有望な方法として登場したが、特定の損失関数の使用に対する理論的正当化は欠如している。 本研究は,ニューラルネットワークを最適化するための「損失関数を学習する」ために生成逆数ネットワークを用いた微分方程式の解法である微分方程式GAN(DEQGAN)を提案する。 非線形バーガーズ、アレン=カーン、ハミルトン、および修正アインシュタインの重力方程式を含む12の常偏微分方程式の組に対して、デクガンは、l_2$、$l_1$、およびフーバー損失関数を用いたピンよりも2桁低い2乗誤差を複数得ることができることを示した。 また、DECGANは、一般的な数値法と競合する解の精度を達成することを示す。 最後に,異なるハイパーパラメータ設定に対するdeqganのロバスト性を改善する2つの手法を提案する。

Solutions to differential equations are of significant scientific and engineering relevance. Physics-Informed Neural Networks (PINNs) have emerged as a promising method for solving differential equations, but they lack a theoretical justification for the use of any particular loss function. This work presents Differential Equation GAN (DEQGAN), a novel method for solving differential equations using generative adversarial networks to "learn the loss function" for optimizing the neural network. Presenting results on a suite of twelve ordinary and partial differential equations, including the nonlinear Burgers', Allen-Cahn, Hamilton, and modified Einstein's gravity equations, we show that DEQGAN can obtain multiple orders of magnitude lower mean squared errors than PINNs that use $L_2$, $L_1$, and Huber loss functions. We also show that DEQGAN achieves solution accuracies that are competitive with popular numerical methods. Finally, we present two methods to improve the robustness of DEQGAN to different hyperparameter settings.
翻訳日:2022-09-16 13:09:55 公開日:2022-09-15
# 分散データソース上でマシンラーニングモデルをトレーニングする費用はどの程度か?

How Much Does It Cost to Train a Machine Learning Model over Distributed Data Sources? ( http://arxiv.org/abs/2209.07124v1 )

ライセンス: Link先を確認
Elia Guerra, Francesc Wilhelmi, Marco Miozzo, Paolo Dini(参考訳) フェデレーション学習(federated learning、fl)は、標準的な集中型学習パラダイムの最も魅力的な選択肢の1つであり、ヘテロジニアスなデバイスセットが、生のデータを共有することなく機械学習モデルをトレーニングできる。 しかし、flは学習プロセスを調整するために中央サーバを必要とするため、潜在的なスケーラビリティとセキュリティの問題を引き起こす。 文献では,これらの問題を解決するために,gossipフェデレーション学習(gfl)やブロックチェーン対応フェデレーション学習(bfl)といったサーバレスflアプローチが提案されている。 本研究では, モデル精度, 時間複雑性, 通信オーバーヘッド, 収束時間, エネルギー消費など, 性能指標の積分集合による比較を提案する3つの手法の完全な概要を提案する。 広範なシミュレーションキャンペーンでは、定量的分析が可能である。 特に、GFLはトレーニング時間の18%、エネルギーの68%、データの51%をCFLソリューションで共有することができるが、CFLの精度レベルに達することはできない。 一方で、bflは、余分なエネルギー使用とデータ共有のコストを犠牲にして、より高いセキュリティレベルで分散学習を実装するための実行可能なソリューションである。 最後に,2つの分散連合学習実装に関するオープンイシューを特定し,この新たな研究分野における潜在的拡張と可能性研究の方向性について考察する。

Federated learning (FL) is one of the most appealing alternatives to the standard centralized learning paradigm, allowing heterogeneous set of devices to train a machine learning model without sharing their raw data. However, FL requires a central server to coordinate the learning process, thus introducing potential scalability and security issues. In the literature, server-less FL approaches like gossip federated learning (GFL) and blockchain-enabled federated learning (BFL) have been proposed to mitigate these issues. In this work, we propose a complete overview of these three techniques proposing a comparison according to an integral set of performance indicators, including model accuracy, time complexity, communication overhead, convergence time and energy consumption. An extensive simulation campaign permits to draw a quantitative analysis. In particular, GFL is able to save the 18% of training time, the 68% of energy and the 51% of data to be shared with respect to the CFL solution, but it is not able to reach the level of accuracy of CFL. On the other hand, BFL represents a viable solution for implementing decentralized learning with a higher level of security, at the cost of an extra energy usage and data sharing. Finally, we identify open issues on the two decentralized federated learning implementations and provide insights on potential extensions and possible research directions on this new research field.
翻訳日:2022-09-16 13:09:34 公開日:2022-09-15
# 変分推論の可能性における不変性の影響について

On the detrimental effect of invariances in the likelihood for variational inference ( http://arxiv.org/abs/2209.07157v1 )

ライセンス: Link先を確認
Richard Kurle, Ralf Herbrich, Tim Januschowski, Yuyang Wang, Jan Gasthaus(参考訳) 変分ベイズ後部推論は、トラクタビリティを確保するために平均場パラメトリゼーションのような近似を単純化する必要があることが多い。 しかし、以前の研究は、ベイズニューラルネットワークの変動平均場近似と、小さなデータセットや大きなモデルサイズの場合の不適合を関連付けている。 本研究は, この不変性が, ガウス平均場分布ではよく近似できない離散モードおよび/または連続モードを導入することにより, 後方構造を複雑にするため, 過パラメータモデルの不斉関数がこの現象に寄与することを示す。 特に, 平均場近似は, 既知の不変性を考慮した目的に構築された後方法と比較して, エビデンス下限に差があることが示されている。 重要なことに、この差分ギャップは一定ではなく、近似が前の値に戻ると消える。 まず、単一のデータポイントを持つ線形モデルにおける翻訳不変性を詳細に検討する。 平均場パラメトリションから真の後部を構築できるが、これは目的関数が分散ギャップを考慮に入れた場合にのみ達成されることを示す。 次に,線形モデルの解析結果をニューラルネットワークに転送する。 我々の分析は、分散問題に対する解決策を探求する将来の研究のためのフレームワークを提供する。

Variational Bayesian posterior inference often requires simplifying approximations such as mean-field parametrisation to ensure tractability. However, prior work has associated the variational mean-field approximation for Bayesian neural networks with underfitting in the case of small datasets or large model sizes. In this work, we show that invariances in the likelihood function of over-parametrised models contribute to this phenomenon because these invariances complicate the structure of the posterior by introducing discrete and/or continuous modes which cannot be well approximated by Gaussian mean-field distributions. In particular, we show that the mean-field approximation has an additional gap in the evidence lower bound compared to a purpose-built posterior that takes into account the known invariances. Importantly, this invariance gap is not constant; it vanishes as the approximation reverts to the prior. We proceed by first considering translation invariances in a linear model with a single data point in detail. We show that, while the true posterior can be constructed from a mean-field parametrisation, this is achieved only if the objective function takes into account the invariance gap. Then, we transfer our analysis of the linear model to neural networks. Our analysis provides a framework for future work to explore solutions to the invariance problem.
翻訳日:2022-09-16 13:09:08 公開日:2022-09-15
# ニューラルネットワークを1対2の精度でトレーニングする

Training Neural Networks in Single vs Double Precision ( http://arxiv.org/abs/2209.07219v1 )

ライセンス: Link先を確認
Tomas Hrycej, Bernhard Bermeitinger, Siegfried Handschuh(参考訳) 単一精度浮動小数点演算へのコミットメントは、ディープラーニングコミュニティに広く普及している。 このコミットメントが正当であるかどうかを評価するため、共役勾配法(二階最適化アルゴリズム)とrmsprop法(一階最適化アルゴリズム)の最適化性能に対する計算精度(単精度と倍精度)の影響について検討した。 最大400万のネットワークパラメータを持つ1から5つの完全に接続された層と、中程度のあるいは強い非線形性を持つニューラルネットワークのテストは、Mean Square Error(MSE)に最適化されている。 トレーニングタスクは、MSEの最小値が0であることがわかっているように設定されている。 計算実験により、直線探索が改善される限り、単精度は2倍精度で(超線形収束と共に)追随できることが明らかとなった。 RMSpropのような一階法は二重精度の恩恵を受けない。 しかし、適度に非線形なタスクでは、CGは明らかに優れている。 強非線形タスクでは、両方のアルゴリズムクラスは出力分散に関する平均二乗誤差の点でかなり貧弱な解のみを見つける。 二重浮動小数点精度のCGは、ソリューションがアプリケーションゴールに有用な可能性を持つ場合、より優れている。

The commitment to single-precision floating-point arithmetic is widespread in the deep learning community. To evaluate whether this commitment is justified, the influence of computing precision (single and double precision) on the optimization performance of the Conjugate Gradient (CG) method (a second-order optimization algorithm) and RMSprop (a first-order algorithm) has been investigated. Tests of neural networks with one to five fully connected hidden layers and moderate or strong nonlinearity with up to 4 million network parameters have been optimized for Mean Square Error (MSE). The training tasks have been set up so that their MSE minimum was known to be zero. Computing experiments have disclosed that single-precision can keep up (with superlinear convergence) with double-precision as long as line search finds an improvement. First-order methods such as RMSprop do not benefit from double precision. However, for moderately nonlinear tasks, CG is clearly superior. For strongly nonlinear tasks, both algorithm classes find only solutions fairly poor in terms of mean square error as related to the output variance. CG with double floating-point precision is superior whenever the solutions have the potential to be useful for the application goal.
翻訳日:2022-09-16 13:08:48 公開日:2022-09-15
# FFPA-Net:3次元物体検出のための投影認識機能付き効率的な特徴融合

FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D Object Detection ( http://arxiv.org/abs/2209.07419v1 )

ライセンス: Link先を確認
Chaokang Jiang, Guangming Wang, Jinxing Wu, Yanzi Miao, Hesheng Wang(参考訳) カラー画像のテクスチャ特徴とLiDAR点雲の幾何学的情報との間に相補性を推定する。 しかし、3dオブジェクト検出の分野では、効率的でロバストな機能融合にはまだ多くの課題がある。 本稿では,まず2次元平面に非構造化の3次元点雲を充填し,プロジェクション対応の畳み込み層を用いて3次元点雲の特徴を高速に抽出する。 さらに、データ前処理において、異なるセンサ信号間の対応するインデックスを予め確立し、より高速なクロスモーダル特徴融合を可能にする。 LiDAR点と画像画素の不整合問題に対処するため、2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseを提案する。 LiCamFuseでは、2モーダル特徴のユークリッド距離を知覚するソフトクエリウェイトを提案する。 BiLiCamFuseでは、シーンの幾何学的特徴とテクスチャ的特徴を深く関連付けるために、二重注意の融合モジュールを提案する。 KITTIデータセットの定量的結果から,提案手法がより優れた特徴レベルの融合を実現することを示す。 また,提案するネットワークは,既存手法に比べて実行時間が短い。

Promising complementarity exists between the texture features of color images and the geometric information of LiDAR point clouds. However, there still present many challenges for efficient and robust feature fusion in the field of 3D object detection. In this paper, first, unstructured 3D point clouds are filled in the 2D plane and 3D point cloud features are extracted faster using projection-aware convolution layers. Further, the corresponding indexes between different sensor signals are established in advance in the data preprocessing, which enables faster cross-modal feature fusion. To address LiDAR points and image pixels misalignment problems, two new plug-and-play fusion modules, LiCamFuse and BiLiCamFuse, are proposed. In LiCamFuse, soft query weights with perceiving the Euclidean distance of bimodal features are proposed. In BiLiCamFuse, the fusion module with dual attention is proposed to deeply correlate the geometric and textural features of the scene. The quantitative results on the KITTI dataset demonstrate that the proposed method achieves better feature-level fusion. In addition, the proposed network shows a shorter running time compared to existing methods.
翻訳日:2022-09-16 13:05:20 公開日:2022-09-15
# hydra attention: 多くの頭で効率的な注意

Hydra Attention: Efficient Attention with Many Heads ( http://arxiv.org/abs/2209.07484v1 )

ライセンス: Link先を確認
Daniel Bolya, Cheng-Yang Fu, Xiaoliang Dai, Peizhao Zhang, Judy Hoffman(参考訳) トランスフォーマーは視覚の多くのタスクを支配し始めているが、大きな画像に適用することは依然として計算が難しい。 この大きな理由は、自己注意はトークンの数で2乗スケールし、結果として画像サイズで2乗スケールするからである。 より大きな画像(例えば1080p)では、ネットワーク全体の計算の60%以上が注意行列の作成と適用に費やされている。 我々は、視覚トランスフォーマー(vits)の極めて効率的な注意操作であるhydra attentionを導入することで、この問題を解決するための一歩を踏み出す。 パラドックス的に、この効率性はマルチヘッドの注意を極端に下げることからもたらされる: 特徴がある限り多くの注意ヘッドを使用することで、ハイドラの注意は、トークンと特徴の両方において計算的に線形であり、隠れた定数を持たない。 さらに、Hydra AttentionはImageNet上で高い精度を維持し、場合によっては実際にそれを改善する。

While transformers have begun to dominate many tasks in vision, applying them to large images is still computationally difficult. A large reason for this is that self-attention scales quadratically with the number of tokens, which in turn, scales quadratically with the image size. On larger images (e.g., 1080p), over 60% of the total computation in the network is spent solely on creating and applying attention matrices. We take a step toward solving this issue by introducing Hydra Attention, an extremely efficient attention operation for Vision Transformers (ViTs). Paradoxically, this efficiency comes from taking multi-head attention to its extreme: by using as many attention heads as there are features, Hydra Attention is computationally linear in both tokens and features with no hidden constants, making it significantly faster than standard self-attention in an off-the-shelf ViT-B/16 by a factor of the token count. Moreover, Hydra Attention retains high accuracy on ImageNet and, in some cases, actually improves it.
翻訳日:2022-09-16 13:05:00 公開日:2022-09-15
# 視覚言語モデルにおけるゼロショット一般化のためのテスト時間プロンプトチューニング

Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models ( http://arxiv.org/abs/2209.07511v1 )

ライセンス: Link先を確認
Manli Shu, Weili Nie, De-An Huang, Zhiding Yu, Tom Goldstein, Anima Anandkumar, Chaowei Xiao(参考訳) 事前訓練された視覚言語モデル(例えばクリップ)は、適切に設計されたテキストプロンプトを持つ多くの下流タスクで有望なゼロショット一般化を示している。 手書きのプロンプトに頼る代わりに、最近の研究は下流のタスクからトレーニングデータを使ってプロンプトを学ぶ。 有効ではあるが、ドメイン固有のデータに対するトレーニングは、モデルの一般化能力を新しいドメインに還元する。 本研究では,1つのテストサンプルで適応型プロンプトを学習できるtpt(test-time prompt tuning)を提案する。 画像分類において、PTはエントロピーを信頼性選択で最小化し、各テストサンプルの異なる拡張ビューに対して一貫した予測を行う。 自然分布シフトへの一般化を評価する際、TPTはCLIPのゼロショットトップ-1精度を平均3.6%改善し、タスク固有のトレーニングデータを必要とする以前のプロンプトチューニングアプローチを上回った。 クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。 プロジェクトページ: https://azshue.github.io/TPT。

Pre-trained vision-language models (e.g., CLIP) have shown promising zero-shot generalization in many downstream tasks with properly designed text prompts. Instead of relying on hand-engineered prompts, recent works learn prompts using the training data from downstream tasks. While effective, training on domain-specific data reduces a model's generalization capability to unseen new domains. In this work, we propose test-time prompt tuning (TPT), a method that can learn adaptive prompts on the fly with a single test sample. For image classification, TPT optimizes the prompt by minimizing the entropy with confidence selection so that the model has consistent predictions across different augmented views of each test sample. In evaluating generalization to natural distribution shifts, TPT improves the zero-shot top-1 accuracy of CLIP by 3.6% on average, surpassing previous prompt tuning approaches that require additional task-specific training data. In evaluating cross-dataset generalization with unseen categories, TPT performs on par with the state-of-the-art approaches that use additional training data. Project page: https://azshue.github.io/TPT.
翻訳日:2022-09-16 13:04:42 公開日:2022-09-15
# OmniVL:画像言語とビデオ言語タスクのための基礎モデル

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks ( http://arxiv.org/abs/2209.07526v1 )

ライセンス: Link先を確認
Junke Wang and Dongdong Chen and Zuxuan Wu and Chong Luo and Luowei Zhou and Yucheng Zhao and Yujia Xie and Ce Liu and Yu-Gang Jiang and Lu Yuan(参考訳) 本稿では,1つのユニバーサルアーキテクチャを用いて画像言語と映像言語の両方をサポートする新しい基礎モデルであるOmniVLを提案する。 画像入力とビデオ入力の両方に統一トランスフォーマーベースのビジュアルエンコーダを採用しており、画像言語とビデオ言語の事前学習を共同で行うことができる。 このようなパラダイムは,従来の一方向移動とは対照的に,画像と映像の両方のタスクに初めてメリットがある(例えば,映像言語を用いてビデオ言語を支援する)。 そこで本稿では,視覚言語モデリングを空間的および時間的次元に効果的に分解し,画像と映像の両方の性能向上を図るために,画像言語と映像言語の融合プリトレーニングを提案する。 さらに、画像テキスト、ビデオテキスト、画像ラベル(例えば、画像分類)、ビデオラベル(例えば、ビデオ行動認識)データを併用することにより、教師付きおよびノイズの多い事前訓練データの両方を可能な限り活用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。 OmniVLは、タスク固有のアダプタを必要とせず、視覚のみのタスク(例えば、画像分類、ビデオアクション認識)、クロスモーダルアライメントタスク(例えば、画像/ビデオテキスト検索)、マルチモーダル理解および生成タスク(例えば、画像/ビデオ質問応答、キャプション)を同時にサポートする。 我々は、OmniVLを幅広い下流タスクで評価し、同様のモデルサイズとデータスケールで最先端または競争的な結果を得る。

This paper presents OmniVL, a new foundation model to support both image-language and video-language tasks using one universal architecture. It adopts a unified transformer-based visual encoder for both image and video inputs, and thus can perform joint image-language and video-language pretraining. We demonstrate, for the first time, such a paradigm benefits both image and video tasks, as opposed to the conventional one-directional transfer (e.g., use image-language to help video-language). To this end, we propose a decoupled joint pretraining of image-language and video-language to effectively decompose the vision-language modeling into spatial and temporal dimensions and obtain performance boost on both image and video tasks. Moreover, we introduce a novel unified vision-language contrastive (UniVLC) loss to leverage image-text, video-text, image-label (e.g., image classification), video-label (e.g., video action recognition) data together, so that both supervised and noisily supervised pretraining data are utilized as much as possible. Without incurring extra task-specific adaptors, OmniVL can simultaneously support visual only tasks (e.g., image classification, video action recognition), cross-modal alignment tasks (e.g., image/video-text retrieval), and multi-modal understanding and generation tasks (e.g., image/video question answering, captioning). We evaluate OmniVL on a wide range of downstream tasks and achieve state-of-the-art or competitive results with similar model size and data scale.
翻訳日:2022-09-16 13:04:23 公開日:2022-09-15
# メタファ概念マッピングによるtwitter上の説明可能な抑うつ検出のための階層的注意ネットワーク

Hierarchical Attention Network for Explainable Depression Detection on Twitter Aided by Metaphor Concept Mappings ( http://arxiv.org/abs/2209.07494v1 )

ライセンス: Link先を確認
Sooji Han, Rui Mao, and Erik Cambria(参考訳) Twitter上の自動うつ病検出は、個人がメンタルヘルスの専門家を見る前に、早期にメンタルヘルスの状態をプライベートかつ便利に理解するのに役立つ。 既存の抑うつ検出のためのブラックボックスのようなディープラーニング手法のほとんどは、分類性能の改善に重点を置いている。 しかしながら、モデル決定を説明することは健康研究において必須である。 うつ病を含む精神疾患の信頼性の高い自動診断は、モデルの予測を正当化する信頼できる説明によって支持されるべきである。 本稿では,twitter上での抑うつ検出のための新しい説明可能なモデルを提案する。 階層的な注意機構とフィードフォワードニューラルネットワークを組み合わせた,新しいエンコーダを備える。 心理言語学研究を支援するために,メタファー的概念マッピングを入力として活用する。 したがって、抑うつされた個人を検知するだけでなく、そのようなユーザのつぶやきの特徴と関連するメタファ概念マッピングを識別する。

Automatic depression detection on Twitter can help individuals privately and conveniently understand their mental health status in the early stages before seeing mental health professionals. Most existing black-box-like deep learning methods for depression detection largely focused on improving classification performance. However, explaining model decisions is imperative in health research because decision-making can often be high-stakes and life-and-death. Reliable automatic diagnosis of mental health problems including depression should be supported by credible explanations justifying models' predictions. In this work, we propose a novel explainable model for depression detection on Twitter. It comprises a novel encoder combining hierarchical attention mechanisms and feed-forward neural networks. To support psycholinguistic studies, our model leverages metaphorical concept mappings as input. Thus, it not only detects depressed individuals, but also identifies features of such users' tweets and associated metaphor concept mappings.
翻訳日:2022-09-16 13:03:51 公開日:2022-09-15
# MIPI 2022 RGB+ToF深度計算の課題:データセットとレポート

MIPI 2022 Challenge on RGB+ToF Depth Completion: Dataset and Report ( http://arxiv.org/abs/2209.07057v1 )

ライセンス: Link先を確認
Wenxiu Sun, Qingpeng Zhu, Chongyi Li, Ruicheng Feng, Shangchen Zhou, Jun Jiang, Qingyu Yang, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータがないことと、産業や学界からの視点を深く交換する稀な機会が、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 このギャップを埋めるために,新しいイメージセンサとイメージングアルゴリズムに焦点を当てた5つのトラックを含む,最初のmipiチャレンジを紹介する。 本稿では、RGBセンサとToFセンサ(スポット照明付き)の融合に取り組んでいる5つのトラックのうちの1つであるRGB+ToF深度補完について紹介する。 参加者にはTetrasRGBDという,高品質な合成RGB+Depthトレーニングデータ18万組と,混合ソースからの2.3万組のテストデータを含む,新たなデータセットが提供される。 すべてのデータは屋内シナリオで収集されます。 すべてのメソッドの実行時間は、デスクトップGPU上でリアルタイムでなければならない。 最終結果は客観的指標と平均オピニオンスコア(MOS)を主観的に評価する。 本論文では,本課題で開発された全モデルについて詳述する。 この課題の詳細とデータセットへのリンクは、https://github.com/mipi-challenge/mipi2022にある。

Developing and integrating advanced image sensors with novel algorithms in camera systems is prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). To bridge the gap, we introduce the first MIPI challenge including five tracks focusing on novel image sensors and imaging algorithms. In this paper, RGB+ToF Depth Completion, one of the five tracks, working on the fusion of RGB sensor and ToF sensor (with spot illumination) is introduced. The participants were provided with a new dataset called TetrasRGBD, which contains 18k pairs of high-quality synthetic RGB+Depth training data and 2.3k pairs of testing data from mixed sources. All the data are collected in an indoor scenario. We require that the running time of all methods should be real-time on desktop GPUs. The final results are evaluated using objective metrics and Mean Opinion Score (MOS) subjectively. A detailed description of all models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://github.com/mipi-challenge/MIPI2022.
翻訳日:2022-09-16 13:00:34 公開日:2022-09-15
# PROB-SLAM:確率的グラフ最適化に基づくリアルタイムビジュアルSLAM

PROB-SLAM: Real-time Visual SLAM Based on Probabilistic Graph Optimization ( http://arxiv.org/abs/2209.07061v1 )

ライセンス: Link先を確認
Xianwei Meng and Bonian Li(参考訳) 従来のSLAMアルゴリズムは通常、高いレベルの情報を持たない人工的な特徴に基づいている。 セマンティック情報を導入することで、slamは純粋に手作りの機能よりも高い安定性と堅牢性を持つことができる。 しかし、意味検出ネットワークの不確かさは、高レベル情報の実用的機能を妨げる。 意味論によってもたらされる不確実性を解決するために,ガウス分布の仮定に基づく新しい確率写像を提案した。 このマップは、セマンティックバイナリオブジェクト検出を確率結果に変換し、人工的な特徴と意味情報の間の確率的データ関連を確立するのに役立つ。 提案アルゴリズムでは,各更新ステップにおいて高い信頼度が与えられ,検出領域のエッジは低い信頼度で付与される。 すると不確実性が弱くなり、非線形最適化への影響が小さくなる。 実験はTUM RGBDデータセットで実施され,本システムは室内環境のエラーで約15%ORB-SLAM2を改善することを示した。 本手法を動的オブジェクトを含む環境に適用できることを実証した。

Traditional SLAM algorithms are typically based on artificial features, which lack high-level information. By introducing semantic information, SLAM can own higher stability and robustness rather than purely hand-crafted features. However, the high uncertainty of semantic detection networks prohibits the practical functionality of high-level information. To solve the uncertainty property introduced by semantics, this paper proposed a novel probability map based on the Gaussian distribution assumption. This map transforms the semantic binary object detection into probability results, which help establish a probabilistic data association between artificial features and semantic info. Through our algorithm, the higher confidence will be given higher weights in each update step while the edge of the detection area will be endowed with lower confidence. Then the uncertainty is undermined and has less effect on nonlinear optimization. The experiments are carried out in the TUM RGBD dataset, results show that our system improves ORB-SLAM2 by about 15% in indoor environments' errors. We have demonstrated that the method can be successfully applied to environments containing dynamic objects.
翻訳日:2022-09-16 13:00:11 公開日:2022-09-15
# 弱教師付き3次元シーンセマンティックセマンティックセグメンテーションのためのアクティブセルフトレーニング

Active Self-Training for Weakly Supervised 3D Scene Semantic Segmentation ( http://arxiv.org/abs/2209.07069v1 )

ライセンス: Link先を確認
Gengxin Liu, Oliver van Kaick, Hui Huang, Ruizhen Hu(参考訳) 点雲のセマンティックセグメンテーションネットワークをトレーニングするためのラベル付きデータの作成は時間を要するプロセスであるため、少数のデータからのみ学習するための弱い教師付きアプローチが導入されている。 これらの方法は典型的には対照的な損失を伴う学習に基づいており、ユーザ注釈付きラベルのスパース集合からポイント単位の擬似ラベルを自動的に導出する。 本稿では,これらのサンプルをトレーニングに使用する方法と同じくらい,アノテーションを付与するサンプルの選択が重要であることを考察する。 そこで本研究では,自己学習とアクティブラーニングを組み合わせた3次元シーンの弱い教師付きセグメンテーション手法を提案する。 アクティブラーニングは、トレーニングされたモデルのパフォーマンスが向上する可能性のあるアノテーションのポイントを選択し、セルフトレーニングは、モデル学習にユーザが提供するラベルを効率的に利用します。 このアプローチは,従来の作業やベースラインよりもシーンセグメンテーションを改善しつつ,少数のユーザアノテーションを必要とせずに,効果的な手法であることを実証する。

Since the preparation of labeled data for training semantic segmentation networks of point clouds is a time-consuming process, weakly supervised approaches have been introduced to learn from only a small fraction of data. These methods are typically based on learning with contrastive losses while automatically deriving per-point pseudo-labels from a sparse set of user-annotated labels. In this paper, our key observation is that the selection of what samples to annotate is as important as how these samples are used for training. Thus, we introduce a method for weakly supervised segmentation of 3D scenes that combines self-training with active learning. The active learning selects points for annotation that likely result in performance improvements to the trained model, while the self-training makes efficient use of the user-provided labels for learning the model. We demonstrate that our approach leads to an effective method that provides improvements in scene segmentation over previous works and baselines, while requiring only a small number of user annotations.
翻訳日:2022-09-16 12:59:56 公開日:2022-09-15
# 自己教師付き単眼深度推定のための自己蒸留特徴集約

Self-distilled Feature Aggregation for Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2209.07088v1 )

ライセンス: Link先を確認
Zhengming Zhou and Qiulei Dong(参考訳) 近年,コンピュータビジョンにおいて,自己教師付き単眼深度推定が注目されている。 文献における既存の研究の多くは、単純な結合または要素の付加による深度予測のための多スケール特徴を集約するが、そのような特徴集約操作は一般的に、多スケール特徴間のコンテキスト整合性を無視している。 この問題に対処するため,我々は,低スケールと高スケールの2つの機能を同時に集約し,コンテキスト整合性を維持する自己拡張機能集約(SDFA)モジュールを提案する。 SDFAは、入力された低階特徴を精錬する1つのオフセットマップと、設計された自己蒸留方式で入力された高階特徴を精錬する2つのオフセットマップをそれぞれ3つのブランチで学習する。 次に,自己教師付き単眼深度推定のためのSDFAベースのネットワークを提案し,SDFAモジュールを用いてネットワークをトレーニングするための自己蒸留トレーニング戦略を設計する。 KITTIデータセットにおける実験結果から,提案手法は,ほとんどの場合において,比較最先端手法よりも優れていることが示された。 コードはhttps://github.com/ZM-Zhou/SDFA-Net_pytorchで公開されている。

Self-supervised monocular depth estimation has received much attention recently in computer vision. Most of the existing works in literature aggregate multi-scale features for depth prediction via either straightforward concatenation or element-wise addition, however, such feature aggregation operations generally neglect the contextual consistency between multi-scale features. Addressing this problem, we propose the Self-Distilled Feature Aggregation (SDFA) module for simultaneously aggregating a pair of low-scale and high-scale features and maintaining their contextual consistency. The SDFA employs three branches to learn three feature offset maps respectively: one offset map for refining the input low-scale feature and the other two for refining the input high-scale feature under a designed self-distillation manner. Then, we propose an SDFA-based network for self-supervised monocular depth estimation, and design a self-distilled training strategy to train the proposed network with the SDFA module. Experimental results on the KITTI dataset demonstrate that the proposed method outperforms the comparative state-of-the-art methods in most cases. The code is available at https://github.com/ZM-Zhou/SDFA-Net_pytorch.
翻訳日:2022-09-16 12:59:26 公開日:2022-09-15
# LAVOLUTION:構造光による非ターゲット構造変位の測定

LAVOLUTION: Measurement of Non-target Structural Displacement Calibrated by Structured Light ( http://arxiv.org/abs/2209.07115v1 )

ライセンス: Link先を確認
Jongbin Won, Minhyuk Song, Gunhee Kim, Jong-Woong Park and Haemin Jeon(参考訳) 変位は構造条件を評価する上で重要な測定であるが、その測定はセンサーの設置や測定精度の低下によってしばしば妨げられる。 従来の変位計測の欠点を克服するために, リモートセンシング能力と精度からコンピュータビジョン(cv)ベースの手法が実装されている。 本稿では,構造光を用いて変位を校正しながら,構造物に目標を設置する必要をなくすため,CVを用いた非ターゲット構造変位測定の戦略を提案する。 LAVOLUTIONと呼ばれるシステムでは、構造光の4つの等間隔ビームを用いて、カメラの相対位置を計算し、画素の動きを構造変位に変換するスケール係数を求める。 構成光の4本のビームに対するジグをデザインし、対応するアライメントプロセスを提案する。 可変構造光のための設計ジグを用いたスケールファクターの計算法を提案し,数値シミュレーションと実験室規模の実験により検証した。 提案する変位測定法の有効性を確認するため, 振動テーブルと実大橋における実験を行い, 提案手法の精度を基準レーザドップラー振動計と比較した。

Displacement is an important measurement for the assessment of structural conditions, but its field measurement is often hindered by difficulties associated with sensor installation and measurement accuracy. To overcome the disadvantages of conventional displacement measurement, computer vision (CV)-based methods have been implemented due to their remote sensing capabilities and accuracy. This paper presents a strategy for non-target structural displacement measurement that makes use of CV to avoid the need to install a target on the structure while calibrating the displacement using structured light. The proposed system called as LAVOLUTION calculates the relative position of the camera with regard to the structure using four equally spaced beams of structured light and obtains a scale factor to convert pixel movement into structural displacement. A jig for the four beams of structured light is designed and a corresponding alignment process is proposed. A method for calculating the scale factor using the designed jig for tunable structured-light is proposed and validated via numerical simulations and lab-scale experiments. To confirm the feasibility of the proposed displacement measurement process, experiments on a shaking table and a full-scale bridge are conducted and the accuracy of the proposed method is compared with that of a reference laser doppler vibrometer.
翻訳日:2022-09-16 12:58:58 公開日:2022-09-15
# HARP:高精細画像発生装置を用いた自己回帰遅延映像予測

HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator ( http://arxiv.org/abs/2209.07143v1 )

ライセンス: Link先を確認
Younggyo Seo, Kimin Lee, Fangchen Liu, Stephen James, Pieter Abbeel(参考訳) ビデオ予測は,将来的なフレームの生成や学習環境のダイナミクスといったタスクに悩まされる,重要な課題である。 近年,映像生成モデルの事前学習と,画像生成装置の潜伏空間における自己回帰予測モデルの学習という,映像予測を2つのサブプロブレムに分離することで,自己回帰的潜伏映像モデルが強力な映像予測ツールであることが証明されている。 しかし、高精細で高精細なビデオの生成には成功していない。 本研究では,既存のモデルに最小限の修正で高精細な未来フレームを予測できる自己回帰的潜在ビデオ予測モデルを訓練し,高精細(256x256)ビデオを生成する方法について検討する。 具体的には,高忠実度画像生成器 (vq-gan) と因果トランスフォーマーモデルを用いて,先行モデルのスケールアップを行い,さらにtop-kサンプリングとデータ拡張技術を導入して,映像予測品質をさらに向上させる。 単純さにもかかわらず、提案手法は、パラメータの少ない標準ビデオ予測ベンチマークにおける最先端のアプローチとの競合性能を実現し、複雑なデータセットや大規模データセットでの高解像度ビデオ予測を可能にする。 ビデオはhttps://sites.google.com/view/harp-videos/homeで閲覧できる。

Video prediction is an important yet challenging problem; burdened with the tasks of generating future frames and learning environment dynamics. Recently, autoregressive latent video models have proved to be a powerful video prediction tool, by separating the video prediction into two sub-problems: pre-training an image generator model, followed by learning an autoregressive prediction model in the latent space of the image generator. However, successfully generating high-fidelity and high-resolution videos has yet to be seen. In this work, we investigate how to train an autoregressive latent video prediction model capable of predicting high-fidelity future frames with minimal modification to existing models, and produce high-resolution (256x256) videos. Specifically, we scale up prior models by employing a high-fidelity image generator (VQ-GAN) with a causal transformer model, and introduce additional techniques of top-k sampling and data augmentation to further improve video prediction quality. Despite the simplicity, the proposed method achieves competitive performance to state-of-the-art approaches on standard video prediction benchmarks with fewer parameters, and enables high-resolution video prediction on complex and large-scale datasets. Videos are available at https://sites.google.com/view/harp-videos/home.
翻訳日:2022-09-16 12:58:40 公開日:2022-09-15
# 顔のずれに頑健な顔認識のための顔形状誘導深部特徴アライメント

Face Shape-Guided Deep Feature Alignment for Face Recognition Robust to Face Misalignment ( http://arxiv.org/abs/2209.07220v1 )

ライセンス: Link先を確認
Hyung-Il Kim, Kimin Yun, Yong Man Ro(参考訳) 過去数十年間、顔認識(fr)はコンピュータビジョンとパターン認識社会で積極的に研究されてきた。 近年、ディープラーニングの進歩により、FR技術はベンチマークデータセットの大部分で高いパフォーマンスを示している。 しかし、FRアルゴリズムが現実世界のシナリオに適用されると、その性能は未だに満足できないことが知られている。 これは主にトレーニングセットとテストセットのミスマッチに起因する。 このようなミスマッチの中で、トレーニングとテストの顔の不一致は、FRの成功を妨げる要因の1つです。 この制限に対処するため, FRの面配向に頑健な顔形状誘導型深部特徴アライメントフレームワークを提案する。 顔の形状(例えば、顔のキーポイント)に基づいて、よく整列された顔画像と不整列された顔画像の間のアライメントプロセス、すなわちピクセルと特徴のアライメントを導入することで、提案するディープネットワークを訓練する。 顔画像と顔形状から抽出した集合的特徴をデコードする画素アライメント処理により, 良好な顔画像の再構成に補助的なタスクを追加する。 顔特徴抽出ネットワークに特徴アライメント処理を通したガイドとして集約された特徴をリンクするので,顔不一致に対してロバストな顔特徴を訓練する。 トレーニング段階で顔形状推定が必要であったとしても、通常、frパイプラインに組み込まれている付加的な顔アライメント処理は、テスト段階では必ずしも必要ではない。 比較実験により,提案手法の有効性をFRデータセットを用いて検証した。

For the past decades, face recognition (FR) has been actively studied in computer vision and pattern recognition society. Recently, due to the advances in deep learning, the FR technology shows high performance for most of the benchmark datasets. However, when the FR algorithm is applied to a real-world scenario, the performance has been known to be still unsatisfactory. This is mainly attributed to the mismatch between training and testing sets. Among such mismatches, face misalignment between training and testing faces is one of the factors that hinder successful FR. To address this limitation, we propose a face shape-guided deep feature alignment framework for FR robust to the face misalignment. Based on a face shape prior (e.g., face keypoints), we train the proposed deep network by introducing alignment processes, i.e., pixel and feature alignments, between well-aligned and misaligned face images. Through the pixel alignment process that decodes the aggregated feature extracted from a face image and face shape prior, we add the auxiliary task to reconstruct the well-aligned face image. Since the aggregated features are linked to the face feature extraction network as a guide via the feature alignment process, we train the robust face feature to the face misalignment. Even if the face shape estimation is required in the training stage, the additional face alignment process, which is usually incorporated in the conventional FR pipeline, is not necessarily needed in the testing phase. Through the comparative experiments, we validate the effectiveness of the proposed method for the face misalignment with the FR datasets.
翻訳日:2022-09-16 12:58:15 公開日:2022-09-15
# X線冠動脈造影画像における前景抽出と血管分割のロバスト化

Robust Implementation of Foreground Extraction and Vessel Segmentation for X-ray Coronary Angiography Image Sequence ( http://arxiv.org/abs/2209.07237v1 )

ライセンス: Link先を確認
Zeyu Fu, Zhuang Fu, Chenzhuo Lv, Jun Yan(参考訳) X線冠動脈造影(XCA)画像からの造影血管の抽出は、直感的診断と治療において重要な臨床的意義を有する。 本研究では、XCA画像シーケンスOを3次元テンソル入力とし、容器層Hをスパーステンソル、背景層Bをローランクテンソルとする。 テンソル原子核ノルム(TNN)最小化法を用いて, テンソルロバスト主成分分析(TRPCA)に基づく容器層抽出法を提案する。 さらに, 血管の不規則な動きや周囲の無関係組織の動的干渉を考慮し, 動的背景Eを分離するために, 全変動(TV)正規化空間時間制約を導入し, その後, 不均一なコントラスト分布を有する血管画像に対して, 血管拡張とセグメンテーションに2段階成長(TSRG)法を用いる。 メインブランチを得る前処理としてグローバルしきい値セグメンテーションを使用し、破断したマイナーセグメントを接続するためにラドン様特徴(rlf)フィルタを使用し、この2つの中間結果を組み合わせて最終容器マスクを構築する。 我々は,前景抽出のためのTV-TRPCAアルゴリズムの可視性と,実臨床XCA画像シーケンスとサードパーティデータベースを用いた血管分割のためのTSRGアルゴリズムの精度を評価した。 定性的かつ定量的な結果は、既存の最先端手法よりも提案手法の優位性を検証する。

The extraction of contrast-filled vessels from X-ray coronary angiography(XCA) image sequence has important clinical significance for intuitively diagnosis and therapy. In this study, XCA image sequence O is regarded as a three-dimensional tensor input, vessel layer H is a sparse tensor, and background layer B is a low-rank tensor. Using tensor nuclear norm(TNN) minimization, a novel method for vessel layer extraction based on tensor robust principal component analysis(TRPCA) is proposed. Furthermore, considering the irregular movement of vessels and the dynamic interference of surrounding irrelevant tissues, the total variation(TV) regularized spatial-temporal constraint is introduced to separate the dynamic background E. Subsequently, for the vessel images with uneven contrast distribution, a two-stage region growth(TSRG) method is utilized for vessel enhancement and segmentation. A global threshold segmentation is used as the pre-processing to obtain the main branch, and the Radon-Like features(RLF) filter is used to enhance and connect broken minor segments, the final vessel mask is constructed by combining the two intermediate results. We evaluated the visibility of TV-TRPCA algorithm for foreground extraction and the accuracy of TSRG algorithm for vessel segmentation on real clinical XCA image sequences and third-party database. Both qualitative and quantitative results verify the superiority of the proposed methods over the existing state-of-the-art approaches.
翻訳日:2022-09-16 12:57:49 公開日:2022-09-15
# 3DMM-RF:3次元顔モデリングのための畳み込み放射場

3DMM-RF: Convolutional Radiance Fields for 3D Face Modeling ( http://arxiv.org/abs/2209.07366v1 )

ライセンス: Link先を確認
Stathis Galanakis, Baris Gecer, Alexandros Lattas, Stefanos Zafeiriou(参考訳) Facial 3D Morphable Modelsは、数え切れないほどのアプリケーションを持つ主要なコンピュータビジョンであり、過去20年間に高度に最適化されてきた。 深層生成ネットワークの大幅な改善は、そのようなモデルを改善する様々な可能性を生み出し、広く関心を集めている。 さらに、近年のニューラルラディアンス分野の進歩は、既知のシーンの新規ビュー合成に革命をもたらしている。 本研究では,この2つの特徴を生かし,被験者の身元,ポーズ,表情を正確にモデル化し,任意の照明で表現できる顔の3D形態モデルを提案する。 これは、強力なディープスタイルベースのジェネレータを使用して、ニューラルネットワークの2つの主な弱点、剛性とレンダリング速度を克服する。 我々は、ニューラルネットワークの放射フィールドの必要なレンダリングサンプルのみを1パスで合成するスタイルベースの生成ネットワークを提案する。 私たちは、顔のレンダリングの膨大なラベル付き合成データセットを作成し、これらのデータでネットワークをトレーニングすることで、顔のアイデンティティ、ポーズ、外観を正確にモデル化し、一般化します。 最後に,このモデルが任意のポーズや照明の「野生の」顔画像に正確に適合し,顔の特徴を抽出し,制御可能な条件下で顔の再現に使用できることを示す。

Facial 3D Morphable Models are a main computer vision subject with countless applications and have been highly optimized in the last two decades. The tremendous improvements of deep generative networks have created various possibilities for improving such models and have attracted wide interest. Moreover, the recent advances in neural radiance fields, are revolutionising novel-view synthesis of known scenes. In this work, we present a facial 3D Morphable Model, which exploits both of the above, and can accurately model a subject's identity, pose and expression and render it in arbitrary illumination. This is achieved by utilizing a powerful deep style-based generator to overcome two main weaknesses of neural radiance fields, their rigidity and rendering speed. We introduce a style-based generative network that synthesizes in one pass all and only the required rendering samples of a neural radiance field. We create a vast labelled synthetic dataset of facial renders, and train the network on these data, so that it can accurately model and generalize on facial identity, pose and appearance. Finally, we show that this model can accurately be fit to "in-the-wild" facial images of arbitrary pose and illumination, extract the facial characteristics, and be used to re-render the face in controllable conditions.
翻訳日:2022-09-16 12:57:25 公開日:2022-09-15
# 深部セントロイドを用いた視覚認識

Visual Recognition with Deep Nearest Centroids ( http://arxiv.org/abs/2209.07383v1 )

ライセンス: Link先を確認
Wenguan Wang, Cheng Han, Tianfei Zhou, Dongfang Liu(参考訳) 我々は,概念上エレガントかつ驚くほど効果的な大規模視覚認識ネットワークであるdeep nearest centroids (dnc) を考案し,最も古典的で単純な分類器の一つである最も近いcentroidsを再検討した。 現在の深層モデルは、潜在データ構造を無視し、単純さと説明可能性を欠いた完全にパラメトリックな方法で分類器を学習する。 代わりに、DNCは非パラメトリックケースベースの推論を行い、訓練サンプルのサブセントロイドを用いてクラス分布を記述し、特徴空間におけるテストデータとクラスセントロイドの近さとして明確に分類する。 距離に基づく性質のため、ネットワーク出力の次元性は柔軟であり、学習可能なパラメータはすべてデータ埋め込みに限られる。 つまり、imagenetの分類で学んだ知識はすべて、"事前学習と微調整"のパラダイムの下で、ピクセル認識学習に完全に移行できるのです。 入れ子になった単純さと直感的な意思決定機構とは別に、dncは、人間が観察し検査できる実際のトレーニングイメージとして選択されたときに、アドホックな説明性を持つこともできる。 パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れており、透過性が向上し、学習可能なパラメータも少なく、様々なネットワークアーキテクチャ(ResNet, Swin)とセグメンテーションモデル(FCN, DeepLabV3, Swin)を使用している。 この研究は、関連する分野に根本的な洞察をもたらします。

We devise deep nearest centroids (DNC), a conceptually elegant yet surprisingly effective network for large-scale visual recognition, by revisiting Nearest Centroids, one of the most classic and simple classifiers. Current deep models learn the classifier in a fully parametric manner, ignoring the latent data structure and lacking simplicity and explainability. DNC instead conducts nonparametric, case-based reasoning; it utilizes sub-centroids of training samples to describe class distributions and clearly explains the classification as the proximity of test data and the class sub-centroids in the feature space. Due to the distance-based nature, the network output dimensionality is flexible, and all the learnable parameters are only for data embedding. That means all the knowledge learnt for ImageNet classification can be completely transferred for pixel recognition learning, under the "pre-training and fine-tuning" paradigm. Apart from its nested simplicity and intuitive decision-making mechanism, DNC can even possess ad-hoc explainability when the sub-centroids are selected as actual training images that humans can view and inspect. Compared with parametric counterparts, DNC performs better on image classification (CIFAR-10, ImageNet) and greatly boots pixel recognition (ADE20K, Cityscapes), with improved transparency and fewer learnable parameters, using various network architectures (ResNet, Swin) and segmentation models (FCN, DeepLabV3, Swin). We feel this work brings fundamental insights into related fields.
翻訳日:2022-09-16 12:57:03 公開日:2022-09-15
# 未来から学ぶ: セマンティックセグメンテーションのための新しい自己学習フレームワーク

Learning from Future: A Novel Self-Training Framework for Semantic Segmentation ( http://arxiv.org/abs/2209.06993v1 )

ライセンス: Link先を確認
Ye Du, Yujun Shen, Haochen Wang, Jingjing Fei, Wei Li, Liwei Wu, Rui Zhao, Zehua Fu, Qingjie Liu(参考訳) 自己学習は半教師付き学習において大きな可能性を秘めている。 その中核となる考え方は、ラベル付きデータで学んだモデルを使用して、ラベルなしサンプルの擬似ラベルを生成し、自らを教えることである。 有効な監視を得るために、アクティブな試みは、典型的には擬似ラベル予測にモーメント教師を用いるが、誤った予測が間違った監督信号を提供し、トレーニングプロセスに蓄積されるという確証バイアス問題を観察する。 このような欠点の主な原因は、教師が過去の生徒のみで更新されるため、普及している自己学習フレームワークが現在の状態を以前の知識で導く役割を果たすことである。 この問題を軽減するため,我々は,モデルが未来から学ぶことができる新しい自己学習戦略を提案する。 具体的には、各トレーニングステップにおいて、まず、生徒を仮想的に最適化し(すなわち、モデル重み付けに適用せずに勾配をキャッシング)、次に教師に仮想未来生徒を更新させ、最後に、教師に現在の生徒のための擬似ラベルを指導として作成するように依頼する。 このようにして、擬似ラベルの品質が向上し、パフォーマンスが向上する。 また、未来(FST-D)と広く(FST-W)の両方を覗き見することで、未来自己学習(FST)フレームワークの2つのバリエーションを開発する。 非教師なしドメイン適応意味セグメンテーションと半教師なし意味セグメンテーションのタスクをインスタンスとして、幅広い設定下でのアプローチの有効性と優位性を実験的に実証する。 コードは公開される予定だ。

Self-training has shown great potential in semi-supervised learning. Its core idea is to use the model learned on labeled data to generate pseudo-labels for unlabeled samples, and in turn teach itself. To obtain valid supervision, active attempts typically employ a momentum teacher for pseudo-label prediction yet observe the confirmation bias issue, where the incorrect predictions may provide wrong supervision signals and get accumulated in the training process. The primary cause of such a drawback is that the prevailing self-training framework acts as guiding the current state with previous knowledge, because the teacher is updated with the past student only. To alleviate this problem, we propose a novel self-training strategy, which allows the model to learn from the future. Concretely, at each training step, we first virtually optimize the student (i.e., caching the gradients without applying them to the model weights), then update the teacher with the virtual future student, and finally ask the teacher to produce pseudo-labels for the current student as the guidance. In this way, we manage to improve the quality of pseudo-labels and thus boost the performance. We also develop two variants of our future-self-training (FST) framework through peeping at the future both deeply (FST-D) and widely (FST-W). Taking the tasks of unsupervised domain adaptive semantic segmentation and semi-supervised semantic segmentation as the instances, we experimentally demonstrate the effectiveness and superiority of our approach under a wide range of settings. Code will be made publicly available.
翻訳日:2022-09-16 12:52:50 公開日:2022-09-15
# PriorLane: トランスを用いた事前知識強化レーン検出手法

PriorLane: A Prior Knowledge Enhanced Lane Detection Approach Based on Transformer ( http://arxiv.org/abs/2209.06994v1 )

ライセンス: Link先を確認
Qibo Qiu, Haiming Gao, Wei Hua, Gang Huang and Xiaofei He(参考訳) レーン検出は自動運転の基本的なモジュールの1つである。 本稿では,レーン検出にトランスフォーマのみの手法を採用することで,フルビジョントランスフォーマの開花による恩恵を受けるとともに,大規模データセットで事前学習した重みを微調整することにより,culaneおよびtusimpleベンチマークの最先端(sota)性能を実現する。 さらに, 低コストの局所的事前知識の導入により, 完全視覚トランスフォーマのセグメンテーション性能を向上させるための, priorlane と呼ばれる新しい汎用フレームワークを提案する。 PriorLaneは、エンコーダのみのトランスフォーマーを使用して、事前学習されたセグメンテーションモデルによって抽出された機能を、事前の知識埋め込みで融合する。 知識埋め込みアライメント(KEA)モジュールは、知識埋め込みを整列させて融合性能を高めるために適合している。 Zjlabデータセットの大規模な実験によると、Preside-LaneはSOTAレーン検出メソッドを2.82% mIoUで上回り、コードは次の通りリリースされる。 PriorLane.com/vincentqqb/PriorLane。

Lane detection is one of the fundamental modules in self-driving. In this paper we employ a transformer-only method for lane detection, thus it could benefit from the blooming development of fully vision transformer and achieves the state-of-the-art (SOTA) performance on both CULane and TuSimple benchmarks, by fine-tuning the weight fully pre-trained on large datasets. More importantly, this paper proposes a novel and general framework called PriorLane, which is used to enhance the segmentation performance of the fully vision transformer by introducing the low-cost local prior knowledge. PriorLane utilizes an encoder-only transformer to fuse the feature extracted by a pre-trained segmentation model with prior knowledge embeddings. Note that a Knowledge Embedding Alignment (KEA) module is adapted to enhance the fusion performance by aligning the knowledge embedding. Extensive experiments on our Zjlab dataset show that Prior-Lane outperforms SOTA lane detection methods by a 2.82% mIoU, and the code will be released at: https://github. com/vincentqqb/PriorLane.
翻訳日:2022-09-16 12:52:21 公開日:2022-09-15
# ポーズの注意誘導型プロファイル対面顔認識

Pose Attention-Guided Profile-to-Frontal Face Recognition ( http://arxiv.org/abs/2209.07001v1 )

ライセンス: Link先を確認
Moktari Mostofa, Mohammad Saeed Ebrahimi Saadabadi, Sahar Rahimi Malakshan, and Nasser M. Nasrabadi(参考訳) 近年、ディープラーニングアーキテクチャの有望な進歩により、顔認識システムは非常に成功している。 しかし、前面画像のギャラリーとプロファイル画像が一致する場合、予測された精度を達成できない。 現在のアプローチでは、正則化(すなわち、フロンダライゼーション)を行うか、顔認識のための情報を歪めている。 そこで我々は,アテンション機構を介してポーズを補助情報として活用するための新しいアプローチを提案する。 本稿では,アテンション機構を用いたポーズ提示が,プロファイル顔からの文脈的特徴抽出や特徴抽出を導くことができると仮定し,組込み領域における表現学習がさらに向上することを示す。 まず,統合された顔と正面の顔の認識ネットワークを設計する。 クラス固有の対照的な損失を通じて、顔からコンパクトな埋め込み部分空間へのマッピングを学習する。 第2に,プロファイル顔からのポーズ非依存特徴抽出を特別に導く新しいポーズアテンションブロック(pab)を開発した。 より具体的に言うと、PABはネットワークがチャネル次元と空間次元の両方に沿って重要な特徴に焦点を合わせるのに役立ち、識別性は学習しながら、埋め込み部分空間において不変な特徴を呈する。 提案手法の有効性を検証するために,マルチパイ,cfp,ijbcなどのワイルドベンチマークとコントロールベンチマークの両方で実験を行い,最先端の芸術に優越性を示す。

In recent years, face recognition systems have achieved exceptional success due to promising advances in deep learning architectures. However, they still fail to achieve expected accuracy when matching profile images against a gallery of frontal images. Current approaches either perform pose normalization (i.e., frontalization) or disentangle pose information for face recognition. We instead propose a new approach to utilize pose as an auxiliary information via an attention mechanism. In this paper, we hypothesize that pose attended information using an attention mechanism can guide contextual and distinctive feature extraction from profile faces, which further benefits a better representation learning in an embedded domain. To achieve this, first, we design a unified coupled profile-to-frontal face recognition network. It learns the mapping from faces to a compact embedding subspace via a class-specific contrastive loss. Second, we develop a novel pose attention block (PAB) to specially guide the pose-agnostic feature extraction from profile faces. To be more specific, PAB is designed to explicitly help the network to focus on important features along both channel and spatial dimension while learning discriminative yet pose invariant features in an embedding subspace. To validate the effectiveness of our proposed method, we conduct experiments on both controlled and in the wild benchmarks including Multi-PIE, CFP, IJBC, and show superiority over the state of the arts.
翻訳日:2022-09-16 12:52:00 公開日:2022-09-15
# 正規化フローと辞書学習を用いた自己教師付きテクスチャ画像異常検出

Self-Supervised Texture Image Anomaly Detection By Fusing Normalizing Flow and Dictionary Learning ( http://arxiv.org/abs/2209.07005v1 )

ライセンス: Link先を確認
Yaohua Guo, Lijuan Song, Zirui Ma(参考訳) 異常識別における一般的な研究領域は、テクスチャ背景に基づく産業画像異常検出である。 テクスチャ画像の干渉とテクスチャ異常の微小さが、多くの既存モデルが異常の検出に失敗した主な理由である。 本稿では,前述の質問に基づく辞書学習と正規化フローを組み合わせた異常検出手法を提案する。 すでに使用されている2段階異常検出手法は,本手法により強化されている。 本研究は,ベースライン法を改善するために,表現学習における正規化フローを追加し,ディープラーニングと辞書学習を組み合わせる。 改良されたアルゴリズムは、実験的検証の後、すべてのMVTec ADテクスチャ型データに対して95$\%の精度で検出された。 強い強靭さを示す。 カーペットデータのベースライン検出精度は67.9%であった。 記事はアップグレードされ、検出精度は99.7%に向上した。

A common study area in anomaly identification is industrial images anomaly detection based on texture background. The interference of texture images and the minuteness of texture anomalies are the main reasons why many existing models fail to detect anomalies. We propose a strategy for anomaly detection that combines dictionary learning and normalizing flow based on the aforementioned questions. The two-stage anomaly detection approach already in use is enhanced by our method. In order to improve baseline method, this research add normalizing flow in representation learning and combines deep learning and dictionary learning. Improved algorithms have exceeded 95$\%$ detection accuracy on all MVTec AD texture type data after experimental validation. It shows strong robustness. The baseline method's detection accuracy for the Carpet data was 67.9%. The article was upgraded, raising the detection accuracy to 99.7%.
翻訳日:2022-09-16 12:51:35 公開日:2022-09-15
# 事象に基づくポーズ推定のための時間的密結合リカレントネットワーク

A Temporal Densely Connected Recurrent Network for Event-based Human Pose Estimation ( http://arxiv.org/abs/2209.07034v1 )

ライセンス: Link先を確認
Zhanpeng Shao, Wen Zhou, Wuzhen Wang, Jianyu Yang, Youfu Li(参考訳) イベントカメラは、バイオインスパイアされた視覚センサーで、ピクセルごとの明るさが非同期に変化する。 高いダイナミックレンジ、高速応答、低電力予算の顕著な利点があり、制御されていない環境での局所的な動きを最大限に捉えることができる。 これは、イベントカメラによる人間のポーズ推定がほとんど探求されないため、人間のポーズ推定にイベントカメラの可能性を解き放つ動機となっている。 しかし、従来のフレームベースカメラからの新たなパラダイムシフトにより、イベントカメラは移動体部分のみを捉えて静止体部分を無視し、不完全な部分や時間間隔で消滅する部分もあるため、時間間隔でのイベント信号は非常に限られた情報を含んでいる。 本稿では,不完全情報の問題に対処する,新しい密結合型再帰型アーキテクチャを提案する。 この再帰的アーキテクチャにより、時間ステップにまたがる逐次的かつ非逐次的な幾何的整合性を明示的にモデル化し、過去のフレームから情報を蓄積して人体全体を復元し、イベントデータから安定かつ正確な人間のポーズ推定を実現する。 さらに、モデルをよりよく評価するために、人間のポーズアノテーションが付属する大規模なマルチモーダルイベントベースのデータセットを収集します。 2つの公開データセットと独自のデータセットの実験結果は、我々のアプローチの有効性と強みを示しています。 コードは、将来の研究を促進するためにオンラインで入手できる。

Event camera is an emerging bio-inspired vision sensors that report per-pixel brightness changes asynchronously. It holds noticeable advantage of high dynamic range, high speed response, and low power budget that enable it to best capture local motions in uncontrolled environments. This motivates us to unlock the potential of event cameras for human pose estimation, as the human pose estimation with event cameras is rarely explored. Due to the novel paradigm shift from conventional frame-based cameras, however, event signals in a time interval contain very limited information, as event cameras can only capture the moving body parts and ignores those static body parts, resulting in some parts to be incomplete or even disappeared in the time interval. This paper proposes a novel densely connected recurrent architecture to address the problem of incomplete information. By this recurrent architecture, we can explicitly model not only the sequential but also non-sequential geometric consistency across time steps to accumulate information from previous frames to recover the entire human bodies, achieving a stable and accurate human pose estimation from event data. Moreover, to better evaluate our model, we collect a large scale multimodal event-based dataset that comes with human pose annotations, which is by far the most challenging one to the best of our knowledge. The experimental results on two public datasets and our own dataset demonstrate the effectiveness and strength of our approach. Code can be available online for facilitating the future research.
翻訳日:2022-09-16 12:51:24 公開日:2022-09-15
# コントラスト言語画像事前学習のための視覚的解釈可能性の検討

Exploring Visual Interpretability for Contrastive Language-Image Pre-training ( http://arxiv.org/abs/2209.07046v1 )

ライセンス: Link先を確認
Yi Li, Hualiang Wang, Yiqun Duan, Hang Xu, Xiaomeng Li(参考訳) Contrastive Language-Image Pre-Training (CLIP)は、自然言語の監視を通じてリッチな表現を学ぶ。 ゼロショット、ロングテール、セグメンテーション、検索、キャプション、ビデオなどを含む下流ビジョンタスクの一般的なパフォーマンスを改善することができる。 しかし、我々の知る限りでは、CLIPの視覚的解釈性はまだ研究されていない。 本稿では,その予測を視覚的に説明するために,画像テキスト類似性マップ(ITSM)を提案する。 この結果から,CLIPは前景よりも背景領域を好んでおり,人間の理解に対する誤った視覚化を呈していることがわかった。 実験的に、デビルはプールの部分に存在し、不適切なプールの方法が意味的シフトと呼ばれる現象に繋がる。 可視化結果の修正と向上を目的として,自己教師付き画像エンコーダの注意マップを用いたMasked Max Poolingを提案する。 一方、解釈可能性タスクと認識タスクは異なる表現を必要とする。 この問題に対処するために,我々はこの要件を満たすために双対射影を提案する。 以上の手法をICLIP(Interpretable Contrastive Language- Image Pre-training)として統合する。 ICLIPは解釈可能性を大幅に改善する。 例えば、VOC 2012データセットでは、非自明な改善は、それぞれ32.85\%$と49.10\%$である。

Contrastive Language-Image pre-training (CLIP) learns rich representations via readily available supervisions of natural language. It could improve general performance on downstream vision tasks, including but not limited to zero-shot, long tail, segmentation, retrieval, caption and video. However, to the best of our knowledge, the visual interpretability of CLIP has not been studied yet. To provide visual explanations of its predictions, we propose the Image-Text Similarity Map (ITSM). Based on it, we surprisingly find that CLIP prefers the background regions than the foregrounds, and presenting erroneous visualization against human understanding. Experimentally, we find the devil is in the pooling part, where inappropriate pooling methods lead to a phenomenon called semantic shift. To correct and boost the visualization results, we propose the Masked Max Pooling, with attention map from the self-supervised image encoder. Meanwhile, interpretability task and recognition task require different representations. To address the problem, we propose the dual projections to cater this requirement. We integrate above methods as Interpretable Contrastive Language-Image pre-training (ICLIP). And experiments suggest ICLIP greatly improves the interpretability. For example, the nontrivial improvements are $32.85\%$ and $49.10\%$, respectively, on VOC 2012 dataset.
翻訳日:2022-09-16 12:51:01 公開日:2022-09-15
# 攻撃的言語分類器の地理的性能差の測定

Measuring Geographic Performance Disparities of Offensive Language Classifiers ( http://arxiv.org/abs/2209.07353v1 )

ライセンス: Link先を確認
Brandon Lwowski, Paul Rad, Anthony Rios(参考訳) テキスト分類器はワンサイズフィットのソリューションとして大規模に適用される。 しかし、多くの研究は、分類器が異なる言語や方言に偏っていることを示している。 これらのバイアスを計測し発見する時、いくつかのギャップが存在し、対処すべきである。 第一に,'does language, dialect, and topical content は地理的地域によって異なるか' と 'the region に差異がある場合,それらはモデルのパフォーマンスに影響を与えるか'' である。 我々は、ジオオリドと呼ばれる新しいデータセットを導入し、15の地理的・人口学的に多様な都市で14万以上のサンプルを作成し、これらの問題に対処した。 地理関連コンテンツの包括的分析を行い,攻撃的言語検出モデルの性能差に与える影響について検討した。 全体として、現在のモデルは、場所をまたいで一般化しない。 同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。 警告: 本論文は攻撃的言語を含んでいる。

Text classifiers are applied at scale in the form of one-size-fits-all solutions. Nevertheless, many studies show that classifiers are biased regarding different languages and dialects. When measuring and discovering these biases, some gaps present themselves and should be addressed. First, ``Does language, dialect, and topical content vary across geographical regions?'' and secondly ``If there are differences across the regions, do they impact model performance?''. We introduce a novel dataset called GeoOLID with more than 14 thousand examples across 15 geographically and demographically diverse cities to address these questions. We perform a comprehensive analysis of geographical-related content and their impact on performance disparities of offensive language detection models. Overall, we find that current models do not generalize across locations. Likewise, we show that while offensive language models produce false positives on African American English, model performance is not correlated with each city's minority population proportions. Warning: This paper contains offensive language.
翻訳日:2022-09-16 12:47:42 公開日:2022-09-15
# マシン読み込み、高速かつスロー: いつモデルが"理解できない"言語になるか

Machine Reading, Fast and Slow: When Do Models "Understand" Language? ( http://arxiv.org/abs/2209.07430v1 )

ライセンス: Link先を確認
Sagnik Ray Choudhury, Anna Rogers, Isabelle Augenstein(参考訳) 現在、自然言語理解(NLU)における最も基本的な課題は2つある。 (a) 深層学習に基づくモデルが「正しい」理由からNLUベンチマークで高いスコアを得るかどうか、そして b) これらの理由が何であるかを理解すること。 本稿では,2つの言語的「スキル」に関する理解モデルを読み取る行動について検討する。 そこで本研究では,「ゆっくり読む」システムから期待される推論ステップを定義し,サリエンシスコアや反実的説明を通じて観察された,様々なサイズのBERTファミリーの5つのモデルの挙動と比較する。 比較においては、より大きなエンコーダに基づくシステムは「正しい」情報に依存しやすいが、一般化に苦慮しているため、比較の一般的な原則よりも特定の語彙パターンを学習していることが示唆される。

Two of the most fundamental challenges in Natural Language Understanding (NLU) at present are: (a) how to establish whether deep learning-based models score highly on NLU benchmarks for the 'right' reasons; and (b) to understand what those reasons would even be. We investigate the behavior of reading comprehension models with respect to two linguistic 'skills': coreference resolution and comparison. We propose a definition for the reasoning steps expected from a system that would be 'reading slowly', and compare that with the behavior of five models of the BERT family of various sizes, observed through saliency scores and counterfactual explanations. We find that for comparison (but not coreference) the systems based on larger encoders are more likely to rely on the 'right' information, but even they struggle with generalization, suggesting that they still learn specific lexical patterns rather than the general principles of comparison.
翻訳日:2022-09-16 12:47:28 公開日:2022-09-15
# 文書レベル情報抽出のための誤り自動解析

Automatic Error Analysis for Document-level Information Extraction ( http://arxiv.org/abs/2209.07442v1 )

ライセンス: Link先を確認
Aliva Das, Xinya Du, Barry Wang, Kejian Shi, Jiayuan Gu, Thomas Porter, Claire Cardie(参考訳) 文書レベルの情報抽出(ie)タスクは最近、文レベルのieで成功したエンドツーエンドのニューラルネットワーク技術を使って本格的に再訪し始めた。 しかし、アプローチの評価は多くの次元で制限されている。 特に、通常報告されている精度/リコール/F1スコアは、モデルが犯すエラーの範囲についての洞察をほとんど与えない。 文書レベルの事象と(N-ary)関係抽出におけるエラー解析を自動化する変換ベースのフレームワークを提案するために,Kummerfeld と Klein (2013) の作業を基に構築した。 MUC-4(1992)の評価から得られた4つのシステムに対して,30年前以降のIEの進展を計測するために,我々は,最先端の文書レベルのテンプレート補完手法を3つのドメインのデータセット上で比較した。

Document-level information extraction (IE) tasks have recently begun to be revisited in earnest using the end-to-end neural network techniques that have been successful on their sentence-level IE counterparts. Evaluation of the approaches, however, has been limited in a number of dimensions. In particular, the precision/recall/F1 scores typically reported provide few insights on the range of errors the models make. We build on the work of Kummerfeld and Klein (2013) to propose a transformation-based framework for automating error analysis in document-level event and (N-ary) relation extraction. We employ our framework to compare two state-of-the-art document-level template-filling approaches on datasets from three domains; and then, to gauge progress in IE since its inception 30 years ago, vs. four systems from the MUC-4 (1992) evaluation.
翻訳日:2022-09-16 12:47:14 公開日:2022-09-15
# 近似測地線を用いた教師なし意見要約

Unsupervised Opinion Summarization Using Approximate Geodesics ( http://arxiv.org/abs/2209.07496v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Avinava Dubey, Amr Ahmed, Snigdha Chaturvedi(参考訳) 意見要約は、ユーザレビューから人気のある意見を収集する要約を作成するタスクである。 本稿では,未指導の抽出的意見要約を行う新しいシステムであるGeoSummについて紹介する。 GeoSummはエンコーダ-デコーダに基づく表現学習モデルで、潜在意味単位上の分布としてテキストの表現を生成する。 geosummは、複数のデコーダ層で事前学習されたテキスト表現で辞書学習を行うことで、これらの表現を生成する。 次に,これらの表現を用いて,新しい測地線距離に基づくスコアリング機構を用いて,レビュー文の妥当性を定量化する。 関連スコアを用いて一般的な意見とアスペクト固有の要約を構成する。 提案するモデルgeosummは3つの意見要約データセットで最先端のパフォーマンスを実現する。 我々は、モデルの機能を解析し、異なる領域にわたる {\X} の一般化能力を示すための追加実験を行う。

Opinion summarization is the task of creating summaries capturing popular opinions from user reviews. In this paper, we introduce Geodesic Summarizer (GeoSumm), a novel system to perform unsupervised extractive opinion summarization. GeoSumm involves an encoder-decoder based representation learning model, that generates representations of text as a distribution over latent semantic units. GeoSumm generates these representations by performing dictionary learning over pre-trained text representations at multiple decoder layers. We then use these representations to quantify the relevance of review sentences using a novel approximate geodesic distance based scoring mechanism. We use the relevance scores to identify popular opinions in order to compose general and aspect-specific summaries. Our proposed model, GeoSumm, achieves state-of-the-art performance on three opinion summarization datasets. We perform additional experiments to analyze the functioning of our model and showcase the generalization ability of {\X} across different domains.
翻訳日:2022-09-16 12:47:00 公開日:2022-09-15
# トポロジカル制約を考慮した多目的政策勾配

Multi-Objective Policy Gradients with Topological Constraints ( http://arxiv.org/abs/2209.07096v1 )

ライセンス: Link先を確認
Kyle Hollins Wray, Stas Tiomkin, Mykel J. Kochenderfer, Pieter Abbeel(参考訳) 順序付けられた逐次制約をエンコードする多目的最適化モデルは、好みのエンコーディング、カリキュラムのモデリング、安全性の強化など、さまざまな難題をモデル化するソリューションを提供する。 最近開発されたトポロジカルマルコフ決定過程(TMDP)の理論は、離散状態や行動の場合のこの問題を捉えている。 本研究では、TMDPのポリシー勾配定理を定式化し、証明し、実装することにより、連続空間と未知遷移ダイナミクスに拡張する。 この理論により、関数近似を用いたTMDP学習アルゴリズムの作成が可能となり、既存の深層強化学習(DRL)アプローチを一般化することができる。 具体的には,近位政策最適化(ppo)アルゴリズムの簡易拡張により,tmdpsにおける政策勾配の新しいアルゴリズムを提案する。 シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。

Multi-objective optimization models that encode ordered sequential constraints provide a solution to model various challenging problems including encoding preferences, modeling a curriculum, and enforcing measures of safety. A recently developed theory of topological Markov decision processes (TMDPs) captures this range of problems for the case of discrete states and actions. In this work, we extend TMDPs towards continuous spaces and unknown transition dynamics by formulating, proving, and implementing the policy gradient theorem for TMDPs. This theoretical result enables the creation of TMDP learning algorithms that use function approximators, and can generalize existing deep reinforcement learning (DRL) approaches. Specifically, we present a new algorithm for a policy gradient in TMDPs by a simple extension of the proximal policy optimization (PPO) algorithm. We demonstrate this on a real-world multiple-objective navigation problem with an arbitrary ordering of objectives both in simulation and on a real robot.
翻訳日:2022-09-16 12:46:45 公開日:2022-09-15
# ファジィルールに基づく各種システムに関する文献レビュー

Literature Review of various Fuzzy Rule based Systems ( http://arxiv.org/abs/2209.07175v1 )

ライセンス: Link先を確認
Ayush K. Varshney and Vicen\c{c} Torra(参考訳) ファジィ・ルール・ベース・システム(英: Fuzzy Rule Based System、FRBS)は、言語ファジィ変数を先行語として使用し、人間の理解可能な知識を表現するためのルールベースのシステムである。 文学全体を通じて様々な応用や分野に応用されている。 しかし、FRBSは不確実性表現、多数の規則、解釈可能性損失、学習の計算時間などの多くの欠点に悩まされている。 これらの問題をFRBSで克服するためには、多くのFRBSが存在する。 本稿では,2010~2021年の間に, 遺伝子ファジィシステム(GFS), 階層ファジィシステム(HFS), 神経ファジィシステム(NFS), 進化ファジィシステム(eFS), ビッグデータのためのFRBS, 不均衡データのためのFRBS, クラスタセントロイドをファジィルールとするFRBS, クラスタセントロイドをファジィルールとするFRBSについて概観および文献的考察を行った。 gfsはfrbsの学習能力を向上させるために遺伝的/進化的アプローチを使用し、hfsはfrbsの次元の呪いを解決し、nfsはニューラルネットワークを用いたfrbsの近似能力を改善し、ストリーミングデータのための動的システムはefsで考慮される。 frbsは、ビッグデータと不均衡データに対する優れたソリューションと見なされており、近年では、高次元とビッグデータとルールがクラスタセンタロイドで初期化され、frbsのルール数が制限されているため、frbsの解釈性が人気が高まっている。 本稿は、この分野における重要な貢献、出版統計、現在の動向についても取り上げる。 この論文は、FRBSs研究コミュニティからさらなる注目を必要とするいくつかのオープンな研究領域についても論じている。

Fuzzy rule based systems (FRBSs) is a rule-based system which uses linguistic fuzzy variables as antecedents and consequent to represent the human understandable knowledge. They have been applied to various applications and areas throughout the literature. However, FRBSs suffers from many drawbacks such as uncertainty representation, high number of rules, interpretability loss, high computational time for learning etc. To overcome these issues with FRBSs, there exists many extentions of FRBSs. In this paper, we present an overview and literature review for various types and prominent areas of fuzzy systems (FRBSs) namely genetic fuzzy system (GFS), Hierarchical fuzzy system (HFS), neuro fuzzy system (NFS), evolving fuzzy system (eFS), FRBSs for big data, FRBSs for imbalanced data, interpretability in FRBSs and FRBSs which uses cluster centroids as fuzzy rule, during the years 2010-2021. GFS uses genetic/evolutionary approaches to improve the learning ability of FRBSs, HFS solve the curse of dimensionality for FRBSs, NFS improves approximation ability of FRBSs using neural networks and dynamic systems for streaming data is considered in eFS. FRBSs are seen as good solutions for big data and imbalanced data, in the recent years the interpretability in FRBSs has gained popularity due to high dimensional and big data and rules are initialized with cluster centroids to limit the number of rules in FRBSs. This paper also highlights important contributions, publication statistics and current trends in the field. The paper also addresses several open research areas which need further attention from the FRBSs research community.
翻訳日:2022-09-16 12:46:33 公開日:2022-09-15
# 因果結合機構:複雑なシステムのための協調と競合を伴う制御法

Causal Coupled Mechanisms: A Control Method with Cooperation and Competition for Complex System ( http://arxiv.org/abs/2209.07368v1 )

ライセンス: Link先を確認
Xuehui Yu, Jingchi Jiang, Xinmiao Yu, Yi Guan, Xue Li(参考訳) 複雑なシステムは現実世界に普遍的に存在し、複雑で理解できないダイナミクスを持つ傾向がある。 コントロール上の問題に対して、このような肥大化や問題のある環境での正確性、堅牢性、一般化を保証することが課題である。 幸運なことに、複雑なシステムは、人間の認識が利用しているように見える複数のモジュール構造に分けられる。 この認識にインスパイアされた新しい制御手法であるCausal Coupled Mechanisms (CCMs) が提案され, 分割と競争の連携を両立させる。 本手法は階層的強化学習(HRL)の理論を用いている。 1)競争意識の高い政策は、複雑なシステム全体を複数の機能的メカニズムに分割し、 2)低レベル政策は各機構の制御タスクを終了する。 特に協調のために、カスケード制御モジュールはCCMのシリーズ操作を補助し、前方結合推論モジュールは分割過程で失われた結合情報を復元するために使用される。 合成システムと実世界の生物規制システムの両方において、ccm法は予測不能なランダムノイズでもロバストで最先端の制御結果が得られる。 さらに, CCMの再利用は, 共同ファウンダーやダイナミクスの異なる環境において, 有効に動作することを示す。

Complex systems are ubiquitous in the real world and tend to have complicated and poorly understood dynamics. For their control issues, the challenge is to guarantee accuracy, robustness, and generalization in such bloated and troubled environments. Fortunately, a complex system can be divided into multiple modular structures that human cognition appears to exploit. Inspired by this cognition, a novel control method, Causal Coupled Mechanisms (CCMs), is proposed that explores the cooperation in division and competition in combination. Our method employs the theory of hierarchical reinforcement learning (HRL), in which 1) the high-level policy with competitive awareness divides the whole complex system into multiple functional mechanisms, and 2) the low-level policy finishes the control task of each mechanism. Specifically for cooperation, a cascade control module helps the series operation of CCMs, and a forward coupled reasoning module is used to recover the coupling information lost in the division process. On both synthetic systems and a real-world biological regulatory system, the CCM method achieves robust and state-of-the-art control results even with unpredictable random noise. Moreover, generalization results show that reusing prepared specialized CCMs helps to perform well in environments with different confounders and dynamics.
翻訳日:2022-09-16 12:45:55 公開日:2022-09-15
# Gollum: 大規模マルチソース知識グラフマッチングのためのゴールドスタンダード

Gollum: A Gold Standard for Large Scale Multi Source Knowledge Graph Matching ( http://arxiv.org/abs/2209.07479v1 )

ライセンス: Link先を確認
Sven Hertling, Heiko Paulheim(参考訳) 自動的および手動的なアプローチで生成される知識グラフ(KG)の数は常に増加している。 統合ビューと利用には、インスタンスレベルだけでなくスキーマ上でこれらのkg間のアライメントが必要である。 このマルチソース知識グラフマッチング問題に対処しようとするアプローチはあるが、その有効性とスケーラビリティを評価するための大きなゴールド標準が欠落している。 我々は,4,149kg間の275,000以上の対応を持つ大規模マルチソースナレッジグラフのゴールド標準であるgollumを提示することにより,このギャップを解消した。 これは、DBpedia抽出フレームワークを大規模wikiファームに適用した知識グラフに由来する。 金本位制の3つのバリエーションは、(1)教師なしマッチングのアプローチを評価するための全ての対応を持つバージョンと、教師なしマッチングを評価するための2つのバージョン、(2)各KGを列車とテストセットの両方に含むバージョン、(3)各KGを列車またはテストセットに限定的に含むバージョンである。

The number of Knowledge Graphs (KGs) generated with automatic and manual approaches is constantly growing. For an integrated view and usage, an alignment between these KGs is necessary on the schema as well as instance level. While there are approaches that try to tackle this multi source knowledge graph matching problem, large gold standards are missing to evaluate their effectiveness and scalability. We close this gap by presenting Gollum -- a gold standard for large-scale multi source knowledge graph matching with over 275,000 correspondences between 4,149 different KGs. They originate from knowledge graphs derived by applying the DBpedia extraction framework to a large wiki farm. Three variations of the gold standard are made available: (1) a version with all correspondences for evaluating unsupervised matching approaches, and two versions for evaluating supervised matching: (2) one where each KG is contained both in the train and test set, and (3) one where each KG is exclusively contained in the train or the test set.
翻訳日:2022-09-16 12:45:33 公開日:2022-09-15
# 遺伝的量子アニーリングアルゴリズム

A Genetic Quantum Annealing Algorithm ( http://arxiv.org/abs/2209.07455v1 )

ライセンス: Link先を確認
Steven Abel, Luca A. Nutricati, Michael Spannowsky(参考訳) 遺伝的アルゴリズム(英: genetic algorithm, GA)は、遺伝的・自然選択の原理に基づく探索に基づく最適化手法である。 量子アニールからの入力により古典的GAを高めるアルゴリズムを提案する。 古典的なgaと同様、アルゴリズムは適合性に基づいて可能な解の集団を育むことで機能する。 しかし、個体の集団は量子アニールラー上の連続的なカップリングによって定義され、量子アニールにより、試行された解を表す対応する表現型の集合に上昇する。 これはアルゴリズムに有向突然変異の形式を導入し、様々な方法でその性能を高めることができる。 2つの重要な拡張は、親の適合性(いわゆるネポティズム)から受け継がれた強みを持つ連続的な結合と、人口全体が最も適した個人(いわゆる量子ポリアンドリー)の影響を受けるアニーラーカップリングによるものである。 我々のアルゴリズムは、古典的なGAよりも、いくつかの単純な問題においてはるかに強力である。

A genetic algorithm (GA) is a search-based optimization technique based on the principles of Genetics and Natural Selection. We present an algorithm which enhances the classical GA with input from quantum annealers. As in a classical GA, the algorithm works by breeding a population of possible solutions based on their fitness. However, the population of individuals is defined by the continuous couplings on the quantum annealer, which then give rise via quantum annealing to the set of corresponding phenotypes that represent attempted solutions. This introduces a form of directed mutation into the algorithm that can enhance its performance in various ways. Two crucial enhancements come from the continuous couplings having strengths that are inherited from the fitness of the parents (so-called nepotism) and from the annealer couplings allowing the entire population to be influenced by the fittest individuals (so-called quantum-polyandry). We find our algorithm to be significantly more powerful on several simple problems than a classical GA.
翻訳日:2022-09-16 12:45:16 公開日:2022-09-15
# ウズベク語停止語検出の正確性:「学校コーパス」を事例として

Accuracy of the Uzbek stop words detection: a case study on "School corpus" ( http://arxiv.org/abs/2209.07053v1 )

ライセンス: Link先を確認
Khabibulla Madatov, Shukurla Bekchanov, Jernej Vi\v{c}i\v{c}(参考訳) 停止語は自然言語処理における情報検索とテキスト解析のタスクにおいて非常に重要である。 現在の研究は、自動生成技術を目的とした停止語のリストの品質を評価する方法を提案する。 本論文で提案する手法はウズベク語の停止語を自動生成したリスト上でテストされたが、いくつかの修正を加えれば、同じ家系の類似言語や凝集性のある言語にも適用できる。 ウズベク語は凝集言語に属するため、言語における停止語の自動検出は、抑揚された言語よりも複雑なプロセスであることが説明できる。 さらに,ウズベク語テキストにおける停止語検出を自動的に解析する方法について検討し,「学校コーパス」の例として,停止語検出に関する先行研究を統合した。 本研究は、ウズベク語のテキストに利用可能な停止語を評価する良い方法があるか、あるいはウズベク語の文のどの部分が停止語の大部分を含んでいるのかを、一意な単語の確率の数値的特徴を解析することによって判断できるかどうかを問うものである。 その結果,停止語リストの許容精度が示された。

Stop words are very important for information retrieval and text analysis investigation tasks of natural language processing. Current work presents a method to evaluate the quality of a list of stop words aimed at automatically creating techniques. Although the method proposed in this paper was tested on an automatically-generated list of stop words for the Uzbek language, it can be, with some modifications, applied to similar languages either from the same family or the ones that have an agglutinative nature. Since the Uzbek language belongs to the family of agglutinative languages, it can be explained that the automatic detection of stop words in the language is a more complex process than in inflected languages. Moreover, we integrated our previous work on stop words detection in the example of the "School corpus" by investigating how to automatically analyse the detection of stop words in Uzbek texts. This work is devoted to answering whether there is a good way of evaluating available stop words for Uzbek texts, or whether it is possible to determine what part of the Uzbek sentence contains the majority of the stop words by studying the numerical characteristics of the probability of unique words. The results show acceptable accuracy of the stop words lists.
翻訳日:2022-09-16 12:41:55 公開日:2022-09-15
# uchecker: 教師なしの中国語綴りチェッカーとして仮学習済み言語モデル

uChecker: Masked Pretrained Language Models as Unsupervised Chinese Spelling Checkers ( http://arxiv.org/abs/2209.07068v1 )

ライセンス: Link先を確認
Piji Li(参考訳) 中国語スペルチェック(CSC)のタスクは、テキストにあるスペルエラーを検出し、修正することを目的としている。 手動で高品質なデータセットに注釈をつけるのは高価で時間がかかるため、トレーニングデータセットのスケールは通常非常に小さい(例えば、sighan15はトレーニング用のサンプルを2339個だけ含む)ため、教師あり学習ベースのモデルは通常、特に大きな言語モデルの時代において、データのスパーシティ制限と過剰フィッティングの問題に苦しむ。 本稿では, CSC問題に対処するために, <textbf{unsupervised} パラダイムを調査することに専念し, 非教師付きスペル検出と修正を行うフレームワークである \textbf{uChecker} を提案する。 BERTのような仮設事前学習言語モデルは、強力な言語診断能力を考慮してバックボーンモデルとして導入される。 各種かつ柔軟なMASKing操作から,マスク付き言語モデルを微調整するコンフュージョンセット誘導マスキング手法を提案し,教師なし検出と修正の性能をさらに向上させる。 標準データセットを用いた実験により,スペル誤り検出と修正のタスクにおける文字レベルと文レベルの精度,精度,リコール,F1-Measureの両面での有効性が示された。

The task of Chinese Spelling Check (CSC) is aiming to detect and correct spelling errors that can be found in the text. While manually annotating a high-quality dataset is expensive and time-consuming, thus the scale of the training dataset is usually very small (e.g., SIGHAN15 only contains 2339 samples for training), therefore supervised-learning based models usually suffer the data sparsity limitation and over-fitting issue, especially in the era of big language models. In this paper, we are dedicated to investigating the \textbf{unsupervised} paradigm to address the CSC problem and we propose a framework named \textbf{uChecker} to conduct unsupervised spelling error detection and correction. Masked pretrained language models such as BERT are introduced as the backbone model considering their powerful language diagnosis capability. Benefiting from the various and flexible MASKing operations, we propose a Confusionset-guided masking strategy to fine-train the masked language model to further improve the performance of unsupervised detection and correction. Experimental results on standard datasets demonstrate the effectiveness of our proposed model uChecker in terms of character-level and sentence-level Accuracy, Precision, Recall, and F1-Measure on tasks of spelling error detection and correction respectively.
翻訳日:2022-09-16 12:41:33 公開日:2022-09-15
# エッジ変位Vaserstein距離がUD解析性能に及ぼす影響

The Impact of Edge Displacement Vaserstein Distance on UD Parsing Performance ( http://arxiv.org/abs/2209.07139v1 )

ライセンス: Link先を確認
Mark Anderson, Carlos G\'omez-Rodr\'iguez(参考訳) 我々は,NLPにおける解析性能に関する議論に,トレーニングデータとテストデータで見られるエッジ変位(エッジの方向距離)の分布の差異を評価する尺度を導入して貢献する。 この測定は,木バンク間の解析性能の違いに関係していると考えられる。 我々は、過去の研究に基づいてこれを動機付け、その後、多くの統計的手法を用いてこの仮説を偽造しようと試みる。 この測定値と解析性能の間には,共変の可能性を制御しても統計的に相関があることが確認できた。 次に、これを使って、対角的かつ相補的な分割を与えるサンプリング手法を確立します。 これにより、サンプルデータの代わりに与えられた木々バンクに対する解析システムの下限と上限を考えることができる。 より広い意味では、ここで提示される方法論は、NLPにおける将来の相関に基づく探索研究の参考となることができる。

We contribute to the discussion on parsing performance in NLP by introducing a measurement that evaluates the differences between the distributions of edge displacement (the directed distance of edges) seen in training and test data. We hypothesize that this measurement will be related to differences observed in parsing performance across treebanks. We motivate this by building upon previous work and then attempt to falsify this hypothesis by using a number of statistical methods. We establish that there is a statistical correlation between this measurement and parsing performance even when controlling for potential covariants. We then use this to establish a sampling technique that gives us an adversarial and complementary split. This gives an idea of the lower and upper bounds of parsing systems for a given treebank in lieu of freshly sampled data. In a broader sense, the methodology presented here can act as a reference for future correlation-based exploratory work in NLP.
翻訳日:2022-09-16 12:41:07 公開日:2022-09-15
# TempoWiC:ソーシャルメディアにおける意味変化検出のための評価ベンチマーク

TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media ( http://arxiv.org/abs/2209.07216v1 )

ライセンス: Link先を確認
Daniel Loureiro, Aminette D'Souza, Areej Nasser Muhajab, Isabella A. White, Gabriel Wong, Luis Espinosa Anke, Leonardo Neves, Francesco Barbieri, Jose Camacho-Collados(参考訳) 言語は時間とともに進化し、言葉の意味は変化する。 これはソーシャルメディアで特に当てはまる。そのダイナミックな性質は、セマンティックシフトの高速化につながるため、nlpモデルが新しいコンテンツやトレンドを扱うのが難しくなるからだ。 しかし、これらのソーシャルプラットフォームの動的な性質に特に対処するデータセットやモデルの数はほとんどない。 このギャップを埋めるために,ソーシャルメディアに基づく意味シフトの研究を特に加速する,新たなベンチマークであるtempowicを提案する。 この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。

Language evolves over time, and word meaning changes accordingly. This is especially true in social media, since its dynamic nature leads to faster semantic shifts, making it challenging for NLP models to deal with new content and trends. However, the number of datasets and models that specifically address the dynamic nature of these social platforms is scarce. To bridge this gap, we present TempoWiC, a new benchmark especially aimed at accelerating research in social media-based meaning shift. Our results show that TempoWiC is a challenging benchmark, even for recently-released language models specialized in social media.
翻訳日:2022-09-16 12:40:56 公開日:2022-09-15
# UBARv2:タスク指向ダイアログにおける露光バイアスの緩和

UBARv2: Towards Mitigating Exposure Bias in Task-Oriented Dialogs ( http://arxiv.org/abs/2209.07239v1 )

ライセンス: Link先を確認
Yunyi Yang, Hong Ding, Qingyi Liu, Xiaojun Quan(参考訳) 本稿では,タスク指向ダイアログシステムにおける露出バイアス問題について検討し,モデルが生成した複数のコンテントが学習時の地中構造分布からダイアログコンテキストを逸脱させ,エラー伝搬を導入し,TODシステムのロバスト性を損なう。 マルチターンタスク指向ダイアログのトレーニングと推論のギャップを埋めるために、トレーニング中に生成されたダイアログコンテキストのサンプルコンテンツにモデルを明示的に公開するセッションレベルサンプリングを提案する。 さらに、マスキング戦略R-Maskによるドロップアウトベースの整合性正規化を用いて、モデルの堅牢性と性能をさらに向上する。 提案するubarv2は標準評価ベンチマークマルチウォズにおいて最先端の性能を達成し,提案手法の有効性を示す広範な実験を行った。

This paper studies the exposure bias problem in task-oriented dialog systems, where the model's generated content over multiple turns drives the dialog context away from the ground-truth distribution at training time, introducing error propagation and damaging the robustness of the TOD system. To bridge the gap between training and inference for multi-turn task-oriented dialogs, we propose session-level sampling which explicitly exposes the model to sampled generated content of dialog context during training. Additionally, we employ a dropout-based consistency regularization with the masking strategy R-Mask to further improve the robustness and performance of the model. The proposed UBARv2 achieves state-of-the-art performance on the standardized evaluation benchmark MultiWOZ and extensive experiments show the effectiveness of the proposed methods.
翻訳日:2022-09-16 12:40:44 公開日:2022-09-15
# 言語間感性分析のための線形変換

Linear Transformations for Cross-lingual Sentiment Analysis ( http://arxiv.org/abs/2209.07244v1 )

ライセンス: Link先を確認
Pavel P\v{r}ib\'a\v{n} and Jakub \v{S}m\'id and Adam Mi\v{s}tera and Pavel Kr\'al(参考訳) 本稿では,チェコ語,英語,フランス語の言語間感情分析について述べる。 5つの線形変換とLSTMとCNNに基づく分類器を組み合わせたゼロショットクロスランガル分類を行う。 我々は、個々の変換のパフォーマンスを比較し、また、変換ベースのアプローチを既存の最先端のBERTのようなモデルと比較する。 対象領域からの事前学習した埋め込みは,その効果がそれほど顕著でないモノリンガル分類とは異なり,言語間分類の改善に不可欠であることを示す。

This paper deals with cross-lingual sentiment analysis in Czech, English and French languages. We perform zero-shot cross-lingual classification using five linear transformations combined with LSTM and CNN based classifiers. We compare the performance of the individual transformations, and in addition, we confront the transformation-based approach with existing state-of-the-art BERT-like models. We show that the pre-trained embeddings from the target domain are crucial to improving the cross-lingual classification results, unlike in the monolingual classification, where the effect is not so distinctive.
翻訳日:2022-09-16 12:40:27 公開日:2022-09-15
# 動的構造解析によるグラフ・テキスト生成

Graph-to-Text Generation with Dynamic Structure Pruning ( http://arxiv.org/abs/2209.07258v1 )

ライセンス: Link先を確認
Liang Li, Ruiying Geng, Bowen Li, Can Ma, Yinliang Yue, Binhua Li, and Yongbin Li(参考訳) ほとんどのグラフからテキストへの作業は、クロスアテンション機構を備えたエンコーダ・デコーダフレームワーク上に構築されている。 近年の研究では、入力グラフ構造を明示的にモデル化することで、パフォーマンスが大幅に向上することが示されている。 しかしながら、バニラ構造エンコーダは、すべてのデコードステップに対して単一のフォワードパスで全ての特殊情報をキャプチャできないため、不正確なセマンティック表現をもたらす。 一方、入力グラフは、元のグラフ構造を無視して、クロスアテンション内の非順序列としてフラット化される。 これにより、デコーダ内の取得した入力グラフコンテキストベクトルに欠陥が生じる可能性がある。 そこで本研究では,各デコードステップにおいて新たに生成されたコンテキストで入力グラフ表現条件付けを再エンコードするための構造認識クロスアテンション(saca)機構を提案する。 我々はさらにSACAに適応し、復号処理において無関係ノードを動的にドロップする動的グラフプルーニング(DGP)機構を導入する。 LDC 2020T02 と ENT-DESC の2つのグラフ・トゥ・テキスト・データセットに対して,計算コストをわずかに増加させるだけで,最新の結果が得られる。

Most graph-to-text works are built on the encoder-decoder framework with cross-attention mechanism. Recent studies have shown that explicitly modeling the input graph structure can significantly improve the performance. However, the vanilla structural encoder cannot capture all specialized information in a single forward pass for all decoding steps, resulting in inaccurate semantic representations. Meanwhile, the input graph is flatted as an unordered sequence in the cross attention, ignoring the original graph structure. As a result, the obtained input graph context vector in the decoder may be flawed. To address these issues, we propose a Structure-Aware Cross-Attention (SACA) mechanism to re-encode the input graph representation conditioning on the newly generated context at each decoding step in a structure aware manner. We further adapt SACA and introduce its variant Dynamic Graph Pruning (DGP) mechanism to dynamically drop irrelevant nodes in the decoding process. We achieve new state-of-the-art results on two graph-to-text datasets, LDC2020T02 and ENT-DESC, with only minor increase on computational cost.
翻訳日:2022-09-16 12:40:18 公開日:2022-09-15
# CRAC 2022における \'UFAL CorPipe: 干渉分解のための多言語モデルの効果

\'UFAL CorPipe at CRAC 2022: Effectivity of Multilingual Models for Coreference Resolution ( http://arxiv.org/abs/2209.07278v1 )

ライセンス: Link先を確認
Milan Straka and Jana Strakov\'a(参考訳) CRAC 2022 における多言語照合解決のための共有タスクの受賞申請について述べる。 提案システムは,まず参照検出を解き,抽出したスパンのコア参照リンクを先行最大化手法で解き,両タスクは共有トランスフォーマー重みとともに微調整される。 各種事前学習モデルの微調整結果について報告する。 この貢献の中心は細調整された多言語モデルである。 その結果,全データセットの性能向上に十分なエンコーダを持つ大規模多言語モデルが得られたが,その利点は表現不足の言語や類型的関連言語群に限るに留まらなかった。 ソースコードはhttps://github.com/ufal/crac2022-corpipeで入手できる。

We describe the winning submission to the CRAC 2022 Shared Task on Multilingual Coreference Resolution. Our system first solves mention detection and then coreference linking on the retrieved spans with an antecedent-maximization approach, and both tasks are fine-tuned jointly with shared Transformer weights. We report results of fine-tuning a wide range of pretrained models. The center of this contribution are fine-tuned multilingual models. We found one large multilingual model with sufficiently large encoder to increase performance on all datasets across the board, with the benefit not limited only to the underrepresented languages or groups of typologically relative languages. The source code is available at https://github.com/ufal/crac2022-corpipe.
翻訳日:2022-09-16 12:39:57 公開日:2022-09-15
# Knowledge is Flat: さまざまな知識グラフ補完のためのSeq2Seq生成フレームワーク

Knowledge Is Flat: A Seq2Seq Generative Framework for Various Knowledge Graph Completion ( http://arxiv.org/abs/2209.07299v1 )

ライセンス: Link先を確認
Chen Chen, Yufei Wang, Bing Li and Kwok-Yan Lam(参考訳) 知識グラフ補完(KGC)は、最近、複数の知識グラフ(KG)構造に拡張され、静的KGC、時間的KGC、少数ショットKGCなどの新しい研究方向が始まった。 それまでの研究はしばしば、特定のグラフ構造と密結合したKGCモデルを設計していた。 1) 構造固有のKGCモデルは相互に相容れない。 2) 既存のKGC法は新たなKGに適応できない。 そこで本稿では, kg-s2s について述べる。このフレームワークは, kg 事実の表現を元の形式によらず "フラット" テキストにまとめることで, 異なる言語化可能なグラフ構造に対処できる。 フラットテキストからのKG構造情報の損失を軽減するため,エンティティとリレーションの入力表現と,KG-S2Sの推論アルゴリズムをさらに改良する。 5つのベンチマーク実験により、KG-S2Sは多くの競争ベースラインを上回り、新しい最先端のパフォーマンスが設定された。 最後に、KG-S2Sの異なる関係と非中心生成に関する能力を分析する。

Knowledge Graph Completion (KGC) has been recently extended to multiple knowledge graph (KG) structures, initiating new research directions, e.g. static KGC, temporal KGC and few-shot KGC. Previous works often design KGC models closely coupled with specific graph structures, which inevitably results in two drawbacks: 1) structure-specific KGC models are mutually incompatible; 2) existing KGC methods are not adaptable to emerging KGs. In this paper, we propose KG-S2S, a Seq2Seq generative framework that could tackle different verbalizable graph structures by unifying the representation of KG facts into "flat" text, regardless of their original form. To remedy the KG structure information loss from the "flat" text, we further improve the input representations of entities and relations, and the inference algorithm in KG-S2S. Experiments on five benchmarks show that KG-S2S outperforms many competitive baselines, setting new state-of-the-art performance. Finally, we analyze KG-S2S's ability on the different relations and the Non-entity Generations.
翻訳日:2022-09-16 12:39:44 公開日:2022-09-15
# 自動機械翻訳評価のためのラウンドトリップ翻訳の再考

Rethinking Round-trip Translation for Automatic Machine Translation Evaluation ( http://arxiv.org/abs/2209.07351v1 )

ライセンス: Link先を確認
Terry Yue Zhuo, Qiongkai Xu, Xuanli He, Trevor Cohn(参考訳) 並列コーパスは、BLEU、METEOR、BERTScoreなどのメトリクスを使用して翻訳品質を自動評価するために一般的に必要とされる。 参照に基づく評価パラダイムは多くの機械翻訳タスクで広く使われているが、コーパスの欠如に悩まされているため、低リソース言語での翻訳に適用することは困難である。 ラウンドトリップ翻訳は並列コーパスの緊急要求を緩和する方法として推奨されるが、統計機械翻訳時代の転送翻訳と相関することは残念ながら観察されなかった。 本稿では,まず,前進翻訳品質が,神経機械翻訳の範囲内で対応するラウンドトリップ翻訳品質と一貫して相関していることを観察する。 そして,統計的機械翻訳システムにおいて,矛盾する結果の理由を慎重に分析し,明らかにする。 第二に,低資源言語間を含む様々な言語対のラウンドトリップ翻訳スコアに基づいて,前方翻訳スコアの性能を予測するための簡易かつ効果的な回帰法を提案する。 1000以上の言語ペアにおける予測モデルの有効性と頑健性を示すために,広範な実験を行った。 最後に、スコアの予測などの困難な設定について、本手法を試す。 一 訓練中の見当たらない言語対及び 二 現実世界のWMTではタスクを共有するが、新しいドメインでは共有する。 大規模な実験は、我々のアプローチの堅牢性と有用性を示している。 私たちの仕事は、非常に低リソースの多言語機械翻訳に刺激を与えるでしょう。

A parallel corpus is generally required to automatically evaluate the translation quality using the metrics, such as BLEU, METEOR and BERTScore. While the reference-based evaluation paradigm is widely used in many machine translation tasks, it is difficult to be applied to translation with low-resource languages, as those languages suffer from a deficiency of corpora. Round-trip translation provides an encouraging way to alleviate the urgent requirement of the parallel corpus, although it was unfortunately not observed to correlate with forwarding translation in the era of statistical machine translation. In this paper, we firstly observe that forward translation quality consistently correlates to corresponding round-trip translation quality in the scope of neural machine translation. Then, we carefully analyse and unveil the reason for the contradictory results on statistical machine translation systems. Secondly, we propose a simple yet effective regression method to predict the performance of forward translation scores based on round-trip translation scores for various language pairs, including those between very low-resource languages. We conduct extensive experiments to show the effectiveness and robustness of the predictive models on 1,000+ language pairs. Finally, we test our method on challenging settings, such as predicting scores: i) for unseen language pairs in training and ii) on real-world WMT shared tasks but in new domains. The extensive experiments demonstrate the robustness and utility of our approach. We believe our work will inspire works on very low-resource multilingual machine translation.
翻訳日:2022-09-16 12:39:25 公開日:2022-09-15
# NU-net:乳腺腫瘍切除のための非推奨ネストU-net

NU-net: An Unpretentious Nested U-net for Breast Tumor Segmentation ( http://arxiv.org/abs/2209.07193v1 )

ライセンス: Link先を確認
Gong-Ping Chen, Lei Li, Yu Dai, and Jian-Xun Zhang(参考訳) 乳癌の分節化は、腫瘍領域を特徴付けるのに役立つ重要なステップの1つです。 しかし, 腫瘍形態の変化, 境界のぼやけ, および同様の強度分布は, 乳腺腫瘍の正確な分節を困難にしている。 近年,多くのU-net変異体が乳癌セグメンテーションに提案され,広く利用されている。 しかし,これらのアーキテクチャには,(1)ベンチマークネットワークの特徴化能力の無視,(2)余分な複雑な操作の導入はネットワークの理解と再現の難しさを増す,という2つの制限がある。 これらの課題を解決するため,乳腺腫瘍の正確な分節化を目的とした,単純ながら強力なネストネット(NU-net)を提案する。 鍵となるアイデアは、乳腺腫瘍のロバストな特徴を達成するために、異なる深さと共有重量を持つU-Netを使用することである。 nu-net は,(1) スケールの異なる乳腺腫瘍に対するネットワーク適応性とロバスト性の向上,(2) 再現・実行が容易であること,(3) 余剰操作により計算コストを大幅に増加させることなくネットワークパラメータが増加すること,などが主な利点である。 乳腺腫瘍に対するNU-netのセグメンテーション性能は,3つの乳房超音波データセットに対して12種類の最先端セグメンテーション法を用いて検討した。 さらに,腎超音波画像の分割において,nu-netのロバスト性がさらに示される。 ソースコードはhttps://github.com/CGPzy/NU-netで公開されている。

Breast tumor segmentation is one of the key steps that helps us characterize and localize tumor regions. However, variable tumor morphology, blurred boundary, and similar intensity distributions bring challenges for accurate segmentation of breast tumors. Recently, many U-net variants have been proposed and widely used for breast tumors segmentation. However, these architectures suffer from two limitations: (1) Ignoring the characterize ability of the benchmark networks, and (2) Introducing extra complex operations increases the difficulty of understanding and reproducing the network. To alleviate these challenges, this paper proposes a simple yet powerful nested U-net (NU-net) for accurate segmentation of breast tumors. The key idea is to utilize U-Nets with different depths and shared weights to achieve robust characterization of breast tumors. NU-net mainly has the following advantages: (1) Improving network adaptability and robustness to breast tumors with different scales, (2) This method is easy to reproduce and execute, and (3) The extra operations increase network parameters without significantly increasing computational cost. Extensive experimental results with twelve state-of-the-art segmentation methods on three public breast ultrasound datasets demonstrate that NU-net has more competitive segmentation performance on breast tumors. Furthermore, the robustness of NU-net is further illustrated on the segmentation of renal ultrasound images. The source code is publicly available on https://github.com/CGPzy/NU-net.
翻訳日:2022-09-16 12:36:56 公開日:2022-09-15
# CLIPpingプライバシー:マルチモーダル機械学習モデルにおけるアイデンティティ推論攻撃

CLIPping Privacy: Identity Inference Attacks on Multi-Modal Machine Learning Models ( http://arxiv.org/abs/2209.07341v1 )

ライセンス: Link先を確認
Dominik Hintersdorf and Lukas Struppek and Kristian Kersting(参考訳) ディープラーニングは現在、多くの現実世界のアプリケーションで使われているため、研究はディープラーニングモデルのプライバシと、攻撃者がトレーニングデータに関する機密情報を取得するのを防ぐ方法に重点を置いている。 しかし、CLIPのような画像テキストモデルは、プライバシ攻撃の文脈ではまだ検討されていない。 会員推測攻撃は、特定のデータポイントがトレーニングに使用されたかどうかを判断することを目的としているが、CLIPのようなマルチモーダル画像テキストモデル用に設計されたIDIA(IDIA)と呼ばれる新しいタイプのプライバシ攻撃を導入する。 攻撃者はIDIAを使用して、同一人物の異なるイメージでブラックボックス形式でモデルをクエリすることで、特定の人物がトレーニングデータの一部であるかどうかを明らかにすることができる。 モデルにさまざまな可能なテキストラベルを選択させることで、攻撃者はモデルが人物を認識するかどうかを調査できるため、トレーニングに使用された。 CLIPのいくつかの実験を通して、攻撃者は極めて高精度に訓練に使用する個人を識別でき、モデルが表現された人物と名前を結びつけることを学習することを示す。 本実験では,マルチモーダル画像テキストモデルが,そのトレーニングデータに関する機密情報を実際に漏らし,それ故に注意して処理すべきであることを示す。

As deep learning is now used in many real-world applications, research has focused increasingly on the privacy of deep learning models and how to prevent attackers from obtaining sensitive information about the training data. However, image-text models like CLIP have not yet been looked at in the context of privacy attacks. While membership inference attacks aim to tell whether a specific data point was used for training, we introduce a new type of privacy attack, named identity inference attack (IDIA), designed for multi-modal image-text models like CLIP. Using IDIAs, an attacker can reveal whether a particular person, was part of the training data by querying the model in a black-box fashion with different images of the same person. Letting the model choose from a wide variety of possible text labels, the attacker can probe the model whether it recognizes the person and, therefore, was used for training. Through several experiments on CLIP, we show that the attacker can identify individuals used for training with very high accuracy and that the model learns to connect the names with the depicted people. Our experiments show that a multi-modal image-text model indeed leaks sensitive information about its training data and, therefore, should be handled with care.
翻訳日:2022-09-16 12:36:30 公開日:2022-09-15
# ロボットの視覚グラスピング設計:高分解能で畳み込みニューラルネットワークを再考する

A Robotic Visual Grasping Design: Rethinking Convolution Neural Network with High-Resolutions ( http://arxiv.org/abs/2209.07459v1 )

ライセンス: Link先を確認
Zhangli Zhou, Shaochen Wang, Ziyang Chen, Mingyu Cai, Zhen Kan(参考訳) 高分解能表現は視覚に基づくロボット把持問題において重要である。 既存の作品では、入力画像をサブネットワークを介して低解像度表現にエンコードし、高解像度表現を復元する。 これは空間的な情報を失い、デコーダによってもたらされるエラーは、複数のタイプのオブジェクトが考慮されたり、カメラから遠く離れている場合、より深刻なものになる。 これらの課題に対処するために,ロボット認識タスクのためのCNNの設計パラダイムを再考する。 並列分岐を連続的に積み重ねられた畳み込み層とは対照的に,ロボットの視覚把握タスクにおいてより強力な設計となることを実証する。 特に、ニューラルネットワーク設計のガイドラインは、例えば、様々な操作シナリオの課題に対応する、高解像度の表現と軽量な設計のようなロボット知覚タスクのために提供される。 そこで我々は,高分解能表現を常に維持し,解像度間で情報を繰り返し交換する並列ブランチ構造であるHRG-Netと呼ばれる新しい把握型ビジュアルアーキテクチャを開発した。 広範な実験により、この2つの設計が視覚ベースの把持の精度を効果的に向上し、ネットワークトレーニングを加速できることが確認された。 実際の物理環境における比較実験のシリーズをYouTubeで紹介する。

High-resolution representations are important for vision-based robotic grasping problems. Existing works generally encode the input images into low-resolution representations via sub-networks and then recover high-resolution representations. This will lose spatial information, and errors introduced by the decoder will be more serious when multiple types of objects are considered or objects are far away from the camera. To address these issues, we revisit the design paradigm of CNN for robotic perception tasks. We demonstrate that using parallel branches as opposed to serial stacked convolutional layers will be a more powerful design for robotic visual grasping tasks. In particular, guidelines of neural network design are provided for robotic perception tasks, e.g., high-resolution representation and lightweight design, which respond to the challenges in different manipulation scenarios. We then develop a novel grasping visual architecture referred to as HRG-Net, a parallel-branch structure that always maintains a high-resolution representation and repeatedly exchanges information across resolutions. Extensive experiments validate that these two designs can effectively enhance the accuracy of visual-based grasping and accelerate network training. We show a series of comparative experiments in real physical environments at Youtube: https://youtu.be/Jhlsp-xzHFY.
翻訳日:2022-09-16 12:36:09 公開日:2022-09-15
# 小型試料からの大型因果多樹骨格の推定

Estimating large causal polytree skeletons from small samples ( http://arxiv.org/abs/2209.07028v1 )

ライセンス: Link先を確認
Sourav Chatterjee, Mathukumalli Vidyasagar(参考訳) 比較的小さなi.i.d.サンプルから大きな因果多木の骨格を推定する問題を考える。 これは、遺伝子制御ネットワークのようなサンプルサイズに比べて変数数が非常に大きい場合に因果構造を決定する問題によって動機付けられた。 このような設定で高い精度で木を復元するアルゴリズムを提案する。 このアルゴリズムは本質的には、軽度非退化条件以外の分布的あるいはモデリング的な仮定下では機能しない。

We consider the problem of estimating the skeleton of a large causal polytree from a relatively small i.i.d. sample. This is motivated by the problem of determining causal structure when the number of variables is very large compared to the sample size, such as in gene regulatory networks. We give an algorithm that recovers the tree with high accuracy in such settings. The algorithm works under essentially no distributional or modeling assumptions other than some mild non-degeneracy conditions.
翻訳日:2022-09-16 12:34:50 公開日:2022-09-15
# 文脈情報を用いた半パラメトリックベストアーム識別

Semiparametric Best Arm Identification with Contextual Information ( http://arxiv.org/abs/2209.07330v1 )

ライセンス: Link先を確認
Masahiro Kato and Masaaki Imaizumi and Takuya Ishihara and Toru Kitagawa(参考訳) 確率的マルチアームバンディット問題における最適アーム識別と文脈情報(共変量)について検討した。 各ラウンドにおいて、コンテキスト情報を観察した後、過去の観察と現在の文脈を用いて治療アームを選択する。 本研究の目的は,文脈分布に限界のある最大報酬を有する治療アームである最善の治療アームを特定し,誤認の可能性を最小限に抑えることである。 まず、この問題に対する半パラメトリックな下限を導出し、ここでは、最適治療アームと最適治療アームの期待報酬のギャップを利害のパラメータとみなし、その他の全てのパラメータ、例えば、コンテキストに条件付けされた期待報酬をニュアンスパラメータとみなす。 次に,目標割当率を追跡するランダムサンプリング(rs)規則と拡張逆確率重み(aipw)推定器を用いた推奨規則からなる「文脈的rs-aipw戦略」を開発した。 提案したコンテキストRS-AIPW戦略は,予算が無限に進むと,誤同定確率の上限が半パラメトリック下限と一致し,ギャップが0に収束するため,最適である。

We study best-arm identification with a fixed budget and contextual (covariate) information in stochastic multi-armed bandit problems. In each round, after observing contextual information, we choose a treatment arm using past observations and current context. Our goal is to identify the best treatment arm, a treatment arm with the maximal expected reward marginalized over the contextual distribution, with a minimal probability of misidentification. First, we derive semiparametric lower bounds for this problem, where we regard the gaps between the expected rewards of the best and suboptimal treatment arms as parameters of interest, and all other parameters, such as the expected rewards conditioned on contexts, as the nuisance parameters. We then develop the "Contextual RS-AIPW strategy," which consists of the random sampling (RS) rule tracking a target allocation ratio and the recommendation rule using the augmented inverse probability weighting (AIPW) estimator. Our proposed Contextual RS-AIPW strategy is optimal because the upper bound for the probability of misidentification matches the semiparametric lower bound when the budget goes to infinity, and the gaps converge to zero.
翻訳日:2022-09-16 12:34:42 公開日:2022-09-15
# VIPHY:「可視」物理コモンセンスの知識を探る

VIPHY: Probing "Visible" Physical Commonsense Knowledge ( http://arxiv.org/abs/2209.07000v1 )

ライセンス: Link先を確認
Shikhar Singh, Ehsan Qasemi, Muhao Chen(参考訳) 近年、視覚言語モデル(VLM)は視覚的推論タスク(属性、位置など)において顕著なパフォーマンスを示している。 このようなタスクは、与えられた視覚的事例に対して必要な知識と推論を計測するが、VLMがそのような知識を保持し、一般化する能力を測定することはない。 In this work, we evaluate their ability to acquire "visible" physical knowledge -- the information that is easily accessible from images of static scenes, particularly across the dimensions of object color, size and space. We build an automatic pipeline to derive a comprehensive knowledge resource for calibrating and probing these models. Our results indicate a severe gap between model and human performance across all three tasks. Furthermore, our caption pretrained baseline (CapBERT) significantly outperforms VLMs on both size and spatial tasks -- highlighting that despite sufficient access to ground language with visual modality, they struggle to retain such knowledge. データセットとコードはhttps://github.com/Axe--/ViPhyで公開されている。

In recent years, vision-language models (VLMs) have shown remarkable performance on visual reasoning tasks (e.g. attributes, location). While such tasks measure the requisite knowledge to ground and reason over a given visual instance, they do not, however, measure the ability of VLMs to retain and generalize such knowledge. In this work, we evaluate their ability to acquire "visible" physical knowledge -- the information that is easily accessible from images of static scenes, particularly across the dimensions of object color, size and space. We build an automatic pipeline to derive a comprehensive knowledge resource for calibrating and probing these models. Our results indicate a severe gap between model and human performance across all three tasks. Furthermore, our caption pretrained baseline (CapBERT) significantly outperforms VLMs on both size and spatial tasks -- highlighting that despite sufficient access to ground language with visual modality, they struggle to retain such knowledge. The dataset and code are available at https://github.com/Axe--/ViPhy .
翻訳日:2022-09-16 12:33:39 公開日:2022-09-15
# テキスト分類のための意味階層型グラフニューラルネットワーク

A semantic hierarchical graph neural network for text classification ( http://arxiv.org/abs/2209.07031v1 )

ライセンス: Link先を確認
Shuai Hua, Xinxin Li, Yunpeng Jing, Qunfeng Liu(参考訳) テキスト分類タスクの鍵は、言語表現と重要な情報抽出であり、多くの関連研究がある。 近年, テキスト分類におけるグラフニューラルネットワーク(GNN)の研究が徐々に現れ, その優位性を示したが, 既存のモデルでは, サンプル内の意味構造情報の異なるレベルを無視したGNNモデルに直接単語をグラフノードとして入力することに重点を置いている。 そこで本研究では,単語レベル,文レベル,文書レベルから対応する情報をそれぞれ抽出する階層型グラフニューラルネットワーク(HieGNN)を提案する。 いくつかのベンチマークデータセットに対する実験結果は,いくつかのベースライン手法と比較して,より優れた,あるいは類似した結果が得られる。

The key to the text classification task is language representation and important information extraction, and there are many related studies. In recent years, the research on graph neural network (GNN) in text classification has gradually emerged and shown its advantages, but the existing models mainly focus on directly inputting words as graph nodes into the GNN models ignoring the different levels of semantic structure information in the samples. To address the issue, we propose a new hierarchical graph neural network (HieGNN) which extracts corresponding information from word-level, sentence-level and document-level respectively. Experimental results on several benchmark datasets achieve better or similar results compared to several baseline methods, which demonstrate that our model is able to obtain more useful information for classification from samples.
翻訳日:2022-09-16 12:33:26 公開日:2022-09-15
# 多項式ネットワークの音響と完全検証

Sound and Complete Verification of Polynomial Networks ( http://arxiv.org/abs/2209.07235v1 )

ライセンス: Link先を確認
Elias Abad Rocamora, Mehmet Fatih Sahin, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher(参考訳) PN(Polynomial Networks)は、最近顔と画像の認識において有望な性能を示した。 しかし、PNの堅牢性は不明確であり、現実のアプリケーションで採用するために証明書を取得することが必須となる。 分岐とバウンド(BaB)技術に基づくReLUニューラルネットワーク(NN)上の既存の検証アルゴリズムは、PN検証に自明に適用できない。 本研究では,VPNと呼ばれるグローバルコンバージェンス保証のためのBaBを備えた新しいバウンダリング手法を提案する。 一つの重要な洞察は、間隔境界伝播のベースラインよりもずっと狭い境界が得られることである。 これにより、MNIST、CIFAR10、STL10データセットに対する経験的検証を伴う、健全で完全なPN検証が可能になる。 我々はこの手法がNN検証に独自の関心を持っていると信じている。

Polynomial Networks (PNs) have demonstrated promising performance on face and image recognition recently. However, robustness of PNs is unclear and thus obtaining certificates becomes imperative for enabling their adoption in real-world applications. Existing verification algorithms on ReLU neural networks (NNs) based on branch and bound (BaB) techniques cannot be trivially applied to PN verification. In this work, we devise a new bounding method, equipped with BaB for global convergence guarantees, called VPN. One key insight is that we obtain much tighter bounds than the interval bound propagation baseline. This enables sound and complete PN verification with empirical validation on MNIST, CIFAR10 and STL10 datasets. We believe our method has its own interest to NN verification.
翻訳日:2022-09-16 12:30:28 公開日:2022-09-15
# 衝突回避と平均場制御によるスケーラブルなタスク駆動型ロボット群制御

Scalable Task-Driven Robotic Swarm Control via Collision Avoidance and Learning Mean-Field Control ( http://arxiv.org/abs/2209.07420v1 )

ライセンス: Link先を確認
Kai Cui, Mengguang Li, Christian Fabian, Heinz Koeppl(参考訳) 近年、強化学習とそのマルチエージェントアナログは、様々な複雑な制御問題を解くことに成功している。 しかし、マルチエージェント強化学習は、アルゴリズムの理論的解析と経験的設計の両方において、特に、決定的なツールチェーンが活発な研究の一部として残っている、多数の組込みロボットエージェントにとって、依然として困難である。 我々は,多エージェント群制御をより古典的な分布の単一エージェント制御に変換するために,新たな最先端平均場制御手法を用いる。 これにより、エージェント間の弱い相互作用を想定した単エージェント強化学習の進歩から利益を得ることができる。 その結果、平均場モデルは、物理的に衝突するエージェントを具現化した実システムの性質に反する。 本稿では,衝突回避と平均場制御の学習を統合フレームワークとして組み合わせ,インテリジェントなロボット群行動の設計を行う。 理論面では、連続空間における一般平均場制御と衝突回避の両方に対する新しい近似保証を提供する。 実用面では,本手法はマルチエージェント強化学習より優れており,シミュレーションと実際のUAVスワムの衝突を回避しながら,分散化されたオープンループアプリケーションを可能にする。 全体として,swarmの動作設計のためのフレームワークを提案する。数学的によく確立され,実用的でもあるため,swarmの問題を解決できる。

In recent years, reinforcement learning and its multi-agent analogue have achieved great success in solving various complex control problems. However, multi-agent reinforcement learning remains challenging both in its theoretical analysis and empirical design of algorithms, especially for large swarms of embodied robotic agents where a definitive toolchain remains part of active research. We use emerging state-of-the-art mean-field control techniques in order to convert many-agent swarm control into more classical single-agent control of distributions. This allows profiting from advances in single-agent reinforcement learning at the cost of assuming weak interaction between agents. As a result, the mean-field model is violated by the nature of real systems with embodied, physically colliding agents. Here, we combine collision avoidance and learning of mean-field control into a unified framework for tractably designing intelligent robotic swarm behavior. On the theoretical side, we provide novel approximation guarantees for both general mean-field control in continuous spaces and with collision avoidance. On the practical side, we show that our approach outperforms multi-agent reinforcement learning and allows for decentralized open-loop application while avoiding collisions, both in simulation and real UAV swarms. Overall, we propose a framework for the design of swarm behavior that is both mathematically well-founded and practically useful, enabling the solution of otherwise intractable swarm problems.
翻訳日:2022-09-16 12:30:11 公開日:2022-09-15
# ホークス過程の微分プライベート推定

Differentially Private Estimation of Hawkes Process ( http://arxiv.org/abs/2209.07303v1 )

ライセンス: Link先を確認
Simiao Zuo, Tianyi Liu, Tuo Zhao, Hongyuan Zha(参考訳) 実世界のアプリケーションでは、ポイントプロセスモデルが非常に重要です。 ある重要なアプリケーションでは、ポイントプロセスモデルの推定には、ユーザからの大量の機密データが含まれる。 プライバシーに関する懸念は、既存の文献では解決されていない。 このグラッシングギャップを橋渡しするために, 点過程モデルに対する最初の一般微分プライベート推定手法を提案する。 具体的には、ホークスプロセスの一例として、ホークスプロセスの離散表現に基づくイベントストリームデータに対する差分プライバシの厳密な定義を導入します。 次に,プライバシとユーティリティの保証を2つの異なる設定で要求するホークスプロセスモデルを効率的に推定できる2つの微分プライベート最適化アルゴリズムを提案する。 我々の理論分析を裏付ける実験が提供されている。

Point process models are of great importance in real world applications. In certain critical applications, estimation of point process models involves large amounts of sensitive personal data from users. Privacy concerns naturally arise which have not been addressed in the existing literature. To bridge this glaring gap, we propose the first general differentially private estimation procedure for point process models. Specifically, we take the Hawkes process as an example, and introduce a rigorous definition of differential privacy for event stream data based on a discretized representation of the Hawkes process. We then propose two differentially private optimization algorithms, which can efficiently estimate Hawkes process models with the desired privacy and utility guarantees under two different settings. Experiments are provided to back up our theoretical analysis.
翻訳日:2022-09-16 12:29:13 公開日:2022-09-15
# がんにおける意思決定:因果問題には因果的回答が必要である

Decision making in cancer: Causal questions require causal answers ( http://arxiv.org/abs/2209.07397v1 )

ライセンス: Link先を確認
Wouter A.C. van Amsterdam, Pim A. de Jong, Joost J.C. Verhoeff, Tim Leiner, Rajesh Ranganath(参考訳) がん治療における治療決定はランダム化対照試験(RCT)による治療効果推定によって導かれる。 RCTは特定の集団における1つの治療の平均効果を推定する。 しかし、治療は人口の全ての患者に等しく効果があるわけではない。 特定の患者に合わせた治療の効果と腫瘍の特徴を把握すれば、個別の治療法決定が可能になる。 RCTの異なる患者サブグループにおける平均的な結果によって調整された治療効果を得るには、全ての治療の可能な全てのサブグループに十分な統計力を持つために、不可能な数の患者が必要である。 アメリカがん合同委員会(AJCC)は、治療決定を個別化するために結果予測モデル(OPM)を開発することを推奨している。 opmは、リスクモデルまたは予後モデルと呼ばれ、患者と腫瘍の特徴を使用して、全体的な生存のような患者の予後を予測する。 この予測は、「OPMが再発のリスクが高いと予測した場合のみ、化学療法を処方する」などの規則を用いた治療決定に有用である。 AJCCは、信頼性の高い予測の重要性を認識し、OPMが設計された患者集団において、信頼性の高いOPM予測精度を確保するために、OPMのチェックリストを公開した。 しかし、正確な結果予測は、これらの予測が適切な治療決定をもたらすことを暗示しない。 この観点から、OPMは、検証研究の結果を正確に予測できたOPMが、治療決定に使用する場合、患者に害を与える可能性があることを示す、固定的な治療方針に依存していることを示す。 次に、個別化された治療決定に有用なモデルの開発方法と、モデルに意思決定の価値があるかどうかを評価する方法について説明する。

Treatment decisions in cancer care are guided by treatment effect estimates from randomized controlled trials (RCTs). RCTs estimate the average effect of one treatment versus another in a certain population. However, treatments may not be equally effective for every patient in a population. Knowing the effectiveness of treatments tailored to specific patient and tumor characteristics would enable individualized treatment decisions. Getting tailored treatment effects by averaging outcomes in different patient subgroups in RCTs requires an unfeasible number of patients to have sufficient statistical power in all relevant subgroups for all possible treatments. The American Joint Committee on Cancer (AJCC) recommends that researchers develop outcome prediction models (OPMs) in an effort to individualize treatment decisions. OPMs sometimes called risk models or prognosis models, use patient and tumor characteristics to predict a patient outcome such as overall survival. The assumption is that the predictions are useful for treatment decisions using rules such as "prescribe chemotherapy only if the OPM predicts the patient has a high risk of recurrence". Recognizing the importance of reliable predictions, the AJCC published a checklist for OPMs to ensure dependable OPM prediction accuracy in the patient population for which the OPM was designed. However, accurate outcome predictions do not imply that these predictions yield good treatment decisions. In this perspective, we show that OPM rely on a fixed treatment policy which implies that OPM that were found to accurately predict outcomes in validation studies can still lead to patient harm when used to inform treatment decisions. We then give guidance on how to develop models that are useful for individualized treatment decisions and how to evaluate whether a model has value for decision-making.
翻訳日:2022-09-16 12:29:01 公開日:2022-09-15
# 外乱の存在下でのプライベート確率最適化:(非滑らかな)凸損失に対する最適速度と非凸損失への拡張

Private Stochastic Optimization in the Presence of Outliers: Optimal Rates for (Non-Smooth) Convex Losses and Extension to Non-Convex Losses ( http://arxiv.org/abs/2209.07403v1 )

ライセンス: Link先を確認
Andrew Lowy, Meisam Razaviyayn(参考訳) リプシッツ連続ではない外れ値と損失関数を含むデータを用いて微分プライベート (dp) 確率最適化 (so) について検討した。 これまで、dp の研究の大部分は、損失がリプシッツである(すなわち確率勾配は一様有界である)と仮定しており、その誤差境界は、損失のリプシッツパラメータとともにスケールする。 この仮定は便利だが、しばしば非現実的である:プライバシーが要求される多くの実践的な問題において、データは外れ値を含むか、非有界である可能性がある。 そのような場合、リプシッツパラメータは制限的に大きいため、過剰なリスク境界が生じる。 したがって、最近の作業(wxdx20, klz22]に基づいて、確率的勾配が約$k \geq 2$に対してk$-th モーメントを持つという弱い仮定をする。 DP Lipschitz SOの研究と比較すると、我々の余剰リスクは損失のリプシッツパラメータの代わりに$k$-thのモーメントバウンドでスケールし、オフラヤの存在下では大幅に高速になる。 凸および強い凸損失関数に対しては、最初の漸近的に最適な超過リスク境界(対数係数まで)を提供する。 さらに、以前の作品 [WXDX20, KLZ22] とは対照的に、我々の境界は損失関数を微分可能/滑らかにする必要がない。 また,線形時間内で動作する高速化アルゴリズムを考案し,スムースな損失に対して(以前の作業と比較して)改善し,ほぼ最適に過大なリスクを与える。 さらに,本研究は近近偏pl不等式を満たす非凸非リプシッツ損失関数に対する最初の対処である。 我々の Proximal-PL アルゴリズムは、強い凸下界とほぼ一致する最適余剰リスクを持つ。 最後に、信頼できるキュレーター(例えば分散学習)を必要としないアルゴリズムのシャッフルDPのバリエーションを提供する。

We study differentially private (DP) stochastic optimization (SO) with data containing outliers and loss functions that are not Lipschitz continuous. To date, the vast majority of work on DP SO assumes that the loss is Lipschitz (i.e. stochastic gradients are uniformly bounded), and their error bounds scale with the Lipschitz parameter of the loss. While this assumption is convenient, it is often unrealistic: in many practical problems where privacy is required, data may contain outliers or be unbounded, causing some stochastic gradients to have large norm. In such cases, the Lipschitz parameter may be prohibitively large, leading to vacuous excess risk bounds. Thus, building on a recent line of work [WXDX20, KLZ22], we make the weaker assumption that stochastic gradients have bounded $k$-th moments for some $k \geq 2$. Compared with works on DP Lipschitz SO, our excess risk scales with the $k$-th moment bound instead of the Lipschitz parameter of the loss, allowing for significantly faster rates in the presence of outliers. For convex and strongly convex loss functions, we provide the first asymptotically optimal excess risk bounds (up to a logarithmic factor). Moreover, in contrast to the prior works [WXDX20, KLZ22], our bounds do not require the loss function to be differentiable/smooth. We also devise an accelerated algorithm that runs in linear time and yields improved (compared to prior works) and nearly optimal excess risk for smooth losses. Additionally, our work is the first to address non-convex non-Lipschitz loss functions satisfying the Proximal-PL inequality; this covers some classes of neural nets, among other practical models. Our Proximal-PL algorithm has nearly optimal excess risk that almost matches the strongly convex lower bound. Lastly, we provide shuffle DP variations of our algorithms, which do not require a trusted curator (e.g. for distributed learning).
翻訳日:2022-09-16 12:28:35 公開日:2022-09-15
# 人工知能に基づくモデルの統計的モニタリング

Statistical monitoring of models based on artificial intelligence ( http://arxiv.org/abs/2209.07436v1 )

ライセンス: Link先を確認
Anna Malinovskaya, Pavlo Mozharovskyi, Philipp Otto(参考訳) 人工知能に基づくモデルの急速な進歩は、計算コストの低いリアルタイム運用が可能な革新的なモニタリング技術を必要とする。 機械学習、特にニューラルネットワーク(NN)学習アルゴリズム、特にディープラーニングアーキテクチャを考慮すると、モデルはしばしば教師付き方法でトレーニングされる。 したがって、入力と出力の間の学習された関係は、モデルのデプロイの間も有効でなければならない。 この定常仮定が成り立つと、NNは正確な予測を生成すると結論付けることができる。 さもなくば、モデルのリトレーニングや再構築が必要になります。 本稿では,NN が生成したデータ(埋め込み)の潜時的特徴表現について考察し,データストリームが非定常となる時点を決定することを提案する。 正確には,データ深さと正規化ランクの計算に基づいて多変量制御チャートを適用することで埋め込みを監視する。 提案手法の性能は,データフォーマットの異なる様々なNNを用いて評価する。

The rapid advancement of models based on artificial intelligence demands innovative monitoring techniques which can operate in real time with low computational costs. In machine learning, especially if we consider neural network (NN) learning algorithms, and in particular deep-learning architectures, the models are often trained in a supervised manner. Consequently, the learned relationship between the input and the output must remain valid during the model's deployment. If this stationarity assumption holds, we can conclude that the NN generates accurate predictions. Otherwise, the retraining or rebuilding of the model is required. We propose to consider the latent feature representation of the data (called "embedding") generated by the NN for determining the time point when the data stream starts being nonstationary. To be precise, we monitor embeddings by applying multivariate control charts based on the calculation of the data depth and normalized ranks. The performance of the introduced method is evaluated using various NNs with different underlying data formats.
翻訳日:2022-09-16 12:27:58 公開日:2022-09-15
# ロバストな視覚トランスフォーマーを訓練するための光レシピ

A Light Recipe to Train Robust Vision Transformers ( http://arxiv.org/abs/2209.07399v1 )

ライセンス: Link先を確認
Edoardo Debenedetti, Vikash Sehwag, Prateek Mittal(参考訳) 本稿では,視覚変換器(ViT)が,回避攻撃に対する機械学習モデルの対角的堅牢性向上の基盤となるアーキテクチャとして機能するかどうかを問う。 従来の研究は畳み込みニューラルネットワークの改善に重点を置いてきたが、競合する性能を達成するために、ViTも敵のトレーニングに非常に適していることを示す。 我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。 vitsの標準訓練レシピでは、畳み込みと比較した場合の注意モジュールの視覚誘導バイアスの欠如を補うために、強いデータ拡張を推奨している。 このレシピは, 対向訓練に使用する場合, 副最適性能が得られることを示す。 対照的に、重いデータ拡張をすべて省略し、いくつかの追加のバグオブトリック (\varepsilon$-warmup and larger weight decay) を追加すると、堅牢なvitの性能が大幅に向上することがわかった。 本手法は,vitアーキテクチャの異なるクラスと,imagenet-1kの大規模モデルに一般化することを示す。 さらに,モデルのロバスト性理由を調査することにより,レシピ使用時のトレーニング中に強固なアタックが発生しやすくなり,テスト時のロバスト性が向上することを示す。 最後に, 逆摂動の意味的性質を定量化する方法を提案し, モデルのロバスト性との相関性を強調して, 対向訓練の結果について検討した。 全体としては,vitsの標準的トレーニングレシピを堅牢なトレーニングに翻訳することを避け,敵的トレーニングの文脈で共通のトレーニング選択を再考することを推奨する。

In this paper, we ask whether Vision Transformers (ViTs) can serve as an underlying architecture for improving the adversarial robustness of machine learning models against evasion attacks. While earlier works have focused on improving Convolutional Neural Networks, we show that also ViTs are highly suitable for adversarial training to achieve competitive performance. We achieve this objective using a custom adversarial training recipe, discovered using rigorous ablation studies on a subset of the ImageNet dataset. The canonical training recipe for ViTs recommends strong data augmentation, in part to compensate for the lack of vision inductive bias of attention modules, when compared to convolutions. We show that this recipe achieves suboptimal performance when used for adversarial training. In contrast, we find that omitting all heavy data augmentation, and adding some additional bag-of-tricks ($\varepsilon$-warmup and larger weight decay), significantly boosts the performance of robust ViTs. We show that our recipe generalizes to different classes of ViT architectures and large-scale models on full ImageNet-1k. Additionally, investigating the reasons for the robustness of our models, we show that it is easier to generate strong attacks during training when using our recipe and that this leads to better robustness at test time. Finally, we further study one consequence of adversarial training by proposing a way to quantify the semantic nature of adversarial perturbations and highlight its correlation with the robustness of the model. Overall, we recommend that the community should avoid translating the canonical training recipes in ViTs to robust training and rethink common training choices in the context of adversarial training.
翻訳日:2022-09-16 12:24:33 公開日:2022-09-15
# 低ラベルビデオ認識におけるトランスフォーマーの驚くべき効果について

On the Surprising Effectiveness of Transformers in Low-Labeled Video Recognition ( http://arxiv.org/abs/2209.07474v1 )

ライセンス: Link先を確認
Farrukh Rahman, \"Omer Mubarek, Zsolt Kira(参考訳) 近年、視覚トランスフォーマーは、複数の視覚タスクにまたがる畳み込み方式(cnns)と競合することが示されている。 変圧器の制約の少ない帰納バイアスは、CNNと比較して表現能力が大きい。 しかし、画像分類設定では、この柔軟性はサンプル効率に関してトレードオフがあり、トランスフォーマーはイメージネットスケールのトレーニングを必要とする。 この概念は、低ラベルまたは半教師付き設定でビデオ分類のためにトランスフォーマーがまだ検討されていないビデオに引き継がれている。 我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、トランスフォーマーが低ラベルの動画設定においてCNNと比較して非常に優れていることを発見した。 本研究では,2つのコントラスト映像データセット(Kinetics-400およびSomething-V2)の映像ビジョントランスフォーマーを特に評価し,この観察をビデオトランスフォーマーアーキテクチャの主要な特徴を用いて詳細に解析およびアブレーション研究を行った。 ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。 本研究は,半教師付き学習ビデオ作業がビデオトランスフォーマの使用を将来的に考慮すべきことを推奨するものである。

Recently vision transformers have been shown to be competitive with convolution-based methods (CNNs) broadly across multiple vision tasks. The less restrictive inductive bias of transformers endows greater representational capacity in comparison with CNNs. However, in the image classification setting this flexibility comes with a trade-off with respect to sample efficiency, where transformers require ImageNet-scale training. This notion has carried over to video where transformers have not yet been explored for video classification in the low-labeled or semi-supervised settings. Our work empirically explores the low data regime for video classification and discovers that, surprisingly, transformers perform extremely well in the low-labeled video setting compared to CNNs. We specifically evaluate video vision transformers across two contrasting video datasets (Kinetics-400 and SomethingSomething-V2) and perform thorough analysis and ablation studies to explain this observation using the predominant features of video transformer architectures. We even show that using just the labeled data, transformers significantly outperform complex semi-supervised CNN methods that leverage large-scale unlabeled data as well. Our experiments inform our recommendation that semi-supervised learning video work should consider the use of video transformers in the future.
翻訳日:2022-09-16 12:24:02 公開日:2022-09-15
# マスク付きオートエンコーダによるテスト時間トレーニング

Test-Time Training with Masked Autoencoders ( http://arxiv.org/abs/2209.07522v1 )

ライセンス: Link先を確認
Yossi Gandelsman, Yu Sun, Xinlei Chen, Alexei A. Efros(参考訳) テストタイムトレーニングは、セルフスーパービジョンを使用して各テスト入力のモデルを最適化することで、新しいテスト分布をオンザフライに適用する。 本稿では,この一サンプル学習問題に対してマスク付きオートエンコーダを用いる。 実験的に,本手法は分布シフトに対する多くの視覚的ベンチマークの一般化を改善する。 理論的には、この改善をバイアス分散トレードオフの観点から特徴づける。

Test-time training adapts to a new test distribution on the fly by optimizing a model for each test input using self-supervision. In this paper, we use masked autoencoders for this one-sample learning problem. Empirically, our simple method improves generalization on many visual benchmarks for distribution shifts. Theoretically, we characterize this improvement in terms of the bias-variance trade-off.
翻訳日:2022-09-16 12:23:38 公開日:2022-09-15
# ビジョンベース自動車両の効率的な認識・計画・制御アルゴリズム

Efficient Perception, Planning, and Control Algorithms for Vision-Based Automated Vehicles ( http://arxiv.org/abs/2209.07042v1 )

ライセンス: Link先を確認
Der-Hau Lee(参考訳) 資源の制限のため、効率的な計算システムは、自動運転車の設計にとって長い間重要な需要であった。 さらに、センサーのコストとサイズは、自動運転車の開発を制限する。 本稿では,正面カメラといくつかの安価なレーダーが環境認識の駆動に必要なセンサである,視覚に基づく自動車両の運用のための効率的な枠組みを提案する。 提案アルゴリズムは、画像特徴を抽出するマルチタスクUTUNetと、高速な横方向および縦方向の動作計画のための制約付き反復線形二次制御器(CILQR)モジュールからなる。 MTUNetは、大きさ228×228のRGB画像が入力されたときに、車線分割、車線方向角の回帰、道路型分類、交通物体検出タスクを40FPSの近似速度で同時に解くように設計されている。 次に、CILQRアルゴリズムは、処理されたMTUNet出力とレーダデータを入力として、横方向および縦方向の車両自動化誘導のための運転指令を生成する。両者の最適制御問題は、1ms以内で解決可能である。提案されたCILQRコントローラは、逐次二次プログラミング(SQP)手法よりも効率的であることが示され、MTUNetと協調して、車線維持および車両追従操作のための見知らぬシミュレーション環境において、自律的に車を運転することができる。 提案する自律運転システムは,現代の自動車に適用可能であることを示す。

Owing to resource limitations, efficient computation systems have long been a critical demand for those designing autonomous vehicles. Additionally, sensor cost and size restrict the development of self-driving cars. This paper presents an efficient framework for the operation of vision-based automatic vehicles; a front-facing camera and a few inexpensive radars are the required sensors for driving environment perception. The proposed algorithm comprises a multi-task UNet (MTUNet) network for extracting image features and constrained iterative linear quadratic regulator (CILQR) modules for rapid lateral and longitudinal motion planning. The MTUNet is designed to simultaneously solve lane line segmentation, ego vehicle heading angle regression, road type classification, and traffic object detection tasks at an approximate speed of 40 FPS when an RGB image of size 228 x 228 is fed into it. The CILQR algorithms then take processed MTUNet outputs and radar data as their input to produce driving commands for lateral and longitudinal vehicle automation guidance; both optimal control problems can be solved within 1 ms. The proposed CILQR controllers are shown to be more efficient than the sequential quadratic programming (SQP) methods and can collaborate with the MTUNet to drive a car autonomously in unseen simulation environments for lane-keeping and car-following maneuvers. Our experiments demonstrate that the proposed autonomous driving system is applicable to modern automobiles.
翻訳日:2022-09-16 12:23:13 公開日:2022-09-15
# ニューロモルフィックハードウェアシステムのアストロモーフィック自己修復

Astromorphic Self-Repair of Neuromorphic Hardware Systems ( http://arxiv.org/abs/2209.07428v1 )

ライセンス: Link先を確認
Zhuangyu Han, Nafiul Islam, Abhronil Sengupta(参考訳) スパイキングニューラルネットワーク(SNN)に基づくニューロモルフィックコンピューティングアーキテクチャは、生物解析可能な機械学習への道筋として益々関心が高まっているが、それでもニューロンやシナプスのような計算単位に注目が集まっている。 この神経シナプスの観点から、この論文はグリア細胞の自己修復、特にアストロサイトの役割を探究する。 この研究は、アストロサイト計算神経科学モデルとより強い相関関係を調査し、自己修復プロセスの動的挙動を正確に捉えるバイオ忠実度の高いマクロモデルを開発する。 ハードウェア・ソフトウェア共同設計分析により、MNISTおよびF-MNISTデータセット上の教師なし学習タスクの精度と修復収束が著しく向上し、バイオモルフィックな天文学的規制が、ニューロモルフィックハードウェアシステムにおけるハードウェアの現実的欠陥を自己修復する可能性があることが明らかになった。

While neuromorphic computing architectures based on Spiking Neural Networks (SNNs) are increasingly gaining interest as a pathway toward bio-plausible machine learning, attention is still focused on computational units like the neuron and synapse. Shifting from this neuro-synaptic perspective, this paper attempts to explore the self-repair role of glial cells, in particular, astrocytes. The work investigates stronger correlations with astrocyte computational neuroscience models to develop macro-models with a higher degree of bio-fidelity that accurately captures the dynamic behavior of the self-repair process. Hardware-software co-design analysis reveals that bio-morphic astrocytic regulation has the potential to self-repair hardware realistic faults in neuromorphic hardware systems with significantly better accuracy and repair convergence for unsupervised learning tasks on the MNIST and F-MNIST datasets.
翻訳日:2022-09-16 12:22:24 公開日:2022-09-15
# LeViT-UNet++を用いた医用画像分割:GIトラクトデータの事例

Medical Image Segmentation using LeViT-UNet++: A Case Study on GI Tract Data ( http://arxiv.org/abs/2209.07515v1 )

ライセンス: Link先を確認
Praneeth Nemani, Satyanarayana Vollala(参考訳) 消化管癌は, 消化管内臓器の致命的な悪性疾患であると考えられている。 致死性のため、臓器を分割して治療時間を短縮し治療を強化するために、緊急に医用画像分割技術が必要となる。 従来のセグメンテーション技術は手作りの特徴に依存しており、計算コストが高く非効率である。 視覚トランスフォーマーは多くの画像分類やセグメンテーションタスクで大きな人気を得ている。 トランスフォーマーの視点からこの問題に対処するために,画像から異なる臓器を分割するハイブリッドcnn-transformerアーキテクチャを導入した。 提案手法はロバストでスケーラブルで計算効率が良く, dice係数は0.79, jaccard係数は0.72である。 提案するソリューションは,治療効果を改善するための深層学習に基づく自動化の本質を表現している。

Gastro-Intestinal Tract cancer is considered a fatal malignant condition of the organs in the GI tract. Due to its fatality, there is an urgent need for medical image segmentation techniques to segment organs to reduce the treatment time and enhance the treatment. Traditional segmentation techniques rely upon handcrafted features and are computationally expensive and inefficient. Vision Transformers have gained immense popularity in many image classification and segmentation tasks. To address this problem from a transformers' perspective, we introduced a hybrid CNN-transformer architecture to segment the different organs from an image. The proposed solution is robust, scalable, and computationally efficient, with a Dice and Jaccard coefficient of 0.79 and 0.72, respectively. The proposed solution also depicts the essence of deep learning-based automation to improve the effectiveness of the treatment
翻訳日:2022-09-16 12:22:06 公開日:2022-09-15
# ニューラルネットワークによる半カントリー的リスク最小化

Semi-Counterfactual Risk Minimization Via Neural Networks ( http://arxiv.org/abs/2209.07148v1 )

ライセンス: Link先を確認
Gholamali Aminian, Roberto Vega, Omar Rivasplata, Laura Toni, Miguel Rodrigues(参考訳) 対物リスク最小化は、各サンプルポイントに対するコンテキスト、アクション、確率スコア、報酬からなるログデータによるオフラインポリシー最適化のためのフレームワークである。 本研究では,このフレームワークを基礎として,いくつかのサンプルに対する報酬が観測されない設定の学習方法を提案し,ログデータには未知の報酬を持つサンプルのサブセットと既知の報酬を持つサンプルのサブセットが含まれている。 この設定は、広告やヘルスケアを含む多くのアプリケーションドメインで発生します。 いくつかのサンプルには報酬フィードバックがないが、リスクを最小限に抑えるために未知のリワードサンプルを利用することが可能であり、この設定を半事実的リスク最小化と呼ぶ。 このような学習問題にアプローチするために、逆確率スコア推定器の下で真リスクの新しい上限を導出する。 そこで, 正規化項は, ログ化された未知回帰データセットのみに基づいており, 報酬に依存しない正規化対実的リスク最小化法を提案する。 また,logged unknown-rewardsデータセットに対して擬似rewardsを生成するアルゴリズムを提案する。 ニューラルネットワークとベンチマークデータセットによる実験結果から、これらのアルゴリズムは、ログ化された既知のリワードデータセットに加えて、ログ化された未知のリワードデータセットを利用することができる。

Counterfactual risk minimization is a framework for offline policy optimization with logged data which consists of context, action, propensity score, and reward for each sample point. In this work, we build on this framework and propose a learning method for settings where the rewards for some samples are not observed, and so the logged data consists of a subset of samples with unknown rewards and a subset of samples with known rewards. This setting arises in many application domains, including advertising and healthcare. While reward feedback is missing for some samples, it is possible to leverage the unknown-reward samples in order to minimize the risk, and we refer to this setting as semi-counterfactual risk minimization. To approach this kind of learning problem, we derive new upper bounds on the true risk under the inverse propensity score estimator. We then build upon these bounds to propose a regularized counterfactual risk minimization method, where the regularization term is based on the logged unknown-rewards dataset only; hence it is reward-independent. We also propose another algorithm based on generating pseudo-rewards for the logged unknown-rewards dataset. Experimental results with neural networks and benchmark datasets indicate that these algorithms can leverage the logged unknown-rewards dataset besides the logged known-reward dataset.
翻訳日:2022-09-16 12:21:43 公開日:2022-09-15
# 敵対的ロバスト学習 : 汎用的ミニマックス最適学習者とキャラクタリゼーション

Adversarially Robust Learning: A Generic Minimax Optimal Learner and Characterization ( http://arxiv.org/abs/2209.07369v1 )

ライセンス: Link先を確認
Omar Montasser, Steve Hanneke, Nathan Srebro(参考訳) そこで本研究では,実例にロバストな学習予測問題に対するminimax最適学習器を提案する。 興味深いことに、これは新しいアルゴリズムのアイデアと、逆向きに堅牢な学習のためのアプローチを必要とする。 特に,強い否定的な意味では,montasser,hanneke,srebro (2019) によって提唱された頑健な学習者の下位最適性と,我々は地域学習者として認識する幅広い学習者の家族を示す。 本研究は,haussler,littlestone,warmuth (1994) による古典的一意グラフを一般化するグローバル・ワン・インクルージョングラフ (global one-inclusion graph) の重要な技術的貢献を通して,グローバル・パースペクティブ(global perspective)を採用することで実現されている。 最後に、副産物として、定性的かつ定量的にどの予測子のクラスがロバストに学習可能であるかを特徴付ける次元を同定する。 これはMontasser et al. (2019)によるオープンな問題を解決し、(潜在的に)確立された上界と下界の間の無限のギャップを、対向的に堅牢な学習のサンプル複雑性で閉じる。

We present a minimax optimal learner for the problem of learning predictors robust to adversarial examples at test-time. Interestingly, we find that this requires new algorithmic ideas and approaches to adversarially robust learning. In particular, we show, in a strong negative sense, the suboptimality of the robust learner proposed by Montasser, Hanneke, and Srebro (2019) and a broader family of learners we identify as local learners. Our results are enabled by adopting a global perspective, specifically, through a key technical contribution: the global one-inclusion graph, which may be of independent interest, that generalizes the classical one-inclusion graph due to Haussler, Littlestone, and Warmuth (1994). Finally, as a byproduct, we identify a dimension characterizing qualitatively and quantitatively what classes of predictors $\mathcal{H}$ are robustly learnable. This resolves an open problem due to Montasser et al. (2019), and closes a (potentially) infinite gap between the established upper and lower bounds on the sample complexity of adversarially robust learning.
翻訳日:2022-09-16 12:17:57 公開日:2022-09-15
# 変分オートエンコーダの幾何学的視点

A Geometric Perspective on Variational Autoencoders ( http://arxiv.org/abs/2209.07370v1 )

ライセンス: Link先を確認
Cl\'ement Chadebec, St\'ephanie Allassonni\`ere(参考訳) 本稿では,完全幾何学的視点から変分オートエンコーダフレームワークの新たな解釈を提案する。 バニラVAEモデルは、その潜在空間において自然にリーマン構造を明らかにし、これらの幾何学的側面を考慮すると、より良い補間とより良い生成手順をもたらす。 この新しいサンプリング手法は,学習されたリーマン的潜在空間から得られる一様分布からのサンプリングから成り,このスキームを用いることでバニラvaeの競合性が向上し,複数のベンチマークデータセットのより高度なバージョンよりも優れていることを示す。 生成モデルはトレーニングサンプルの数に敏感であることが知られているので、低データ構造における手法の堅牢性も強調する。

This paper introduces a new interpretation of the Variational Autoencoder framework by taking a fully geometric point of view. We argue that vanilla VAE models unveil naturally a Riemannian structure in their latent space and that taking into consideration those geometrical aspects can lead to better interpolations and an improved generation procedure. This new proposed sampling method consists in sampling from the uniform distribution deriving intrinsically from the learned Riemannian latent space and we show that using this scheme can make a vanilla VAE competitive and even better than more advanced versions on several benchmark datasets. Since generative models are known to be sensitive to the number of training samples we also stress the method's robustness in the low data regime.
翻訳日:2022-09-16 12:17:34 公開日:2022-09-15
# スコアマッチングの盲点回復に向けて

Towards Healing the Blindness of Score Matching ( http://arxiv.org/abs/2209.07396v1 )

ライセンス: Link先を確認
Mingtian Zhang and Oscar Key and Peter Hayes and David Barber and Brooks Paige and Fran\c{c}ois-Xavier Briol(参考訳) スコアベースの発散は機械学習や統計アプリケーションで広く使われている。 実験的な成功にもかかわらず、これらをマルチモーダル分布に使用する際に盲目の問題が観測されている。 そこで本研究では盲目問題を議論し,盲目問題を緩和する新たな種類を提案する。 提案手法は,密度推定の文脈において発散し,従来の手法と比較して性能が向上したことを示す。

Score-based divergences have been widely used in machine learning and statistics applications. Despite their empirical success, a blindness problem has been observed when using these for multi-modal distributions. In this work, we discuss the blindness problem and propose a new family of divergences that can mitigate the blindness problem. We illustrate our proposed divergence in the context of density estimation and report improved performance compared to traditional approaches.
翻訳日:2022-09-16 12:17:21 公開日:2022-09-15
# $\rho$-GNF : 非保守的共同ファウンダーによる新しい感度分析アプローチ

$\rho$-GNF : A Novel Sensitivity Analysis Approach Under Unobserved Confounders ( http://arxiv.org/abs/2209.07111v1 )

ライセンス: Link先を確認
Sourabh Balgi, Jose M. Pe\~na, Adel Daoud(参考訳) 因果推論のためのコプラと正規化フローを組み合わせた新しい感度解析モデルを提案する。 我々は、新しいモデルを $\rho$-GNF (\rho$-Graphical Normalizing Flow) と呼び、$\rho{\in}[-1,+1]$ は、最もよく研究され広く普及しているガウスコプラを用いてモデル化された観測不能な共役により、バックドア非因果関係を表す有界感度パラメータである。 具体的には、$\rho$-GNFは、$\rho$の関数として、フロントドア因果効果や平均因果効果(ACE)を推定し分析することができる。 これを$\rho_{curve}$と呼ぶ。 $\rho_{curve}$ は ace を無効化するために必要な結合強度を指定できる。 これを$\rho_{value}$と呼ぶ。 さらに$\rho_{curve}$は、$\rho$値の間隔が与えられた値に対して、ACEのバウンダリを提供することを可能にする。 実験的なACE境界は、他の人気のあるACE境界よりも狭いという観点から、シミュレーションおよび実世界のデータを実験することで、$\rho$-GNFの利点を説明する。

We propose a new sensitivity analysis model that combines copulas and normalizing flows for causal inference under unobserved confounding. We refer to the new model as $\rho$-GNF ($\rho$-Graphical Normalizing Flow), where $\rho{\in}[-1,+1]$ is a bounded sensitivity parameter representing the backdoor non-causal association due to unobserved confounding modeled using the most well studied and widely popular Gaussian copula. Specifically, $\rho$-GNF enables us to estimate and analyse the frontdoor causal effect or average causal effect (ACE) as a function of $\rho$. We call this the $\rho_{curve}$. The $\rho_{curve}$ enables us to specify the confounding strength required to nullify the ACE. We call this the $\rho_{value}$. Further, the $\rho_{curve}$ also enables us to provide bounds for the ACE given an interval of $\rho$ values. We illustrate the benefits of $\rho$-GNF with experiments on simulated and real-world data in terms of our empirical ACE bounds being narrower than other popular ACE bounds.
翻訳日:2022-09-16 12:17:16 公開日:2022-09-15
# Gromov-Wassersteinオートエンコーダ

Gromov-Wasserstein Autoencoders ( http://arxiv.org/abs/2209.07007v1 )

ライセンス: Link先を確認
Nao Nakagawa, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 監視信号のない簡潔なデータ表現の学習は、機械学習の基本的な課題である。 この目標に対する顕著なアプローチは、変分オートエンコーダ(英語版)(vae)のような確率に基づくモデルで、メタプライアーに基づいて潜在表現を学習する。 しかしながら、そのようなアプローチは多くの場合、導入されたメタプライオリティを適用するために元々のラバースアーキテクチャから逸脱し、彼らのトレーニングに望ましくない変化を引き起こす。 本稿では,新しい表現学習手法であるGromov-Wasserstein Autoencoders (GWAE)を提案する。 可能性に基づく目的ではなく、GWAEモデルはGromov-Wasserstein (GW) 計量を最小化することによって、事前最適化可能なトレーニングが可能となる。 GW計量は、例えば異なる次元の非可換空間上で支えられる分布間の距離構造指向の差を測定する。 トレーニング可能な事前のファミリーを制限することで、下流タスクの潜在表現を制御するメタプライアを導入することができる。 既存のVAE法との比較実験により,GWAEモデルでは,GWの目的をさらに変更することなく,前科を変更することで,メタプライヤに基づく表現を学習できることが示されている。

Learning concise data representations without supervisory signals is a fundamental challenge in machine learning. A prominent approach to this goal is likelihood-based models such as variational autoencoders (VAE) to learn latent representations based on a meta-prior, which is a general premise assumed beneficial for downstream tasks (e.g., disentanglement). However, such approaches often deviate from the original likelihood architecture to apply the introduced meta-prior, causing undesirable changes in their training. In this paper, we propose a novel representation learning method, Gromov-Wasserstein Autoencoders (GWAE), which directly matches the latent and data distributions. Instead of a likelihood-based objective, GWAE models have a trainable prior optimized by minimizing the Gromov-Wasserstein (GW) metric. The GW metric measures the distance structure-oriented discrepancy between distributions supported on incomparable spaces, e.g., with different dimensionalities. By restricting the family of the trainable prior, we can introduce meta-priors to control latent representations for downstream tasks. The empirical comparison with the existing VAE-based methods shows that GWAE models can learn representations based on meta-priors by changing the prior family without further modifying the GW objective.
翻訳日:2022-09-16 12:15:50 公開日:2022-09-15
# コンピュータビジョンにおける注意ヘッド数とトランスフォーマーエンコーダ数

Number of Attention Heads vs Number of Transformer-Encoders in Computer Vision ( http://arxiv.org/abs/2209.07221v1 )

ライセンス: Link先を確認
Tomas Hrycej, Bernhard Bermeitinger, Siegfried Handschuh(参考訳) 一方、適切な注意ヘッド数とトランスフォーマーエンコーダ数を決定することは、トランスフォーマーアーキテクチャを用いたコンピュータビジョン(cv)タスクにとって重要な選択である。 計算実験により、パラメータの総数が過剰決定条件(つまりパラメータ数を大幅に超える制約数)を満たさなければならないという期待が確認された。 そして、優れた一般化性能が期待できる。 これにより、頭数と変圧器の数を選択することができる境界を設定する。 分類される画像における文脈の役割が小さいと仮定すれば、少ない数の頭を持つ複数の変換器(例えば1つか2つ)を使用することが好ましい。 クラスが画像内のコンテキストに大きく依存する可能性があるオブジェクト(つまり、他のパッチに依存するパッチの意味)を分類する場合、頭部の数は変換器のそれと同程度に重要である。

Determining an appropriate number of attention heads on one hand and the number of transformer-encoders, on the other hand, is an important choice for Computer Vision (CV) tasks using the Transformer architecture. Computing experiments confirmed the expectation that the total number of parameters has to satisfy the condition of overdetermination (i.e., number of constraints significantly exceeding the number of parameters). Then, good generalization performance can be expected. This sets the boundaries within which the number of heads and the number of transformers can be chosen. If the role of context in images to be classified can be assumed to be small, it is favorable to use multiple transformers with a low number of heads (such as one or two). In classifying objects whose class may heavily depend on the context within the image (i.e., the meaning of a patch being dependent on other patches), the number of heads is equally important as that of transformers.
翻訳日:2022-09-16 12:15:29 公開日:2022-09-15
# 価値ベース深部RLにおける再帰シフトの爆発

Exploiting Reward Shifting in Value-Based Deep RL ( http://arxiv.org/abs/2209.07288v1 )

ライセンス: Link先を確認
Hao Sun, Lei Han, Rui Yang, Xiaoteng Ma, Jian Guo, Bolei Zhou(参考訳) 本研究では,価値に基づくDeep Reinforcement Learning(DRL)における報酬形成の単純かつ普遍的な事例について検討する。 線形変換の形での報酬シフトは、関数近似における$Q$-関数の初期化を変更することと等価であることを示す。 このような等価性に基づいて、ポジティブな報酬シフトが保守的な搾取につながり、ネガティブな報酬シフトが好奇心駆動の探索につながるという重要な洞察を与えます。 したがって、保守的利用はオフラインrl値推定を改善し、楽観的価値推定はオンラインrlの探索を改善する。 We validate our insight on a range of RL tasks and show its improvement over baselines: (1) In offline RL, the conservative exploitation leads to improved performance based on off-the-shelf algorithms; (2) In online continuous control, multiple value functions with different shifting constants can be used to tackle the exploration-exploitation dilemma for better sample efficiency; (3) In discrete control tasks, a negative reward shifting yields an improvement over the curiosity-based exploration method.

In this work, we study the simple yet universally applicable case of reward shaping in value-based Deep Reinforcement Learning (DRL). We show that reward shifting in the form of the linear transformation is equivalent to changing the initialization of the $Q$-function in function approximation. Based on such an equivalence, we bring the key insight that a positive reward shifting leads to conservative exploitation, while a negative reward shifting leads to curiosity-driven exploration. Accordingly, conservative exploitation improves offline RL value estimation, and optimistic value estimation improves exploration for online RL. We validate our insight on a range of RL tasks and show its improvement over baselines: (1) In offline RL, the conservative exploitation leads to improved performance based on off-the-shelf algorithms; (2) In online continuous control, multiple value functions with different shifting constants can be used to tackle the exploration-exploitation dilemma for better sample efficiency; (3) In discrete control tasks, a negative reward shifting yields an improvement over the curiosity-based exploration method.
翻訳日:2022-09-16 12:13:28 公開日:2022-09-15
# 一般化線形帯域に対する二重二重ロバストトンプソンサンプリング

Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits ( http://arxiv.org/abs/2209.06983v1 )

ライセンス: Link先を確認
Wonyoung Kim, Kyungbok Lee, Myunghee Cho Paik(参考訳) 本稿では,一般化線形報酬に対する新しい文脈的バンディットアルゴリズムを提案する。$\tilde{o}(\sqrt{\kappa^{-1} \phi t})$ regret over $t$ rounds ここで$\phi$は文脈の共分散の最小固有値,$\kappa$は報酬の分散の下限である。 $\phi=O(d)$ のいくつかの実例では、Auer [2002] のアプローチに頼らずに$\sqrt{d}$ の順序を持つ一般化線形モデル (GLM) バンディットに対する最初の後悔境界となる。 二重二重ロバスト(ddr)推定子(double doubly-robust)推定子(double doubly-robust (ddr) estimator)は二重ロバスト(dr)推定子(doubly-robust)のサブクラスである。 Auer [2002] のアプローチは、観測された報酬を捨てて独立性を達成する一方、我々のアルゴリズムは、我々のDDR推定器を用いて、すべての文脈を考慮した独立性を達成する。 また、確率的マージン条件の下では、$O(\kappa^{-1} \phi \log (NT) \log T)$ regret bound for $N$ arms も提供する。 境界条件下でのレグレト境界は、Bastani と Bayati [2020] と Bastani et al によって与えられる。 2021] 文脈はすべての腕に共通であるが, 係数はアーム固有である。 全てのアームでコンテキストが異なるが係数が一般的である場合、線形モデル(GLM)のマージン条件の下で最初の後悔となる。 我々は,合成データと実例を用いて経験的研究を行い,アルゴリズムの有効性を実証する。

We propose a novel contextual bandit algorithm for generalized linear rewards with an $\tilde{O}(\sqrt{\kappa^{-1} \phi T})$ regret over $T$ rounds where $\phi$ is the minimum eigenvalue of the covariance of contexts and $\kappa$ is a lower bound of the variance of rewards. In several practical cases where $\phi=O(d)$, our result is the first regret bound for generalized linear model (GLM) bandits with the order $\sqrt{d}$ without relying on the approach of Auer [2002]. We achieve this bound using a novel estimator called double doubly-robust (DDR) estimator, a subclass of doubly-robust (DR) estimator but with a tighter error bound. The approach of Auer [2002] achieves independence by discarding the observed rewards, whereas our algorithm achieves independence considering all contexts using our DDR estimator. We also provide an $O(\kappa^{-1} \phi \log (NT) \log T)$ regret bound for $N$ arms under a probabilistic margin condition. Regret bounds under the margin condition are given by Bastani and Bayati [2020] and Bastani et al. [2021] under the setting that contexts are common to all arms but coefficients are arm-specific. When contexts are different for all arms but coefficients are common, ours is the first regret bound under the margin condition for linear models or GLMs. We conduct empirical studies using synthetic data and real examples, demonstrating the effectiveness of our algorithm.
翻訳日:2022-09-16 12:12:47 公開日:2022-09-15
# 不均一効果推定のための確率木アンサンブル

Stochastic Tree Ensembles for Estimating Heterogeneous Effects ( http://arxiv.org/abs/2209.06998v1 )

ライセンス: Link先を確認
Nikolay Krantsevich, Jingyu He, P. Richard Hahn(参考訳) 特定の介入(医療または政策)に特によく(または不十分に)反応するサブグループを決定するには、因果推論に特化した新しい教師付き学習方法が必要である。 ベイジアン・カウサル・フォレスト(BCF)は、多くのアプリケーションで利用できるような、強い相反するデータ生成プロセスにおいて、よく機能する手法である。 本稿では,既存のギブス・サンプラーよりも効率的であるbcfモデルに適合する新しいアルゴリズムを開発した。 新しいアルゴリズムは、既存のギブスサンプリング器の独立鎖の初期化に使用することができ、シミュレーション研究における後部探索と関連する区間推定のカバレッジを向上させることができる。 新しいアルゴリズムは、シミュレーション研究と経験的分析によって関連するアプローチと比較される。

Determining subgroups that respond especially well (or poorly) to specific interventions (medical or policy) requires new supervised learning methods tailored specifically for causal inference. Bayesian Causal Forest (BCF) is a recent method that has been documented to perform well on data generating processes with strong confounding of the sort that is plausible in many applications. This paper develops a novel algorithm for fitting the BCF model, which is more efficient than the previously available Gibbs sampler. The new algorithm can be used to initialize independent chains of the existing Gibbs sampler leading to better posterior exploration and coverage of the associated interval estimates in simulation studies. The new algorithm is compared to related approaches via simulation studies as well as an empirical analysis.
翻訳日:2022-09-16 12:11:37 公開日:2022-09-15
# 超高次元・高関連特徴空間のための特徴選択統合深層学習

Feature Selection integrated Deep Learning for Ultrahigh Dimensional and Highly Correlated Feature Space ( http://arxiv.org/abs/2209.07011v1 )

ライセンス: Link先を確認
Arkaprabha Ganguli(参考訳) 近年のディープラーニングは、画像、遺伝学、気候、医療データなどの複雑なデータセットを解析する実験的な成功により、ほぼすべての分野において関心を集めている。 開発のほとんどはブラックボックスマシンとして扱われるが、幅広い種類のアプリケーションに適用可能な解釈可能、信頼性、堅牢なディープラーニングモデルへの関心が高まっている。 機能選択されたディープラーニングはこの点に関して有望であることが証明されている。 しかし,近年の課題は,高騒音レベルに加えて,超高次元・高相関特徴選択の状況に対処していない。 本稿では,高度に相関のある予測器と制御された誤差率をクラスタレベルで発見するための深層学習の支援により,新しいスクリーニング・クリーニング戦略を提案する。 広範囲のシミュレーションシナリオに対する徹底的な実験的な評価は,提案手法の有効性を示すものである。 さらに, このアルゴリズムをリボフラビン生産と遺伝的関連性を理解するために, リボフラビン生産データセット(vitamin $B_2$)に実装した。 提案手法の利得は,他の最先端手法と比較して予測誤差を低くすることで示される。

In recent years, deep learning has been a topic of interest in almost all disciplines due to its impressive empirical success in analyzing complex data sets, such as imaging, genetics, climate, and medical data. While most of the developments are treated as black-box machines, there is an increasing interest in interpretable, reliable, and robust deep learning models applicable to a broad class of applications. Feature-selected deep learning is proven to be promising in this regard. However, the recent developments do not address the situations of ultra-high dimensional and highly correlated feature selection in addition to the high noise level. In this article, we propose a novel screening and cleaning strategy with the aid of deep learning for the cluster-level discovery of highly correlated predictors with a controlled error rate. A thorough empirical evaluation over a wide range of simulated scenarios demonstrates the effectiveness of the proposed method by achieving high power while having a minimal number of false discoveries. Furthermore, we implemented the algorithm in the riboflavin (vitamin $B_2$) production dataset in the context of understanding the possible genetic association with riboflavin production. The gain of the proposed methodology is illustrated by achieving lower prediction error compared to other state-of-the-art methods.
翻訳日:2022-09-16 12:11:23 公開日:2022-09-15
# いくつかの関数クラスのナタラジャン次元の上界

Upper bounds on the Natarajan dimensions of some function classes ( http://arxiv.org/abs/2209.07015v1 )

ライセンス: Link先を確認
Ying Jin(参考訳) ナタラジャン次元は多クラスPAC学習可能性を特徴づける基本的なツールであり、Vapnik-Chervonenkis(VC)次元を二進法から多クラス分類問題に一般化する。 このノートは、ある函数類に対するナタラジャン次元の上界を定めている。 (i)多級決定木及びランダム森林、及び (II)バイナリ、リニア、ReLUアクティベーションを持つマルチクラスニューラルネットワーク。 これらの結果は、ある種の多クラス学習アルゴリズムのパフォーマンスを記述するのに関係があるかもしれない。

The Natarajan dimension is a fundamental tool for characterizing multi-class PAC learnability, generalizing the Vapnik-Chervonenkis (VC) dimension from binary to multi-class classification problems. This note establishes upper bounds on Natarajan dimensions for certain function classes, including (i) multi-class decision tree and random forests, and (ii) multi-class neural networks with binary, linear and ReLU activations. These results may be relevant for describing the performance of certain multi-class learning algorithms.
翻訳日:2022-09-16 12:10:51 公開日:2022-09-15
# 深い潜在変数モデル学習のためのlangevinオートエンコーダ

Langevin Autoencoders for Learning Deep Latent Variable Models ( http://arxiv.org/abs/2209.07036v1 )

ライセンス: Link先を確認
Shohei Taniguchi, Yusuke Iwasawa, Wataru Kumagai, Yutaka Matsuo(参考訳) ランゲヴィン力学のようなマルコフ連鎖モンテカルロ(MCMC)は、難解分布の近似に有効である。 しかしながら、データポイント毎のサンプリングイテレーションのコストと収束の遅いため、その使用は深い潜伏変数モデルの文脈で制限されている。 本稿では,データポイント毎のmcmcイテレーションを,観測結果を潜在変数にマッピングするエンコーダの更新に置き換える,amortized langevin dynamics (ald)を提案する。 このアモータイズにより、データポイントワイドイテレーションを使わずに効率的な後方サンプリングが可能となる。 その効率にもかかわらず、aldはmcmcアルゴリズムとして有効であることを証明し、そのマルコフ連鎖は穏やかな仮定の下での定常分布として後方にターゲットを持つ。 また、ALDに基づいて、Langevin autoencoder (LAE) という新しい深層潜伏変数モデルを提案する。 興味深いことに、LAEは従来のオートエンコーダを少し変更することで実装できる。 複数の合成データセットを用いて、ALDがターゲット後部からのサンプルを適切に取得できることを検証する。 また,画像生成タスクにおけるlaeを評価した結果,変動オートエンコーダなどの変分推論や,他のmcmcベースの手法において,テスト可能性の観点から,laeが既存の手法よりも優れることを示した。

Markov chain Monte Carlo (MCMC), such as Langevin dynamics, is valid for approximating intractable distributions. However, its usage is limited in the context of deep latent variable models owing to costly datapoint-wise sampling iterations and slow convergence. This paper proposes the amortized Langevin dynamics (ALD), wherein datapoint-wise MCMC iterations are entirely replaced with updates of an encoder that maps observations into latent variables. This amortization enables efficient posterior sampling without datapoint-wise iterations. Despite its efficiency, we prove that ALD is valid as an MCMC algorithm, whose Markov chain has the target posterior as a stationary distribution under mild assumptions. Based on the ALD, we also present a new deep latent variable model named the Langevin autoencoder (LAE). Interestingly, the LAE can be implemented by slightly modifying the traditional autoencoder. Using multiple synthetic datasets, we first validate that ALD can properly obtain samples from target posteriors. We also evaluate the LAE on the image generation task, and show that our LAE can outperform existing methods based on variational inference, such as the variational autoencoder, and other MCMC-based methods in terms of the test likelihood.
翻訳日:2022-09-16 12:10:40 公開日:2022-09-15
# 時系列情報を用いた非線形予測モデルの効率的な学習

Efficient learning of nonlinear prediction models with time-series privileged information ( http://arxiv.org/abs/2209.07067v1 )

ライセンス: Link先を確認
Bastian Jung and Fredrik D Johansson(参考訳) サンプルサイズが限られている領域では、効率的な学習アルゴリズムが重要である。 特権情報(LuPI)を用いた学習は、モデルの使用時に利用できないトレーニング時に、予測モデルが情報の種類にアクセスできるようにすることで、サンプル効率を高める。 近年の研究では、線形ガウス力学系において、中間時系列データにアクセス可能なLuPI学習者は、偏りのない古典的学習者よりも予測が悪く、予測が優れていることが示されている。 この解析に新たな知見を与え, 潜在力学系における非線形予測タスクに一般化し, 潜在変数と観測を連結する写像が線形変換まで知られている場合への理論的保証を拡張した。 さらに,この地図が未知である場合のランダム特徴と表現学習に基づくアルゴリズムを提案する。 一連の実験結果が理論的知見を検証し、非線形予測における特権時系列情報の利用の可能性を示す。

In domains where sample sizes are limited, efficient learning algorithms are critical. Learning using privileged information (LuPI) offers increased sample efficiency by allowing prediction models access to types of information at training time which is unavailable when the models are used. In recent work, it was shown that for prediction in linear-Gaussian dynamical systems, a LuPI learner with access to intermediate time series data is never worse and often better in expectation than any unbiased classical learner. We provide new insights into this analysis and generalize it to nonlinear prediction tasks in latent dynamical systems, extending theoretical guarantees to the case where the map connecting latent variables and observations is known up to a linear transform. In addition, we propose algorithms based on random features and representation learning for the case when this map is unknown. A suite of empirical results confirm theoretical findings and show the potential of using privileged time-series information in nonlinear prediction.
翻訳日:2022-09-16 12:10:19 公開日:2022-09-15
# 凸損失を伴うリスクアウェアリニアバンディット

Risk-aware linear bandits with convex loss ( http://arxiv.org/abs/2209.07154v1 )

ライセンス: Link先を確認
Patrick Saux (CRIStAL, Scool), Odalric-Ambrym Maillard (Scool)(参考訳) マルチアームバンディットのような意思決定問題において、エージェントは特定のフィードバックを最適化して順次学習する。 平均報酬基準は広く研究されているが、平均分散や条件付きリスク(CVaR)といった有害な結果への嫌悪を反映した他の手段は、重要な応用(医療、農業)にとって関心がある。 文脈情報のない帯域フィードバックに基づくリスク認識手法のアルゴリズムが提案されている。 本研究では,凸損失の最小化を通じて,そのようなリスク対策をコンテキストの線形関数として適用可能なコンテキスト的帯域について検討する。 この枠組みに適合する典型的な例は、非対称な最小二乗問題の解として得られる期待測度である。 スーパーマーチンガレットの混合法を用いて,そのようなリスク尺度を推定するための信頼シーケンスを導出する。 そこで我々は,線形帯域幅の一般化に類似した,最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。 このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを若干の後悔を伴って緩和することができる。 数値実験で得られたアルゴリズムを評価して結論づける。

In decision-making problems such as the multi-armed bandit, an agent learns sequentially by optimizing a certain feedback. While the mean reward criterion has been extensively studied, other measures that reflect an aversion to adverse outcomes, such as mean-variance or conditional value-at-risk (CVaR), can be of interest for critical applications (healthcare, agriculture). Algorithms have been proposed for such risk-aware measures under bandit feedback without contextual information. In this work, we study contextual bandits where such risk measures can be elicited as linear functions of the contexts through the minimization of a convex loss. A typical example that fits within this framework is the expectile measure, which is obtained as the solution of an asymmetric least-square problem. Using the method of mixtures for supermartingales, we derive confidence sequences for the estimation of such risk measures. We then propose an optimistic UCB algorithm to learn optimal risk-aware actions, with regret guarantees similar to those of generalized linear bandits. This approach requires solving a convex problem at each round of the algorithm, which we can relax by allowing only approximated solution obtained by online gradient descent, at the cost of slightly higher regret. We conclude by evaluating the resulting algorithms on numerical experiments.
翻訳日:2022-09-16 12:10:04 公開日:2022-09-15
# サブリニア通信を用いた分散スパース線形回帰

Distributed Sparse Linear Regression with Sublinear Communication ( http://arxiv.org/abs/2209.07230v1 )

ライセンス: Link先を確認
Chen Amiraz, Robert Krauthgamer and Boaz Nadler(参考訳) 本研究では,分散環境における高次元スパース線形回帰問題について,計算および通信の制約下で検討する。 具体的には、複数の機械が融合センターに接続され、比較的短いメッセージを交換できる恒星トポロジーネットワークを考える。 各マシンは、同じ未知のsparse $d$-dimensional vector of regression coefficients $\theta$を持つ線形回帰モデルからのノイズのサンプルを保持する。 fusion centerの目標は、ベクトル $\theta$とそのサポートを計算と各マシンでの限られた通信を使って見積もることである。 本研究では,直交マッチング追跡(omp)に基づく分散アルゴリズムを検討し,理論上は$\theta$のサポートを正確に回復する能力について検討する。 特定の条件下では、各マシンが$\theta$の分散OMPメソッドのサポートを検出できない低信号対雑音比であっても、$d$の通信サブリニアで正しく回復することが証明されている。 さらに,分散ompアルゴリズムの性能を示すシミュレーションを行い,より高度で計算集約的な手法と同様に動作し,場合によってはその性能を上回っていることを示す。

We study the problem of high-dimensional sparse linear regression in a distributed setting under both computational and communication constraints. Specifically, we consider a star topology network whereby several machines are connected to a fusion center, with whom they can exchange relatively short messages. Each machine holds noisy samples from a linear regression model with the same unknown sparse $d$-dimensional vector of regression coefficients $\theta$. The goal of the fusion center is to estimate the vector $\theta$ and its support using few computations and limited communication at each machine. In this work, we consider distributed algorithms based on Orthogonal Matching Pursuit (OMP) and theoretically study their ability to exactly recover the support of $\theta$. We prove that under certain conditions, even at low signal-to-noise-ratios where individual machines are unable to detect the support of $\theta$, distributed-OMP methods correctly recover it with total communication sublinear in $d$. In addition, we present simulations that illustrate the performance of distributed OMP-based algorithms and show that they perform similarly to more sophisticated and computationally intensive methods, and in some cases even outperform them.
翻訳日:2022-09-16 12:09:41 公開日:2022-09-15
# 形態認識型インタラクティブキーポイント推定

Morphology-Aware Interactive Keypoint Estimation ( http://arxiv.org/abs/2209.07163v1 )

ライセンス: Link先を確認
Jinhee Kim, Taesung Kim, Taewoo Kim, Jaegul Choo, Dong-Wook Kim, Byungduk Ahn, In-Seok Song, Yoon-Ji Kim(参考訳) X線画像のような医療画像に基づく診断は、しばしば解剖学的キーポイントのマニュアルアノテーションを含む。 しかし、このプロセスは人間の多大な努力を伴い、診断プロセスにおいてボトルネックとなる可能性がある。 この手順を完全に自動化するために、深層学習に基づく手法が広く提案され、医用画像のキーポイントの検出において高い性能を実現している。 しかし、これらの手法には臨床上の限界があり、すべてのケースで正確性を保証することは不可能であり、医師がモデルの予測をダブルチェックする必要がある。 そこで本研究では,X線画像を用いて,医師が手動による修正よりも少ないクリックで誤予測キーポイントを修正可能なユーザ対話システムを通じて,解剖学的キーポイントを自動的に検出・洗練する,新しいディープニューラルネットワークを提案する。 筆者らが収集したデータと公開されているaasceデータセットを用いて,提案手法の有効性を実証する。 私たちのアプローチのデモビデオは、私たちのプロジェクトのwebページで閲覧できます。

Diagnosis based on medical images, such as X-ray images, often involves manual annotation of anatomical keypoints. However, this process involves significant human efforts and can thus be a bottleneck in the diagnostic process. To fully automate this procedure, deep-learning-based methods have been widely proposed and have achieved high performance in detecting keypoints in medical images. However, these methods still have clinical limitations: accuracy cannot be guaranteed for all cases, and it is necessary for doctors to double-check all predictions of models. In response, we propose a novel deep neural network that, given an X-ray image, automatically detects and refines the anatomical keypoints through a user-interactive system in which doctors can fix mispredicted keypoints with fewer clicks than needed during manual revision. Using our own collected data and the publicly available AASCE dataset, we demonstrate the effectiveness of the proposed method in reducing the annotation costs via extensive quantitative and qualitative results. A demo video of our approach is available on our project webpage.
翻訳日:2022-09-16 12:06:26 公開日:2022-09-15
# ファウショット言語モデルファインチューニングのためのコールドスタートデータ選択:プロンプトに基づく不確実性伝播アプローチ

Cold-Start Data Selection for Few-shot Language Model Fine-tuning: A Prompt-Based Uncertainty Propagation Approach ( http://arxiv.org/abs/2209.06995v1 )

ライセンス: Link先を確認
Yue Yu, Rongzhi Zhang, Ran Xu, Jieyu Zhang, Jiaming Shen, Chao Zhang(参考訳) PATRONは,コールドスタートシナリオ下での訓練済み言語モデルの微調整のためのデータ選択に対して,即時不確実性を推定する新しい手法である。 提案手法では,(1)データポイントの重要度を推定するためのプロンプトベース不確実性伝播手法,(2)アノテーションのクエリ時にサンプルの多様性を促進するためのパーティショニング-then-rewrite(ptr)戦略を設計する。 6つのテキスト分類データセットの実験では、PATRONは最も強いコールドスタートデータ選択ベースラインを最大6.9%上回っている。 さらに、128のラベルだけで、PATRONは、それぞれバニラ微調整とプロンプトベースの学習に基づいて、完全な教師付きパフォーマンスの91.0%と92.1%を達成する。 PATRONの実装は \url{https://github.com/yueyu1030/Patron} で利用可能です。

We propose PATRON, a new method that uses prompt-based uncertainty estimation for data selection for pre-trained language model fine-tuning under cold-start scenarios, i.e., no initial labeled data are available. In PATRON, we design (1) a prompt-based uncertainty propagation approach to estimate the importance of data points and (2) a partition-then-rewrite (PTR) strategy to promote sample diversity when querying for annotations. Experiments on six text classification datasets show that PATRON outperforms the strongest cold-start data selection baselines by up to 6.9%. Besides, with 128 labels only, PATRON achieves 91.0% and 92.1% of the fully supervised performance based on vanilla fine-tuning and prompt-based learning respectively. Our implementation of PATRON is available at \url{https://github.com/yueyu1030/Patron}.
翻訳日:2022-09-16 12:05:33 公開日:2022-09-15
# CommunityLM: 言語モデルから党派世界観を探る

CommunityLM: Probing Partisan Worldviews from Language Models ( http://arxiv.org/abs/2209.07065v1 )

ライセンス: Link先を確認
Hang Jiang, Doug Beeferman, Brandon Roy, Deb Roy(参考訳) アメリカでは政治的態度がイデオロギー的に多様化しているため、政治的発言は言語的に多様化している。 米国の政党間の極楽化は、両者の相互理解の侵食によって加速している。 コミュニティ言語モデルであるCommunityLMを用いて,同じ質問に対するコミュニティ固有の回答を探索するフレームワークにより,これらのコミュニティをより理解しやすくすることを目指している。 当社のフレームワークでは、Twitter上の各コミュニティのコミットされたパルチザンメンバーと、彼らによって書かれたツイートに関する微調整LMを識別しています。 次に,米国国家選挙研究会(anes)2020年探索試験調査によって調査された公的人物や団体に対する意見を明らかにするプロンプトを用いて,両グループの世界観を評価する。 lmsが生成した応答を anes 調査結果と比較し,いくつかのベースライン法を大幅に越えたアライメントレベルを見いだした。 本研究の目的は,ソーシャルメディアの議論やメディアダイエットを十分に多用した,あらゆるグループの世界観を問うために,コミュニティLMを利用できることを示すことである。

As political attitudes have diverged ideologically in the United States, political speech has diverged lingusitically. The ever-widening polarization between the US political parties is accelerated by an erosion of mutual understanding between them. We aim to make these communities more comprehensible to each other with a framework that probes community-specific responses to the same survey questions using community language models CommunityLM. In our framework we identify committed partisan members for each community on Twitter and fine-tune LMs on the tweets authored by them. We then assess the worldviews of the two groups using prompt-based probing of their corresponding LMs, with prompts that elicit opinions about public figures and groups surveyed by the American National Election Studies (ANES) 2020 Exploratory Testing Survey. We compare the responses generated by the LMs to the ANES survey results, and find a level of alignment that greatly exceeds several baseline methods. Our work aims to show that we can use community LMs to query the worldview of any group of people given a sufficiently large sample of their social media discussions or media diet.
翻訳日:2022-09-16 12:05:14 公開日:2022-09-15
# 未知および未知のニュアサンス因子の分離による弱教師付き不変表現学習

Weakly Supervised Invariant Representation Learning Via Disentangling Known and Unknown Nuisance Factors ( http://arxiv.org/abs/2209.06827v1 )

ライセンス: Link先を確認
Jiageng Zhu, Hanchen Xie, Wael Abd-Almageed(参考訳) 不等角表現と不変表現は表現学習の2つの重要な目標であり、それらのどちらかを達成するために多くのアプローチが提案されている。 しかし,これら2つの目標が互いに相補的であることから,両者を同時に達成するためのフレームワークを提案する。 本稿では,予測的,未知のニュアンス情報を含む3つの分割からなる不整合表現を学習するために,弱教師付き信号を導入する。 さらに,表現不変性を強制するためにコントラスト法を取り入れた。 実験の結果,提案手法は4つの標準ベンチマークにおいて最先端(SOTA)手法より優れており,対戦型トレーニングを伴わない他の手法と比較して,対戦型防御能力を向上できることが示された。

Disentangled and invariant representations are two critical goals of representation learning and many approaches have been proposed to achieve either one of them. However, those two goals are actually complementary to each other so that we propose a framework to accomplish both of them simultaneously. We introduce a weakly supervised signal to learn disentangled representation which consists of three splits containing predictive, known nuisance and unknown nuisance information respectively. Furthermore, we incorporate contrastive method to enforce representation invariance. Experiments shows that the proposed method outperforms state-of-the-art (SOTA) methods on four standard benchmarks and shows that the proposed method can have better adversarial defense ability comparing to other methods without adversarial training.
翻訳日:2022-09-16 12:04:55 公開日:2022-09-15
# 時系列分類のための一般化表現学習

Generalized Representations Learning for Time Series Classification ( http://arxiv.org/abs/2209.07027v1 )

ライセンス: Link先を確認
Wang Lu, Jindong Wang, Xinwei Sun, Yiqiang Chen, Xing Xie(参考訳) 時系列分類は現実世界において重要な問題である。 分布が時間とともに変化するという非定常性のため、未知の分布への一般化のためのモデルを構築することは依然として困難である。 本稿では,分布の観点から時系列分類問題を検討することを提案する。 時間的複雑性は未知の潜伏分布に起因していると主張する。 そこで本研究では,時系列分類のための一般化表現を学習するためのDIVERSIFYを提案する。 DIVERSIFYは反復的なプロセスをとり、まず敵の訓練を通じて最悪の場合の分布シナリオを取得し、次に得られたサブドメインの分布と一致させる。 理論的な洞察も提示する。 本研究では, ジェスチャー認識, 音声コマンド認識, ウェアラブルストレスと感情検出, センサによる人間行動認識を, 合計7つのデータセットで実験した。 その結果、DIVERSIFYは他のベースラインを著しく上回り、質的、定量的な分析によって潜伏分布を効果的に特徴づけた。

Time series classification is an important problem in real world. Due to its non-stationary property that the distribution changes over time, it remains challenging to build models for generalization to unseen distributions. In this paper, we propose to view the time series classification problem from the distribution perspective. We argue that the temporal complexity attributes to the unknown latent distributions within. To this end, we propose DIVERSIFY to learn generalized representations for time series classification. DIVERSIFY takes an iterative process: it first obtains the worst-case distribution scenario via adversarial training, then matches the distributions of the obtained sub-domains. We also present some theoretical insights. We conduct experiments on gesture recognition, speech commands recognition, wearable stress and affect detection, and sensor-based human activity recognition with a total of seven datasets in different settings. Results demonstrate that DIVERSIFY significantly outperforms other baselines and effectively characterizes the latent distributions by qualitative and quantitative analysis.
翻訳日:2022-09-16 12:04:40 公開日:2022-09-15
# 安全政策最適化のための制約付き更新プロジェクションアプローチ

Constrained Update Projection Approach to Safe Policy Optimization ( http://arxiv.org/abs/2209.07089v1 )

ライセンス: Link先を確認
Long Yang, Jiaming Ji, Juntao Dai, Linrui Zhang, Binbin Zhou, Pengfei Li, Yaodong Yang, Gang Pan(参考訳) 安全強化学習(RL)は、知的エージェントが報酬を最大化するだけでなく、安全でない領域の探索を避ける必要がある問題を研究する。 本研究では,厳格な安全保証を享受するConstrained Update Projectionフレームワークに基づく新しいポリシー最適化手法であるCUPを提案する。 当社のCUP開発の中心は、新たに提案されたサロゲート関数とパフォーマンスバウンドです。 従来の安全RL法と比較して、CUPは利点を享受する 1) CUPは代理関数を一般化し、一般化された優位推定器(GAE)を一般化し、強い経験的性能をもたらす。 2) CUPはパフォーマンスバウンダリを統一し、既存のアルゴリズムの理解と解釈性を向上する。 3) CUPは1次オプティマイザのみによる非凸実装を提供するが, 目的の凸性に対する強い近似は不要である。 CUP法を検証するため,幅広いタスクにおいて安全なRLベースラインの包括的リストと比較した。 報酬と安全制約満足度の観点からCUPの有効性を示す実験を行った。 我々はCUPのソースコードをhttps://github.com/RL-boxes/Safe-RL/tree/ main/CUPで公開しました。

Safe reinforcement learning (RL) studies problems where an intelligent agent has to not only maximize reward but also avoid exploring unsafe areas. In this study, we propose CUP, a novel policy optimization method based on Constrained Update Projection framework that enjoys rigorous safety guarantee. Central to our CUP development is the newly proposed surrogate functions along with the performance bound. Compared to previous safe RL methods, CUP enjoys the benefits of 1) CUP generalizes the surrogate functions to generalized advantage estimator (GAE), leading to strong empirical performance. 2) CUP unifies performance bounds, providing a better understanding and interpretability for some existing algorithms; 3) CUP provides a non-convex implementation via only first-order optimizers, which does not require any strong approximation on the convexity of the objectives. To validate our CUP method, we compared CUP against a comprehensive list of safe RL baselines on a wide range of tasks. Experiments show the effectiveness of CUP both in terms of reward and safety constraint satisfaction. We have opened the source code of CUP at https://github.com/RL-boxes/Safe-RL/tree/ main/CUP.
翻訳日:2022-09-16 12:04:26 公開日:2022-09-15
# アクティベーションおよびスキップ接続探索によるNASの一般化特性

Generalization Properties of NAS under Activation and Skip Connection Search ( http://arxiv.org/abs/2209.07238v1 )

ライセンス: Link先を確認
Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher(参考訳) ニューラルアーキテクチャサーチ(NAS)は、画像認識における最先端の精度を達成するニューラルアーキテクチャの自動発見を促進する。 NASの進歩にもかかわらず、NASに関する理論的保証はほとんど注目されていない。 本研究では,NASの一般化特性について,(深層)接続探索とアクティベーション関数探索を可能にする統一フレームワークを用いて検討する。 この目的のために、(in)finite width regime下の(in)finite width regimeにおける神経接核の最小固有値の下(および上)境界を、混合活性化関数、完全連結ニューラルネットワーク、残留ニューラルネットワークを含む探索空間から導出する。 我々の分析は、統一フレームワークの下で様々なアーキテクチャとアクティベーション関数が結合しているため、非自明である。 次に,固有値境界を利用して確率勾配降下訓練におけるNASの一般化誤差境界を確立する。 重要な点は,本理論に基づくトレーニングフリーなアルゴリズムを実現するために,nasによるトップパフォーマンスアーキテクチャの選択を理論的に実験的に示すことである。 その結果,nasのための計算効率の高い手法の設計に光を当てた。

Neural Architecture Search (NAS) has fostered the automatic discovery of neural architectures, which achieve state-of-the-art accuracy in image recognition. Despite the progress achieved with NAS, so far there is little attention to theoretical guarantees on NAS. In this work, we study the generalization properties of NAS under a unifying framework enabling (deep) layer skip connection search and activation function search. To this end, we derive the lower (and upper) bounds of the minimum eigenvalue of Neural Tangent Kernel under the (in)finite width regime from a search space including mixed activation functions, fully connected, and residual neural networks. Our analysis is non-trivial due to the coupling of various architectures and activation functions under the unifying framework. Then, we leverage the eigenvalue bounds to establish generalization error bounds of NAS in the stochastic gradient descent training. Importantly, we theoretically and experimentally show how the derived results can guide NAS to select the top-performing architectures, even in the case without training, leading to a training-free algorithm based on our theory. Accordingly, our numerical validation shed light on the design of computationally efficient methods for NAS.
翻訳日:2022-09-16 12:04:07 公開日:2022-09-15
# 深層学習におけるロバスト性:良い(幅)、悪い(深さ)、い(初期化)

Robustness in deep learning: The good (width), the bad (depth), and the ugly (initialization) ( http://arxiv.org/abs/2209.07263v1 )

ライセンス: Link先を確認
Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher(参考訳) 本研究では,(選択された)幅,幅,深さ,浅い深層ニューラルネットワークにおける平均ロバスト性概念と,怠け者および非怠慢なトレーニング設定について検討した。 低パラメータ設定では幅が負の効果を持つが、過パラメータ設定では頑健性が向上する。 深さの影響は初期化と訓練モードに大きく依存する。 特に、LeCunの初期化で初期化されると、deepは遅延トレーニング体制の堅牢性に役立つ。 対照的に、Neural Tangent Kernel(NTK)とHe-initializationを初期化すると、深さが頑丈さを損なう。 さらに,非遅延学習体制下では,2層ReLUネットワークの幅が堅牢性に与える影響を実証する。 我々の理論的発展は、Huangらによる結果を改善する。 [2021年, Wu et al] [2021] は Bubeck および Sellke [2021], Bubeck et al と一致している。 [2021].

We study the average robustness notion in deep neural networks in (selected) wide and narrow, deep and shallow, as well as lazy and non-lazy training settings. We prove that in the under-parameterized setting, width has a negative effect while it improves robustness in the over-parameterized setting. The effect of depth closely depends on the initialization and the training mode. In particular, when initialized with LeCun initialization, depth helps robustness with lazy training regime. In contrast, when initialized with Neural Tangent Kernel (NTK) and He-initialization, depth hurts the robustness. Moreover, under non-lazy training regime, we demonstrate how the width of a two-layer ReLU network benefits robustness. Our theoretical developments improve the results by Huang et al. [2021], Wu et al. [2021] and are consistent with Bubeck and Sellke [2021], Bubeck et al. [2021].
翻訳日:2022-09-16 12:03:46 公開日:2022-09-15
# 事前学習型マルチモーダルトランスとツインズ負サンプリングによる知識グラフ補完

Knowledge Graph Completion with Pre-trained Multimodal Transformer and Twins Negative Sampling ( http://arxiv.org/abs/2209.07084v1 )

ライセンス: Link先を確認
Yichi Zhang, Wen Zhang(参考訳) 世界知識を構造的三重項としてモデル化する知識グラフ(KG)は必然的に不完全である。 このような問題は、MMKG(Multimodal knowledge graph)にも残っている。 このように、知識グラフ補完(KGC)は、既存のKGの欠落三重項を予測する上で非常に重要である。 既存のKGC法では、埋め込みベースの手法はマルチモーダル情報を活用するために手動設計に依存しているが、ファインチューンベースの手法はリンク予測における埋め込み方式よりも優れている。 これらの問題に対処するために、VisualBERTによる知識グラフ補完モデル(略してVBKGC)を提案する。 VBKGCは、エンティティの深く融合したマルチモーダル情報をキャプチャし、それらをKGCモデルに統合することができる。 さらに、ツインズ負サンプリングと呼ばれる新しい負サンプリング戦略を設計することで、KGCモデルの共設計と負サンプリングを実現する。 双対負サンプリングはマルチモーダルシナリオに適しており、エンティティに対する異なる埋め込みを調整できる。 本稿では,リンク予測タスクにおけるVBKGCの優れた性能を示すための広範な実験を行い,さらにVBKGCの探索を行う。

Knowledge graphs (KGs) that modelings the world knowledge as structural triples are inevitably incomplete. Such problems still exist for multimodal knowledge graphs (MMKGs). Thus, knowledge graph completion (KGC) is of great importance to predict the missing triples in the existing KGs. As for the existing KGC methods, embedding-based methods rely on manual design to leverage multimodal information while finetune-based approaches are not superior to embedding-based methods in link prediction. To address these problems, we propose a VisualBERT-enhanced Knowledge Graph Completion model (VBKGC for short). VBKGC could capture deeply fused multimodal information for entities and integrate them into the KGC model. Besides, we achieve the co-design of the KGC model and negative sampling by designing a new negative sampling strategy called twins negative sampling. Twins negative sampling is suitable for multimodal scenarios and could align different embeddings for entities. We conduct extensive experiments to show the outstanding performance of VBKGC on the link prediction task and make further exploration of VBKGC.
翻訳日:2022-09-16 12:01:27 公開日:2022-09-15
# 機械翻訳のための大規模な事前学習言語モデル:そのことについて知らないこと

Examining Large Pre-Trained Language Models for Machine Translation: What You Don't Know About It ( http://arxiv.org/abs/2209.07417v1 )

ライセンス: Link先を確認
Lifeng Han, Gleb Erofeev, Irina Sorokina, Serge Gladkoff, Goran Nenadic(参考訳) 事前訓練された言語モデル(PLM)は、特定のタスクにデプロイする前に一般または混在したドメイン知識を取得するために、オンラインで自由に利用できるモノリンガルおよび多言語データセットを利用することが多い。 機械翻訳(MT)タスクなど,小型のPLMよりも優れた性能を主張するために,xLPLM(extra-large PLM)を提案する。 これらのxLPLMにはMeta-AIのwmt21-dense-24-wide-en-XとNLLBが含まれる。 この研究では、xLPLM がドメイン固有の MT への微調整において、より小さな PLM よりも絶対的に優れているかどうかを検討する。 We use two different different in- domain data of different size: commercial car in-house data and \textbf{clinical} shared task data from the ClinSpEn2022 Challenge at WMT2022。 我々は,Marian Helsinki を小型 PLM として,Meta-AI から大容量 Mega-Transformer を xLPLM として選択した。 我々の実験的調査は 1) 小型のドメイン内商用自動車データでは, 微調整後のスコア上昇率がマリアンよりも低いにもかかわらず, S\textsc{acre}BLEU および hLEPOR 測定値を用いた評価スコアは, 実際により優れている。 2) ClinSpEnによる2つのサブタスク(クリニカル用語とオントロジー概念)において,xLPLM NLLB \textbf{tends to lose} という比較的大規模な臨床データマイニングでは,METEOR,COMET,ROUGE-L,S\textsc{acre}BLEU,BLEUを含むすべての指標でMarian on Task-1(クリニカルケース)を完全に失っている。 3) \textbf{metrics は、同じモデル出力を使用して同じタスクで互いに一致するとは限らない。

Pre-trained language models (PLMs) often take advantage of the monolingual and multilingual dataset that is freely available online to acquire general or mixed domain knowledge before deployment into specific tasks. Extra-large PLMs (xLPLMs) are proposed very recently to claim supreme performances over smaller-sized PLMs such as in machine translation (MT) tasks. These xLPLMs include Meta-AI's wmt21-dense-24-wide-en-X and NLLB. \textit{In this work, we examine if xLPLMs are absolutely superior to smaller-sized PLMs in fine-tuning toward domain-specific MTs.} We use two different in-domain data of different sizes: commercial automotive in-house data and \textbf{clinical} shared task data from the ClinSpEn2022 challenge at WMT2022. We choose popular Marian Helsinki as smaller sized PLM and two massive-sized Mega-Transformers from Meta-AI as xLPLMs. Our experimental investigation shows that 1) on smaller sized in-domain commercial automotive data, xLPLM wmt21-dense-24-wide-en-X indeed shows much better evaluation scores using S\textsc{acre}BLEU and hLEPOR metrics than smaller-sized Marian, even though its score increase rate is lower than Marian after fine-tuning; 2) on relatively larger-size well prepared clinical data fine-tuning, the xLPLM NLLB \textbf{tends to lose} its advantage over smaller-sized Marian on two sub-tasks (clinical terms and ontology concepts) using ClinSpEn offered metrics METEOR, COMET, and ROUGE-L, and totally lost to Marian on Task-1 (clinical cases) on all metrics including S\textsc{acre}BLEU and BLEU; 3) \textbf{metrics do not always agree} with each other on the same tasks using the same model outputs.
翻訳日:2022-09-16 12:01:10 公開日:2022-09-15
# 医学的視覚・言語事前学習のためのマルチモーダルマスクオートエンコーダ

Multi-Modal Masked Autoencoders for Medical Vision-and-Language Pre-Training ( http://arxiv.org/abs/2209.07098v1 )

ライセンス: Link先を確認
Zhihong Chen, Yuhao Du, Jinpeng Hu, Yang Liu, Guanbin Li, Xiang Wan, Tsung-Hui Chang(参考訳) 医学的視覚・言語事前学習は、医療画像やテキストから効果的な視覚・言語表現を抽出するための実現可能なソリューションを提供する。 しかし、医学的ビジョンと言語理解を促進するために、この分野に献身された研究は少ない。 本稿では,マルチモーダルマスク付きオートエンコーダ(M$^3$AE)を用いた自己教師型学習パラダイムを提案する。 このシンプルなアプローチを機能させるためには、3つの重要な設計がある。 まず、視覚と言語の異なる情報密度を考慮すると、入力画像とテキストに対して異なるマスキング比を採用し、画像に対してかなり大きなマスキング比を用いる。 第二に、異なるレイヤの視覚的特徴とテキスト的特徴を使用して、視覚的および言語における異なるレベルの抽象化に対処する再構築を行います。 第3に、視覚と言語デコーダの異なる設計(つまり、視覚の変換器と言語のための多層パーセプトロン)を開発する。 包括的評価を行い,さらなる研究を促進するために,3つのタスクを含む医用視覚・言語ベンチマークを構築した。 実験結果は,すべてのダウンストリームタスクにおいて最先端の成果が達成される手法の有効性を示す。 さらに,アプローチの異なるコンポーネントの有効性と事前学習のさまざまな設定をよりよく検証するために,さらなる分析を行う。 ソースコードは~\url{https://github.com/zhjohnchan/M3AE}で入手できる。

Medical vision-and-language pre-training provides a feasible solution to extract effective vision-and-language representations from medical images and texts. However, few studies have been dedicated to this field to facilitate medical vision-and-language understanding. In this paper, we propose a self-supervised learning paradigm with multi-modal masked autoencoders (M$^3$AE), which learn cross-modal domain knowledge by reconstructing missing pixels and tokens from randomly masked images and texts. There are three key designs to make this simple approach work. First, considering the different information densities of vision and language, we adopt different masking ratios for the input image and text, where a considerably larger masking ratio is used for images. Second, we use visual and textual features from different layers to perform the reconstruction to deal with different levels of abstraction in visual and language. Third, we develop different designs for vision and language decoders (i.e., a Transformer for vision and a multi-layer perceptron for language). To perform a comprehensive evaluation and facilitate further research, we construct a medical vision-and-language benchmark including three tasks. Experimental results demonstrate the effectiveness of our approach, where state-of-the-art results are achieved on all downstream tasks. Besides, we conduct further analysis to better verify the effectiveness of different components of our approach and various settings of pre-training. The source code is available at~\url{https://github.com/zhjohnchan/M3AE}.
翻訳日:2022-09-16 12:00:23 公開日:2022-09-15
# 整列、理性、学習: 知識による医学的ビジョンと言語事前学習の強化

Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with Knowledge ( http://arxiv.org/abs/2209.07118v1 )

ライセンス: Link先を確認
Zhihong Chen, Guanbin Li, Xiang Wan(参考訳) medical vision-and-language pre-training (med-vlp) は、医学画像やテキストから汎用的な視覚言語表現を抽出することができるため、多くの注目を集めている。 既存の手法の多くは、ユニモーダルエンコーダ(視覚エンコーダと言語エンコーダ)、マルチモーダル融合モジュール、プリテキストタスクの3つの要素を含み、医療領域の専門家の知識の重要性を考慮し、そのような知識を明示的に活用してmed-vlpを促進する研究はほとんどない。 一般領域には知識に富んだビジョン・アンド・ランゲージ事前学習(VLP)法があるが、ほとんどの場合、医学領域では利用できない既製のツールキット(オブジェクト検出器やシーングラフ解析器など)を必要とする。 本稿では,3つの視点から,構造化医療知識によるMed-VLP向上のための体系的,効果的なアプローチを提案する。 まず,知識を視覚と言語の間の中間媒体とみなすことで,視覚エンコーダと言語エンコーダの表現を知識を通して整合させる。 次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。 第3に,知識によって引き起こされる前文タスクを設計することにより,画像やテキストの最も重要な情報に重きを置くようにモデルを指導する。 包括的評価を行い,さらなる研究を促進するために,3つのタスクを含む医用視覚・言語ベンチマークを構築した。 実験結果から,全ての下流タスクにおける最先端性能を実現する手法の有効性が示された。 さらに、我々のアプローチの異なるコンポーネントの効果と事前学習の様々な設定について検討する。

Medical vision-and-language pre-training (Med-VLP) has received considerable attention owing to its applicability to extracting generic vision-and-language representations from medical images and texts. Most existing methods mainly contain three elements: uni-modal encoders (i.e., a vision encoder and a language encoder), a multi-modal fusion module, and pretext tasks, with few studies considering the importance of medical domain expert knowledge and explicitly exploiting such knowledge to facilitate Med-VLP. Although there exist knowledge-enhanced vision-and-language pre-training (VLP) methods in the general domain, most require off-the-shelf toolkits (e.g., object detectors and scene graph parsers), which are unavailable in the medical domain. In this paper, we propose a systematic and effective approach to enhance Med-VLP by structured medical knowledge from three perspectives. First, considering knowledge can be regarded as the intermediate medium between vision and language, we align the representations of the vision encoder and the language encoder through knowledge. Second, we inject knowledge into the multi-modal fusion model to enable the model to perform reasoning using knowledge as the supplementation of the input image and text. Third, we guide the model to put emphasis on the most critical information in images and texts by designing knowledge-induced pretext tasks. To perform a comprehensive evaluation and facilitate further research, we construct a medical vision-and-language benchmark including three tasks. Experimental results illustrate the effectiveness of our approach, where state-of-the-art performance is achieved on all downstream tasks. Further analyses explore the effects of different components of our approach and various settings of pre-training.
翻訳日:2022-09-16 11:59:55 公開日:2022-09-15
# 2次元視覚トランスフォーマーから3次元視覚タスクを解決できるか?

Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? ( http://arxiv.org/abs/2209.07026v1 )

ライセンス: Link先を確認
Yi Wang and Zhiwen Fan and Tianlong Chen and Hehe Fan and Zhangyang Wang(参考訳) 視覚トランスフォーマー(vits)は、大規模な画像データセット上でトレーニングすることで2次元画像理解タスクを解決するのに効果的であることが証明されている。 しかし、トランスフォーマーが異種データのための"ユニバーサル"モデリングツールになり得るという期待が高まっているため、2Dおよび3Dタスク用のViTは、これまでほとんど転送不可能な全く異なるアーキテクチャ設計を採用してきた。 2Dと3D ViTアーキテクチャ間のギャップを埋めることができますか? 本稿では, パイプラインを再設計することなく, 入力レベルと出力レベルの最小限のカスタマイズしか行わず, 標準的な2D ViTアーキテクチャを用いて, 3次元視覚世界を理解するという魅力的な約束を示す。 2dの兄弟から3d vitを構築するために、パッチの埋め込みとトークンシーケンスを「膨らませる」とともに、3dデータ幾何にマッチするように設計された新しい位置符号化機構を伴います。 その結果、simple3d-formerと名付けられたminimalist 3d vitは、高度にカスタマイズされた3d特有のデザインと比較して、オブジェクト分類、ポイントクラウドセグメンテーション、屋内シーン検出といった一般的な3dタスクに対して驚くほど堅牢に動作します。 そのため、新しい3D ViTの強力なベースラインとして機能する。 さらに, 統一型2D-3D ViTの設計は, 科学的好奇心だけでなく, 実用的関連性も指摘する。 具体的には、Simple3D-Formerは、大規模な現実的な2D画像(例えば、ImageNet)からトレーニング済みの重量の富を自然に利用することができ、それによって3Dタスクのパフォーマンスを「無償で」向上させることができることを実証する。

Vision Transformers (ViTs) have proven to be effective, in solving 2D image understanding tasks by training over large-scale image datasets; and meanwhile as a somehow separate track, in modeling the 3D visual world too such as voxels or point clouds. However, with the growing hope that transformers can become the "universal" modeling tool for heterogeneous data, ViTs for 2D and 3D tasks have so far adopted vastly different architecture designs that are hardly transferable. That invites an (over-)ambitious question: can we close the gap between the 2D and 3D ViT architectures? As a piloting study, this paper demonstrates the appealing promise to understand the 3D visual world, using a standard 2D ViT architecture, with only minimal customization at the input and output levels without redesigning the pipeline. To build a 3D ViT from its 2D sibling, we "inflate" the patch embedding and token sequence, accompanied with new positional encoding mechanisms designed to match the 3D data geometry. The resultant "minimalist" 3D ViT, named Simple3D-Former, performs surprisingly robustly on popular 3D tasks such as object classification, point cloud segmentation and indoor scene detection, compared to highly customized 3D-specific designs. It can hence act as a strong baseline for new 3D ViTs. Moreover, we note that pursing a unified 2D-3D ViT design has practical relevance besides just scientific curiosity. Specifically, we demonstrate that Simple3D-Former naturally enables to exploit the wealth of pre-trained weights from large-scale realistic 2D images (e.g., ImageNet), which can be plugged in to enhancing the 3D task performance "for free".
翻訳日:2022-09-16 11:58:39 公開日:2022-09-15
# 単一画像ビュー合成のためのブリッジインプシットと明示的幾何学変換

Bridging Implicit and Explicit Geometric Transformations for Single-Image View Synthesis ( http://arxiv.org/abs/2209.07105v1 )

ライセンス: Link先を確認
Byeongjun Park, Hyojun Go, Changick Kim(参考訳) 単一の画像から新しいビューを作成することは、高度な自己回帰モデルによって大きな進歩を遂げた。 最近の手法は高品質のノベルビューを生成するが、1つの明示的または暗黙的な3dジオメトリで合成することは、2つの目的の間に「シーソー」問題と呼ばれるトレードオフを持っている。 1)再企画内容の保存、及び 2)現実的なアウトオブビュー領域を完成させる。 また、自己回帰モデルは相当な計算コストを必要とする。 本稿では,シーソー問題を軽減するための単一画像合成フレームワークを提案する。 提案モデルは、暗黙的および明示的なレンダラを持つ効率的な非自己回帰モデルである。 明示的なメソッドが再投影されたピクセルと暗黙的なメソッドをうまく保存する特性に動機づけられ,2つのレンダラを補完するロス関数を導入する。 我々の損失関数は、明示的特徴が暗黙的特徴の再投影領域を改善し、暗黙的特徴が明示的特徴のアウト・オブ・ビュー領域を改善することを促進します。 提案したアーキテクチャと損失関数により、シーソー問題を緩和し、自己回帰に基づく最先端の手法より優れ、画像が$\approx$100倍高速になる。 提案手法の有効性をRealEstate10KとACIDデータセットを用いて検証した。

Creating novel views from a single image has achieved tremendous strides with advanced autoregressive models. Although recent methods generate high-quality novel views, synthesizing with only one explicit or implicit 3D geometry has a trade-off between two objectives that we call the ``seesaw'' problem: 1) preserving reprojected contents and 2) completing realistic out-of-view regions. Also, autoregressive models require a considerable computational cost. In this paper, we propose a single-image view synthesis framework for mitigating the seesaw problem. The proposed model is an efficient non-autoregressive model with implicit and explicit renderers. Motivated by characteristics that explicit methods well preserve reprojected pixels and implicit methods complete realistic out-of-view region, we introduce a loss function to complement two renderers. Our loss function promotes that explicit features improve the reprojected area of implicit features and implicit features improve the out-of-view area of explicit features. With the proposed architecture and loss function, we can alleviate the seesaw problem, outperforming autoregressive-based state-of-the-art methods and generating an image $\approx$100 times faster. We validate the efficiency and effectiveness of our method with experiments on RealEstate10K and ACID datasets.
翻訳日:2022-09-16 11:58:06 公開日:2022-09-15
# 責任あるAIパターンカタログ:多言語文献レビュー

Responsible AI Pattern Catalogue: A Multivocal Literature Review ( http://arxiv.org/abs/2209.04963v3 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, Didar Zowghi, Aurelie Jacquet(参考訳) 責任あるAIは、我々の時代における最大の科学的課題の1つであり、AIの採用を促進する鍵であると考えられてきた。 最近、多くのAI倫理原則フレームワークが公開された。 しかし、それ以上のベストプラクティスの指導がなければ、実践者は残らず残される。 また、システムレベルよりもアルゴリズムレベルに重要な取り組みがなされており、主に数学に適応可能な倫理原則(公正性など)のサブセットに焦点を当てている。 それでも、倫理的な問題は、AIアルゴリズムやモデル以外のシステムの多くのAIおよび非AIコンポーネントを横断する開発ライフサイクルの任意のステップで起こりうる。 本稿では,システムの観点から責任あるAIを運用するために,MLR(Multivocal Literature Review)の結果に基づく責任あるAIパターンカタログを提案する。 原則やアルゴリズムのレベルにとどまらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。 Responsible AI Pattern Catalogueは、パターンを3つのグループに分類する。 これらのパターンは、ステークホルダーが責任あるAIを実装するための体系的で実行可能なガイダンスを提供する。

Responsible AI has been widely considered as one of the greatest scientific challenges of our time and the key to increase the adoption of AI. A number of AI ethics principles frameworks have been published recently. However, without further best practice guidance, practitioners are left with nothing much beyond truisms. Also, significant efforts have been placed at algorithm-level rather than system-level, mainly focusing on a subset of mathematics-amenable ethical principles (such as fairness). Nevertheless, ethical issues can occur at any step of the development lifecycle crosscutting many AI and non-AI components of systems beyond AI algorithms and models. To operationalize responsible AI from a system perspective, in this paper, we present a Responsible AI Pattern Catalogue based on the results of a Multivocal Literature Review (MLR). Rather than staying at the principle or algorithm level, we focus on patterns that AI system stakeholders can undertake in practice to ensure that the developed AI systems are responsible throughout the entire governance and engineering lifecycle. The Responsible AI Pattern Catalogue classifies the patterns into three groups: multi-level governance patterns, trustworthy process patterns, and responsible-AI-by-design product patterns. These patterns provide a systematic and actionable guidance for stakeholders to implement responsible AI.
翻訳日:2022-09-16 11:54:19 公開日:2022-09-15
# 強化学習のための探索と爆発の決定論的シークエンシング

Deterministic Sequencing of Exploration and Exploitation for Reinforcement Learning ( http://arxiv.org/abs/2209.05408v2 )

ライセンス: Link先を確認
Piyush Gupta and Vaibhav Srivastava(参考訳) 本稿では,システムモデル,すなわちマルコフ決定プロセス(MDP)と関連する最適ポリシーを同時に学習することを目的としたモデルベースRL問題に対して,探索と搾取をインターリーブするDSEE(Deterministic Sequencing of Exploration and Exploitation)アルゴリズムを提案する。 調査中、DSEEは環境を調査し、期待される報酬と移行確率の見積を更新する。 利用中、期待報酬と遷移確率の最新の推定は、高い確率で堅牢なポリシーを得るために使用される。 我々は,累積的後悔が時間のサブリニア関数として成長するように,探索と搾取期間の長さをデザインする。

We propose Deterministic Sequencing of Exploration and Exploitation (DSEE) algorithm with interleaving exploration and exploitation epochs for model-based RL problems that aim to simultaneously learn the system model, i.e., a Markov decision process (MDP), and the associated optimal policy. During exploration, DSEE explores the environment and updates the estimates for expected reward and transition probabilities. During exploitation, the latest estimates of the expected reward and transition probabilities are used to obtain a robust policy with high probability. We design the lengths of the exploration and exploitation epochs such that the cumulative regret grows as a sub-linear function of time.
翻訳日:2022-09-16 11:53:59 公開日:2022-09-15
# 大規模マルチタスク動的MLシステムの継続的開発手法

A Continual Development Methodology for Large-scale Multitask Dynamic ML Systems ( http://arxiv.org/abs/2209.07326v1 )

ライセンス: Link先を確認
Andrea Gesmundo(参考訳) 従来の機械学習(ml)の方法論では、開発プロセスと実験プロセスを、設計やチューニングの選択を導くためにフィードバックが使用される切り離されたイテレーションに断片化する必要がある。 This methodology has multiple efficiency and scalability disadvantages, such as leading to spend significant resources into the creation of multiple trial models that do not contribute to the final solution.The presented work is based on the intuition that defining ML models as modular and extensible artefacts allows to introduce a novel ML development methodology enabling the integration of multiple design and evaluation iterations into the continuous enrichment of a single unbounded intelligent system. 動的マルチタスクmlモデルを生成するための新しい手法を拡張と一般化のシーケンスとして定義する。 まず,標準ML実験評価手法を用いて提案手法の性能解析を行った。 最後に,提案手法の特性を解析しながら,既存のマルチタスク大規模mlシステムを動的に拡張できる新しい連続開発手法を提案する。 これにより、サイズと計算コストが向上し、アート品質の状態を達成した124のイメージ分類タスクを共同で解決できるMLモデルが生成される。

The traditional Machine Learning (ML) methodology requires to fragment the development and experimental process into disconnected iterations whose feedback is used to guide design or tuning choices. This methodology has multiple efficiency and scalability disadvantages, such as leading to spend significant resources into the creation of multiple trial models that do not contribute to the final solution.The presented work is based on the intuition that defining ML models as modular and extensible artefacts allows to introduce a novel ML development methodology enabling the integration of multiple design and evaluation iterations into the continuous enrichment of a single unbounded intelligent system. We define a novel method for the generation of dynamic multitask ML models as a sequence of extensions and generalizations. We first analyze the capabilities of the proposed method by using the standard ML empirical evaluation methodology. Finally, we propose a novel continuous development methodology that allows to dynamically extend a pre-existing multitask large-scale ML system while analyzing the properties of the proposed method extensions. This results in the generation of an ML model capable of jointly solving 124 image classification tasks achieving state of the art quality with improved size and compute cost.
翻訳日:2022-09-16 11:53:48 公開日:2022-09-15
# 条件付き自然言語生成のための分布認識メトリクス

Distribution Aware Metrics for Conditional Natural Language Generation ( http://arxiv.org/abs/2209.07518v1 )

ライセンス: Link先を確認
David M Chan, Yiming Ni, Austin Myers, Sudheendra Vijayanarasimhan, David A Ross, John Canny(参考訳) 条件付き自然言語生成を評価する従来の自動メトリクスは、1つの生成したテキストと最もマッチするゴールド標準の基底真理テキストをペアで比較します。 複数の基底真理が利用できる場合、スコアは参照の平均または最大演算を用いて集約される。 提案手法は, 音声の自動音声認識などにおいて, 基底真理データの多様性(条件文の分布の分散など)をノイズとみなすことができれば有効であるが, 基底真理の多様性がモデルの信号を表す場合には, 頑健な評価ができない。 本研究は,既存の指標が意味論的に多様であり,それらのキャプションの多様性が文脈に関する有用な付加情報を取得する領域において,視覚的記述や要約などの領域に適していないことを論じる。 本稿では,条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムと,参照とモデル生成のキャプションセットの分布を,それぞれ小さなサンプルセットを用いて比較する指標群を提案する。 既存のモデルが多様性よりも単一の記述品質に最適化していることを示し、サンプリング方法と温度が記述品質と多様性にどのように影響するかについての洞察を得る。

Traditional automated metrics for evaluating conditional natural language generation use pairwise comparisons between a single generated text and the best-matching gold-standard ground truth text. When multiple ground truths are available, scores are aggregated using an average or max operation across references. While this approach works well when diversity in the ground truth data (i.e. dispersion of the distribution of conditional texts) can be ascribed to noise, such as in automated speech recognition, it does not allow for robust evaluation in the case where diversity in the ground truths represents signal for the model. In this work we argue that existing metrics are not appropriate for domains such as visual description or summarization where ground truths are semantically diverse, and where the diversity in those captions captures useful additional information about the context. We propose a novel paradigm for multi-candidate evaluation of conditional language generation models, and a new family of metrics that compare the distributions of reference and model-generated caption sets using small sample sets of each. We demonstrate the utility of our approach with a case study in visual description: where we show that existing models optimize for single-description quality over diversity, and gain some insights into how sampling methods and temperature impact description quality and diversity.
翻訳日:2022-09-16 11:53:33 公開日:2022-09-15
# 自己注意に基づくナビゲーションの実現に向けて

Towards self-attention based navigation in the real world ( http://arxiv.org/abs/2209.07043v1 )

ライセンス: Link先を確認
Jaime Ruiz-Serra, Jack White, Stephen Petrie, Tatiana Kameneva, Chris McCarthy(参考訳) ビジョンベースのナビゲーションは、タスク指向の決定を行うために複雑な情報を処理する必要がある。 アプリケーションには、自律ロボット、自動運転車、そして人間の補助的ビジョンが含まれる。 プロセスにおける重要な要素の1つは、ピクセル空間における関連する特徴の抽出と選択であり、その上でアクションの選択をベースとし、機械学習技術が適している。 しかし、シミュレーションで訓練されたDeep Reinforcement Learningエージェントは、$\textit{reality gap}$として知られる知覚的差異のため、現実世界にデプロイされた時に満足できない結果を示すことが多い。 このギャップを埋めるためにまだ検討されていないアプローチは、自己注意である。 本稿では,(1)自己追跡に基づく3次元環境のナビゲーションのためのハイパーパラメータ空間の体系的探索と,その一般化能力を含む異なるハイパーパラメータ集合から観測される行動の質的評価,(2)エージェントの一般化能力とナビゲーション行動を改善するための戦略,(3)シミュレーションで訓練されたモデルが実世界のイメージをリアルタイムに有意義に処理できることを示す。 われわれの知る限り、3Dアクション空間をナビゲートする訓練に成功し、4000パラメータ未満で成功したセルフアテンションベースのエージェントの最初の実演である。

Vision-based navigation requires processing complex information to make task-orientated decisions. Applications include autonomous robots, self-driving cars, and assistive vision for humans. One of the key elements in the process is the extraction and selection of relevant features in pixel space upon which to base action choices, for which Machine Learning techniques are well suited. However, Deep Reinforcement Learning agents trained in simulation often exhibit unsatisfactory results when deployed in the real-world due to perceptual differences known as the $\textit{reality gap}$. An approach that is yet to be explored to bridge this gap is self-attention. In this paper we (1) perform a systematic exploration of the hyperparameter space for self-attention based navigation of 3D environments and qualitatively appraise behaviour observed from different hyperparameter sets, including their ability to generalise; (2) present strategies to improve the agents' generalisation abilities and navigation behaviour; and (3) show how models trained in simulation are capable of processing real world images meaningfully in real time. To our knowledge, this is the first demonstration of a self-attention based agent successfully trained in navigating a 3D action space, using less than 4000 parameters.
翻訳日:2022-09-16 11:52:53 公開日:2022-09-15
# ニューラルアーキテクチャスコアリングのためのゼロコストプロキシの進化

Evolving Zero Cost Proxies For Neural Architecture Scoring ( http://arxiv.org/abs/2209.07413v1 )

ライセンス: Link先を確認
Yash Akhauri, J. Pablo Munoz, Nilesh Jain, Ravi Iyer(参考訳) ニューラルネットワーク(NN)の設計と展開において、NAS(Neural Architecture Search)は生産性を大幅に改善した。 NASは通常、複数のモデルを部分的にまたは完全にトレーニングすることで評価するので、生産性の向上は炭素フットプリントの大幅なコストが伴う。 この高価なトレーニングルーチンを緩和するために、ゼロショット/コストプロキシは初期化時にnnを分析しスコアを生成する。 ゼロコストプロキシは、現在、可能アルゴリズム、データセット、ニューラルネットワーク設計空間に関する経験的テストの複数のサイクルを実行する専門家によって設計されている。 これは生産性を低下させ、ディープラーニングのユースケースが本質的に多様化する中で、ゼロコストプロキシ設計への持続不可能なアプローチである。 さらに、既存のゼロコストプロキシは、ニューラルネットワーク設計空間をまたいだ一般化に失敗する。 本稿では,神経アーキテクチャスコアリングのためのゼロコストプロキシの発見を自動化する遺伝的プログラミングフレームワークを提案する。 提案手法は,NASBench-201 と Network Design Spaces (NDS) のすべてのデータ集合と検索空間について,解析可能かつ一般化可能なゼロコストプロキシを効率よく発見する。 この研究は、ネットワークアーキテクチャ設計スペース、データセット、タスクをまたいで機能するゼロコストプロキシの自動発見に向けた有望な方向を示すものだと考えています。

Neural Architecture Search (NAS) has significantly improved productivity in the design and deployment of neural networks (NN). As NAS typically evaluates multiple models by training them partially or completely, the improved productivity comes at the cost of significant carbon footprint. To alleviate this expensive training routine, zero-shot/cost proxies analyze an NN at initialization to generate a score, which correlates highly with its true accuracy. Zero-cost proxies are currently designed by experts conducting multiple cycles of empirical testing on possible algorithms, data-sets, and neural architecture design spaces. This lowers productivity and is an unsustainable approach towards zero-cost proxy design as deep learning use-cases diversify in nature. Additionally, existing zero-cost proxies fail to generalize across neural architecture design spaces. In this paper, we propose a genetic programming framework to automate the discovery of zero-cost proxies for neural architecture scoring. Our methodology efficiently discovers an interpretable and generalizable zero-cost proxy that gives state of the art score-accuracy correlation on all data-sets and search spaces of NASBench-201 and Network Design Spaces (NDS). We believe that this research indicates a promising direction towards automatically discovering zero-cost proxies that can work across network architecture design spaces, data-sets, and tasks.
翻訳日:2022-09-16 11:52:32 公開日:2022-09-15
# オンデバイスドメインの一般化

On-Device Domain Generalization ( http://arxiv.org/abs/2209.07521v1 )

ライセンス: Link先を確認
Kaiyang Zhou, Yuanhan Zhang, Yuhang Zang, Jingkang Yang, Chen Change Loy, Ziwei Liu(参考訳) 我々は、デバイス上の機械学習アプリケーションにとって重要な問題であるが、大規模モデルのみに焦点を当てた研究で見過ごされてきた、小さなニューラルネットワークのためのドメイン一般化(DG)の体系的研究について述べる。 小さなニューラルネットワークはパラメータがはるかに少なく、複雑さが低いため、dgアプリケーション用の大きなニューラルネットワークと同じ方法でトレーニングするべきではない。 知識蒸留は、大きなマージンを持つ大モデルを用いて開発された最先端のDG手法よりも優れている。 さらに, ドメインシフトを伴う試験データにおける教師・教師間性能差は, 分布データよりも大きいことが観察された。 小型ニューラルネットワークのDGを展開コストを増大させることなく向上させるため,教師が(合成)分配データをどのように扱うかを教えることを目的とした,アウト・オブ・ディストリビューション知識蒸留(OKD)と呼ばれる簡単なアイデアを提案する。 我々はまた、DGデータセットを作成するためのスケーラブルな方法であるDOmain Shift in COntext(DOSCO)も提供しています。 コードとモデルは \url{https://github.com/KaiyangZhou/on-device-dg} でリリースされる。

We present a systematic study of domain generalization (DG) for tiny neural networks, a problem that is critical to on-device machine learning applications but has been overlooked in the literature where research has been focused on large models only. Tiny neural networks have much fewer parameters and lower complexity, and thus should not be trained the same way as their large counterparts for DG applications. We find that knowledge distillation is a strong candidate for solving the problem: it outperforms state-of-the-art DG methods that were developed using large models with a large margin. Moreover, we observe that the teacher-student performance gap on test data with domain shift is bigger than that on in-distribution data. To improve DG for tiny neural networks without increasing the deployment cost, we propose a simple idea called out-of-distribution knowledge distillation (OKD), which aims to teach the student how the teacher handles (synthetic) out-of-distribution data and is proved to be a promising framework for solving the problem. We also contribute a scalable method of creating DG datasets, called DOmain Shift in COntext (DOSCO), which can be applied to broad data at scale without much human effort. Code and models are released at \url{https://github.com/KaiyangZhou/on-device-dg}.
翻訳日:2022-09-16 11:51:26 公開日:2022-09-15
# naap-440 ニューラルネットワークの精度予測のためのデータセットとベースライン

NAAP-440 Dataset and Baseline for Neural Architecture Accuracy Prediction ( http://arxiv.org/abs/2209.06626v2 )

ライセンス: Link先を確認
Tal Hakim(参考訳) ニューラルアーキテクチャサーチ(NAS)は、異なるターゲットプラットフォームと目的のための新しいニューラルアーキテクチャの開発と発見のための一般的なアプローチとなっている。 しかし,探索空間の走査は,多くの候補アーキテクチャの長期学習プロセスから成り,計算資源や時間の観点からコストがかかる。 回帰アルゴリズムは、候補アーキテクチャの精度を予測する一般的なツールであり、検索手順を劇的に加速することができる。 我々は、アーキテクチャの精度をそのスキームから予測できる回帰アルゴリズムの開発をサポートする新しいベースラインの提案や、最小限のエポック数だけをトレーニングすることを目的としている。 そこで本研究では,CIFAR10を用いた440のニューラルネットワークのNAAP-440データセットを提案する。 実験の結果, 既成の回帰アルゴリズムを用い, 最大10%のトレーニングプロセスを実行することで, アーキテクチャの精度を精度良く予測できるだけでなく, アーキテクチャで予測される値も, 最小限のモノトニック性違反で精度を維持していることが示唆された。 このアプローチは、nasベースの研究を加速し、その効率を劇的に向上させる強力なツールとなり得る。 研究で使用されたデータセットとコードは公開されています。

Neural architecture search (NAS) has become a common approach to developing and discovering new neural architectures for different target platforms and purposes. However, scanning the search space is comprised of long training processes of many candidate architectures, which is costly in terms of computational resources and time. Regression algorithms are a common tool to predicting a candidate architecture's accuracy, which can dramatically accelerate the search procedure. We aim at proposing a new baseline that will support the development of regression algorithms that can predict an architecture's accuracy just from its scheme, or by only training it for a minimal number of epochs. Therefore, we introduce the NAAP-440 dataset of 440 neural architectures, which were trained on CIFAR10 using a fixed recipe. Our experiments indicate that by using off-the-shelf regression algorithms and running up to 10% of the training process, not only is it possible to predict an architecture's accuracy rather precisely, but that the values predicted for the architectures also maintain their accuracy order with a minimal number of monotonicity violations. This approach may serve as a powerful tool for accelerating NAS-based studies and thus dramatically increase their efficiency. The dataset and code used in the study have been made public.
翻訳日:2022-09-16 11:48:57 公開日:2022-09-15
# BERTに基づくヘイト音声検出のためのアンサンブルアプローチ

BERT-based Ensemble Approaches for Hate Speech Detection ( http://arxiv.org/abs/2209.06505v2 )

ライセンス: Link先を確認
Khouloud Mnassri, Praboda Rajapaksha, Reza Farahbakhsh, Noel Crespi(参考訳) オンラインソーシャルメディアにおけるコミュニケーションの自由により、ヘイトスピーチはますます発生しつつある。 これは個人や国家レベルでの社会生活に影響を与えるサイバー紛争につながる。 その結果、ヘイトフルコンテンツ分類は、ソーシャルネットワークに送られる前にヘイトコンテンツをフィルタリングする必要性が高まっている。 本稿では,ソーシャルメディアにおけるヘイトスピーチの分類について,bertやニューラルネットワークといった最近のトランスフォーマーベースの言語モデルを統合した,複数の深層モデルを用いて検討する。 分類性能を向上させるため,ソフト投票,最大値,ハード投票,積み重ねなど,いくつかのアンサンブル手法を用いた評価を行った。 私たちは、攻撃的な言語を特定するために生成される3つの公開Twitterデータセット(Davidson、HatEval2019、OLID)を使用しました。 これらのデータセットをすべて融合して、異なるラベル間でよりバランスの取れた単一のデータセット(dhoデータセット)を生成し、複数のラベルの分類を行います。 私たちの実験はdavidsonデータセットとdho corporaで行われました。 結果として、特にF1マクロスコアは、より多くのリソース(実行時間とメモリ)を必要とした。 実験の結果、特にアンサンブルモデルでは、スタックリングによってDavidsonデータセットでは97%、DHOデータセットでは77%のスコアが得られた。

With the freedom of communication provided in online social media, hate speech has increasingly generated. This leads to cyber conflicts affecting social life at the individual and national levels. As a result, hateful content classification is becoming increasingly demanded for filtering hate content before being sent to the social networks. This paper focuses on classifying hate speech in social media using multiple deep models that are implemented by integrating recent transformer-based language models such as BERT, and neural networks. To improve the classification performances, we evaluated with several ensemble techniques, including soft voting, maximum value, hard voting and stacking. We used three publicly available Twitter datasets (Davidson, HatEval2019, OLID) that are generated to identify offensive languages. We fused all these datasets to generate a single dataset (DHO dataset), which is more balanced across different labels, to perform multi-label classification. Our experiments have been held on Davidson dataset and the DHO corpora. The later gave the best overall results, especially F1 macro score, even it required more resources (time execution and memory). The experiments have shown good results especially the ensemble models, where stacking gave F1 score of 97% on Davidson dataset and aggregating ensembles 77% on the DHO dataset.
翻訳日:2022-09-16 11:48:36 公開日:2022-09-15
# r\'{e}nyiダイバージェンス深層相互学習

R\'{e}nyi Divergence Deep Mutual Learning ( http://arxiv.org/abs/2209.05732v3 )

ライセンス: Link先を確認
Weipeng Huang, Junjie Tao, Changbo Deng, Ming Fan, Wenqiang Wan, Qi Xiong, Guangyuan Piao(参考訳) 本稿では,非常に単純だが極めて効果的な計算パラダイムであるDeep Mutual Learning (DML)を再考する。 有効性はその優れた一般化品質に高い相関関係があることを観察する。 本稿では,DMLによる性能改善を,ほぼ近似したベイズ後方サンプリング法である,という新たな視点から解釈する。 これはまた、以前の(DMLの文脈における)分散制御をもたらすため、元のDMLを改善するためにR\'{e}nyiの発散を適用する基盤も確立する。 そこで我々はR\'{e}nyi Divergence Deep Mutual Learning (RDML)を提案する。 我々の経験的結果は、DMLとR\'{e}nyiの結婚の利点を表している。 R\'{e}nyi divergence によって課される柔軟な制御により、DMLをさらに改善し、より一般化されたモデルを学ぶことができる。

This paper revisits an incredibly simple yet exceedingly effective computing paradigm, Deep Mutual Learning (DML). We observe that the effectiveness correlates highly to its excellent generalization quality. In the paper, we interpret the performance improvement with DML from a novel perspective that it is roughly an approximate Bayesian posterior sampling procedure. This also establishes the foundation for applying the R\'{e}nyi divergence to improve the original DML, as it brings in the variance control of the prior (in the context of DML). Therefore, we propose R\'{e}nyi Divergence Deep Mutual Learning (RDML). Our empirical results represent the advantage of the marriage of DML and the R\'{e}nyi divergence. The flexible control imposed by the R\'{e}nyi divergence is able to further improve DML to learn better generalized models.
翻訳日:2022-09-16 11:47:54 公開日:2022-09-15
# 強固な要約コヒーレンス対策を見つけるには? 要約コヒーレンス尺度評価のためのツールボックスと比較研究

How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation ( http://arxiv.org/abs/2209.06517v2 )

ライセンス: Link先を確認
Julius Steen and Katja Markert(参考訳) 要約のコヒーレンスを自動的に評価することは、コスト効率のよい要約者評価を可能にすることと、ハイスコア候補要約を選択してコヒーレンスを改善するツールとして重要である。 要約コヒーレンスをモデル化するために多くの異なるアプローチが提案されているが、異なるデータセットとメトリクスを使って評価されることが多い。 これにより、相対的なパフォーマンスを理解し、より優れた要約コヒーレンスモデリングへの道を見出すのが難しくなります。 本研究では,球面上でのコヒーレンスをモデル化する様々な手法を大規模に検討する。 さらに,システム内相関とバイアス行列という2つの新しい分析手法を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。 現在利用可能なすべての自動コヒーレンス尺度は、システムサマリーに信頼できるコヒーレンススコアを割り当てることができないが、自己教師付きタスクで微調整された大規模言語モデルは、異なるサマリー長にわたって一般化する必要があることを考慮し、有望な結果を示す。

Automatically evaluating the coherence of summaries is of great significance both to enable cost-efficient summarizer evaluation and as a tool for improving coherence by selecting high-scoring candidate summaries. While many different approaches have been suggested to model summary coherence, they are often evaluated using disparate datasets and metrics. This makes it difficult to understand their relative performance and identify ways forward towards better summary coherence modelling. In this work, we conduct a large-scale investigation of various methods for summary coherence modelling on an even playing field. Additionally, we introduce two novel analysis measures, intra-system correlation and bias matrices, that help identify biases in coherence measures and provide robustness against system-level confounders. While none of the currently available automatic coherence measures are able to assign reliable coherence scores to system summaries across all evaluation metrics, large-scale language models fine-tuned on self-supervised tasks show promising results, as long as fine-tuning takes into account that they need to generalize across different summary lengths.
翻訳日:2022-09-16 11:47:40 公開日:2022-09-15
# コーパス横断テキストにおけるゼロショット感情分類のための自然言語推論

Natural Language Inference Prompts for Zero-shot Emotion Classification in Text across Corpora ( http://arxiv.org/abs/2209.06701v2 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Mar\'ia-Teresa Mart\'in-Valdivia, Roman Klinger(参考訳) テキスト感情分類では、関連するラベルのセットはドメインとアプリケーションシナリオに依存しており、モデル開発の時点では知られていないかもしれない。 これはラベルを事前に定義する必要がある教師付き学習の古典的なパラダイムと矛盾する。 ラベルの柔軟な集合を持つモデルを得るための解決策は、ゼロショット学習のパラダイムを自然言語推論タスクとして使うことである。 これはゼロショット学習感情分類のための自然言語推論モデルをどのように促すかという疑問を提起する。 迅速な定式化の選択肢には、感情名「怒り」のみ、あるいは「このテキストは怒りを表す」という文がある。 本稿では,自然言語推論に基づくゼロショット学習分類器が,コーパスを考慮したプロンプトの変更にどれほど敏感かを分析する。 3つの自然言語推論モデルを用いて、異なる言語レジスタ(ツイート、イベント、ブログ)を示す感情データセットの確立されたセットで実験を行い、実際に特定のプロンプト定式化の選択がコーパスに適合することを示す。 この課題は複数のプロンプトの組み合わせで対処可能であることを示す。 このようなアンサンブルはコーパス全体において個々のプロンプトよりも堅牢であり、特定のコーパスに対する個々の最良プロンプトとほぼ同じパフォーマンスを示す。

Within textual emotion classification, the set of relevant labels depends on the domain and application scenario and might not be known at the time of model development. This conflicts with the classical paradigm of supervised learning in which the labels need to be predefined. A solution to obtain a model with a flexible set of labels is to use the paradigm of zero-shot learning as a natural language inference task, which in addition adds the advantage of not needing any labeled training data. This raises the question how to prompt a natural language inference model for zero-shot learning emotion classification. Options for prompt formulations include the emotion name anger alone or the statement "This text expresses anger". With this paper, we analyze how sensitive a natural language inference-based zero-shot-learning classifier is to such changes to the prompt under consideration of the corpus: How carefully does the prompt need to be selected? We perform experiments on an established set of emotion datasets presenting different language registers according to different sources (tweets, events, blogs) with three natural language inference models and show that indeed the choice of a particular prompt formulation needs to fit to the corpus. We show that this challenge can be tackled with combinations of multiple prompts. Such ensemble is more robust across corpora than individual prompts and shows nearly the same performance as the individual best prompt for a particular corpus.
翻訳日:2022-09-16 11:47:20 公開日:2022-09-15
# DevNet: 密度ボリューム構築による自己教師型単眼深度学習

DevNet: Self-supervised Monocular Depth Learning via Density Volume Construction ( http://arxiv.org/abs/2209.06351v2 )

ライセンス: Link先を確認
Kaichen Zhou, Lanqing Hong, Changhao Chen, Hang Xu, Chaoqiang Ye, Qingyong Hu, and Zhenguo Li(参考訳) 単眼画像からの自己教師付き深度学習は通常、時間的に隣接した画像フレーム間の2Dピクセル単位の光度関係に依存する。 しかし、彼らは3次元のポイントワイドな幾何学的対応を完全に活用したり、オクルージョンや照明の不整合によって引き起こされる測光歪みの曖昧さに効果的に対処したりはしなかった。 これらの問題に対処するために, 近接するカメラフラストタル間の強い幾何学的制約を生かし, 3次元空間情報を考慮した自己教師付き単眼深度学習フレームワークDevNetを提案する。 私たちのDevNetは、1枚の画像からピクセル値を直接回帰する代わりに、カメラフラストレーションを複数の平行平面に分割し、各平面上のポイントワイド閉塞確率密度を予測する。 最終深度マップは、対応する光線に沿って密度を統合することによって生成される。 トレーニング過程では、光量曖昧さと過剰フィッティングを緩和するために、新しい正規化戦略と損失関数が導入される。 明らかにモデルパラメータのサイズや実行時間を大きくすることなく、DevNetは、KITTI-2015屋外データセットとNYU-V2屋内データセットの両方において、いくつかの代表的ベースラインを上回っている。 特に、深さ推定のタスクでは、KITTI-2015とNYU-V2の両方でDevNetにより、ルート平均平方偏差が約4%減少する。 コードはhttps://github.com/gitkaichenzhou/devnetで入手できる。

Self-supervised depth learning from monocular images normally relies on the 2D pixel-wise photometric relation between temporally adjacent image frames. However, they neither fully exploit the 3D point-wise geometric correspondences, nor effectively tackle the ambiguities in the photometric warping caused by occlusions or illumination inconsistency. To address these problems, this work proposes Density Volume Construction Network (DevNet), a novel self-supervised monocular depth learning framework, that can consider 3D spatial information, and exploit stronger geometric constraints among adjacent camera frustums. Instead of directly regressing the pixel value from a single image, our DevNet divides the camera frustum into multiple parallel planes and predicts the pointwise occlusion probability density on each plane. The final depth map is generated by integrating the density along corresponding rays. During the training process, novel regularization strategies and loss functions are introduced to mitigate photometric ambiguities and overfitting. Without obviously enlarging model parameters size or running time, DevNet outperforms several representative baselines on both the KITTI-2015 outdoor dataset and NYU-V2 indoor dataset. In particular, the root-mean-square-deviation is reduced by around 4% with DevNet on both KITTI-2015 and NYU-V2 in the task of depth estimation. Code is available at https://github.com/gitkaichenzhou/DevNet.
翻訳日:2022-09-16 11:46:59 公開日:2022-09-15
# 個人化強化によるグラフコントラスト学習

Graph Contrastive Learning with Personalized Augmentation ( http://arxiv.org/abs/2209.06560v2 )

ライセンス: Link先を確認
Xin Zhang, Qiaoyu Tan, Xiao Huang, Bo Li(参考訳) グラフの教師なし表現を学習するための有効なツールとして,グラフコントラスト学習(GCL)が登場した。 重要なアイデアは、データ拡張によって各グラフの2つの拡張ビュー間の合意を最大化することです。 既存のGCLモデルは、主に与えられたシナリオ内のすべてのグラフに対して \textit{identical augmentation Strategy} を適用することに焦点を当てている。 しかし、実世界のグラフはしばしば単相ではなく、多様な性質の抽象である。 同じシナリオ(例えばマクロ分子やオンラインコミュニティ)でも、異なるグラフは効果的なgclを実行するために多様な拡張を必要とするかもしれない。 Thus, blindly augmenting all graphs without considering their individual characteristics may undermine the performance of GCL arts.To deal with this, we propose the first principled framework, termed as \textit{G}raph contrastive learning with \textit{P}ersonalized \textit{A}ugmentation (GPA), to advance conventional GCL by allowing each graph to choose its own suitable augmentation operations.In essence, GPA infers tailored augmentation strategies for each graph based on its topology and node attributes via a learnable augmentation selector, which is a plug-and-play module and can be effectively trained with downstream GCL models end-to-end. 異なるタイプやドメインの11のベンチマークグラフに対する広範な実験は、最先端の競合相手に対するGPAの優位性を実証するものであり、さらに、学習された拡張分布を異なるタイプのデータセットで可視化することにより、GPAはその特性に基づいて、各グラフに最適な拡張を効果的に特定できることが示される。

Graph contrastive learning (GCL) has emerged as an effective tool for learning unsupervised representations of graphs. The key idea is to maximize the agreement between two augmented views of each graph via data augmentation. Existing GCL models mainly focus on applying \textit{identical augmentation strategies} for all graphs within a given scenario. However, real-world graphs are often not monomorphic but abstractions of diverse natures. Even within the same scenario (e.g., macromolecules and online communities), different graphs might need diverse augmentations to perform effective GCL. Thus, blindly augmenting all graphs without considering their individual characteristics may undermine the performance of GCL arts.To deal with this, we propose the first principled framework, termed as \textit{G}raph contrastive learning with \textit{P}ersonalized \textit{A}ugmentation (GPA), to advance conventional GCL by allowing each graph to choose its own suitable augmentation operations.In essence, GPA infers tailored augmentation strategies for each graph based on its topology and node attributes via a learnable augmentation selector, which is a plug-and-play module and can be effectively trained with downstream GCL models end-to-end. Extensive experiments across 11 benchmark graphs from different types and domains demonstrate the superiority of GPA against state-of-the-art competitors.Moreover, by visualizing the learned augmentation distributions across different types of datasets, we show that GPA can effectively identify the most suitable augmentations for each graph based on its characteristics.
翻訳日:2022-09-16 11:46:37 公開日:2022-09-15
# convnextベースのアンチスプーフィング用ニューラルネットワーク

ConvNext Based Neural Network for Anti-Spoofing ( http://arxiv.org/abs/2209.06434v2 )

ライセンス: Link先を確認
Qiaowei Ma, Jinghui Zhong, Yitao Yang, Weiheng Liu, Ying Gao and Wing W.Y. Ng(参考訳) 自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。 しかし, 音声変換, 音声合成アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。 近年,合成・再生音声検出に関する研究が数多く行われており,合成・再生音声検出システムの精度とロバスト性を向上させるために,手作りの特徴に基づく数多くのアンチスプーフィング手法が提案されている。 しかし、生の波形ではなく手作りの特徴を用いると、スプーフィングの特定の情報を失うため、システムの検出性能が低下する。 画像分類タスクにおけるconvnextの有望な性能に触発されて,spoof攻撃検出タスクに応じてconvnextネットワークアーキテクチャを拡張し,エンドツーエンドのアンチスプーフィングモデルを提案する。 拡張されたアーキテクチャをチャネルアテンションブロックと統合することにより,提案手法は音声表現の最も有益なサブバンドに着目し,スプーフィング防止性能を向上させる。 実験により,提案する最良単一システムは,2019年la評価データセットとpa評価データセットにおいて,それぞれ1.88%と2.79%の誤差率を達成できることが分かった。

Automatic speaker verification (ASV) has been widely used in the real life for identity authentication. However, with the rapid development of speech conversion, speech synthesis algorithms and the improvement of the quality of recording devices, ASV systems are vulnerable for spoof attacks. In recent years, there have many works about synthetic and replay speech detection, researchers had proposed a number of anti-spoofing methods based on hand-crafted features to improve the accuracy and robustness of synthetic and replay speech detection system. However, using hand-crafted features rather than raw waveform would lose certain information for anti-spoofing, which will reduce the detection performance of the system. Inspired by the promising performance of ConvNext in image classification tasks, we extend the ConvNext network architecture accordingly for spoof attacks detection task and propose an end-to-end anti-spoofing model. By integrating the extended architecture with the channel attention block, the proposed model can focus on the most informative sub-bands of speech representations to improve the anti-spoofing performance. Experiments show that our proposed best single system could achieve an equal error rate of 1.88% and 2.79% for the ASVSpoof 2019 LA evaluation dataset and PA evaluation dataset respectively, which demonstrate the model's capacity for anti-spoofing.
翻訳日:2022-09-16 11:46:12 公開日:2022-09-15
# マルチモーダル・セマンティクス・ローカライゼーションの性能評価のための学習

Learning to Evaluate Performance of Multi-modal Semantic Localization ( http://arxiv.org/abs/2209.06515v2 )

ライセンス: Link先を確認
Zhiqiang Yuan, Wenkai Zhang, Chongyang Li, Zhaoying Pan, Yongqiang Mao, Jialiang Chen, Shouke Li, Hongqi Wang, and Xian Sun(参考訳) セマンティックローカライゼーション(Semantic Localization、SeLo)とは、テキストなどの意味情報を用いて、大規模リモートセンシング(RS)画像の最も関連性の高い位置を求めるタスクである。 クロスモーダル検索に基づく新たなタスクとして、セローはキャプションレベルのアノテーションだけでセマンティックレベルの検索を実現し、下流タスクを統合する大きな可能性を示している。 seloは連続して実施されているが、この緊急方向を体系的に探究し分析した成果はない。 本稿では、この分野を徹底的に研究し、SeLoタスクを進めるためのメトリクスとテストデータの観点から完全なベンチマークを提供する。 まず,本課題の特徴に基づき,SeLoタスクの性能を定量化するために,複数の識別評価指標を提案する。 生成したセロマップを画素レベルと領域レベルから評価するために,有意な面積比,注意シフト距離,離散的注意距離を考案した。 次に,SeLoタスクの標準的な評価データを提供するために,多言語多目的セマンティックローカライゼーションテストセット(AIR-SLT)を提案する。 AIR-SLTは22個の大規模なRS画像と59個のテストケースで構成され、検索モデルに対する包括的な評価を提供することを目的としている。 最後に,rsクロスモーダル検索モデルのslo性能を詳細に解析し,このタスクに対する異なる変数の影響を調査し,sloタスクの完全なベンチマークを提供する。 また,表現理解のための新しいパラダイムを構築し,意味論におけるSeLoの利点を,検出や道路抽出といったタスクと組み合わせることで実証した。 提案した評価指標,セマンティックローカライゼーションテストセット,およびそれに対応するスクリプトはgithub.com/xiaoyuan 1996/SemanticLocalizationMetricsで公開されている。

Semantic localization (SeLo) refers to the task of obtaining the most relevant locations in large-scale remote sensing (RS) images using semantic information such as text. As an emerging task based on cross-modal retrieval, SeLo achieves semantic-level retrieval with only caption-level annotation, which demonstrates its great potential in unifying downstream tasks. Although SeLo has been carried out successively, but there is currently no work has systematically explores and analyzes this urgent direction. In this paper, we thoroughly study this field and provide a complete benchmark in terms of metrics and testdata to advance the SeLo task. Firstly, based on the characteristics of this task, we propose multiple discriminative evaluation metrics to quantify the performance of the SeLo task. The devised significant area proportion, attention shift distance, and discrete attention distance are utilized to evaluate the generated SeLo map from pixel-level and region-level. Next, to provide standard evaluation data for the SeLo task, we contribute a diverse, multi-semantic, multi-objective Semantic Localization Testset (AIR-SLT). AIR-SLT consists of 22 large-scale RS images and 59 test cases with different semantics, which aims to provide a comprehensive evaluations for retrieval models. Finally, we analyze the SeLo performance of RS cross-modal retrieval models in detail, explore the impact of different variables on this task, and provide a complete benchmark for the SeLo task. We have also established a new paradigm for RS referring expression comprehension, and demonstrated the great advantage of SeLo in semantics through combining it with tasks such as detection and road extraction. The proposed evaluation metrics, semantic localization testsets, and corresponding scripts have been open to access at github.com/xiaoyuan1996/SemanticLocalizationMetrics .
翻訳日:2022-09-16 11:45:47 公開日:2022-09-15