このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220530となっている論文です。

PDF登録状況(公開日: 20220530)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子Gram-Schmidtプロセスと量子アルゴリズムの効率的な状態読み出しへの応用

Quantum Gram-Schmidt Processes and Their Application to Efficient State Read-out for Quantum Algorithms ( http://arxiv.org/abs/2004.06421v2 )

ライセンス: Link先を確認
Kaining Zhang and Min-Hsiu Hsieh and Liu Liu and Dacheng Tao(参考訳) 多くの量子アルゴリズムは、古典的記述ではなく解として量子状態を生成するだけである。 量子状態を古典ベクトルにデコードする追加のステップは通常、ほとんどのシナリオにおいて量子アドバンテージを破壊する。 本研究では,生成された状態の古典的ベクトル形式を生み出す効率的な読み出しプロトコルを提案する。 我々のプロトコルは、出力状態が量子ランダムアクセスメモリに格納されるランク$r$の入力行列の行空間にある場合に適合する。 エラーを$\epsilon$で$\ell^2$ノルムでデコードするための量子リソースは、出力状態の$\poly(r,1/\epsilon)$コピーと$\poly(r, \kappa^r,1/\epsilon)$入力オラクルへのクエリを必要とし、$\kappa$は入力マトリックスの条件番号である。 読み出しプロトコルでは、量子線形方程式解法と量子特異値分解のエンド・ツー・エンドのリソースを完全に特徴付ける。 我々の技術ツールの1つは、Gram-Schmidt正則手順を実行するための効率的な量子アルゴリズムである。

Many quantum algorithms that claim speed-up over their classical counterparts only generate quantum states as solutions instead of their final classical description. The additional step to decode quantum states into classical vectors normally will destroy the quantum advantage in most scenarios because all existing tomographic methods require runtime that is polynomial with respect to the state dimension. In this work, we present an efficient read-out protocol that yields the classical vector form of the generated state, so it will achieve the end-to-end advantage for those quantum algorithms. Our protocol suits the case that the output state lies in the row space of the input matrix, of rank $r$, that is stored in the quantum random access memory. The quantum resources for decoding the state in $\ell^2$ norm with $\epsilon$ error require $\poly(r,1/\epsilon)$ copies of the output state and $\poly(r, \kappa^r,1/\epsilon)$ queries to the input oracles, where $\kappa$ is the condition number of the input matrix. With our read-out protocol, we completely characterise the end-to-end resources for quantum linear equation solvers and quantum singular value decomposition. One of our technical tools is an efficient quantum algorithm for performing the Gram-Schmidt orthonormal procedure, which we believe, will be of independent interest.
翻訳日:2023-05-24 09:01:09 公開日:2022-05-30
# 可積分原子トロン干渉計

Integrable atomtronic interferometry ( http://arxiv.org/abs/2004.11987v2 )

ライセンス: Link先を確認
D.S. Grun, L.H. Ymai, Karin Wittmann Wilsmann, A.P. Tonel, A. Foerster, J. Links(参考訳) 高感度量子干渉計は、絡み合った状態へのアクセス以上のものを必要とする。 システム内の量子相関の深い理解によって達成される。 統合可能なモデルは、この理解を開発するためのフレームワークを提供する。 ボソン間の相互作用を4サイト構成で記述した積分モデルのための干渉計測プロトコルの設計を通信する。 ある種の可観測物の量子力学の解析式が計算される。 これらはNOON状態のインターフェロメトリ識別子とプロデューサとしてシステムの機能を公開している。 2つのハイブリッド量子ビットに作用する制御相ゲートと等価であるため、このシステムはハイゼンベルク制限干渉計と量子情報との等価性も強調する。 これらの結果は、可積分エンハンスされたatomtronic技術のための新しい道を開くことが期待されている。

High sensitivity quantum interferometry requires more than just access to entangled states. It is achieved through deep understanding of quantum correlations in a system. Integrable models offer the framework to develop this understanding. We communicate the design of interferometric protocols for an integrable model that describes the interaction of bosons in a four-site configuration. Analytic formulae for the quantum dynamics of certain observables are computed. These expose the system's functionality as both an interferometric identifier, and producer, of NOON states. Being equivalent to a controlled-phase gate acting on two hybrid qudits, this system also highlights an equivalence between Heisenberg-limited interferometry and quantum information. These results are expected to open new avenues for integrability-enhanced atomtronic technologies.
翻訳日:2023-05-22 05:54:17 公開日:2022-05-30
# 準相対エントロピーに基づく真のコヒーレンスの測定

Measure of genuine coherence based of quasi-relative entropy ( http://arxiv.org/abs/2102.13142v2 )

ライセンス: Link先を確認
Anna Vershynina(参考訳) 擬相対エントロピーに基づく真のコヒーレンス測度をデフェーズドと原状態の擬エントロピーの差として提示する。 この尺度は真の非コヒーレント操作(GIO)の下での非負性および単調性を満たす。 gio の下では2次元および3次元、あるいは任意の次元の純粋な状態に対して強い単調であり、真のコヒーレンス単調である。 元の状態と脱相状態との間のトレース距離の観点から単調性関係における誤差項のバウンドを与える。 さらに、コヒーレンス測度の下限は、このトレース距離の観点から計算することもできる。

We present a genuine coherence measure based on a quasi-relative entropy as a difference between quasi-entropies of the dephased and the original states. The measure satisfies non-negativity and monotonicity under genuine incoherent operations (GIO). It is strongly monotone under GIO in two- and three-dimensions, or for pure states in any dimension, making it a genuine coherence monotone. We provide a bound on the error term in the monotonicity relation in terms of the trace distance between the original and the dephased states. Moreover, the lower bound on the coherence measure can also be calculated in terms of this trace distance.
翻訳日:2023-04-09 22:30:30 公開日:2022-05-30
# ニューラルネットワークによる量子鍵分布の秘密鍵速度の予測

Neural network-based prediction of the secret-key rate of quantum key distribution ( http://arxiv.org/abs/2108.02578v3 )

ライセンス: Link先を確認
Min-Gang Zhou, Zhi-Ping Liu, Wen-Bo Liu, Chen-Long Li, Jun-Lin Bai, Yi-Ran Xue, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 数値計算法は、実際には多くの量子鍵分布プロトコルのセキュアな鍵レートを計算するために広く用いられているが、多くの計算資源を消費し、時間がかかりすぎる。 本研究では,ホモダイン検出離散変調連続可変量子鍵分布(cv-qkd)を例とし,実験パラメータと実験結果に基づいて安全な鍵レートを迅速に予測できるニューラルネットワークを構築した。 従来の数値手法と比較して、ニューラルネットワークの速度は数桁改善されている。 重要なのは、予測される鍵レートが極めて正確であるだけでなく、安全性も高いことだ。 これにより、離散変調CV-QKDの安全な鍵レートを低消費電力プラットフォーム上でリアルタイムで抽出することができる。 さらに,本手法は汎用性が高く,様々な非構造量子鍵分布プロトコルの複雑なセキュア鍵レートを迅速に計算できる。

Numerical methods are widely used to calculate the secure key rate of many quantum key distribution protocols in practice, but they consume many computing resources and are too time-consuming. In this work, we take the homodyne detection discrete-modulated continuous-variable quantum key distribution (CV-QKD) as an example, and construct a neural network that can quickly predict the secure key rate based on the experimental parameters and experimental results. Compared to traditional numerical methods, the speed of the neural network is improved by several orders of magnitude. Importantly, the predicted key rates are not only highly accurate but also highly likely to be secure. This allows the secure key rate of discrete-modulated CV-QKD to be extracted in real time on a low-power platform. Furthermore, our method is versatile and can be extended to quickly calculate the complex secure key rates of various other unstructured quantum key distribution protocols.
翻訳日:2023-03-19 07:25:23 公開日:2022-05-30
# 並列磁場下でのトポロジカル量子符号の絡み合いの非マルコフダイナミクスによる消音相

Distinguishing Phases via Non-Markovian Dynamics of Entanglement in Topological Quantum Codes under Parallel Magnetic Field ( http://arxiv.org/abs/2108.11198v2 )

ライセンス: Link先を確認
Harikrishnan K. J. and Amit Kumar Pal(参考訳) 並列磁場を有する位相量子コードの非自明なループ上の局所的絡み合いとその下界の静的および動的挙動について検討した。 パラレル場と外部ノイズが存在しない場合の安定化状態とグラフ状態との接続を利用して、測定が単一量子パウリ計測のみに制限された場合に局所的な絡み合いを最適化する特定の測定基盤、すなわち正準計測基底を同定し、下界を与える。 また,計算資源に応じて大規模システムに対して計算可能な下界の近似も提案する。 さらに、適切に設計された証人演算子の期待値を決定することで計算可能な局所化エンタングルメントの下限を計算する。 システムの位相的から非位相的量子相転移近傍におけるこれらの下界の挙動を解析し,有限サイズのスケーリング解析を行う。 また,システムにマルコフ的あるいは非マルコフ的単一量子デフォーカス雑音が生じる場合,これらの下界の動的特徴についても検討する。 その結果,非マルコフ発語雑音の場合,位相相からの初期状態と比較して,非位相相から脱語力学を行う系の初期状態を選択すると,正準測位に基づく下界振動が大きな振幅で大きくなることが判明した。 これらの特徴は、劣化するノイズが存在する場合、システムのトポロジカル位相と非トポロジカル位相を区別するために利用することができる。

We investigate the static and the dynamical behavior of localizable entanglement and its lower bounds on nontrivial loops of topological quantum codes with parallel magnetic field. Exploiting the connection between the stabilizer states and graph states in the absence of the parallel field and external noise, we identify a specific measurement basis, referred to as the canonical measurement basis, that optimizes localizable entanglement when measurement is restricted to single-qubit Pauli measurements only, thereby providing a lower bound. We also propose an approximation of the lower bound that can be computed for larger systems according to the computational resource in hand. Additionally, we compute a lower bound of the localizable entanglement that can be computed by determining the expectation value of an appropriately designed witness operator. We study the behavior of these lower bounds in the vicinity of the topological to nontopological quantum phase transition of the system, and perform a finite-size scaling analysis. We also investigate the dynamical features of these lower bounds when the system is subjected to Markovian or non-Markovian single-qubit dephasing noise. We find that in the case of the non-Markovian dephasing noise, at large time, the canonical measurement-based lower bound oscillates with a larger amplitude when the initial state of the system undergoing dephasing dynamics is chosen from the nontopological phase, compared to the same for an initial state from the topological phase. These features can be utilized to distinguish the topological phase of the system from the nontopological phase in the presence of dephasing noise.
翻訳日:2023-03-17 05:21:46 公開日:2022-05-30
# 2+1)d可逆フェルミオン位相相の対称性による分類

Classification of (2+1)D invertible fermionic topological phases with symmetry ( http://arxiv.org/abs/2109.11039v5 )

ライセンス: Link先を確認
Maissam Barkeshli, Yu-An Chen, Po-Shen Hsin, and Naren Manjunath(参考訳) 一般フェルミオン対称性群 $g_f$ とキラル中心電荷 $c_-$ の一般値に対して、2つの空間次元の対称性を持つ相互作用フェルミオンの可逆位相相の分類を提供する。 ここで $g_f$ は、フェルミオンパリティによるボソニック対称性群 $g_b$ の中心的な拡張であり、第二コホモロジークラス $[\omega_2] \in \mathcal{h}^2(g_b, \mathbb{z}_2)$ によって定義される。 我々のアプローチは、フェルミオンパリティを計測し、一定の追加データと制約を追跡しながら、得られた$g_b$ 対称性エンリッチドトポロジカルオーダーを分類することで進みます。 我々はこの解析を、2つの観点で行い、$G$-crossed braided tensor category と Spin$(2c_-)_1$ Chern-Simons theory を背景の$G$ gauge field に結合する。 これらの結果は、コボルディズム理論やスペクトル列を用いたより抽象的な方法よりも物理的に透明で計算学的に単純である、具体的なデータと一貫性方程式の集合の観点で、可逆フェルミオン位相を特徴づけて分類する方法を与える。 また, この結果は, カイラル中心電荷$c_- = 0$ を持つ Wang と Gu による近年のフェルミオン対称性保護位相の分類に対する異なるアプローチを提供する。 位相絶縁体と超伝導体の10倍の分類法が, 一般的な非摂動的制約とともに, 特定の選択を$c_-$, $G_f$で表す。 数学的には、G_f$対称性を持つ (2+1)D の可逆な位相量子論の変形クラスを明示的にパラメータ化することを示唆する。

We provide a classification of invertible topological phases of interacting fermions with symmetry in two spatial dimensions for general fermionic symmetry groups $G_f$ and general values of the chiral central charge $c_-$. Here $G_f$ is a central extension of a bosonic symmetry group $G_b$ by fermion parity, $(-1)^F$, specified by a second cohomology class $[\omega_2] \in \mathcal{H}^2(G_b, \mathbb{Z}_2)$. Our approach proceeds by gauging fermion parity and classifying the resulting $G_b$ symmetry-enriched topological orders while keeping track of certain additional data and constraints. We perform this analysis through two perspectives, using $G$-crossed braided tensor categories and Spin$(2c_-)_1$ Chern-Simons theory coupled to a background $G$ gauge field. These results give a way to characterize and classify invertible fermionic topological phases in terms of a concrete set of data and consistency equations, which is more physically transparent and computationally simpler than the more abstract methods using cobordism theory and spectral sequences. Our results also generalize and provide a different approach to the recent classification of fermionic symmetry-protected topological phases by Wang and Gu, which have chiral central charge $c_- = 0$. We show how the 10-fold way classification of topological insulators and superconductors fits into our scheme, along with general non-perturbative constraints due to certain choices of $c_-$ and $G_f$. Mathematically, our results also suggest an explicit general parameterization of deformation classes of (2+1)D invertible topological quantum field theories with $G_f$ symmetry.
翻訳日:2023-03-14 01:01:32 公開日:2022-05-30
# 任意のカップリングにおける非平衡量子熱力学へのオープンシステムアプローチ

Open-system approach to nonequilibrium quantum thermodynamics at arbitrary coupling ( http://arxiv.org/abs/2109.11893v3 )

ライセンス: Link先を確認
Alessandra Colla and Heinz-Peter Breuer(参考訳) 我々は、摂動理論を超えた熱浴と結合したオープン量子系の熱力学挙動を記述する一般的な理論を開発する。 本手法は, 減少する開系状態に対する正確な時間局所量子マスター方程式と, 最小散逸の原理に基づいている。 この原理は、マスター方程式をコヒーレントな時間発展を表すハミルトニアン部分と散逸とデコヒーレンスを記述する散逸部分へ分解する一意の処方となる。 この分解を用いることで、仕事、熱、エントロピーの生成を定義する方法を示し、熱力学の第一法則と第二法則を定式化し、第二法則の違反と量子非マルコフ性の間の関係を確立する。

We develop a general theory describing the thermodynamical behavior of open quantum systems coupled to thermal baths beyond perturbation theory. Our approach is based on the exact time-local quantum master equation for the reduced open system states, and on a principle of minimal dissipation. This principle leads to a unique prescription for the decomposition of the master equation into a Hamiltonian part representing coherent time evolution and a dissipator part describing dissipation and decoherence. Employing this decomposition we demonstrate how to define work, heat, and entropy production, formulate the first and second law of thermodynamics, and establish the connection between violations of the second law and quantum non-Markovianity.
翻訳日:2023-03-13 21:08:29 公開日:2022-05-30
# Gottesman-Kitaev-Preskill EncodingによるQubit Magic Resourceの定量化

Quantifying Qubit Magic Resource with Gottesman-Kitaev-Preskill Encoding ( http://arxiv.org/abs/2109.13018v3 )

ライセンス: Link先を確認
Oliver Hahn, Alessandro Ferraro, Lina Hultquist, Giulia Ferrini and Laura Garc\'ia-\'Alvarez(参考訳) 量子資源理論は、関連する量子現象を特徴づけ、定量化し、異なるタスクに最適化するプロセスを特定するための強力なフレームワークである。 ここでは、ほとんどのフォールトトレラント量子コンピュータにおいて、魔法のリソース測度、探索特性を定義する。 従来の文献とは対照的に、我々の定式化は連続変数量子計算におけるボソニック符号、よく研究されたツールに基づいている。 特に、gottesman-kitaev-preskill符号を用いてマルチキュービット状態を表し、wigner negativityのリソース理論を検討する。 本手法は, 状態変換や一般ユニタリ合成として, 測定, 補助状態, 古典的フィードフォワードを許容する様々な用途において, 資源下限を求めるのに有用である。 マジック測度の解析的表現により、電流解析は小次元に限定され、最大12量子ビットのシステムに容易に対応できる。

Quantum resource theories are a powerful framework to characterize and quantify relevant quantum phenomena and identify processes that optimize their use for different tasks. Here, we define a resource measure for magic, the sought-after property in most fault-tolerant quantum computers. In contrast to previous literature, our formulation is based on bosonic codes, well-studied tools in continuous-variable quantum computation. Particularly, we use the Gottesman-Kitaev-Preskill code to represent multi-qubit states and consider the resource theory for the Wigner negativity. Our techniques are useful to find resource lower bounds for different applications as state conversion and general unitary synthesis, in which measurements, auxiliary states, and classical feed-forward are allowed. The analytical expression of our magic measure allows us to extend current analysis limited to small dimensions, easily addressing systems of up to 12 qubits.
翻訳日:2023-03-13 11:51:25 公開日:2022-05-30
# 量子アルゴリズムプロトコルにおけるバレン高原の低減

Reducing Barren Plateaus in Quantum Algorithm Protocols ( http://arxiv.org/abs/2111.08085v2 )

ライセンス: Link先を確認
Lukas Broers and Ludwig Mathey(参考訳) 量子機械学習は、短期的な量子計算デバイスの有望な利用として登場した。 しかし、変分量子アルゴリズムのようなアルゴリズムクラスは、パラメータ空間における勾配の消失によって不毛高原に苦しむことが示されている。 本稿では,ハミルトニアン系パラメータの学習可能なフーリエ係数に基づく量子アルゴリズム最適化手法を提案する。 我々の ansatz は離散量子変分アルゴリズムの拡張に適用され、量子最適制御スキームに類似し、非局所的である。 我々は、量子フーリエ変換をコンパイルし、量子自然勾配降下を用いたランダム問題ハミルトンの基底状態を作成するという目的に対して、ansatzの有効性を実証する。 量子最適制御とパラメトリゼーション回路における時間的局所離散化 ans\atze と比較して、我々のアンザッツは、消失する勾配に悩まされることなく、より速くより一貫した収束を示す。 パラメータ空間全体にわたる客観的勾配を均一にサンプリングし、アンザッツにおいて、偏差は量子ビット数の減少率で減衰し、バレンプラトーが存在しないことを示す。 我々は、ansatzを近い将来の量子機械学習の候補として提案する。

Quantum machine learning has emerged as a promising utilization of near-term quantum computation devices. However, algorithmic classes such as variational quantum algorithms have been shown to suffer from barren plateaus due to vanishing gradients in their parameters spaces. We present an approach to quantum algorithm optimization that is based on trainable Fourier coefficients of Hamiltonian system parameters. Our ansatz applies to the extension of discrete quantum variational algorithms to analogue quantum optimal control schemes and is non-local in time. We demonstrate the viability of our ansatz on the objectives of compiling the quantum Fourier transform and preparing ground states of random problem Hamiltonians using quantum natural gradient descent. In comparison to the temporally local discretization ans\"atze in quantum optimal control and parametrized circuits, our ansatz exhibits faster and more consistent convergence without suffering from vanishing gradients. We uniformly sample objective gradients across the parameter space and find that in our ansatz the variance decays at a decreasing rate with the number of qubits, which indicates the absence of barren plateaus. We propose our ansatz as a viable candidate for near-term quantum machine learning.
翻訳日:2023-03-08 01:59:03 公開日:2022-05-30
# ハーディの非局所性試験における非最大違反による自己検定量子状態

Self-testing quantum states via nonmaximal violation in Hardy's test of nonlocality ( http://arxiv.org/abs/2112.06595v2 )

ライセンス: Link先を確認
Ashutosh Rai, Matej Pivoluska, Souradeep Sasmal, Manik Banik, Sibasish Ghosh, Martin Plesch(参考訳) 自己テストプロトコルは、内部動作に関する完全な知識を必要とせずに、量子デバイスの認証を可能にする。 このようなプロトコルを設計する典型的なアプローチは、ベルテストで最大違反を示す非局所相関を観測することに基づいている。 ハーディの非局所性テストとして知られるベル実験では、量子状態の最大非局所相関を自己テストするだけでなく、最大でない非局所的振る舞いも同じ目的を果たすことができる。 実際、我々は、極大に絡み合った状態を除いて、純粋に2つの四角い状態の全ての自己テストにつながる全ての振舞いを、完全に特徴づけている。 提案手法は,新しい自己テストプロトコルの創出とは別に,量子相関の集合の複雑な境界を特徴づけるための強力なツールを提供する。

Self-testing protocols enable certification of quantum devices without demanding full knowledge about their inner workings. A typical approach in designing such protocols is based on observing nonlocal correlations which exhibit maximum violation in a Bell test. We show that in Bell experiment known as Hardy's test of nonlocality not only the maximally nonlocal correlation self-tests a quantum state, rather a non-maximal nonlocal behavior can serve the same purpose. We, in fact, completely characterize all such behaviors leading to self-test of every pure two qubit entangled state except the maximally entangled ones. Apart from originating a novel self-testing protocol, our method provides a powerful tool towards characterizing the complex boundary of the set of quantum correlations.
翻訳日:2023-03-04 16:51:53 公開日:2022-05-30
# 共分散行列、純粋性、線型エントロピー、フォン・ノイマンエントロピーの古典的アナログ

Classical analogs of the covariance matrix, purity, linear entropy, and von Neumann entropy ( http://arxiv.org/abs/2112.10899v3 )

ライセンス: Link先を確認
Bogar D\'iaz, Diego Gonz\'alez, Daniel Guti\'errez-Ruiz, and J. David Vergara(参考訳) 我々は、任意の連続量子状態に対する古典近似を行うことで、量子共分散行列の古典的類似体を得るとともに、このアプローチをアンハーモニック振動子を用いて示す。 この古典的共分散行列を用いて、古典的可積分系に対する純粋性、線型量子エントロピー、フォン・ノイマンエントロピーの古典的アナログを提案する。 よく知られているように、この行列はガウス状態の純度、線形量子エントロピー、フォン・ノイマンエントロピーを完全に特徴付ける。 これらの古典的アナログは、考慮されたサブシステムの中で、完備系からの情報量を明らかにする量として解釈することができる。 このアプローチを説明するために、3つの結合調和振動子と2つの線形結合振動子の古典アナログを計算する。 量子的な結果を正確に再現できることが分かっています。 この意味では、古典的観点からこれらの量を計算できることは驚くべきことである。

We obtain a classical analog of the quantum covariance matrix by performing its classical approximation for any continuous quantum state, and we illustrate this approach with the anharmonic oscillator. Using this classical covariance matrix, we propose classical analogs of the purity, linear quantum entropy, and von Neumann entropy for classical integrable systems, when the quantum counterpart of the system under consideration is in a Gaussian state. As is well known, this matrix completely characterizes the purity, linear quantum entropy, and von Neumann entropy for Gaussian states. These classical analogs can be interpreted as quantities that reveal how much information from the complete system remains in the considered subsystem. To illustrate our approach, we calculate these classical analogs for three coupled harmonic oscillators and two linearly coupled oscillators. We find that they exactly reproduce the results of their quantum counterparts. In this sense, it is remarkable that we can calculate these quantities from the classical viewpoint.
翻訳日:2023-03-04 00:39:17 公開日:2022-05-30
# 二重スリット配置における経路重ね合わせ観測の提案

Proposal to observe paths superpositions in a double-slit setup ( http://arxiv.org/abs/2112.10865v2 )

ライセンス: Link先を確認
Q. Duprey and A. Matzkin(参考訳) ヤングの二重スリット構成における量子粒子による干渉パターンは、粒子の波動関数が両方のスリットを通過したためである。 経路積分の定式化において、この干渉は経路の重ね合わせを伴い、どちらかのスリットを通過し、ソースを検出点にリンクする。 これらの経路の重ね合わせを,スリットと検出面の間の弱弱測定の連続的最小化によって原理的に観察できることを示す。 さらに,これらの「弱軌道」を単一光子で観測するための簡易なプロトコルを提案する。

The interference pattern produced by a quantum particle in Young's double-slit setup is attributed to the particle's wavefunction having gone through both slits. In the path integral formulation, this interference involves a superposition of paths, going through either slit, linking the source to the detection point. We show how these paths superpositions can in principle be observed by implementing a series of minimally-perturbing weak measurements between the slits and the detection plane. We further propose a simplified protocol in order to observe these "weak trajectories" with single photons.
翻訳日:2023-03-04 00:37:49 公開日:2022-05-30
# 動的平均場理論による駆動散逸ボソンの定常量子ゼノ効果

Steady-State Quantum Zeno Effect of Driven-Dissipative Bosons with Dynamical Mean-Field Theory ( http://arxiv.org/abs/2201.03191v2 )

ライセンス: Link先を確認
Matteo Secl\`i, Massimo Capone, Marco Schir\`o(参考訳) 本研究では,各格子面に2粒子損失と非コヒーレントな単粒子駆動が存在する場合のBose-Hubbardモデルについて検討し,有限密度定常状態に導いた。 動的平均場理論(DMFT)とリンドブラディアンの正確な対角化に基づく不純物解法を用いて、強い二粒子損失の機構について検討する。 ここでは、静止状態の量子ゼノ効果が現われ、現場での占有とスペクトル関数で見ることができる。 DMFTは自己持続風呂を通してこの効果を捉えている。 深部善王政権においては,浴場構造が簡易化され,浴場全体の占有が指数的に抑制されることが示されている。 その結果,Zeno散逸スケールで一粒子散逸制御された補助浴場を有する実効発散ハードコアBose-Hubbardダイマーモデルが出現する。

We study a driven-dissipative Bose-Hubbard model in presence of two-particle losses and an incoherent single-particle drive on each lattice site, leading to a finite-density stationary state. Using dynamical mean-field theory (DMFT) and an impurity solver based on exact diagonalization of the associated Lindbladian, we investigate the regime of strong two-particle losses. Here, a stationary-state quantum Zeno effect emerges, as can be seen in the on-site occupation and spectral function. We show that DMFT captures this effect through its self-consistent bath. We show that, in the deep Zeno regime, the bath structure simplifies, with the occupation of all bath sites except one becoming exponentially suppressed. As a result, an effective dissipative hard-core Bose-Hubbard dimer model emerges, where the auxiliary bath site has single-particle dissipation controlled by the Zeno dissipative scale.
翻訳日:2023-03-01 19:53:56 公開日:2022-05-30
# 分離不可分光子:光子封鎖の限界を超える線形光学を用いて

Splitting indistinguishable photons: Using linear optics to exceed the limit of photon blockade ( http://arxiv.org/abs/2201.04555v2 )

ライセンス: Link先を確認
Harjot Singh, Edo Waks(参考訳) 光子-光子相互作用は量子フォトニック情報処理の必須条件である。 これらの相互作用を生成する一つの方法は、光学キャビティに強く結合した原子を利用することである。 このシステムは、単一光子スイッチと非古典光の生成を可能にする光子遮断効果を示す。 しかし、このシステムによって実現される非線形効果は、基本的な時間帯域幅制約に苦しむ。 2つの区別できない光子の入力パルスを分割する単純な場合、この制約は異なる出力ポートへの光子のルーティング効率に制限を与える。 この限界は、強く結合した原子と線形光学を組み合わせることで超えることができる。 線形光変換のユニタリを最適化することにより、エンタングル光子とエンタングル光子の分割効率が向上した。 この結果から,線形光学を適切に利用することにより,非線形光学プロセスの効率を1光子レベルで向上できる可能性が示唆された。 これらの結果は光子による量子情報処理に影響を及ぼす可能性がある。

Photon-photon interactions are an essential requirement of quantum photonic information processing. One way to generate these interactions is to utilize an atom strongly coupled to an optical cavity. This system exhibits the photon blockade effect which enables single photon switching and creation of non-classical light. But the nonlinear effects enabled by this system suffer from a fundamental time-bandwidth constraint. For the the simple case of splitting an input pulse of two indistinguishable photons, this constraint imposes a limit on the efficiency of routing photons to different output ports. We show that this limit can be exceeded by combining the strongly-coupled atom with linear optics. By optimizing the unitary of the linear optical transformation, we achieve improved splitting efficiency for both un-entangled and entangled photons. Our results suggest that it may be possible to improve the efficiency of nonlinear optical processes at the single photon level by making suitable use of linear optics. These results could have implications for quantum information processing with photons.
翻訳日:2023-03-01 08:38:42 公開日:2022-05-30
# 有限時間分解能領域における光子検出器による光量子状態形成の解析

Analysis of optical quantum state preparation using photon detectors in the finite-temporal-resolution regime ( http://arxiv.org/abs/2201.06208v2 )

ライセンス: Link先を確認
Tatsuki Sonoyama, Warit Asavanant, Kosuke Fukui, Mamoru Endo, Jun-ichi Yoshikawa, Akira Furusawa(参考訳) 量子状態形成は量子情報処理において重要である。 特に連続変数を持つ光量子コンピューティングでは、普遍的な演算と誤り訂正には非ガウス状態が必要である。 光学的非ガウス状態は通常、光子検出器を用いたシーディングスキームによって生成される。 以前の実験では、光子検出器の時間分解能は量子状態の時間幅に対して十分に高く、非ガウス状態準備の従来の理論では検出器の時間分解能は無視できるものだった。 しかし、光子数分解検出器を含む様々な光子検出器を使用する場合、時間分解能は無視できない。 本稿では、光子検出器を用いた量子状態形成の従来理論を有限時間分解法に拡張し、単一光子および2光子生成を例として分析し、生成した状態が、検出器の時間分解能である$\delta t$と光源の帯域幅$\delta f$の積として定義される次元のないパラメータ$b$によって特徴づけられることを見出した。 結果に基づき、生成された量子状態の純度と忠実度を維持するために、$B\sim0.1$が必要である。

Quantum state preparation is important for quantum information processing. In particular, in optical quantum computing with continuous variables, non-Gaussian states are needed for universal operation and error correction. Optical non-Gaussian states are usually generated by heralding schemes using photon detectors. In previous experiments, the temporal resolution of the photon detectors was sufficiently high relative to the time width of the quantum state, so that the conventional theory of non-Gaussian state preparation treated the detector's temporal resolution as negligible. However, when using various photon detectors including photon-number-resolving detectors, the temporal resolution is non-negligible. In this paper, we extend the conventional theory of quantum state preparation using photon detectors to the finite temporal resolution regime, analyze the cases of single-photon and two-photon preparation as examples, and find that the generated states are characterized by the dimensionless parameter $B$, defined as the product of the temporal resolution of the detectors $\Delta t$ and the bandwidth of the light source $\Delta f$. Based on the results, $B\sim0.1$ is required to keep the purity and fidelity of the generated quantum states high.
翻訳日:2023-02-28 23:02:58 公開日:2022-05-30
# 双極子保存量子系における結合流体力学

Coupled Hydrodynamics in Dipole-Conserving Quantum Systems ( http://arxiv.org/abs/2201.08852v2 )

ライセンス: Link先を確認
A. G. Burchards, J. Feldmeier, A. Schuckert, M. Knap(参考訳) 双極子保存を伴う相互作用格子モデルにおける電荷とエネルギーの結合ダイナミクスについて検討する。 非平衡量子場理論を微視的に発展させることで、このフラクタル制約の組み合わせに対する一般的な流体力学理論を定式化し、特定のボソニック量子系の後期ダイナミクスへの適用性を数値的に検証する。 フィールド成分数に対する自己整合1/N$近似を用いて、一般化拡散行列の全成分を抽出し、顕微鏡モデルパラメータへの依存性を決定する。 この結果と超低温原子量子シミュレータ実験との関係について考察する。

We investigate the coupled dynamics of charge and energy in interacting lattice models with dipole conservation. We formulate a generic hydrodynamic theory for this combination of fractonic constraints and numerically verify its applicability to the late-time dynamics of a specific bosonic quantum system by developing a microscopic non-equilibrium quantum field theory. Employing a self-consistent $1/N$ approximation in the number of field components, we extract all entries of a generalized diffusion matrix and determine their dependence on microscopic model parameters. We discuss the relation of our results to experiments in ultracold atom quantum simulators.
翻訳日:2023-02-28 06:05:46 公開日:2022-05-30
# 量子情報科学のための工学的散逸

Engineered Dissipation for Quantum Information Science ( http://arxiv.org/abs/2202.05280v2 )

ライセンス: Link先を確認
Patrick M. Harrington, Erich Mueller, and Kater Murch(参考訳) 量子情報処理は、多くの制御されていない環境自由度の存在下で、非古典的状態の正確な制御に依存している。 これらの相互作用は、エネルギーを散逸させ、量子状態を取り消すため、しばしば有害と見なされる。 散逸エンジニアリングは、量子測定、量子状態の準備、量子状態の安定化を可能にする。 量子デバイス技術の進歩は、量子制御のための特性コヒーレンス時間と拡張可能なアーキテクチャの改善によって特徴づけられ、量子と古典の自由度をインターフェースするそのような散逸エンジニアリングツールの開発と一致した。 本稿では, 量子デバイスの測定と制御の基本的な側面として散逸を論じ, 実用規模での量子情報処理を可能にする量子誤差補正と量子シミュレーションにおける散逸工学の役割を強調した。

Quantum information processing relies on precise control of non-classical states in the presence of many uncontrolled environmental degrees of freedom -- requiring careful orchestration of how the relevant degrees of freedom interact with that environment. These interactions are often viewed as detrimental, as they dissipate energy and decohere quantum states. Nonetheless, when controlled, dissipation is an essential tool for manipulating quantum information: Dissipation engineering enables quantum measurement, quantum state preparation, and quantum state stabilization. The progress of quantum device technology, marked by improvements of characteristic coherence times and extensible architectures for quantum control, has coincided with the development of such dissipation engineering tools which interface quantum and classical degrees of freedom. This Review presents dissipation as a fundamental aspect of the measurement and control of quantum devices and highlights the role of dissipation engineering for quantum error correction and quantum simulation that enables quantum information processing on a practical scale.
翻訳日:2023-02-26 04:29:19 公開日:2022-05-30
# 量子アニールのためのKerr-非線形パラメトリック発振子の有効スピンモデル

Effective spin models of Kerr-nonlinear parametric oscillators for quantum annealing ( http://arxiv.org/abs/2202.07160v2 )

ライセンス: Link先を確認
Ryoji Miyazaki(参考訳) Kerr-nonlinear parametric oscillator (KPO) を用いた量子アニール法 (QA) を提案する。 この方法はボソニック作用素によって記述され、逆場イジングモデルに基づくQAとは異なる特徴を持つ。 この方法を従来のQAフレームワークで記述する最初のステップとして、KPOの効率的なスピンモデルを提案する。 スピンモデルはホルシュタイン-プリマコフ変換の変種を通じて得られ、スピン-$s$演算子によって記述される。 デチューニング(detuning)、コヒーレント駆動(coherent driving)、パラメトリック駆動(parametric driving)、カー効果(kerr effect)の用語は、それぞれスピンのz成分とx成分の非線形項にマッピングされる。 いくつかの設定でKPOに対応するスピンモデルを解析することにより、KPOの振る舞いを質的に再現する、かなり大きな$s$とチューニングされたパラメータのスピンモデルを示す。

A method of quantum annealing (QA) using Kerr-nonlinear parametric oscillators (KPOs) was proposed. This method is described by bosonic operators and has different characteristics from QA based on the transverse-field Ising model. As the first step to describe this method in the conventional framework of QA, we propose effective spin models of KPOs. The spin models are obtained via a variant of the Holstein-Primakoff transformation and are described by spin-$s$ operators. The terms for detuning, coherent driving, parametric driving, and the Kerr effect are mapped to the transverse field, longitudinal field, nonlinear terms for the z- and x-components of spins, respectively. By analyzing the spin models corresponding to KPOs in several settings, we demonstrate that the present spin models for a rather large $s$ and tuned parameters qualitatively reproduce behavior of KPOs.
翻訳日:2023-02-25 18:55:45 公開日:2022-05-30
# ユビキタスな知識がスマートファクトリを力づける: サービス指向のディジタルツインが企業パフォーマンスに与える影響

Ubiquitous knowledge empowers the Smart Factory: The impacts of a Service-oriented Digital Twin on enterprises' performance ( http://arxiv.org/abs/2206.03268v1 )

ライセンス: Link先を確認
Francesco Longo, Letizia Nicoletti, Antonio Padovano(参考訳) 産業4.0は人工知能の可能性を「何か」に組み入れているのに対し、機械の設置や保守作業といった異なる製造活動において依然として不可欠である人間の構成要素の役割を軽視している。 本研究はまず,産業4.0における創発的人間中心生産パラダイムとして,製造システムに関するユビキタスな知識の中心的な役割として,製造従業員が直感的にアクセスし,使用する産業インターネットピラミッドを提案する。 第2に、柔軟なオントロジー指向の知識構造と拡張現実を活用したサービス指向デジタルツインのプロトタイプを、直感的な知識検索と実演のための音声対話システムと組み合わせて設計、開発し、この製造知識を提供する。 この2つのテストベッド(前者は大企業の保守運用インターフェース、後者は主に中小規模の企業での生産とセットアップに焦点を当てている)は、時間、コスト、プロセス品質の点で大きなメリットを示し、提案するアプローチを検証する。 この研究は、人間中心の知識駆動型アプローチが産業4.0イニシアチブのパフォーマンスを加速させ、スマートファクトリをその潜在能力を最大限に発揮できることを示している。

While the Industry 4.0 is idolizing the potential of an artificial intelligence embedded into "things", it is neglecting the role of the human component, which is still indispensable in different manufacturing activities, such as a machine setup or maintenance operations. The present research study first proposes an Industrial Internet pyramid as emergent human-centric manufacturing paradigm within Industry 4.0 in which central is the role of a Ubiquitous Knowledge about the manufacturing system intuitively accessed and used by the manufacturing employees. Second, the prototype of a Service-oriented Digital Twin, which leverage on a flexible ontology-oriented knowledge structure and on augmented reality combined to a vocal interaction system for an intuitive knowledge retrieval and fruition, has been designed and developed to deliver this manufacturing knowledge. Two test-beds, complimentary for the problems in practice (the former on the maintenance-production interface in a large enterprise, the latter majorly focused in production and setups in a small and medium enterprise), show the significant benefits in terms of time, costs and process quality, thus validating the approach proposed. This research shows that a human-centric and knowledge-driven approach can drive the performance of Industry 4.0 initiatives and lead a Smart Factory towards its full potential.
翻訳日:2023-02-19 17:36:03 公開日:2022-05-30
# 解説から勧告へ:アルゴリズム・リコースの倫理基準

From Explanation to Recommendation: Ethical Standards for Algorithmic Recourse ( http://arxiv.org/abs/2205.15406v1 )

ライセンス: Link先を確認
Emily Sullivan and Philippe Verreault-Julien(参考訳) 人々はますますアルゴリズム的な決定の対象となり、エンドユーザーはこれらの決定に対して説明や根拠を提供するべきだと一般的に合意されている。 システムに対するユーザの信頼向上や,ユーザが決定に異議を唱えることなど,説明にはさまざまな目的がある。 勢いを増している特定の目的の1つは、アルゴリズム的リコースである。 まず,説明問題ではなくレコメンデーション問題として,レコメンデーション問題と見なすべきである。 そして、我々は、この能力アプローチが言論にもっとも有益で実りある倫理的基準を提供すると論じる。 本稿では,アルゴリズムリコースにおける多様性制約の事例を考察する。 最後に,アルゴリズム・リコース研究における機能的アプローチの意義と意義について論じる。

People are increasingly subject to algorithmic decisions, and it is generally agreed that end-users should be provided an explanation or rationale for these decisions. There are different purposes that explanations can have, such as increasing user trust in the system or allowing users to contest the decision. One specific purpose that is gaining more traction is algorithmic recourse. We first propose that recourse should be viewed as a recommendation problem, not an explanation problem. Then, we argue that the capability approach provides plausible and fruitful ethical standards for recourse. We illustrate by considering the case of diversity constraints on algorithmic recourse. Finally, we discuss the significance and implications of adopting the capability approach for algorithmic recourse research.
翻訳日:2023-02-19 17:21:24 公開日:2022-05-30
# 計算参加型選挙による多様な代表 -事例から-

Diverse Representation via Computational Participatory Elections -- Lessons from a Case Study ( http://arxiv.org/abs/2205.15394v1 )

ライセンス: Link先を確認
Florian Ev\'equoz, Johan Rochel, Vijay Keswani, and L. Elisa Celis(参考訳) 選挙は民主的なプロセスの中心的な機関であり、公共または私的な統治において選出される組織は個人の委員会である。 選挙で選出された組織の正当性を確保するために、選挙プロセスは、性別、民族、その他の社会的に有能な属性によって限界化されたグループのメンバー、特に多様なグループが代表されることを保証する必要がある。 このような表現の課題に対処するため,我々はRepresentation Pactという新しい参加型選挙プロセスを設計し,計算システムのサポートにより実装した。 このプロセスにより、有権者は第1ラウンドで表現基準を柔軟に決定し、第2ラウンドで候補者に投票することができる。 この2ラウンドの後に、第1ラウンドの基準を満たすことを条件として、第2ラウンドで受け取った票数を最大化する候補者の委員会を選択するカウント方法が適用される。 スイスの96人の予備選挙において、このプロセスを適用した詳細なユースケースの助けを借りて、より優れた「記述的代表」を達成することで、この方法が選挙の公正性にどのように寄与するかを説明します。 さらに,この利用事例に基づいて,社会や政治の文脈で用いられる参加型計算システムに適用可能な授業を識別する。 優れたプラクティスが特定され、提示されます。

Elections are the central institution of democratic processes, and often the elected body -- in either public or private governance -- is a committee of individuals. To ensure the legitimacy of elected bodies, the electoral processes should guarantee that diverse groups are represented, in particular members of groups that are marginalized due to gender, ethnicity, or other socially salient attributes. To address this challenge of representation, we have designed a novel participatory electoral process coined the Representation Pact, implemented with the support of a computational system. That process explicitly enables voters to flexibly decide on representation criteria in a first round, and then lets them vote for candidates in a second round. After the two rounds, a counting method is applied, which selects the committee of candidates that maximizes the number of votes received in the second round, conditioned on satisfying the criteria provided in the first round. With the help of a detailed use case that applied this process in a primary election of 96 representatives in Switzerland, we explain how this method contributes to fairness in political elections by achieving a better "descriptive representation". Further, based on this use case, we identify lessons learnt that are applicable to participatory computational systems used in societal or political contexts. Good practices are identified and presented.
翻訳日:2023-02-19 17:21:13 公開日:2022-05-30
# あなたはトロフィーを獲得しました:ゲーム内達成とその完了を特徴付ける

You Have Earned a Trophy: Characterize In-Game Achievements and Their Completions ( http://arxiv.org/abs/2205.15163v1 )

ライセンス: Link先を確認
Haewoon Kwak(参考訳) 達成システムはプレイヤーの利益を維持するためにゲームプラットフォームで積極的に採用されている。 プレイステーションゲームにおけるトロフィーは、最も成功した達成システムの一つである。 トロフィー設計の重要性は、多くのゲーム開発者フォーラムで概して議論されているが、トロフィーの歴史的データセットに関する体系的な研究はまだ行われていない。 本研究では,プレイステーションゲームとそのトロフィーの完全なデータセットを構築し,開発者とプレイヤーの両視点からそれらを検証する。

Achievement systems have been actively adopted in gaming platforms to maintain players' interests. Among them, trophies in PlayStation games are one of the most successful achievement systems. While the importance of trophy design has been casually discussed in many game developers' forums, there has been no systematic study of the historical dataset of trophies yet. In this work, we construct a complete dataset of PlayStation games and their trophies and investigate them from both the developers' and players' perspectives.
翻訳日:2023-02-19 17:20:23 公開日:2022-05-30
# 翻訳量子力学の妥当性

Versatility of translational quantum dynamics ( http://arxiv.org/abs/2204.01426v3 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) シュル=オディンガー方程式とハミルトニアン {\widehat{h}=-i\hbar\frac{\partial\ }{\partial\tau}$ は実世界の系には単純すぎるか? I show that the following quantum systems are governed by this Hamiltonian, and at any time they are in an eigenstate of its canonical conjugate $\widehat{\tau}$, which plays the role of a time operator: 1. the measuring device and the observed system in the standard model of ideal measurements, 2. any quantum world which contains an isolated subsystem with the Hamiltonian $\widehat{H}=-i\hbar\frac{\partial\ }{\partial\tau}$, for example an ideal isolated clock or a sterile massless fermion in a certain eigenstate, 3. the quantum representation of any deterministic time-reversible dynamical system without time loops. 力学系の全ての性質は量子観測可能として忠実に符号化される。 これらの系のエネルギースペクトルは$\mathbb{R}$であるが、よく知られた主張とは対照的に、無限の負のエネルギーや無限の自由エネルギーを抽出する可能性を示さない。 2つの量子系はユニタリ同値であるが、観測可能な物理量は全く異なる可能性があり、無限の多様性と複雑性を許容する。 これは「ヒルベルト空間原理論」の具体的な例である。

Is the Schr\"odinger equation with the Hamiltonian $\widehat{H}=-i\hbar\frac{\partial\ }{\partial\tau}$ too simple for real-world systems? I show that the following quantum systems are governed by this Hamiltonian, and at any time they are in an eigenstate of its canonical conjugate $\widehat{\tau}$, which plays the role of a time operator: 1. the measuring device and the observed system in the standard model of ideal measurements, 2. any quantum world which contains an isolated subsystem with the Hamiltonian $\widehat{H}=-i\hbar\frac{\partial\ }{\partial\tau}$, for example an ideal isolated clock or a sterile massless fermion in a certain eigenstate, 3. the quantum representation of any deterministic time-reversible dynamical system without time loops. All properties of the dynamical system are faithfully encoded as quantum observables. The energy spectrum of these systems is $\mathbb{R}$, yet I show that there is no decay to infinite negative energy nor the possibility to extract infinite amounts of free energy, contrary to well-known claims. Two such quantum systems may be unitarily equivalent, but the physical content of their observables may be very different, allowing unlimited diversity and complexity. This gives concrete counterexamples to the "Hilbert space fundamentalism" thesis.
翻訳日:2023-02-19 16:01:29 公開日:2022-05-30
# パスワードマネージャにおけるジェンダーバイアス

Gender Bias in Password Managers ( http://arxiv.org/abs/2206.14136v1 )

ライセンス: Link先を確認
Jeff Yan and Dearbhla McCabe(参考訳) パスワードマネージャーの選択と利用における性別バイアスを,半構造化インタビュー(n=18$)とアンケートに基づく調査(n=200$, performed 'in the wild')を通じて初めて報告した。 女性と男性は異なるタイプのパスワードマネージャーを好むだけでなく、女性と男性が頻繁に使用するソフトウェア機能も異なる。 これらの違いは統計的に有意である。 女性や男性がパスワードマネージャーを選ぶ上で最も重要あるいは影響力があると考える要因も異なっている。 便利さとブランドの選択は女性の配慮の頂点にあるが、セキュリティと特徴の数は男性にとって最上位である。 この差は統計的に有意である。

For the first time, we report gender bias in people's choice and use of password managers, through a semi-structured interview ($n=18$) and a questionnaire-based survey ($n=200$, conducted `in the wild'). Not only do women and men prefer different types of password managers, but software features that women and men frequently use also differ. These differences are statistically significant. The factors that women and men consider the most important or influential in choosing their password managers differ, too. Choice of convenience and brand are on the top of the women's consideration, whereas security and the number of features top the list for men. This difference is statistically significant.
翻訳日:2023-02-19 09:31:13 公開日:2022-05-30
# 量子力学における可逆的変化の問題

The Problem of Irreversible Change in Quantum Mechanics ( http://arxiv.org/abs/2204.02270v3 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 閉量子系において変化が起こって、その状態が過去または将来の全ての状態と完全に区別できるなら、ハミルトニアンは$\widehat{H}=-i\hbar\frac{\partial\}{\partial\tau}$である。 time operator $\widehat{\tau}$は、その標準共役として定義することができる。 このハミルトニアンは通常基底状態を持たないため拒絶されるが、より弱い形の可逆性でさえ基底状態と矛盾することを示している。 世界のハミルトニアンが$-i\hbar\frac{\partial\ }{\partial\tau}$である、あるいは変更が可逆である、という正しい選択は何ですか?

I prove that, if a change happens in a closed quantum system so that its state is perfectly distinguishable from all past or future states, the Hamiltonian is $\widehat{H}=-i\hbar\frac{\partial\ }{\partial\tau}$. A time operator $\widehat{\tau}$ can be defined as its canonical conjugate. This Hamiltonian is usually rejected because it has no ground state, but I show that even a weaker form of irreversibility is inconsistent with a ground state. What is the right choice, that the world's Hamiltonian is $-i\hbar\frac{\partial\ }{\partial\tau}$, or that changes are reversible?
翻訳日:2023-02-18 05:29:01 公開日:2022-05-30
# カー非線形性を有する2モードボソニック系の駆動散逸時間結晶相

Driven-dissipative time crystalline phases in a two-mode bosonic system with Kerr nonlinearity ( http://arxiv.org/abs/2204.07533v3 )

ライセンス: Link先を確認
L.R. Bakker, M.S. Bahovadinov, D.V. Kurlov, V. Gritsev, Aleksey K. Fedorov, D.O. Krimer(参考訳) 非線形空洞共振器における2つの結合ボソニックモードの駆動散逸系について, 自明な定常状態から2つの異なる散逸時間結晶相への相転移の列を示す。 これらの効果は、分岐理論を用いてリンドブラッド方程式の半古典的解析のレベルで既に予測されており、完全な量子(数値)処理によってさらに支持されている。 このシステムは、非自明な周期性を持つ振動する非平衡定常状態が特徴の異なる動的相を示すと予測されている。 これらの位相は様々なキャビティqed実験で直接観測できることを期待する。

For the driven-dissipative system of two coupled bosonic modes in a nonlinear cavity resonator, we demonstrate a sequence of phase transitions from a trivial steady state to two distinct dissipative time crystalline phases. These effects are already anticipated at the level of the semiclassical analysis of the Lindblad equation using the theory of bifurcations and are further supported by the full quantum (numerical) treatment. The system is predicted to exhibit different dynamical phases characterized by an oscillating non-equilibrium steady state with non-trivial periodicity, which is a hallmark of time crystals. We expect that these phases can be directly probed in various cavity QED experiments.
翻訳日:2023-02-16 21:42:02 公開日:2022-05-30
# 5G技術を用いた変調光パラメトリック増幅器による5dB励起光の43GHz帯リアルタイム振幅測定

43-GHz bandwidth real-time amplitude measurement of 5-dB squeezed light using modularized optical parametric amplifier with 5G technology ( http://arxiv.org/abs/2205.14061v2 )

ライセンス: Link先を確認
Asuka Inoue, Takahiro Kashiwazaki, Taichi Yamashima, Naoto Takanashi, Takushi Kazama, Koji Enbutsu, Kei Watanabe, Takeshi Umeki, Mamoru Endo, Akira Furusawa(参考訳) 連続可変光量子情報処理(cvoqip、continuous-variable optical quantum information processing)は、高クロック周波数の実用的な量子コンピュータの候補である。 二次位相振幅測定のためのホモダイン検出器はクロック周波数を制限する主要な要因である。 本研究では,第5世代移動通信システム(5g)のコヒーレント波長多重通信に市販されているモジュール型光パラメトリック増幅器(opa)と広帯域バランスフォトダイオードを用いたリアルタイム振幅測定法を開発した。 OPAは、量子レベルの信号の1つの二次位相成分を損失耐性マクロレベルに増幅し、OPA後の損失を92.4\%から0.4\%に抑制する「魔法の杖」として機能する。 中心波長が1545.32nmのブロードバンド圧縮真空に適用した場合,DCから43GHzまでの5.2$\pm$0.5dBのスクイーズを損失補正なしで観測した。 モジュール型OPAによるCVOQIPと5G技術の融合は、定常量子ビットを使用する従来の方法から、その情報を定常波系に符号化する手法から、超高速な実用的な量子計算のためのフライング量子ビットを使用する方法へのパラダイムシフトにつながる。 これはつまり、量子コンピュータの研究が、特定の量子アルゴリズムのみを実行するマシンの開発段階から、あらゆるアルゴリズムの実行において、古典的コンピュータを上回る発展段階へと移行することを意味する。

Continuous-variable optical quantum information processing (CVOQIP), where quantum information is encoded in a traveling wave of light called a flying qubit, is a candidate for a practical quantum computer with high clock frequencies. Homodyne detectors for quadrature-phase amplitude measurements have been the major factor limiting the clock frequency. Here, we developed a real-time amplitude measurement method using a modular optical parametric amplifier (OPA) and a broadband balanced photodiode that is commercially used for coherent wavelength-division multiplexing telecommunication of the fifth-generation mobile communication systems (5G). The OPA amplifies one quadrature-phase component of the quantum-level signal to a loss-tolerant macroscopic level, and acts as a "magic wand," which suppresses the loss after the OPA from 92.4\% to only 0.4\%. When the method was applied to a broadband squeezed vacuum with a center wavelength of 1545.32 nm, we observed 5.2 $\pm$ 0.5 dB of squeezing from DC to 43 GHz without any loss correction. The marriage of CVOQIP and 5G technology arranged by the modular OPA will lead to a paradigm shift from the conventional method of using stationary qubits, where the information is encoded in a standing wave system, to a method using flying qubits for ultra-fast practical quantum computation. This means that quantum computer research will move from the stage of developing machines that execute only specific quantum algorithms to a stage of developing machines that can outperform classical computers in running any algorithm.
翻訳日:2023-02-11 13:53:17 公開日:2022-05-30
# 位相可変イメージドライブによるラビ振動の持続

Sustaining Rabi oscillations by using a phase-tunable image drive ( http://arxiv.org/abs/2205.14863v1 )

ライセンス: Link先を確認
H. De Raedt and S. Miyashita, and K. Michielsen and H.Vezin and S. Bertaina and I. Chiorescu(参考訳) CaWO$_4$:Gd$^{3+}$およびその他の磁気不純物に関する最近の電子スピン共鳴実験では、ラーモア周波数よりわずかに大きいマイクロ波周波数で磁気モーメントを駆動し、他のマイクロ波(イメージドライブ)とともにフロケ共鳴に調整することで、持続するラビ振動を発生できることが示されている。 これらの観測は,本論文で報告された新たな実験結果によって確認される。 数値的手法と解析的手法を組み合わせて, 脱コヒーレンスと消散の機構について検討した。 第1の微視的モデルは、外部磁場における磁気モーメントを記述し、デコヒーレンスと散逸の源として作用する2レベル系の浴と相互作用する。 第2のモデルは、同一の相互作用する磁気モーメントの集合であり、全て同じ磁場の下にある。 この場合、多体相互作用はラビ振動の崩壊を引き起こす。 また,ラビ振動の減衰に対するマイクロ波放射の不均一性の影響についても検討した。 シミュレーションの結果, 周波数の異なる2つのマイクロ波場に対する磁気モーメントのダイナミクスは, 環境との接触が非常に非自明であることがわかった。 適切な条件下では、特にフロッケ共鳴では、磁化がラビ振動の持続的な振動を示すことが示されている。 これらの2つの顕微鏡モデルは実験データを別々に記述するが、どちらの種類の相互作用も同時に考慮するシミュレーション研究は、現在非常に高価である。 これら2つの異なるモデルの微視的ダイナミクスについてより深い知見を得るため,浴槽と系エネルギーの時間依存性とスピンの相関について検討した。

Recent electron spin resonance experiments on CaWO$_4$:Gd$^{3+}$ and on other magnetic impurities have demonstrated that sustained Rabi oscillations can be created by driving a magnetic moment with a microwave field frequency slightly larger than the Larmor frequency and tuned to the Floquet resonance together with another microwave field (image drive). These observations are confirmed by the new experimental results reported in this paper. We investigate several mechanisms of decoherence and dissipation by using a combination of numerical and analytical techniques. The first microscopic model describes a magnetic moment in external magnetic fields, interacting with a bath of two-level systems acting as a source of decoherence and dissipation. The second model describes a collection of the identical, interacting magnetics moments, all subject to the same magnetic fields. In this case, the many-body interactions causes a decay of the Rabi oscillations. In addition, we also study the effect of the inhomogeneity of the microwave radiation on the decay of the Rabi oscillations. Our simulation results show that the dynamics of a magnetic moment subject to the two microwave fields with different frequencies and in contact with an environment is highly nontrivial. We show that under appropriate conditions, and in particular at the Floquet resonance, the magnetization exhibits sustained Rabi oscillations, in some cases with additional beatings. Although these two microscopic models separately describe the experimental data well, a simulation study that simultaneously accounts for both types of interactions is currently prohibitively costly. To gain further insight into the microscopic dynamics of these two different models, we study the time dependence of the bath and system energy and of the correlations of the spins, data that is not readily accessible experimentally.
翻訳日:2023-02-11 06:49:40 公開日:2022-05-30
# 準安定原子の2光子減衰によるアト秒エンタングルド光子:アト秒実験とそれを超える光源

Attosecond Entangled Photons from Two-Photon Decay of Metastable Atoms: A Source for Attosecond Experiments and Beyond ( http://arxiv.org/abs/2205.14861v1 )

ライセンス: Link先を確認
Yimeng Wang, Siddhant Pandey, Chris H. Greene, and Niranjan Shivaram(参考訳) 本研究では,準安定原子状態の2光子崩壊を自発的パラメトリック・ダウンコンバージョン光子と類似した源として,極紫外領域におけるattosecond entangleed bi-photonsの生成を提案する。 ヘリウム中の1s2s$^1s_0$準安定状態は、光子帯域が20.62evの合計エネルギー間隔に等しい2つのエネルギー時間絡み合い光子の放出によって基底状態へと崩壊する。 この結果、アト秒系の対相関時間は、これらの絡み合った光子をアト秒ポンプ-プローブ実験に非常に適した源とする。 240nmのヘリウムの直接4光子励起による2光子生成速度を計算し、これらの2光子を生成するための実現可能なスキームを評価する。 対数秒の時間スケール実験における絡み合った二光子の応用の可能性を示し、ゼプト秒体制に到達する可能性について論じる。

We propose the generation of attosecond entangled bi-photons in the extreme-ultraviolet regime by two-photon decay of a metastable atomic state as a source similar to spontaneous parametric down-conversion photons. The 1s2s $^1S_0$ metastable state in helium decays to the ground state by emission of two energy-time entangled photons with a photon bandwidth equal to the total energy spacing of 20.62 eV. This results in a pair correlation time in the attosecond regime making these entangled photons a highly suitable source for attosecond pump-probe experiments. The bi-photon generation rate from a direct four photon excitation of helium at 240 nm is calculated and used to assess some feasible schemes to generate these bi-photons. Possible applications of entangled bi-photons in attosecond time scale experiments, and a discussion of their potential to reach the zeptosecond regime are presented.
翻訳日:2023-02-11 06:49:12 公開日:2022-05-30
# トラップ型イオン量子シミュレータにおける超対称性の観察とその自発的破壊

Observation of Supersymmetry and its Spontaneous Breaking in a Trapped Ion Quantum Simulator ( http://arxiv.org/abs/2205.14860v1 )

ライセンス: Link先を確認
M.-L. Cai, Y.-K. Wu, Q.-X. Mei, W.-D. Zhao, Y. Jiang, L. Yao, L. He, Z.-C. Zhou, and L.-M. Duan(参考訳) 超対称性(SUSY)は高エネルギー物理学における階層問題の解決に役立ち、重力を他の基本的な相互作用と統一するための自然な基礎を提供する。 標準模型を超えた理論の最も有望な枠組みの1つであるが、その直接の実験的な証拠はいまだ発見されていない。 本稿では,超対称性量子力学(SUSY QM)モデルの実験的実現について述べる。 本モデルでは,SUSYによるエネルギーデジェネシーと自発性SUSY破壊を実証する。 スピンフォノン結合系の部分量子状態トモグラフィーにより、ボゾン状態とフェルミオン状態の重畳である縮退した基底状態の超電荷を明示的に測定する。 我々の研究は、単一のよく制御されたシステムで多用途な物理学を研究するための経済的かつ強力なプラットフォームとして、閉じ込められたイオン量子シミュレータを実証している。

Supersymmetry (SUSY) helps solve the hierarchy problem in high-energy physics and provides a natural groundwork for unifying gravity with other fundamental interactions. While being one of the most promising frameworks for theories beyond the Standard Model, its direct experimental evidence in nature still remains to be discovered. Here we report experimental realization of a supersymmetric quantum mechanics (SUSY QM) model, a reduction of the SUSY quantum field theory for studying its fundamental properties, using a trapped ion quantum simulator. We demonstrate the energy degeneracy caused by SUSY in this model and the spontaneous SUSY breaking. By a partial quantum state tomography of the spin-phonon coupled system, we explicitly measure the supercharge of the degenerate ground states, which are superpositions of the bosonic and the fermionic states. Our work demonstrates the trapped-ion quantum simulator as an economic yet powerful platform to study versatile physics in a single well-controlled system.
翻訳日:2023-02-11 06:48:56 公開日:2022-05-30
# QFaaS:量子コンピューティングのためのサーバレス関数・アズ・ア・サービスフレームワーク

QFaaS: A Serverless Function-as-a-Service Framework for Quantum Computing ( http://arxiv.org/abs/2205.14845v1 )

ライセンス: Link先を確認
Hoa T. Nguyen, Muhammad Usman, Rajkumar Buyya(参考訳) 量子ハードウェアの最近のブレークスルーは、多くのアプリケーションでその利用機会を生み出している。 しかし、量子ソフトウェア工学はいまだに多くの課題を抱えており、特に量子プログラミング言語やハードウェアプラットフォームの多様性に対処している。 これらの課題を軽減するために、サーバレスモデルと最先端のソフトウェアエンジニアリングアプローチの利点を活用して実用的な量子コンピューティングを進化させる、新しいQuantum Function-as-a-ServiceフレームワークであるQFaaSを提案する。 私たちのフレームワークは、ソフトウェア開発を簡素化し、ハイブリッド量子古典計算、コンテナ化関数、devops機能の統合など、量子クラウドコンピューティングパラダイムに適応するための、量子サーバレスプラットフォームの重要なコンポーネントを提供します。 我々は、量子言語とソフトウェア開発キット(qiskit、q#、cirq、braket)をサポートし、複数のシミュレータと量子クラウドプロバイダ(ibm quantum、amazon braket)で量子タスクを実行することで、qfaasを統一量子コンピューティングフレームワークとして設計する。 本稿では,アーキテクチャ設計,主成分,ハイブリッド量子古典関数のライフサイクル,運用ワークフロー,QFaaSの実装を提案する。 我々は,量子コンピュータとシミュレーターを用いて,従来の技術者の負担を軽減し,現在進行中の量子ソフトウェア移行を迅速化するための2つの実践的ユースケースを提案し,その評価を行う。

Recent breakthroughs in quantum hardware are creating opportunities for its use in many applications. However, quantum software engineering is still in its infancy with many challenges, especially dealing with the diversity of quantum programming languages and hardware platforms. To alleviate these challenges, we propose QFaaS, a novel Quantum Function-as-a-Service framework, which leverages the advantages of the serverless model and the state-of-the-art software engineering approaches to advance practical quantum computing. Our framework provides essential components of a quantum serverless platform to simplify the software development and adapt to the quantum cloud computing paradigm, such as combining hybrid quantum-classical computation, containerizing functions, and integrating DevOps features. We design QFaaS as a unified quantum computing framework by supporting well-known quantum languages and software development kits (Qiskit, Q#, Cirq, and Braket), executing the quantum tasks on multiple simulators and quantum cloud providers (IBM Quantum and Amazon Braket). This paper proposes architectural design, principal components, the life cycle of hybrid quantum-classical function, operation workflow, and implementation of QFaaS. We present two practical use cases and perform the evaluations on quantum computers and simulators to demonstrate our framework's ability to ease the burden on traditional engineers to expedite the ongoing quantum software transition.
翻訳日:2023-02-11 06:48:37 公開日:2022-05-30
# キタエフ模型における欠陥と励起

Defects and excitations in the Kitaev model ( http://arxiv.org/abs/2205.15208v1 )

ライセンス: Link先を確認
Thomas Vo{\ss}(参考訳) 半単純有限次元ホップ代数のツイストあるいは2-サイクルを欠陥データとして用いた欠陥付き北エフモデルを構築する。 このデータは、欠陥のあるTuraev-Viro位相場の量子論にTannaka双対性を適用することによって導かれる。 このことから、欠陥のあるキタエフモデルにおいて、移動、融合、および励起をブレイディングするための追加条件も導出する。 キタエフ模型に励起を記述することで、トゥレーエフ-ヴィロ位相的量子場理論から導かれる欠陥条件を満たしていることを示す。 自明な欠陥データを割り当てると透明な欠陥が得られ、それらを取り除くことができ、欠陥のないキタエフモデルが得られる。

We construct a Kitaev model with defects using twists or 2-cocycles of semi-simple, finite-dimensional Hopf algebras as defect data. This data is derived by applying Tannaka duality to Turaev-Viro topological quantum field theories with defects. From this we also derive additional conditions for moving, fusing and braiding excitations in the Kitaev model with defects. We give a description of excitations in the Kitaev model and show that they satisfy conditions we derive from Turaev-Viro topological quantum field theories with defects. Assigning trivial defect data one obtains transparent defects and we show that they can be removed, yielding the Kitaev model without defects.
翻訳日:2023-02-11 06:43:55 公開日:2022-05-30
# 実局所振動子を用いた60km光ファイバーの連続可変量子鍵分布

Continuous-Variable Quantum Key Distribution Over 60 km Optical Fiber With Real Local Oscillator ( http://arxiv.org/abs/2205.15161v1 )

ライセンス: Link先を確認
Adnan A.E. Hajomer, Hossein Mani, Nitin Jain, Hou-Man Chin, Ulrik L. Andersen, Tobias Gehring(参考訳) 局所発振器を用いた60kmのファイバチャネル上でのセキュア鍵生成を可能にする,最初の連続可変量子鍵分布実験を報告する。 これは、低変調分散でシステムの動作中に位相雑音補償を行う機械学習を用いて余剰雑音を制御することで達成される。

We report the first continuous-variable quantum key distribution experiment that enables the generation of secure key over a 60 km fiber channel with locally generated local oscillator. This is achieved by controlling the excess noise using machine learning for phase noise compensation while operating the system at a low modulation variance
翻訳日:2023-02-11 06:43:43 公開日:2022-05-30
# skyrmion helicity:量子化と量子トンネル効果

Skyrmion Helicity: Quantization and Quantum Tunneling Effects ( http://arxiv.org/abs/2205.15155v1 )

ライセンス: Link先を確認
Christina Psaroudaki and Christos Panagopoulos(参考訳) 固体状態における磁気ヘリシティの量子化を導出し、フラストレーション磁石で安定化したスキャミオンスピンテクスチャの波長可変な量子トンネル、コヒーレンス、振動を示す。 また、量子効果の実験的実現のためのパラメータ空間についても論じる。 通常、5nm半径のスカイミオンの場合、異なるヘリシティを持つ2つのマクロ状態の間の量子トンネルは、100mK以下の秒以内の逆脱出率とMHz状態のエネルギー分裂によって起こる。 磁気スピンのアンサンブルの量子トンネルの可能性は、トポロジカルに保護されたキラルスピン構成を利用する量子演算の新しいプラットフォームを刺激する。

We derive the quantization of magnetic helicity in the solid-state and demonstrate tunable macroscopic quantum tunneling, coherence, and oscillation for a skyrmion spin texture stabilized in frustrated magnets. We also discuss the parameter space for the experimental realization of quantum effects. Typically, for a skyrmion of 5 nm radius, quantum tunneling between two macroscopic states with distinct helicities occurs with an inverse escape rate within seconds below 100 mK, and an energy splitting in the MHz regime. Feasibility of quantum tunneling of an ensemble of magnetic spins inspires new platforms for quantum operations utilizing topologically protected chiral spin configurations.
翻訳日:2023-02-11 06:43:36 公開日:2022-05-30
# 絶縁体デバイス上の硝酸リチウムを用いた決定論的N-光子状態生成手法

A Scheme for Deterministic N-photon State Generation Using Lithium Niobate on Insulator Device ( http://arxiv.org/abs/2205.14956v1 )

ライセンス: Link先を確認
Hua-Ying Liu, Minghao Shang, Xiaoyi Liu, Ying Wei, Minghao Mi, Lijian Zhang, Yan-Xiao Gong, Zhenda Xie, Shi-Ning Zhu(参考訳) 大きな光子数量子状態は、実用的な量子情報応用のための基本的だが解決されていない要求である。 本稿では,絶縁体回路上でのニオブ酸リチウムを用いたN-光子状態生成方式を提案する。 このようなスキームは、決定論的単光子パラメトリックダウンコンバージョンとアップコンバージョンのための光子数二重化ユニット(pdu)と呼ばれる共通のビルディングブロックの統合に基づいている。 PDUは10^7光品質要素共振器とmWレベルのオンチップ・パワーに依存している。 n-photon状態生成スキームは、クラスタ状態とghz状態の例を示し、異なる量子タスクで示される。

Large-photon-number quantum state is a fundamental but non-resolved request for practical quantum information applications. Here we propose an N-photon state generation scheme that is feasible and scalable, using lithium niobate on insulator circuits. Such scheme is based on the integration of a common building block called photon-number doubling unit (PDU), for deterministic single-photon parametric down-conversion and up-conversion. The PDU relies on 10^7-optical-quality-factor resonator and mW-level on-chip power, which is within the current fabrication and experiment limits. N-photon state generation schemes, with cluster and GHZ state as examples, are shown for different quantum tasks.
翻訳日:2023-02-11 06:42:37 公開日:2022-05-30
# フェルミオンに対する量子支援モンテカルロアルゴリズム

Quantum-assisted Monte Carlo algorithms for fermions ( http://arxiv.org/abs/2205.14903v1 )

ライセンス: Link先を確認
Xiaosi Xu and Ying Li(参考訳) 量子コンピューティングは、多体フェルミオン系の基底状態である長期の計算問題を体系的に解く有望な方法である。 この問題においてある種の量子優位性、例えば変分量子アルゴリズムの開発を実現するために多くの努力がなされている。 hugginsらによる最近の研究は、新しい候補である量子古典的ハイブリッドモンテカルロアルゴリズムを報告している。 本稿では,量子コンピュータを最小限のコストで利用し,バイアスを低減できるスケーラブルな量子支援モンテカルロアルゴリズムのファミリーを提案する。 ベイズ推定手法を取り入れることで、振幅推定において経験的な平均値を取るよりもはるかに少ない量子計算コストで、この量子化バイアス低減を実現することができる。 さらに,ハイブリッドモンテカルロフレームワークは,古典的アルゴリズムから得られた基底状態の誤差を抑制する一般的な方法であることを示す。 我々の研究は、短期量子デバイス上でのフェルミオンシステムの量子化計算を実現するためのモンテカルロツールキットを提供する。

Quantum computing is a promising way to systematically solve the longstanding computational problem, the ground state of a many-body fermion system. Many efforts have been made to realise certain forms of quantum advantage in this problem, for instance, the development of variational quantum algorithms. A recent work by Huggins et al. reports a novel candidate, i.e. a quantum-classical hybrid Monte Carlo algorithm with a reduced bias in comparison to its fully-classical counterpart. In this paper, we propose a family of scalable quantum-assisted Monte Carlo algorithms where the quantum computer is used at its minimal cost and still can reduce the bias. By incorporating a Bayesian inference approach, we can achieve this quantum-facilitated bias reduction with a much smaller quantum-computing cost than taking empirical mean in amplitude estimation. Besides, we show that the hybrid Monte Carlo framework is a general way to suppress errors in the ground state obtained from classical algorithms. Our work provides a Monte Carlo toolkit for achieving quantum-enhanced calculation of fermion systems on near-term quantum devices.
翻訳日:2023-02-11 06:42:24 公開日:2022-05-30
# 古典世界を創り出すための検証可能な理論

A Testable Theory for The Emergence of the Classical World ( http://arxiv.org/abs/2205.14875v1 )

ライセンス: Link先を確認
Stuart Kauffman, Sudip Patra(参考訳) 量子から古典世界への遷移はまだ理解されていない。 ここでは新しいアプローチを取ります。 これの中心は、ある特定の基礎を除いて測定と現実化は起こらないという理解である。 しかし、特定の基盤の出現に関する確立された理論はない。

The transition from the quantum to the classical world is not yet understood. Here we take a new approach. Central to this is the understanding that measurement and actualization cannot occur except in some specific basis. But we have no established theory for the emergence of a specific basis.
翻訳日:2023-02-11 06:42:07 公開日:2022-05-30
# フォトニック量子ウォークにおける非エルミート位相モビリティエッジと輸送

Non-Hermitian topological mobility edges and transport in photonic quantum walks ( http://arxiv.org/abs/2205.14874v1 )

ライセンス: Link先を確認
Stefano Longhi(参考訳) 非エルミート準結晶では、複素エネルギー平面における局所状態と拡張状態を分離するモビリティエッジ(ME)は、ハミルトニアンにおける非エルミート項の結果として生じる。 このような ME はトポロジカルな性質であり、すなわち、局所化および拡張された状態のエネルギーは複素エネルギー平面において異なるトポロジカルな構造を示す。 しかし、非ヘルミティティーの起源、すなわちホッピング振幅の非対称性や非コンメンサートポテンシャル位相の複雑化により、格子のバルクの異なる輸送特性に対応する異なる巻数が導入される: 前者では弾道輸送が許容されるが、後者の場合では擬似動的局在が観察される。 この結果は、合成メッシュ格子内の非エルミートフォトニック量子ウォークを考慮したものである。

In non-Hermitian quasicrystals, mobility edges (ME) separating localized and extended states in complex energy plane can arise as a result of non-Hermitian terms in the Hamiltonian. Such ME are of topological nature, i.e. the energies of localized and extended states exhibit distinct topological structures in the complex energy plane. However, depending on the origin of non-Hermiticity, i.e. asymmetry of hopping amplitudes or complexification of the incommensurate potential phase, different winding numbers are introduced, corresponding to different transport features in the bulk of the lattice: while ballistic transport is allowed in the former case, pseudo dynamical localization is observed in the latter case. The results are illustrated by considering non-Hermitian photonic quantum walks in synthetic mesh lattices.
翻訳日:2023-02-11 06:42:04 公開日:2022-05-30
# 古典チャネル重力モデルにおける絡み合いを超えた量子相関

Quantum correlations beyond entanglement in a classical-channel model of gravity ( http://arxiv.org/abs/2205.15333v1 )

ライセンス: Link先を確認
Federico Roccati, Benedetto Militello, Emilio Fiordilino, Rosario Iaria, Luciano Burderi, Tiziana Di Salvo, Francesco Ciccarello(参考訳) 2つの質量間のニュートン相互作用の直接量子化は、もし検出されれば重力場の量子的性質を目撃する、絡み合いを確立することが知られている。 重力相互作用は、古典的チャネルに依存する重力デコヒーレンスモデルとも相容れないため、絡み合いを作ることができない。 ここで、パラダイム的なケースでは、エンタングルメントの欠如にもかかわらず、重力の古典的チャネルモデルが2つの質量間の量子不一致の形で量子相関を確立できることを示した。 これは、Kafri-Taylor-Milburn(KTM)モデルと、最近提案された散逸拡張に対して実証される。 どちらの場合も、無相関な状態から始めると、概してかなりの数の不和が生じる。 これは最終的にKTMモデルで崩壊するが、散逸性拡張において小さな定常値に収束する。 また, 質量状態における初期局所的なスクイージングは, 生成したディスコドを増大させる。

A direct quantization of the Newtonian interaction between two masses is known to establish entanglement, which if detected would witness the quantum nature of the gravitational field. Gravitational interaction is yet compatible also with gravitational decoherence models relying on classical channels, hence unable to create entanglement. Here, we show in paradigmatic cases that, despite the absence of entanglement, a classical-channel model of gravity can still establish quantum correlations in the form of quantum discord between two masses. This is demonstrated for the Kafri-Taylor-Milburn (KTM) model and a recently proposed dissipative extension of this. In both cases, starting from an uncorrelated state, a significant amount of discord is generally created. This eventually decays in the KTM model, while it converges to a small stationary value in its dissipative extension. We also find that initial local squeezing on the state of the masses can significanlty enhance the generated discord.
翻訳日:2023-02-11 06:35:53 公開日:2022-05-30
# 低ランクテンソルを持つテンソルネットワーク状態

Tensor Network States with Low-Rank Tensors ( http://arxiv.org/abs/2205.15296v1 )

ライセンス: Link先を確認
Hao Chen and Thomas Barthel(参考訳) テンソルネットワークは強相関量子多体系の状態を効率的に近似するために用いられる。 より一般に、テンソルネットワーク近似(tensor network approximations)は、オーダー=n$テンソル上の操作コストを指数関数から多項式へn$で削減することができる。 テンソルネットワークを構成するテンソルに低ランク制約を課すという考え方を導入する。 この修正により、ネットワーク最適化の時間と空間の複雑さは、高い精度を維持しながら大幅に低減できる。 木テンソルネットワーク状態(TTNS)と凸対状態について詳述する。 低ランクttnを有するケイリー木上のスピンモデルのシミュレーションは、ランク制約が表現力に与える影響を示す。 テンソル階数 r$ を結合次元 $m$ の順に選べば、高い精度の基底状態近似を得るのに十分であり、標準 ttns 計算を実質的に上回ることができる。 したがって、低ランクテンソルネットワークは、大きなデータセット上の量子物質と機械学習のシミュレーションに有望な経路である。

Tensor networks are used to efficiently approximate states of strongly-correlated quantum many-body systems. More generally, tensor network approximations may allow to reduce the costs for operating on an order-$N$ tensor from exponential to polynomial in $N$, and this has become a popular approach for machine learning. We introduce the idea of imposing low-rank constraints on the tensors that compose the tensor network. With this modification, the time and space complexities for the network optimization can be substantially reduced while maintaining high accuracy. We detail this idea for tree tensor network states (TTNS) and projected entangled-pair states. Simulations of spin models on Cayley trees with low-rank TTNS exemplify the effect of rank constraints on the expressive power. We find that choosing the tensor rank $r$ to be on the order of the bond dimension $m$, is sufficient to obtain high-accuracy groundstate approximations and to substantially outperform standard TTNS computations. Thus low-rank tensor networks are a promising route for the simulation of quantum matter and machine learning on large data sets.
翻訳日:2023-02-11 06:34:57 公開日:2022-05-30
# 固有デコヒーレンス下における超強結合調和振動子の仮想励起と量子相関

Virtual excitations and quantum correlations in ultra-strongly coupled harmonic oscillators under intrinsic decoherence ( http://arxiv.org/abs/2205.15251v1 )

ライセンス: Link先を確認
Radouan Hab-arrih, Ahmed Jellal, El Hassan El Kinani(参考訳) 結合振動子の固有デコヒーレンスについて検討する。 ミルバーンマスター方程式は正確に解かれ、仮想基底状態励起のダイナミクスが研究されている。 量子相関と仮想励起の相互作用について研究した。 以下は主要な発見の概要である。 (i)全3量の減衰振動プロファイルは同じである。 (II) 巨大異方性値と結合した超強結合は, エンタングルメントとステアリングの再帰をもたらす。 三 絡み合い及び操舵を維持するには、仮想励振が必要である。 (iv)量子相関は、量子同期状態において増幅される。 (v)超強結合は固有の非一貫性を回避できる。

We study the intrinsic decoherence of coupled harmonic oscillators. The Milburn master equation is solved exactly, and the dynamics of virtual ground state excitations are investigated. The interaction of quantum correlations and virtual excitation was then studied. The following is a summary of our major findings. (i) The damped oscillatory profile of all three quantities is the same. (ii) Ultra-strong coupling combined with huge anisotropy values results in the reemergence of entanglement and steering. (iii) To sustain entanglement and steering, virtual excitations are required. (iv) The quantum correlations are amplified in the quantum synchronous regime. (v) Ultra-strong couplings cause inherent decoherence to be avoided.
翻訳日:2023-02-11 06:33:09 公開日:2022-05-30
# 光トラップにおける原子のウィグナー関数の直接測定

Direct measurement of the Wigner function of atoms in an optical trap ( http://arxiv.org/abs/2205.15248v1 )

ライセンス: Link先を確認
Falk-Richard G. Winkelmann, Carrie A. Weidner, Gautam Ramola, Wolfgang Alt, Dieter Meschede, Andrea Alberti(参考訳) 本稿では、ラムゼー干渉法を用いて、光学トラップに閉じ込められた中性原子のウィグナー関数を直接観測する手法を提案する。 提案されたスキームは、与えられた点$(x,p)$の位相空間におけるウィグナー函数が、その点に対するパリティ作用素の期待値に比例する、よく確立された事実に依存している。 本研究では, 状態依存トラッピングポテンシャルを用いて, 原子の2つの異なる内部状態にパリティ等とパリティ等動状態がマッピング可能であることを示す。 したがって、ウィグナー関数は、内部状態の人口を単一の直接測定で位相空間内の点・点・点を測定できる。 数値シミュレーションにより、このスキームは深い高調波ポテンシャルだけでなく、浅い無調波トラップにも適用できることが示されている。

We present a scheme that uses Ramsey interferometry to directly probe the Wigner function of a neutral atom confined in an optical trap. The proposed scheme relies on the well-established fact that the Wigner function at a given point $(x,p)$ in phase space is proportional to the expectation value of the parity operator relative to that point. In this work, we show that parity-even and parity-odd motional states can be mapped to two distinct internal states of the atom by using state-dependent trapping potentials. The Wigner function can thus be measured point-by-point in phase space with a single, direct measurement of the internal state population. Numerical simulations show that the scheme is robust in that it applies not only to deep, harmonic potentials but also to shallower, anharmonic traps.
翻訳日:2023-02-11 06:32:58 公開日:2022-05-30
# 領域適応型パラメトリック変分オートエンコーダを用いたRADデータからのレーダ画像再構成

Radar Image Reconstruction from Raw ADC Data using Parametric Variational Autoencoder with Domain Adaptation ( http://arxiv.org/abs/2207.06379v1 )

ライセンス: Link先を確認
Michael Stephan (1 and 2), Thomas Stadelmayer (1 and 2), Avik Santra (2), Georg Fischer (1), Robert Weigel (1), Fabian Lurz (1) ((1) Friedrich-Alexander-University Erlangen-Nuremberg, (2) Infineon Technologies AG)(参考訳) 本稿では,周波数変調連続波レーダから得られたアナログ・デジタルコンバータデータを直接処理するパラメトリック変分オートエンコーダに基づく人的目標検出と位置決めフレームワークを提案する。 本研究では、残差とスキップ接続を有するパラメトリック制約付き変分オートエンコーダを提案し、レンジ角画像上でクラスタ化および局所化ターゲット検出を生成する。 さらに,提案するニューラルネットワークを現実のレーダデータを用いてあらゆるシナリオで学習する問題を回避すべく,まずレイトレーシングモデルデータを用いてニューラルネットワークを訓練し,そのネットワークを実際のセンサデータに適用するドメイン適応戦略を提案する。 この戦略は、限られたレーダデータでトレーニングされているにもかかわらず、提案したニューラルネットワークのより良い一般化とスケーラビリティを保証する。 入力としてレンジドップラー画像を用いた従来の信号処理パイプラインや先行最先端のU-Netアーキテクチャと比較して,提案手法の優れた検出とローカライズ性能を示す。

This paper presents a parametric variational autoencoder-based human target detection and localization framework working directly with the raw analog-to-digital converter data from the frequency modulated continous wave radar. We propose a parametrically constrained variational autoencoder, with residual and skip connections, capable of generating the clustered and localized target detections on the range-angle image. Furthermore, to circumvent the problem of training the proposed neural network on all possible scenarios using real radar data, we propose domain adaptation strategies whereby we first train the neural network using ray tracing based model data and then adapt the network to work on real sensor data. This strategy ensures better generalization and scalability of the proposed neural network even though it is trained with limited radar data. We demonstrate the superior detection and localization performance of our proposed solution compared to the conventional signal processing pipeline and earlier state-of-art deep U-Net architecture with range-doppler images as inputs
翻訳日:2023-02-11 06:26:54 公開日:2022-05-30
# 多次元方程式における還元放射波関数の境界条件に関するコメント

Comments about the boundary condition for reduced radial wave function in multi-dimensional equation ( http://arxiv.org/abs/2206.00038v1 )

ライセンス: Link先を確認
Anzor Khelashvili and Teimuraz Nadareishvili(参考訳) 座標の起源における境界挙動の問題は、直近ではよく考えられてきた超球面形式論の枠組みにおけるD-次元シュロディンガー方程式について論じられる。 ディリクレ条件は自然のように見えるが、3次元の場合とは対照的に数学的に正当化されていない。 ディリクレ境界条件を支持するより強い議論は、波動関数ノルムの時間独立性の要件である。 この問題は特異ポテンシャルに対しては依然として開いている。

The problem of boundary behaviour at the origin of coordinates is discussed for D-dimensional Schrodinger equation in the framework of hyper spherical formalism, which have been often considered last time. We show that the Dirichlet condition, which seems as natural, is not mathematically well justified, on the contrary to the 3-dimensional case. The stronger argument in favour of Dirichlet boundary condition is the requirement of time independence of wave functions norm. The problem remains open for singular potentials.
翻訳日:2023-02-11 06:26:36 公開日:2022-05-30
# 測定と完全デコヒーレンス

Measurement and completely decoherence ( http://arxiv.org/abs/2205.15734v1 )

ライセンス: Link先を確認
Weijing Li(参考訳) 量子コヒーレンス資源測定により、コヒーレンス基底におけるデファス測定が、システムに含まれるコヒーレンスを完全に環境に伝達できることを示し、デコヒーレンスを定量化する。

By virtue of quantum coherence resource measure, we show that the dephasing measurement on a coherence basis can transfer the coherence contained in system into environment totally, which gives a quantification of decoherence.
翻訳日:2023-02-11 06:26:27 公開日:2022-05-30
# キャビティ強化量子ネットワークノード

Cavity-enhanced quantum network nodes ( http://arxiv.org/abs/2205.15380v1 )

ライセンス: Link先を確認
Andreas Reiserer(参考訳) 将来の量子ネットワークは、従来のコンピュータがインターネットを構成するように、量子チャネルによって接続される量子プロセッサで構成される。 しかし、古典的装置とは対照的に、量子制御系で利用可能な絡み合いと非局所相関は、量子論の新たな基礎実験を促進する。 さらに、分散量子情報処理、量子通信、精度測定における多くの応用を可能にする。 先駆的な実験では、2つの量子ノードが最大1.3km、同じ実験室で3つのノードに分かれていることが示されているが、量子ネットワークの完全な可能性にアクセスするには、これらのプロトタイプをより多くのノードとグローバル距離にスケールする必要がある。 これは優れた課題であり、qubit制御の忠実性、qubitコヒーレンス時間、静止したqubitと空飛ぶqubitの結合効率に高い要求を課している。 本稿では、高忠実度量子ビット初期化と読み出し、量子ビット光子とリモート量子ビット量子ビットエンタングルメントの効率的な生成、静止量子ビットと飛行量子ビットの間の量子ゲートの実現により、異なる物理系において、上記前提条件を達成するための光共振器が量子ネットワークノードをどのように促進するかを述べる。 これらの進歩は近い将来、グローバルスケールの量子ネットワークの実現に向けた現実的な視点を開く。

A future quantum network will consist of quantum processors that are connected by quantum channels, just like conventional computers are wired up to form the Internet. In contrast to classical devices, however, the entanglement and non-local correlations available in a quantum-controlled system facilitate novel fundamental tests of quantum theory. In addition, they enable numerous applications in distributed quantum information processing, quantum communication, and precision measurement. While pioneering experiments have demonstrated the entanglement of two quantum nodes separated by up to 1.3 km, and three nodes in the same laboratory, accessing the full potential of quantum networks requires scaling of these prototypes to many more nodes and global distances. This is an outstanding challenge, posing high demands on qubit control fidelity, qubit coherence time, and coupling efficiency between stationary and flying qubits. In this work, I will describe how optical resonators facilitate quantum network nodes that achieve the above-mentioned prerequisites in different physical systems -- trapped atoms, defect centers in wide-bandgap semiconductors, and rare-earth dopants -- by enabling high-fidelity qubit initialization and readout, efficient generation of qubit-photon and remote qubit-qubit entanglement, as well as quantum gates between stationary and flying qubits. These advances open a realistic perspective towards the implementation of global-scale quantum networks in the near future.
翻訳日:2023-02-11 06:25:43 公開日:2022-05-30
# 超光信号のない超音速トンネル時間:MacColl-Hartman効果は早期に消失する

Superluminal tunneling times without superluminal signaling: The MacColl-Hartman effect fades away at early times ( http://arxiv.org/abs/2205.15375v1 )

ライセンス: Link先を確認
Randall S. Dumont, Tom Rivlin(参考訳) maccoll-hartman効果として知られる量子トンネル効果の興味深い特徴は、粒子が超光的に障壁を横切ることができるという数値観測である。 この研究において、MacColl-Hartman効果が早期に事実上消えることを示し、相対論的にこのパズルを解く。 トンネル粒子の時間的・指数的に抑制された波束と対応する自由光子波束を比較することから始める。 必要な大粒子数の冗長性を考えると、トンネル信号は等価な自由光子信号よりも遅い。 高精度な最急降下近似を用いて, 最も確率の高い伝送時間に時間進行が現れるが, 信号伝達速度を決定する早期の観測は不可能であることを示す。

A curious feature of quantum tunneling known as the MacColl-Hartman effect is the numerical observation that particles can traverse a barrier superluminally. In this work we resolve this puzzle relativistically by showing that the MacColl-Hartman effect effectively fades away at early times. We start by comparing time-advanced but exponentially-suppressed wavepackets of tunneling particles with corresponding free photon wavepackets. Given the required large-particle-number redundancy, we find that tunneling signals arrive later than equivalent free photon signals. Using accurate steepest descent approximations, we show that, while the time advance is manifest in the most probable transmission time, it is no longer seen for the early times that determine fastest signal transmission.
翻訳日:2023-02-11 06:25:20 公開日:2022-05-30
# 量子コンピューティングプラットフォーム上での最適絡み合い集団計測へのアプローチ

Approaching optimal entangling collective measurements on quantum computing platforms ( http://arxiv.org/abs/2205.15358v1 )

ライセンス: Link先を確認
Lorcan O. Conlon, Tobias Vogl, Christian D. Marciniak, Ivan Pogorelov, Simon K. Yung, Falk Eilenberger, Dominic W. Berry, Fabiana S. Santana, Rainer Blatt, Thomas Monz, Ping Koy Lam, Syed M. Assad(参考訳) 絡み合いは量子力学の最も興味深い特徴の1つであり、気象学と通信の強化に大いに期待できる。 これまで量子メロジの焦点は、古典的な[1-3]で達成できるよりも、リソースごとの感度の高い、非常に絡み合った量子状態を生成することであった。 しかし、マルチパラメータ量子メトロロジーや量子情報処理タスクにおける究極の限界に達するには、量子状態の複数のコピー間の絡み合いを生成する集団計測が必要である[4-6]。 現在、量子状態の2つ以上のコピーに対して任意の最適な集団測定を実行する方法が知られていない。 本稿では,2つの非可換キュービット回転を同時に推定するために,理論的に最適なシングルコピー(分離可能)と2コピー(エンタングル)の集団計測を実験的に示す。 これにより、不確実性原理の解釈に関する基本的な洞察を引き出すことができる。 我々は、超伝導、トラップイオン、フォトニック系の最適測定を実装し、将来の量子強化センシングネットワークがどのように見えるかを示す。 本研究は情報処理タスク [7, 8] における量子力学の最大限の利点を抽出する経路を提供する。

Entanglement is one of the most intriguing features of quantum mechanics and holds great promise for enhancing metrology and communications. Much of the focus of quantum metrology to date has been on generating highly entangled quantum states which offer better sensitivity, per resource, than can be achieved classically [1-3]. However, to reach the ultimate limits in multi-parameter quantum metrology and quantum information processing tasks, collective measurements, which generate entanglement between multiple copies of the quantum state, are necessary [4-6]. There is presently no known method for implementing arbitrary, optimal collective measurements on more than two copies of the quantum state. Here we experimentally demonstrate theoretically optimal single-copy (separable) and two-copy (entangled) collective measurements for simultaneously estimating two non-commuting qubit rotations. This allows us to draw fundamental insights about the interpretation of the uncertainty principle. We implement our optimal measurements on superconducting, trapped-ion and photonic systems, providing an indication of how future quantum-enhanced sensing networks may look. This work offers a pathway to extracting the maximal advantage of quantum mechanics for information processing tasks [7, 8].
翻訳日:2023-02-11 06:25:06 公開日:2022-05-30
# ベリー相を越えて:量子状態の外部幾何学

Beyond the Berry Phase: Extrinsic Geometry of Quantum States ( http://arxiv.org/abs/2205.15353v1 )

ライセンス: Link先を確認
Alexander Avdoshkin, Fedor K. Popov(参考訳) 量子状態の集合 $| \psi(x) \rangle$ を、あるパラメータ空間$M$から取られた$x$ でパラメータ化する。 この状態多様体のすべての幾何学的性質が、スカラーゲージ不変なバーグマン不変量 $P^{(3)}(x_1, x_2, x_3)=\operatorname{tr}[P(x_1) P(x_2)P(x_3)]$, ここで$P(x) = |\psi(x)\rangle \langle\psi(x)|$ によって完全に記述されることを示す。 数学的には、$p(x)$ は m$ から複素射影空間 $\mathbb{c}p^n$ への写像を定義し、この写像は一意的に $p^{(3)}(x_1,x_2,x_3)$ から対称性変換まで決定される。 位相 $\arg p^{(3)}(x_1,x_2,x_3)$ は任意の閉ループのベリー相を $m$ で計算するのに使うことができるが、我々が証明したように、いかなるベリー相からも決定できない他の情報を含んでいる。 引数 $x_i$ of $P^{(3)}(x_1,x_2,x_3)$ が互いに近づき、先頭の順に取られると、よく知られたベリー曲率 $\omega$ と量子計量 $g$ に還元される。 この拡張における高次順序は、$\omega$ と $g$ から関数的に独立であり、M$ から $\mathbb{C}P^n$ への写像の外部的性質と関係していることが示され、完全対称な 3-テンソル $T$ のような新しい局所ゲージ不変オブジェクトが生まれる。 最後に, 偏光理論, 変調場に対する電気応答の計算, フラットバンドの物理に我々の結果が直ちに応用できることを示す。

Consider a set of quantum states $| \psi(x) \rangle$ parameterized by $x$ taken from some parameter space $M$. We demonstrate how all geometric properties of this manifold of states are fully described by a scalar gauge-invariant Bargmann invariant $P^{(3)}(x_1, x_2, x_3)=\operatorname{tr}[P(x_1) P(x_2)P(x_3)]$, where $P(x) = |\psi(x)\rangle \langle\psi(x)|$. Mathematically, $P(x)$ defines a map from $M$ to the complex projective space $\mathbb{C}P^n$ and this map is uniquely determined by $P^{(3)}(x_1,x_2,x_3)$ up to a symmetry transformation. The phase $\arg P^{(3)}(x_1,x_2,x_3)$ can be used to compute the Berry phase for any closed loop in $M$, however, as we prove, it contains other information that cannot be determined from any Berry phase. When the arguments $x_i$ of $P^{(3)}(x_1,x_2,x_3)$ are taken close to each other, to the leading order, it reduces to the familiar Berry curvature $\omega$ and quantum metric $g$. We show that higher orders in this expansion are functionally independent of $\omega$ and $g$ and are related to the extrinsic properties of the map of $M$ into $\mathbb{C}P^n$ giving rise to new local gauge-invariant objects, such as the fully symmetric 3-tensor $T$. Finally, we show how our results have immediate applications to the modern theory of polarization, calculation of electrical response to a modulated field and physics of flat bands.
翻訳日:2023-02-11 06:24:46 公開日:2022-05-30
# $TimeEvolver$: エラー境界を改善した時間進化プログラム

$TimeEvolver$: A Program for Time Evolution With Improved Error Bound ( http://arxiv.org/abs/2205.15346v1 )

ライセンス: Link先を確認
Marco Michel, Sebastian Zell(参考訳) 汎用量子システムにおける時間進化計算プログラムである$TimeEvolver$を提示する。 これは有名なクリロフ部分空間技術に依存しており、大きなスパース行列 $i h$ の指数関数を乗算する問題に対処している。 h$ がエルミートであるという事実は、クリロフ近似の精度で容易に計算可能な境界を与えることができる。 数値的なラウンドオフの影響とは別に、後続のエラーバウンドは厳密であり、$expokit$ (r.)のような既存のソフトウェアパッケージと比較すると、重要な新規性を示している。 シージ、acmトランス。 数学 柔らかくて 24 (1) 1998). 標準的なノートブックでは、$timeevolver$は10^6$以上の次元のヒルベルト空間において、時間発展を調整可能な精度で計算できる。 さらに、ハミルトニアン作用素のより抽象的な表現から行列 $h$ を導出するためのルーチンを提供する。

We present $TimeEvolver$, a program for computing time evolution in a generic quantum system. It relies on well-known Krylov subspace techniques to tackle the problem of multiplying the exponential of a large sparse matrix $i H$, where $H$ is the Hamiltonian, with an initial vector $v$. The fact that $H$ is Hermitian makes it possible to provide an easily computable bound on the accuracy of the Krylov approximation. Apart from effects of numerical roundoff, the resulting a posteriori error bound is rigorous, which represents a crucial novelty as compared to existing software packages such as $Expokit$ (R. Sidje, ACM Trans. Math. Softw. 24 (1) 1998). On a standard notebook, $TimeEvolver$ allows to compute time evolution with adjustable precision in Hilbert spaces of dimension greater than $10^6$. Additionally, we provide routines for deriving the matrix $H$ from a more abstract representation of the Hamiltonian operator.
翻訳日:2023-02-11 06:24:06 公開日:2022-05-30
# PDEに基づくグループ同変畳み込みニューラルネットワーク

PDE-based Group Equivariant Convolutional Neural Networks ( http://arxiv.org/abs/2001.09046v6 )

ライセンス: Link先を確認
Bart Smets, Jim Portegies, Erik Bekkers, Remco Duits(参考訳) 本稿では,グループ同変畳み込みニューラルネットワーク(G-CNN)を一般化したPDEベースのフレームワークを提案する。 このフレームワークでは、ネットワーク層は、幾何学的に有意なPDE係数が層のトレーニング可能な重みとなるPDE解決器の集合と見なされる。 均質空間上でPDEを定式化することで、これらのネットワークはCNNの標準翻訳同値に加えて回転などの対称性を組み込んだ設計が可能となる。 設計に含まれているすべての所望の対称性を持つことで、データ拡張のようなコストのかかる技術によってそれらを含める必要がなくなる。 我々はPDEに基づくG-CNN(PDE-G-CNN)を一般の均一な空間設定で論じるとともに、関心の主事例であるロト翻訳同値(Roto-translation equivariance)の具体例についても検討する。 我々は、線形群畳み込みと非線形形態群畳み込みと解析的カーネル近似を組み合わせることで、形式的定理を基礎とする関心の PDE を解く。 私たちのカーネル近似は、PDE-solverの高速GPU実装を可能にします。この記事では、PyTorchへのLieTorch拡張の形で実装をリリースします。 線形畳み込みと同様に、形態的畳み込みは、PDE-G-CNNでトレーニングするカーネルによって指定される。 pde-g-cnnsでは、max/min-pooling や relus のような非線形性は使用しない。 提案するPDE-G-CNNの強みを実証する実験を行い,従来のCNNよりもはるかに少ないパラメータを持つディープラーニングベースイメージングアプリケーションの性能向上について述べる。

We present a PDE-based framework that generalizes Group equivariant Convolutional Neural Networks (G-CNNs). In this framework, a network layer is seen as a set of PDE-solvers where geometrically meaningful PDE-coefficients become the layer's trainable weights. Formulating our PDEs on homogeneous spaces allows these networks to be designed with built-in symmetries such as rotation in addition to the standard translation equivariance of CNNs. Having all the desired symmetries included in the design obviates the need to include them by means of costly techniques such as data augmentation. We will discuss our PDE-based G-CNNs (PDE-G-CNNs) in a general homogeneous space setting while also going into the specifics of our primary case of interest: roto-translation equivariance. We solve the PDE of interest by a combination of linear group convolutions and non-linear morphological group convolutions with analytic kernel approximations that we underpin with formal theorems. Our kernel approximations allow for fast GPU-implementation of the PDE-solvers, we release our implementation with this article in the form of the LieTorch extension to PyTorch, available at https://gitlab.com/bsmetsjr/lietorch . Just like for linear convolution a morphological convolution is specified by a kernel that we train in our PDE-G-CNNs. In PDE-G-CNNs we do not use non-linearities such as max/min-pooling and ReLUs as they are already subsumed by morphological convolutions. We present a set of experiments to demonstrate the strength of the proposed PDE-G-CNNs in increasing the performance of deep learning based imaging applications with far fewer parameters than traditional CNNs.
翻訳日:2023-01-07 04:50:55 公開日:2022-05-30
# 直交表現学習とマニフォールド最適化による生成

Disentangled Representation Learning and Generation with Manifold Optimization ( http://arxiv.org/abs/2006.07046v4 )

ライセンス: Link先を確認
Arun Pandey, Michael Fanuel, Joachim Schreurs, Johan A. K. Suykens(参考訳) ディエンタングルメントは表現学習において有用な性質であり、変分オートエンコーダ(VAE)や生成的逆数モデル(Generative Adversarial Models)などの生成モデルの解釈可能性を高める。 このようなモデルでは通常、乱れ性能の増大は世代品質とトレードオフされる。 潜在空間モデルの文脈において、本研究は、変形の直交方向を奨励することにより、乱れを明示的に促進する表現学習フレームワークを提案する。 提案手法は,自動エンコーダの誤り項と特徴空間の主成分分析再構成誤差の合計である。 これは、スティフェル多様体上で固有ベクトル行列が評価された制限カーネルマシンの解釈を持つ。 解析により,データ空間の直交変化の方向と潜伏空間の主方向を一致させることにより,この構造が絡み合いを促進することが示された。 交互に最小化するスキームでは,Stiefel 多様体上の確率最適化法である Cayley ADAM アルゴリズムと ADAM 最適化器を用いる。 理論的な議論と様々な実験により,提案モデルが世代品質と異種表現学習の両面で,多くのvae変種に対して改善することを示した。

Disentanglement is a useful property in representation learning which increases the interpretability of generative models such as Variational autoencoders (VAE), Generative Adversarial Models, and their many variants. Typically in such models, an increase in disentanglement performance is traded-off with generation quality. In the context of latent space models, this work presents a representation learning framework that explicitly promotes disentanglement by encouraging orthogonal directions of variations. The proposed objective is the sum of an autoencoder error term along with a Principal Component Analysis reconstruction error in the feature space. This has an interpretation of a Restricted Kernel Machine with the eigenvector matrix-valued on the Stiefel manifold. Our analysis shows that such a construction promotes disentanglement by matching the principal directions in the latent space with the directions of orthogonal variation in data space. In an alternating minimization scheme, we use Cayley ADAM algorithm - a stochastic optimization method on the Stiefel manifold along with the ADAM optimizer. Our theoretical discussion and various experiments show that the proposed model improves over many VAE variants in terms of both generation quality and disentangled representation learning.
翻訳日:2022-11-22 02:39:45 公開日:2022-05-30
# 集合に基づく確率部分サンプリング

Set Based Stochastic Subsampling ( http://arxiv.org/abs/2006.14222v4 )

ライセンス: Link先を確認
Bruno Andreis, Seanie Lee, A. Tuan Nguyen, Juho Lee, Eunho Yang, Sung Ju Hwang(参考訳) 深層モデルは、画像などの大量の高次元データを操作するように設計されている。 これらのモデルが処理しなければならないデータ量を削減するために, 下流タスクネットワーク(例えば分類器)で協調的に最適化された, セットベースの2段階間ニューラルネットワークモデルを提案する。 第1段階では、集合符号化関数を用いて粗粒度大域情報をキャプチャし、第2段階において設定された注目ネットワークを用いてペアワイズをモデル化し、カテゴリ的ランダム変数を用いて候補要素の条件依存自己回帰サブサンプリングを行う。 本手法を特徴量およびインスタンス選択に適用し,画像分類,画像再構成,機能再構成,少数ショット分類などのタスクにおいて,低サブサンプリング率で関連するベースラインを上回っていることを示す。 さらに,推定時にトレーニングデータ全体を活用する必要があるニューラルプロセスなどの非パラメトリックモデルに対して,本手法がモデルのスケーラビリティを向上させることを示す。

Deep models are designed to operate on huge volumes of high dimensional data such as images. In order to reduce the volume of data these models must process, we propose a set-based two-stage end-to-end neural subsampling model that is jointly optimized with an \textit{arbitrary} downstream task network (e.g. classifier). In the first stage, we efficiently subsample \textit{candidate elements} using conditionally independent Bernoulli random variables by capturing coarse grained global information using set encoding functions, followed by conditionally dependent autoregressive subsampling of the candidate elements using Categorical random variables by modeling pair-wise interactions using set attention networks in the second stage. We apply our method to feature and instance selection and show that it outperforms the relevant baselines under low subsampling rates on a variety of tasks including image classification, image reconstruction, function reconstruction and few-shot classification. Additionally, for nonparametric models such as Neural Processes that require to leverage the whole training data at inference time, we show that our method enhances the scalability of these models.
翻訳日:2022-11-17 03:04:16 公開日:2022-05-30
# FedBoosting: テキスト認識のためのグラディエント保護ブースティングによるフェデレートラーニング

FedBoosting: Federated Learning with Gradient Protected Boosting for Text Recognition ( http://arxiv.org/abs/2007.07296v3 )

ライセンス: Link先を確認
Hanchi Ren, Jingjing Deng, Xianghua Xie, Xiaoke Ma and Yichuan Wang(参考訳) 典型的な機械学習のアプローチでは、モデルトレーニングのための集中型データが必要だが、プライバシや勾配保護などの理由から、データ共有の制限がある場合には不可能だ。 最近提案されたフェデレートラーニング(FL)フレームワークは、データの集中化やデータオーナ間の共有なしに、共有モデルを協調的に学習することを可能にする。 しかし,本論文では,非独立性および非独立性分散(Non-IID)データ,特にフェデレート平均化(FedAvg)戦略が重み分散現象に起因する場合に,関節モデルの一般化能力が低いことを示す。 そこで本研究では,一般化と勾配リークの問題に対処し,勾配に基づく最適化の高速化を実現するために,FLの高速化アルゴリズムを提案する。 さらに,準同型暗号 (he) と微分プライバシー (dp) を用いたセキュアな勾配共有プロトコルを導入し,勾配漏洩攻撃を防御し,スケーラブルでないペアワイズ暗号化を回避した。 提案手法は,視覚的テキスト認識タスクにおいて,予測精度と実行時間効率の両方において顕著な改善が達成されることを示す。

Typical machine learning approaches require centralized data for model training, which may not be possible where restrictions on data sharing are in place due to, for instance, privacy and gradient protection. The recently proposed Federated Learning (FL) framework allows learning a shared model collaboratively without data being centralized or shared among data owners. However, we show in this paper that the generalization ability of the joint model is poor on Non-Independent and Non-Identically Distributed (Non-IID) data, particularly when the Federated Averaging (FedAvg) strategy is used due to the weight divergence phenomenon. Hence, we propose a novel boosting algorithm for FL to address both the generalization and gradient leakage issues, as well as achieve faster convergence in gradient-based optimization. In addition, a secure gradient sharing protocol using Homomorphic Encryption (HE) and Differential Privacy (DP) is introduced to defend against gradient leakage attack and avoid pairwise encryption that is not scalable. We demonstrate the proposed Federated Boosting (FedBoosting) method achieves noticeable improvements in both prediction accuracy and run-time efficiency in a visual text recognition task on public benchmark.
翻訳日:2022-11-10 15:11:11 公開日:2022-05-30
# 量子差分的スパース回帰学習

Quantum Differentially Private Sparse Regression Learning ( http://arxiv.org/abs/2007.11921v2 )

ライセンス: Link先を確認
Yuxuan Du and Min-Hsiu Hsieh and Tongliang Liu and Shan You and Dacheng Tao(参考訳) 様々な高度な量子アルゴリズムの適性は、プライバシーを保証できないかどうか疑問視される。 この知識ギャップを埋めるために、スパース回帰問題を解くための効率的な量子微分プライベート(QDP)ラッソ推定器を考案する。 具体的には、$N$$d$-次元データポイントと$N\ll d$が与えられたとき、最適古典的および量子的非プライベートなラスソがそれぞれ$\Omega(N+d)$と$\Omega(\sqrt{N}+\sqrt{d})$ランタイムを必要とすることを最初に証明する。 次に、QDP Lassoのランタイムコストが \textit{dimension independent}、すなわち$O(N^{5/2})$であることを証明する。 最後に、QDP Lasso はプライバシー保証付きで$\tilde{O}(N^{-2/3})$ に近い最適効用を達成でき、短期量子チップでそれを実現するための利点を議論する。

The eligibility of various advanced quantum algorithms will be questioned if they can not guarantee privacy. To fill this knowledge gap, here we devise an efficient quantum differentially private (QDP) Lasso estimator to solve sparse regression tasks. Concretely, given $N$ $d$-dimensional data points with $N\ll d$, we first prove that the optimal classical and quantum non-private Lasso requires $\Omega(N+d)$ and $\Omega(\sqrt{N}+\sqrt{d})$ runtime, respectively. We next prove that the runtime cost of QDP Lasso is \textit{dimension independent}, i.e., $O(N^{5/2})$, which implies that the QDP Lasso can be faster than both the optimal classical and quantum non-private Lasso. Last, we exhibit that the QDP Lasso attains a near-optimal utility bound $\tilde{O}(N^{-2/3})$ with privacy guarantees and discuss the chance to realize it on near-term quantum chips with advantages.
翻訳日:2022-11-07 13:14:41 公開日:2022-05-30
# 変分量子アルゴリズムの量子回路アーキテクチャによる探索

Quantum circuit architecture search for variational quantum algorithms ( http://arxiv.org/abs/2010.10217v3 )

ライセンス: Link先を確認
Yuxuan Du and Tao Huang and Shan You and Min-Hsiu Hsieh and Dacheng Tao(参考訳) 変分量子アルゴリズム(VQA)は、ノイズの多い中間スケール量子デバイスにおける量子アドバンテージへの道として期待されている。 しかし、経験的および理論的な結果から、展開された ansatz は vqa の性能に大きく影響し、多くの量子ゲートを持つ ansatz はより強い表現性を実現し、蓄積されたノイズは訓練能力に悪影響を及ぼす可能性がある。 本稿では、VQAの堅牢性とトレーニング性を向上させるために、QAS(Quantum Architecture Search)と呼ばれるリソースと実行時の効率的なスキームを考案する。 特に、学習タスクが与えられた場合、QASは、よりノイズの多い量子ゲートを追加することで得られる利点と副作用のバランスをとるために、ほぼ最適アンサッツ(すなわち回路アーキテクチャ)を自動で求める。 ibm cloudを通じて数値シミュレータと実際の量子ハードウェアの両方にqasを実装し、データの分類と量子化学タスクを実現します。 研究では,QASは量子ノイズやバレンプラトーの影響を緩和するだけでなく,事前選択したアンサトーゼのVQAよりも優れることを示した。

Variational quantum algorithms (VQAs) are expected to be a path to quantum advantages on noisy intermediate-scale quantum devices. However, both empirical and theoretical results exhibit that the deployed ansatz heavily affects the performance of VQAs such that an ansatz with a larger number of quantum gates enables a stronger expressivity, while the accumulated noise may render a poor trainability. To maximally improve the robustness and trainability of VQAs, here we devise a resource and runtime efficient scheme termed quantum architecture search (QAS). In particular, given a learning task, QAS automatically seeks a near-optimal ansatz (i.e., circuit architecture) to balance benefits and side-effects brought by adding more noisy quantum gates to achieve a good performance. We implement QAS on both the numerical simulator and real quantum hardware, via the IBM cloud, to accomplish data classification and quantum chemistry tasks. In the problems studied, numerical and experimental results show that QAS can not only alleviate the influence of quantum noise and barren plateaus, but also outperforms VQAs with pre-selected ansatze.
翻訳日:2022-10-05 07:59:01 公開日:2022-05-30
# adaptive view fusionによる2重自己重み付きマルチビュークラスタリング

Double Self-weighted Multi-view Clustering via Adaptive View Fusion ( http://arxiv.org/abs/2011.10396v2 )

ライセンス: Link先を確認
Xiang Fang, Yuchong Hu(参考訳) マルチビュークラスタリングは、元のデータがしばしばノイズを含む実世界の多くのアプリケーションに適用されている。 ノイズの悪影響を低減しようとするグラフベースのマルチビュークラスタリング手法がいくつか提案されている。 しかしながら、従来のグラフベースのマルチビュークラスタリング手法は、冗長な機能やノイズがあっても、すべての機能を平等に扱う。 本稿では,新たな多視点クラスタリングフレームワークであるDouble Self-weighted Multi-view Clustering (DSMC)を提案する。 dsmcは二重自己重み付け操作を行い、各グラフから冗長な特徴やノイズを取り除き、堅牢なグラフを得る。 最初の自己重み付け演算では、アダプティブウェイト行列を導入して異なる特徴に異なる重みを割り当て、これは結合表現における重要な特徴の役割を強化し、各グラフを堅牢にする。 第二の自己重み付け演算では、適応重み係数(adaptive weight factor)を付けて異なるグラフを重み付け、より強固なグラフに重みを割り当てる。 さらに、適応型多重グラフ融合を設計することにより、異なるグラフの特徴を融合して、これらのグラフをクラスタ化するために統合することができる。 6つの実世界のデータセットの実験は、他の最先端のマルチビュークラスタリング手法に対する利点を示している。

Multi-view clustering has been applied in many real-world applications where original data often contain noises. Some graph-based multi-view clustering methods have been proposed to try to reduce the negative influence of noises. However, previous graph-based multi-view clustering methods treat all features equally even if there are redundant features or noises, which is obviously unreasonable. In this paper, we propose a novel multi-view clustering framework Double Self-weighted Multi-view Clustering (DSMC) to overcome the aforementioned deficiency. DSMC performs double self-weighted operations to remove redundant features and noises from each graph, thereby obtaining robust graphs. For the first self-weighted operation, it assigns different weights to different features by introducing an adaptive weight matrix, which can reinforce the role of the important features in the joint representation and make each graph robust. For the second self-weighting operation, it weights different graphs by imposing an adaptive weight factor, which can assign larger weights to more robust graphs. Furthermore, by designing an adaptive multiple graphs fusion, we can fuse the features in the different graphs to integrate these graphs for clustering. Experiments on six real-world datasets demonstrate its advantages over other state-of-the-art multi-view clustering methods.
翻訳日:2022-09-23 05:13:35 公開日:2022-05-30
# (参考訳) データ駆動による産業用回転機械のマルチフォールト診断:2年間の研究のレビュー

Multi-Fault Diagnosis Of Industrial Rotating Machines Using Data-Driven Approach: A Review Of Two Decades Of Research ( http://arxiv.org/abs/2206.14153v1 )

ライセンス: CC BY-SA 4.0
Shreyas Gawde, Shruti Patil, Satish Kumar, Pooja Kamat, Ketan Kotecha, Ajith Abraham(参考訳) 産業 4.0 はスマート製造の時代である。 機械を使わずに製造は不可能である。 これらの機械の多くは回転部品で構成され、回転機械と呼ばれる。 エンジニアの最優先事項は、計画外のシャットダウンを減らし、機械の有用な寿命を増やすためにこれらの重要な機械を維持することである。 予測保守(PDM)は、スマートメンテナンスの現在のトレンドである。 PDMの課題は、障害の種類を診断することである。 AI(Artificial Intelligence)の進歩により、予測保守のためのデータ駆動型アプローチが、スマート製造に向けて新たな飛行を始めている。 数人の研究者が、主に1種類の断層を探索する回転機械の故障診断に関する研究を発表した。 しかし、回転機械のマルチフォールト診断に焦点を絞った文献の総合的なレビューは欠落している。 センサの選択、データ取得、特徴抽出、マルチセンサーデータ融合からマルチフォールト診断に使用されるAI技術の体系的なレビューまで、すべての側面を体系的にカバーする必要がある。 本稿では,システムレビューとメタアナリシス(prisma)手法に好適な報告項目を用いて,産業用回転機械のマルチフォールト診断のためのデータ駆動アプローチに関する体系的文献レビューを実施し,その実現を目指す。 PRISMA法は、体系的なレビューやその他のメタ分析の構成と構造に関するガイドラインの集合である。 本稿では, 現場で行われている基礎的な作業を明らかにし, 産業用回転機械のマルチフォールト診断に関する異なる側面の比較研究を行う。 論文では、主要な課題、研究のギャップも挙げている。 マルチフォールト診断の実装において、AIの最近の進歩を利用したソリューションを提供し、この分野における将来の研究の強力な基盤を提供する。

Industry 4.0 is an era of smart manufacturing. Manufacturing is impossible without the use of machinery. Majority of these machines comprise rotating components and are called rotating machines. The engineers' top priority is to maintain these critical machines to reduce the unplanned shutdown and increase the useful life of machinery. Predictive maintenance (PDM) is the current trend of smart maintenance. The challenging task in PDM is to diagnose the type of fault. With Artificial Intelligence (AI) advancement, data-driven approach for predictive maintenance is taking a new flight towards smart manufacturing. Several researchers have published work related to fault diagnosis in rotating machines, mainly exploring a single type of fault. However, a consolidated review of literature that focuses more on multi-fault diagnosis of rotating machines is lacking. There is a need to systematically cover all the aspects right from sensor selection, data acquisition, feature extraction, multi-sensor data fusion to the systematic review of AI techniques employed in multi-fault diagnosis. In this regard, this paper attempts to achieve the same by implementing a systematic literature review on a Data-driven approach for multi-fault diagnosis of Industrial Rotating Machines using Preferred Reporting Items for Systematic Reviews and Meta-Analysis (PRISMA) method. The PRISMA method is a collection of guidelines for the composition and structure of systematic reviews and other meta-analyses. This paper identifies the foundational work done in the field and gives a comparative study of different aspects related to multi-fault diagnosis of industrial rotating machines. The paper also identifies the major challenges, research gap. It gives solutions using recent advancements in AI in implementing multi-fault diagnosis, giving a strong base for future research in this field.
翻訳日:2022-07-04 04:48:25 公開日:2022-05-30
# 木次エンコーディングを用いたニューラルプログラム生成用トランス

Transformer with Tree-order Encoding for Neural Program Generation ( http://arxiv.org/abs/2206.13354v1 )

ライセンス: Link先を確認
Klaudia-Doris Thellmann, Bernhard Stadler, Ricardo Usbeck, Jens Lehmann(参考訳) コード生成タスクにrnnアーキテクチャを多用する意味解析手法は数多く存在するが、このタスクにトランスフォーマーの適用性を調べる試みはごくわずかである。 基礎となるプログラミング言語構文の階層的情報を含むことは、コード生成に有効であることが証明されている。 トランスの位置符号化は平坦な列の位置のみを表現できるため,注意機構が入力の階層的な位置にも参加できるように符号化方式を拡張した。 さらに,制約付き文法グラフモデルに基づくデコーダを実現し,生成精度を改善し,生成コードの定型性を保証する。 現状を上回らなかったが,木ベースの位置符号化と自然言語サブワード語彙の共有を組み合わせることで,逐次的な位置符号化よりも生成性能が向上することが示唆された。

While a considerable amount of semantic parsing approaches have employed RNN architectures for code generation tasks, there have been only few attempts to investigate the applicability of Transformers for this task. Including hierarchical information of the underlying programming language syntax has proven to be effective for code generation. Since the positional encoding of the Transformer can only represent positions in a flat sequence, we have extended the encoding scheme to allow the attention mechanism to also attend over hierarchical positions in the input. Furthermore, we have realized a decoder based on a restrictive grammar graph model to improve the generation accuracy and ensure the well-formedness of the generated code. While we did not surpass the state of the art, our findings suggest that employing a tree-based positional encoding in combination with a shared natural-language subword vocabulary improves generation performance over sequential positional encodings.
翻訳日:2022-07-04 01:45:01 公開日:2022-05-30
# スパイクニューラルネットワークトレーニングの高速化

Accelerating spiking neural network training ( http://arxiv.org/abs/2205.15286v1 )

ライセンス: Link先を確認
Luke Taylor, Andrew King, Nicol Harper(参考訳) spiking neural networks(snn)は、脳内の活動電位の使用に触発された人工ネットワークの一種である。 これらのネットワークをニューロモルフィックコンピュータ上でエミュレートすることへの関心は、エネルギー消費と速度の向上によって高まっている。 正確性の観点から、SNNと同等に動作するようにSNNを直接訓練する上で、重要な進歩があった。 しかし、これらの手法はシーケンシャルな性質のため遅いため、長い訓練時間に繋がる。 本稿では,逐次計算をすべて排除し,ベクトル化演算のみに依存するsnsに対する単一スパイクの直接学習手法を提案する。 我々は,低時間・中時空間複雑性の実際のデータセット(Fashion-MNISTとNeuromophic-MNIST)に対して,ロバストな分類性能を持つトレーニングにおける10ドル以上のスピードアップを示す。 提案する解法では,従来訓練されたsnと比較してスパイク数を95.68セント以上削減することで,ニューロモルフィックコンピュータへの展開時のエネルギー要求を大幅に削減することができる。

Spiking neural networks (SNN) are a type of artificial network inspired by the use of action potentials in the brain. There is a growing interest in emulating these networks on neuromorphic computers due to their improved energy consumption and speed, which are the main scaling issues of their counterpart the artificial neural network (ANN). Significant progress has been made in directly training SNNs to perform on par with ANNs in terms of accuracy. These methods are however slow due to their sequential nature, leading to long training times. We propose a new technique for directly training single-spike-per-neuron SNNs which eliminates all sequential computation and relies exclusively on vectorised operations. We demonstrate over a $\times 10$ speedup in training with robust classification performance on real datasets of low to medium spatio-temporal complexity (Fashion-MNIST and Neuromophic-MNIST). Our proposed solution manages to solve certain tasks with over a $95.68 \%$ reduction in spike counts relative to a conventionally trained SNN, which could significantly reduce energy requirements when deployed on neuromorphic computers.
翻訳日:2022-06-26 14:45:26 公開日:2022-05-30
# (参考訳) ブロックチェーン技術を用いたaiベースの医療システム : 最先端の体系的文献レビューと今後の研究方向

Securing AI-based Healthcare Systems using Blockchain Technology: A State-of-the-Art Systematic Literature Review and Future Research Directions ( http://arxiv.org/abs/2206.04793v1 )

ライセンス: CC BY 4.0
Rucha Shinde, Shruti Patil, Ketan Kotecha, Vidyasagar Potdar, Ganeshsree Selvachandran, Ajith Abraham(参考訳) 医療システムはますます人工知能をシステムに組み込んでいるが、あらゆる困難に対する解決策ではない。 AIの異常なポテンシャルは、AIモデルをトレーニングするための医療データセットの欠如、敵攻撃、ブラックボックスの作業スタイルによる信頼の欠如など、課題によって後退している。 ブロックチェーン技術がaiベースの医療の信頼性と信頼性を改善する方法について検討した。 本稿では、さまざまなAI技術とブロックチェーン技術を用いて開発された医療アプリケーションにおける最先端の研究について、システム文献レビューを実施している。 この体系的な文献レビューは、自然言語処理ベースのヘルスケアシステム、コンピュータビジョンベースのヘルスケアシステム、音響AIベースのヘルスケアシステムという3つの異なるパスで進行する。 私たちはそれを見つけました 1)AIに対する敵攻撃のための防衛技術は特定の種類の攻撃に対して利用可能であり、敵の訓練でさえAIベースの技術であり、異なる攻撃がさらに起こりやすい。 2)ブロックチェーンは、医療分野におけるセキュリティとプライバシーの問題に対処することができる。 3) Blockchainでは、医療データ検証とユーザ証明が可能である。 4) ブロックチェーンは異種医療データによる分散学習を保護できる。 5)単一障害点や医療システムの非透明性といった問題は、Blockchainで解決できます。 しかしながら、研究が初期段階にあることが確認されている。 その結果、各nlp、コンピュータビジョン、音響aiアプリケーションのニーズを考慮したaiベースの医療アプリケーションのためのブロックチェーン技術を用いた概念枠組みを合成した。 AIベースの医療に対するあらゆる種類の敵対的攻撃に対するグローバルな解決策。 しかし、この技術には、今後の研究で対処しなければならない大きな限界と課題がある。

Healthcare systems are increasingly incorporating Artificial Intelligence into their systems, but it is not a solution for all difficulties. AI's extraordinary potential is being held back by challenges such as a lack of medical datasets for training AI models, adversarial attacks, and a lack of trust due to its black box working style. We explored how blockchain technology can improve the reliability and trustworthiness of AI-based healthcare. This paper has conducted a Systematic Literature Review to explore the state-of-the-art research studies conducted in healthcare applications developed with different AI techniques and Blockchain Technology. This systematic literature review proceeds with three different paths as natural language processing-based healthcare systems, computer vision-based healthcare systems and acoustic AI-based healthcare systems. We found that 1) Defence techniques for adversarial attacks on AI are available for specific kind of attacks and even adversarial training is AI based technique which in further prone to different attacks. 2) Blockchain can address security and privacy issues in healthcare fraternity. 3) Medical data verification and user provenance can be enabled with Blockchain. 4) Blockchain can protect distributed learning on heterogeneous medical data. 5) The issues like single point of failure, non-transparency in healthcare systems can be resolved with Blockchain. Nevertheless, it has been identified that research is at the initial stage. As a result, we have synthesized a conceptual framework using Blockchain Technology for AI-based healthcare applications that considers the needs of each NLP, Computer Vision, and Acoustic AI application. A global solution for all sort of adversarial attacks on AI based healthcare. However, this technique has significant limits and challenges that need to be addressed in future studies.
翻訳日:2022-06-20 01:04:38 公開日:2022-05-30
# コントラスト心電図表現学習のための強化の分析

Analysis of Augmentations for Contrastive ECG Representation Learning ( http://arxiv.org/abs/2206.07656v1 )

ライセンス: Link先を確認
Sahar Soltanieh, Ali Etemad, Javad Hashemi(参考訳) 本稿では,心電図(ECG)信号のコントラスト学習における各種強化の有効性を体系的に検討し,最適なパラメータを同定する。 提案する自己教師型フレームワークのベースラインは,コントラスト学習と下流タスクの2つの主要な部分から構成される。 最初の段階では、多数の拡張を用いてエンコーダを訓練し、一般化可能なECG信号表現を抽出する。 次にエンコーダを凍結し、下流不整脈検出のためのラベル付きデータが異なる数個の線形層を微調整する。 次に様々な拡張技法を実験し、様々なパラメータを探索する。 実験は、大規模で公開されている12リードのECGデータセットであるTB-XLを用いて行われた。 その結果,自己教師付きコントラスト学習では,特定の範囲の複雑度に拡張を適用する方がよいことがわかった。 例えば、ガウスノイズを追加する場合、0.1から0.2の範囲のシグマはより良い結果を得るが、付加ノイズが小さすぎる場合や(指定された範囲以外では)トレーニング不足が発生する。 他の拡張では同様の傾向が観察され、追加の強化に最適な難易度を選択することの重要性が示され、単純な増補は効果的な訓練にはならないが、難しすぎる増補は一般化表現の効果的な学習を妨げる。 本研究は, 生体信号における自己教師付きコントラスト学習の今後の研究に影響を与え, 異なる増補のための最適パラメータの選択を支援する。

This paper systematically investigates the effectiveness of various augmentations for contrastive self-supervised learning of electrocardiogram (ECG) signals and identifies the best parameters. The baseline of our proposed self-supervised framework consists of two main parts: the contrastive learning and the downstream task. In the first stage, we train an encoder using a number of augmentations to extract generalizable ECG signal representations. We then freeze the encoder and finetune a few linear layers with different amounts of labelled data for downstream arrhythmia detection. We then experiment with various augmentations techniques and explore a range of parameters. Our experiments are done on PTB-XL, a large and publicly available 12-lead ECG dataset. The results show that applying augmentations in a specific range of complexities works better for self-supervised contrastive learning. For instance, when adding Gaussian noise, a sigma in the range of 0.1 to 0.2 achieves better results, while poor training occurs when the added noise is too small or too large (outside of the specified range). A similar trend is observed with other augmentations, demonstrating the importance of selecting the optimum level of difficulty for the added augmentations, as augmentations that are too simple will not result in effective training, while augmentations that are too difficult will also prevent the model from effective learning of generalized representations. Our work can influence future research on self-supervised contrastive learning on bio-signals and aid in selecting optimum parameters for different augmentations.
翻訳日:2022-06-19 23:34:34 公開日:2022-05-30
# 二重選択OFDMチャネルのブラインド推定:深層学習アルゴリズムと理論

Blind Estimation of a Doubly Selective OFDM Channel: A Deep Learning Algorithm and Theory ( http://arxiv.org/abs/2206.07483v1 )

ライセンス: Link先を確認
Tilahun M. Getu, Nada T. Golmie and David W. Griffith(参考訳) 直交周波数分割多重化(OFDM)システムに対する二重選択型フェーディングチャネル推定の基本的な古い問題に対する新しい生成ソリューションを提供する。 OFDMに基づくシステムでは、深層学習(DL)に基づくブラインド2倍選択チャネル推定器を提案する。 この推定器は、ディープフェーディング2重選択チャネルの推定中であっても、対応する最先端の推定器とは異なり、パイロット記号を必要としない。 また、過パラメータ化ReLU FNNを用いたブラインドOFDMチャネル推定器の試験平均二乗誤差(MSE)に関する第一種理論も提供する。

We provide a new generation solution to the fundamental old problem of a doubly selective fading channel estimation for orthogonal frequency division multiplexing (OFDM) systems. For systems based on OFDM, we propose a deep learning (DL)-based blind doubly selective channel estimator. This estimator does require no pilot symbols, unlike the corresponding state-of-the-art estimators, even during the estimation of a deep fading doubly selective channel. We also provide the first of its kind theory on the testing mean squared error (MSE) performance of our investigated blind OFDM channel estimator based on over-parameterized ReLU FNNs.
翻訳日:2022-06-19 23:33:25 公開日:2022-05-30
# (参考訳) 通過儀礼:難民の居住地への移動を解明する

Rites de Passage: Elucidating Displacement to Emplacement of Refugees ( http://arxiv.org/abs/2206.03248v1 )

ライセンス: CC BY 4.0
Aparup Khatua, Wolfgang Nejdl(参考訳) ソーシャルメディアの審議は難民関連is-suesの調査を可能にする。 AIに基づく研究は、主に特定の事象に関する難民問題を調査し、一過性のアプローチを検討した。 対照的に、我々は難民の自宅からホスト国への旅を探索するためにマルチモーダルなアーキテクチャを採用してきた。 我々は、アーノルド・ファン・ジェネップの人類学的な研究である"Les Rites de Passage"から洞察を得て、ある集団や社会から別の集団への個人の移行を体系的に分析した。 ジェンネップの分離・移行・編入の枠組みに基づき、難民旅行の4つの段階を同定した:難民の到着、難民の一時滞在、リハビリテーション、難民の宿主国家への統合。 提案するフレームワークのテストのために、2020年4月から2021年3月までのマルチモーダルツイートを0.22億回収集した。 BERT+LSTMとInceptionV4の融合など,トランスフォーマーベース言語モデルと最先端画像認識モデルを組み合わせることで,非モーダルモデルよりも優れた性能が得られることがわかった。 その後,提案モデルの実用的意義をリアルタイムに検証するために,2022年のウクライナ難民危機に関連するマルチモーダルツイートを0.01億回検討した。 この2022年の危機に対するf1-scoreの71.88 %は、提案フレームワークの汎用性を確認している。

Social media deliberations allow to explore refugee-related is-sues. AI-based studies have investigated refugee issues mostly around a specific event and considered unimodal approaches. Contrarily, we have employed a multimodal architecture for probing the refugee journeys from their home to host nations. We draw insights from Arnold van Gennep's anthropological work 'Les Rites de Passage', which systematically analyzed an individual's transition from one group or society to another. Based on Gennep's separation-transition-incorporation framework, we have identified four phases of refugee journeys: Arrival of Refugees, Temporal stay at Asylums, Rehabilitation, and Integration of Refugees into the host nation. We collected 0.23 million multimodal tweets from April 2020 to March 2021 for testing this proposed frame-work. We find that a combination of transformer-based language models and state-of-the-art image recognition models, such as fusion of BERT+LSTM and InceptionV4, can out-perform unimodal models. Subsequently, to test the practical implication of our proposed model in real-time, we have considered 0.01 million multimodal tweets related to the 2022 Ukrainian refugee crisis. An F1-score of 71.88 % for this 2022 crisis confirms the generalizability of our proposed framework.
翻訳日:2022-06-12 22:06:24 公開日:2022-05-30
# (参考訳) 機械学習に基づく網膜症分類に対するホワイトボックスメンバーシップアタック

White-box Membership Attack Against Machine Learning Based Retinopathy Classification ( http://arxiv.org/abs/2206.03584v1 )

ライセンス: CC BY 4.0
Mounia Hamidouche, Reda Bellafqira, Gwenol\'e Quellec, Gouenou Coatrieux(参考訳) 機械学習(ML)の進歩は、医療画像におけるAIベースの診断支援システムを大幅に改善した。 しかし、個人固有の医療データ収集に基づくことは、特にプライバシーに関して、いくつかのセキュリティ問題を引き起こす。 病院のような画像の所有者は、情報システムのレベルで厳格なプライバシー保護規定を課すが、彼の画像で訓練されたモデルには、開示の可能性がある。 トレーニングされたモデルは、アタッカーにアクセスすることができる。 1)ホワイトボックス: モデルアーキテクチャとパラメータへのアクセス。 2) black box: 適切なインターフェースを通じて、自身の入力でのみモデルをクエリできる。 既存の攻撃方法は、特徴推定攻撃(FEA)、メンバーシップ推論攻撃(MIA)、モデル記憶攻撃(MMA)、識別攻撃(IA)である。 本研究は、網膜画像から糖尿病網膜症を検出するために訓練されたモデルに対するMIAに焦点を当てる。 糖尿病網膜症(英: Diabetic retinopathy)は、糖尿病患者の視力低下と失明を引き起こす疾患である。 MIAは、トレーニングされたMLモデルのトレーニングデータセットからデータサンプルがくるかどうかを決定するプロセスである。 プライバシの観点からは,糖尿病性網膜症分類モデルが,患者の識別情報とともに使用済みのパートナーに与えられている場合,データサンプルのメンバシップステータスを推測することで,モデルのトレーニングに寄与したかどうかを判断することができる。

The advances in machine learning (ML) have greatly improved AI-based diagnosis aid systems in medical imaging. However, being based on collecting medical data specific to individuals induces several security issues, especially in terms of privacy. Even though the owner of the images like a hospital put in place strict privacy protection provisions at the level of its information system, the model trained over his images still holds disclosure potential. The trained model may be accessible to an attacker as: 1) White-box: accessing to the model architecture and parameters; 2) Black box: where he can only query the model with his own inputs through an appropriate interface. Existing attack methods include: feature estimation attacks (FEA), membership inference attack (MIA), model memorization attack (MMA) and identification attacks (IA). In this work we focus on MIA against a model that has been trained to detect diabetic retinopathy from retinal images. Diabetic retinopathy is a condition that can cause vision loss and blindness in the people who have diabetes. MIA is the process of determining whether a data sample comes from the training data set of a trained ML model or not. From a privacy perspective in our use case where a diabetic retinopathy classification model is given to partners that have at their disposal images along with patients' identifiers, inferring the membership status of a data sample can help to state if a patient has contributed or not to the training of the model.
翻訳日:2022-06-12 21:47:15 公開日:2022-05-30
# (参考訳) 量子ミミック光コヒーレンストモグラフィーと機械学習による分散プロファイルの検索

Towards retrieving dispersion profiles using quantum-mimic Optical Coherence Tomography and Machine Learnin ( http://arxiv.org/abs/2206.02547v1 )

ライセンス: CC BY 4.0
Krzysztof A. Maliszewski, Piotr Kolenderski, Varvara Vetrova, Sylwia M. Kolenderska(参考訳) 量子ミミック光コヒーレンストモグラフィの人工物は、最も単純な物体であっても画像をスクランブルするため、有害であると考えられている。 これらは自己相関の副作用であり、この手法の背後にある量子エンタングルメント模倣アルゴリズムで使用される。 興味深いことに、自己相関は、ある特徴をアーティファクトに刻印する。その形状と特性は、アーティファクトが対応する層によって示される分散の量に依存する。 このアーチファクトと層分散のユニークな関係は、オブジェクト層の群速度分散(GVD)値を決定するために利用することができ、それらに基づいて分散造影深度プロファイルを構築する。 GVDプロファイルの検索は機械学習によって行われる。 トレーニング中、ニューラルネットワークは、gvdとアーティファクトの形状と特性の関係を学習し、その結果、コンピュータ生成単一分散層とガラスの実験的なデータに対して、オブジェクトの分散プロファイルを適切に定性的に表現することができる。

Artefacts in quantum-mimic Optical Coherence Tomography are considered detrimental because they scramble the images even for the simplest objects. They are a side effect of autocorrelation which is used in the quantum entanglement mimicking algorithm behind this method. Interestingly, the autocorrelation imprints certain characteristics onto an artefact - it makes its shape and characteristics depend on the amount of dispersion exhibited by the layer that artefact corresponds to. This unique relationship between the artefact and the layer's dispersion can be used to determine Group Velocity Dispersion (GVD) values of object layers and, based on them, build a dispersion-contrasted depth profile. The retrieval of GVD profiles is achieved via Machine Learning. During training, a neural network learns the relationship between GVD and the artefacts' shape and characteristics, and consequently, it is able to provide a good qualitative representation of object's dispersion profile for never-seen-before data: computer-generated single dispersive layers and experimental pieces of glass.
翻訳日:2022-06-12 21:43:36 公開日:2022-05-30
# ドローンのエネルギー消費モデルの比較研究

A Comparative Study on Energy Consumption Models for Drones ( http://arxiv.org/abs/2206.01609v1 )

ライセンス: Link先を確認
Carlos Muli, Sangyoung Park, Mingming Liu(参考訳) 適切なエネルギー消費予測モデルの作成は、文献におけるドローン関連の研究において重要な話題となっている。 しかし、エネルギー消費モデルに関する一般的な合意はまだ得られていない。 結果として、さまざまな側面に焦点を絞った複雑さのモデルを作成しようとするバリエーションが数多く存在する。 本稿では,その物理的挙動から導かれるドローンの5つの最も一般的なエネルギー消費モデルを比較し,異なる試験条件下での配送ドローンから収集した現実的なエネルギーデータセットとの整合が困難であることを指摘する。 さらに,Long Short-Term Memory(LSTM)に基づくディープラーニングアーキテクチャを用いた新しいデータ駆動エネルギーモデルを提案し,その精度をデータセットに基づいて比較する。 実験の結果,LSTMに基づくアプローチは,研究中のデータセットの数学的モデルよりも容易に優れていることがわかった。 最後に,モデルを解釈するために感度解析を行った。

Creating an appropriate energy consumption prediction model is becoming an important topic for drone-related research in the literature. However, a general consensus on the energy consumption model is yet to be reached at present. As a result, there are many variations that attempt to create models that range in complexity with a focus on different aspects. In this paper, we benchmark the five most popular energy consumption models for drones derived from their physical behaviours and point to the difficulties in matching with a realistic energy dataset collected from a delivery drone in flight under different testing conditions. Moreover, we propose a novel data-driven energy model using the Long Short-Term Memory (LSTM) based deep learning architecture and the accuracy is compared based on the dataset. Our experimental results have shown that the LSTM based approach can easily outperform other mathematical models for the dataset under study. Finally, sensitivity analysis has been carried out in order to interpret the model.
翻訳日:2022-06-12 09:39:45 公開日:2022-05-30
# フェア・フェデレーション・レコメンデーション・ラーニングに向けて--システムの相互依存性とデータの多様性を特徴付ける

Towards Fair Federated Recommendation Learning: Characterizing the Inter-Dependence of System and Data Heterogeneity ( http://arxiv.org/abs/2206.02633v1 )

ライセンス: Link先を確認
Kiwan Maeng, Haiyu Lu, Luca Melis, John Nguyen, Mike Rabbat, Carole-Jean Wu(参考訳) フェデレートラーニング(FL)は、デバイス上で機械学習モデルトレーニングを実行することで、レコメンデータシステムにおけるデータプライバシの効果的なメカニズムである。 以前のFL最適化では、FLが直面するデータとシステムの不均一性の問題に対処していたが、両者は互いに独立していると仮定した。 この基本的な仮定は、現実の大規模レコメンデーションシステムを反映していない -- データとシステムの不均一性は密接に絡み合っている。 本稿では、実世界のデータにおけるデータとシステムの不均一性の相互依存性を示し、そのモデル全体の品質と公平性への影響を定量化するデータ駆動アプローチを提案する。 我々は,相互依存をモデル化するためのフレームワークrf^2を設計し,フェデレーション推薦タスクにおける最新モデル最適化手法への影響評価を行う。 公平性への影響は、ほとんどの(すべてではないにせよ)以前の作業で想定された単純な設定と比較して、最大15.8--41倍の現実的な異質性シナリオにおいて厳しいものであることを実証する。 つまり、現実的なシステムによって引き起こされるデータの不均一性が適切にモデル化されていない場合、最適化の公平性への影響を最大41倍下げることができる。 その結果、現実的なシステムによるデータ不均一性のモデリングは、公正な連合型レコメンデーション学習を実現するために不可欠である。 FLイノベーションの今後の設計と評価を可能にするため、RF^2をオープンソース化する予定である。

Federated learning (FL) is an effective mechanism for data privacy in recommender systems by running machine learning model training on-device. While prior FL optimizations tackled the data and system heterogeneity challenges faced by FL, they assume the two are independent of each other. This fundamental assumption is not reflective of real-world, large-scale recommender systems -- data and system heterogeneity are tightly intertwined. This paper takes a data-driven approach to show the inter-dependence of data and system heterogeneity in real-world data and quantifies its impact on the overall model quality and fairness. We design a framework, RF^2, to model the inter-dependence and evaluate its impact on state-of-the-art model optimization techniques for federated recommendation tasks. We demonstrate that the impact on fairness can be severe under realistic heterogeneity scenarios, by up to 15.8--41x compared to a simple setup assumed in most (if not all) prior work. It means when realistic system-induced data heterogeneity is not properly modeled, the fairness impact of an optimization can be downplayed by up to 41x. The result shows that modeling realistic system-induced data heterogeneity is essential to achieving fair federated recommendation learning. We plan to open-source RF^2 to enable future design and evaluation of FL innovations.
翻訳日:2022-06-12 09:37:52 公開日:2022-05-30
# テキスト文書ストリームの編成のための文脈化

Contextualization for the Organization of Text Documents Streams ( http://arxiv.org/abs/2206.02632v1 )

ライセンス: Link先を確認
Rui Portocarrero Sarmento, Douglas O. Cardoso, Jo\~ao Gama, Pavel Brazdil(参考訳) 研究コミュニティは、情報検索手法の助けを借りて文書を整理する方法を提供するという課題に対処するために、多大な努力をしてきた。 本稿では,いくつかのストリーム解析手法を用いて,テキスト文書のストリームを探索する実験を行う。 テキスト文書のフラックスを探索、分析、整理するために動的アルゴリズムのみを使用します。 この文書は、Incremental TextRankやIS-TFIDFのようなインクリメンタルアルゴリズムを用いて、テキストドキュメントストリームオーガナイゼーションの先進的なアーキテクチャを用いたケーススタディを示す。 これらのアルゴリズムは、低次元進化ネットワークにおけるテキスト文書のマッピングと文書項行列がバッチアルゴリズムに比べて高速に処理できるという仮定に基づいている。 このアーキテクチャでは,文書間の類似性を検索するためにFastText Embeddingを用いることで,大規模テキストデータセットと比較し,クラスタリング能力の評価を行う。 使用されたデータセットは、ReutersとCOVID-19の感情だった。 その結果,文書間の類似性に基づいて,文書整理作業の流束に接近する際の類似性の文脈化に関する新たな視点が得られた。

There has been a significant effort by the research community to address the problem of providing methods to organize documentation with the help of information Retrieval methods. In this report paper, we present several experiments with some stream analysis methods to explore streams of text documents. We use only dynamic algorithms to explore, analyze, and organize the flux of text documents. This document shows a case study with developed architectures of a Text Document Stream Organization, using incremental algorithms like Incremental TextRank, and IS-TFIDF. Both these algorithms are based on the assumption that the mapping of text documents and their document-term matrix in lower-dimensional evolving networks provides faster processing when compared to batch algorithms. With this architecture, and by using FastText Embedding to retrieve similarity between documents, we compare methods with large text datasets and ground truth evaluation of clustering capacities. The datasets used were Reuters and COVID-19 emotions. The results provide a new view for the contextualization of similarity when approaching flux of documents organization tasks, based on the similarity between documents in the flux, and by using mentioned algorithms.
翻訳日:2022-06-12 08:45:47 公開日:2022-05-30
# (参考訳) Video2StyleGAN: ローカルとグローバルの変動をビデオで遠ざける

Video2StyleGAN: Disentangling Local and Global Variations in a Video ( http://arxiv.org/abs/2205.13996v2 )

ライセンス: CC BY 4.0
Rameen Abdal, Peihao Zhu, Niloy J. Mitra, Peter Wonka(参考訳) 事前訓練されたStyleGANジェネレータを用いた画像編集は、顔編集の強力なパラダイムとして登場し、年齢、表現、照明などの不整合制御を提供する。 しかし、このアプローチは直接ビデオ操作には適用できない。 顔の位置,顔のポーズ,局所的な表情に対するきめ細やかな制御が欠如していることが主な欠点である,という仮説を立てる。 本研究では,複数の(相対的な)空間(つまり位置空間,w+空間,s空間)をまたいで作業することで,事前学習されたスタイルガンを用いて,そのような細粒度制御が実現可能であることを実証する。 この実現可能なコンポーネントに基づいて,対象画像の同一性において,局所的および大域的位置と表現を再現する対象画像と駆動映像(s)を再生するvideo2styleganを導入する。 提案手法の有効性を複数の難易度シナリオで評価し,代替手法に対する明確な改善を示す。

Image editing using a pretrained StyleGAN generator has emerged as a powerful paradigm for facial editing, providing disentangled controls over age, expression, illumination, etc. However, the approach cannot be directly adopted for video manipulations. We hypothesize that the main missing ingredient is the lack of fine-grained and disentangled control over face location, face pose, and local facial expressions. In this work, we demonstrate that such a fine-grained control is indeed achievable using pretrained StyleGAN by working across multiple (latent) spaces (namely, the positional space, the W+ space, and the S space) and combining the optimization results across the multiple spaces. Building on this enabling component, we introduce Video2StyleGAN that takes a target image and driving video(s) to reenact the local and global locations and expressions from the driving video in the identity of the target image. We evaluate the effectiveness of our method over multiple challenging scenarios and demonstrate clear improvements over alternative approaches.
翻訳日:2022-06-05 07:09:25 公開日:2022-05-30
# (参考訳) 逆合成に基づく音声言語識別のためのデータ拡張

Adversarial synthesis based data-augmentation for code-switched spoken language identification ( http://arxiv.org/abs/2205.15747v1 )

ライセンス: CC BY 4.0
Parth Shastri, Chirag Patil, Poorval Wanere, Dr. Shrinivas Mahajan, Dr. Abhishek Bhatt, Dr. Hardik Sailor(参考訳) Spoken Language Identification (LID) は、音声セグメント内の言語を分類するために使用される自動音声認識(ASR)の重要なサブタスクである。 自動LIDは多言語国で有用な役割を担っている。 様々な国では、会話中に2つ以上の言語が混在する多言語シナリオのため、言語識別が困難になる。 このような音声の現象をコードミキシング(code-mixing)またはコードスイッチング(code-switching)と呼ぶ。 この性質はインドだけでなく、多くのアジア諸国でも見られる。 このようなコード混合データは見つけるのが難しいため、音声蓋の能力はさらに低下する。 このコードミックスデータの妥当性の欠如により、LIDタスクではマイノリティクラスとなる。 したがって、この研究は主に、マイノリティなコードスイッチングクラスのソリューションとして、データ拡張を使用してこの問題に対処する。 本研究は、英語と混在するIndic言語に焦点をあてる。 Spoken LIDはヒンディー語で実行され、コードには英語が混在している。 本研究では,Mel Spectrograms を用いた音声データに対するGANに基づくデータ拡張手法を提案する。 GANは画像領域における実際のデータ分布を表現する上ですでに正確であることが証明されている。 提案する研究は、音声分類、自動音声認識、etcなどの音声領域におけるganの能力を活用する。 GANはマイノリティなコード混合クラスのMelスペクトログラムを生成するために訓練され、次に分類器のデータを増やすために使用される。 GANを利用することで、ベースライン参照として使用される畳み込みリカレントニューラルネットワーク(CRNN)分類器と比較して、Unweighted Average Recallを3.5倍に改善する。

Spoken Language Identification (LID) is an important sub-task of Automatic Speech Recognition(ASR) that is used to classify the language(s) in an audio segment. Automatic LID plays an useful role in multilingual countries. In various countries, identifying a language becomes hard, due to the multilingual scenario where two or more than two languages are mixed together during conversation. Such phenomenon of speech is called as code-mixing or code-switching. This nature is followed not only in India but also in many Asian countries. Such code-mixed data is hard to find, which further reduces the capabilities of the spoken LID. Due to the lack of avalibility of this code-mixed data, it becomes a minority class in LID task. Hence, this work primarily addresses this problem using data augmentation as a solution on the minority code-switched class. This study focuses on Indic language code-mixed with English. Spoken LID is performed on Hindi, code-mixed with English. This research proposes Generative Adversarial Network (GAN) based data augmentation technique performed using Mel spectrograms for audio data. GANs have already been proven to be accurate in representing the real data distribution in the image domain. Proposed research exploits these capabilities of GANs in speech domains such as speech classification, automatic speech recognition,etc. GANs are trained to generate Mel spectrograms of the minority code-mixed class which are then used to augment data for the classifier. Utilizing GANs give an overall improvement on Unweighted Average Recall by an amount of 3.5\% as compared to a Convolutional Recurrent Neural Network (CRNN) classifier used as the baseline reference.
翻訳日:2022-06-04 10:49:52 公開日:2022-05-30
# Twitter FinBERT組み込みによるBitcoinの極端な価格変動予測のためのマルチモーダルモデル

A multimodal model with Twitter FinBERT embeddings for extreme price movement prediction of Bitcoin ( http://arxiv.org/abs/2206.00648v1 )

ライセンス: Link先を確認
Yanzhao Zou, Dorien Herremans(参考訳) Bitcoinは、その人気がますます高まっているが、その起源以来、極端な価格変動を見せている。 このボラティリティと分散的な性質により、bitcoinは従来の資産に比べて投機的取引に非常に主観的になる。 本稿では,極端な価格変動を予測するマルチモーダルモデルを提案する。 このモデルは、さまざまな関連資産、技術的指標、およびTwitterコンテンツとして入力される。 詳細な研究では、bitcoinに関するソーシャルメディアの議論が、極端な価格変動に対して予測力を持っているかどうかを探っている。 2015年から2021年にかけて,‘Bitcoin’というキーワードを含む1日5000ツイートのデータセットが収集された。 PreBitと呼ばれるこのデータセットはオンラインで公開されている。 当社のハイブリッドモデルでは,金融レキシコンに事前学習された文レベルのfinbert埋め込みを使用して,ツイートの全内容をキャプチャし,理解可能な方法でモデルにフィードします。 これらの埋め込みを畳み込みニューラルネットワークと組み合わせることで、市場の動きを予測するモデルを構築しました。 最後のマルチモーダルアンサンブルモデルには、このNLPモデルと、ロウソクスティックデータ、技術的指標、関連資産価格に基づくモデルが含まれる。 アブレーション研究では,個々のモダリティの寄与について検討する。 最後に,予測しきい値を変化させたモデル予測に基づく取引戦略の提案とバックテストを行い,'ホールド'や移動平均戦略よりもリスクを低減した収益性のある取引戦略の構築に使用できることを示す。

Bitcoin, with its ever-growing popularity, has demonstrated extreme price volatility since its origin. This volatility, together with its decentralised nature, make Bitcoin highly subjective to speculative trading as compared to more traditional assets. In this paper, we propose a multimodal model for predicting extreme price fluctuations. This model takes as input a variety of correlated assets, technical indicators, as well as Twitter content. In an in-depth study, we explore whether social media discussions from the general public on Bitcoin have predictive power for extreme price movements. A dataset of 5,000 tweets per day containing the keyword `Bitcoin' was collected from 2015 to 2021. This dataset, called PreBit, is made available online. In our hybrid model, we use sentence-level FinBERT embeddings, pretrained on financial lexicons, so as to capture the full contents of the tweets and feed it to the model in an understandable way. By combining these embeddings with a Convolutional Neural Network, we built a predictive model for significant market movements. The final multimodal ensemble model includes this NLP model together with a model based on candlestick data, technical indicators and correlated asset prices. In an ablation study, we explore the contribution of the individual modalities. Finally, we propose and backtest a trading strategy based on the predictions of our models with varying prediction threshold and show that it can used to build a profitable trading strategy with a reduced risk over a `hold' or moving average strategy.
翻訳日:2022-06-02 15:57:57 公開日:2022-05-30
# DEP-RL:過剰・筋骨格系における強化学習のための身体的探索

DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems ( http://arxiv.org/abs/2206.00484v1 )

ライセンス: Link先を確認
Pierre Schumacher, Daniel H\"aufle, Dieter B\"uchler, Syn Schmitt, Georg Martius(参考訳) 筋肉を調節する生物は、筋肉が大量に存在するにもかかわらず、並外れた運動の多様性を学べる。 しかし, 筋骨格モデルを用いた強化学習(RL)では, 同様の性能は示されていない。 大規模過度な作用空間における非効率な探索は重要な問題である。 これは、過度に作動するシステムの合成例において、一般的な探索ノイズ戦略が不十分であるという発見によって支持される。 我々は, 自己組織領域から抽出した微分外在的可塑性 (DEP) を, 相互作用数秒以内に状態空間の探索を誘導できると同定した。 筋骨格系におけるDEPをRLに組み込むことにより,筋骨格系におけるリーチと移動の学習を高速化し,試料効率とロバスト性において,全ての検討課題において現在のアプローチより優れている。

Muscle-actuated organisms are capable of learning an unparalleled diversity of dexterous movements despite their vast amount of muscles. Reinforcement learning (RL) on large musculoskeletal models, however, has not been able to show similar performance. We conjecture that ineffective exploration in large overactuated action spaces is a key problem. This is supported by the finding that common exploration noise strategies are inadequate in synthetic examples of overactuated systems. We identify differential extrinsic plasticity (DEP), a method from the domain of self-organization, as being able to induce state-space covering exploration within seconds of interaction. By integrating DEP into RL, we achieve fast learning of reaching and locomotion in musculoskeletal systems, outperforming current approaches in all considered tasks in sample efficiency and robustness.
翻訳日:2022-06-02 13:40:18 公開日:2022-05-30
# (参考訳) ロバスト顔認識のための中間画素差分畳み込みネットワーク

Median Pixel Difference Convolutional Network for Robust Face Recognition ( http://arxiv.org/abs/2205.15867v1 )

ライセンス: CC BY 4.0
Jiehua Zhang, Zhuo Su, Li Liu(参考訳) 顔認識はコンピュータビジョンにおいて最も活発なタスクの1つであり、現実世界で広く使われている。 畳み込みニューラルネットワーク(cnn)では、多くの顔認識アルゴリズムが様々な顔データセットで高い精度を達成している。 しかし、既存のCNNに基づく顔認識アルゴリズムはノイズに弱い。 ノイズ劣化した画像パターンは、偽のアクティベーションを引き起こし、ノイズのある状況下での顔認識精度を著しく低下させる。 cnnに異なるレベルのノイズに頑健性を持たせるため,従来の畳み込み層を新たに提案する中央値画素差畳み込み層(mediconv)層に置き換え,中央値画素差畳み込みネットワーク(medinet)を提案した。 提案するMeDiNetは、従来のマルチスケール中央値フィルタリングを深層CNNと統合する。 MeDiNetは4つの顔データセット(LFW、CA-LFW、CP-LFW、YTF)でテストされており、ボケカーネル、ノイズインテンシティ、スケール、JPEG品質要素を多用している。 広範な実験により,我々のメディネットは,特徴マップ内のノイズ画素を効果的に除去し,ノイズの負の影響を抑制することができ,クリーンな条件下での標準cnnと比較して,実用的な雑音下での精度の低下が抑制されることが示された。

Face recognition is one of the most active tasks in computer vision and has been widely used in the real world. With great advances made in convolutional neural networks (CNN), lots of face recognition algorithms have achieved high accuracy on various face datasets. However, existing face recognition algorithms based on CNNs are vulnerable to noise. Noise corrupted image patterns could lead to false activations, significantly decreasing face recognition accuracy in noisy situations. To equip CNNs with built-in robustness to noise of different levels, we proposed a Median Pixel Difference Convolutional Network (MeDiNet) by replacing some traditional convolutional layers with the proposed novel Median Pixel Difference Convolutional Layer (MeDiConv) layer. The proposed MeDiNet integrates the idea of traditional multiscale median filtering with deep CNNs. The MeDiNet is tested on the four face datasets (LFW, CA-LFW, CP-LFW, and YTF) with versatile settings on blur kernels, noise intensities, scales, and JPEG quality factors. Extensive experiments show that our MeDiNet can effectively remove noisy pixels in the feature map and suppress the negative impact of noise, leading to achieving limited accuracy loss under these practical noises compared with the standard CNN under clean conditions.
翻訳日:2022-06-02 10:59:33 公開日:2022-05-30
# (参考訳) 知識グラフ推論のための学習適応伝播

Learning Adaptive Propagation for Knowledge Graph Reasoning ( http://arxiv.org/abs/2205.15319v1 )

ライセンス: CC BY 4.0
Yongqi Zhang, Zhanke Zhou, Quanming Yao, Xiaowen Chu, Bo Han(参考訳) グラフ構造化データから学習するグラフニューラルネットワーク(GNN)の成功により、知識グラフ(KG)から学習するために様々なGNNベースの手法が導入された。 本稿では,既存のGNN手法の根底にある重要な要素を明らかにするために,伝搬路のレンズから模範作品を再考する。 回答エンティティはクエリされたエンティティに近いものになりえるが、情報依存性は長くなる可能性がある。 これにより、より長い伝播経路を探索することで、より良い推論性能が得られる。 しかし,関係するエンティティの数は指数関数的に増加するため,kgにおけるこのような長距離依存の同定は困難である。 これにより、伝播中に有望なターゲットを維持しながら、無関係な実体をフィルターアウトする適応的伝播経路を学習するモチベーションが生まれます。 まず,閉じた目標と有望な目標を保存できるインクリメンタルサンプリング機構を設計する。 第2に,関連するエンティティの少ないターゲットを識別するために,学習に基づくサンプリング分布を設計する。 このようにして、GNNはより深く、長距離情報をキャプチャすることができる。 広汎な実験により,本手法は効率が高く,より深い伝播の恩恵を受けながら,トランスダクティブおよびインダクティブ推論の両方において最先端の性能を実現することができた。

Due to the success of Graph Neural Networks (GNNs) in learning from graph-structured data, various GNN-based methods have been introduced to learn from knowledge graphs (KGs). In this paper, to reveal the key factors underneath existing GNN-based methods, we revisit exemplar works from the lens of the propagation path. We find that the answer entity can be close to queried one, but the information dependency can be long. Thus, better reasoning performance can be obtained by exploring longer propagation paths. However, identifying such a long-range dependency in KG is hard since the number of involved entities grows exponentially. This motivates us to learn an adaptive propagation path that filters out irrelevant entities while preserving promising targets during the propagation. First, we design an incremental sampling mechanism where the close and promising target can be preserved. Second, we design a learning-based sampling distribution to identify the targets with fewer involved entities. In this way, GNN can go deeper to capture long-range information. Extensive experiments show that our method is efficient and achieves state-of-the-art performances in both transductive and inductive reasoning settings, benefiting from the deeper propagation.
翻訳日:2022-06-02 10:46:15 公開日:2022-05-30
# (参考訳) ペイデイローン -- 祝福か成長抑制か? 機械学習解析

Payday loans -- blessing or growth suppressor? Machine Learning Analysis ( http://arxiv.org/abs/2205.15320v1 )

ライセンス: CC BY 4.0
Rohith Mahadevan, Sam Richard, Kishore Harshan Kumar, Jeevitha Murugan, Santhosh Kannan, Saaisri, Tarun, Raja CSP Raman(参考訳) 不動産の上昇には、多くのドメインに影響された様々な要因が含まれる。 実際、これを管理するために規制提案が起草されている経済に影響を及ぼす未承認セクターは、給料デーローンである。 本研究は不動産市場におけるペイデイローンの影響を考察したものである。 本研究論文は,特にオンタリオ州トロントのペイデイローンによって参照領域における不動産の集中度指標を得るためのイデオロギーとして,研究分析を通じてシナリオを創造し,評価し,実証するためのイデオロギーを定めている。 ペイデイローンによるこのインデクシングの目的は、ペイデイローンの利子を支払わなければならない人の収入が増加すると、その負債はわずかに減少し、その成長を加速させる不動産のような固定資産に投資することを推測する、基本的な負債:収入比率である。

The upsurge of real estate involves a variety of factors that have got influenced by many domains. Indeed, the unrecognized sector that would affect the economy for which regulatory proposals are being drafted to keep this in control is the payday loans. This research paper revolves around the impact of payday loans in the real estate market. The research paper draws a first-hand experience of obtaining the index for the concentration of real estate in an area of reference by virtue of payday loans in Toronto, Ontario in particular, which sets out an ideology to create, evaluate and demonstrate the scenario through research analysis. The purpose of this indexing via payday loans is the basic - debt: income ratio which states that when the income of the person bound to pay the interest of payday loans increases, his debt goes down marginally which hence infers that the person invests in fixed assets like real estate which hikes up its growth.
翻訳日:2022-06-02 10:22:57 公開日:2022-05-30
# (参考訳) 解釈可能な多重インスタンス学習による軌道ラベルからの非マルコフ逆モデリング

Non-Markovian Reward Modelling from Trajectory Labels via Interpretable Multiple Instance Learning ( http://arxiv.org/abs/2205.15367v1 )

ライセンス: CC BY 4.0
Joseph Early, Tom Bewley, Christine Evers, Sarvapali Ramchurn(参考訳) 非マルコフ的報酬を扱うために強化学習(rl)のための報酬モデル問題(rm)を一般化する。 既存の作業は、エージェントの振る舞いに対するフィードバックを提供する際に、人間の評価者が個々のステップを独立して観察することを前提としている。 本研究では,この仮定を取り除き,軌道評価における時間的依存性を捉えた隠れ状態情報を含むようにrmを拡張した。 次に、RMがマルチインスタンス学習(MIL)問題としてどのようにアプローチできるかを示し、ラベル付きトラジェクトリの時間依存性をキャプチャできる新しいMILモデルを開発する。 我々は、我々の新しいMILモデルが報酬関数を高い精度で再構成し、高いパフォーマンスのエージェントポリシーのトレーニングに使用できる解釈可能な学習情報を提供する、様々なRLタスクについて実証する。

We generalise the problem of reward modelling (RM) for reinforcement learning (RL) to handle non-Markovian rewards. Existing work assumes that human evaluators observe each step in a trajectory independently when providing feedback on agent behaviour. In this work, we remove this assumption, extending RM to include hidden state information that captures temporal dependencies in human assessment of trajectories. We then show how RM can be approached as a multiple instance learning (MIL) problem, and develop new MIL models that are able to capture the time dependencies in labelled trajectories. We demonstrate on a range of RL tasks that our novel MIL models can reconstruct reward functions to a high level of accuracy, and that they provide interpretable learnt hidden information that can be used to train high-performing agent policies.
翻訳日:2022-06-02 10:17:34 公開日:2022-05-30
# (参考訳) Optimistic Whittle Index Policy: レストバンドのためのオンライン学習

Optimistic Whittle Index Policy: Online Learning for Restless Bandits ( http://arxiv.org/abs/2205.15372v1 )

ライセンス: CC BY 4.0
Kai Wang, Lily Xu, Aparna Taneja, Milind Tambe(参考訳) レストレス・マルチアーム・バンディット(RMAB)は、多腕のバンディットを拡張してステートフルアームを可能にし、各アームの状態は、腕を引っ張るかどうかによって異なる遷移で、レストレスで進化する。 しかし、RMABの解決にはトランジッションダイナミクスに関する情報が必要である。 未知の遷移を伴うrmab設定を計画するために, 遷移ダイナミクスを学習するためのuper confidence bound (ucb) アプローチを用いて, whittle index policyに基づく最初のオンライン学習アルゴリズムを提案する。 具体的には、遷移ダイナミクスの信頼度境界から楽観的なウィットル指数を計算するために双線型プログラムを定式化する。 我々のアルゴリズムUCWhittleは、RMABを未知の遷移で解くために、サブ線形$O(\sqrt{T \log T})$の頻繁な後悔を実現する。 経験的に、ucwhittleは、rmabsとwhitle index policy solutionの構造を利用して、3つのドメインにまたがる既存のオンライン学習ベースラインよりも優れたパフォーマンスを達成することを実証している。

Restless multi-armed bandits (RMABs) extend multi-armed bandits to allow for stateful arms, where the state of each arm evolves restlessly with different transitions depending on whether that arm is pulled. However, solving RMABs requires information on transition dynamics, which is often not available upfront. To plan in RMAB settings with unknown transitions, we propose the first online learning algorithm based on the Whittle index policy, using an upper confidence bound (UCB) approach to learn transition dynamics. Specifically, we formulate a bilinear program to compute the optimistic Whittle index from the confidence bounds in transition dynamics. Our algorithm, UCWhittle, achieves sublinear $O(\sqrt{T \log T})$ frequentist regret to solve RMABs with unknown transitions. Empirically, we demonstrate that UCWhittle leverages the structure of RMABs and the Whittle index policy solution to achieve better performance than existing online learning baselines across three domains, including on real-world maternal and childcare data aimed at reducing maternal mortality.
翻訳日:2022-06-02 09:52:11 公開日:2022-05-30
# (参考訳) 蓄積ニューロンを用いた辞書学習

Dictionary Learning with Accumulator Neurons ( http://arxiv.org/abs/2205.15386v1 )

ライセンス: CC BY 4.0
Gavin Parpart, Carlos Gonzalez, Terrence C. Stewart, Edward Kim, Jocelyn Rego, Andrew O'Brien, Steven Nesbit, Garrett T. Kenyon and Yijing Watkins(参考訳) Locally Competitive Algorithm (LCA)は、非スパイクリークインテグレータニューロン間の局所的な競合を利用してスパース表現を推論し、IntelのLoihiプロセッサのような大規模並列なニューロモルフィックアーキテクチャ上でのリアルタイム実行を可能にする。 本稿では,非教師付き手法で最適化した時空間的特徴の辞書を用いて,ストリーミング映像からスパース表現を推測する問題に焦点を当てる。 非スパイキングLCAは、未ラベルのビデオからの畳み込みカーネルからなる時空間辞書の教師なし学習に使われてきた。 本研究では、従来の漏れ積分・消火スパイク発生器と、統合入力とスパイク出力の差を最小限に抑えるための追加状態変数を組み合わせたアキュムレータニューロンを用いて、スパイクLCA(\hbox{S-LCA})を用いた教師なし辞書学習を効率的に行う方法を示す。 我々は,CIFARデータベースから抽出された静止画像とDVSカメラから取得したビデオフレームの両方のスパース表現を推定するために,グレードから間欠的なスパイクまで,幅広い動的状態の辞書学習を実演する。 DVSカメラで見るように、カードのデッキからスイートの識別を迅速に行う必要がある分類タスクでは、スパース時空間表現をグレードからスパイクに遷移させるのに使われるLCAモデルとして、本質的に性能の劣化は見つからない。 我々は,アキュムレータニューロンが,イベントベースDVSカメラからのストリーミング映像のスパース再構成に最適化された時空間辞書のオンライン教師なし学習を実現するために,将来のニューロモルフィックハードウェアの強力な有効成分を提供する可能性が示唆された。

The Locally Competitive Algorithm (LCA) uses local competition between non-spiking leaky integrator neurons to infer sparse representations, allowing for potentially real-time execution on massively parallel neuromorphic architectures such as Intel's Loihi processor. Here, we focus on the problem of inferring sparse representations from streaming video using dictionaries of spatiotemporal features optimized in an unsupervised manner for sparse reconstruction. Non-spiking LCA has previously been used to achieve unsupervised learning of spatiotemporal dictionaries composed of convolutional kernels from raw, unlabeled video. We demonstrate how unsupervised dictionary learning with spiking LCA (\hbox{S-LCA}) can be efficiently implemented using accumulator neurons, which combine a conventional leaky-integrate-and-fire (\hbox{LIF}) spike generator with an additional state variable that is used to minimize the difference between the integrated input and the spiking output. We demonstrate dictionary learning across a wide range of dynamical regimes, from graded to intermittent spiking, for inferring sparse representations of both static images drawn from the CIFAR database as well as video frames captured from a DVS camera. On a classification task that requires identification of the suite from a deck of cards being rapidly flipped through as viewed by a DVS camera, we find essentially no degradation in performance as the LCA model used to infer sparse spatiotemporal representations migrates from graded to spiking. We conclude that accumulator neurons are likely to provide a powerful enabling component of future neuromorphic hardware for implementing online unsupervised learning of spatiotemporal dictionaries optimized for sparse reconstruction of streaming video from event based DVS cameras.
翻訳日:2022-06-02 09:28:26 公開日:2022-05-30
# (参考訳) ハイブリッド地震探査法--物理が自己スーパービジョンを満たすとき

A hybrid approach to seismic deblending: when physics meets self-supervision ( http://arxiv.org/abs/2205.15395v1 )

ライセンス: CC BY 4.0
Nick Luiken and Matteo Ravasi and Claire E. Birnie(参考訳) 地震データの取得に伴う時間、コスト、環境への影響を制限するため、近年では、地震源を短時間の間隔で発射する、いわゆる同時射撃取得に多大な努力が払われている。 その結果、連続ショットから発せられる波は、地震記録内に絡み合わされ、いわゆる混合データとなる。 処理とイメージングの目的では、個々のショットで生成されたデータを取得する必要がある。 このプロセスはdeblendingと呼ばれ、非常に過小評価されている逆問題の解法によって達成される。 従来のアプローチでは、混合ノイズをバーストのようなノイズに変換しながら、関心のシグナルを保ちながら変換する。 圧縮センシング型正規化が適用され、ある領域の空間が関心の信号として仮定される。 選択の領域は、選択された領域内での取得の幾何学と地震データの特性に依存する。 本研究では,自己教師型認知ネットワークをPlug-and-Play(PnP)フレームワークに組み込んだ新しい概念を提案する。 部分的コヒーレントノイズ(時間的相関)に対する[28 ]の盲点ネットワークアーキテクチャを設計した新しいネットワークが導入された。 ネットワークはPnPアルゴリズムの各ステップでノイズの多い入力データに基づいて直接訓練される。 問題の基礎となる物理と盲点ネットワークの偉大な認知能力の両面から,提案アルゴリズムは計算コストの面で比較しながら,業界標準の手法より優れていることを示す。 また, 取得幾何に依存せず, 海洋データと陸地データの両方に対して, 大幅な修正を加えることなく容易に適用できる。

To limit the time, cost, and environmental impact associated with the acquisition of seismic data, in recent decades considerable effort has been put into so-called simultaneous shooting acquisitions, where seismic sources are fired at short time intervals between each other. As a consequence, waves originating from consecutive shots are entangled within the seismic recordings, yielding so-called blended data. For processing and imaging purposes, the data generated by each individual shot must be retrieved. This process, called deblending, is achieved by solving an inverse problem which is heavily underdetermined. Conventional approaches rely on transformations that render the blending noise into burst-like noise, whilst preserving the signal of interest. Compressed sensing type regularization is then applied, where sparsity in some domain is assumed for the signal of interest. The domain of choice depends on the geometry of the acquisition and the properties of seismic data within the chosen domain. In this work, we introduce a new concept that consists of embedding a self-supervised denoising network into the Plug-and-Play (PnP) framework. A novel network is introduced whose design extends the blind-spot network architecture of [28 ] for partially coherent noise (i.e., correlated in time). The network is then trained directly on the noisy input data at each step of the PnP algorithm. By leveraging both the underlying physics of the problem and the great denoising capabilities of our blind-spot network, the proposed algorithm is shown to outperform an industry-standard method whilst being comparable in terms of computational cost. Moreover, being independent on the acquisition geometry, our method can be easily applied to both marine and land data without any significant modification.
翻訳日:2022-06-02 09:15:00 公開日:2022-05-30
# (参考訳) リプレイ推定によるミニマックス最適オンライン模倣学習

Minimax Optimal Online Imitation Learning via Replay Estimation ( http://arxiv.org/abs/2205.15397v1 )

ライセンス: CC BY-SA 4.0
Gokul Swamy, Nived Rajaraman, Matthew Peng, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu, Jiantao Jiao, Kannan Ramchandran(参考訳) オンラインの模倣学習は、環境や正確なシミュレータへのアクセスを前提として、専門家のデモンストレーションを最もうまく模倣する方法の問題である。 先行研究では、無限サンプルレジームでは、正確なモーメントマッチングがエキスパートポリシーと等価性を達成することが示されている。 しかし、有限サンプルモデルでは、たとえ最適化エラーがなくても、経験的ばらつきは、動作のクローン化に$h^2 / n$、オンラインモーメントマッチングに$h / \sqrt{n}$、ただし$h$は水平であり、$n$はエキスパートデータセットのサイズである。 確率的シミュレータでキャッシュされたエキスパートアクションを繰り返し実行することにより、よりスムーズな専門家訪問分布推定を計算し、この経験的分散を低減させる手法を提案する。 一般関数近似の存在下では、オフライン分類におけるパラメータ推定誤差(すなわち、エキスパートポリシーの学習)に対する我々のアプローチの性能ギャップを低減するメタ定理を証明した。 表の設定や線形関数近似では、我々のメタ定理は、我々のアプローチによって引き起こされた性能ギャップが最適$\widetilde{O} \left(\min({H^{3/2}} / {N}, {H} / {\sqrt{N}} \right)$依存性を達成することを示す。 いくつかの連続的な制御タスクに対して、アプローチの複数のインスタンス化を実装し、さまざまなデータセットサイズでポリシーパフォーマンスを大幅に改善できることに気付きました。

Online imitation learning is the problem of how best to mimic expert demonstrations, given access to the environment or an accurate simulator. Prior work has shown that in the infinite sample regime, exact moment matching achieves value equivalence to the expert policy. However, in the finite sample regime, even if one has no optimization error, empirical variance can lead to a performance gap that scales with $H^2 / N$ for behavioral cloning and $H / \sqrt{N}$ for online moment matching, where $H$ is the horizon and $N$ is the size of the expert dataset. We introduce the technique of replay estimation to reduce this empirical variance: by repeatedly executing cached expert actions in a stochastic simulator, we compute a smoother expert visitation distribution estimate to match. In the presence of general function approximation, we prove a meta theorem reducing the performance gap of our approach to the parameter estimation error for offline classification (i.e. learning the expert policy). In the tabular setting or with linear function approximation, our meta theorem shows that the performance gap incurred by our approach achieves the optimal $\widetilde{O} \left( \min({H^{3/2}} / {N}, {H} / {\sqrt{N}} \right)$ dependency, under significantly weaker assumptions compared to prior work. We implement multiple instantiations of our approach on several continuous control tasks and find that we are able to significantly improve policy performance across a variety of dataset sizes.
翻訳日:2022-06-02 08:55:35 公開日:2022-05-30
# (参考訳) VoGE:Gaussian Ellipsoidsを用いた分析合成のための微分ボリュームレンダ

VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for Analysis-by-Synthesis ( http://arxiv.org/abs/2205.15401v1 )

ライセンス: CC BY 4.0
Angtian Wang, Peng Wang, Jian Sun, Adam Kortylewski, Alan Yuille(参考訳) 異なるレンダリングにより、オブジェクトのポーズや形状のフィッティングといった視覚タスクにコンピュータグラフィックスを適用することができる。 これらの勾配を得るために、最先端(SoTA)微分レンダラーは、ラスタライズを使用して、各ピクセルに最も近いコンポーネントの集合を収集し、視距離に基づいてそれらを集約する。 本稿では,gaussian ellipsoidsに基づく体積密度の積分により,光線および集合体上の体積密度分布に最も近い成分をレイトレーシングにより捕捉し,より効率的で安定な勾配をもたらすvogeを提案する。 本稿では,VoGEを用いて効率よくレンダリングを行うため,体積密度凝集法と粗大な描画法を提案する。 最後に、VoGEのCUDA実装を提供し、PyTorch3Dと比較して、競合するレンダリング速度を提供する。 定量的・質的実験により, 物体ポーズ推定, 形状・テクスチャフィッティング, 咬合推論など, 様々な視覚課題に適用すると, voge は sota に勝ることが示された。 VoGEライブラリとデモはhttps://github.com/Angtian/VoGEで公開されている。

Differentiable rendering allows the application of computer graphics on vision tasks, e.g. object pose and shape fitting, via analysis-by-synthesis, where gradients at occluded regions are important when inverting the rendering process. To obtain those gradients, state-of-the-art (SoTA) differentiable renderers use rasterization to collect a set of nearest components for each pixel and aggregate them based on the viewing distance. In this paper, we propose VoGE, which uses ray tracing to capture nearest components with their volume density distributions on the rays and aggregates via integral of the volume densities based on Gaussian ellipsoids, which brings more efficient and stable gradients. To efficiently render via VoGE, we propose an approximate close-form solution for the volume density aggregation and a coarse-to-fine rendering strategy. Finally, we provide a CUDA implementation of VoGE, which gives a competitive rendering speed in comparison to PyTorch3D. Quantitative and qualitative experiment results show VoGE outperforms SoTA counterparts when applied to various vision tasks,e.g., object pose estimation, shape/texture fitting, and occlusion reasoning. The VoGE library and demos are available at https://github.com/Angtian/VoGE.
翻訳日:2022-06-02 08:54:19 公開日:2022-05-30
# (参考訳) Gator: ゲーティングによるニューラルネットワークのカスタマイズ可能なチャネルプルーニング

Gator: Customizable Channel Pruning of Neural Networks with Gating ( http://arxiv.org/abs/2205.15404v1 )

ライセンス: CC BY 4.0
Eli Passov, Eli O. David, and Nathan S. Netanyahu(参考訳) ニューラルネットワーク(NN)アプリケーションの台頭により、圧縮への関心が高まり、特に追加のハードウェアを必要としないチャネルプルーニングに焦点が当てられている。 ほとんどのプルーニング手法では、ネットワークを微調整して除去するチャネルを決定するために、単一層操作またはグローバルスキームを使用する。 本稿では,個別チャネルのプルーニングのための学習ゲーティング機構を一時的に追加し,メモリによる計算コストの削減,(理論的な)スピードアップ(FLOP),実用的,ハードウェア固有のスピードアップを目的とした補助的損失のトレーニングを行うチャネルプルーニング手法であるGatorを提案する。 Gatorは、NN層間の依存関係の新たな定式化を導入し、ほとんどの従来の方法とは対照的に、ResNetのハイウェイ上のレイヤやResNetブロック全体の削除など、シークエンシャルでない部分のプルーニングを可能にする。 ImageNetでトレーニングされたResNet-50に対するゲーターのプルーニングは、50%のFLOPを0.4%の精度で削減するなど、最先端(SOTA)の結果を生成する。 また、gatorは1.4倍の高速化でgpuレイテンシの点で、以前のpruningモデルよりも優れている。 さらに、同様のランタイムでは、MobileNetV2やSqueezeNetと比較して、トップ5の精度が向上している。 この作業のソースコードは、https://github.com/elipassov/gator.com/で入手できる。

The rise of neural network (NN) applications has prompted an increased interest in compression, with a particular focus on channel pruning, which does not require any additional hardware. Most pruning methods employ either single-layer operations or global schemes to determine which channels to remove followed by fine-tuning of the network. In this paper we present Gator, a channel-pruning method which temporarily adds learned gating mechanisms for pruning of individual channels, and which is trained with an additional auxiliary loss, aimed at reducing the computational cost due to memory, (theoretical) speedup (in terms of FLOPs), and practical, hardware-specific speedup. Gator introduces a new formulation of dependencies between NN layers which, in contrast to most previous methods, enables pruning of non-sequential parts, such as layers on ResNet's highway, and even removing entire ResNet blocks. Gator's pruning for ResNet-50 trained on ImageNet produces state-of-the-art (SOTA) results, such as 50% FLOPs reduction with only 0.4%-drop in top-5 accuracy. Also, Gator outperforms previous pruning models, in terms of GPU latency by running 1.4 times faster. Furthermore, Gator achieves improved top-5 accuracy results, compared to MobileNetV2 and SqueezeNet, for similar runtimes. The source code of this work is available at: https://github.com/EliPassov/gator.
翻訳日:2022-06-02 08:52:35 公開日:2022-05-30
# (参考訳) グリッドHTM:ビデオにおける異常検出のための階層的時間記憶

Grid HTM: Hierarchical Temporal Memory for Anomaly Detection in Videos ( http://arxiv.org/abs/2205.15407v1 )

ライセンス: CC BY 4.0
Vladimir Monakhov, Vajira Thambawita, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 近年,ビデオ異常検出システムへの関心が高まっている。 現在のアプローチでは、ビデオの異常検出にディープラーニングを使用しているが、このアプローチには複数の問題がある。 まず、ディープラーニングにはノイズ、コンセプトドリフト、説明可能性、データボリュームのトレーニングといった問題がある。 さらに、異常検出自体は複雑なタスクであり、未知の問題、異質性、クラス不均衡に直面する。 したがって、ディープラーニングを用いた異常検出は、教師なしの性質のため、生成的敵ネットワークやオートエンコーダなどの生成モデルに主に制約されるが、一般のディープラーニング問題に悩まされ、適切な訓練が困難である。 本稿では,階層型時間メモリ(HTM)アルゴリズムによるビデオの異常検出機能について検討する。 本稿では,監視映像などの複雑なビデオの異常検出に特化したHTMアーキテクチャであるGrid HTMの新たなバージョンを紹介する。

The interest for video anomaly detection systems has gained traction for the past few years. The current approaches use deep learning to perform anomaly detection in videos, but this approach has multiple problems. For starters, deep learning in general has issues with noise, concept drift, explainability, and training data volumes. Additionally, anomaly detection in itself is a complex task and faces challenges such as unknowness, heterogeneity, and class imbalance. Anomaly detection using deep learning is therefore mainly constrained to generative models such as generative adversarial networks and autoencoders due to their unsupervised nature, but even they suffer from general deep learning issues and are hard to train properly. In this paper, we explore the capabilities of the Hierarchical Temporal Memory (HTM) algorithm to perform anomaly detection in videos, as it has favorable properties such as noise tolerance and online learning which combats concept drift. We introduce a novel version of HTM, namely, Grid HTM, which is an HTM-based architecture specifically for anomaly detection in complex videos such as surveillance footage.
翻訳日:2022-06-02 08:40:11 公開日:2022-05-30
# (参考訳) PolypConnect:ポリプを用いた消化管画像作成のためのイメージインペインティング

PolypConnect: Image inpainting for generating realistic gastrointestinal tract images with polyps ( http://arxiv.org/abs/2205.15413v1 )

ライセンス: CC BY 4.0
Jan Andre Fagereng, Vajira Thambawita, Andrea M. Stor{\aa}s, Sravanthi Parasa, Thomas de Lange, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 下部消化管(gi)におけるポリープの早期同定は,大腸癌の予防につながる可能性がある。 ポリープを検出するコンピュータ支援診断(cad)システムの開発は、検出精度と効率を改善し、ドメインの専門家であるendoscopistsの時間を節約する。 注釈付きデータの欠如はcadシステム構築において一般的な課題である。 合成医療データの生成は、医療領域内での正のケースが比較的少ないという問題を克服するための活発な研究領域である。 CADシステムの中核である機械学習(ML)モデルを効率的に訓練するには、かなりの量のデータを使用する必要がある。 本稿では,非ポリプ画像からポリプ画像に変換することにより,トレーニング用データセットのサイズを拡大するPolypConnectパイプラインを提案する。 内科医を含む定量的,定性的な評価をパイプライン全体に提示する。 合成データを用いてトレーニングしたポリプセグメンテーションモデルと、実データのみを用いてトレーニングしたモデルと比較すると、平均交叉率(mIOU)が5.1%向上した。 すべての実験のコードは、結果を再現するためにgithubで入手できる。

Early identification of a polyp in the lower gastrointestinal (GI) tract can lead to prevention of life-threatening colorectal cancer. Developing computer-aided diagnosis (CAD) systems to detect polyps can improve detection accuracy and efficiency and save the time of the domain experts called endoscopists. Lack of annotated data is a common challenge when building CAD systems. Generating synthetic medical data is an active research area to overcome the problem of having relatively few true positive cases in the medical domain. To be able to efficiently train machine learning (ML) models, which are the core of CAD systems, a considerable amount of data should be used. In this respect, we propose the PolypConnect pipeline, which can convert non-polyp images into polyp images to increase the size of training datasets for training. We present the whole pipeline with quantitative and qualitative evaluations involving endoscopists. The polyp segmentation model trained using synthetic data, and real data shows a 5.1% improvement of mean intersection over union (mIOU), compared to the model trained only using real data. The codes of all the experiments are available on GitHub to reproduce the results.
翻訳日:2022-06-02 08:29:46 公開日:2022-05-30
# (参考訳) ポートフォリオに基づく競争結果の分析手法

A portfolio-based analysis method for competition results ( http://arxiv.org/abs/2205.15414v1 )

ライセンス: CC BY 4.0
Nguyen Dang(参考訳) MiniZinc Challenges や SAT コンペティションのようなコンペティションは、様々な解決手法のパフォーマンスを比較し、分野の最先端化に役立っている。 従来のコンペティション設定では、さまざまなベンチマーク問題やインスタンスの平均パフォーマンスに基づいて、ソルバ間のランキング作成に重点を置いていることが多い。 これは解決者の相対的な性能を評価するための合理的な方法であるが、そのようなランク付けは必ずしも解決者の潜在能力を反映するものではない。 本稿では,競争に参加するソルバのパフォーマンスについて,相補的な洞察を与えるポートフォリオベース分析手法について述べる。 本手法はMiniZinc Challengesの結果に示され,ポートフォリオの観点から得られた新たな知見が提示される。

Competitions such as the MiniZinc Challenges or the SAT competitions have been very useful sources for comparing performance of different solving approaches and for advancing the state-of-the-arts of the fields. Traditional competition setting often focuses on producing a ranking between solvers based on their average performance across a wide range of benchmark problems and instances. While this is a sensible way to assess the relative performance of solvers, such ranking does not necessarily reflect the full potential of a solver, especially when we want to utilise a portfolio of solvers instead of a single one for solving a new problem. In this paper, I will describe a portfolio-based analysis method which can give complementary insights into the performance of participating solvers in a competition. The method is demonstrated on the results of the MiniZinc Challenges and new insights gained from the portfolio viewpoint are presented.
翻訳日:2022-06-02 08:18:30 公開日:2022-05-30
# (参考訳) セグメンテーション一貫性トレーニング:医療画像セグメンテーションのためのアウト・オブ・ディストリビューション一般化

Segmentation Consistency Training: Out-of-Distribution Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2205.15428v1 )

ライセンス: CC BY 4.0
Birk Torpmann-Hagen, Vajira Thambawita, Kyrre Glette, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 一般化可能性(generalizability)は、ディープラーニングにおける大きな課題の1つであり、特に医療画像領域において、病院や画像ルーチンの変更がモデルの完全な失敗につながる可能性がある。 そこで本研究では,拡張データと無表示データ間のモデルの予測一貫性を最大化することに基づく,一貫性トレーニング,トレーニング手順,データ拡張の代替手法を提案する。 そこで本研究では,拡張予測とラベルの対の違いを考慮したセグメント化非一貫性損失(sil)と呼ばれる新しい領域ベースセグメント損失関数を開発した。 本研究では,一般的な医療課題であるポリープセグメンテーションにおいて,コンシステンシートレーニングが従来のデータ拡張よりも優れていることを示す。

Generalizability is seen as one of the major challenges in deep learning, in particular in the domain of medical imaging, where a change of hospital or in imaging routines can lead to a complete failure of a model. To tackle this, we introduce Consistency Training, a training procedure and alternative to data augmentation based on maximizing models' prediction consistency across augmented and unaugmented data in order to facilitate better out-of-distribution generalization. To this end, we develop a novel region-based segmentation loss function called Segmentation Inconsistency Loss (SIL), which considers the differences between pairs of augmented and unaugmented predictions and labels. We demonstrate that Consistency Training outperforms conventional data augmentation on several out-of-distribution datasets on polyp segmentation, a popular medical task.
翻訳日:2022-06-02 08:08:58 公開日:2022-05-30
# (参考訳) 小型データセットの皮膚病変診断におけるトランスフォーマーとCNNの進歩

Exploring Advances in Transformers and CNN for Skin Lesion Diagnosis on Small Datasets ( http://arxiv.org/abs/2205.15442v1 )

ライセンス: CC BY 4.0
Leandro M. de Lima, Renato A. Krohling(参考訳) 皮膚がんは世界で最も一般的ながんの1つである。 皮膚病変の診断に取り組むために異なるコンピュータ支援診断システムが提案されており、そのほとんどは深層畳み込みニューラルネットワークに基づいている。 しかし、コンピュータビジョンの最近の進歩は、多くのタスク、特にトランスフォーマーベースのネットワークにおいて最先端の結果を得た。 皮膚病変診断タスクにおけるコンピュータビジョンアーキテクチャ,トレーニング方法,マルチモーダル特徴融合の進歩を探究し,評価する。 PiT(0.800 \pm 0.006$)、CoaT(0.780 \pm 0.024$)、ViT(0.771 \pm 0.018$)のバックボーンモデルとMetaBlockを融合させた実験により、PAD-UFES-20データセットの平衡精度測定の最先端結果が得られた。

Skin cancer is one of the most common types of cancer in the world. Different computer-aided diagnosis systems have been proposed to tackle skin lesion diagnosis, most of them based in deep convolutional neural networks. However, recent advances in computer vision achieved state-of-art results in many tasks, notably Transformer-based networks. We explore and evaluate advances in computer vision architectures, training methods and multimodal feature fusion for skin lesion diagnosis task. Experiments show that PiT ($0.800 \pm 0.006$), CoaT ($0.780 \pm 0.024$) and ViT ($0.771 \pm 0.018$) backbone models with MetaBlock fusion achieved state-of-art results for balanced accuracy metric in PAD-UFES-20 dataset.
翻訳日:2022-06-02 07:57:58 公開日:2022-05-30
# (参考訳) 連続オブジェクト検出:定義、戦略、課題のレビュー

Continual Object Detection: A review of definitions, strategies, and challenges ( http://arxiv.org/abs/2205.15445v1 )

ライセンス: CC BY 4.0
Angelo G. Menezes, Gustavo de Moura, C\'ezanne Alves, Andr\'e C. P. L. F. de Carvalho(参考訳) 連続学習の分野は、以前に学習したタスクのパフォーマンスを損なうことなく連続的なタスクを学習する能力を調べる。 主に段階的な分類に重点を置いている。 我々は、ロボット工学や自動運転車における幅広い応用のために、連続物体検出の研究がさらに注目に値すると考えている。 このシナリオは、当時未知だったクラスのインスタンスが発生すると、従来の分類よりも複雑になるが、後続のタスクで学習すべき新しいクラスとして現れるため、アノテーションの欠如と背景ラベルとの矛盾が生じる。 本稿では,クラスインクリメンタルオブジェクト検出の問題に対処するために提案されている現在の戦略について分析する。 1) 従来のインクリメンタルな物体検出シナリオに対する解決策を提案する手法の短期的かつ体系的なレビュー, (2) 標準的な方法で各手法の安定性と可塑性を定量化するための新しい指標を用いた既存手法の包括的評価,(3) 連続的物体検出における現在のトレンドの概要と今後の研究方向の考察。

The field of Continual Learning investigates the ability to learn consecutive tasks without losing performance on those previously learned. Its focus has been mainly on incremental classification tasks. We believe that research in continual object detection deserves even more attention due to its vast range of applications in robotics and autonomous vehicles. This scenario is more complex than conventional classification given the occurrence of instances of classes that are unknown at the time, but can appear in subsequent tasks as a new class to be learned, resulting in missing annotations and conflicts with the background label. In this review, we analyze the current strategies proposed to tackle the problem of class-incremental object detection. Our main contributions are: (1) a short and systematic review of the methods that propose solutions to traditional incremental object detection scenarios; (2) A comprehensive evaluation of the existing approaches using a new metric to quantify the stability and plasticity of each technique in a standard way; (3) an overview of the current trends within continual object detection and a discussion of possible future research directions.
翻訳日:2022-06-02 07:39:26 公開日:2022-05-30
# (参考訳) gldqn: 廃棄物削減のためのパラメータ化量子化強化学習

GLDQN: Explicitly Parameterized Quantile Reinforcement Learning for Waste Reduction ( http://arxiv.org/abs/2205.15455v1 )

ライセンス: CC BY 4.0
Sami Jullien, Mozhdeh Ariannezhad, Paul Groth, Maarten de Rijke(参考訳) 本稿では, 流通の観点から, 食料品店の在庫を消耗品で補充する際の問題点を考察する。 目的は廃棄物を最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。 この問題は、食料需要の増加と食品廃棄物が環境、経済、購買力に与える影響を考えると、今日では高い関係にある。 我々は, 環境を部分的に観察できるような, エージェントの行動に合わせた確率的行動を示す新しい強化学習タスクとして, 在庫再備を行う。 我々は,実店舗データと専門家の知識に基づく新しい強化学習環境を導入する。 この環境は非常に確率的であり、強化学習実践者にはユニークな課題である。 本研究では, 従来のサプライチェーンアルゴリズムでは環境の将来の挙動の不確実性はうまく扱えないこと, 分布的アプローチが不確実性を考慮する良い方法であることを示す。 また,報奨空間上の一般化ラムダ分布を学習する新しい分布強化学習アルゴリズムgldqnを提案する。 GLDQNは、我々の部分的に観測可能な環境における他の分散強化学習手法よりも、全体報酬と生成廃棄物の両方において優れていることを示す。

We study the problem of restocking a grocery store's inventory with perishable items over time, from a distributional point of view. The objective is to maximize sales while minimizing waste, with uncertainty about the actual consumption by costumers. This problem is of a high relevance today, given the growing demand for food and the impact of food waste on the environment, the economy, and purchasing power. We frame inventory restocking as a new reinforcement learning task that exhibits stochastic behavior conditioned on the agent's actions, making the environment partially observable. We introduce a new reinforcement learning environment based on real grocery store data and expert knowledge. This environment is highly stochastic, and presents a unique challenge for reinforcement learning practitioners. We show that uncertainty about the future behavior of the environment is not handled well by classical supply chain algorithms, and that distributional approaches are a good way to account for the uncertainty. We also present GLDQN, a new distributional reinforcement learning algorithm that learns a generalized lambda distribution over the reward space. We show that GLDQN outperforms other distributional reinforcement learning approaches in our partially observable environments, in both overall reward and generated waste.
翻訳日:2022-06-02 07:01:27 公開日:2022-05-30
# (参考訳) 3次元SIFTと離散SP-Symmetryによる画像ボリュームの登録

Registering Image Volumes using 3D SIFT and Discrete SP-Symmetry ( http://arxiv.org/abs/2205.15456v1 )

ライセンス: CC BY-SA 4.0
Laurent Chauvin, William Wells III and Matthew Toews(参考訳) 本稿では,空間軸の逆転や画像コントラストを含む離散対称性に不変な局所像特徴を3次元に拡張することを提案する。 二項特徴符号 $s \in \{-1,+1\}$ はラプラシア作用素 $\nabla^2$ の符号として定義され、画像符号逆変換 $s \rightarrow -s$ および 3dパリティ変換 $(x,y,z)\rightarrow(-x,-y,-z)$,すなわちsp-invariant または sp-symmetric に不変な記述子を得るのに使用される。 sp対称性は任意のスカラー画像フィールド$i: r^3 \rightarrow r^1$ mapping 3d coordinates $(x,y,z) \in r^3$ to scalar intensity $i(x,y,z) \in r^1$に適用される。 特徴指向は、画像のコントラスト反転とは独立に、電位軸反射に対応する離散状態の集合としてモデル化される。 2つの一次軸ベクトルは画像観測から導出され、潜在的に反射を受け、第3軸は右手規則で定義される軸ベクトルである。 標準(位置、スケール、方向)の幾何学に加えて、符号による局所的特徴特性の増大は、座標反射や強度コントラスト反転に不変な記述子をもたらす。 特徴特性は、二項特徴対応モデルに基づいて、確率的点ベースを対称カーネルとして登録する。 良く知られたコヒーレント・ポイントドリフト(CPD)アルゴリズムを用いた実験により、SIFT-CPDカーネルは、異なる強度コントラストのMRIの複数のモード、腫瘍や閉塞などの異常な局所変化を含む、ヒトの脳とCT胸の最も正確かつ迅速な登録を達成することが示された。 sift-cpd画像登録は、入力データのグローバルスケーリング、回転および変換および画像強度インバージョンに不変である。

This paper proposes to extend local image features in 3D to include invariance to discrete symmetry including inversion of spatial axes and image contrast. A binary feature sign $s \in \{-1,+1\}$ is defined as the sign of the Laplacian operator $\nabla^2$, and used to obtain a descriptor that is invariant to image sign inversion $s \rightarrow -s$ and 3D parity transforms $(x,y,z)\rightarrow(-x,-y,-z)$, i.e. SP-invariant or SP-symmetric. SP-symmetry applies to arbitrary scalar image fields $I: R^3 \rightarrow R^1$ mapping 3D coordinates $(x,y,z) \in R^3$ to scalar intensity $I(x,y,z) \in R^1$, generalizing the well-known charge conjugation and parity symmetry (CP-symmetry) applying to elementary charged particles. Feature orientation is modeled as a set of discrete states corresponding to potential axis reflections, independently of image contrast inversion. Two primary axis vectors are derived from image observations and potentially subject to reflection, and a third axis is an axial vector defined by the right-hand rule. Augmenting local feature properties with sign in addition to standard (location, scale, orientation) geometry leads to descriptors that are invariant to coordinate reflections and intensity contrast inversion. Feature properties are factored in to probabilistic point-based registration as symmetric kernels, based on a model of binary feature correspondence. Experiments using the well-known coherent point drift (CPD) algorithm demonstrate that SIFT-CPD kernels achieve the most accurate and rapid registration of the human brain and CT chest, including multiple MRI modalities of differing intensity contrast, and abnormal local variations such as tumors or occlusions. SIFT-CPD image registration is invariant to global scaling, rotation and translation and image intensity inversions of the input data.
翻訳日:2022-06-02 06:46:59 公開日:2022-05-30
# (参考訳) 走査型プローブ顕微鏡のためのベイズ能動学習:ガウス過程から仮説学習へ

Bayesian Active Learning for Scanning Probe Microscopy: from Gaussian Processes to Hypothesis Learning ( http://arxiv.org/abs/2205.15458v1 )

ライセンス: CC BY 4.0
Maxim Ziatdinov, Yongtao Liu, Kyle Kelley, Rama Vasudevan, and Sergei V. Kalinin(参考訳) 近年の機械学習手法の進歩と、走査型プローブ顕微鏡(SPM)のためのプログラマブルインタフェースの登場により、科学界の注目の的となっているのは、自動顕微鏡と自律顕微鏡である。 しかし、自動顕微鏡の実現には、タスク固有の機械学習手法の開発、物理発見と機械学習の相互作用の理解、完全に定義された発見ワークフローが必要である。 これにより、実験目標を定義する報酬と、特定の実験プロトコルに変換可能な機械学習アルゴリズムとの、ドメイン科学者の物理的直観と事前知識のバランスが求められる。 本稿では,ベイズアクティブラーニングの基本原理を考察し,そのspmへの応用について述べる。 我々は、単純なデータ駆動法としてガウス過程から進歩し、物理モデルに対するベイジアン推論は、より複雑な深層学習法、構造化ガウス過程、仮説学習に適合する。 これらのフレームワークは、事前データの使用、スペクトルデータにエンコードされる特定の機能の発見、実験中に現れる物理法則の探索を可能にする。 議論された枠組みは、イメージングと分光法、SPM法、ナノインデンテーション、電子顕微鏡と分光法、化学イメージング法を組み合わせた全ての技術に普遍的に適用でき、特に破壊的あるいは不可逆的な測定に影響を及ぼす。

Recent progress in machine learning methods, and the emerging availability of programmable interfaces for scanning probe microscopes (SPMs), have propelled automated and autonomous microscopies to the forefront of attention of the scientific community. However, enabling automated microscopy requires the development of task-specific machine learning methods, understanding the interplay between physics discovery and machine learning, and fully defined discovery workflows. This, in turn, requires balancing the physical intuition and prior knowledge of the domain scientist with rewards that define experimental goals and machine learning algorithms that can translate these to specific experimental protocols. Here, we discuss the basic principles of Bayesian active learning and illustrate its applications for SPM. We progress from the Gaussian Process as a simple data-driven method and Bayesian inference for physical models as an extension of physics-based functional fits to more complex deep kernel learning methods, structured Gaussian Processes, and hypothesis learning. These frameworks allow for the use of prior data, the discovery of specific functionalities as encoded in spectral data, and exploration of physical laws manifesting during the experiment. The discussed framework can be universally applied to all techniques combining imaging and spectroscopy, SPM methods, nanoindentation, electron microscopy and spectroscopy, and chemical imaging methods, and can be particularly impactful for destructive or irreversible measurements.
翻訳日:2022-06-02 06:12:17 公開日:2022-05-30
# (参考訳) 批判的モンテカルロ

Critic Sequential Monte Carlo ( http://arxiv.org/abs/2205.15460v1 )

ライセンス: CC BY-SA 4.0
Vasileios Lioutas, Jonathan Wilder Lavington, Justice Sefas, Matthew Niedoba, Yunpeng Liu, Berend Zwartsenberg, Setareh Dabiri, Frank Wood, Adam Scibior(参考訳) 本稿では,ソフトq関数のヒューリスティックな要素を学習した逐次モンテカルロの合成から構築した推論として計画する新しいアルゴリズムである criticsmc を紹介する。 このアルゴリズムは、計算資源の効率的な利用と、厳しい制約から生じるような困難な報酬面を持つ環境においても、高い報酬軌道の効率的な発見につながる大量の仮定粒子の使用を可能にするように構成されている。 先行技術とは対照的に、我々のアプローチは、世界モデルがない場合にテスト時に暗黙のポリシーを使用できるという意味で、モデルなしの強化学習と相容れない。 シミュレーションにおける自走車衝突回避実験は, 軌道の多様性と現実性を維持しつつ, 計算量に対する非破壊的最小化の観点から, ベースラインに対する改善を示す。

We introduce CriticSMC, a new algorithm for planning as inference built from a novel composition of sequential Monte Carlo with learned soft-Q function heuristic factors. This algorithm is structured so as to allow using large numbers of putative particles leading to efficient utilization of computational resource and effective discovery of high reward trajectories even in environments with difficult reward surfaces such as those arising from hard constraints. Relative to prior art our approach is notably still compatible with model-free reinforcement learning in the sense that the implicit policy we produce can be used at test time in the absence of a world model. Our experiments on self-driving car collision avoidance in simulation demonstrate improvements against baselines in terms of infraction minimization relative to computational effort while maintaining diversity and realism of found trajectories.
翻訳日:2022-06-02 06:10:30 公開日:2022-05-30
# (参考訳) 逐次意思決定の因果説明のための統一フレームワーク

A Unifying Framework for Causal Explanation of Sequential Decision Making ( http://arxiv.org/abs/2205.15462v1 )

ライセンス: CC BY 4.0
Samer B. Nashed and Saaduddin Mahmud and Claudia V. Goldman and Shlomo Zilberstein(参考訳) 本稿では,確率的,逐次的な意思決定システムの因果的説明のための新しい枠組みを提案する。 因果推論のためのよく研究された構造因果モデルパラダイムに基づいて、単一の統一アプローチを用いて、エージェントアクションに対する意味的に異なる説明のタイプを特定する方法を示す。 このフレームワークの一般性、実行時のバウンダリ、およびいくつかの近似手法について結果を提供する。 最後に、フレームワークの柔軟性と有効性を示すいくつかの定性的なシナリオについて論じる。

We present a novel framework for causal explanations of stochastic, sequential decision-making systems. Building on the well-studied structural causal model paradigm for causal reasoning, we show how to identify semantically distinct types of explanations for agent actions using a single unified approach. We provide results on the generality of this framework, run time bounds, and offer several approximate techniques. Finally, we discuss several qualitative scenarios that illustrate the framework's flexibility and efficacy.
翻訳日:2022-06-02 05:42:23 公開日:2022-05-30
# (参考訳) マルチモーダル感性分析におけるモダリティロバスト性の解析

Analyzing Modality Robustness in Multimodal Sentiment Analysis ( http://arxiv.org/abs/2205.15465v1 )

ライセンス: CC BY-SA 4.0
Devamanyu Hazarika, Yingting Li, Bo Cheng, Shuai Zhao, Roger Zimmermann, Soujanya Poria(参考訳) 堅牢なマルチモーダルモデルの構築は,信頼性の高いデプロイメントを実現する上で極めて重要です。 その重要性にもかかわらず、マルチモーダル・センティメント・アナリティクス(MSA)モデルの堅牢性を特定し改善するためには、あまり注意が払われていない。 この研究で、私たちはそれを解決したいと考えています。 一 訓練されたマルチモーダルモデルにおけるモダリティロバスト性の簡易診断チェックの提供。 これらのチェックを用いて、MSAモデルは単一のモダリティに非常に敏感であることを発見し、その堅牢性に問題を引き起こす。 (ii)この問題を軽減するために,よく知られたロバストなトレーニング戦略を分析する。 批判的には、本来のパフォーマンスを損なうことなく、堅牢性を実現することができる。 5つのモデルと2つのベンチマークデータセットにわたる広範な研究成果と、提案された手順が、MSA研究において堅牢性を不可欠な要素にすることを期待しています。 診断チェックと堅牢なトレーニングソリューションは実装が簡単で、https://github.com/で利用可能です。 MSA-Robustness.com/declare-lab/MSA-Robustness。

Building robust multimodal models are crucial for achieving reliable deployment in the wild. Despite its importance, less attention has been paid to identifying and improving the robustness of Multimodal Sentiment Analysis (MSA) models. In this work, we hope to address that by (i) Proposing simple diagnostic checks for modality robustness in a trained multimodal model. Using these checks, we find MSA models to be highly sensitive to a single modality, which creates issues in their robustness; (ii) We analyze well-known robust training strategies to alleviate the issues. Critically, we observe that robustness can be achieved without compromising on the original performance. We hope our extensive study-performed across five models and two benchmark datasets-and proposed procedures would make robustness an integral component in MSA research. Our diagnostic checks and robust training solutions are simple to implement and available at https://github. com/declare-lab/MSA-Robustness.
翻訳日:2022-06-02 05:17:46 公開日:2022-05-30
# (参考訳) GCoNet+: より強力なグループ協調型オブジェクト検出器

GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector ( http://arxiv.org/abs/2205.15469v1 )

ライセンス: CC BY 4.0
Peng Zheng, Huazhu Fu, Deng-Ping Fan, Qi Fan, Jie Qin and Luc Van Gool(参考訳) 本稿では,gconet+と呼ばれる,自然場面における協調的物体を効果的かつ効率的に識別可能な,新しいエンドツーエンドグループ協調学習ネットワークを提案する。 提案したGCoNet+は、以下の2つの重要な基準に基づいて、マイニングコンセンサス表現により、コサリエントオブジェクト検出(CoSOD)のための新しい最先端性能を実現する。 1) 群内コンパクト性は, 群親和性モジュール (GAM) を用いて, 共塩性オブジェクト間の整合性をよりよく定式化する。 2) 新しいグループ協調モジュール(gcm)コンディショニングの導入により, 雑音が出力に与える影響を効果的に抑制できるグループ間分離性について検討した。 精度をさらに向上するため、我々は以下の一連の単純で効果的なコンポーネントを設計する。 一 モデル学習を意味レベルで促進する反復補助分類モジュール(RACM) 二 モデルが最終予測の質を向上させることを支援する信頼性向上モジュール(CEM) 三 より識別的特徴を学ぶためにモデルを導くグループベースの対称三重項損失(gst) CoCA、CoSOD3k、CoSal2015という3つの挑戦的なベンチマークに関する大規模な実験は、GCoNet+が既存の12の最先端モデルより優れていることを示した。 コードはhttps://github.com/ZhengPeng7/GCoNet_plusでリリースされた。

In this paper, we present a novel end-to-end group collaborative learning network, termed GCoNet+, which can effectively and efficiently (250 fps) identify co-salient objects in natural scenes. The proposed GCoNet+ achieves the new state-of-the-art performance for co-salient object detection (CoSOD) through mining consensus representations based on the following two essential criteria: 1) intra-group compactness to better formulate the consistency among co-salient objects by capturing their inherent shared attributes using our novel group affinity module (GAM); 2) inter-group separability to effectively suppress the influence of noisy objects on the output by introducing our new group collaborating module (GCM) conditioning on the inconsistent consensus. To further improve the accuracy, we design a series of simple yet effective components as follows: i) a recurrent auxiliary classification module (RACM) promoting the model learning at the semantic level; ii) a confidence enhancement module (CEM) helping the model to improve the quality of the final predictions; and iii) a group-based symmetric triplet (GST) loss guiding the model to learn more discriminative features. Extensive experiments on three challenging benchmarks, i.e., CoCA, CoSOD3k, and CoSal2015, demonstrate that our GCoNet+ outperforms the existing 12 cutting-edge models. Code has been released at https://github.com/ZhengPeng7/GCoNet_plus.
翻訳日:2022-06-02 05:07:49 公開日:2022-05-30
# 局所投票法による分断3次元点雲の幾何学的プリミティブの適合と認識

Fitting and recognition of geometric primitives in segmented 3D point clouds using a localized voting procedure ( http://arxiv.org/abs/2205.15426v1 )

ライセンス: Link先を確認
Andrea Raffo, Chiara Romanengo, Bianca Falcidieno, Silvia Biasotti(参考訳) 点雲からの幾何学的モデルの自動生成はcad(リバースエンジニアリング、製造、組み立てなど)や、より一般的には形状モデリングや処理において多くの応用がある。 人造物体を表す分節点雲が与えられると、簡単な幾何学的プリミティブとその相互関係を認識する方法を提案する。 我々のアプローチはhough変換(hough transform:ht)に基づいており、ノイズ、欠落部分、異常値を扱うことができる。 提案手法では,各プリミティブタイプを特徴付ける幾何パラメータの初期推定を可能にするために,投票手続きを通じてセグメント化ポイントクラウドを処理する新しい手法を提案する。 これらの推定を用いて、次元還元されたパラメータ空間における最適解の探索をローカライズすることにより、平面や球面といった文献で一般的に見られるものよりも HT をよりプリミティブに拡張することが効率的になる。 次に,セグメントを一意に特徴付ける幾何的記述子を抽出し,これらの記述子に基づいて,プリミティブの部分(セグメント)を集約する方法を示す。 合成および工業用走査法における実験により, 初期フィッティング法のロバスト性, セグメント間の関係を推定する効果が明らかになった。

The automatic creation of geometric models from point clouds has numerous applications in CAD (e.g., reverse engineering, manufacturing, assembling) and, more in general, in shape modelling and processing. Given a segmented point cloud representing a man-made object, we propose a method for recognizing simple geometric primitives and their interrelationships. Our approach is based on the Hough transform (HT) for its ability to deal with noise, missing parts and outliers. In our method we introduce a novel technique for processing segmented point clouds that, through a voting procedure, is able to provide an initial estimate of the geometric parameters characterizing each primitive type. By using these estimates, we localize the search of the optimal solution in a dimensionally-reduced parameter space thus making it efficient to extend the HT to more primitives than those that are generally found in the literature, i.e. planes and spheres. Then, we extract a number of geometric descriptors that uniquely characterize a segment, and, on the basis of these descriptors, we show how to aggregate parts of primitives (segments). Experiments on both synthetic and industrial scans reveal the robustness of the primitive fitting method and its effectiveness for inferring relations among segments.
翻訳日:2022-06-01 15:37:00 公開日:2022-05-30
# 喘息治療適応のためのオーディオパターン認識の再検討:RDAベンチマークスイートによる評価

Revisiting Audio Pattern Recognition for Asthma Medication Adherence: Evaluation with the RDA Benchmark Suite ( http://arxiv.org/abs/2205.15360v1 )

ライセンス: Link先を確認
Nikos D. Fakotakis, Stavros Nousias, Gerasimos Arvanitis, Evangelia I. Zacharaki, Konstantinos Moustakas(参考訳) 喘息は一般的には長期の呼吸器疾患であり、社会や経済に悪影響を及ぼす。 治療には、気道に薬を分配する医療機器(吸入器)を使用し、その効率は吸入技術の精度に依存する。 センサを備えた健康モニタリングシステムと音声信号検出システムにより、薬物の作動を認識することができ、信頼性の高いオーディオコンテンツ分析のための強力なツールとなる可能性がある。 本稿では,喘息薬の付着度評価のための音声パターン認識と機械学習手法を再検討し,rdaスイート(https://gitlab.com/vvr/monitoring-medication-adherence/rda-benchmark)を提案する。 rdaスイートには、オーディオ処理、特徴抽出、分類のための一連のツールが含まれており、呼吸と薬物の作動音からなるデータセットを提供する。 RDAの分類モデルは、従来の機械学習とディープネットワークアーキテクチャに基づいて実装されている。 本研究は,実装手法の比較評価を行い,潜在的な改善について検討し,課題と今後の傾向について考察する。

Asthma is a common, usually long-term respiratory disease with negative impact on society and the economy worldwide. Treatment involves using medical devices (inhalers) that distribute medication to the airways, and its efficiency depends on the precision of the inhalation technique. Health monitoring systems equipped with sensors and embedded with sound signal detection enable the recognition of drug actuation and could be powerful tools for reliable audio content analysis. This paper revisits audio pattern recognition and machine learning techniques for asthma medication adherence assessment and presents the Respiratory and Drug Actuation (RDA) Suite(https://gitlab.com/vvr/monitoring-medication-adherence/rda-benchmark) for benchmarking and further research. The RDA Suite includes a set of tools for audio processing, feature extraction and classification and is provided along with a dataset consisting of respiratory and drug actuation sounds. The classification models in RDA are implemented based on conventional and advanced machine learning and deep network architectures. This study provides a comparative evaluation of the implemented approaches, examines potential improvements and discusses challenges and future tendencies.
翻訳日:2022-06-01 15:36:05 公開日:2022-05-30
# Guided-TTS 2:非転写データを用いた高品質適応音声の拡散モデル

Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data ( http://arxiv.org/abs/2205.15370v1 )

ライセンス: Link先を確認
Sungwon Kim, Heeseung Kim and Sungroh Yoon(参考訳) 非転写データを用いた高品質適応TSのための拡散モデルである Guided-TTS 2 を提案する。 Guided-TTS 2は、話者条件拡散モデルと適応テキスト音声のための話者依存音素分類器を組み合わせる。 本研究では, 大規模無転写データセット上での話者条件拡散モデルを訓練し, さらに, 40秒で対応可能なターゲット話者の参照音声上での拡散モデルを微調整する。 Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TSベースラインに匹敵する性能を示した。 Guided-TTS 2は、ゼロショット適応設定でも、マルチ話者データセット上で適応的TSベースラインより優れていることを示す。 Guided-TTS 2は、転写されていない音声のみを使用して幅広い声に適応できるため、Gollum in \textit{"The Lord of the Rings"} のような非人間的文字の音声で適応TTSを可能にする。

We propose Guided-TTS 2, a diffusion-based generative model for high-quality adaptive TTS using untranscribed data. Guided-TTS 2 combines a speaker-conditional diffusion model with a speaker-dependent phoneme classifier for adaptive text-to-speech. We train the speaker-conditional diffusion model on large-scale untranscribed datasets for a classifier-free guidance method and further fine-tune the diffusion model on the reference speech of the target speaker for adaptation, which only takes 40 seconds. We demonstrate that Guided-TTS 2 shows comparable performance to high-quality single-speaker TTS baselines in terms of speech quality and speaker similarity with only a ten-second untranscribed data. We further show that Guided-TTS 2 outperforms adaptive TTS baselines on multi-speaker datasets even with a zero-shot adaptation setting. Guided-TTS 2 can adapt to a wide range of voices only using untranscribed speech, which enables adaptive TTS with the voice of non-human characters such as Gollum in \textit{"The Lord of the Rings"}.
翻訳日:2022-06-01 15:16:15 公開日:2022-05-30
# 2段階推薦システム第一段階の公平性

Fairness in the First Stage of Two-Stage Recommender Systems ( http://arxiv.org/abs/2205.15436v1 )

ライセンス: Link先を確認
Lequn Wang and Thorsten Joachims(参考訳) 多くの大規模レコメンデーションシステムは2つの段階から構成されており、第1段階は、最終レコメンデーションをキュレートする第2段階モデルのための巨大なアイテムプールから、有望な候補の小さなサブセットを効率的に生成することに焦点を当てている。 本稿では,この2段階パラダイムの項目に対してグループフェアネスを確保する方法について検討する。 特に,既存の第1段階の推薦者は,不公平な候補を選ぶ可能性があり,第2段階の推薦者が公正な推薦を行う見込みがない。 そこで本稿では,クエリや項目の関連性モデルと,各ポリシーに期待される項目数に限定したポイントワイドな信頼度を条件として,各項目群から十分な関連項目を含む候補をほぼ最適に選択する2つのしきい値選択ルールを提案する。 ルールをインスタンス化するために,多数の大規模レコメンデータシステムに多い部分的および偏りのあるユーザフィードバックデータから,そのような信頼性境界を導出する方法を実証する。 さらに、2つのしきい値選択規則が最適しきい値にどの程度近いかの有限サンプルと漸近解析の両方を提供する。 この理論解析の他に、これらの2つのルールは、幅広い設定の候補セットのサイズを最小化しながら、各グループから十分な関連項目を一貫して選択できることを示す。

Many large-scale recommender systems consist of two stages, where the first stage focuses on efficiently generating a small subset of promising candidates from a huge pool of items for the second-stage model to curate final recommendations from. In this paper, we investigate how to ensure groups fairness to the items in this two-stage paradigm. In particular, we find that existing first-stage recommenders might select an irrecoverably unfair set of candidates such that there is no hope for the second-stage recommender to deliver fair recommendations. To this end, we propose two threshold-policy selection rules that, given any relevance model of queries and items and a point-wise lower confidence bound on the expected number of relevant items for each policy, find near-optimal sets of candidates that contain enough relevant items in expectation from each group of items. To instantiate the rules, we demonstrate how to derive such confidence bounds from potentially partial and biased user feedback data, which are abundant in many large-scale recommender systems. In addition, we provide both finite-sample and asymptotic analysis of how close the two threshold selection rules are to the optimal thresholds. Beyond this theoretical analysis, we show empirically that these two rules can consistently select enough relevant items from each group while minimizing the size of the candidate sets for a wide range of settings.
翻訳日:2022-06-01 15:15:38 公開日:2022-05-30
# 一般変圧器の注意流

Attention Flows for General Transformers ( http://arxiv.org/abs/2205.15389v1 )

ライセンス: Link先を確認
Niklas Metzger, Christopher Hahn, Julian Siber, Frederik Schmitt, Bernd Finkbeiner(参考訳) 本稿では,Transformerモデルにおける入力トークンが,その予測にどの程度影響するかを計算する。 本稿では,エンコーダのみのトランスフォーマーモデルの注目値からフローネットワークを構築する手法を定式化し,自動回帰デコーダを含む一般的なトランスフォーマーアーキテクチャに拡張する。 フローネットワーク構築における最大フローアルゴリズムの実行は,協調ゲーム理論におけるプレイヤーの影響を決定するShapley値が得られることを示す。 フローネットワーク内の入力トークンをプレイヤーとして解釈することにより、デコーダの決定につながる全注目フローへの影響を計算することができる。 さらに,任意のトランスフォーマーモデルのアテンションフローを計算し,可視化するライブラリを提供する。 自然言語処理と推論タスクを訓練した様々なモデルにおける実装の有用性を示す。

In this paper, we study the computation of how much an input token in a Transformer model influences its prediction. We formalize a method to construct a flow network out of the attention values of encoder-only Transformer models and extend it to general Transformer architectures including an auto-regressive decoder. We show that running a maxflow algorithm on the flow network construction yields Shapley values, which determine the impact of a player in cooperative game theory. By interpreting the input tokens in the flow network as players, we can compute their influence on the total attention flow leading to the decoder's decision. Additionally, we provide a library that computes and visualizes the attention flow of arbitrary Transformer models. We show the usefulness of our implementation on various models trained on natural language processing and reasoning tasks.
翻訳日:2022-06-01 14:55:51 公開日:2022-05-30
# 一般費用関数を用いた神経最適輸送

Neural Optimal Transport with General Cost Functionals ( http://arxiv.org/abs/2205.15403v1 )

ライセンス: Link先を確認
Arip Asadulaev, Alexander Korotin, Vage Egiazarian, Evgeny Burnaev(参考訳) 一般費用関数のための最適輸送計画とマップを計算するためのニューラルネットワークに基づく新しいアルゴリズムを提案する。 このアルゴリズムは、OT問題のサドル点再構成に基づいており、弱い高コスト関数に対する以前のOT法を一般化する。 アプリケーションとして,データのクラス構造を保ちながら,データ分布をマップする機能を構築する。

We present a novel neural-networks-based algorithm to compute optimal transport (OT) plans and maps for general cost functionals. The algorithm is based on a saddle point reformulation of the OT problem and generalizes prior OT methods for weak and strong cost functionals. As an application, we construct a functional to map data distributions with preserving the class-wise structure of data.
翻訳日:2022-06-01 14:55:34 公開日:2022-05-30
# 立体バイアスサンプリングによるSHAPの食品化

Fooling SHAP with Stealthily Biased Sampling ( http://arxiv.org/abs/2205.15419v1 )

ライセンス: Link先を確認
Gabriel Laberge, Ulrich A\"ivodji and Satoshi Hara(参考訳) SHAPの説明は、特定の入力におけるモデル予測と背景分布との差に最も寄与する特徴を特定することを目的としている。 近年の研究では、悪意のある敵によって操作され、任意の望ましい説明を生み出すことが示されている。 しかし、既存の攻撃はブラックボックスモデル自体の変更のみに焦点を当てている。 本稿では,背景分布を推定するために使用されるデータポイントのひっそりと偏りのあるサンプリングを用いて,モデルが無傷でシェープ説明を操作できる攻撃の相補的なファミリーを提案する。 フェアネス監査の文脈では、検出されていないままのグループ間の結果の違いを説明する際に、攻撃によって機密性の重要性が低下することを示す。 これらの結果は、SHAP説明の操作性を強調し、監査人に懐疑論によるポストホック説明の扱いを促す。

SHAP explanations aim at identifying which features contribute the most to the difference in model prediction at a specific input versus a background distribution. Recent studies have shown that they can be manipulated by malicious adversaries to produce arbitrary desired explanations. However, existing attacks focus solely on altering the black-box model itself. In this paper, we propose a complementary family of attacks that leave the model intact and manipulate SHAP explanations using stealthily biased sampling of the data points used to approximate expectations w.r.t the background distribution. In the context of fairness audit, we show that our attack can reduce the importance of a sensitive feature when explaining the difference in outcomes between groups, while remaining undetected. These results highlight the manipulability of SHAP explanations and encourage auditors to treat post-hoc explanations with skepticism.
翻訳日:2022-06-01 14:55:28 公開日:2022-05-30
# ドメイン適応のための対向攻撃と最適トランスポートの接続

Connecting adversarial attacks and optimal transport for domain adaptation ( http://arxiv.org/abs/2205.15424v1 )

ライセンス: Link先を確認
Arip Asadulaev, Vitaly Shutov, Alexander Korotin, Alexander Panfilov, Andrey Filchenkov(参考訳) 最適輸送を用いた領域適応のための新しいアルゴリズムを提案する。 ドメイン適応では、ソースドメインのサンプルでトレーニングされた分類器をターゲットドメインに適応させることが目標です。 提案手法では,ターゲットサンプルをソースフィクションというドメインにマッピングするために最適なトランスポートを用いる。 このドメインはソースと異なるが、ソースドメイン分類器によって正確に分類される。 我々の主なアイデアは、ターゲットドメイン上のc-環状モノトン変換によってソースフィクションを生成することである。 2つのドメインに同じラベルを持つサンプルがc-巡回単調であれば、これらのドメイン間の最適なトランスポートマップは、ドメイン適応の主要な目標であるクラスワイズ構造を保存する。 ソース・フィクション・ドメインを生成するために,我々は,逆攻撃がデータセットのc-巡回単調変換であることを示すアルゴリズムを提案する。 デジタルデジットと最新のoffice-31データセットの実験を行い、全ての適応タスクに対する単純な離散的最適トランスポートソルバの性能向上を達成する。

We present a novel algorithm for domain adaptation using optimal transport. In domain adaptation, the goal is to adapt a classifier trained on the source domain samples to the target domain. In our method, we use optimal transport to map target samples to the domain named source fiction. This domain differs from the source but is accurately classified by the source domain classifier. Our main idea is to generate a source fiction by c-cyclically monotone transformation over the target domain. If samples with the same labels in two domains are c-cyclically monotone, the optimal transport map between these domains preserves the class-wise structure, which is the main goal of domain adaptation. To generate a source fiction domain, we propose an algorithm that is based on our finding that adversarial attacks are a c-cyclically monotone transformation of the dataset. We conduct experiments on Digits and Modern Office-31 datasets and achieve improvement in performance for simple discrete optimal transport solvers for all adaptation tasks.
翻訳日:2022-06-01 14:54:33 公開日:2022-05-30
# FBM:Mixed-Precision Quantizationのための高速ビット割り当て

FBM: Fast-Bit Allocation for Mixed-Precision Quantization ( http://arxiv.org/abs/2205.15437v1 )

ライセンス: Link先を確認
Moshe Kimhi, Tal Rozen, Tal Kopetz, Olya Sirkin, Avi Mendelson, Chaim Baskin(参考訳) 量子化されたニューラルネットワークは、精度を著しく低下させることなくレイテンシ、消費電力、モデルサイズを減らすことでよく知られており、リソースの少ないシステムや低消費電力システムに適用できる。 混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズハードウェアのより良い利用を提供する。 既存の混合精密スキームは、高い探検空間を持つことに依存しているため、カーボンフットプリントが大きくなる。 さらに、これらのビット割り当て戦略は、特定のハードウェア上でのニューラルネットワークデプロイメントのパフォーマンスを活用するのではなく、モデルサイズに対する制約を主に引き起こす。 そこで本研究では,混合精度量子化(fbm)のための高速ビット割り当てを提案する。 超低ビット幅の混合精度量子化におけるビット割り当ての動的遷移は性能劣化に苦しむことが知られているが、このような遷移から高速に回復する解を示す。 CIFAR-10 と ImageNet における提案手法の総合評価は,ニューラルネットワークの精度とハードウェア効率のトレードオフの観点から,現在の最先端方式よりも優れていることを示す。 ソースコード、実験的設定、量子化モデルはhttps://github.com/RamorayDrake/FBM/で利用可能です。

Quantized neural networks are well known for reducing latency, power consumption, and model size without significant degradation in accuracy, making them highly applicable for systems with limited resources and low power requirements. Mixed precision quantization offers better utilization of customized hardware that supports arithmetic operations at different bitwidths. Existing mixed-precision schemes rely on having a high exploration space, resulting in a large carbon footprint. In addition, these bit allocation strategies mostly induce constraints on the model size rather than utilizing the performance of neural network deployment on specific hardware. Our work proposes Fast-Bit Allocation for Mixed-Precision Quantization (FBM), which finds an optimal bitwidth allocation by measuring desired behaviors through a simulation of a specific device, or even on a physical one. While dynamic transitions of bit allocation in mixed precision quantization with ultra-low bitwidth are known to suffer from performance degradation, we present a fast recovery solution from such transitions. A comprehensive evaluation of the proposed method on CIFAR-10 and ImageNet demonstrates our method's superiority over current state-of-the-art schemes in terms of the trade-off between neural network accuracy and hardware efficiency. Our source code, experimental settings and quantized models are available at https://github.com/RamorayDrake/FBM/
翻訳日:2022-06-01 14:54:17 公開日:2022-05-30
# MVMO:ワイドベースライン多視点セマンティックセマンティックセグメンテーションのためのマルチオブジェクトデータセット

MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic Segmentation ( http://arxiv.org/abs/2205.15452v1 )

ライセンス: Link先を確認
Aitor Alvarez-Gila, Joost van de Weijer, Yaxing Wang, Estibaliz Garrote(参考訳) MVMO (Multi-View, Multi-Object dataset): 10個の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。 MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。 既存のマルチビューデータセットとは異なり、MVMOはカメラ間の幅広いベースラインと高密度のオブジェクトを備えており、大きな格差、重い閉塞、ビュー依存オブジェクトの外観をもたらす。 単一ビューセマンティックセグメンテーションは、追加の視点から恩恵を受けることができる自己およびオブジェクト間オクルージョンによって妨げられる。 したがって、mvmoはマルチビューセマンティクスセグメンテーションとクロスビューセマンティクス転送の研究を促進することを期待している。 また,マルチビュー設定の補完的情報を活用するためには,新たな研究が必要であることを示すベースラインを提供する。

We present MVMO (Multi-View, Multi-Object dataset): a synthetic dataset of 116,000 scenes containing randomly placed objects of 10 distinct classes and captured from 25 camera locations in the upper hemisphere. MVMO comprises photorealistic, path-traced image renders, together with semantic segmentation ground truth for every view. Unlike existing multi-view datasets, MVMO features wide baselines between cameras and high density of objects, which lead to large disparities, heavy occlusions and view-dependent object appearance. Single view semantic segmentation is hindered by self and inter-object occlusions that could benefit from additional viewpoints. Therefore, we expect that MVMO will propel research in multi-view semantic segmentation and cross-view semantic transfer. We also provide baselines that show that new research is needed in such fields to exploit the complementary information of multi-view setups.
翻訳日:2022-06-01 14:20:30 公開日:2022-05-30
# 真に決定論的政策最適化

Truly Deterministic Policy Optimization ( http://arxiv.org/abs/2205.15379v1 )

ライセンス: Link先を確認
Ehsan Saleh, Saba Ghaffari, Timothy Bretl, Matthew West(参考訳) 本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。 ノイズ注入を避けることで、決定論的力学(初期状態分布まで)を持つシステムにおいて、全ての推定分散源を排除できる。 KLの発散のような従来の非計量測度を用いることで決定論的ポリシー正則化は不可能であるため、我々はワッサーシュタインに基づく二次モデルを導出する。 我々は,単調な政策改善保証を確立することが可能なシステムモデル上の条件を述べるとともに,政策勾配推定のためのサロゲート関数を提案し,状態遷移モデルと方針が決定論的であれば,正確な有利な推定を計算可能であることを示す。 最後に,2つの新しいロボット制御環境について述べる。1つは周波数領域に非局所的な報酬が与えられ,もう1つは長地平線(8000時間ステップ)を持つもので,その場合のポリシー勾配法(tdpo)は既存の手法(ppo,trpo,ddpg,td3)を大きく上回っている。 実験的な設定はすべて、https://github.com/ehsansaleh/code_tdpoで実装できます。

In this paper, we present a policy gradient method that avoids exploratory noise injection and performs policy search over the deterministic landscape. By avoiding noise injection all sources of estimation variance can be eliminated in systems with deterministic dynamics (up to the initial state distribution). Since deterministic policy regularization is impossible using traditional non-metric measures such as the KL divergence, we derive a Wasserstein-based quadratic model for our purposes. We state conditions on the system model under which it is possible to establish a monotonic policy improvement guarantee, propose a surrogate function for policy gradient estimation, and show that it is possible to compute exact advantage estimates if both the state transition model and the policy are deterministic. Finally, we describe two novel robotic control environments -- one with non-local rewards in the frequency domain and the other with a long horizon (8000 time-steps) -- for which our policy gradient method (TDPO) significantly outperforms existing methods (PPO, TRPO, DDPG, and TD3). Our implementation with all the experimental settings is available at https://github.com/ehsansaleh/code_tdpo
翻訳日:2022-06-01 13:57:42 公開日:2022-05-30
# TubeFormer-DeepLab: ビデオマスクトランス

TubeFormer-DeepLab: Video Mask Transformer ( http://arxiv.org/abs/2205.15361v1 )

ライセンス: Link先を確認
Dahun Kim, Jun Xie, Huiyu Wang, Siyuan Qiao, Qihang Yu, Hong-Seok Kim, Hartwig Adam, In So Kweon and Liang-Chieh Chen(参考訳) 我々は,複数のコアビデオセグメンテーションタスクを統一的に取り組もうとする最初の試みである tubeformer-deeplab を提案する。 異なるビデオセグメンテーションタスク(例えば、ビデオセグメンテーション/instance/panoptic segmentation)は通常、異なる問題とみなされる。 異なるコミュニティで採用されている最先端のモデルが多様化し、それぞれのタスクにおいて根本的に異なるアプローチが支配されている。 対照的に、ビデオセグメンテーションタスクは、ビデオチューブ(時間軸に沿ってセグメンテーションマスクをリンクすることでチューブが得られる)に異なる予測ラベルを割り当てる問題として、一般的に定式化することができ、ラベルは対象タスクに応じて異なる値をエンコードすることができる。 この観察は、複数のビデオセグメンテーションタスクに広く適用可能な、単純で効果的なビデオマスクトランスフォーマーモデルである tubeformer-deeplab の開発を動機付ける。 TubeFormer-DeepLabは、ビデオセグメンテーションモデルを著しく単純化するだけでなく、複数のビデオセグメンテーションベンチマークにおいて、タスク固有のラベル(純粋なセグメンテーションカテゴリ、またはセグメンテーションカテゴリとインスタンスアイデンティティの両方)によるビデオチューブを直接予測する。

We present TubeFormer-DeepLab, the first attempt to tackle multiple core video segmentation tasks in a unified manner. Different video segmentation tasks (e.g., video semantic/instance/panoptic segmentation) are usually considered as distinct problems. State-of-the-art models adopted in the separate communities have diverged, and radically different approaches dominate in each task. By contrast, we make a crucial observation that video segmentation tasks could be generally formulated as the problem of assigning different predicted labels to video tubes (where a tube is obtained by linking segmentation masks along the time axis) and the labels may encode different values depending on the target task. The observation motivates us to develop TubeFormer-DeepLab, a simple and effective video mask transformer model that is widely applicable to multiple video segmentation tasks. TubeFormer-DeepLab directly predicts video tubes with task-specific labels (either pure semantic categories, or both semantic categories and instance identities), which not only significantly simplifies video segmentation models, but also advances state-of-the-art results on multiple video segmentation benchmarks
翻訳日:2022-06-01 13:50:56 公開日:2022-05-30
# LiDAR補助慣性電位:疎慣性・LiDARセンサによる大規模人体運動キャプチャー

LiDAR-aid Inertial Poser: Large-scale Human Motion Capture by Sparse Inertial and LiDAR Sensors ( http://arxiv.org/abs/2205.15410v1 )

ライセンス: Link先を確認
Chengfeng Zhao, Yiming Ren, Yannan He, Peishan Cong, Han Liang, Jingyi Yu, Lan Xu, Yuexin Ma(参考訳) 大規模シナリオにおいて,1つのLiDARと4つのIMUを用いて,高精度な局所的なポーズとグローバルな軌跡を持つ3次元人間の動作を捉えるマルチセンサ融合法を提案する。 具体的には、LiDARが捉えたグローバルジオメトリ情報とIMUが捉えた局所運動をフル活用するために、2段階のポーズ推定器を粗大な方法で設計し、点雲が粗大な体形を提供し、IMUが局所的な動作を最適化する。 さらに,視点依存部分点雲による翻訳偏差を考慮し,ポーズ案内翻訳補正器を提案する。 捕獲された点と実際の根の位置のずれを予測し、連続した動きと軌道をより正確に自然なものにする。 広範に定量的および定性的な実験は、大規模シナリオにおける魅力的なモーションキャプチャーに対する我々のアプローチの能力を実証する。 コードとキャプチャデータセットを公開して、将来の研究を刺激します。

We propose a multi-sensor fusion method for capturing challenging 3D human motions with accurate consecutive local poses and global trajectories in large-scale scenarios, only using a single LiDAR and 4 IMUs. Specifically, to fully utilize the global geometry information captured by LiDAR and local dynamic motions captured by IMUs, we design a two-stage pose estimator in a coarse-to-fine manner, where point clouds provide the coarse body shape and IMU measurements optimize the local actions. Furthermore, considering the translation deviation caused by the view-dependent partial point cloud, we propose a pose-guided translation corrector. It predicts the offset between captured points and the real root locations, which makes the consecutive movements and trajectories more precise and natural. Extensive quantitative and qualitative experiments demonstrate the capability of our approach for compelling motion capture in large-scale scenarios, which outperforms other methods by an obvious margin. We will release our code and captured dataset to stimulate future research.
翻訳日:2022-06-01 13:50:34 公開日:2022-05-30
# HeatER:Heatmap-based Transformerによる人体再建のための効率的で統一されたネットワーク

HeatER: An Efficient and Unified Network for Human Reconstruction via Heatmap-based TransformER ( http://arxiv.org/abs/2205.15448v1 )

ライセンス: Link先を確認
Ce Zheng, Matias Mendieta, Taojiannan Yang, Chen Chen(参考訳) 近年,人間の2次元ポーズ推定(2次元HPE),3次元ポーズ推定(3次元HPE),ヒューマンメッシュ再構築(HMR)タスクにおいて大きな成功を収めている。 これらのタスクでは、人間の構造情報のヒートマップ表現は、まずcnnによって画像から抽出され、さらにトランスフォーマーアーキテクチャで処理され、最終的なhpeまたはhmr推定を提供する。 しかし、既存のトランスフォーマーアーキテクチャはこれらのヒートマップ入力を直接処理することができず、入力の前に特徴の非自然な平坦化を強制する。 さらに、最近のHPE法とHMR法の性能上の利点は、計算量とメモリ需要が継続的に増加することにある。 そこで本研究では,メモリと計算コストを低減しつつ,熱マップ表現の固有構造をモデル化する際に保存する新しいトランスフォーマーであるheaterを提案する。 HeatERを利用して、2D HPE, 3D HPE, HMRタスクのための統一的で効率的なネットワークを構築する。 熱マップ再構成モジュールを適用し、推定された人間のポーズとメッシュの堅牢性を改善する。 広範囲な実験により、ヒーターが様々な人間のポーズやメッシュデータセットに与える影響が示されている。 例えばHeatherは、Human3.6Mと3DPWデータセット上でのParamsの5%とMACの16%を必要とすることで、SOTA法であるMeshGraphormerより優れている。 コードは公開されます。

Recently, vision transformers have shown great success in 2D human pose estimation (2D HPE), 3D human pose estimation (3D HPE), and human mesh reconstruction (HMR) tasks. In these tasks, heatmap representations of the human structural information are often extracted first from the image by a CNN, and then further processed with a transformer architecture to provide the final HPE or HMR estimation. However, existing transformer architectures are not able to process these heatmap inputs directly, forcing an unnatural flattening of the features prior to input. Furthermore, much of the performance benefit in recent HPE and HMR methods has come at the cost of ever-increasing computation and memory needs. Therefore, to simultaneously address these problems, we propose HeatER, a novel transformer design which preserves the inherent structure of heatmap representations when modeling attention while reducing the memory and computational costs. Taking advantage of HeatER, we build a unified and efficient network for 2D HPE, 3D HPE, and HMR tasks. A heatmap reconstruction module is applied to improve the robustness of the estimated human pose and mesh. Extensive experiments demonstrate the effectiveness of HeatER on various human pose and mesh datasets. For instance, HeatER outperforms the SOTA method MeshGraphormer by requiring 5% of Params and 16% of MACs on Human3.6M and 3DPW datasets. Code will be publicly available.
翻訳日:2022-06-01 13:28:29 公開日:2022-05-30
# 点字読解:ニューロモルフィックハードウェアにおける時空間パターン認識のためのベンチマーク

Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern Recognition on Neuromorphic Hardware ( http://arxiv.org/abs/2205.15864v1 )

ライセンス: Link先を確認
Simon F Muller-Cleve, Vittorio Fra, Lyes Khacef, Alejandro Pequeno-Zurro, Daniel Klepatsch, Evelina Forno, Diego G Ivanovich, Shavika Rastogi, Gianvito Urgese, Friedemann Zenke, Chiara Bartolozzi(参考訳) 時空間パターン認識は、多くの現実世界の応用に必要とされる脳の基本能力である。 近年の深層学習の手法は,そのようなタスクにおいて顕著な精度を達成しているが,従来の組込みソリューションへの実装はいまだに非常に計算量が多く,エネルギーコストも高い。 ロボット応用における触覚は、リアルタイム処理とエネルギー効率が要求される典型的な例である。 脳にインスパイアされたコンピューティングアプローチに従って,点字文字読取によるエッジにおける時空間触覚パターン認識の新しいベンチマークを提案する。 icubロボットの静電容量型触覚センサ/fingertipに基づく新しい点字文字データセットを作成し,スパイクベース/イベントベース計算における時間情報の重要性とイベントエンコーディングの影響について検討した。 その後、サロゲート勾配によるバックプロパゲーションを用いてフィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)をオフラインでトレーニング、比較し、高速かつ効率的な推論のためにIntel Loihiニューロモルフィックチップにデプロイした。 我々は、標準分類器、特にNvidia Jetson GPUに実装されたLong Short-Term Memory(LSTM)に対して、分類精度、消費電力、計算遅延の観点から、我々のアプローチに直面した。 その結果,LSTMは再発SNNの精度を14%向上させることがわかった。 しかし、リカレントSNNはジェットソンのLSTMの237倍エネルギー効率が高く、平均出力は31mWである。 本研究は触覚センシングの新しいベンチマークを提案し、エッジにおける時空間パターン認識のためのイベントベースのエンコーディング、ニューロモルフィックハードウェア、スパイクベースのコンピューティングの課題と機会を強調する。

Spatio-temporal pattern recognition is a fundamental ability of the brain which is required for numerous real-world applications. Recent deep learning approaches have reached outstanding accuracy in such tasks, but their implementation on conventional embedded solutions is still very computationally and energy expensive. Tactile sensing in robotic applications is a representative example where real-time processing and energy-efficiency are required. Following a brain-inspired computing approach, we propose a new benchmark for spatio-temporal tactile pattern recognition at the edge through braille letters reading. We recorded a new braille letters dataset based on the capacitive tactile sensors/fingertip of the iCub robot, then we investigated the importance of temporal information and the impact of event-based encoding for spike-based/event-based computation. Afterwards, we trained and compared feed-forward and recurrent spiking neural networks (SNNs) offline using back-propagation through time with surrogate gradients, then we deployed them on the Intel Loihi neuromorphic chip for fast and efficient inference. We confronted our approach to standard classifiers, in particular to a Long Short-Term Memory (LSTM) deployed on the embedded Nvidia Jetson GPU in terms of classification accuracy, power/energy consumption and computational delay. Our results show that the LSTM outperforms the recurrent SNN in terms of accuracy by 14%. However, the recurrent SNN on Loihi is 237 times more energy-efficient than the LSTM on Jetson, requiring an average power of only 31mW. This work proposes a new benchmark for tactile sensing and highlights the challenges and opportunities of event-based encoding, neuromorphic hardware and spike-based computing for spatio-temporal pattern recognition at the edge.
翻訳日:2022-06-01 13:28:02 公開日:2022-05-30
# StyleTTS: 自然・多言語テキスト音声合成のためのスタイルベース生成モデル

StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis ( http://arxiv.org/abs/2205.15439v1 )

ライセンス: Link先を確認
Yinghao Aaron Li, Cong Han, Nima Mesgarani(参考訳) テキスト・トゥ・スペーチ(TTS)は最近、並列TSシステムの急速な発展による高品質な音声の合成において大きな進歩を見せているが、自然主義的韻律的バリエーション、話し方、感情的トーンによる音声の生成は依然として困難なままである。 さらに、時間と音声は別々に生成されるため、並列TSモデルは、自然な音声合成に不可欠な最良の単調アライメントを見つけるのに問題がある。 そこで本研究では,並列TTSのためのスタイルベース生成モデルであるStyleTTSを提案する。 トランスファーブル・モノトニック・アリグナー(TMA)と持続不変データ拡張方式により,本手法は音声の自然性および話者類似性の主観的テストにおいて,単一話者および複数話者データセットの最先端モデルよりも有意に優れる。 発話スタイルを自己教師付きで学習することで,これらのカテゴリーを明示的にラベル付けすることなく,任意の参照音声と同じ韻律的・感情的トーンで音声を合成できる。

Text-to-Speech (TTS) has recently seen great progress in synthesizing high-quality speech owing to the rapid development of parallel TTS systems, but producing speech with naturalistic prosodic variations, speaking styles and emotional tones remains challenging. Moreover, since duration and speech are generated separately, parallel TTS models still have problems finding the best monotonic alignments that are crucial for naturalistic speech synthesis. Here, we propose StyleTTS, a style-based generative model for parallel TTS that can synthesize diverse speech with natural prosody from a reference speech utterance. With novel Transferable Monotonic Aligner (TMA) and duration-invariant data augmentation schemes, our method significantly outperforms state-of-the-art models on both single and multi-speaker datasets in subjective tests of speech naturalness and speaker similarity. Through self-supervised learning of the speaking styles, our model can synthesize speech with the same prosodic and emotional tone as any given reference speech without the need for explicitly labeling these categories.
翻訳日:2022-06-01 13:27:28 公開日:2022-05-30
# マルチエージェントシステムにおけるリスク回避均衡の学習

Learning Risk-Averse Equilibria in Multi-Agent Systems ( http://arxiv.org/abs/2205.15434v1 )

ライセンス: Link先を確認
Oliver Slumbers, David Henry Mguni, Stephen McAleer, Jun Wang, Yaodong Yang(参考訳) 多エージェントシステムでは、知的エージェントは、他のエージェントのアクションが期待通りである場合に最適な結果をもたらす決定を行うとともに、予期しない振る舞いに備える。 そこで本研究では,学習者が期待値のレベルに応じた最小分散戦略を見つけることで予期せぬ行動に適応できる,新たなリスク回避型解法を提案する。 このようなリスク逆均衡の存在を証明し、特定のゲームクラス(例えばゼロサムやポテンシャル)で証明可能な収束保証を享受する小さなゲームに対して、架空の遊び型学習アルゴリズムを提案する。 さらに,リスク回避エージェント群を生成する反復的集団学習に基づく大規模ゲームに対する近似手法を提案する。 実験的に、我々の平衡は報酬の分散を低減できることが示されており、特に、非平衡の挙動は他の平衡の解よりもリスク-逆のエージェントへの影響がはるかに小さい。 重要となるのは,リスク回避均衡を近似するエージェント群が,特に安全対応マルチエージェントシステムに不可欠な最小レベルの性能を保証する場合において,対向する集団の存在において特に有効であることを示すことである。

In multi-agent systems, intelligent agents are tasked with making decisions that have optimal outcomes when the actions of the other agents are as expected, whilst also being prepared for unexpected behaviour. In this work, we introduce a new risk-averse solution concept that allows the learner to accommodate unexpected actions by finding the minimum variance strategy given any level of expected return. We prove the existence of such a risk-averse equilibrium, and propose one fictitious-play type learning algorithm for smaller games that enjoys provable convergence guarantees in certain games classes (e.g., zero-sum or potential). Furthermore, we propose an approximation method for larger games based on iterative population-based training that generates a population of risk-averse agents. Empirically, our equilibrium is shown to be able to reduce the reward variance, specifically in the sense that off-equilibrium behaviour has a far smaller impact on our risk-averse agents in comparison to playing other equilibrium solutions. Importantly, we show that our population of agents that approximate a risk-averse equilibrium is particularly effective in the presence of unseen opposing populations, especially in the case of guaranteeing a minimal level of performance which is critical to safety-aware multi-agent systems.
翻訳日:2022-06-01 13:26:44 公開日:2022-05-30
# 確率微分方程式の無限次元最適化とベイズ非パラメトリック学習

Infinite-dimensional optimization and Bayesian nonparametric learning of stochastic differential equations ( http://arxiv.org/abs/2205.15368v1 )

ライセンス: Link先を確認
Arnab Ganguly, Riten Mitra, Jinpu Zhou(参考訳) 論文には2つの主要なテーマがある。 論文の最初の部分はヒルベルト空間上の無限次元最適化問題に対するある種の一般結果を確立する。 これらの結果は古典的表現者定理とその変種の多くを特別な場合としてカバーし、より広い応用範囲を提供する。 論文の第2部では,第1部の結果をベイズ階層の枠組みに統合することにより,確率微分方程式のドリフト関数を学習するための体系的アプローチを開発した。 重要なことに、ベイズ的アプローチは、縮小前の適切な使用による低コストなスパース学習を取り入れ、後方分布による不確かさの適切な定量化を可能にしている。 最後に、学習方式の正確性を示すいくつかの例を挙げる。

The paper has two major themes. The first part of the paper establishes certain general results for infinite-dimensional optimization problems on Hilbert spaces. These results cover the classical representer theorem and many of its variants as special cases and offer a wider scope of applications. The second part of the paper then develops a systematic approach for learning the drift function of a stochastic differential equation by integrating the results of the first part with Bayesian hierarchical framework. Importantly, our Baysian approach incorporates low-cost sparse learning through proper use of shrinkage priors while allowing proper quantification of uncertainty through posterior distributions. Several examples at the end illustrate the accuracy of our learning scheme.
翻訳日:2022-06-01 13:23:38 公開日:2022-05-30
# 正則一般化線形モデル

Holistic Generalized Linear Models ( http://arxiv.org/abs/2205.15447v1 )

ライセンス: Link先を確認
Benjamin Schwendinger, Florian Schwendinger, Laura Vana(参考訳) 正則線型回帰は、モデル品質を改善するために設計された追加の制約を加えることによって、古典的最適部分集合選択問題を拡張する。 これらの制約には、スパーシリティ誘導制約、符号コヒーレンス制約、線形制約が含まれる。 the $\textsf{r}$ package $\texttt{holiglm}$ は、全体論的一般化線型モデルをモデル化し適合する機能を提供する。 最先端のコニック混合整数解法を利用することで、パッケージはガウス、二項、ポアソンの応答に対するGLMを、多数の全体的制約で確実に解ける。 ハイレベルなインターフェースは制約仕様を単純化し、$\texttt{stats::glm()}$関数のドロップイン代替として使用できる。

Holistic linear regression extends the classical best subset selection problem by adding additional constraints designed to improve the model quality. These constraints include sparsity-inducing constraints, sign-coherence constraints and linear constraints. The $\textsf{R}$ package $\texttt{holiglm}$ provides functionality to model and fit holistic generalized linear models. By making use of state-of-the-art conic mixed-integer solvers, the package can reliably solve GLMs for Gaussian, binomial and Poisson responses with a multitude of holistic constraints. The high-level interface simplifies the constraint specification and can be used as a drop-in replacement for the $\texttt{stats::glm()}$ function.
翻訳日:2022-06-01 13:23:28 公開日:2022-05-30
# ガウス過程における後処理と計算の不確かさ

Posterior and Computational Uncertainty in Gaussian Processes ( http://arxiv.org/abs/2205.15449v1 )

ライセンス: Link先を確認
Jonathan Wenger, Geoff Pleiss, Marvin Pf\"ortner, Philipp Hennig, John P. Cunningham(参考訳) gaussianプロセスはデータセットのサイズによって制限的にスケールする。 これに応答して、近似誤差を必然的に導入する多くの近似法が開発されている。 この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。 したがって、実際にはgpモデルはデータに関するものと同様に近似法に関するものが多い。 そこで本研究では,観測される有限個のデータと有限個の計算量の両方から生じる組合せ不確かさを一貫した評価を行う手法を開発した。 このクラスで最も一般的なGP近似は、例えば、コレスキー分解に基づく方法、共役勾配、点の誘導などである。 このクラスの任意のメソッドに対して、我々は証明する。 i) 関連するRKHSにおける後方平均値の収束 (ii)その後続共分散を数学的・計算的共分散に分解すること、及び 三 結合分散は、メソッドの後方平均と潜在関数の間の二乗誤差に対して、厳密な最悪のケースである。 最後に、計算の不確実性を無視した結果が実証的に示され、ベンチマークデータセットの一般化性能をいかに暗黙的にモデル化するかを示す。

Gaussian processes scale prohibitively with the size of the dataset. In response, many approximation methods have been developed, which inevitably introduce approximation error. This additional source of uncertainty, due to limited computation, is entirely ignored when using the approximate posterior. Therefore in practice, GP models are often as much about the approximation method as they are about the data. Here, we develop a new class of methods that provides consistent estimation of the combined uncertainty arising from both the finite number of data observed and the finite amount of computation expended. The most common GP approximations map to an instance in this class, such as methods based on the Cholesky factorization, conjugate gradients, and inducing points. For any method in this class, we prove (i) convergence of its posterior mean in the associated RKHS, (ii) decomposability of its combined posterior covariance into mathematical and computational covariances, and (iii) that the combined variance is a tight worst-case bound for the squared error between the method's posterior mean and the latent function. Finally, we empirically demonstrate the consequences of ignoring computational uncertainty and show how implicitly modeling it improves generalization performance on benchmark datasets.
翻訳日:2022-06-01 13:23:17 公開日:2022-05-30
# data banzhaf: 学習確率に対する最大ロバスト性を備えたデータ評価フレームワーク

Data Banzhaf: A Data Valuation Framework with Maximal Robustness to Learning Stochasticity ( http://arxiv.org/abs/2205.15466v1 )

ライセンス: Link先を確認
Tianhao Wang, Ruoxi Jia(参考訳) 本稿では,ノイズモデルの性能評価に対するデータ評価の堅牢性について検討する。 特に,広く使われている確率的勾配降下の固有ランダム性は,既存のデータ値概念(例えば,シャプリー値と残欠誤差)を発生させ,異なるランにまたがって一貫性のないデータ値ランキングを生成する。 この課題に対処するために、私たちはまず、データ値の概念の堅牢性を計測できる形式的なフレームワークを示します。 協調ゲーム理論の文献から派生した値概念であるbanzhaf値は、mlアプリケーションによって引き起こされる重要な特性を満たす値概念のクラスである、すべての半値の最大ロバスト性を達成する。 本稿では,最大サンプル再利用(MSR)原理に基づいて,Banzhaf値を効率的に推定するアルゴリズムを提案する。 我々は,Banzhaf値近似に対する下界サンプル複雑性を導出し,MSRアルゴリズムのサンプル複雑性が下界値とほぼ一致することを示す。 評価の結果,Banzhaf値は,重み付きサンプルを用いた学習や雑音ラベル検出などの下流MLタスクにおいて,既存の半値に基づくデータ値概念よりも優れていることがわかった。 我々の研究は、基礎となるMLアルゴリズムが確率的である場合、Banzhaf値は、その計算上の優位性とデータ品質を堅牢に区別できる能力から、半値ベースのデータ値スキームに代わる有望な代替となることを示唆している。

This paper studies the robustness of data valuation to noisy model performance scores. Particularly, we find that the inherent randomness of the widely used stochastic gradient descent can cause existing data value notions (e.g., the Shapley value and the Leave-one-out error) to produce inconsistent data value rankings across different runs. To address this challenge, we first pose a formal framework within which one can measure the robustness of a data value notion. We show that the Banzhaf value, a value notion originated from cooperative game theory literature, achieves the maximal robustness among all semivalues -- a class of value notions that satisfy crucial properties entailed by ML applications. We propose an algorithm to efficiently estimate the Banzhaf value based on the Maximum Sample Reuse (MSR) principle. We derive the lower bound sample complexity for Banzhaf value approximation, and we show that our MSR algorithm's sample complexity nearly matches the lower bound. Our evaluation demonstrates that the Banzhaf value outperforms the existing semivalue-based data value notions on several downstream ML tasks such as learning with weighted samples and noisy label detection. Overall, our study suggests that when the underlying ML algorithm is stochastic, the Banzhaf value is a promising alternative to the semivalue-based data value schemes given its computational advantage and ability to robustly differentiate data quality.
翻訳日:2022-06-01 13:22:19 公開日:2022-05-30
# 対人摂動の可能性を探る

Searching for the Essence of Adversarial Perturbations ( http://arxiv.org/abs/2205.15357v1 )

ライセンス: Link先を確認
Dennis Y. Menn and Hung-yi Lee(参考訳) ニューラルネットワークは、さまざまな機械学習分野における最先端のパフォーマンスを達成したが、入力データ(逆の例)による悪意のある摂動は、ニューラルネットワークの予測を騙すことができる。 これは、例えば自動操縦や顔認識など、現実世界のアプリケーションに潜在的なリスクをもたらす。 しかし、敵の例の存在の理由はいまだに議論の余地がある。 ここでは,ニューラルネットワークの誤った予測に寄与する重要な共謀者である,人間の認識可能な情報を含む逆行性摂動を実証する。 この認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。例えば、敵の例の存在、異なるニューラルネットワーク間の伝達可能性、敵の訓練におけるニューラルネットワークの解釈可能性の向上などである。 愚かなニューラルネットワークが発見される敵の摂動における2つのユニークな特性:マスキングと生成。 ニューラルネットワークが入力画像を分類する際、特別なクラス、補クラスが識別される。 敵対的摂動に含まれる人間の認識可能な情報は、ニューラルネットワークの動作原理に関する洞察を得ることができ、敵の攻撃を検出し防御する技術の開発につながる可能性がある。

Neural networks have achieved the state-of-the-art performance on various machine learning fields, yet the incorporation of malicious perturbations with input data (adversarial example) is able to fool neural networks' predictions. This would lead to potential risks in real-world applications, for example, auto piloting and facial recognition. However, the reason for the existence of adversarial examples remains controversial. Here we demonstrate that adversarial perturbations contain human-recognizable information, which is the key conspirator responsible for a neural network's erroneous prediction. This concept of human-recognizable information allows us to explain key features related to adversarial perturbations, which include the existence of adversarial examples, the transferability among different neural networks, and the increased neural network interpretability for adversarial training. Two unique properties in adversarial perturbations that fool neural networks are uncovered: masking and generation. A special class, the complementary class, is identified when neural networks classify input images. The human-recognizable information contained in adversarial perturbations allows researchers to gain insight on the working principles of neural networks and may lead to develop techniques that detect/defense adversarial attacks.
翻訳日:2022-06-01 13:19:29 公開日:2022-05-30
# ターミネーターを用いた強化学習

Reinforcement Learning with a Terminator ( http://arxiv.org/abs/2205.15376v1 )

ライセンス: Link先を確認
Guy Tennenholtz, Nadav Merlis, Lior Shani, Shie Mannor, Uri Shalit, Gal Chechik, Assaf Hallak, and Gal Dalal(参考訳) 我々は,外因性終了を伴う強化学習の課題を提示する。 我々は,mdpフレームワークの拡張である終了マルコフ決定プロセス(termdp)を定義し,外部の非マルコフオブザーバによってエピソードを中断させることができる。 この定式化は、人間が不快な理由で自律運転エージェントを中断するなど、多くの現実世界の状況に対応している。 我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。 我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。 理論解析に動機づけられ、最適化(w.r.t.終了)と動的割引係数を組み合わせたスケーラブルなアプローチを設計・実装し、終了確率を組み込んだ。 我々は高次元駆動とMinAtarベンチマークに本手法をデプロイする。 さらに、運転環境において、人間のデータに対するアプローチをテストする。 その結果,様々なベースラインアプローチに対して高速収束と大幅な改善が得られた。

We present the problem of reinforcement learning with exogenous termination. We define the Termination Markov Decision Process (TerMDP), an extension of the MDP framework, in which episodes may be interrupted by an external non-Markovian observer. This formulation accounts for numerous real-world situations, such as a human interrupting an autonomous driving agent for reasons of discomfort. We learn the parameters of the TerMDP and leverage the structure of the estimation problem to provide state-wise confidence bounds. We use these to construct a provably-efficient algorithm, which accounts for termination, and bound its regret. Motivated by our theoretical analysis, we design and implement a scalable approach, which combines optimism (w.r.t. termination) and a dynamic discount factor, incorporating the termination probability. We deploy our method on high-dimensional driving and MinAtar benchmarks. Additionally, we test our approach on human data in a driving setting. Our results demonstrate fast convergence and significant improvement over various baseline approaches.
翻訳日:2022-06-01 12:54:47 公開日:2022-05-30
# 迅速な学習のための報酬設計

Designing Rewards for Fast Learning ( http://arxiv.org/abs/2205.15400v1 )

ライセンス: Link先を確認
Henry Sowerby, Zhiyuan Zhou, Michael L. Littman(参考訳) 強化学習(RL)エージェントに望ましい振る舞いを伝えるには、デザイナーは環境に対する報酬関数を選択しなければならない。 多くの報酬関数は、同じ最適行動(ng et al., 1999)を誘導するが、それらの一部は、他のものよりも高速な学習をもたらす。 本稿では,報酬設計選択が学習速度にどのように影響するかを考察し,目標行動を迅速に誘導する良質な報酬設計の原理を探究する。 第一に、我々は行動ギャップを最大化する状態に基づく報酬の選択を提唱し、最適動作と最適動作の区別を容易にする。 第二に、我々は「主観的割引」と呼ばれる地平線の測度を最小化することを提案し、その上で報酬を最適化し、エージェントがより少ないルックアヘッドで最適な決定をするように促す必要がある。 そこで本研究では,行動ギャップを最大化し主観的割引を最小化する報酬関数を効率的に求める線形プログラミングに基づくアルゴリズムを提案する。 アルゴリズムが生成する報酬を表形式でq-learningでテストし,学習の高速化を実証的に示す。 Q-Learningはおそらく最も単純でよく理解されているRLアルゴリズムであるためのみ注目するが、R-max (Brafman and Tennenholtz, 2000) による予備的な結果から、より一般的な結果であることが示唆されている。 私たちの実験は 報酬デザインの3つの原則をサポートします 1)既存の結果と一致し,各ステップをペナライズすると,目標を達成するよりも学習が早い。 2)目標軌道に沿ってサブゴールを報奨すると,目標が近づくにつれて報酬が徐々に増加する。 3)すべての状態において0でない濃厚な報酬は,慎重に設計すればよい。

To convey desired behavior to a Reinforcement Learning (RL) agent, a designer must choose a reward function for the environment, arguably the most important knob designers have in interacting with RL agents. Although many reward functions induce the same optimal behavior (Ng et al., 1999), in practice, some of them result in faster learning than others. In this paper, we look at how reward-design choices impact learning speed and seek to identify principles of good reward design that quickly induce target behavior. This reward-identification problem is framed as an optimization problem: Firstly, we advocate choosing state-based rewards that maximize the action gap, making optimal actions easy to distinguish from suboptimal ones. Secondly, we propose minimizing a measure of the horizon, something we call the "subjective discount", over which rewards need to be optimized to encourage agents to make optimal decisions with less lookahead. To solve this optimization problem, we propose a linear-programming based algorithm that efficiently finds a reward function that maximizes action gap and minimizes subjective discount. We test the rewards generated with the algorithm in tabular environments with Q-Learning, and empirically show they lead to faster learning. Although we only focus on Q-Learning because it is perhaps the simplest and most well understood RL algorithm, preliminary results with R-max (Brafman and Tennenholtz, 2000) suggest our results are much more general. Our experiments support three principles of reward design: 1) consistent with existing results, penalizing each step taken induces faster learning than rewarding the goal. 2) When rewarding subgoals along the target trajectory, rewards should gradually increase as the goal gets closer. 3) Dense reward that's nonzero on every state is only good if designed carefully.
翻訳日:2022-06-01 12:54:32 公開日:2022-05-30
# 少数ショット拡散モデル

Few-Shot Diffusion Models ( http://arxiv.org/abs/2205.15463v1 )

ライセンス: Link先を確認
Giorgio Giannone, Didrik Nielsen, Ole Winther(参考訳) denoising diffusion probabilistic models (ddpm) は有意なサンプル生成品質とトレーニング安定性を持つ強力な階層的潜在変数モデルである。 これらの特性は、生成階層におけるパラメータ共有とパラメータフリー拡散に基づく推論手順に関連付けられる。 本稿では,条件付きddpmを用いた少数ショット生成のためのフレームワークであるfsdmを提案する。 FSDMは、セットベース視覚変換器(ViT)を用いて画像パッチ情報を集約することにより、所定のクラスから小さな画像に条件付けされた生成プロセスに適応するように訓練される。 テスト時に、モデルは、そのクラスからわずか5つのサンプルに条件づけられた、これまで見つからなかったクラスからサンプルを生成することができる。 FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。 本手法の変種を数ショット学習のための複雑な視覚データセット上でベンチマークし,無条件および条件付きDDPMベースラインと比較した。 さらに,パッチベース入力セット情報に対するモデル条件付けが,トレーニング収束性を改善することを示す。

Denoising diffusion probabilistic models (DDPM) are powerful hierarchical latent variable models with remarkable sample generation quality and training stability. These properties can be attributed to parameter sharing in the generative hierarchy, as well as a parameter-free diffusion-based inference procedure. In this paper, we present Few-Shot Diffusion Models (FSDM), a framework for few-shot generation leveraging conditional DDPMs. FSDMs are trained to adapt the generative process conditioned on a small set of images from a given class by aggregating image patch information using a set-based Vision Transformer (ViT). At test time, the model is able to generate samples from previously unseen classes conditioned on as few as 5 samples from that class. We empirically show that FSDM can perform few-shot generation and transfer to new datasets. We benchmark variants of our method on complex vision datasets for few-shot learning and compare to unconditional and conditional DDPM baselines. Additionally, we show how conditioning the model on patch-based input set information improves training convergence.
翻訳日:2022-06-01 12:29:58 公開日:2022-05-30
# シェフのランダムテーブル:非三角性ランダム特徴

Chefs' Random Tables: Non-Trigonometric Random Features ( http://arxiv.org/abs/2205.15317v1 )

ライセンス: Link先を確認
Valerii Likhosherstov, Krzysztof Choromanski, Avinava Dubey, Frederick Liu, Tamas Sarlos, Adrian Weller(参考訳) 我々は,gaussian および softmax カーネルを近似する新しいクラスである chefs' random tables (crts) を紹介する。 CRTは、本質的に三角図に依存する標準的なランダムキッチンシンク(RKS)法に代わるものである。 RFが正となるCRTの変種を,近年の低ランクトランスフォーマーの応用における重要な要件として提示する。 計算が容易な統計を活用することで、さらなる分散低減が可能となる。 CRTの1つのインスタンス化は、正の正のランダム特徴(OPRF)であり、正と有界のRFを持つ非バイアスのソフトマックスカーネル推定のための最初のRF法であり、結果として指数的に小さな尾とそれよりもはるかに低いばらつきをもたらす。 このように、OPRFに適用される直交ランダムな特徴は、任意の次元$d$に対して(RKSのように十分に大きな$d$に対して漸近的にのみ)さらなる分散還元を与える。 非パラメトリック分類から、テキスト、音声、画像データのトランスフォーマーのトレーニングまで、多くのタスクでcrtをテストし、低ランクのテキストトランスフォーマーの最新の結果を得るとともに、線形空間と時間複雑性を提供する。

We introduce chefs' random tables (CRTs), a new class of non-trigonometric random features (RFs) to approximate Gaussian and softmax kernels. CRTs are an alternative to standard random kitchen sink (RKS) methods, which inherently rely on the trigonometric maps. We present variants of CRTs where RFs are positive, a key requirement for applications in recent low-rank Transformers. Further variance reduction is possible by leveraging statistics which are simple to compute. One instantiation of CRTs, the optimal positive random features (OPRFs), is to our knowledge the first RF method for unbiased softmax kernel estimation with positive and bounded RFs, resulting in exponentially small tails and much lower variance than its counterparts. As we show, orthogonal random features applied in OPRFs provide additional variance reduction for any dimensionality $d$ (not only asymptotically for sufficiently large $d$, as for RKS). We test CRTs on many tasks ranging from non-parametric classification to training Transformers for text, speech and image data, obtaining new state-of-the-art results for low-rank text Transformers, while providing linear space and time complexity.
翻訳日:2022-06-01 12:24:16 公開日:2022-05-30
# 多数のチケットを1つにまとめる: スパースニューラルネットワークトレーニングのパフォーマンス向上

Superposing Many Tickets into One: A Performance Booster for Sparse Neural Network Training ( http://arxiv.org/abs/2205.15322v1 )

ライセンス: Link先を確認
Lu Yin, Vlado Menkovski, Meng Fang, Tianjin Huang, Yulong Pei, Mykola Pechenizkiy, Decebal Constantin Mocanu, Shiwei Liu(参考訳) スパースニューラルネットワークトレーニング(スパーストレーニング)に関する最近の研究は、本質的にスパースニューラルネットワークをスクラッチからトレーニングすることで、パフォーマンスと効率の説得力のあるトレードオフを実現することができることを示した。 既存のスパーストレーニング手法は通常、1回のランで可能な最高のスパースサブネットを見つけるよう努力する。 例えば、ダイナミックスパーストレーニング(DST)は、最も顕著な方向の一つであり、トレーニング中にスパーストポロジを反復的に進化させることで、密集トレーニングの競争性能に達することができる。 本稿では、複数の低損失サブネットワークを作成し、それらをより強力なサブネットワークに重ね合わせるために、限られたリソースを割り当てる方が良いと論じる。 これを実現するためには,(1)高濃度トレーニングで使用される標準訓練時間に限定された1つのトレーニングプロセス内で,いわゆる安価チケットである低損失サブネットワークを効率的に生産すること,(2)制約付きパラメータ予算を超過することなく,より強力なサブネットワークに効果的に重ね合わせること,の2つのデシデラタが必要となる。 本稿では,この2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチを提案する。 CIFAR-10/100 および ImageNet 上の様々な近代的アーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合され,一貫した性能向上を示すことを示す。

Recent works on sparse neural network training (sparse training) have shown that a compelling trade-off between performance and efficiency can be achieved by training intrinsically sparse neural networks from scratch. Existing sparse training methods usually strive to find the best sparse subnetwork possible in one single run, without involving any expensive dense or pre-training steps. For instance, dynamic sparse training (DST), as one of the most prominent directions, is capable of reaching a competitive performance of dense training by iteratively evolving the sparse topology during the course of training. In this paper, we argue that it is better to allocate the limited resources to create multiple low-loss sparse subnetworks and superpose them into a stronger one, instead of allocating all resources entirely to find an individual subnetwork. To achieve this, two desiderata are required: (1) efficiently producing many low-loss subnetworks, the so-called cheap tickets, within one training process limited to the standard training time used in dense training; (2) effectively superposing these cheap tickets into one stronger subnetwork without going over the constrained parameter budget. To corroborate our conjecture, we present a novel sparse training approach, termed \textbf{Sup-tickets}, which can satisfy the above two desiderata concurrently in a single sparse-to-sparse training process. Across various modern architectures on CIFAR-10/100 and ImageNet, we show that Sup-tickets integrates seamlessly with the existing sparse training methods and demonstrates consistent performance improvement.
翻訳日:2022-06-01 12:23:52 公開日:2022-05-30
# (参考訳) 一時潜伏ボトルネック:シークエンス学習における高速・低速処理機構の合成

Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence Learning ( http://arxiv.org/abs/2205.14794v1 )

ライセンス: CC BY 4.0
Aniket Didolkar, Kshitij Gupta, Anirudh Goyal, Alex Lamb, Nan Rosemary Ke, Yoshua Bengio(参考訳) リカレントニューラルネットワークは、シーケンスの履歴全体が単一のベクトルで表現されるため、時間圧縮表現を学ぶための強い帰納的バイアスを持つ。 対照的に、トランスフォーマーは、時間的に圧縮された表現を学ぶための帰納的バイアスをほとんど持たない。 シーケンスのより圧縮された表現を持つことは一般化に有用であり、高レベル表現はより簡単に再使用され、再利用され、無関係な詳細を含まない。 同時に、表現の過剰な圧縮は表現力の犠牲となる。 計算を2つのストリームに分割する手法を提案する。 自然に繰り返される遅いストリームは、k$の時間ステップのチャンクを複数のベクトルに分割された単一の表現に強制することによって、特殊で圧縮された表現を学ぶことを目的としている。 同時に、高速ストリームをTransformerとしてパラメータ化して、スローストリームの情報に条件付けされた$K$タイムステップからなるチャンクを処理する。 提案手法では,低速ストリームにおける表現の圧縮と構造化を促進しつつ,トランスフォーマの表現力の向上を期待する。 提案手法の利点は,視覚知覚および逐次意思決定タスクにおける様々な競争ベースラインと比較して,サンプル効率と一般化性能の改善の観点から示す。

Recurrent neural networks have a strong inductive bias towards learning temporally compressed representations, as the entire history of a sequence is represented by a single vector. By contrast, Transformers have little inductive bias towards learning temporally compressed representations, as they allow for attention over all previously computed elements in a sequence. Having a more compressed representation of a sequence may be beneficial for generalization, as a high-level representation may be more easily re-used and re-purposed and will contain fewer irrelevant details. At the same time, excessive compression of representations comes at the cost of expressiveness. We propose a solution which divides computation into two streams. A slow stream that is recurrent in nature aims to learn a specialized and compressed representation, by forcing chunks of $K$ time steps into a single representation which is divided into multiple vectors. At the same time, a fast stream is parameterized as a Transformer to process chunks consisting of $K$ time-steps conditioned on the information in the slow-stream. In the proposed approach we hope to gain the expressiveness of the Transformer, while encouraging better compression and structuring of representations in the slow stream. We show the benefits of the proposed method in terms of improved sample efficiency and generalization performance as compared to various competitive baselines for visual perception and sequential decision making tasks.
翻訳日:2022-06-01 10:01:59 公開日:2022-05-30
# (参考訳) エネルギーモデルにおける分布外データ密度過大評価の軽減

Mitigating Out-of-Distribution Data Density Overestimation in Energy-Based Models ( http://arxiv.org/abs/2205.14817v1 )

ライセンス: CC BY 4.0
Beomsu Kim, Jong Chul Ye(参考訳) 深部ニューラルネットワーク(DNN)をエネルギー関数として使用する深部エネルギーベースモデル(EBM)は、複雑な分布を学習する能力によって注目されている。 EBMの訓練には、Langevin Monte Carlo (LMC) を用いた最大推定(MLE)を用いることが多い。 ショートラン LMC の MLE は Markov Chain Monte Carlo (MCMC) の MLE と比較して計算効率が良いが、高密度のデータをout-of-distriion (OOD) のデータに割り当てることが多い。 この問題に対処するために, 短期LCCのMLEが, 誤った密度推定でEMMに収束する理由を系統的に検討し, 従来のLCCのヒューリスティックな修正が主な問題であることを明らかにした。 次に,一組の点を最適化して EBM のサポートを均等に分割し,その結果の点を用いて EBM-MLE 損失勾配を近似する一様サポート分割方式を提案する。 我々は,usp が短期的な lmc の落とし穴を回避し,ファッションmnist における ood データ検出性能が大幅に向上することを示す。

Deep energy-based models (EBMs), which use deep neural networks (DNNs) as energy functions, are receiving increasing attention due to their ability to learn complex distributions. To train deep EBMs, the maximum likelihood estimation (MLE) with short-run Langevin Monte Carlo (LMC) is often used. While the MLE with short-run LMC is computationally efficient compared to an MLE with full Markov Chain Monte Carlo (MCMC), it often assigns high density to out-of-distribution (OOD) data. To address this issue, here we systematically investigate why the MLE with short-run LMC can converge to EBMs with wrong density estimates, and reveal that the heuristic modifications to LMC introduced by previous works were the main problem. We then propose a Uniform Support Partitioning (USP) scheme that optimizes a set of points to evenly partition the support of the EBM and then uses the resulting points to approximate the EBM-MLE loss gradient. We empirically demonstrate that USP avoids the pitfalls of short-run LMC, leading to significantly improved OOD data detection performance on Fashion-MNIST.
翻訳日:2022-06-01 09:35:29 公開日:2022-05-30
# (参考訳) グループ上のリッジレット解析に基づく群畳み込みニューラルネットワークの普遍性

Universality of group convolutional neural networks based on ridgelet analysis on groups ( http://arxiv.org/abs/2205.14819v1 )

ライセンス: CC BY 4.0
Sho Sonoda, Isao Ishikawa, Masahiro Ikeda(参考訳) グループ畳み込みニューラルネットワーク(GCNN)のリッジレット理論に基づく近似特性について検討する。 群畳み込みを群表現の行列要素とし、多元性gcnnを群表現間の非線形写像として定式化し、多チャンネル画像上の巡回畳み込み、置換不変データセット(ディープセット)、$\mathrm{e}(n)$-equivariant畳み込みなどの典型的なgcnn文献をカバーする。 リッジレット変換は深度-2 ネットワークの解析演算子であり、任意の対象関数 $f$ をネットワーク $s[\gamma]$ の重み$\gamma$ にマッピングするので、ネットワークはその関数を $s[\gamma]=f$ で表す。 完全に接続されたネットワークでのみ知られており、この研究は(G)CNNのリッジレット変換を初めて提示した。 リッジレット変換は閉形式積分作用素として与えられるので、GCNNの$cc$Universalityの構成的証明を提供する。 CNNの以前の普遍性引数とは異なり、ネットワークを不変多項式や完全連結ネットワークのような他の普遍近似子に変換・修正する必要はない。

We investigate the approximation property of group convolutional neural networks (GCNNs) based on the ridgelet theory. We regard a group convolution as a matrix element of a group representation, and formulate a versatile GCNN as a nonlinear mapping between group representations, which covers typical GCNN literatures such as a cyclic convolution on a multi-channel image, permutation-invariant datasets (Deep Sets), and $\mathrm{E}(n)$-equivariant convolutions. The ridgelet transform is an analysis operator of a depth-2 network, namely, it maps an arbitrary given target function $f$ to the weight $\gamma$ of a network $S[\gamma]$ so that the network represents the function as $S[\gamma]=f$. It has been known only for fully-connected networks, and this study is the first to present the ridgelet transform for (G)CNNs. Since the ridgelet transform is given as a closed-form integral operator, it provides a constructive proof of the $cc$-universality of GCNNs. Unlike previous universality arguments on CNNs, we do not need to convert/modify the networks into other universal approximators such as invariant polynomials and fully-connected networks.
翻訳日:2022-06-01 09:20:57 公開日:2022-05-30
# (参考訳) 複素データセットに対するベイズ低ランク補間分解

Bayesian Low-Rank Interpolative Decomposition for Complex Datasets ( http://arxiv.org/abs/2205.14825v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) 本稿では,特徴の選択,低ランク近似,データ内の隠れパターンの同定によく用いられる補間分解(interpolative decomposition:id)を学習するための確率モデルを提案する。 指定された部分空間に対する支持を持つ事前密度は、観測行列の因子成分の大きさの制約に対処するために用いられる。 ギブスサンプリングに基づくベイズ推定手法を用いる。 我々は,CCLE EC50,CCLE IC50,CTRP EC50,MovieLens 100Kデータセットなど,さまざまな実世界のデータセットに対するモデルの評価を行い,提案したベイズID GBT と GBTN モデルが,既存のランダム化手法と比較して再構成誤差を小さくすることを示した。

In this paper, we introduce a probabilistic model for learning interpolative decomposition (ID), which is commonly used for feature selection, low-rank approximation, and identifying hidden patterns in data, where the matrix factors are latent variables associated with each data dimension. Prior densities with support on the specified subspace are used to address the constraint for the magnitude of the factored component of the observed matrix. Bayesian inference procedure based on Gibbs sampling is employed. We evaluate the model on a variety of real-world datasets including CCLE EC50, CCLE IC50, CTRP EC50,and MovieLens 100K datasets with different sizes, and dimensions, and show that the proposed Bayesian ID GBT and GBTN models lead to smaller reconstructive errors compared to existing randomized approaches.
翻訳日:2022-06-01 08:55:08 公開日:2022-05-30
# (参考訳) 対人訓練におけるロバスト重量摂動

Robust Weight Perturbation for Adversarial Training ( http://arxiv.org/abs/2205.14826v1 )

ライセンス: CC BY 4.0
Chaojian Yu, Bo Han, Mingming Gong, Li Shen, Shiming Ge, Bo Du, Tongliang Liu(参考訳) オーバーフィッティングは、ディープネットワークの敵対的ロバストなトレーニングに広く存在する。 効果的な治療は、逆例の分類損失を最大化することにより、ネットワークトレーニング中に最悪の場合の重み摂動を注入する逆重摂動である。 対向重み摂動は、ロバストな一般化ギャップを減らすのに役立つが、ロバストさの改善を損なう。 したがって、重量摂動を規制する基準は、敵の訓練に不可欠である。 本稿では,制約摂動に対するロス定常条件(LSC)を提案する。 LSCでは,頑健なオーバーフィッティングをなくすために,分類損失の少ない敵データに対して重み摂動を行うことが重要である。 分類損失が大きい対向データに対する重みの摂動は不要であり、強固さを損なうこともある。 これらの観測に基づいて, 重みの摂動の程度を制限するロバストな摂動戦略を提案する。 摂動戦略は、過剰な重量摂動の副作用を回避しつつ、深層ネットワークの過度な適合を防止し、敵の訓練の堅牢性を大幅に向上させる。 実験により,提案手法が最先端の対人訓練法よりも優れていることを示す。

Overfitting widely exists in adversarial robust training of deep networks. An effective remedy is adversarial weight perturbation, which injects the worst-case weight perturbation during network training by maximizing the classification loss on adversarial examples. Adversarial weight perturbation helps reduce the robust generalization gap; however, it also undermines the robustness improvement. A criterion that regulates the weight perturbation is therefore crucial for adversarial training. In this paper, we propose such a criterion, namely Loss Stationary Condition (LSC) for constrained perturbation. With LSC, we find that it is essential to conduct weight perturbation on adversarial data with small classification loss to eliminate robust overfitting. Weight perturbation on adversarial data with large classification loss is not necessary and may even lead to poor robustness. Based on these observations, we propose a robust perturbation strategy to constrain the extent of weight perturbation. The perturbation strategy prevents deep networks from overfitting while avoiding the side effect of excessive weight perturbation, significantly improving the robustness of adversarial training. Extensive experiments demonstrate the superiority of the proposed method over the state-of-the-art adversarial training methods.
翻訳日:2022-06-01 08:37:15 公開日:2022-05-30
# (参考訳) 発見のための適応学習

Adaptive Learning for Discovery ( http://arxiv.org/abs/2205.14829v1 )

ライセンス: CC BY 4.0
Ziping Xu, Eunjae Shim, Ambuj Tewari, Paul Zimmerman(参考訳) 本稿では,アダプティブ・サンプリング・フォー・ディスカバリ (ASD) と呼ばれる逐次意思決定問題について検討する。 ラベルなしの大きなデータセットから始めると、ASDのアルゴリズムは、応答の総和を最大化するために、ポイントを適応的にラベル付けする。 この問題は、例えば、機械学習モデルの助けを借りて創薬のような現実世界の発見問題に広く応用されている。 ASDアルゴリズムはよく知られた探索・探索ジレンマに直面している。 アルゴリズムは、モデル推定を改善するために情報を得るポイントを選択する必要があるが、モデルを利用する必要がある。 問題を厳密に定式化し、汎用情報指向サンプリング(IDS)アルゴリズムを提案する。 線形,グラフ,低ランクモデルにおけるIDSの性能に関する理論的保証を提供する。 IDSの利点は、化学反応条件を発見するためのシミュレーション実験と実データ実験の両方で示されている。

In this paper, we study a sequential decision-making problem, called Adaptive Sampling for Discovery (ASD). Starting with a large unlabeled dataset, algorithms for ASD adaptively label the points with the goal to maximize the sum of responses. This problem has wide applications to real-world discovery problems, for example drug discovery with the help of machine learning models. ASD algorithms face the well-known exploration-exploitation dilemma. The algorithm needs to choose points that yield information to improve model estimates but it also needs to exploit the model. We rigorously formulate the problem and propose a general information-directed sampling (IDS) algorithm. We provide theoretical guarantees for the performance of IDS in linear, graph and low-rank models. The benefits of IDS are shown in both simulation experiments and real-data experiments for discovering chemical reaction conditions.
翻訳日:2022-06-01 08:24:18 公開日:2022-05-30
# (参考訳) GraMeR:多目的影響最大化のためのグラフメタ強化学習

GraMeR: Graph Meta Reinforcement Learning for Multi-Objective Influence Maximization ( http://arxiv.org/abs/2205.14834v1 )

ライセンス: CC BY 4.0
Sai Munikoti, Balasubramaniam Natarajan and Mahantesh Halappanavar(参考訳) 影響最大化(im)は、ネットワーク内のシードノード(graph)と呼ばれるノードのサブセットを識別する組合せ問題であり、活性化されると、与えられた拡散モデルとシードセットサイズの予算に対してネットワーク内の影響の最大拡散を提供する。 IMには、バイラルマーケティング、疫病対策、センサー配置、その他のネットワーク関連タスクなど、数多くの応用がある。 しかし、現在のアルゴリズムの計算量は限られている。 近年,IMの学習ヒューリスティックスは計算負担を軽減するために研究されている。 しかしながら,1) IM の定式化は,自己活性化による影響のみを考慮し,(2) グラフへの拡張性,(3) グラフファミリ間の一般化性,(4) テストネットワーク毎にシードセットを識別するための実行時間の多い計算効率の低下など,現在のアプローチには重大な制限がある。 本研究では,(1)内在的および影響的アクティベーションの両方を扱うマルコフ決定過程として汎用IM問題を定式化すること,(2)シードノードを推定するために二重Q学習を採用すること,(3)サブグラフベース表現によるスケーラビリティを確保すること,(4)グラフファミリ間のメタラーニングによる一般化性を取り入れること,など,これらの制限に対処する。 提案するグラフメタ強化学習(GraMeR)フレームワークの性能を評価するため,各種標準ネットワークで大規模な実験を行った。 その結果,GraMeRは従来の手法よりも高速で汎用的であることが示唆された。

Influence maximization (IM) is a combinatorial problem of identifying a subset of nodes called the seed nodes in a network (graph), which when activated, provide a maximal spread of influence in the network for a given diffusion model and a budget for seed set size. IM has numerous applications such as viral marketing, epidemic control, sensor placement and other network-related tasks. However, the uses are limited due to the computational complexity of current algorithms. Recently, learning heuristics for IM have been explored to ease the computational burden. However, there are serious limitations in current approaches such as: (1) IM formulations only consider influence via spread and ignore self activation; (2) scalability to large graphs; (3) generalizability across graph families; (4) low computational efficiency with a large running time to identify seed sets for every test network. In this work, we address each of these limitations through a unique approach that involves (1) formulating a generic IM problem as a Markov decision process that handles both intrinsic and influence activations; (2) employing double Q learning to estimate seed nodes; (3) ensuring scalability via sub-graph based representations; and (4) incorporating generalizability via meta-learning across graph families. Extensive experiments are carried out in various standard networks to validate performance of the proposed Graph Meta Reinforcement learning (GraMeR) framework. The results indicate that GraMeR is multiple orders faster and generic than conventional approaches.
翻訳日:2022-06-01 08:02:15 公開日:2022-05-30
# (参考訳) 投票のための公正かつ高速なティーブレーキング

Fair and Fast Tie-Breaking for Voting ( http://arxiv.org/abs/2205.14838v1 )

ライセンス: CC BY 4.0
Lirong Xia(参考訳) 我々は、匿名性(全ての有権者が平等に扱われる)と中立性(全ての選択肢が平等に扱われる)という2つの広く受け入れられている公正性基準について、公正な結びつきの概念を導入する。 我々は,多項式時間計算可能な最も公平なタイマー機構である most-favorable-permutation (mfp) breaking を提案し,単一受賞者,$k$-committees,$k$-lists, full rankings を含む幅広い意思決定空間について検討した。 我々は,MFPの破断による一般の投票規則の半ランダム公正性を特徴付けるとともに,一般用レキシコグラフィーや固定エージェント機構を含む既存のタイブブレーキング機構よりも著しく優れていることを示す。

We introduce a notion of fairest tie-breaking for voting w.r.t. two widely-accepted fairness criteria: anonymity (all voters being treated equally) and neutrality (all alternatives being treated equally). We proposed a polynomial-time computable fairest tie-breaking mechanism, called most-favorable-permutation (MFP) breaking, for a wide range of decision spaces, including single winners, $k$-committees, $k$-lists, and full rankings. We characterize the semi-random fairness of commonly-studied voting rules with MFP breaking, showing that it is significantly better than existing tie-breaking mechanisms, including the commonly-used lexicographic and fixed-agent mechanisms.
翻訳日:2022-06-01 07:43:15 公開日:2022-05-30
# (参考訳) ドット製品カーネル回帰のための高精度学習曲線と高階スケーリング限界

Precise Learning Curves and Higher-Order Scaling Limits for Dot Product Kernel Regression ( http://arxiv.org/abs/2205.14846v1 )

ライセンス: CC BY 4.0
Lechao Xiao, Jeffrey Pennington(参考訳) 現代の機械学習モデルが計算フロンティアを推し進めるにつれ、異なるモデルとデータスケーリング体制の下で期待されるパフォーマンス改善の正確な見積もりを開発することがますます重要になっている。 現在、予測誤差がサンプル数に依存することを特徴付ける学習曲線の理論的な理解は、大きなサンプル漸近(m\to\infty$)または特定の単純なデータ分布に対して、サンプル数が次元(m\propto d$)と線形にスケールする高次元漸近(high-dimensional asymptotics)に制限されている。 本論文の主題である高階スケーリング関係$m\propto d^r$を含む,この2つの状態の間には広い溝がある。 本稿では, ドット積カーネルのカーネルリッジ回帰の問題に着目し, テスト誤差, バイアス, 分散の正確な式を, 定数が$m/d^r$である$m\to\infty$において, 球面から一様に描画したデータに対して提示する。 学習曲線のピークは、$m \approx d^r/r! 任意の整数$r$に対して$は、複数のサンプルワイド降下と複数のスケールでの非自明な振る舞いをもたらす。

As modern machine learning models continue to advance the computational frontier, it has become increasingly important to develop precise estimates for expected performance improvements under different model and data scaling regimes. Currently, theoretical understanding of the learning curves that characterize how the prediction error depends on the number of samples is restricted to either large-sample asymptotics ($m\to\infty$) or, for certain simple data distributions, to the high-dimensional asymptotics in which the number of samples scales linearly with the dimension ($m\propto d$). There is a wide gulf between these two regimes, including all higher-order scaling relations $m\propto d^r$, which are the subject of the present paper. We focus on the problem of kernel ridge regression for dot-product kernels and present precise formulas for the test error, bias, and variance, for data drawn uniformly from the sphere in the $r$th-order asymptotic scaling regime $m\to\infty$ with $m/d^r$ held constant. We observe a peak in the learning curve whenever $m \approx d^r/r!$ for any integer $r$, leading to multiple sample-wise descent and nontrivial behavior at multiple scales.
翻訳日:2022-06-01 07:03:57 公開日:2022-05-30
# (参考訳) プロンプト調整のためのプロンプトアライメント勾配

Prompt-aligned Gradient for Prompt Tuning ( http://arxiv.org/abs/2205.14865v1 )

ライセンス: CC BY 4.0
Beier Zhu and Yulei Niu and Yucheng Han and Yue Wu and Hanwang Zhang(参考訳) CLIPのような大規模な事前学習された視覚言語モデル(VLM)により、画像の「[CLASS]」である画像の信頼度スコアを画像と「[CLASS]の写真」との類似度尺度で得られるように、ゼロショット分類器を"prompt"で作成することができる。 したがって、プロンプトは、プロンプトベースの類似度尺度を微調整すれば、下流タスクへのVLMの高速適応の可能性を示す。 しかしながら、不適切な微調整がタスク関連クラスに対するプロンプト固有の予測を損なうだけでなく、VLM語彙の他のクラスに対しても、よくある失敗が見つかる。 既存の手法では、早期停止やデータ拡張といった従来のオーバーフィット防止手法を使用してもこの問題に対処している。 我々は,vlmsから得られる一般的な知識を忘れないように,progradと呼ばれるプロンプトアライメント勾配を提案する。 特に、progradは、事前定義されたプロンプト予測のkl損失の勾配として表される「一般方向」に勾配をアライン(または非衝突)するプロンプトのみを更新する。 広汎な実験は、最先端のプロンプトチューニング手法に対するProGradのより強力な数発の一般化能力を示す。 コードはhttps://github.com/BeierZhu/Prompt-align.comで入手できる。

Thanks to the large pre-trained vision-language models (VLMs) like CLIP, we can craft a zero-shot classifier by "prompt", e.g., the confidence score of an image being "[CLASS]" can be obtained by using the VLM provided similarity measure between the image and the prompt sentence "a photo of a [CLASS]". Therefore, prompt shows a great potential for fast adaptation of VLMs to downstream tasks if we fine-tune the prompt-based similarity measure. However, we find a common failure that improper fine-tuning may not only undermine the prompt's inherent prediction for the task-related classes, but also for other classes in the VLM vocabulary. Existing methods still address this problem by using traditional anti-overfitting techniques such as early stopping and data augmentation, which lack a principled solution specific to prompt. We present Prompt-aligned Gradient, dubbed ProGrad, to prevent prompt tuning from forgetting the the general knowledge learned from VLMs. In particular, ProGrad only updates the prompt whose gradient is aligned (or non-conflicting) to the "general direction", which is represented as the gradient of the KL loss of the pre-defined prompt prediction. Extensive experiments demonstrate the stronger few-shot generalization ability of ProGrad over state-of-the-art prompt tuning methods. Codes are available at https://github.com/BeierZhu/Prompt-align.
翻訳日:2022-06-01 07:02:36 公開日:2022-05-30
# (参考訳) 投票アクセス格差の測定と緩和--フロリダ州とノースカロライナ州における人種と投票場所に関する研究

Measuring and mitigating voting access disparities: a study of race and polling locations in Florida and North Carolina ( http://arxiv.org/abs/2205.14867v1 )

ライセンス: CC BY 4.0
Mohsen Abbasi, Suresh Venkatasubramanian, Sorelle A. Friedler, Kristian Lum, Calvin Barrett(参考訳) 投票権の抑制と選挙権に対する人種的格差は、アメリカ合衆国における長年の公民権問題である。 投票への障壁は何十年もの間、様々な形をとってきた。 暴力的な明示的な抑止の歴史は、長い線や待ち時間、投票所に到達するための長い旅行時間、投票に対するその他の物流上の障壁など、より微妙なアクセス制限に移行している。 この研究の焦点は、全体の投票時間に関する投票アクセスの格差の定量化と、投票場所の選択や、投票者が投票を投票できるサイトを増やすことで、どのように改善できるかである。 しかし、人口密度や所要時間に対するコミュニティの期待の違いといった要因を考慮する必要があるため、アクセス格差を適切に調整することは困難である。 本稿では,ポーリング位置へのアクセスを定量化し,ポーリング位置の「負荷」とポーリング位置の距離における人種差の校正手法を開発した。 この手法を、フロリダとノースカロライナ州の実際のデータから、2020年の選挙での投票権の格差を識別する研究に適用する。 また,学校や図書館を含む特定の公共の場所のリストから,新たなポーリング場所を提案することで,これらの格差を低減できるアルゴリズムを導入している。 これらのアルゴリズムを2020年の選挙場所データに適用することは、より多くの投票場所を割り当てるコストとアクセス格差に対する潜在的な影響の間のトレードオフを暴露し、探求するのに役立つ。 最新の投票アクセス測定手法とアルゴリズム的修復手法は,ポーリングロケーション割り当ての改善の第一歩である。

Voter suppression and associated racial disparities in access to voting are long-standing civil rights concerns in the United States. Barriers to voting have taken many forms over the decades. A history of violent explicit discouragement has shifted to more subtle access limitations that can include long lines and wait times, long travel times to reach a polling station, and other logistical barriers to voting. Our focus in this work is on quantifying disparities in voting access pertaining to the overall time-to-vote, and how they could be remedied via a better choice of polling location or provisioning more sites where voters can cast ballots. However, appropriately calibrating access disparities is difficult because of the need to account for factors such as population density and different community expectations for reasonable travel times. In this paper, we quantify access to polling locations, developing a methodology for the calibrated measurement of racial disparities in polling location "load" and distance to polling locations. We apply this methodology to a study of real-world data from Florida and North Carolina to identify disparities in voting access from the 2020 election. We also introduce algorithms, with modifications to handle scale, that can reduce these disparities by suggesting new polling locations from a given list of identified public locations (including schools and libraries). Applying these algorithms on the 2020 election location data also helps to expose and explore tradeoffs between the cost of allocating more polling locations and the potential impact on access disparities. The developed voting access measurement methodology and algorithmic remediation technique is a first step in better polling location assignment.
翻訳日:2022-06-01 06:42:17 公開日:2022-05-30
# (参考訳) 照明適応変圧器

Illumination Adaptive Transformer ( http://arxiv.org/abs/2205.14871v1 )

ライセンス: CC BY 4.0
Ziteng Cui, Kunchang Li, Lin Gu, Shenghan Su, Peng Gao, Zhengkai Jiang, Yu Qiao, Tatsuya Harada(参考訳) 現実世界における照明条件(低光度、過露出、過露出)の挑戦は、不快な視覚的な外観だけでなく、コンピュータビジョンのタスクを味わう。 既存の光適応法はしばしば個々の条件を個別に扱う。 さらに、その多くは生の画像上で動作したり、カメラ画像信号処理(isp)パイプラインを過度に単純化する。 光変換パイプラインをローカルおよびグローバルISPコンポーネントに分解することにより、ローカル推定ブランチとグローバルISPブランチという2つのトランスフォーマースタイルのブランチからなる軽量な高速イルミネーション適応トランス (IAT) を提案する。 ローカルブランチは、照明に関連するピクセル単位のローカルコンポーネントを推定するが、グローバルブランチは、画像全体に対応する学習可能なクイアを定義し、パラメータをデコードする。 我々のIATは、様々な光条件下でオブジェクト検出とセマンティックセグメンテーションの両方を行うこともできる。 我々は2つの低レベルタスクと3つの高レベルタスクで複数の実世界のデータセット上でIATを広範囲に評価した。 90kのパラメータと0.004sの処理速度(高レベルモジュールを除く)で、当社のIATはSOTAよりもずっと優れたパフォーマンスを実現しています。 コードはhttps://github.com/cuiziteng/IlluminationAdaptive-Transformerで入手できる。

Challenging illumination conditions (low light, underexposure and overexposure) in the real world not only cast an unpleasant visual appearance but also taint the computer vision tasks. Existing light adaptive methods often deal with each condition individually. What is more, most of them often operate on a RAW image or over-simplify the camera image signal processing (ISP) pipeline. By decomposing the light transformation pipeline into local and global ISP components, we propose a lightweight fast Illumination Adaptive Transformer (IAT) which comprises two transformer-style branches: local estimation branch and global ISP branch. While the local branch estimates the pixel-wise local components relevant to illumination, the global branch defines learnable quires that attend the whole image to decode the parameters. Our IAT could also conduct both object detection and semantic segmentation under various light conditions. We have extensively evaluated IAT on multiple real-world datasets on 2 low-level tasks and 3 high-level tasks. With only 90k parameters and 0.004s processing speed (excluding high-level module), our IAT has consistently achieved superior performance over SOTA. Code is available at https://github.com/cuiziteng/IlluminationAdaptive-Transformer.
翻訳日:2022-06-01 06:18:31 公開日:2022-05-30
# (参考訳) Easter2.0:手書き文字認識のための畳み込みモデルの改善

Easter2.0: Improving convolutional models for handwritten text recognition ( http://arxiv.org/abs/2205.14879v1 )

ライセンス: CC BY 4.0
Kartik Chaudhary, Raghav Bali(参考訳) 畳み込みニューラルネットワーク(cnn)は手書きテキスト認識(htr)のタスクに有望な結果を示しているが、性能面ではrecurrent neural networks(rnn)/transformerベースモデルに遅れをとっている。 本稿では,このギャップを埋めるCNNベースのアーキテクチャを提案する。 Easter2.0は1D Convolution, Batch Normalization, ReLU, Dropout, Dense Residual Connect, Squeeze-and-Excitation Module の複数のレイヤで構成されており,Connectionist Temporal Classification (CTC) の損失を利用する。 本稿では,Easer2.0アーキテクチャに加えて,HTR/OCRのタスクに関連する,シンプルかつ効果的なデータ拡張手法であるTACOを提案する。 本研究は,現在公開されているトレーニングデータのみを用いて,IAM手書きデータベース上での最先端の成果を達成する。 また,本実験では,テキスト認識精度に対するTACO強化とSqueeze-and-Excitation(SE)の影響についても検討した。 さらに,限定的なアノテートデータでトレーニングされた場合の変圧器を含む現在の最善の手法よりも,easter2.0が適していることを示す。 コードとモデルは、https://github.com/kartikgill/Easter2.comで入手できる。

Convolutional Neural Networks (CNN) have shown promising results for the task of Handwritten Text Recognition (HTR) but they still fall behind Recurrent Neural Networks (RNNs)/Transformer based models in terms of performance. In this paper, we propose a CNN based architecture that bridges this gap. Our work, Easter2.0, is composed of multiple layers of 1D Convolution, Batch Normalization, ReLU, Dropout, Dense Residual connection, Squeeze-and-Excitation module and make use of Connectionist Temporal Classification (CTC) loss. In addition to the Easter2.0 architecture, we propose a simple and effective data augmentation technique 'Tiling and Corruption (TACO)' relevant for the task of HTR/OCR. Our work achieves state-of-the-art results on IAM handwriting database when trained using only publicly available training data. In our experiments, we also present the impact of TACO augmentations and Squeeze-and-Excitation (SE) on text recognition accuracy. We further show that Easter2.0 is suitable for few-shot learning tasks and outperforms current best methods including Transformers when trained on limited amount of annotated data. Code and model is available at: https://github.com/kartikgill/Easter2
翻訳日:2022-06-01 06:16:37 公開日:2022-05-30
# (参考訳) Time3D: 自動走行のための一眼レフ物体検出と追跡

Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving ( http://arxiv.org/abs/2205.14882v1 )

ライセンス: CC BY 4.0
Peixuan Li, Jieyu Jin(参考訳) フレーム単位でのシーケンス画像に、単眼で3D物体検出と2D多物追跡を別々に活用する一方、スタンドアローントラッカーは、3D検出器からの不確実性の伝達を遮断し、トラッキング誤差の差分を3D検出器に渡すことができない。 本研究では,モノクローナルビデオのみからエンドツーエンドに3D検出と3D追跡を共同で行うことを提案する。 鍵となるコンポーネントは、幾何学的特徴と外観的特徴を集約した新しい時空間情報フローモジュールであり、現在のフレームと過去の全てのオブジェクト間で堅牢な類似性スコアを予測する。 具体的には、自己注意が特定のフレーム内の空間情報を集約する変換器の注意機構を活用し、シーケンスフレームの時間領域における全てのオブジェクトの関係と親和性を利用する。 次にアフィニティを監督して軌道を推定し、対応する3dオブジェクト間の情報の流れを導く。 さらに,3次元目標運動モデリングを学習に用い,世界座標系における3次元軌跡の円滑化を図った時間的整合性損失を提案する。 Time3D は nuScenes 3D 検出ベンチマークで 21.4\% AMOTA, 13.6\% AMOTP を、21.2\% mAP, 39.4\% NDS を達成している。

While separately leveraging monocular 3D object detection and 2D multi-object tracking can be straightforwardly applied to sequence images in a frame-by-frame fashion, stand-alone tracker cuts off the transmission of the uncertainty from the 3D detector to tracking while cannot pass tracking error differentials back to the 3D detector. In this work, we propose jointly training 3D detection and 3D tracking from only monocular videos in an end-to-end manner. The key component is a novel spatial-temporal information flow module that aggregates geometric and appearance features to predict robust similarity scores across all objects in current and past frames. Specifically, we leverage the attention mechanism of the transformer, in which self-attention aggregates the spatial information in a specific frame, and cross-attention exploits relation and affinities of all objects in the temporal domain of sequence frames. The affinities are then supervised to estimate the trajectory and guide the flow of information between corresponding 3D objects. In addition, we propose a temporal -consistency loss that explicitly involves 3D target motion modeling into the learning, making the 3D trajectory smooth in the world coordinate system. Time3D achieves 21.4\% AMOTA, 13.6\% AMOTP on the nuScenes 3D tracking benchmark, surpassing all published competitors, and running at 38 FPS, while Time3D achieves 31.2\% mAP, 39.4\% NDS on the nuScenes 3D detection benchmark.
翻訳日:2022-06-01 06:07:05 公開日:2022-05-30
# (参考訳) 非平衡コオプティカルトランスポート

Unbalanced CO-Optimal Transport ( http://arxiv.org/abs/2205.14923v1 )

ライセンス: CC BY 4.0
Quang Huy Tran, Hicham Janati, Nicolas Courty, R\'emi Flamary, Ievgen Redko, Pinar Demetci, Ritambhara Singh(参考訳) 最適輸送(OT)は、サンプル間の有意なアライメントを計算することによって確率分布を比較する。 Co-Optimal Transport (COOT)は、特徴間のアライメントを推論することで、この比較をさらに進める。 このアプローチはより良いアライメントをもたらし、otとgromov-wasserstein距離の両方を一般化するが、実世界データに全現する外れ値に敏感であることを示す理論的結果を提供する。 これにより、比較したデータセットのノイズに対するロバスト性を確実に示す不均衡なCOOTを提案することができる。 我々の知る限りでは、これは非可換空間におけるOT法に対する最初の結果である。 この結果から, 単細胞計測によるサンプルと特徴の同時アライメントやクラスの割合の変動を伴わずに, 異種領域適応の課題に対して, この頑健性が実証的に証明できる。

Optimal transport (OT) compares probability distributions by computing a meaningful alignment between their samples. CO-optimal transport (COOT) takes this comparison further by inferring an alignment between features as well. While this approach leads to better alignments and generalizes both OT and Gromov-Wasserstein distances, we provide a theoretical result showing that it is sensitive to outliers that are omnipresent in real-world data. This prompts us to propose unbalanced COOT for which we provably show its robustness to noise in the compared datasets. To the best of our knowledge, this is the first such result for OT methods in incomparable spaces. With this result in hand, we provide empirical evidence of this robustness for the challenging tasks of heterogeneous domain adaptation with and without varying proportions of classes and simultaneous alignment of samples and features across single-cell measurements.
翻訳日:2022-06-01 06:05:53 公開日:2022-05-30
# (参考訳) ニューラルボリュームオブジェクトの選択

Neural Volumetric Object Selection ( http://arxiv.org/abs/2205.14929v1 )

ライセンス: CC BY 4.0
Zhongzheng Ren and Aseem Agarwala and Bryan Russell and Alexander G. Schwing and Oliver Wang(参考訳) 本稿では,多面画像(mpi)や神経放射場(nerf)など,神経容積3次元表現における物体選択手法を提案する。 提案手法では,フォアグラウンドとバックグラウンドの2dユーザが1つのビューにスクリブルし,所望のオブジェクトの3dセグメンテーションを自動的に推定する。 そこで本研究では,全ての入力ビューから神経容積3次元表現と多視点画像特徴を組み込んだ新しいvoxel特徴埋め込みを提案する。 提案手法を評価するために,実世界のマルチビューシーンキャプチャーにおける描写対象のための,人為的なセグメンテーションマスクのデータセットを提案する。 提案手法は,2次元セグメント化や3次元セグメント化など,強いベースラインを達成できることを示す。

We introduce an approach for selecting objects in neural volumetric 3D representations, such as multi-plane images (MPI) and neural radiance fields (NeRF). Our approach takes a set of foreground and background 2D user scribbles in one view and automatically estimates a 3D segmentation of the desired object, which can be rendered into novel views. To achieve this result, we propose a novel voxel feature embedding that incorporates the neural volumetric 3D representation and multi-view image features from all input views. To evaluate our approach, we introduce a new dataset of human-provided segmentation masks for depicted objects in real-world multi-view scene captures. We show that our approach out-performs strong baselines, including 2D segmentation and 3D segmentation approaches adapted to our task.
翻訳日:2022-06-01 05:29:12 公開日:2022-05-30
# (参考訳) 指紋を用いた屋内測位のための深層学習法の検討

Deep Learning Methods for Fingerprint-Based Indoor Positioning: A Review ( http://arxiv.org/abs/2205.14935v1 )

ライセンス: CC BY 4.0
Fahad Alhomayani and Mohammad H. Mahoor(参考訳) グローバルナビゲーション衛星システムに基づく屋外測位システムには,室内測位が実用的でないと考える欠点がいくつかある。 機械学習を利用した位置フィンガープリンティングは、シンプルな概念と正確な性能のため、屋内位置決めの有効な方法と解決策として登場した。 これまでは、浅層学習アルゴリズムは位置フィンガープリントに用いられてきた。 近年,研究コミュニティは,従来の機械学習アルゴリズムよりも優れた成功と優位性を見出した後,指紋認証の深層学習手法の利用を開始した。 本稿では,屋内測位における深層学習法について概観する。 まず,屋内位置決めにおける各種指紋の利点と欠点について考察した。 文献で提案されたソリューションは分析され、分類され、様々なパフォーマンス評価指標と比較される。 指紋認証においてデータが重要なので、公開されている屋内位置決めデータセットの詳細なレビューを行う。 深層学習をフィンガープリントに組み込むことで、大幅な改善がもたらされる一方で、新たな課題も導入されている。 これらの課題と共通の実装の落とし穴について論じる。 最後に,今後の研究動向とともに,いくつかの論点をまとめる。

Outdoor positioning systems based on the Global Navigation Satellite System have several shortcomings that have deemed their use for indoor positioning impractical. Location fingerprinting, which utilizes machine learning, has emerged as a viable method and solution for indoor positioning due to its simple concept and accurate performance. In the past, shallow learning algorithms were traditionally used in location fingerprinting. Recently, the research community started utilizing deep learning methods for fingerprinting after witnessing the great success and superiority these methods have over traditional/shallow machine learning algorithms. This paper provides a comprehensive review of deep learning methods in indoor positioning. First, the advantages and disadvantages of various fingerprint types for indoor positioning are discussed. The solutions proposed in the literature are then analyzed, categorized, and compared against various performance evaluation metrics. Since data is key in fingerprinting, a detailed review of publicly available indoor positioning datasets is presented. While incorporating deep learning into fingerprinting has resulted in significant improvements, doing so, has also introduced new challenges. These challenges along with the common implementation pitfalls are discussed. Finally, the paper is concluded with some remarks as well as future research trends.
翻訳日:2022-06-01 05:28:18 公開日:2022-05-30
# (参考訳) Edge YOLO: 自動運転車におけるエッジクラウド協調に基づくリアルタイム知的物体検出システム

Edge YOLO: Real-Time Intelligent Object Detection System Based on Edge-Cloud Cooperation in Autonomous Vehicles ( http://arxiv.org/abs/2205.14942v1 )

ライセンス: CC BY 4.0
Siyuan Liang, Hao Wu(参考訳) 交通監視や運転アシスタントといった自動運転車の要求がますます高まっている中で、深層学習に基づく物体検出(DL-OD)はインテリジェント交通システムにおいてますます魅力的になっている。 しかし, 既存のDL-OD方式では, スケジュールの低さや省エネ性が高いため, 責任, コスト削減, エネルギー効率のよい自動運転車システムを実現することは困難である。 本稿では,エッジクラウド協調と再構成畳み込みニューラルネットワークを用いた物体検出システムであるedge yoloを提案する。 このシステムは、クラウドコンピューティングリソースの計算能力と不均一な分散への過度な依存を効果的に回避することができる。 具体的には,pruning feature extraction network と compression feature fusion network を組み合わせることで,マルチスケール予測の効率を最大化する軽量な od フレームワークである。 さらに,NVIDIA Jetsonを用いた自律走行プラットフォームを開発し,システムレベルの検証を行った。 我々は, COCO2017 データセットと KITTI データセットにおける Edge YOLO の信頼性と効率を実験的に実証した。 COCO2017標準データセットの毎秒26.6フレーム(FPS)によると、ネットワーク全体のパラメータ数は25.67MB、精度(mAP)は47.3%である。

Driven by the ever-increasing requirements of autonomous vehicles, such as traffic monitoring and driving assistant, deep learning-based object detection (DL-OD) has been increasingly attractive in intelligent transportation systems. However, it is difficult for the existing DL-OD schemes to realize the responsible, cost-saving, and energy-efficient autonomous vehicle systems due to low their inherent defects of low timeliness and high energy consumption. In this paper, we propose an object detection (OD) system based on edge-cloud cooperation and reconstructive convolutional neural networks, which is called Edge YOLO. This system can effectively avoid the excessive dependence on computing power and uneven distribution of cloud computing resources. Specifically, it is a lightweight OD framework realized by combining pruning feature extraction network and compression feature fusion network to enhance the efficiency of multi-scale prediction to the largest extent. In addition, we developed an autonomous driving platform equipped with NVIDIA Jetson for system-level verification. We experimentally demonstrate the reliability and efficiency of Edge YOLO on COCO2017 and KITTI data sets, respectively. According to COCO2017 standard datasets with a speed of 26.6 frames per second (FPS), the results show that the number of parameters in the entire network is only 25.67 MB, while the accuracy (mAP) is up to 47.3%.
翻訳日:2022-06-01 04:22:19 公開日:2022-05-30
# (参考訳) 属性の自動生成によるデータ駆動型数値不変合成

Data-driven Numerical Invariant Synthesis with Automatic Generation of Attributes ( http://arxiv.org/abs/2205.14943v1 )

ライセンス: CC BY 4.0
Ahmed Bouajjani and Wael-Amine Boutglay and Peter Habermehl(参考訳) 数値不変合成と検証のためのデータ駆動アルゴリズムを提案する。 アルゴリズムはice-dtスキーマに基づいて、ポジティブな状態とネガティブな状態を含むサンプルから決定木を学習し、さらにプログラムの遷移に対応づける。 私たちが取り組んだ主な問題は、数値不変量の学習プロセスで使用される関連する属性の発見である。 データサンプルによって導かれるこの問題を解決する方法を定義する。 これは、負の状態を含まない正の状態をカバーし、意味と一致するセパレータの構築に基づいている。 セパレータは凸集合の抽象ドメイン表現を用いて構成される。 分母の制約から決定木学習の一般化機構は一般不変量の推論を可能にするが、対象の性質を証明するには十分正確である。 我々はアルゴリズムを実装し、その効率性を示した。

We propose a data-driven algorithm for numerical invariant synthesis and verification. The algorithm is based on the ICE-DT schema for learning decision trees from samples that include positive and negative states and additionally implications corresponding to transitions in the program. The main issue we address is the discovery of relevant attributes to be used in the learning process of numerical invariants. We define a method for solving this problem that is guided by the data sample. It is based on the construction of a separator that covers positive states without including negative ones, and that is consistent with the implications. The separator is constructed using an abstract domain representation of convex sets. The generalization mechanism of the decision tree learning from the constraints of the separator allows the inference of general invariants, yet accurate enough for proving the targeted property. We implemented our algorithm and showed its efficiency.
翻訳日:2022-06-01 03:55:36 公開日:2022-05-30
# (参考訳) HiViT: 階層型ヴィジュアルトランスフォーマーがマズード画像モデリングに挑戦

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling ( http://arxiv.org/abs/2205.14949v1 )

ライセンス: CC BY-SA 4.0
Xiaosong Zhang, Yunjie Tian, Wei Huang, Qixiang Ye, Qi Dai, Lingxi Xie, Qi Tian(参考訳) 近年、マスク画像モデリング (mim) は視覚トランスフォーマーの自己教師付き事前学習の新しい手法を提供している。 効率的な実装の鍵となるアイデアは、ターゲットネットワーク(エンコーダ)全体にマスクされたイメージパッチ(またはトークン)を破棄することであり、これはエンコーダをプレーンビジョントランスフォーマー(例えばvit)にする必要があるが、階層的ビジョントランスフォーマー(例えばswinトランスフォーマ)は、視覚入力を定式化する上で、潜在的に優れた特性を持っている。 本稿では,MIMにおける高効率と優れた性能を両立するHiViT(Hierarchical ViT)という階層型視覚変換器の設計を提案する。 鍵となるのは、マスクユニットをプレーンビジョントランスフォーマーのようにシリアライズできる構造的に単純な階層型視覚トランスフォーマーから、不要な「局所的なユニット間操作」を取り除くことである。 この目的のために スウィントランスから始めます (i)スウィントランスのメインステージにおいて、マスキングユニットサイズをトークンサイズに設定する。 (ii)メインステージの前にユニット間自己接続をオフにし、 (iii)メインステージ以降のすべての操作を除外する。 実証的研究は、完全教師付き、自己教師付き、および伝達学習の観点から、HiViTの有利な性能を示す。 特に ImageNet-1K 上で MAE を実行する場合、HiViT-B は ViT-B よりも +0.6% の精度向上と Swin-B よりも 1.9$\times$ のスピードアップを報告している。 コードは公開される予定だ。

Recently, masked image modeling (MIM) has offered a new methodology of self-supervised pre-training of vision transformers. A key idea of efficient implementation is to discard the masked image patches (or tokens) throughout the target network (encoder), which requires the encoder to be a plain vision transformer (e.g., ViT), albeit hierarchical vision transformers (e.g., Swin Transformer) have potentially better properties in formulating vision inputs. In this paper, we offer a new design of hierarchical vision transformers named HiViT (short for Hierarchical ViT) that enjoys both high efficiency and good performance in MIM. The key is to remove the unnecessary "local inter-unit operations", deriving structurally simple hierarchical vision transformers in which mask-units can be serialized like plain vision transformers. For this purpose, we start with Swin Transformer and (i) set the masking unit size to be the token size in the main stage of Swin Transformer, (ii) switch off inter-unit self-attentions before the main stage, and (iii) eliminate all operations after the main stage. Empirical studies demonstrate the advantageous performance of HiViT in terms of fully-supervised, self-supervised, and transfer learning. In particular, in running MAE on ImageNet-1K, HiViT-B reports a +0.6% accuracy gain over ViT-B and a 1.9$\times$ speed-up over Swin-B, and the performance gain generalizes to downstream tasks of detection and segmentation. Code will be made publicly available.
翻訳日:2022-06-01 03:31:46 公開日:2022-05-30
# (参考訳) 3次元物体検出のためのLiDAR-Camera Fusionのロバスト性評価

Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2205.14951v1 )

ライセンス: CC BY 4.0
Kaicheng Yu, Tang Tao, Hongwei Xie, Zhiwei Lin, Zhongwei Wu, Zhongyu Xia, Tingting Liang, Haiyang Sun, Jiong Deng, Dayang Hao, Yongtao Wang, Xiaodan Liang, Bing Wang(参考訳) 自動運転車の3D認識には、カメラとLiDARの2つの重要なセンサーがある。 カメラは色、テクスチャなどの豊富な意味情報を提供し、lidarは周囲の物体の3d形状と位置を反映する。 これらの2つのモダリティを融合させることで、各モダリティが相互に相補的な情報を持つため、3次元知覚モデルの性能が著しく向上することを発見した。 しかし、現在のデータセットは、データ収集目的で明示的に設計されており、様々な理由から現実的なデータ分布を反映できない高価な車両から取得されている。 この目的のために、ノイズの多いデータ分布を持つ実世界の事例を収集し、クリーンな自動運転データセット上でこれらのケースをシミュレートするロバストネスベンチマークツールキットを体系的に定式化する。 我々は,このツールキットの有効性を,広く採用されている2つの自動運転データセット,nuscenesとwaymo上でロバスト性ベンチマークを確立し,その上で我々の知識を最大限に活用し,最先端の融合手法を初めて段階的にベンチマークすることで紹介する。 私たちはそれを観察します i) 核融合法は,これらのデータのみに基づいて開発された場合,LiDAR入力に障害が発生した場合,必然的に故障する傾向にある。 二 カメラ入力の改善は、LiDARよりも著しく劣る。 また,現在の核融合法のロバスト性を改善するための効率的なロバストトレーニング戦略を提案する。 ベンチマークとコードはhttps://github.com/kcyu2014/lidar-camera-robust-benchmarkで入手できる。

There are two critical sensors for 3D perception in autonomous driving, the camera and the LiDAR. The camera provides rich semantic information such as color, texture, and the LiDAR reflects the 3D shape and locations of surrounding objects. People discover that fusing these two modalities can significantly boost the performance of 3D perception models as each modality has complementary information to the other. However, we observe that current datasets are captured from expensive vehicles that are explicitly designed for data collection purposes, and cannot truly reflect the realistic data distribution due to various reasons. To this end, we collect a series of real-world cases with noisy data distribution, and systematically formulate a robustness benchmark toolkit, that simulates these cases on any clean autonomous driving datasets. We showcase the effectiveness of our toolkit by establishing the robustness benchmark on two widely-adopted autonomous driving datasets, nuScenes and Waymo, then, to the best of our knowledge, holistically benchmark the state-of-the-art fusion methods for the first time. We observe that: i) most fusion methods, when solely developed on these data, tend to fail inevitably when there is a disruption to the LiDAR input; ii) the improvement of the camera input is significantly inferior to the LiDAR one. We further propose an efficient robust training strategy to improve the robustness of the current fusion method. The benchmark and code are available at https://github.com/kcyu2014/lidar-camera-robust-benchmark
翻訳日:2022-06-01 03:11:36 公開日:2022-05-30
# (参考訳) FedAUXfdp: 独自の1ショットフェデレーション蒸留

FedAUXfdp: Differentially Private One-Shot Federated Distillation ( http://arxiv.org/abs/2205.14960v1 )

ライセンス: CC BY 4.0
Haley Hoech, Roman Rischke, Karsten M\"uller, Wojciech Samek(参考訳) フェデレーション学習は、非iidのローカルデータセット、すなわち、クライアントのデータの分布が不均一である場合に発生する。 この課題に対する1つの有望なアプローチは、高度に異質なクライアントデータに対する堅牢な結果を伴うフェデレーション蒸留の拡張である、最近提案されたFedAUXである。 FedAUXは部分的に$(\epsilon, \delta)$-differentially privateメソッドである。 この研究はFedAUXfdpと呼ばれる完全微分プライベート拡張に寄与する。 大規模な画像データセット上でのディープネットワークの実験では、強力な差分プライバシー保証を持つFedAUXfdpは、単一の通信ラウンドで、非IDクライアントデータ上の他の平等に民営化されたSOTAベースラインよりも大幅にパフォーマンスが向上する。 完全な民営化は、あらゆるレベルのデータの不均一性において、絶対的な精度の低下をもたらす。

Federated learning suffers in the case of non-iid local datasets, i.e., when the distributions of the clients' data are heterogeneous. One promising approach to this challenge is the recently proposed method FedAUX, an augmentation of federated distillation with robust results on even highly heterogeneous client data. FedAUX is a partially $(\epsilon, \delta)$-differentially private method, insofar as the clients' private data is protected in only part of the training it takes part in. This work contributes a fully differentially private extension, termed FedAUXfdp. In experiments with deep networks on large-scale image datasets, FedAUXfdp with strong differential privacy guarantees performs significantly better than other equally privatized SOTA baselines on non-iid client data in just a single communication round. Full privatization results in a negligible reduction in accuracy at all levels of data heterogeneity.
翻訳日:2022-06-01 02:53:42 公開日:2022-05-30
# (参考訳) ab-initio型エネルギー表面ネットワークのサンプリングフリー推定

Sampling-free Inference for Ab-Initio Potential Energy Surface Networks ( http://arxiv.org/abs/2205.14962v1 )

ライセンス: CC BY 4.0
Nicholas Gao, Stephan G\"unnemann(参考訳) 分子系のエネルギーを得るには、典型的には関連するシュリンガー方程式を解く必要がある。 残念ながら、解析解は単一電子系にのみ存在し、正確な近似解は高価である。 近年の研究では、多くのジオメトリに対してシュリンガー方程式を同時に解くことでトレーニング時間を短縮するために、ポテンシャルエネルギー表面ネットワーク(PESNet)が提案されている。 トレーニングは大幅に速くなったが、推論には数ジオメトリに限定した数値積分が必要だった。 本稿では,ab-initio networks (planet) フレームワークからの潜在的な学習を提案し,高価なモンテカルロ統合を回避するサロゲートモデルを同時に学習することにより,推論時間を数分から数時間からミリ秒に短縮する。 このようにして、従来ニューラルウェーブ関数によって観測できなかった高分解能多次元エネルギー表面を正確にモデル化することができる。 最後に、PESNetのアーキテクチャ改善であるPESNet++を紹介し、エラーを最大39%削減し、評価されたすべてのシステムにおけるニューラルウェーブ関数の最新の結果を提供する。

Obtaining the energy of molecular systems typically requires solving the associated Schr\"odinger equation. Unfortunately, analytical solutions only exist for single-electron systems, and accurate approximate solutions are expensive. In recent work, the potential energy surface network (PESNet) has been proposed to reduce training time by solving the Schr\"odinger equation for many geometries simultaneously. While training significantly faster, inference still required numerical integration limiting the evaluation to a few geometries. Here, we address the inference shortcomings by proposing the Potential learning from ab-initio Networks (PlaNet) framework to simultaneously train a surrogate model that avoids expensive Monte-Carlo integration and, thus, reduces inference time from minutes or even hours to milliseconds. In this way, we can accurately model high-resolution multi-dimensional energy surfaces that previously would have been unobtainable via neural wave functions. Finally, we present PESNet++, an architectural improvement to PESNet, that reduces errors by up to 39% and provides new state-of-the-art results for neural wave functions across all systems evaluated.
翻訳日:2022-06-01 02:42:58 公開日:2022-05-30
# (参考訳) psnet:point cloud上の階層型ディープラーニングのための高速データ構造化

PSNet: Fast Data Structuring for Hierarchical Deep Learning on Point Cloud ( http://arxiv.org/abs/2205.14965v1 )

ライセンス: CC BY 4.0
Luyang Li, Ligang He, Jinjin Gao and Xie Han(参考訳) ポイントクラウド上のローカル領域の特徴情報を保持するために、ローカルグループ化とサブサンプリングは、ほとんどの階層的ディープラーニングモデルにおいて必要なデータ構造化ステップである。 ポイントクラウド内のポイントの障害性のため、ポイントをグループ化してサブサンプリングする際にかなりの時間コストが消費され、結果としてスケーラビリティが低下する。 本稿ではPSNet(Point Structuring Net)と呼ばれる高速なデータ構造化手法を提案する。 psnetはポイントの空間的特徴を変換し、ポイントクラウド内のローカル領域の特徴にマッチさせる。 PSNetはグループ化とサンプリングを同時に達成し、既存のメソッドは2つの別々のステップ(FPS+kNNなど)でサンプリングとグループ化を行う。 既存の手法では,グループ化の基準として点間の空間的関係を用いて,特徴変換をポイントワイズで行う。 これらの機能のおかげで、PSNetには2つの重要な利点がある。 1)psnetによるグループ化・サンプリング結果は安定であり、置換不変である。 2)PSNetを容易に並列化できる。 PSNetは、主流のクラウドディープラーニングモデルのデータ構造化方法をプラグアンドプレイで置き換えることができる。 我々は広範な実験を行った。 その結果,psnetはモデルの精度を維持しつつ,トレーニングと推論速度を大幅に向上できることがわかった。

In order to retain more feature information of local areas on a point cloud, local grouping and subsampling are the necessary data structuring steps in most hierarchical deep learning models. Due to the disorder nature of the points in a point cloud, the significant time cost may be consumed when grouping and subsampling the points, which consequently results in poor scalability. This paper proposes a fast data structuring method called PSNet (Point Structuring Net). PSNet transforms the spatial features of the points and matches them to the features of local areas in a point cloud. PSNet achieves grouping and sampling at the same time while the existing methods process sampling and grouping in two separate steps (such as using FPS plus kNN). PSNet performs feature transformation pointwise while the existing methods uses the spatial relationship among the points as the reference for grouping. Thanks to these features, PSNet has two important advantages: 1) the grouping and sampling results obtained by PSNet is stable and permutation invariant; and 2) PSNet can be easily parallelized. PSNet can replace the data structuring methods in the mainstream point cloud deep learning models in a plug-and-play manner. We have conducted extensive experiments. The results show that PSNet can improve the training and reasoning speed significantly while maintaining the model accuracy.
翻訳日:2022-06-01 02:23:25 公開日:2022-05-30
# (参考訳) GMMLは必要なものすべて

GMML is All you Need ( http://arxiv.org/abs/2205.14986v1 )

ライセンス: CC BY 4.0
Sara Atito and Muhammad Awais and Josef Kittler(参考訳) ビジョントランスフォーマーは、高度に制限されたローカルでも、あるいは長距離のグローバルでも、文脈情報を利用する柔軟性のために、コンピュータビジョンコミュニティに大きな関心を集めている。 しかし、データは空腹であることが知られている。 これは、ラベルによって伝達される意味情報をデコードする必要がなく、むしろ類似性の概念を反映した画像データの簡潔な表現の抽出に直接焦点を当て、迷惑要因に不変である自己教師付きトランスフォーマプリトレーニングの研究の動機となっている。 自己学習法の大部分で使用されている自己学習プロセスの主要な手段は、トレーニングデータの複数ビューの生成と、これらのビューを使用して画像類似性の概念とデータの完全性を定義するプリテキストタスクの作成である。 しかし、このアプローチは文脈情報を抽出する自然な妥当性に欠ける。 画像内のすべての概念に存在するコンテキスト情報を抽出する機能を備えた、ビジョントランスフォーマーを事前学習するための自己教師付き学習(SSL)機構であるグループマスクモデル学習(GMML)を提案する。 GMMLは、連結トークンのランダムなグループを操作し、セマンティックな概念の有意義な部分を包含し、概念の可視的な部分から隠されたセマンティック情報を復元することでこれを実現できる。 GMMLは暗黙的に新しいデータ拡張プロセスを導入する。 既存のSSLアプローチとは異なり、GMMLは運動量エンコーダを必要とせず、大規模なバッチや勾配停止といった実装の詳細に依存しない。 ソースコードはコミュニティが大きなコーパスでトレーニングできる。 https://github.com/sara-ahmed/gmml。

Vision transformers have generated significant interest in the computer vision community because of their flexibility in exploiting contextual information, whether it is sharply confined local, or long range global. However, they are known to be data hungry. This has motivated the research in self-supervised transformer pretraining, which does not need to decode the semantic information conveyed by labels to link it to the image properties, but rather focuses directly on extracting a concise representation of the image data that reflects the notion of similarity, and is invariant to nuisance factors. The key vehicle for the self-learning process used by the majority of self-learning methods is the generation of multiple views of the training data and the creation of pretext tasks which use these views to define the notion of image similarity, and data integrity. However, this approach lacks the natural propensity to extract contextual information. We propose group masked model learning (GMML), a self-supervised learning (SSL) mechanism for pretraining vision transformers with the ability to extract the contextual information present in all the concepts in an image. GMML achieves this by manipulating randomly groups of connected tokens, ensuingly covering a meaningful part of a semantic concept, and then recovering the hidden semantic information from the visible part of the concept. GMML implicitly introduces a novel data augmentation process. Unlike most of the existing SSL approaches, GMML does not require momentum encoder, nor rely on careful implementation details such as large batches and gradient stopping, which are all artefacts of most of the current self-supervised learning techniques. The source code is publicly available for the community to train on bigger corpora: https://github.com/Sara-Ahmed/GMML.
翻訳日:2022-06-01 01:54:21 公開日:2022-05-30
# (参考訳) ノイズシミュレータと実量子ハードウェア上でデュアルpqc ganを実行する

Running the Dual-PQC GAN on noisy simulators and real quantum hardware ( http://arxiv.org/abs/2205.15003v1 )

ライセンス: CC BY 4.0
Su Yeon Chang, Edwin Agnew, El\'ias F. Combarro, Michele Grossi, Steven Herbert, and Sofia Vallecorsa(参考訳) 先程の研究では,量子GANの先進的なプロトタイプであるGAN(Generative Adversarial Networks)を導入し,PQC(Dual-Parameterized Quantum Circuit)を導入した。 超高エネルギー物理学 (hep) の応用事例として, 問題の大きさを小さくしたカロリメータ応答の厳密な理論的シミュレーションを適用した。 本稿では,近距離量子デバイスを用いたデプロイメントを成功させるために克服すべき主要な障害である,異なる種類の量子ノイズの存在下での性能をテストすることによって,より実用的な使用法としてデュアルPQC GANについて検討する。 結果は現行のハードウェア上でモデルを実行する可能性を提案するが、いくつかの分野では改善が必要である。

In an earlier work, we introduced dual-Parameterized Quantum Circuit (PQC) Generative Adversarial Networks (GAN), an advanced prototype of a quantum GAN. We applied the model on a realistic High-Energy Physics (HEP) use case: the exact theoretical simulation of a calorimeter response with a reduced problem size. This paper explores the dual- PQC GAN for a more practical usage by testing its performance in the presence of different types of quantum noise, which are the major obstacles to overcome for successful deployment using near-term quantum devices. The results propose the possibility of running the model on current real hardware, but improvements are still required in some areas.
翻訳日:2022-06-01 01:33:28 公開日:2022-05-30
# (参考訳) 非定常依存多クラス分類のための効率的な変換ガウス過程

Efficient Transformed Gaussian Processes for Non-Stationary Dependent Multi-class Classification ( http://arxiv.org/abs/2205.15008v1 )

ライセンス: CC BY-SA 4.0
Juan Maro\~nas and Daniel Hern\'andez-Lobato(参考訳) この研究は、以下に特徴付けられるC確率過程を作成する新しい方法であるETGP(Efficient Transformed Gaussian Process)を紹介する。 1) C 過程は非定常である。 2) c過程は混合行列を必要とせずに構成に依存する。 3) ガウス過程(gp)の操作数(例えば、誘導点の共分散行列を反転させる)はプロセス数に依存しないため、トレーニングと予測は非常に効率的である。 これにより、ETGPは、非常に多くのクラスを持つマルチクラス問題に特に適しており、この研究で研究されている問題である。 ETGPは、最近提案された変換ガウス過程 (Transformed Gaussian Process, TGP) を利用する。 しかし、TGPとは異なり、ETGPはC可逆変換を用いて1つのサンプルをGPから変換することで構成される。 提案モデルの効率的なスパース変分推論アルゴリズムを導出し,低/中/大規模データセットと異なる数のクラスを含む5つの分類タスクにおいて,その有用性を示す。 以上の結果から,ETGP は,GP に基づくマルチクラス分類における最先端の手法よりも高い性能を示し,計算コストが低く(桁違いに小さい)。

This work introduces the Efficient Transformed Gaussian Process (ETGP), a new way of creating C stochastic processes characterized by: 1) the C processes are non-stationary, 2) the C processes are dependent by construction without needing a mixing matrix, 3) training and making predictions is very efficient since the number of Gaussian Processes (GP) operations (e.g. inverting the inducing point's covariance matrix) do not depend on the number of processes. This makes the ETGP particularly suited for multi-class problems with a very large number of classes, which are the problems studied in this work. ETGPs exploit the recently proposed Transformed Gaussian Process (TGP), a stochastic process specified by transforming a Gaussian Process using an invertible transformation. However, unlike TGPs, ETGPs are constructed by transforming a single sample from a GP using C invertible transformations. We derive an efficient sparse variational inference algorithm for the proposed model and demonstrate its utility in 5 classification tasks which include low/medium/large datasets and a different number of classes, ranging from just a few to hundreds. Our results show that ETGPs, in general, outperform state-of-the-art methods for multi-class classification based on GPs, and have a lower computational cost (around one order of magnitude smaller).
翻訳日:2022-06-01 01:28:44 公開日:2022-05-30
# (参考訳) 因果推論に適した確率的ファジィ論理フレームワーク

A Fundamental Probabilistic Fuzzy Logic Framework Suitable for Causal Reasoning ( http://arxiv.org/abs/2205.15016v1 )

ライセンス: CC BY 4.0
Amir Saki and Usef Faghihi(参考訳) 本稿では,確率論とファジィ論理を橋渡しする基本的な枠組みを提案する。 実際、我々の理論は、あるファジィ属性を持つクリープ要素を選択するランダムな実験を定式化している。 そこで我々は,いくつかの特異な確率変数をランダムな実験に関連付ける。 その後、いくつかの式が提示され、異なる条件確率とこれらの確率変数の期待値の計算が容易になる。 また,確率的ファジィ論理の枠組みに対する測度理論的基礎を提供する。 この理論では、上記の確率変数から生じる連続分布の確率密度関数は項としてディラックデルタ関数を含むことに注意されたい。 さらに,この理論の因果推論への応用について紹介する。

In this paper, we introduce a fundamental framework to create a bridge between Probability Theory and Fuzzy Logic. Indeed, our theory formulates a random experiment of selecting crisp elements with the criterion of having a certain fuzzy attribute. To do so, we associate some specific crisp random variables to the random experiment. Then, several formulas are presented, which make it easier to compute different conditional probabilities and expected values of these random variables. Also, we provide measure theoretical basis for our probabilistic fuzzy logic framework. Note that in our theory, the probability density functions of continuous distributions which come from the aforementioned random variables include the Dirac delta function as a term. Further, we introduce an application of our theory in Causal Inference.
翻訳日:2022-06-01 01:27:29 公開日:2022-05-30
# (参考訳) x-scitldr : 学術文献の言語横断的極端な要約

X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents ( http://arxiv.org/abs/2205.15051v1 )

ライセンス: CC BY 4.0
Sotaro Takeshita, Tommaso Green, Niklas Friedrich, Kai Eckert and Simone Paolo Ponzetto(参考訳) 現代の科学出版物の数は急速に増加しており、研究者の情報が過負荷になり、研究者が現在の傾向や仕事の行に追随することが難しくなっている。 その結果, 学術出版にテキストマイニング技術を適用した最近の研究は, 極端な要約を含む自動要約技術の適用について検討している。 しかし、以前の研究は、主に英語で、単言語的な設定にのみ集中していた。 本稿では、この研究のギャップを埋め、学術分野における4つの異なる言語を対象とした抽象的言語横断要約データセットを提示し、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語の要約を生成するモデルを訓練し、評価する。 我々は,多言語要約のための新しいX-SCITLDRデータセットと,2段階の 'summarize and translate' アプローチと直交言語モデルを含む,最先端の多言語事前学習モデルに基づいて,様々なモデルを徹底的にベンチマークする。 さらに,英語の単言語要約と機械翻訳を中間タスクとして,中間段階学習の利点を探求し,ゼロ・マイ・ショットのシナリオでの性能分析を行った。

The number of scientific publications nowadays is rapidly increasing, causing information overload for researchers and making it hard for scholars to keep up to date with current trends and lines of work. Consequently, recent work on applying text mining technologies for scholarly publications has investigated the application of automatic text summarization technologies, including extreme summarization, for this domain. However, previous work has concentrated only on monolingual settings, primarily in English. In this paper, we fill this research gap and present an abstractive cross-lingual summarization dataset for four different languages in the scholarly domain, which enables us to train and evaluate models that process English papers and generate summaries in German, Italian, Chinese and Japanese. We present our new X-SCITLDR dataset for multilingual summarization and thoroughly benchmark different models based on a state-of-the-art multilingual pre-trained model, including a two-stage `summarize and translate' approach and a direct cross-lingual model. We additionally explore the benefits of intermediate-stage training using English monolingual summarization and machine translation as intermediate tasks and analyze performance in zero- and few-shot scenarios.
翻訳日:2022-06-01 01:25:33 公開日:2022-05-30
# (参考訳) 耐震補強力を有するモデルベース強化学習によるストックトレーディング最適化

Stock Trading Optimization through Model-based Reinforcement Learning with Resistance Support Relative Strength ( http://arxiv.org/abs/2205.15056v1 )

ライセンス: CC BY 4.0
Huifang Huang, Ting Gao, Yi Gui, Jin Guo, Peng Zhang(参考訳) エージェントと環境の相互作用フレームワークは多くのビジネス問題において意思決定プロセスと整合しているため、強化学習(RL)は量的金融の研究者によって注目を集めている。 RLアルゴリズムを用いた現在の金融アプリケーションのほとんどはモデルフリーの手法に基づいており、依然として安定性と適応性の課題に直面している。 ビデオゲームやロボティクスなどのアプリケーションで成熟した最先端モデルベース強化学習(MBRL)アルゴリズムが多数存在するため、MBRLにおけるアクションの正規化用語として抵抗とサポート(RS)レベルを活用する新しいアプローチを設計し、アルゴリズムの効率と安定性を向上させる。 実験結果から, 市場タイミング手法としてのrsレベルは, 種々の測定値の観点から, 純mbrlモデルの性能を高め, リスクを低減し, 良好な利益を得ることができた。 また、金融市場が予測不能な危機に陥っている新型コロナウイルス(covid-19)のパンデミック期間において、提案手法は大きな下落(最大デダウン)にも耐えうる。 また, アクタ・アクタ・ネットワークの損失や遷移力学モデルの予測誤差などの数値実験により, MBRLの抵抗制御と支持レベルが向上する理由を考察した。 RSインジケータは、MBRLアルゴリズムが早期に早く収束し、トレーニングエピソードが増加するにつれて、批評家の損失が小さくなることを示す。

Reinforcement learning (RL) is gaining attention by more and more researchers in quantitative finance as the agent-environment interaction framework is aligned with decision making process in many business problems. Most of the current financial applications using RL algorithms are based on model-free method, which still faces stability and adaptivity challenges. As lots of cutting-edge model-based reinforcement learning (MBRL) algorithms mature in applications such as video games or robotics, we design a new approach that leverages resistance and support (RS) level as regularization terms for action in MBRL, to improve the algorithm's efficiency and stability. From the experiment results, we can see RS level, as a market timing technique, enhances the performance of pure MBRL models in terms of various measurements and obtains better profit gain with less riskiness. Besides, our proposed method even resists big drop (less maximum drawdown) during COVID-19 pandemic period when the financial market got unpredictable crisis. Explanations on why control of resistance and support level can boost MBRL is also investigated through numerical experiments, such as loss of actor-critic network and prediction error of the transition dynamical model. It shows that RS indicators indeed help the MBRL algorithms to converge faster at early stage and obtain smaller critic loss as training episodes increase.
翻訳日:2022-06-01 00:59:06 公開日:2022-05-30
# (参考訳) 二重会話:音声対話システムにおけるヒューマンライクな対話を目指して

Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue System ( http://arxiv.org/abs/2205.15060v1 )

ライセンス: CC BY 4.0
Ting-En Lin, Yuchuan Wu, Fei Huang, Luo Si, Jian Sun, Yongbin Li(参考訳) 本稿では,電話エージェントが人間のような顧客と対話できるマルチターン・マルチモーダル音声対話システムであるDuplex Conversationを提案する。 我々は,電気通信におけるフルデュプレックスの概念を用いて,ユーザ状態検出,バックチャネル選択,バージイン検出の3つのサブタスクによるスムーズなターンテイクを実現する方法を示す。 さらに,ラベルなしデータの活用によるモデル一般化の促進を目的とした,マルチモーダルデータ拡張による半教師付き学習を提案する。 3つのサブタスクの実験結果から,提案手法はベースラインに比べて一貫した改善が得られた。 Duplex ConversationをAlibabaのインテリジェントなカスタマーサービスにデプロイし、本番で学んだ教訓を共有します。 オンラインA/B実験の結果,提案システムは応答遅延を50%削減できることがわかった。

In this paper, we present Duplex Conversation, a multi-turn, multimodal spoken dialogue system that enables telephone-based agents to interact with customers like a human. We use the concept of full-duplex in telecommunication to demonstrate what a human-like interactive experience should be and how to achieve smooth turn-taking through three subtasks: user state detection, backchannel selection, and barge-in detection. Besides, we propose semi-supervised learning with multimodal data augmentation to leverage unlabeled data to increase model generalization. Experimental results on three sub-tasks show that the proposed method achieves consistent improvements compared with baselines. We deploy the Duplex Conversation to Alibaba intelligent customer service and share lessons learned in production. Online A/B experiments show that the proposed system can significantly reduce response latency by 50%.
翻訳日:2022-06-01 00:43:03 公開日:2022-05-30
# (参考訳) ディープラーニングエネルギー消費スケーリングのためのトランジスタ操作モデル

A Transistor Operations Model for Deep Learning Energy Consumption Scaling ( http://arxiv.org/abs/2205.15062v1 )

ライセンス: CC BY 4.0
Chen Li, Antonios Tsourdos, Weisi Guo(参考訳) 深層学習(DL)は、幅広い産業の自動化を変革し、社会のユビキティを高めている。 DLモデルの複雑さの増大とその普及により、エネルギー消費は3~4ヶ月ごとに倍増した。 現在,DLモデルの構成とエネルギー消費の関係はよく分かっていない。 現在のフロップとmacsベースの方法は線形演算のみを考える。 本稿では,DLモデル構成によるエネルギー消費スケーリングにおける活性化関数とニューラルネットワーク構造の役割を明らかにするため,ボトムレベルトランジスタ操作(TOs)手法を開発した。 TOsは、非線形操作(例えば、アクティベーション関数とバッチ正規化によって実行される分割/ルート操作)によって実行される役割を明らかにすることができる。 そこで,提案したTOsモデルは,モデル設定によるエネルギー消費のスケールのハードウェアに依存しない指標を提供する。 本研究を検証するために, フィードフォワードdnnモデルセットのtosエネルギースケーリングを解析し, 98.2% - 99.97%の精度でエネルギー消費量を推定した。 この作業はどんなDLモデルにも拡張できると考えています。

Deep Learning (DL) has transformed the automation of a wide range of industries and finds increasing ubiquity in society. The increasing complexity of DL models and its widespread adoption has led to the energy consumption doubling every 3-4 months. Currently, the relationship between DL model configuration and energy consumption is not well established. Current FLOPs and MACs based methods only consider the linear operations. In this paper, we develop a bottom-level Transistor Operations (TOs) method to expose the role of activation functions and neural network structure in energy consumption scaling with DL model configuration. TOs allows us uncovers the role played by non-linear operations (e.g. division/root operations performed by activation functions and batch normalisation). As such, our proposed TOs model provides developers with a hardware-agnostic index for how energy consumption scales with model settings. To validate our work, we analyse the TOs energy scaling of a feed-forward DNN model set and achieve a 98.2% - 99.97% precision in estimating its energy consumption. We believe this work can be extended to any DL model.
翻訳日:2022-06-01 00:28:03 公開日:2022-05-30
# (参考訳) グラスマン多様体上の埋め込みグラフ

Embedding Graphs on Grassmann Manifold ( http://arxiv.org/abs/2205.15068v1 )

ライセンス: CC BY 4.0
Bingxin Zhou, Xuebin Zheng, Yu Guang Wang, Ming Li, Junbin Gao(参考訳) 効率的なグラフ表現の学習は、ノードやグラフプロパティの予測など、グラフ上の下流タスクに好意的に対処する鍵である。 グラフの非ユークリッド構造的性質を考えると、埋め込み空間における元のグラフデータの類似性関係を保つには、特定のツールと類似度メートル法が必要である。 本稿では,グラスマン多様体に近似した2階グラフ特性を組み込んだ新しいグラフ表現学習手法EGGを提案する。 提案した戦略はグラフ畳み込みを利用してグラフの対応する部分空間の隠れ表現を学習し、そのグラフはトランケートされた特異値分解(SVD)を通して低次元多様体のグラスマン点に写像される。 確立されたグラフ埋め込みは、ユークリッド計算のための対称行列空間の形で実装されたノード属性の分解相関を近似する。 EGGの有効性はノードレベルとグラフレベルでのクラスタリングと分類タスクの両方を用いて示される。 様々なベンチマークでベースラインモデルを上回っている。

Learning efficient graph representation is the key to favorably addressing downstream tasks on graphs, such as node or graph property prediction. Given the non-Euclidean structural property of graphs, preserving the original graph data's similarity relationship in the embedded space needs specific tools and a similarity metric. This paper develops a new graph representation learning scheme, namely EGG, which embeds approximated second-order graph characteristics into a Grassmann manifold. The proposed strategy leverages graph convolutions to learn hidden representations of the corresponding subspace of the graph, which is then mapped to a Grassmann point of a low dimensional manifold through truncated singular value decomposition (SVD). The established graph embedding approximates denoised correlationship of node attributes, as implemented in the form of a symmetric matrix space for Euclidean calculation. The effectiveness of EGG is demonstrated using both clustering and classification tasks at the node level and graph level. It outperforms baseline models on various benchmarks.
翻訳日:2022-06-01 00:12:16 公開日:2022-05-30
# (参考訳) 後悔分解によるグラフフィードバックによるバンディット改善アルゴリズム

Improved Algorithms for Bandit with Graph Feedback via Regret Decomposition ( http://arxiv.org/abs/2205.15076v1 )

ライセンス: CC BY 4.0
Yuchen He and Chihao Zhang(参考訳) グラフフィードバックによるバンディットの問題は、多腕バンディット(MAB)問題と専門家のアドバイスによる学習の両方を、ゲームの各ラウンドで損失ベクトルがどのように観測できるかを有向グラフにエンコードすることで一般化する。 ミニマックスの後悔はフィードバックグラフの構造と密接に関連しており、それらのつながりが完全には理解されていない。 本稿では,フィードバックグラフの分割に基づく問題に対する新しいアルゴリズムフレームワークを提案する。 本分析では,小部分による後悔の和と,その相互作用による後悔の和を分解することにより,グラフの様々な部分間の相互作用を明らかにする。 その結果,本アルゴリズムはmabのための最適アルゴリズムの補間と一般化であり,専門家のアドバイスにより学習することができる。 提案手法は, 強可観測グラフと弱可観測グラフの両方に対して, 従来のアルゴリズムを統一し, 有界次数グラフと弱可観測グラフを含む多種多様なグラフファミリにおいて, 改良および最適可観測限界を生成する。

The problem of bandit with graph feedback generalizes both the multi-armed bandit (MAB) problem and the learning with expert advice problem by encoding in a directed graph how the loss vector can be observed in each round of the game. The mini-max regret is closely related to the structure of the feedback graph and their connection is far from being fully understood. We propose a new algorithmic framework for the problem based on a partition of the feedback graph. Our analysis reveals the interplay between various parts of the graph by decomposing the regret to the sum of the regret caused by small parts and the regret caused by their interaction. As a result, our algorithm can be viewed as an interpolation and generalization of the optimal algorithms for MAB and learning with expert advice. Our framework unifies previous algorithms for both strongly observable graphs and weakly observable graphs, resulting in improved and optimal regret bounds on a wide range of graph families including graphs of bounded degree and strongly observable graphs with a few corrupted arms.
翻訳日:2022-05-31 23:58:06 公開日:2022-05-30
# (参考訳) CGMN: 自己監督型グラフ類似学習のためのコントラストグラフマッチングネットワーク

CGMN: A Contrastive Graph Matching Network for Self-Supervised Graph Similarity Learning ( http://arxiv.org/abs/2205.15083v1 )

ライセンス: CC BY 4.0
Di Jin, Luzhi Wang, Yizhen Zheng, Xiang Li, Fei Jiang, Wei Lin, Shirui Pan(参考訳) グラフ類似度学習(Graph similarity learning)とは、2つのグラフ間の類似度スコアを計算することであり、視覚的トラッキング、グラフ分類、協調フィルタリングなど多くの現実的なアプリケーションで必要とされる。 既存のグラフニューラルネットワークの多くは、単一のグラフの効果的なグラフ表現を提供するため、2つのグラフ表現を共同学習し、それらの類似度スコアを計算するための努力はほとんど行われていない。 さらに、既存の教師なしグラフ類似性学習法は主にクラスタリングに基づいており、グラフペアに具現化された貴重な情報を無視している。 そこで本研究では,2つのグラフオブジェクト間の類似性を計算するために,自己教師付きグラフ類似性学習のためのコントラッシブグラフマッチングネットワーク(CGMN)を提案する。 具体的には,各グラフに対してそれぞれ2つの拡張ビューを生成する。 次に,効果的なノード表現学習のために,クロスビューインタラクションとクロスグラフインタラクションという2つの戦略を用いる。 前者は2つの視点でノード表現の整合性を強化する。 後者は異なるグラフ間のノード差を特定するために使用される。 最後に,ノード表現をグラフ類似性計算のためのプール演算によりグラフレベル表現に変換する。 実世界の8つのデータセット上でcgmnを評価し,提案手法がグラフ類似性学習のダウンストリームタスクにおいて最先端手法よりも優れていることを示す。

Graph similarity learning refers to calculating the similarity score between two graphs, which is required in many realistic applications, such as visual tracking, graph classification, and collaborative filtering. As most of the existing graph neural networks yield effective graph representations of a single graph, little effort has been made for jointly learning two graph representations and calculating their similarity score. In addition, existing unsupervised graph similarity learning methods are mainly clustering-based, which ignores the valuable information embodied in graph pairs. To this end, we propose a contrastive graph matching network (CGMN) for self-supervised graph similarity learning in order to calculate the similarity between any two input graph objects. Specifically, we generate two augmented views for each graph in a pair respectively. Then, we employ two strategies, namely cross-view interaction and cross-graph interaction, for effective node representation learning. The former is resorted to strengthen the consistency of node representations in two views. The latter is utilized to identify node differences between different graphs. Finally, we transform node representations into graph-level representations via pooling operations for graph similarity computation. We have evaluated CGMN on eight real-world datasets, and the experiment results show that the proposed new approach is superior to the state-of-the-art methods in graph similarity learning downstream tasks.
翻訳日:2022-05-31 22:27:14 公開日:2022-05-30
# (参考訳) Webリポジトリから関連JavaScriptテクノロジの検索とランク付け

Retrieving and Ranking Relevant JavaScript Technologies from Web Repositories ( http://arxiv.org/abs/2205.15086v1 )

ライセンス: CC BY 4.0
Hernan C. Vazquez, J. Andres Diaz Pace, Claudia Marcos and Santiago Vidal(参考訳) ソフトウェア技術の選択は重要だが複雑な作業である。 我々は、JSライブラリの評価が困難で時間を要するようになったJavaScript(JS)アプリケーションの開発者について検討している。 一般的な戦略は、検索エンジン(NPMやGoogleなど)でソフトウェアリポジトリを閲覧することである。 第一に、技術が必要な場合、エンジンは結果の長いリストを返却し、しばしば情報過負荷の問題を発生させる。 第二に、結果は開発者の関心の基準に従ってランク付けされるべきである。 しかし、これらの基準をどう重み付けして意思決定するかを決めるのは簡単ではありません。 本研究では,JS技術を半自動で検索・ランク付けする2段階のアプローチを提案する。 第1フェーズ(st-retrieval)は、開発者のニーズを満たすjsテクノロジの収集にメタ検索技術を使用する。 第2フェーズ(ST-Rankと呼ばれる)は、ST-Retrievalの出力ランキングであるWebの他のプロジェクトによって使用される基準に基づいて、推論する機械学習技術に依存している。 提案手法をnpmを用いて評価し,検索した技術の精度とランク付けの順序から満足な結果を得た。

The selection of software technologies is an important but complex task. We consider developers of JavaScript (JS) applications, for whom the assessment of JS libraries has become difficult and time-consuming due to the growing number of technology options available. A common strategy is to browse software repositories via search engines (e.g., NPM, or Google), although it brings some problems. First, given a technology need, the engines might return a long list of results, which often causes information overload issues. Second, the results should be ranked according to criteria of interest for the developer. However, deciding how to weight these criteria to make a decision is not straightforward. In this work, we propose a two-phase approach for assisting developers to retrieve and rank JS technologies in a semi-automated fashion. The first-phase (ST-Retrieval) uses a meta-search technique for collecting JS technologies that meet the developer's needs. The second-phase (called ST-Rank), relies on a machine learning technique to infer, based on criteria used by other projects in the Web, a ranking of the output of ST-Retrieval. We evaluated our approach with NPM and obtained satisfactory results in terms of the accuracy of the technologies retrieved and the order in which they were ranked.
翻訳日:2022-05-31 22:16:50 公開日:2022-05-30
# (参考訳) FLICU:集中治療単位死亡率予測のためのフェデレーション学習ワークフロー

FLICU: A Federated Learning Workflow for Intensive Care Unit Mortality Prediction ( http://arxiv.org/abs/2205.15104v1 )

ライセンス: CC BY 4.0
Lena Mondrejevski, Ioanna Miliou, Annaclaudia Montanino, David Pitts, Jaakko Hollm\'en, Panagiotis Papapetrou(参考訳) 機械学習(ml)は、医薬品計画、臨床手順、診断、処方薬の改善をサポートするための臨床意思決定を改善する有望なツールと見なされるが、医療データへのアクセスによって制限される。 医療データは敏感で、厳格なプライバシー慣行を必要とし、典型的にはデータサイロに格納されるため、従来の機械学習は困難である。 フェデレーション学習は、機密データをローカライズしながら、データサイロ上で機械学習モデルをトレーニングすることで、これらの制限に対処することができる。 本研究はICU死亡予測のための連合学習ワークフローを提案する。 本稿では,icuの死亡率を予測するバイナリ分類問題にフェデレーション学習を導入することにより,集中型機械学習とローカル機械学習に代わるフェデレーション学習の適用性について検討する。 我々はMIMIC-IIIデータベースから多変量時系列データを抽出し,患者履歴ウィンドウ長(8h,16h,24h,48h)とFLクライアント数(2,4,8h)の4つの深部シーケンシャル分類器(FRNN,LSTM,GRU,1DCNN)の予測性能をベンチマークした。 実験では、集中型機械学習とフェデレート学習の両方が、AUPRCとF1スコアの両面で同等であることを示した。 さらに、フェデレーションアプローチは、ローカル機械学習よりも優れたパフォーマンスを示す。 したがって、病院間でセンシティブな患者データを共有する場合、icu死亡率を分類するための集中型機械学習の有効かつプライバシー保全的な代替手段と見なすことができる。

Although Machine Learning (ML) can be seen as a promising tool to improve clinical decision-making for supporting the improvement of medication plans, clinical procedures, diagnoses, or medication prescriptions, it remains limited by access to healthcare data. Healthcare data is sensitive, requiring strict privacy practices, and typically stored in data silos, making traditional machine learning challenging. Federated learning can counteract those limitations by training machine learning models over data silos while keeping the sensitive data localized. This study proposes a federated learning workflow for ICU mortality prediction. Hereby, the applicability of federated learning as an alternative to centralized machine learning and local machine learning is investigated by introducing federated learning to the binary classification problem of predicting ICU mortality. We extract multivariate time series data from the MIMIC-III database (lab values and vital signs), and benchmark the predictive performance of four deep sequential classifiers (FRNN, LSTM, GRU, and 1DCNN) varying the patient history window lengths (8h, 16h, 24h, 48h) and the number of FL clients (2, 4, 8). The experiments demonstrate that both centralized machine learning and federated learning are comparable in terms of AUPRC and F1-score. Furthermore, the federated approach shows superior performance over local machine learning. Thus, the federated approach can be seen as a valid and privacy-preserving alternative to centralized machine learning for classifying ICU mortality when sharing sensitive patient data between hospitals is not possible.
翻訳日:2022-05-31 21:39:39 公開日:2022-05-30
# (参考訳) 拡張隣接規則に基づくk近傍近傍分類器のアンサンブルと部分集合

A k nearest neighbours classifiers ensemble based on extended neighbourhood rule and features subsets ( http://arxiv.org/abs/2205.15111v1 )

ライセンス: CC BY 4.0
Amjad Ali, Muhammad Hamraz, Naz Gul, Dost Muhammad Khan, Zardad Khan, Saeed Aldahmani(参考訳) kNNベースのアンサンブル法は、多数決投票を用いて応答を予測するために、不明瞭な観測に最も近い特徴空間内のデータポイントを識別することにより、外れ値の効果を最小化する。 kNN に基づく通常のアンサンブルは、k の事前定義された値に基づいて(球が有界な)領域において k に近い観測値を求める。 しかし、このシナリオは、テスト観察が与えられた球体に含まれない特定の経路上にある同じクラスを持つ最も近いデータポイントのパターンに従う状況ではうまくいかないかもしれない。 本稿では、近傍がkステップで決定されるk近傍アンサンブルを提案する。 テストポイントの最初の最も近い観測から始めて、アルゴリズムは前のステップで観測に最も近い1つの観測を識別する。 アンサンブルの各ベース学習者において、この探索は、特徴空間から選択された機能のランダムサブセットを持つランダムブートストラップサンプル上のkステップまで拡張される。 テストポイントの最終予測クラスは、すべてのベースモデルによって与えられる予測クラスで多数決を用いて決定される。 この新しいアンサンブル法は17のベンチマークデータセットに適用され、性能指標としてknnベースのモデル、kappa、brierスコアなど他の古典的手法と比較される。 Boxplotsは、提案手法と他の最先端手法による結果の違いを説明するためにも使われる。 提案手法は古典的手法の他の部分よりも多くのケースで優れていた。 本論文は,さらなる評価のための詳細なシミュレーション研究を行う。

kNN based ensemble methods minimise the effect of outliers by identifying a set of data points in the given feature space that are nearest to an unseen observation in order to predict its response by using majority voting. The ordinary ensembles based on kNN find out the k nearest observations in a region (bounded by a sphere) based on a predefined value of k. This scenario, however, might not work in situations when the test observation follows the pattern of the closest data points with the same class that lie on a certain path not contained in the given sphere. This paper proposes a k nearest neighbour ensemble where the neighbours are determined in k steps. Starting from the first nearest observation of the test point, the algorithm identifies a single observation that is closest to the observation at the previous step. At each base learner in the ensemble, this search is extended to k steps on a random bootstrap sample with a random subset of features selected from the feature space. The final predicted class of the test point is determined by using a majority vote in the predicted classes given by all base models. This new ensemble method is applied on 17 benchmark datasets and compared with other classical methods, including kNN based models, in terms of classification accuracy, kappa and Brier score as performance metrics. Boxplots are also utilised to illustrate the difference in the results given by the proposed and other state-of-the-art methods. The proposed method outperformed the rest of the classical methods in the majority of cases. The paper gives a detailed simulation study for further assessment.
翻訳日:2022-05-31 21:27:05 公開日:2022-05-30
# (参考訳) オンラインAgnostic Multiclass Boosting

Online Agnostic Multiclass Boosting ( http://arxiv.org/abs/2205.15113v1 )

ライセンス: CC BY 4.0
Vinod Raman, Ambuj Tewari(参考訳) boostingは、強力な理論的および実用的保証を享受する機械学習の基本的なアプローチである。 高レベルでは、強化アルゴリズムは弱い学習者を巧みに集約し、任意の精度で予測を生成する。 このように、アルゴリズムの強化は弱い学習者を強い学習者に変換する。 最近、Brukhimらにより、オンラインの非依存バイナリ分類設定が強化された。 彼らのアプローチの重要な要素は、任意のオンライン凸最適化器を非依存のオンラインブースターに効率的に変換する、オンライン凸最適化へのクリーンでシンプルな還元である。 本研究では,この削減をマルチクラス問題に拡張し,オンライン非依存な変異クラス分類のための最初のブースティングアルゴリズムを提案する。 我々の削減により、統計的非依存、オンライン実現可能、および統計的実現可能なマルチクラスブースティングのためのアルゴリズムの構築が可能になる。

Boosting is a fundamental approach in machine learning that enjoys both strong theoretical and practical guarantees. At a high-level, boosting algorithms cleverly aggregate weak learners to generate predictions with arbitrarily high accuracy. In this way, boosting algorithms convert weak learners into strong ones. Recently, Brukhim et al. extended boosting to the online agnostic binary classification setting. A key ingredient in their approach is a clean and simple reduction to online convex optimization, one that efficiently converts an arbitrary online convex optimizer to an agnostic online booster. In this work, we extend this reduction to multiclass problems and give the first boosting algorithm for online agnostic mutliclass classification. Our reduction also enables the construction of algorithms for statistical agnostic, online realizable, and statistical realizable multiclass boosting.
翻訳日:2022-05-31 21:06:44 公開日:2022-05-30
# (参考訳) 大規模テストグラフにおけるメッセージパージングGNNのOODリンク予測一般化機能

OOD Link Prediction Generalization Capabilities of Message-Passing GNNs in Larger Test Graphs ( http://arxiv.org/abs/2205.15117v1 )

ライセンス: CC BY 4.0
Yangze Zhou, Gitta Kutyniok, Bruno Ribeiro(参考訳) この研究は、グラフニューラルネットワーク(gnns)のようなグラフメッセージパッシングニューラルネットワーク(gmpnn)が、トレーニンググラフよりもデプロイ(テスト)グラフのサイズが大きい、誘導的分散(ood)リンク予測タスクを実行する能力に関する、最初の理論的研究を提供する。 まず,gMPNNで得られた置換同変(構造)ノード埋め込みに基づくリンク予測器が,テストグラフが大きくなるにつれてランダムな推測に収束することを示す。 次に、構造的対(2ノード)埋め込みを出力し、テストグラフが大きくなるにつれて、これらの埋め込みが連続関数の埋め込みに収束し、OODを予測できることを示す。 ランダムグラフにおける実験結果は理論結果と一致している。

This work provides the first theoretical study on the ability of graph Message Passing Neural Networks (gMPNNs) -- such as Graph Neural Networks (GNNs) -- to perform inductive out-of-distribution (OOD) link prediction tasks, where deployment (test) graph sizes are larger than training graphs. We first prove non-asymptotic bounds showing that link predictors based on permutation-equivariant (structural) node embeddings obtained by gMPNNs can converge to a random guess as test graphs get larger. We then propose a theoretically-sound gMPNN that outputs structural pairwise (2-node) embeddings and prove non-asymptotic bounds showing that, as test graphs grow, these embeddings converge to embeddings of a continuous function that retains its ability to predict links OOD. Empirical results on random graphs show agreement with our theoretical results.
翻訳日:2022-05-31 20:25:11 公開日:2022-05-30
# (参考訳) 戦略ゲームのための状態抽象化を用いた弾性モンテカルロ木探索

Elastic Monte Carlo Tree Search with State Abstraction for Strategy Game Playing ( http://arxiv.org/abs/2205.15126v1 )

ライセンス: CC BY 4.0
Linjie Xu, Jorge Hurtado-Grueso, Dominic Jeurissen, Diego Perez Liebana, Alexander Dockhorn(参考訳) 戦略ビデオゲームは、複雑なゲーム要素によって引き起こされる組合せ探索空間でAIエージェントに挑戦する。 状態抽象化は、状態空間の複雑さを減らす一般的なテクニックである。 しかし、現在のゲーム状態の抽象化手法はドメインの知識に依存しており、新しいゲームへの応用は高価である。 ドメイン知識を必要としない状態抽象化メソッドは、計画ドメインで広く研究されている。 しかし、戦略ゲームの複雑さに優れたスケールを示す証拠は存在しない。 本稿では,状態抽象化を用いてストラテジーゲームをプレイするアルゴリズムであるElastic MCTSを提案する。 Elastic MCTSでは、ツリーのノードは動的にクラスタ化され、まず状態抽象化によって徐々にグループ化され、次にイテレーションしきい値に達すると分離される。 弾性的な変化は、状態抽象化による効率的な探索の恩恵を受けるが、全体の探索に状態抽象化を使用することによる負の影響を避ける。 提案手法を評価するために,汎用戦略ゲームプラットフォームstrategaを用いて,複雑性の異なるシナリオを生成する。 その結果、Elastic MCTSはMCTSベースラインを大きなマージンで上回り、ツリーサイズを10ドル削減した。 コードは以下のとおり。 https://github.com/egg-west/stratega

Strategy video games challenge AI agents with their combinatorial search space caused by complex game elements. State abstraction is a popular technique that reduces the state space complexity. However, current state abstraction methods for games depend on domain knowledge, making their application to new games expensive. State abstraction methods that require no domain knowledge are studied extensively in the planning domain. However, no evidence shows they scale well with the complexity of strategy games. In this paper, we propose Elastic MCTS, an algorithm that uses state abstraction to play strategy games. In Elastic MCTS, the nodes of the tree are clustered dynamically, first grouped together progressively by state abstraction, and then separated when an iteration threshold is reached. The elastic changes benefit from efficient searching brought by state abstraction but avoid the negative influence of using state abstraction for the whole search. To evaluate our method, we make use of the general strategy games platform Stratega to generate scenarios of varying complexity. Results show that Elastic MCTS outperforms MCTS baselines with a large margin, while reducing the tree size by a factor of $10$. Code can be found at: https://github.com/egg-west/Stratega
翻訳日:2022-05-31 20:23:44 公開日:2022-05-30
# (参考訳) 不均一データの解釈モデルのための群確率重み木推定法

Group Probability-Weighted Tree Sums for Interpretable Modeling of Heterogeneous Data ( http://arxiv.org/abs/2205.15135v1 )

ライセンス: CC BY 4.0
Keyan Nasseri, Chandan Singh, James Duncan, Aaron Kornblith, Bin Yu(参考訳) 医療などのハイテイク領域における機械学習は,(1)訓練データに制限された多種多様なデータ分布を一般化し,(2)解釈可能性を維持するという,2つの重要な課題に直面している。 これらの課題に対処するために,様々なグループにまたがるデータを効果的にプールし,簡潔でルールベースのモデルを出力するインスタンス重み付きツリーサム法を提案する。 データセット内の異なるインスタンス群(例えば、年齢または治療部位別に分類された医療患者)が与えられた場合、まず各インスタンスに対するグループメンバーシップの確率を推定する。 次に、これらの推定値をFIGS(Tan et al. 2022)の例量として使用し、最終的な予測に等しい値の一連の決定木を成長させる。 この新しい手法をG-FIGS(Group Probability-Weighted Tree Sums)と呼ぶ。 G-FIGSは、重要な臨床データセットに対して最先端の予測性能を達成し、例えば92%の感度を保った場合、G-FIGSはCARTより10%、FIGS単独では3%の精度で頚椎損傷を特定するための特異性を高める。 figのルールの総数を16以下に保つことで、最終的なモデルは解釈可能であり、そのルールが医学領域の専門知識と一致していることが分かる。 すべてのコード、データ、モデルがgithubで公開されている。

Machine learning in high-stakes domains, such as healthcare, faces two critical challenges: (1) generalizing to diverse data distributions given limited training data while (2) maintaining interpretability. To address these challenges, we propose an instance-weighted tree-sum method that effectively pools data across diverse groups to output a concise, rule-based model. Given distinct groups of instances in a dataset (e.g., medical patients grouped by age or treatment site), our method first estimates group membership probabilities for each instance. Then, it uses these estimates as instance weights in FIGS (Tan et al. 2022), to grow a set of decision trees whose values sum to the final prediction. We call this new method Group Probability-Weighted Tree Sums (G-FIGS). G-FIGS achieves state-of-the-art prediction performance on important clinical datasets; e.g., holding the level of sensitivity fixed at 92%, G-FIGS increases specificity for identifying cervical spine injury by up to 10% over CART and up to 3% over FIGS alone, with larger gains at higher sensitivity levels. By keeping the total number of rules below 16 in FIGS, the final models remain interpretable, and we find that their rules match medical domain expertise. All code, data, and models are released on Github.
翻訳日:2022-05-31 20:10:24 公開日:2022-05-30
# (参考訳) 効率的なデータインプテーションアルゴリズムのための原理成分分析に基づくフレームワーク

Principle Components Analysis based frameworks for efficient missing data imputation algorithms ( http://arxiv.org/abs/2205.15150v1 )

ライセンス: CC BY-SA 4.0
Thu Nguyen, Hoang Thien Ly, Michael Alexander Riegler, P{\aa}l Halvorsen(参考訳) データの欠落は一般的に発生する問題であり、データの欠落、すなわち欠落したエントリを埋めることがこの問題に対処するための一般的な方法である。 これにより、様々な型や次元の欠落データを扱うためのインプテーションに関する複数の作業が動機付けられる。 しかし、高次元データセットの場合、これらのインプテーション手法は計算コストが高い。 そこで本研究では,原理成分分析(pca)に基づく簡易フレームワークであるprincipal component analysis imputation (pcai)を提案する。 次に,pcai(pca imputation - classification)を基礎として,データ分類問題に対処するためのインプテーション・ディメンション削減分類フレームワークであるpca imputation - classification (pic)を提案する。 実験の結果,提案フレームワークは様々な計算アルゴリズムで利用でき,計算速度を大幅に向上できることがわかった。 興味深いことに、このフレームワークはデータ次元を減らすことで多くのパラメータに依存するインプテーションメソッドをサポートし、従って推定に必要なパラメータの数を減少させる。 さらに、元の欠落したデータセットの従来の計算スタイルと比較して平均二乗誤差/高い分類精度を達成できるだけでなく、多くの場合、より良い結果が得られる。 さらに、フレームワークは、多くのインプテーションアプローチが持つメモリ問題に対処するのにも役立ちます。

Missing data is a commonly occurring problem in practice, and imputation, i.e., filling the missing entries of the data, is a popular way to deal with this problem. This motivates multiple works on imputation to deal with missing data of various types and dimensions. However, for high-dimensional datasets, these imputation methods can be computationally expensive. Therefore, in this work, we propose Principle Component Analysis Imputation (PCAI), a simple framework based on Principle Component Analysis (PCA) to speed up the imputation process of many available imputation techniques. Next, based on PCAI, we propose PCA Imputation - Classification (PIC), an imputation-dimension reduction-classification framework to deal with missing data classification problems where it is desirable to reduce the dimensions before training a classification model. Our experiments show that the proposed frameworks can be utilized with various imputation algorithms and improve the imputation speed significantly. Interestingly, the frameworks aid imputation methods that rely on many parameters by reducing the dimension of the data and hence, reducing the number of parameters needed to be estimated. Moreover, they not only can achieve compatible mean square error/higher classification accuracy compared to the traditional imputation style on the original missing dataset but many times deliver even better results. In addition, the frameworks also help to tackle the memory issue that many imputation approaches have by reducing the number of features.
翻訳日:2022-05-31 19:51:06 公開日:2022-05-30
# (参考訳) 時系列クラスタリングのための弾性距離関数のレビューと評価

A Review and Evaluation of Elastic Distance Functions for Time Series Clustering ( http://arxiv.org/abs/2205.15181v1 )

ライセンス: CC BY 4.0
Chris Holder, Matthew Middlehurst and Anthony Bagnall(参考訳) 時系列クラスタリングは、ラベルを参照せずに時系列データをグループ化する行為である。 時系列をクラスタ化するアルゴリズムは、2つのグループに分類できる: 時系列固有の距離尺度を用いるアルゴリズムと、時系列から特徴を導出するアルゴリズムである。 どちらのアプローチも通常、$k$-meansのような従来のクラスタリングアルゴリズムに依存している。 我々の焦点は、弾性距離測度、すなわち距離を測りながらある種の配向を行う距離を用いる距離に基づく時系列である。 9つの一般的な弾性距離測度を記述し,k平均およびkメロイドクラスタリングとの比較を行った。 私たちの発見は驚きです。 最も一般的なテクニックであるdynamic time warping(dtw)は、k-meansとのユークリッド距離よりもパフォーマンスが悪く、チューニングしても良いものではない。 k-平均ではなくk-メディドを用いることで、9つの距離測定のクラスタリングが改善された。 DTWは、k-メドイドとのユークリッド距離ほど良くない。 一般に, 整経とともに編集を行う距離測定は良好であり, 1 つの距離測定法であるmove-split-merge-merge (msm) 法が最良である。 また,DBA(Barycentre averaging)を用いたDTWによるクラスタリングとの比較を行った。 DBA は DTW k-means を改善するが,標準 DBA は MSM よりも悪い。 我々の結論は、弾性距離測定による時系列のクラスタリングのベンチマークアルゴリズムとして、k-メディドを用いたMSMを推奨することである。 関連するGitHubリポジトリで、結果の再現に関する実装、結果、ガイダンスを提供します。

Time series clustering is the act of grouping time series data without recourse to a label. Algorithms that cluster time series can be classified into two groups: those that employ a time series specific distance measure; and those that derive features from time series. Both approaches usually rely on traditional clustering algorithms such as $k$-means. Our focus is on distance based time series that employ elastic distance measures, i.e. distances that perform some kind of realignment whilst measuring distance. We describe nine commonly used elastic distance measures and compare their performance with k-means and k-medoids clustering. Our findings are surprising. The most popular technique, dynamic time warping (DTW), performs worse than Euclidean distance with k-means, and even when tuned, is no better. Using k-medoids rather than k-means improved the clusterings for all nine distance measures. DTW is not significantly better than Euclidean distance with k-medoids. Generally, distance measures that employ editing in conjunction with warping perform better, and one distance measure, the move-split-merge (MSM) method, is the best performing measure of this study. We also compare to clustering with DTW using barycentre averaging (DBA). We find that DBA does improve DTW k-means, but that the standard DBA is still worse than using MSM. Our conclusion is to recommend MSM with k-medoids as the benchmark algorithm for clustering time series with elastic distance measures. We provide implementations, results and guidance on reproducing results on the associated GitHub repository.
翻訳日:2022-05-31 19:39:31 公開日:2022-05-30
# (参考訳) ディープニューラルネットワークは、より多くのデータを食べるときに常に改善されるか?

Do Deep Neural Networks Always Perform Better When Eating More Data? ( http://arxiv.org/abs/2205.15187v1 )

ライセンス: CC BY 4.0
Jiachen Yang, Zhuo Zhang, Yicheng Gong, Shukun Ma, Xiaolan Guo, Yue Yang, Shuai Xiao, Jiabao Wen, Yang Li, Xinbo Gao, Wen Lu and Qinggang Meng(参考訳) 現在、データはディープラーニングの欠点となっている。 彼らの分野の研究者は、"深層ニューラルネットワークはより多くのデータを食べるときに常にうまく機能するとは限らない"という考えを共有している。 ここでは、この不足を補うために、Identically Independent Distribution(IID)とOut of Distribution(OOD)の実験を設計し、強力な回答を与えます。 IID条件下では, サンプルの有効性を決定する情報量, クラス間の寄与量, クラス間の差がサンプル情報量とクラス情報の量を決定する, OOD条件下では, サンプルのクロスドメイン度が寄与を決定, 無関係要素によるバイアス適合はクロスドメインの重要な要素である, という2つの理論が提案されている。 上記の理論は、データの観点からのガイダンスを提供し、人工知能の幅広い実践的応用を促進することができる。

Data has now become a shortcoming of deep learning. Researchers in their own fields share the thinking that "deep neural networks might not always perform better when they eat more data," which still lacks experimental validation and a convincing guiding theory. Here to fill this lack, we design experiments from Identically Independent Distribution(IID) and Out of Distribution(OOD), which give powerful answers. For the purpose of guidance, based on the discussion of results, two theories are proposed: under IID condition, the amount of information determines the effectivity of each sample, the contribution of samples and difference between classes determine the amount of sample information and the amount of class information; under OOD condition, the cross-domain degree of samples determine the contributions, and the bias-fitting caused by irrelevant elements is a significant factor of cross-domain. The above theories provide guidance from the perspective of data, which can promote a wide range of practical applications of artificial intelligence.
翻訳日:2022-05-31 19:38:22 公開日:2022-05-30
# (参考訳) graphwalks: 効率的な形状非依存な測地的最短経路推定

GraphWalks: Efficient Shape Agnostic Geodesic Shortest Path Estimation ( http://arxiv.org/abs/2205.15217v1 )

ライセンス: CC BY 4.0
Rolandos Alexandros Potamias and Alexandros Neofytou and Kyriaki-Margarita Bintsi and Stefanos Zafeiriou(参考訳) 測地線経路と距離は3次元曲面の固有特性として最も一般的なものである。 伝統的に、離散多角形表面上の測地パスは、Dijkstraのような最短経路アルゴリズムを用いて計算された。 しかし、このアルゴリズムには2つの大きな制限がある。 それらは、学習可能なパイプラインで直接の使用を制限する非微分可能であり、かなりの時間を要する。 このような制約に対処し,計算負荷を軽減するため,測地路を近似する学習ネットワークを提案する。 提案手法は,高次元空間内のノード位置を符号化するグラフニューラルネットワーク,先行したノードを記述したパス埋め込み,パス内の次のポイントを選択するポイント分類器の3つの主要コンポーネントから構成される。 提案手法は最短経路の効率的な近似と測地距離推定を提供する。 私たちのメソッドのすべてのコンポーネントが完全に微分可能であることを考慮すれば、任意の学習可能なパイプラインに直接接続することも、任意の微分可能な制約の下でカスタマイズすることも可能です。 提案手法を定性的,定量的に評価した。

Geodesic paths and distances are among the most popular intrinsic properties of 3D surfaces. Traditionally, geodesic paths on discrete polygon surfaces were computed using shortest path algorithms, such as Dijkstra. However, such algorithms have two major limitations. They are non-differentiable which limits their direct usage in learnable pipelines and they are considerably time demanding. To address such limitations and alleviate the computational burden, we propose a learnable network to approximate geodesic paths. The proposed method is comprised by three major components: a graph neural network that encodes node positions in a high dimensional space, a path embedding that describes previously visited nodes and a point classifier that selects the next point in the path. The proposed method provides efficient approximations of the shortest paths and geodesic distances estimations. Given that all of the components of our method are fully differentiable, it can be directly plugged into any learnable pipeline as well as customized under any differentiable constraint. We extensively evaluate the proposed method with several qualitative and quantitative experiments.
翻訳日:2022-05-31 19:20:18 公開日:2022-05-30
# (参考訳) 3dポイントクラウドオブジェクトのためのマイナショットクラスインクリメンタル学習

Few-shot Class-incremental Learning for 3D Point Cloud Objects ( http://arxiv.org/abs/2205.15225v1 )

ライセンス: CC BY 4.0
Townim Chowdhury, Ali Cheraghian, Sameera Ramasinghe, Sahar Ahmadi, Morteza Saberi, Shafin Rahman(参考訳) few-shot class-incremental learning (fscil) は、新しいクラスのベースクラスでトレーニングされたモデルを、いくつかの例を使って段階的に微調整することを目的としている。 FSCILの最近の取り組みは、主に2次元画像データに基づいてこの問題に対処している。 しかし、カメラ技術の進歩により、3dポイントのクラウドデータがこれまで以上に利用可能になったため、fscilは3dデータについて検討されている。 本稿では,FSCILを3次元領域で処理する。 3D FSCILは、過去の知識の破滅的な忘れと数ショットデータの過度な適合という、よく知られた問題に加えて、より新しい課題をもたらす。 例えば、ベースクラスは現実的なシナリオで多くの合成インスタンスを含むことができる。 対照的に、新しいクラスの実際のスキャンされたサンプル(rgbdセンサーからの)は、段階的なステップで利用可能である。 合成から現実へのデータのバリエーションのため、FSCILはさらなる課題に耐え、後続のステップでパフォーマンスを低下させる。 我々は、あらかじめ定義されたルールセットを用いて、任意の3次元オブジェクトを記述するマイクロサップ(直交基底ベクトル)を用いてこの問題を解決する。 合成データから実データへのばらつきを最小限にした、数ショットの例でインクリメンタルトレーニングをサポートする。 一般的な合成データセットであるModelNetとShapeNetと3D実スキャンデータセットであるScanObjectNNとCommon Objects in 3D(CO3D)を用いた3D FSCILの新しいテストプロトコルを提案する。 最先端手法を比較することで,3次元領域におけるアプローチの有効性を確立する。

Few-shot class-incremental learning (FSCIL) aims to incrementally fine-tune a model trained on base classes for a novel set of classes using a few examples without forgetting the previous training. Recent efforts of FSCIL address this problem primarily on 2D image data. However, due to the advancement of camera technology, 3D point cloud data has become more available than ever, which warrants considering FSCIL on 3D data. In this paper, we address FSCIL in the 3D domain. In addition to well-known problems of catastrophic forgetting of past knowledge and overfitting of few-shot data, 3D FSCIL can bring newer challenges. For example, base classes may contain many synthetic instances in a realistic scenario. In contrast, only a few real-scanned samples (from RGBD sensors) of novel classes are available in incremental steps. Due to the data variation from synthetic to real, FSCIL endures additional challenges, degrading performance in later incremental steps. We attempt to solve this problem by using Microshapes (orthogonal basis vectors) describing any 3D objects using a pre-defined set of rules. It supports incremental training with few-shot examples minimizing synthetic to real data variation. We propose new test protocols for 3D FSCIL using popular synthetic datasets, ModelNet and ShapeNet, and 3D real-scanned datasets, ScanObjectNN, and Common Objects in 3D (CO3D). By comparing state-of-the-art methods, we establish the effectiveness of our approach in the 3D domain.
翻訳日:2022-05-31 19:06:26 公開日:2022-05-30
# (参考訳) アルゴリズム等価性による非凸オンライン学習

Non-convex online learning via algorithmic equivalence ( http://arxiv.org/abs/2205.15235v1 )

ライセンス: CC BY 4.0
Udaya Ghai, Zhou Lu, Elad Hazan(参考訳) 非凸勾配降下と凸ミラー降下のアルゴリズム等価性について検討した。 まず、オンラインの非凸最適化における後悔の最小化という難しい問題に目を向ける。 幾何および滑らか性条件下では、非凸関数に適用されたオンライン勾配降下は、再パラメータ化下の凸関数に適用されるオンラインミラー降下の近似である。 連続時間では、この再パラメータ化による勾配流は、Amid と Warmuth 2020 による連続時間ミラー降下と完全に等しいことが示されているが、類似の離散時間アルゴリズムの理論はオープン問題として残されている。 この設定において、非凸なオンライン勾配降下に対して、$O(T^{\frac{2}{3}})$ regret bound を証明し、この開問題に答える。 我々の分析は、新しい単純アルゴリズム同値法に基づいている。

We study an algorithmic equivalence technique between nonconvex gradient descent and convex mirror descent. We start by looking at a harder problem of regret minimization in online non-convex optimization. We show that under certain geometric and smoothness conditions, online gradient descent applied to non-convex functions is an approximation of online mirror descent applied to convex functions under reparameterization. In continuous time, the gradient flow with this reparameterization was shown to be exactly equivalent to continuous-time mirror descent by Amid and Warmuth 2020, but theory for the analogous discrete time algorithms is left as an open problem. We prove an $O(T^{\frac{2}{3}})$ regret bound for non-convex online gradient descent in this setting, answering this open problem. Our analysis is based on a new and simple algorithmic equivalence method.
翻訳日:2022-05-31 19:05:19 公開日:2022-05-30
# 人工知能を用いたTau Decay(\tau^{-} \rightarrow \mu^{-}\mu^{-}\mu^{+}$)におけるLepton Flavour Violationの同定

Lepton Flavour Violation Identification in Tau Decay ($\tau^{-} \rightarrow \mu^{-}\mu^{-}\mu^{+}$) Using Artificial Intelligence ( http://arxiv.org/abs/2205.14828v1 )

ライセンス: Link先を確認
Reymond Mesuga(参考訳) ニュートリノ振動の発見はニュートリノに質量があることを証明し、現在の標準模型(SM)理論における粒子の不適合を明らかにする。 理論上、質量を持つニュートリノはレプトンフレバー違反(lepton flavour violation、lfv)と呼ばれる対称性を持たない。 sm理論の拡張はlfvプロセスを可能にするが、分岐分数は小さすぎるため、最新の装置でも観測できない。 これにより、近年の科学者は、人工知能(AI)、特に機械学習(ML)とディープラーニング(DL)を用いてLFVを識別するために、LHCbとモンテカルロシミュレーションデータを組み合わせたLFVライクなプロセスを生成する。 本稿では、著者のFindering $\tau \rightarrow \mu\mu\mu$ competition on Kaggleについて報告する。 xgboost, lightgbm, custom 1-d dense block neural networks (dbnns), custom 1-d convolutional neural networks (cnns) など,aiにおけるいくつかのアルゴリズムのパフォーマンスが,lfv信号の識別,具体的には$\tau^{-} \rightarrow \mu^{-}\mu^{-}\mu^{+}$ decay from the combined lhcb and monte-carlo-simulated data that used the signatures of the decay(英語版)である。 Kolmogorov-Smirnov (KS) と Cramer-von Mises (CvM) の試験も行われた。 その結果、CvMテストに失敗したLightGBMと、かなり低いAUCを記録した20層CNNを除いて、アルゴリズム間で十分な性能を示した。 一方、XGBoostと10層DBNNのAUCは0.88だった。 本論文の主な貢献は,各層に独自のDBNNアルゴリズムとCNNアルゴリズムを組み込んだ広範囲な実験であり,これらは全て,GBMや木に基づくアルゴリズムとは異なり,LFV様シグネチャの識別に過去数年間にはほとんど使われていない。

The discovery of neutrino oscillation, proving that neutrinos do have masses, reveals the misfits of particles in the current Standard Model (SM) theory. In theory, neutrinos having masses could result in lepton flavour not being a symmetry called Lepton Flavour Violation (LFV). While SM theory extensions allowed LFV processes, their branching fractions are too small, making them unobservable even with the strongest equipment up-to-date. With that, scientists in recent years have generated LFV-like processes from the combined LHCb and Monte-Carlo-Simulated data in an attempt to identify LFV using Artificial Intelligence (AI), specifically Machine Learning (ML) and Deep Learning (DL). This paper reports the contribution of the author on Flavours of Physics: Finding $\tau \rightarrow \mu\mu\mu$ competition on Kaggle. The performance of several algorithms in AI has been presented, such as XGBoost, LightGBM, custom 1-D Dense Block Neural Networks (DBNNs), and custom 1-D Convolutional Neural Networks (CNNs) in identifying LFV signals, specifically $\tau^{-} \rightarrow \mu^{-}\mu^{-}\mu^{+}$ decay from the combined LHCb and Monte-Carlo-Simulated data that imitates the signatures of the said decay. Kolmogorov-Smirnov (KS) and Cramer-von Mises (CvM) tests were also conducted to verify the validity of predictions for each of the trained algorithms. The result shows decent performances among algorithms, except for the LightGBM, for failing the CvM test, and a 20-layered CNN for having recorded a considerably low AUC. Meanwhile, XGBoost and a 10-layered DBNN recorded the highest AUC of 0.88. The main contribution of this paper is the extensive experiment involving custom DBNN and CNN algorithms in different layers, all of which have been rarely used in the past years in identifying LFV-like signatures, unlike GBMs and tree-based algorithms, which have been more popular in the said task.
翻訳日:2022-05-31 18:49:21 公開日:2022-05-30
# オンライン深層強化学習における効果的な逆襲攻撃

Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning ( http://arxiv.org/abs/2205.14842v1 )

ライセンス: Link先を確認
Yinglun Xu, Qi Zeng, Gagandeep Singh(参考訳) 我々は,攻撃者がエージェントが使用する学習アルゴリズムに不慣れであり,必ずしも環境について十分な知識を持っていないオンライン深層学習(DRL)に対するデータ中毒攻撃について検討する。 我々は,adversarial mdp attackと呼ばれる一般的な報酬中毒フレームワークを設計することにより,最先端のdrlアルゴリズムに固有の脆弱性を示す。 我々は、我々のフレームワークをインスタンス化し、トレーニングタイムのごく一部で報酬を損なうだけで、エージェントに低パフォーマンスのポリシーを学ばせるような新しい攻撃を数回構築する。 我々の重要な洞察は、最先端のDRLアルゴリズムが環境を戦略的に探索し、高性能なポリシーを見つけることである。 我々の攻撃は、この洞察を利用して、限られた攻撃予算で低パフォーマンス政策を学習するエージェントを誤解させるような、腐敗した環境を構築する。 我々は,攻撃の効率を理論的に解析し,広範な評価を行う。 本研究は,DQN,PPO,SACなどの多種多様なDRLアルゴリズムを用いて,古典的制御や MuJoCo 環境下での攻撃を効果的に防毒することを示した。

We study data poisoning attacks on online deep reinforcement learning (DRL) where the attacker is oblivious to the learning algorithm used by the agent and does not necessarily have full knowledge of the environment. We demonstrate the intrinsic vulnerability of state-of-the-art DRL algorithms by designing a general reward poisoning framework called adversarial MDP attacks. We instantiate our framework to construct several new attacks which only corrupt the rewards for a small fraction of the total training timesteps and make the agent learn a low-performing policy. Our key insight is that the state-of-the-art DRL algorithms strategically explore the environment to find a high-performing policy. Our attacks leverage this insight to construct a corrupted environment for misleading the agent towards learning low-performing policies with a limited attack budget. We provide a theoretical analysis of the efficiency of our attack and perform an extensive evaluation. Our results show that our attacks efficiently poison agents learning with a variety of state-of-the-art DRL algorithms, such as DQN, PPO, SAC, etc. under several popular classical control and MuJoCo environments.
翻訳日:2022-05-31 18:48:32 公開日:2022-05-30
# calfat: ラベルスキューネスを用いたfederated adversarial trainingの校正

CalFAT: Calibrated Federated Adversarial Training with Label Skewness ( http://arxiv.org/abs/2205.14926v1 )

ライセンス: Link先を確認
Chen Chen, Yuchen Liu, Xingjun Ma, Lingjuan Lyu(参考訳) 近年の研究では、従来の機械学習と同様に、フェデレーション学習(FL)も敵の攻撃に弱いことが示されている。 FLの対向ロバスト性を改善するために,グローバルアグリゲーション前に対向トレーニングを局所的に適用するためのFAT法はほとんど提案されていない。 これらの手法は、独立に分散したIIDデータに対して有望な結果を示すが、ラベル歪を伴う非IIDデータに対する不安定性のトレーニングに悩まされ、結果として自然な精度が大幅に低下する。 これにより、クライアントにまたがるラベルの分布がスキューされる現実世界のアプリケーションにおいて、FATの応用を妨げる傾向がある。 本稿では,ラベルスキューネス下でのFAT問題について検討し,まずトレーニング不安定性と自然な精度劣化問題の根本原因を明らかにする:スクイードラベルは非同一クラス確率と異種局所モデルをもたらす。 次に,ロジットを適応的に校正することで,不安定問題に対処するための校正FAT (CalFAT) 手法を提案する。 我々はCalFATの最適化がクライアント間の均一な局所モデルをもたらし、収束率と最終的な性能が大幅に向上することを示す。

Recent studies have shown that, like traditional machine learning, federated learning (FL) is also vulnerable to adversarial attacks. To improve the adversarial robustness of FL, few federated adversarial training (FAT) methods have been proposed to apply adversarial training locally before global aggregation. Although these methods demonstrate promising results on independent identically distributed (IID) data, they suffer from training instability issues on non-IID data with label skewness, resulting in much degraded natural accuracy. This tends to hinder the application of FAT in real-world applications where the label distribution across the clients is often skewed. In this paper, we study the problem of FAT under label skewness, and firstly reveal one root cause of the training instability and natural accuracy degradation issues: skewed labels lead to non-identical class probabilities and heterogeneous local models. We then propose a Calibrated FAT (CalFAT) approach to tackle the instability issue by calibrating the logits adaptively to balance the classes. We show both theoretically and empirically that the optimization of CalFAT leads to homogeneous local models across the clients and much improved convergence rate and final performance.
翻訳日:2022-05-31 18:48:09 公開日:2022-05-30
# 文脈情報のない未知のDGAの検出

Detecting Unknown DGAs without Context Information ( http://arxiv.org/abs/2205.14940v1 )

ライセンス: Link先を確認
Arthur Drichel, Justus von Brandt, Ulrike Meyer(参考訳) 新しいマルウェアは急速に出現し、しばしばドメイン生成アルゴリズム(DGA)を組み込んで、コマンド・アンド・コントロール(C2)サーバーへのマルウェアの接続をブロックすることを避ける。 現在の最先端の分類器は、悪意のあるドメイン(バイナリ分類)から良性を切り離し、生成したdgasに高い確率で分類することができる(マルチクラス分類)。 バイナリ分類器は、未知のDGAのドメインを悪意のあるものとラベル付けできるが、マルチクラス分類器は、トレーニング時に知られているDGAにのみドメインを割り当てることができ、新しいマルウェアファミリーを発見できる能力を制限する。 本研究では,59,690個の分類器の評価を含む新しいDGAの検出に関する総合的研究を行う。 15の異なる構成で4つの異なるアプローチを検証し,ソフトマックス分類器と正規表現(regexes)を組み合わせることで,複数の未知のDGAを高い確率で検出する手法を提案する。 同時に,本手法は既知のDGAの最先端分類性能を維持している。 本評価は,合計94のdgaファミリーを持つグループ間比較による評価である。 既知のDGAの最大数を利用することで、我々の評価シナリオは特に困難で現実世界に近いものとなる。 調査対象のアプローチはすべてプライバシ保護であり、コンテキストなしで動作し、単一のドメインのみに分類される。 本研究は,既存のクラスを新たに発見されたクラスに適応できるクラス増分学習戦略の徹底的な議論と合わせてまとめる。

New malware emerges at a rapid pace and often incorporates Domain Generation Algorithms (DGAs) to avoid blocking the malware's connection to the command and control (C2) server. Current state-of-the-art classifiers are able to separate benign from malicious domains (binary classification) and attribute them with high probability to the DGAs that generated them (multiclass classification). While binary classifiers can label domains of yet unknown DGAs as malicious, multiclass classifiers can only assign domains to DGAs that are known at the time of training, limiting the ability to uncover new malware families. In this work, we perform a comprehensive study on the detection of new DGAs, which includes an evaluation of 59,690 classifiers. We examine four different approaches in 15 different configurations and propose a simple yet effective approach based on the combination of a softmax classifier and regular expressions (regexes) to detect multiple unknown DGAs with high probability. At the same time, our approach retains state-of-the-art classification performance for known DGAs. Our evaluation is based on a leave-one-group-out cross-validation with a total of 94 DGA families. By using the maximum number of known DGAs, our evaluation scenario is particularly difficult and close to the real world. All of the approaches examined are privacy-preserving, since they operate without context and exclusively on a single domain to be classified. We round up our study with a thorough discussion of class-incremental learning strategies that can adapt an existing classifier to newly discovered classes.
翻訳日:2022-05-31 18:46:13 公開日:2022-05-30
# マルチエージェント強化学習はシーケンスモデリング問題である

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem ( http://arxiv.org/abs/2205.14953v1 )

ライセンス: Link先を確認
Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen, Jun Wang and Yaodong Yang(参考訳) GPTシリーズやBERTのような大規模シーケンスモデル(SM)は、視覚、言語、最近では強化学習タスクにおいて優れた性能と一般化能力を示している。 自然なフォローアップ問題は、マルチエージェントの意思決定をSM問題に抽象化し、SMの繁栄による利益を得る方法である。 本稿では,MARL(Multi-Agent Transformer)と呼ばれる新しいアーキテクチャを導入し,協調型マルチエージェント強化学習(MARL)をSM問題に効果的に適用し,エージェントの観察シーケンスをエージェントの最適なアクションシーケンスにマッピングする。 我々のゴールは、MARL と SM のブリッジを構築し、最新のシーケンスモデルのモデリング能力を MARL のために解き放つことである。 私たちのマットの中心にあるエンコーダ・デコーダアーキテクチャは、マルチエージェントのアドバンテージ分解定理を利用して、ジョイントポリシー探索問題をシーケンシャルな意思決定プロセスに変換するものです。 事前収集されたオフラインデータのみに適合する決定トランスフォーマーのような先行技術とは異なり、matはオンライントライアルとオンポリシーな方法で環境からのエラーによって訓練される。 MATを検証するために,StarCraftII,Multi-Agent MuJoCo,Dexterous Hands Manipulation,Google Research Footballベンチマークの広範な実験を行った。 その結果,MATはMAPPOやHAPPOといった強力なベースラインと比較して,優れた性能とデータ効率を実現することがわかった。 さらに, エージェント数の変化にかかわらず, MATは未確認タスクにおいて, 極めて少ない学習者であることを示す。 プロジェクトページはhttps://sites.google.com/view/multi-agent-transformerを参照。

Large sequence model (SM) such as GPT series and BERT has displayed outstanding performance and generalization capabilities on vision, language, and recently reinforcement learning tasks. A natural follow-up question is how to abstract multi-agent decision making into an SM problem and benefit from the prosperous development of SMs. In this paper, we introduce a novel architecture named Multi-Agent Transformer (MAT) that effectively casts cooperative multi-agent reinforcement learning (MARL) into SM problems wherein the task is to map agents' observation sequence to agents' optimal action sequence. Our goal is to build the bridge between MARL and SMs so that the modeling power of modern sequence models can be unleashed for MARL. Central to our MAT is an encoder-decoder architecture which leverages the multi-agent advantage decomposition theorem to transform the joint policy search problem into a sequential decision making process; this renders only linear time complexity for multi-agent problems and, most importantly, endows MAT with monotonic performance improvement guarantee. Unlike prior arts such as Decision Transformer fit only pre-collected offline data, MAT is trained by online trials and errors from the environment in an on-policy fashion. To validate MAT, we conduct extensive experiments on StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation, and Google Research Football benchmarks. Results demonstrate that MAT achieves superior performance and data efficiency compared to strong baselines including MAPPO and HAPPO. Furthermore, we demonstrate that MAT is an excellent few-short learner on unseen tasks regardless of changes in the number of agents. See our project page at https://sites.google.com/view/multi-agent-transformer.
翻訳日:2022-05-31 18:45:45 公開日:2022-05-30
# 量子多腕バンディットと確率線形バンディットは対数的後悔を味わう

Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets ( http://arxiv.org/abs/2205.14988v1 )

ライセンス: Link先を確認
Zongqi Wan, Zhijie Zhang, Tongyang Li, Jialin Zhang, Xiaoming Sun(参考訳) 強化学習におけるマルチアームバンディット (mab) と確率線形バンディット (slb) は重要なモデルであり、時間軸を持つバンディットに対する古典的アルゴリズムは$t$が$\omega(\sqrt{t})$ regretを被る。 本稿では,MAB と SLB を量子報酬オーラクルで検討し,$O(\mbox{poly}(\log T))$ regrets を用いて両方のモデルに対して量子アルゴリズムを提案し,その依存性を$T$ で指数関数的に改善する。 私たちの知る限りでは、これが初めて証明可能な量子スピードアップであり、バンディット問題の後悔と強化学習の一般的な活用です。 従来のMABと強化学習の量子探索アルゴリズムと比較して、我々の量子入力モデルはより単純であり、個々のアームに量子オラクルを仮定するのみである。

Multi-arm bandit (MAB) and stochastic linear bandit (SLB) are important models in reinforcement learning, and it is well-known that classical algorithms for bandits with time horizon $T$ suffer $\Omega(\sqrt{T})$ regret. In this paper, we study MAB and SLB with quantum reward oracles and propose quantum algorithms for both models with $O(\mbox{poly}(\log T))$ regrets, exponentially improving the dependence in terms of $T$. To the best of our knowledge, this is the first provable quantum speedup for regrets of bandit problems and in general exploitation in reinforcement learning. Compared to previous literature on quantum exploration algorithms for MAB and reinforcement learning, our quantum input model is simpler and only assumes quantum oracles for each individual arm.
翻訳日:2022-05-31 18:45:15 公開日:2022-05-30
# 特徴空間における領域制約: 実現可能な逆例に対するAndroidマルウェア検出のロバスト性強化

Domain Constraints in Feature Space: Strengthening Robustness of Android Malware Detection against Realizable Adversarial Examples ( http://arxiv.org/abs/2205.15128v1 )

ライセンス: Link先を確認
Hamid Bostani, Zhuoran Liu, Zhengyu Zhao, Veelasha Moonsamy(参考訳) 機械学習によるマルウェア検出の堅牢性強化は、androidのマルウェア検出の大きな障害の1つだ。 この目的のために,既存の研究は,問題空間におけるAndroidマルウェアのドメイン制約の解釈に重点を置いている。 本稿では,機能空間におけるドメイン制約を解釈する上で,特徴空間を実現可能な逆の例が生成されるという,同じ目標を達成するための有望な方法を提案する。 具体的には、データから有意義な特徴依存性を学習し、新しいロバストな特徴空間に基づいて特徴領域制約を抽出する新しいアプローチを提案する。 実験結果は,最先端のandroidマルウェア検出器であるdrebinに対して,新たなロバスト機能空間の有効性を実証することに成功した。 例えば、現実的な勾配に基づく攻撃の回避率を、限定的な知識(転送)設定で96.4\%$、より困難で完全な知識設定で13.8\%$に下げることができる。 さらに、学習したドメインの制約を逆行的リトレーニングフレームワークで直接使用すると、限定的な知識設定で約8,4\%が改善され、問題空間の逆行例よりも最大377\times$が高速に実装できることを示す。

Strengthening the robustness of machine learning-based malware detectors against realistic evasion attacks remains one of the major obstacles for Android malware detection. To that end, existing work has focused on interpreting domain constraints of Android malware in the problem space, where problem-space realizable adversarial examples are generated. In this paper, we provide another promising way to achieve the same goal but based on interpreting the domain constraints in the feature space, where feature-space realizable adversarial examples are generated. Specifically, we present a novel approach to extracting feature-space domain constraints by learning meaningful feature dependencies from data, and applying them based on a novel robust feature space. Experimental results successfully demonstrate the effectiveness of our novel robust feature space in providing adversarial robustness for DREBIN, a state-of-the-art Android malware detector. For example, it can decrease the evasion rate of a realistic gradient-based attack by $96.4\%$ in a limited-knowledge (transfer) setting and by $13.8\%$ in a more challenging, perfect-knowledge setting. In addition, we show that directly using our learned domain constraints in the adversarial retraining framework leads to about $84\%$ improvement in a limited-knowledge setting, with up to $377\times$ faster implementation than using problem-space adversarial examples.
翻訳日:2022-05-31 18:44:55 公開日:2022-05-30
# 学習速度が大きくなるグラディエントDescentを用いた局所最小化の検討

On Avoiding Local Minima Using Gradient Descent With Large Learning Rates ( http://arxiv.org/abs/2205.15142v1 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Martin Jaggi, Sebastian Stich(参考訳) ニューラルネットワークのトレーニングにおいて、勾配降下(GD)を適用する場合、優れたモデルを得るためには大きなステップサイズが不可欠であることが広く観察されている。 しかし、大きなステップサイズがgdの成功に与えた影響は理論的にはよく分かっていない。 我々は、gdの成功に繋がる力学の完全な理解には、大きなステップサイズを使うことの効果を考慮する必要があると論じている。 この主張を支持するために、大きなステップサイズを持つgdが小さなステップサイズを持つgdとは異なる軌道をたどる特定の種類の関数を証明し、大域的最小値に収束する。 また,gdをニューラルネットワークに適用した場合の,小・大学習率のトラジェクタの差異を実証し,局所的最小値からの脱出の効果を大きなステップサイズで観察する。 最後に, 確率的雑音が有益であるにもかかわらず, sgdの成功を説明するには十分ではなく, 確率的環境においても最高の性能を得るためには, 高い学習率が必要となることを示す。

It has been widely observed in training of neural networks that when applying gradient descent (GD), a large step size is essential for obtaining superior models. However, the effect of large step sizes on the success of GD is not well understood theoretically. We argue that a complete understanding of the mechanics leading to GD's success may indeed require considering effects of using a large step size. To support this claim, we prove on a certain class of functions that GD with large step size follows a different trajectory than GD with a small step size, leading to convergence to the global minimum. We also demonstrate the difference in trajectories for small and large learning rates when GD is applied on a neural network, observing effects of an escape from a local minimum with a large step size, which shows this behavior is indeed relevant in practice. Finally, through a novel set of experiments, we show even though stochastic noise is beneficial, it is not enough to explain success of SGD and a large learning rate is essential for obtaining the best performance even in stochastic settings.
翻訳日:2022-05-31 18:44:27 公開日:2022-05-30
# マルチエージェント強化学習における価値関数分解のための残差qネットワーク

Residual Q-Networks for Value Function Factorizing in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.15245v1 )

ライセンス: Link先を確認
Rafael Pina, Varuna De Silva, Joosep Hook, and Ahmet Kondoz(参考訳) マルチエージェント強化学習(MARL)は、複数のエージェントの協調と協調を必要とする多くの問題において有用である。 エージェント数の増加に伴い,強化学習を用いた最適ポリシーの学習は非常に困難である。 価値分解ネットワーク(VDN)、QMIX、QTRAN、QPLEXといった最近のソリューションは、集中的なトレーニングと分散実行方式に準拠し、共同行動値関数の分解を行う。 しかし、これらの手法は依然として環境の複雑さの増大に苦しめられ、時には安定的に収束することができない。 本稿では,個人-グローバル-マックス基準(igm)を保ちながら,行動-値関数の分解においてより頑健な方法で,個々のq値軌跡を変換することを学ぶmarlのための残差q-networks(rqns)という新しい概念を提案する。 rqnは収束を加速する補助ネットワークとして働き、エージェントがトレーニング目標に達すると時代遅れになる。 提案手法の性能は,マルチエージェント協調作業におけるQPLEX,QMIX,QTRAN,VDNといった最先端技術と比較される。 その結果,提案手法は一般により高速に収束し,安定性が向上し,より広い環境群で頑健な性能を示した。 結果の改善は、非協力行動に対する厳しい罰、特に訓練期間中に完全な状態情報がない環境において顕著である。

Multi-Agent Reinforcement Learning (MARL) is useful in many problems that require the cooperation and coordination of multiple agents. Learning optimal policies using reinforcement learning in a multi-agent setting can be very difficult as the number of agents increases. Recent solutions such as Value Decomposition Networks (VDN), QMIX, QTRAN and QPLEX adhere to the centralized training and decentralized execution scheme and perform factorization of the joint action-value functions. However, these methods still suffer from increased environmental complexity, and at times fail to converge in a stable manner. We propose a novel concept of Residual Q-Networks (RQNs) for MARL, which learns to transform the individual Q-value trajectories in a way that preserves the Individual-Global-Max criteria (IGM), but is more robust in factorizing action-value functions. The RQN acts as an auxiliary network that accelerates convergence and will become obsolete as the agents reach the training objectives. The performance of the proposed method is compared against several state-of-the-art techniques such as QPLEX, QMIX, QTRAN and VDN, in a range of multi-agent cooperative tasks. The results illustrate that the proposed method, in general, converges faster, with increased stability and shows robust performance in a wider family of environments. The improvements in results are more prominent in environments with severe punishments for non-cooperative behaviours and especially in the absence of complete state information during training time.
翻訳日:2022-05-31 18:44:09 公開日:2022-05-30
# GANを用いた2段階カスケードフレームワークによる医療画像小領域偽造検出

GAN-based Medical Image Small Region Forgery Detection via a Two-Stage Cascade Framework ( http://arxiv.org/abs/2205.15170v1 )

ライセンス: Link先を確認
Jianyi Zhang, Xuanxi Huang, Yaqi Liu, Yuyang Han, Zixiao Xiang(参考訳) generative adversarial network (gan)\cite{rn90}) を医療画像のデータエンハンスメントに利用することは、多くのcad(computer-aided diagnostic)タスクにおいて非常に有用である。 CT-GANと呼ばれる新たな攻撃が現れた。 肺がんの病変をCTスキャンに注入または除去することができる。 改ざん領域が元の画像の1\%未満を占めることもあるため、最先端の手法でさえ、改ざんの痕跡を検出することは困難である。 本稿では,CT-GANのような医療画像小領域の偽造を検出するためのカスケードフレームワークを提案する。 局所検出段階では,検出器ネットワークを小さなサブイメージで訓練することで,真正な領域の干渉情報が検出器に影響を与えないようにする。 奥行き分離可能な畳み込みと残差を用いて,検出器の過剰フィッティングを防止するとともに,注意機構による鍛造領域の検出能力を向上させる。 同じ画像内のすべてのサブイメージの検出結果は、ヒートマップに結合される。 地球規模の分類段階では、gray level co-occurrence matrix (glcm) を用いるとヒートマップの特徴をよりよく抽出できる。 改ざん領域の形状と大きさは不確かであるため,PCA法とSVM法を訓練して分類を行う。 本手法では,CT画像の改ざんの有無を分類し,改ざん位置を特定する。 十分な実験により,本手法は優れた性能が得られることが示された。

Using generative adversarial network (GAN)\cite{RN90} for data enhancement of medical images is significantly helpful for many computer-aided diagnosis (CAD) tasks. A new attack called CT-GAN has emerged. It can inject or remove lung cancer lesions to CT scans. Because the tampering region may even account for less than 1\% of the original image, even state-of-the-art methods are challenging to detect the traces of such tampering. This paper proposes a cascade framework to detect GAN-based medical image small region forgery like CT-GAN. In the local detection stage, we train the detector network with small sub-images so that interference information in authentic regions will not affect the detector. We use depthwise separable convolution and residual to prevent the detector from over-fitting and enhance the ability to find forged regions through the attention mechanism. The detection results of all sub-images in the same image will be combined into a heatmap. In the global classification stage, using gray level co-occurrence matrix (GLCM) can better extract features of the heatmap. Because the shape and size of the tampered area are uncertain, we train PCA and SVM methods for classification. Our method can classify whether a CT image has been tampered and locate the tampered position. Sufficient experiments show that our method can achieve excellent performance.
翻訳日:2022-05-31 18:42:43 公開日:2022-05-30
# BinauralGrad:バイノーラルオーディオ合成のための2段階条件拡散確率モデル

BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis ( http://arxiv.org/abs/2205.14807v1 )

ライセンス: Link先を確認
Yichong Leng, Zehua Chen, Junliang Guo, Haohe Liu, Jiawei Chen, Xu Tan, Danilo Mandic, Lei He, Xiang-Yang Li, Tao Qin, Sheng Zhao, Tie-Yan Liu(参考訳) バイノーラルオーディオは没入型拡張および仮想現実の構築において重要な役割を果たす。 現実世界からバイノーラルオーディオを録音するのは費用がかかるため、mono audioからの合成が注目を集めている。 この合成プロセスは、モノオーディオの基本的物理的歪みだけでなく、室内残響や頭耳関連濾過も含むが、従来のデジタル信号処理では正確にシミュレートすることは困難である。 本稿では,バイノーラル音声を左右のチャンネルで共有される共通部分と,各チャンネルで異なる特定の部分に分解することで,異なる視点から合成過程を定式化する。 そこで本研究では,拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。 具体的には、第1段において、バイノーラルオーディオの共通情報は、第2段の2チャンネル拡散モデルによりバイノーラルオーディオが生成されるモノオーディオに条件付けられたシングルチャネル拡散モデルで生成される。 この2段階合成と高度な生成モデル(拡散モデル)を組み合わせることで、BinauralGradは高精度で高忠実なバイノーラルオーディオサンプルを生成することができる。 実験の結果、ベンチマークデータセットでは、BinauralGradは、対象と対象の両方の評価指標(Wave L2:0.128 vs. 0.157, MOS: 3.80 vs. 3.61)において、既存のベースラインよりも優れた性能を示している。 生成されたオーディオサンプルはオンラインで入手できる。

Binaural audio plays a significant role in constructing immersive augmented and virtual realities. As it is expensive to record binaural audio from the real world, synthesizing them from mono audio has attracted increasing attention. This synthesis process involves not only the basic physical warping of the mono audio, but also room reverberations and head/ear related filtrations, which, however, are difficult to accurately simulate in traditional digital signal processing. In this paper, we formulate the synthesis process from a different perspective by decomposing the binaural audio into a common part that shared by the left and right channels as well as a specific part that differs in each channel. Accordingly, we propose BinauralGrad, a novel two-stage framework equipped with diffusion models to synthesize them respectively. Specifically, in the first stage, the common information of the binaural audio is generated with a single-channel diffusion model conditioned on the mono audio, based on which the binaural audio is generated by a two-channel diffusion model in the second stage. Combining this novel perspective of two-stage synthesis with advanced generative models (i.e., the diffusion models),the proposed BinauralGrad is able to generate accurate and high-fidelity binaural audio samples. Experiment results show that on a benchmark dataset, BinauralGrad outperforms the existing baselines by a large margin in terms of both object and subject evaluation metrics (Wave L2: 0.128 vs. 0.157, MOS: 3.80 vs. 3.61). The generated audio samples are available online.
翻訳日:2022-05-31 18:38:47 公開日:2022-05-30
# ニューラルネットワークにおける確率運動量法の終点収束解析

Last-iterate convergence analysis of stochastic momentum methods for neural networks ( http://arxiv.org/abs/2205.14811v1 )

ライセンス: Link先を確認
Dongpo Xu, Jinlan Liu, Yinghua Lu, Jun Kong, Danilo Mandic(参考訳) 確率運動量法は,ニューラルネットワークにおける大規模確率最適化問題の解法として広く用いられている。 非凸確率的条件下での確率運動量法の電流収束結果は主にランダム出力と最小出力の収束について議論する。 この目的のために,非凸確率最適化問題に対する確率的モーメント法の最終反復的出力(ラストイテレート収束)の収束を,従来の最適化理論に準拠した方法で解決する。 我々は,確率運動量法の最終定値収束を統一的枠組みの下で証明し,確率的重球運動量と確率的ネステロフ加速勾配運動量の両方をカバーする。 運動量因子は、既存の分析において時間変化係数よりも定数に固定することができる。 最後に、ベンチマークmnistおよびcifar-10データセットで確率的モーメント法のラストイテレート収束を検証した。

The stochastic momentum method is a commonly used acceleration technique for solving large-scale stochastic optimization problems in artificial neural networks. Current convergence results of stochastic momentum methods under non-convex stochastic settings mostly discuss convergence in terms of the random output and minimum output. To this end, we address the convergence of the last iterate output (called last-iterate convergence) of the stochastic momentum methods for non-convex stochastic optimization problems, in a way conformal with traditional optimization theory. We prove the last-iterate convergence of the stochastic momentum methods under a unified framework, covering both stochastic heavy ball momentum and stochastic Nesterov accelerated gradient momentum. The momentum factors can be fixed to be constant, rather than time-varying coefficients in existing analyses. Finally, the last-iterate convergence of the stochastic momentum methods is verified on the benchmark MNIST and CIFAR-10 datasets.
翻訳日:2022-05-31 18:38:19 公開日:2022-05-30
# Walle: デバイスクラウド協調型機械学習のためのエンドツーエンド,汎用,大規模生産システム

Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning ( http://arxiv.org/abs/2205.14833v1 )

ライセンス: Link先を確認
Chengfei Lv, Chaoyue Niu, Renjie Gu, Xiaotang Jiang, Zhaode Wang, Bin Liu, Ziqi Wu, Qiulin Yao, Congyu Huang, Panos Huang, Tao Huang, Hui Shu, Jinde Song, Bin Zou, Peng Lan, Guohuan Xu, Fei Wu, Shaojie Tang, Fan Wu, Guihai Chen(参考訳) 主流のクラウドベースの機械学習(ML)パラダイムのボトルネックを打破するため、デバイスクラウドのコラボレーティブMLを採用し、Waleと呼ばれる最初のエンドツーエンドおよび汎用システムを構築しました。 Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供し、日々のタスクイテレーションを容易にする。 具体的には,データ処理とモデル実行ライブラリを備えたテンソル計算エンジンであるMobile Neural Network (MNN)をベースとして,さまざまなMLタスクと並列タスク実行をサポートするために,改良されたPythonスレッドレベル仮想マシン(VM)を通じて公開される。 MNNの中核は、演算子分解と半自動探索の新しいメカニズムであり、数百のハードウェアバックエンドに対して数百の演算子を手動で最適化し、計算グラフのランタイム最適化で最適なバックエンドを素早く特定する作業負荷を劇的に削減する。 データパイプラインはオンデバイスストリーム処理フレームワークを導入し、ソースでのユーザの振る舞いデータを処理できるようにする。 デプロイメントプラットフォームは、効率的なプッシュ-then-pullメソッドでMLタスクをリリースし、複数粒度デプロイメントポリシーをサポートする。 我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。 広範囲なマイクロベンチマークは、mnnとpythonスレッドレベルのvmのパフォーマンスも強調する。 walleはalibabaで大規模に運用されており、mnnはオープンソースであり、コミュニティに大きな影響を与えている。

To break the bottlenecks of mainstream cloud-based machine learning (ML) paradigm, we adopt device-cloud collaborative ML and build the first end-to-end and general-purpose system, called Walle, as the foundation. Walle consists of a deployment platform, distributing ML tasks to billion-scale devices in time; a data pipeline, efficiently preparing task input; and a compute container, providing a cross-platform and high-performance execution environment, while facilitating daily task iteration. Specifically, the compute container is based on Mobile Neural Network (MNN), a tensor compute engine along with the data processing and model execution libraries, which are exposed through a refined Python thread-level virtual machine (VM) to support diverse ML tasks and concurrent task execution. The core of MNN is the novel mechanisms of operator decomposition and semi-auto search, sharply reducing the workload in manually optimizing hundreds of operators for tens of hardware backends and further quickly identifying the best backend with runtime optimization for a computation graph. The data pipeline introduces an on-device stream processing framework to enable processing user behavior data at source. The deployment platform releases ML tasks with an efficient push-then-pull method and supports multi-granularity deployment policies. We evaluate Walle in practical e-commerce application scenarios to demonstrate its effectiveness, efficiency, and scalability. Extensive micro-benchmarks also highlight the superior performance of MNN and the Python thread-level VM. Walle has been in large-scale production use in Alibaba, while MNN has been open source with a broad impact in the community.
翻訳日:2022-05-31 18:38:04 公開日:2022-05-30
# 耳で演奏する:聴覚・視覚模倣学習による排他的学習スキル

Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning ( http://arxiv.org/abs/2205.14850v1 )

ライセンス: Link先を確認
Maximilian Du, Olivia Y. Lee, Suraj Nair, Chelsea Finn(参考訳) 人間は、視覚、触覚、音といったモダリティを共同で推論する必要がある様々な困難な操作タスクを完了することができる。 例えば、バックパックからノートを取ると視覚的閉塞が生じ、オーディオや触覚情報の歴史を推論する必要がある。 頑丈な触覚センサーはロボットを捉えるのにコストがかかるが、ロボットのグリップの近くまたは上のマイクは、コンタクトイベントの音声フィードバックを取得するのに安価で簡単な方法である。 音が視覚的閉塞を緩和する可能性によって、視覚的および音声的な入力から部分的に観察された操作課題の集合を学習することを目指している。 提案システムは,遠隔操作型デモからオフライン模倣学習と人為的介入を用いたオンラインファインタニングを組み合わせることで,これらの課題を学習する。 シミュレーションタスクのセットでは,システムでは音声の利用が有効であり,オンライン介入を用いることで,オフライン模倣学習の成功率を約20%向上できることがわかった。 最後に、私たちのシステムは、フランカ・エミカ・パンダロボット上で、70%の成功率で、音声を使用しないポリシーよりも50%高い、キーをバッグから取り出すなど、挑戦的で部分的に観察された一連のタスクを完了することができることが分かりました。

Humans are capable of completing a range of challenging manipulation tasks that require reasoning jointly over modalities such as vision, touch, and sound. Moreover, many such tasks are partially-observed; for example, taking a notebook out of a backpack will lead to visual occlusion and require reasoning over the history of audio or tactile information. While robust tactile sensing can be costly to capture on robots, microphones near or on a robot's gripper are a cheap and easy way to acquire audio feedback of contact events, which can be a surprisingly valuable data source for perception in the absence of vision. Motivated by the potential for sound to mitigate visual occlusion, we aim to learn a set of challenging partially-observed manipulation tasks from visual and audio inputs. Our proposed system learns these tasks by combining offline imitation learning from a modest number of tele-operated demonstrations and online finetuning using human provided interventions. In a set of simulated tasks, we find that our system benefits from using audio, and that by using online interventions we are able to improve the success rate of offline imitation learning by ~20%. Finally, we find that our system can complete a set of challenging, partially-observed tasks on a Franka Emika Panda robot, like extracting keys from a bag, with a 70% success rate, 50% higher than a policy that does not use audio.
翻訳日:2022-05-31 18:37:37 公開日:2022-05-30
# スペクトルクラスタリングのためのLeave-one-out Singular Subspace Perturbation解析

Leave-one-out Singular Subspace Perturbation Analysis for Spectral Clustering ( http://arxiv.org/abs/2205.14855v1 )

ライセンス: Link先を確認
Anderson Y. Zhang, Harrison H. Zhou(参考訳) 特異部分空間摂動理論は確率と統計において基本的な重要性を持つ。 様々な分野にまたがる様々な応用がある。 2つの任意の行列を考えると、一方は他方の左1カラムアウト部分行列であり、2つの対応する特異部分空間間の距離に対する新しい摂動上限を確立する。 これは混合モデルによく適合しており、ウェディンの定理のような古典摂動境界よりも鋭く細かい統計解析ができる。 この残余1次摂動理論により、混合モデル下でのスペクトルクラスタリングの性能に関する決定論的帰納的分析を行う。 本解析は,サブガウス混合モデルのクラスタリングに対する明示的な指数的誤差率をもたらす。 等方性ガウスの混合物の場合、この速度はl\"offler et al. (2021) よりも弱い信号対雑音条件下で最適である。

The singular subspaces perturbation theory is of fundamental importance in probability and statistics. It has various applications across different fields. We consider two arbitrary matrices where one is a leave-one-column-out submatrix of the other one and establish a novel perturbation upper bound for the distance between two corresponding singular subspaces. It is well-suited for mixture models and results in a sharper and finer statistical analysis than classical perturbation bounds such as Wedin's Theorem. Powered by this leave-one-out perturbation theory, we provide a deterministic entrywise analysis for the performance of the spectral clustering under mixture models. Our analysis leads to an explicit exponential error rate for the clustering of sub-Gaussian mixture models. For the mixture of isotropic Gaussians, the rate is optimal under a weaker signal-to-noise condition than that of L\"offler et al. (2021).
翻訳日:2022-05-31 18:37:12 公開日:2022-05-30
# デイジーブルームフィルタ

Daisy Bloom Filters ( http://arxiv.org/abs/2205.14894v1 )

ライセンス: Link先を確認
Ioana O. Bercea, Jakob B{\ae}k Tejs Houen, and Rasmus Pagh(参考訳) 重み付きブルームフィルタ(Bruck, Gao, Jiang, ISIT 2006)は、クエリ要素に応じてハッシュ関数の数を調整するブルームフィルタである。 すなわち、ハッシュ関数 $h_1, h_2, \dots$ の列を使い、$k_x$ の位置 $h_1(x), h_2(x), \dots, h_{k_x}(x)$ to 1 でビットを設定することで $x$ を挿入する。 同様に、$x$ のクエリは、位置 $h_1(x), h_2(x), \dots, h_{k_x}(x)$ のビットが$0$($x$が挿入されていないことを知っている場合)、または$1$s($x$が挿入されているかもしれないが、偽陽性である場合もある)を含むかどうかをチェックする。 本稿では,n$要素が確率分布$\mathcal{P}$から独立に挿入され,クエリ要素が確率分布$\mathcal{Q}$から選択されるモデルにおいて,偽陽性確率$F$のバウンダリの下でパラメータ$k_x$のほぼ最適選択を決定する。 対照的に、Bruck et al. のパラメータ選択と Wang et al. のフォローアップ作業は、偽陽性率の非自明な境界を保証しない。 重み付きブルームフィルタのパラメータ化を $\textit{Daisy Bloom filter}$ と呼ぶ。 多くの分布に対して $\mathcal{P}$ と $\mathcal{Q}$ は、ダイジーブルームフィルタ空間の使用量は標準ブルームフィルタのそれよりもかなり小さい。 私たちの上界は情報理論上の下界で補われており、($\mathcal{p}$ と $\mathcal{q}$ の分布に対する軽度な制限により)デイジー・ブルームフィルターの空間的利用は定数係数まで可能な最良であることを示している。 デイジーブルームフィルタは、ヴァイディヤ、クノール、ミッツェンマッハ、クラスカの最近のデータ構造のきめ細かい変種と見なすことができる。 彼らの仕事と同じように、私たちはフィルターのワークロードについて、おそらくは機械学習アルゴリズムからのアドバイスの形で事前に知っている設定によって動機付けられています。

Weighted Bloom filters (Bruck, Gao and Jiang, ISIT 2006) are Bloom filters that adapt the number of hash functions according to the query element. That is, they use a sequence of hash functions $h_1, h_2, \dots$ and insert $x$ by setting the bits in $k_x$ positions $h_1(x), h_2(x), \dots, h_{k_x}(x)$ to 1, where the parameter $k_x$ depends on $x$. Similarly, a query for $x$ checks whether the bits at positions $h_1(x), h_2(x), \dots, h_{k_x}(x)$ contain a $0$ (in which case we know that $x$ was not inserted), or contains only $1$s (in which case $x$ may have been inserted, but it could also be a false positive). In this paper, we determine a near-optimal choice of the parameters $k_x$ in a model where $n$ elements are inserted independently from a probability distribution $\mathcal{P}$ and query elements are chosen from a probability distribution $\mathcal{Q}$, under a bound on the false positive probability $F$. In contrast, the parameter choice of Bruck et al., as well as follow-up work by Wang et al., does not guarantee a nontrivial bound on the false positive rate. We refer to our parameterization of the weighted Bloom filter as a $\textit{Daisy Bloom filter}$. For many distributions $\mathcal{P}$ and $\mathcal{Q}$, the Daisy Bloom filter space usage is significantly smaller than that of Standard Bloom filters. Our upper bound is complemented with an information-theoretical lower bound, showing that (with mild restrictions on the distributions $\mathcal{P}$ and $\mathcal{Q}$), the space usage of Daisy Bloom filters is the best possible up to a constant factor. Daisy Bloom filters can be seen as a fine-grained variant of a recent data structure of Vaidya, Knorr, Mitzenmacher and Kraska. Like their work, we are motivated by settings in which we have prior knowledge of the workload of the filter, possibly in the form of advice from a machine learning algorithm.
翻訳日:2022-05-31 18:35:39 公開日:2022-05-30
# confederated learning: 分散エッジサーバを用いた連合学習

Confederated Learning: Federated Learning with Decentralized Edge Servers ( http://arxiv.org/abs/2205.14905v1 )

ライセンス: Link先を確認
Bin Wang, Jun Fang, Hongbin Li, Xiaojun Yuan, and Qing Ling(参考訳) Federated Learning(FL)は、中央サーバでデータを集約することなく、モデルトレーニングを達成可能な、新興の機械学習パラダイムである。 FLに関するほとんどの研究は、単一のサーバに複数のデバイスを協調して反復的にモデルトレーニングを行う中央の権限を与える集中型フレームワークを考察している。 通信の厳しい制約と帯域幅の制約のため、このような集中型フレームワークはデバイス数が増えるにつれてスケーラビリティが制限される。 本稿では,この問題を解決するために,ConFederated Learning(CFL)フレームワークを提案する。 提案したCFLは複数のサーバから構成されており,各サーバは従来のFLフレームワークのようにデバイス群と接続され,サーバ間での分散コラボレーションを利用して,ネットワーク全体に分散したデータを完全に活用する。 CFLのための乗算器(ADMM)アルゴリズムの交互方向法を開発した。 提案するアルゴリズムは、各イテレーションで各サーバにアクセスするデバイスのサブセットをランダムに選択するランダムスケジューリングポリシーを採用しており、デバイスからサーバに大量の情報をアップロードする必要性を軽減している。 提案手法を正当化するために理論的解析を行った。 数値計算により,提案手法は勾配に基づくFLアルゴリズムよりもかなり高速な解に収束できることが示され,通信効率の面で大きな利点がある。

Federated learning (FL) is an emerging machine learning paradigm that allows to accomplish model training without aggregating data at a central server. Most studies on FL consider a centralized framework, in which a single server is endowed with a central authority to coordinate a number of devices to perform model training in an iterative manner. Due to stringent communication and bandwidth constraints, such a centralized framework has limited scalability as the number of devices grows. To address this issue, in this paper, we propose a ConFederated Learning (CFL) framework. The proposed CFL consists of multiple servers, in which each server is connected with an individual set of devices as in the conventional FL framework, and decentralized collaboration is leveraged among servers to make full use of the data dispersed throughout the network. We develop an alternating direction method of multipliers (ADMM) algorithm for CFL. The proposed algorithm employs a random scheduling policy which randomly selects a subset of devices to access their respective servers at each iteration, thus alleviating the need of uploading a huge amount of information from devices to servers. Theoretical analysis is presented to justify the proposed method. Numerical results show that the proposed method can converge to a decent solution significantly faster than gradient-based FL algorithms, thus boasting a substantial advantage in terms of communication efficiency.
翻訳日:2022-05-31 18:34:51 公開日:2022-05-30
# AttentionCode:ショートパケット通信のための超信頼性の高いフィードバックコード

AttentionCode: Ultra-Reliable Feedback Codes for Short-Packet Communications ( http://arxiv.org/abs/2205.14955v1 )

ライセンス: Link先を確認
Yulin Shao, Emre Ozfatura, Alberto Perotti, Branislav Popovic, Deniz Gunduz(参考訳) 超信頼性の短パケット通信は、将来の無線ネットワークにおける重要な応用における大きな課題である。 99.999%を超える信頼性の高い通信を実現するために,第6世代(6G)通信ネットワークの受信者からのフィードバックを生かしたインタラクションベースの通信パラダイムを提案する。 我々は,deep learning (dl) 技術を活用した新しいフィードバックコードである attentioncode を提案する。 AttentionCodeの基盤となるのは,アテンションネット,インプット再構成,フェードチャネルへの適応,大規模バッチトレーニング,分散学習,ルックアヘッドオプティマイザ,SNR(Training-test signal-to-noise ratio)ミスマッチ,カリキュラム学習など,3つのアーキテクチャ上のイノベーションだ。 トレーニング方法は、機械学習を使った他の無線通信アプリケーションに一般化することができる。 AttentionCodeは、付加的なホワイトガウスノイズ(AWGN)チャネルとフェージングチャネルの両方において、全てのDLベースのフィードバックコードの中で、新しい技術状態を確立する。 例えば、ノイズのないフィードバックを持つAWGNチャネルでは、前方チャネルSNRが50ビットのブロックサイズで0dBである場合、AttentionCodeはブロックエラー率(BLER)を10^{-7}$で達成し、AttentionCodeが6Gで超信頼性の高いショートパック通信を提供する可能性を実証する。

Ultra-reliable short-packet communication is a major challenge in future wireless networks with critical applications. To achieve ultra-reliable communications beyond 99.999%, this paper envisions a new interaction-based communication paradigm that exploits the feedback from the receiver for the sixth generation (6G) communication networks and beyond. We present AttentionCode, a new class of feedback codes leveraging deep learning (DL) technologies. The underpinnings of AttentionCode are three architectural innovations: AttentionNet, input restructuring, and adaptation to fading channels, accompanied by several training methods, including large-batch training, distributed learning, look-ahead optimizer, training-test signal-to-noise ratio (SNR) mismatch, and curriculum learning. The training methods can potentially be generalized to other wireless communication applications with machine learning. Numerical experiments verify that AttentionCode establishes a new state of the art among all DL-based feedback codes in both additive white Gaussian noise (AWGN) channels and fading channels. In AWGN channels with noiseless feedback, for example, AttentionCode achieves a block error rate (BLER) of $10^{-7}$ when the forward channel SNR is 0dB for a block size of 50 bits, demonstrating the potential of AttentionCode to provide ultra-reliable short-packet communications for 6G.
翻訳日:2022-05-31 18:34:31 公開日:2022-05-30
# 最適勾配すべりと類似性を考慮した分散最適化への応用

Optimal Gradient Sliding and its Application to Distributed Optimization Under Similarity ( http://arxiv.org/abs/2205.15136v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Aleksandr Beznosikov, Ekaterina Borodich, Alexander Gasnikov, Gesualdo Scutari(参考訳) そこで、$r$は$\mu$-strongly)、$q$は$l_q$-smoothとconvex、$p$は$l_p$-smooth、おそらく非凸である。 このような問題に対して,各成分の勾配計算を省略し,それぞれ$p$ と $q$ の勾配呼び出しの最適複雑性,すなわち $\mathcal{o}(\sqrt{l_p/\mu})$ と $\mathcal{o}(\sqrt{l_q/\mu})$ をそれぞれ達成できる,不正確な加速度勾配スライディング法を提案した。 この結果は古典的なブラックボックスの複雑さである$\mathcal{o}(\sqrt{(l_p+l_q)/\mu})$よりもはるかにシャープである。 次に,提案手法を適用し,統計データの類似性などにより,エージェントの関数類似性の下で,マスタワーカアーキテクチャ上の分散最適化問題を解く。 分散アルゴリズムは、通信と局所的なグラデーション呼び出しにおいて、初めてより低い複雑性境界を達成し、前者は長年の未解決問題である。 最後に、変分不等式クラスを解き、より低い通信と計算複雑性の境界を達成することにより、分散saddle-problem(関数類似性の下で)に拡張する。

We study structured convex optimization problems, with additive objective $r:=p + q$, where $r$ is ($\mu$-strongly) convex, $q$ is $L_q$-smooth and convex, and $p$ is $L_p$-smooth, possibly nonconvex. For such a class of problems, we proposed an inexact accelerated gradient sliding method that can skip the gradient computation for one of these components while still achieving optimal complexity of gradient calls of $p$ and $q$, that is, $\mathcal{O}(\sqrt{L_p/\mu})$ and $\mathcal{O}(\sqrt{L_q/\mu})$, respectively. This result is much sharper than the classic black-box complexity $\mathcal{O}(\sqrt{(L_p+L_q)/\mu})$, especially when the difference between $L_q$ and $L_q$ is large. We then apply the proposed method to solve distributed optimization problems over master-worker architectures, under agents' function similarity, due to statistical data similarity or otherwise. The distributed algorithm achieves for the first time lower complexity bounds on {\it both} communication and local gradient calls, with the former having being a long-standing open problem. Finally the method is extended to distributed saddle-problems (under function similarity) by means of solving a class of variational inequalities, achieving lower communication and computation complexity bounds.
翻訳日:2022-05-31 18:34:02 公開日:2022-05-30
# (参考訳) 数学的言語処理に関する調査

A Survey in Mathematical Language Processing ( http://arxiv.org/abs/2205.15231v1 )

ライセンス: CC BY 4.0
Jordan Meadows and Andre Freitas(参考訳) インフォーマルな数学的テキストは現実世界の量的推論とコミュニケーションを支える。 この双対モダリティから高度な検索と抽象化の手法を開発することは、量的科学と数学における発見の自動化というビジョンの追求に不可欠である。 近年,5つの戦略的サブエリアにまたがる非公式な数学的言語処理手法の開発を追跡し,既存の制限とともに広く普及している方法論的要素に注目した。

Informal mathematical text underpins real-world quantitative reasoning and communication. Developing sophisticated methods of retrieval and abstraction from this dual modality is crucial in the pursuit of the vision of automating discovery in quantitative science and mathematics. We track the development of informal mathematical language processing approaches across five strategic sub-areas in recent years, highlighting the prevailing successful methodological elements along with existing limitations.
翻訳日:2022-05-31 18:31:34 公開日:2022-05-30
# TaSIL: Taylorシリーズの模倣学習

TaSIL: Taylor Series Imitation Learning ( http://arxiv.org/abs/2205.14812v1 )

ライセンス: Link先を確認
Daniel Pfrommer, Thomas T.C.K. Zhang, Stephen Tu, Nikolai Matni(参考訳) そこで我々はTaylor Series Imitation Learning (TaSIL)を提案する。 TaSILは、学習ポリシーと専門家ポリシーの間の高階テイラー級数における偏差を罰する。 本研究は, 入力状態安定の概念を満足する専門家が, 専門家の軌跡に対するtsil-augmentedの小さな模倣損失が, 学習した政策によって生じる軌跡に対する小さな模倣損失を保証するという意味で, 容易に学習できることを示す。 我々は、TaSILのサンプル複素性境界を$\tilde{\mathcal{O}}(1/n)$と、実現可能な設定でスケールし、専門家によるデモンストレーションの回数を$n$とします。 最後に、エキスパートポリシーの堅牢性とTaSILで要求されるTaylor拡張の順序との関係を実験的に実証し、標準的な振舞いクローン、DART、DAggerとTaSILで拡張された変種を比較した。 いずれの場合も、さまざまな MuJoCo タスクのベースラインよりも大幅に改善されている。

We propose Taylor Series Imitation Learning (TaSIL), a simple augmentation to standard behavior cloning losses in the context of continuous control. TaSIL penalizes deviations in the higher-order Taylor series terms between the learned and expert policies. We show that experts satisfying a notion of \emph{incremental input-to-state stability} are easy to learn, in the sense that a small TaSIL-augmented imitation loss over expert trajectories guarantees a small imitation loss over trajectories generated by the learned policy. We provide sample-complexity bounds for TaSIL that scale as $\tilde{\mathcal{O}}(1/n)$ in the realizable setting, for $n$ the number of expert demonstrations. Finally, we demonstrate experimentally the relationship between the robustness of the expert policy and the order of Taylor expansion required in TaSIL, and compare standard Behavior Cloning, DART, and DAgger with TaSIL-loss-augmented variants. In all cases, we show significant improvement over baselines across a variety of MuJoCo tasks.
翻訳日:2022-05-31 18:07:33 公開日:2022-05-30
# フェデレートするかどうか:フェデレーション学習におけるクライアント参加のインセンティブ

To Federate or Not To Federate: Incentivizing Client Participation in Federated Learning ( http://arxiv.org/abs/2205.14840v1 )

ライセンス: Link先を確認
Yae Jee Cho and Divyansh Jhunjhunwala and Tian Li and Virginia Smith and Gauri Joshi(参考訳) federated learning(fl)は、ローカルデータを直接共有することなく、共通の機械学習モデルをトレーニングしようとするクライアントグループ間のコラボレーションを促進する。 フェデレートトレーニングのスピード、効率、正確性を改善するための研究はたくさんあるが、ほとんどの研究は、すべてのクライアントがFLフレームワークに参加することを暗黙的に想定している。 しかし、データの不均一性のため、グローバルモデルは一部のクライアントではうまく機能せず、代わりに独自のローカルモデルを選択するかもしれない。 このようなクライアントの非インセンティブ化は、より多くの参加するクライアントを持つことがより優れたグローバルモデルとなり、参加するクライアントにより良いプライバシー保証を提供するため、サーバの観点から問題となる可能性がある。 本稿では,更新に割り当てられた集約重みを動的に調整することにより,グローバルモデルを利用するインセンティブを得たクライアントの比率を明示的に最大化するinflというアルゴリズムを提案する。 実験の結果,インセンティブ付きクライアント数を標準フェデレーショントレーニングアルゴリズムと比較して30~55%増加させるとともに,グローバルモデルの一般化性能を向上させることができた。

Federated learning (FL) facilitates collaboration between a group of clients who seek to train a common machine learning model without directly sharing their local data. Although there is an abundance of research on improving the speed, efficiency, and accuracy of federated training, most works implicitly assume that all clients are willing to participate in the FL framework. Due to data heterogeneity, however, the global model may not work well for some clients, and they may instead choose to use their own local model. Such disincentivization of clients can be problematic from the server's perspective because having more participating clients yields a better global model, and offers better privacy guarantees to the participating clients. In this paper, we propose an algorithm called IncFL that explicitly maximizes the fraction of clients who are incentivized to use the global model by dynamically adjusting the aggregation weights assigned to their updates. Our experiments show that IncFL increases the number of incentivized clients by 30-55% compared to standard federated training algorithms, and can also improve the generalization performance of the global model on unseen clients.
翻訳日:2022-05-31 18:07:14 公開日:2022-05-30
# 効率的な合成データパラメータ化によるデータセットの凝縮

Dataset Condensation via Efficient Synthetic-Data Parameterization ( http://arxiv.org/abs/2205.14959v1 )

ライセンス: Link先を確認
Jang-Hyun Kim, Jinuk Kim, Seong Joon Oh, Sangdoo Yun, Hwanjun Song, Joonhyun Jeong, Jung-Woo Ha, Hyun Oh Song(参考訳) 大量のデータを使った機械学習の素晴らしい成功は、膨大な計算コストとトレーニングとチューニングのためのストレージのコストによってもたらされます。 データセット凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することによって、そのような大量のデータへの依存を減らす試みである。 しかし、既存のアプローチは、データ規則性特性を考慮せず、合成データセットの表現可能性に制限があるため、最適化に根本的な制限がある。 そこで本研究では,データ規則性を考慮した効率的なパラメータ化により,少ないストレージ予算で複数の合成データを生成する新しい凝縮フレームワークを提案する。 さらに,既存の勾配整合型凝縮法の欠点を解析し,学習データ情報の凝縮性を改善するための効果的な最適化手法を開発した。 我々は,CIFAR-10, ImageNet, Speech Commandsにおける現在の最先端技術に対して,コンデンサデータの品質を大幅に向上させる統一アルゴリズムを提案する。

The great success of machine learning with massive amounts of data comes at a price of huge computation costs and storage for training and tuning. Recent studies on dataset condensation attempt to reduce the dependence on such massive data by synthesizing a compact training dataset. However, the existing approaches have fundamental limitations in optimization due to the limited representability of synthetic datasets without considering any data regularity characteristics. To this end, we propose a novel condensation framework that generates multiple synthetic data with a limited storage budget via efficient parameterization considering data regularity. We further analyze the shortcomings of the existing gradient matching-based condensation methods and develop an effective optimization technique for improving the condensation of training data information. We propose a unified algorithm that drastically improves the quality of condensed data against the current state-of-the-art on CIFAR-10, ImageNet, and Speech Commands.
翻訳日:2022-05-31 18:06:53 公開日:2022-05-30
# 不可解な物理駆動型ディープラーニング

Agnostic Physics-Driven Deep Learning ( http://arxiv.org/abs/2205.15021v1 )

ライセンス: Link先を確認
Benjamin Scellier, Siddhartha Mishra, Yoshua Bengio, Yann Ollivier(参考訳) この研究は、エネルギー最小化、ホメオスタティック制御、正しい応答に向けてヌードするAgnostic Equilibrium Propagation (Aeqprop) 手順を通じて、物理系が勾配計算なしで統計的学習を行えることを証明している。 aeqpropでは、この手順は外部操作のみに基づいており、明示的な勾配計算なしで確率的勾配降下を生成する。 ナッジングのおかげで、システムはトレーニングサンプルごとに真のオーダーワン勾配ステップを実行し、強化や進化戦略のような、試行錯誤に依存するオーダーゼロのメソッドとは対照的に。 この手順は、たとえシステムの詳細がよく分かっていないとしても、十分な制御可能なパラメータを持つシステムに統計的学習のための潜在的なハードウェアの範囲を大幅に広げる。 Aeqpropはまた、自然(生物)物理系において、真の勾配に基づく統計学習は、バックプロパゲーションのない比較的単純な機構と、部分微分の解析的知識の要求によって生じる可能性があることを証明している。

This work establishes that a physical system can perform statistical learning without gradient computations, via an Agnostic Equilibrium Propagation (Aeqprop) procedure that combines energy minimization, homeostatic control, and nudging towards the correct response. In Aeqprop, the specifics of the system do not have to be known: the procedure is based only on external manipulations, and produces a stochastic gradient descent without explicit gradient computations. Thanks to nudging, the system performs a true, order-one gradient step for each training sample, in contrast with order-zero methods like reinforcement or evolutionary strategies, which rely on trial and error. This procedure considerably widens the range of potential hardware for statistical learning to any system with enough controllable parameters, even if the details of the system are poorly known. Aeqprop also establishes that in natural (bio)physical systems, genuine gradient-based statistical learning may result from generic, relatively simple mechanisms, without backpropagation and its requirement for analytic knowledge of partial derivatives.
翻訳日:2022-05-31 18:04:53 公開日:2022-05-30
# RLx2:スクラッチによるスパースディープ強化学習モデルの訓練

RLx2: Training a Sparse Deep Reinforcement Learning Model from Scratch ( http://arxiv.org/abs/2205.15043v1 )

ライセンス: Link先を確認
Yiqin Tan, Pihe Hu, Ling Pan, Longbo Huang(参考訳) 深層強化学習(DRL)モデルの訓練は通常、高い計算コストを必要とする。 したがって、DRLモデルを圧縮することは、トレーニングアクセラレーションとモデル展開にとって大きな可能性を秘めている。 しかし, 大規模ネットワークを反復的に訓練することで, 知識蒸留に基づくアプローチを主眼とし, 学習プロセスは依然として膨大な計算資源を必要とする。 実際、DRLのスクラッチからのスパーストレーニングは十分に検討されておらず、ブートストラップトレーニングの非定常性のために特に困難である。 本研究では, DRLエージェント \emph{using a Ultra-sparse network throughout} をトレーニング可能な, 新規なスパースDRLトレーニングフレームワーク "the \textbf{R}igged \textbf{R}einforcement \textbf{L}earning \textbf{L}ottery" (RLx2) を提案する。 系統的なRLx2フレームワークには、勾配ベースのトポロジー進化、TDターゲットのマルチステップ、動的キャパシティ再生バッファの3つの重要なコンポーネントが含まれている。 RLx2は、効率的なトポロジー探索と堅牢なQ値推定を可能にする。 RLx2を用いたいくつかの連続制御タスクにおいて、最先端のスパーストレーニング性能を実演し、それぞれ$7.5\times$-$20\times$モデル圧縮に$3\%以下のパフォーマンス劣化、最大20\times$と50\times$FLOPsのトレーニングと推論の削減を示す。

Training deep reinforcement learning (DRL) models usually requires high computation costs. Therefore, compressing DRL models possesses immense potential for training acceleration and model deployment. However, existing methods that generate small models mainly adopt the knowledge distillation based approach by iteratively training a dense network, such that the training process still demands massive computing resources. Indeed, sparse training from scratch in DRL has not been well explored and is particularly challenging due to non-stationarity in bootstrap training. In this work, we propose a novel sparse DRL training framework, "the \textbf{R}igged \textbf{R}einforcement \textbf{L}earning \textbf{L}ottery" (RLx2), which is capable of training a DRL agent \emph{using an ultra-sparse network throughout} for off-policy reinforcement learning. The systematic RLx2 framework contains three key components: gradient-based topology evolution, multi-step Temporal Difference (TD) targets, and dynamic-capacity replay buffer. RLx2 enables efficient topology exploration and robust Q-value estimation simultaneously. We demonstrate state-of-the-art sparse training performance in several continuous control tasks using RLx2, showing $7.5\times$-$20\times$ model compression with less than $3\%$ performance degradation, and up to $20\times$ and $50\times$ FLOPs reduction for training and inference, respectively.
翻訳日:2022-05-31 18:04:32 公開日:2022-05-30
# SEREN: いつ、いつ、いつ爆発するかを知る

SEREN: Knowing When to Explore and When to Exploit ( http://arxiv.org/abs/2205.15064v1 )

ライセンス: Link先を確認
Changmin Yu, David Mguni, Dong Li, Aivar Sootla, Jun Wang, Neil Burgess(参考訳) 効率的な強化学習(RL)は、期待される報酬を最大化する「探索的」行動と、目に見えない状態をサンプリングする「探索的」行動とのトレードオフを伴う。 探索を促進するために、近年のアプローチでは、行動に確率性を加えること、探索と搾取フェーズを分離すること、不確実性の低減と報酬を同等にすることを提案した。 しかし、これらの手法は必ずしも完全な体系的なアプローチを提供してはいない。 ここでは、既知の報酬を純粋に活用するRLエージェントと、システム不確実性を最小化し、エクスプロイターをオーバーライドするように訓練された純粋な探査ポリシーをどの州で有効にするかを選択するRLエージェント- \exploiterと、他のRLエージェント- \switcherとのゲームとして、探索・探索のトレードオフを示すセレクティブ強化探索ネットワーク(SEREN)を紹介する。 インパルス制御(英語版)として知られる政策の形式を用いて、シャスウィッチャーは探検政策に切り替える最良の州を決定できるが、エクスプロイターはあらゆる場所で自由に行動を実行することができる。 SERENは急速に収束し、純粋な利用に向けて自然なスケジュールを導き出す。 離散的(MiniGrid)および連続的(MuJoCo)制御ベンチマークの広範な実証研究を通じて、SERENが既存のRLアルゴリズムと容易に組み合わせることで、最先端のアルゴリズムと比較して性能が大幅に向上することを示した。

Efficient reinforcement learning (RL) involves a trade-off between "exploitative" actions that maximise expected reward and "explorative'" ones that sample unvisited states. To encourage exploration, recent approaches proposed adding stochasticity to actions, separating exploration and exploitation phases, or equating reduction in uncertainty with reward. However, these techniques do not necessarily offer entirely systematic approaches making this trade-off. Here we introduce SElective Reinforcement Exploration Network (SEREN) that poses the exploration-exploitation trade-off as a game between an RL agent -- \exploiter, which purely exploits known rewards, and another RL agent -- \switcher, which chooses at which states to activate a pure exploration policy that is trained to minimise system uncertainty and override Exploiter. Using a form of policies known as impulse control, \switcher is able to determine the best set of states to switch to the exploration policy while Exploiter is free to execute its actions everywhere else. We prove that SEREN converges quickly and induces a natural schedule towards pure exploitation. Through extensive empirical studies in both discrete (MiniGrid) and continuous (MuJoCo) control benchmarks, we show that SEREN can be readily combined with existing RL algorithms to yield significant improvement in performance relative to state-of-the-art algorithms.
翻訳日:2022-05-31 18:03:59 公開日:2022-05-30
# Align then Fusion:アンカーマッチング対応付き大規模マルチビュークラスタリング

Align then Fusion: Generalized Large-scale Multi-view Clustering with Anchor Matching Correspondences ( http://arxiv.org/abs/2205.15075v1 )

ライセンス: Link先を確認
Siwei Wang, Xinwang Liu, Suyuan Liu, Jiaqi Jin, Wenxuan Tu, Xinzhong Zhu, En Zhu(参考訳) マルチビューアンカーグラフクラスタリングは、完全な対方向の類似性を避けるために代表アンカーを選択し、グラフメソッドの複雑さを減少させる。 大規模アプリケーションに広く適用されているが、既存のアプローチではビューをまたいだアンカーセット間の正しい対応を確立するのに十分な注意を払っていない。 具体的には、異なるビューから得られるアンカーグラフはカラムワイズに整列しない。 このようなアンカーアンライメント問題(aup)は不正確なグラフ融合を引き起こし、クラスタリング性能を低下させる。 多視点シナリオでは、アンカーが特徴次元に一貫性がないため、正しい対応を生成することは極めて困難である。 この課題を解決するために,FMVACC(Fast Multi-View Anchor-Cor correspondingence Clustering)と呼ばれる一般化されたフレキシブルなアンカーグラフ融合フレームワークを提案する。 具体的には,特徴情報と構造情報の両方にアンカー対応を見つける方法を示し,その後にアンカーグラフ融合を行う。 さらに,fmvaccと既存のマルチビュー遅延融合と部分ビューアライメントクラスタリングとの接続を理論的に示すことにより,さらに汎用性を示す。 7つのベンチマークデータセットに関する広範囲な実験により,提案手法の有効性と効率を実証した。 さらに,提案したアライメントモジュールは,アンカーアライメントの重要性を示す既存のマルチビューアンカーグラフ競合に対して,大幅な性能向上を示す。

Multi-view anchor graph clustering selects representative anchors to avoid full pair-wise similarities and therefore reduce the complexity of graph methods. Although widely applied in large-scale applications, existing approaches do not pay sufficient attention to establishing correct correspondences between the anchor sets across views. To be specific, anchor graphs obtained from different views are not aligned column-wisely. Such an Anchor-Unaligned Problem (AUP) would cause inaccurate graph fusion and degrade the clustering performance. Under multi-view scenarios, generating correct correspondences could be extremely difficult since anchors are not consistent in feature dimensions. To solve this challenging issue, we propose the first study of a generalized and flexible anchor graph fusion framework termed Fast Multi-View Anchor-Correspondence Clustering (FMVACC). Specifically, we show how to find anchor correspondence with both feature and structure information, after which anchor graph fusion is performed column-wisely. Moreover, we theoretically show the connection between FMVACC and existing multi-view late fusion and partial view-aligned clustering, which further demonstrates our generality. Extensive experiments on seven benchmark datasets demonstrate the effectiveness and efficiency of our proposed method. Moreover, the proposed alignment module also shows significant performance improvement applying to existing multi-view anchor graph competitors indicating the importance of anchor alignment.
翻訳日:2022-05-31 18:03:30 公開日:2022-05-30
# 塗装室内の健康指数予測のための機械学習手法

Machine Learning Methods for Health-Index Prediction in Coating Chambers ( http://arxiv.org/abs/2205.15145v1 )

ライセンス: Link先を確認
Clemens Heistracher, Anahid Jalali, J\"urgen Schneeweiss, Klaudia Kovacs, Catherine Laflamme and Bernhard Haslhofer(参考訳) コーティングチャンバーは、物理的蒸着を用いた宝石製造における機械的および光学的表面特性を改善する薄い層を生成する。 このような過程において、蒸発した物質はそのようなチャンバーの壁に凝縮し、時間とともに機械的欠陥と不安定な過程を引き起こす。 その結果、製造業者は生産損失を減らすために広範囲の保守作業を行う。 現在のルールに基づくメンテナンス戦略は、特定のレシピの影響や真空室の実態を無視している。 総合的な目標は、設備のコストと品質を最適化したメンテナンスを可能にするため、塗装室の将来状態を予測することです。 本稿では, 塗工室の環境保全に向けたステップとなる新しい健康指標の導出について述べる。 室内汚染のガス排出を間接的に利用し, 機械の状態を評価した。 我々のアプローチはプロセスデータに依存しており、追加のハードウェアインストールを必要としない。 さらに,生産計画を反映した健康指標の条件に基づく予測のために,複数の機械学習アルゴリズムを評価した。 以上の結果から,決定木に基づくモデルが最も効率的かつ優れた3つのベンチマークが得られ,平均誤差が0.22ドル以上向上した。 我々の研究は、コーティングアプリケーションのコストと品質を最適化したメンテナンスの道を開いた。

Coating chambers create thin layers that improve the mechanical and optical surface properties in jewelry production using physical vapor deposition. In such a process, evaporated material condensates on the walls of such chambers and, over time, causes mechanical defects and unstable processes. As a result, manufacturers perform extensive maintenance procedures to reduce production loss. Current rule-based maintenance strategies neglect the impact of specific recipes and the actual condition of the vacuum chamber. Our overall goal is to predict the future condition of the coating chamber to allow cost and quality optimized maintenance of the equipment. This paper describes the derivation of a novel health indicator that serves as a step toward condition-based maintenance for coating chambers. We indirectly use gas emissions of the chamber's contamination to evaluate the machine's condition. Our approach relies on process data and does not require additional hardware installation. Further, we evaluated multiple machine learning algorithms for a condition-based forecast of the health indicator that also reflects production planning. Our results show that models based on decision trees are the most effective and outperform all three benchmarks, improving at least $0.22$ in the mean average error. Our work paves the way for cost and quality optimized maintenance of coating applications.
翻訳日:2022-05-31 18:03:07 公開日:2022-05-30
# フロー化: すべてが正規化フローである

Flowification: Everything is a Normalizing Flow ( http://arxiv.org/abs/2205.15209v1 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Samuel Klein, Tobias Golling, Fran\c{c}ois Fleuret(参考訳) 本研究では,任意の多層パーセプトロンや畳み込みネットワークを正規化フローに変換する手法を開発した。 モデルに非相関ノイズを加える必要がある場合もあるが、最も単純な場合、追加のパラメータは必要ない。 私たちが開発しているテクニックは、幅広いアーキテクチャに適用することができ、幅広いタスクに使用することができます。 また,既存の密度推定手法と高性能特徴抽出器を組み合わせることも可能である。 特定のアーキテクチャや専門知識を必要とする標準的な密度推定手法とは対照的に、我々のアプローチは他のドメインの設計知識を活用でき、汎用アーキテクチャの実現に一歩近づいた。 標準データセットの密度推定における線形および畳み込み層の有効性について検討した。 以上の結果から,標準層には他の正規化フローに比べ,基本的なものが欠けていることが示唆された。

We develop a method that can be used to turn any multi-layer perceptron or convolutional network into a normalizing flow. In some cases this requires the addition of uncorrelated noise to the model but in the simplest case no additional parameters. The technique we develop can be applied to a broad range of architectures, allowing them to be used for a wide range of tasks. Our models also allow existing density estimation techniques to be combined with high performance feature extractors. In contrast to standard density estimation techniques that require specific architectures and specialized knowledge, our approach can leverage design knowledge from other domains and is a step closer to the realization of general purpose architectures. We investigate the efficacy of linear and convolutional layers for the task of density estimation on standard datasets. Our results suggest standard layers lack something fundamental in comparison to other normalizing flows.
翻訳日:2022-05-31 18:02:50 公開日:2022-05-30
# 組合せアルゴリズムによる勾配バックプロパゲーション:射影による同一性

Gradient Backpropagation Through Combinatorial Algorithms: Identity with Projection Works ( http://arxiv.org/abs/2205.15213v1 )

ライセンス: Link先を確認
Subham Sekhar Sahoo and Marin Vlastelica and Anselm Paulus and V\'it Musil and Volodymyr Kuleshov and Georg Martius(参考訳) 離散解法を微分可能なレイヤとして組み込むと、現代のディープラーニングアーキテクチャの組合せ表現性と離散推論能力が得られる。 これらの解法の導出はゼロあるいは未定義であるため、効果的な勾配に基づく学習には意味のある置換が不可欠である。 事前の作業は、入力の摂動によるソルバの平滑化、連続的な問題へのソルバの緩和、あるいは通常追加のソルバ呼び出しを必要とするテクニックによるロスランドスケープの補間、追加のハイパーパラメータの導入、パフォーマンスの妥協などに依存している。 本研究では, 離散解空間の幾何を, 逆経路上の負の同一性として扱うための原理的手法を提案し, 理論的な正当化を提供する。 このような超パラメータフリーなアプローチは,旅行セールスマン問題,最短経路,ディープグラフマッチング,離散サンプルによるバックプロパゲーションなど,これまでより複雑な手法と同等かそれ以上であることを示す。 さらに,従来提案されていた問題固有およびラベル依存マージンを,コストの崩壊を防止し,ロバスト性を高める汎用正規化法で置き換える。

Embedding discrete solvers as differentiable layers has given modern deep learning architectures combinatorial expressivity and discrete reasoning capabilities. The derivative of these solvers is zero or undefined, therefore a meaningful replacement is crucial for effective gradient-based learning. Prior works rely on smoothing the solver with input perturbations, relaxing the solver to continuous problems, or interpolating the loss landscape with techniques that typically require additional solver calls, introduce extra hyper-parameters or compromise performance. We propose a principled approach to exploit the geometry of the discrete solution space to treat the solver as a negative identity on the backward pass and further provide a theoretical justification. Our experiments demonstrate that such a straightforward hyper-parameter-free approach is on-par with or outperforms previous more complex methods on numerous experiments such as Traveling Salesman Problem, Shortest Path, Deep Graph Matching, and backpropagating through discrete samplers. Furthermore, we substitute the previously proposed problem-specific and label-dependent margin by a generic regularization procedure that prevents cost collapse and increases robustness.
翻訳日:2022-05-31 18:00:58 公開日:2022-05-30
# 交通予測のためのグラフと注意型マルチパス畳み込みネットワーク

A Graph and Attentive Multi-Path Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2205.15218v1 )

ライセンス: Link先を確認
Jianzhong Qi, Zhuowei Zhao, Egemen Tanin, Tingru Cui, Neema Nassir, Majid Sarvi(参考訳) 交通予測は、複雑で絶えず変化する交通システムの性質のため、重要かつ非常に困難な問題である。 この課題に対処するために,道路ネットワークを横断する交通速度などの交通条件を予測するためのグラフと注意深いマルチパス畳み込みネットワーク(GAMCN)モデルを提案する。 交通状況に影響を及ぼす空間的・時間的要因に着目したモデルである。 空間的要因をモデル化するために,道路網のグラフ頂点を潜在空間に埋め込むためのlcgcnと呼ばれるグラフ畳み込みネットワーク(gcn)の変種を提案する。 時間的要因をモデル化するために,複数経路畳み込みニューラルネットワーク(CNN)を用いて,過去の交通条件の異なる組み合わせが将来の交通条件に与える影響を学習する。 このような共同的な影響は、交通条件の周期的なパターンを符号化する予測時間の埋め込みから生じる注意によってさらに変調される。 我々は,実世界の道路網と交通データからモデルを評価する。 実験の結果,予測誤差は最大18.9%,予測効率は23.4%であった。

Traffic prediction is an important and yet highly challenging problem due to the complexity and constantly changing nature of traffic systems. To address the challenges, we propose a graph and attentive multi-path convolutional network (GAMCN) model to predict traffic conditions such as traffic speed across a given road network into the future. Our model focuses on the spatial and temporal factors that impact traffic conditions. To model the spatial factors, we propose a variant of the graph convolutional network (GCN) named LPGCN to embed road network graph vertices into a latent space, where vertices with correlated traffic conditions are close to each other. To model the temporal factors, we use a multi-path convolutional neural network (CNN) to learn the joint impact of different combinations of past traffic conditions on the future traffic conditions. Such a joint impact is further modulated by an attention} generated from an embedding of the prediction time, which encodes the periodic patterns of traffic conditions. We evaluate our model on real-world road networks and traffic data. The experimental results show that our model outperforms state-of-art traffic prediction models by up to 18.9% in terms of prediction errors and 23.4% in terms of prediction efficiency.
翻訳日:2022-05-31 18:00:36 公開日:2022-05-30
# MetaSSD:メタラーニングによる自己監視検出

MetaSSD: Meta-Learned Self-Supervised Detection ( http://arxiv.org/abs/2205.15271v1 )

ライセンス: Link先を確認
Moon Jeong Park, Jungseul Ok, Yo-Seb Jeon and Dongwoo Kim(参考訳) 深層学習に基づくシンボル検出器は、ビタビやBCJRのような従来のモデルベースアルゴリズムよりも単純なアルゴリズム設計により注目される。 教師付き学習フレームワークは、モデルのトレーニングにトレーニングシンボルを使用する入力シンボルを予測するためによく使用される。 教師付きアプローチには2つの大きな制限がある。 a) 新しい列車のシンボルが新しいチャンネルのステータスに適応するときは、モデルをスクラッチから再訓練する必要がある。 b) トレーニングシンボルの長さは、モデルが見当たらないシンボルにうまく一般化するために、一定のしきい値よりも長いことが必要である。 これらの課題を克服するために,メタラーニングに基づく自己教師付きシンボル検出器metassdを提案する。 私たちの貢献は2つあります。 a) メタ学習は、様々なメタ学習環境の経験に基づく新しいチャネル環境への適応を支援し、 b) 自己指導型学習は、従来提案されていた学習に基づく検知器よりも比較的少ない監督力の使用を支援する。 実験では、MetaSSDはOFDM-MMSEよりもノイズの多いチャネル情報で優れ、BCJRと同等の結果を示す。 さらなるアブレーション研究により,各成分の必要性が示された。

Deep learning-based symbol detector gains increasing attention due to the simple algorithm design than the traditional model-based algorithms such as Viterbi and BCJR. The supervised learning framework is often employed to predict the input symbols, where training symbols are used to train the model. There are two major limitations in the supervised approaches: a) a model needs to be retrained from scratch when new train symbols come to adapt to a new channel status, and b) the length of the training symbols needs to be longer than a certain threshold to make the model generalize well on unseen symbols. To overcome these challenges, we propose a meta-learning-based self-supervised symbol detector named MetaSSD. Our contribution is two-fold: a) meta-learning helps the model adapt to a new channel environment based on experience with various meta-training environments, and b) self-supervised learning helps the model to use relatively less supervision than the previously suggested learning-based detectors. In experiments, MetaSSD outperforms OFDM-MMSE with noisy channel information and shows comparable results with BCJR. Further ablation studies show the necessity of each component in our framework.
翻訳日:2022-05-31 18:00:15 公開日:2022-05-30
# グラフコントラスト学習によるシーケンスレコメンデーションの強化

Enhancing Sequential Recommendation with Graph Contrastive Learning ( http://arxiv.org/abs/2205.14837v1 )

ライセンス: Link先を確認
Yixin Zhang, Yong Liu, Yonghui Xu, Hao Xiong, Chenyi Lei, Wei He, Lizhen Cui, Chunyan Miao(参考訳) シーケンシャルレコメンデーションシステムは、ユーザの動的行動パターンをキャプチャして、次のインタラクション動作を予測する。 既存の逐次レコメンデーション手法のほとんどは、個々のインタラクションシーケンスのローカルコンテキスト情報のみを利用し、アイテム予測損失のみに基づいてモデルパラメータを学習する。 したがって、通常は適切なシーケンス表現を学ばない。 本稿では,GCL4SR(Graph Contrastive Learning for Sequential Recommendation)という新しい推薦フレームワークを提案する。 具体的には、GCL4SRは、すべてのユーザのインタラクションシーケンスに基づいて構築された重み付きアイテム遷移グラフ(WITG)を使用して、インタラクション毎にグローバルなコンテキスト情報を提供し、シーケンスデータのノイズ情報を弱める。 さらに、GCL4SRはWITGのサブグラフを使用して、各相互作用シーケンスの表現を増強する。 また、WITG上の同一の相互作用配列によって誘導される拡張表現の一貫性を最大化し、WITG上のグローバルコンテキストによって増強される表現と元のシーケンスの局所表現との差を最小化する2つの補助学習目的も提案されている。 実世界のデータセットに対する大規模な実験は、GCL4SRが常に最先端のシーケンシャルレコメンデーションメソッドより優れていることを示した。

The sequential recommendation systems capture users' dynamic behavior patterns to predict their next interaction behaviors. Most existing sequential recommendation methods only exploit the local context information of an individual interaction sequence and learn model parameters solely based on the item prediction loss. Thus, they usually fail to learn appropriate sequence representations. This paper proposes a novel recommendation framework, namely Graph Contrastive Learning for Sequential Recommendation (GCL4SR). Specifically, GCL4SR employs a Weighted Item Transition Graph (WITG), built based on interaction sequences of all users, to provide global context information for each interaction and weaken the noise information in the sequence data. Moreover, GCL4SR uses subgraphs of WITG to augment the representation of each interaction sequence. Two auxiliary learning objectives have also been proposed to maximize the consistency between augmented representations induced by the same interaction sequence on WITG, and minimize the difference between the representations augmented by the global context on WITG and the local representation of the original sequence. Extensive experiments on real-world datasets demonstrate that GCL4SR consistently outperforms state-of-the-art sequential recommendation methods.
翻訳日:2022-05-31 17:59:37 公開日:2022-05-30
# 5G/6Gコアネットワークにおけるインテリジェンス支援に向けて:NWDAFの実装と初期分析

Towards Supporting Intelligence in 5G/6G Core Networks: NWDAF Implementation and Initial Analysis ( http://arxiv.org/abs/2205.15121v1 )

ライセンス: Link先を確認
Ali Chouman, Dimitrios Michael Manias, Abdallah Shami(参考訳) ワイヤレスネットワークは、第5世代以降は、様々なネットワークアプリケーションをサポートしなければならない。 高いデータレート、低レイテンシ、信頼性といった要求は重要な考慮事項であり、多数の接続デバイスに対してこれらの要求を達成するために人工知能が組み込まれている。 具体的には、5G Core Network Data Analytics Function(NWDAF)によって、パターンを検出し、エンドユーザを収容し、ネットワークパフォーマンスを向上させるための詳細なアクション情報を提供する。 この目的のために,本稿では,オープンソースのソフトウェアを用いて開発した5gネットワークに機能的nwdafを組み込む。 さらに、NWDAFが収集したネットワークデータの解析と、そこから引き出すことのできる貴重な洞察を、詳細なネットワーク関数の相互作用で提示した。 インテリジェントネットワーク管理におけるこのような洞察の応用例を概説する。 最後に,5Gネットワークの限界を6Gネットワーク開発の動機として論じる。

Wireless networks, in the fifth-generation and beyond, must support diverse network applications which will support the numerous and demanding connections of today's and tomorrow's devices. Requirements such as high data rates, low latencies, and reliability are crucial considerations and artificial intelligence is incorporated to achieve these requirements for a large number of connected devices. Specifically, intelligent methods and frameworks for advanced analysis are employed by the 5G Core Network Data Analytics Function (NWDAF) to detect patterns and ascribe detailed action information to accommodate end users and improve network performance. To this end, the work presented in this paper incorporates a functional NWDAF into a 5G network developed using open source software. Furthermore, an analysis of the network data collected by the NWDAF and the valuable insights which can be drawn from it have been presented with detailed Network Function interactions. An example application of such insights used for intelligent network management is outlined. Finally, the expected limitations of 5G networks are discussed as motivation for the development of 6G networks.
翻訳日:2022-05-31 17:59:05 公開日:2022-05-30
# 目的物の順序付けとパレート効率的な解法

An Approach to Ordering Objectives and Pareto Efficient Solutions ( http://arxiv.org/abs/2205.15291v1 )

ライセンス: Link先を確認
Sebastian H\"onel, Welf L\"owe(参考訳) 多目的最適化問題の解は、単一の目的の順序性の欠如のため、一般に比較や順序付けはできない。 さらに、意思決定者は、スケールした目的を比較することができると信じていることが多い。 これは、解空間が実際には線型トレードオフなしで不均一であるため、誤りである。 本稿では,問題の目的を同じ範囲のスコアにマップするために,確率積分変換を用いる手法を提案する。 スコア空間では、どのトレードオフが実際に可能かを学び、望ましいトレードオフを好みの空間にマッピングする方法を開発できます。 この結果から,パレート効率のよい解は,1つの目的の低あるいは非参照アグリゲーションを用いて順序付けできることが示唆された。 最適化中に生の目的の代わりにスコアを使用する場合、プロセスは表現された好みにかなり近いトレードオフを得ることができる。 スコア空間の所望の解を最適化の所要の選好に変換する非線形写像を用いることで、これをさらに劇的に改善する。

Solutions to multi-objective optimization problems can generally not be compared or ordered, due to the lack of orderability of the single objectives. Furthermore, decision-makers are often made to believe that scaled objectives can be compared. This is a fallacy, as the space of solutions is in practice inhomogeneous without linear trade-offs. We present a method that uses the probability integral transform in order to map the objectives of a problem into scores that all share the same range. In the score space, we can learn which trade-offs are actually possible and develop methods for mapping the desired trade-off back into the preference space. Our results demonstrate that Pareto efficient solutions can be ordered using a low- or no-preference aggregation of the single objectives. When using scores instead of raw objectives during optimization, the process allows for obtaining trade-offs significantly closer to the expressed preference. Using a non-linear mapping for transforming a desired solution in the score space to the required preference for optimization improves this even more drastically.
翻訳日:2022-05-31 17:58:48 公開日:2022-05-30
# ハイパースペクトル画像超解像のための深部分布に基づく埋め込み

Deep Posterior Distribution-based Embedding for Hyperspectral Image Super-resolution ( http://arxiv.org/abs/2205.14887v1 )

ライセンス: Link先を確認
Jinhui Hou, Zhiyu Zhu, Junhui Hou, Huanqiang Zeng, Jinjian Wu, Jiantao Zhou(参考訳) 本稿では,ハイパースペクトル(HS)画像の深層学習による空間超解像問題について検討する。 特に,HS画像の高次元空間スペクトル情報を効率的に効率的に埋め込む方法に焦点をあてる。 具体的には,経験的に設計されたネットワークモジュールを採用する既存の手法とは対照的に,層毎の空間スペクトル特徴抽出やネットワークレベル特徴集約など,注意深く定義されたhs埋め込みイベントの後方分布の近似としてhs埋め込みを定式化する。 提案手法は,高分解能(HR) HS画像が入力低分解能(LR) HS画像と擬似LR-HS画像との残差から反復的に洗練され,確率インスパイアされた HS 埋め込みによって再構成されたHR-HS 画像から生成された擬似LR-HS画像の残差から,物理的に解釈可能な高分解能なPDE-Netを生成する。 3つの一般的なベンチマークデータセットに対する大規模な実験は、PDE-Netが最先端の手法よりも優れたパフォーマンスを達成することを示した。 さらに、この種のネットワークの確率的特性は、ネットワーク出力のエピステマティックな不確実性をもたらし、他のHS画像ベースアプリケーションで使用する場合、さらなるメリットをもたらす可能性がある。 コードはhttps://github.com/jinnh/PDE-Netで公開されている。

In this paper, we investigate the problem of hyperspectral (HS) image spatial super-resolution via deep learning. Particularly, we focus on how to embed the high-dimensional spatial-spectral information of HS images efficiently and effectively. Specifically, in contrast to existing methods adopting empirically-designed network modules, we formulate HS embedding as an approximation of the posterior distribution of a set of carefully-defined HS embedding events, including layer-wise spatial-spectral feature extraction and network-level feature aggregation. Then, we incorporate the proposed feature embedding scheme into a source-consistent super-resolution framework that is physically-interpretable, producing lightweight PDE-Net, in which high-resolution (HR) HS images are iteratively refined from the residuals between input low-resolution (LR) HS images and pseudo-LR-HS images degenerated from reconstructed HR-HS images via probability-inspired HS embedding. Extensive experiments over three common benchmark datasets demonstrate that PDE-Net achieves superior performance over state-of-the-art methods. Besides, the probabilistic characteristic of this kind of networks can provide the epistemic uncertainty of the network outputs, which may bring additional benefits when used for other HS image-based applications. The code will be publicly available at https://github.com/jinnh/PDE-Net.
翻訳日:2022-05-31 17:56:53 公開日:2022-05-30
# 時間認識ニューラルボクセルを用いた高速動的放射場

Fast Dynamic Radiance Fields with Time-Aware Neural Voxels ( http://arxiv.org/abs/2205.15285v1 )

ライセンス: Link先を確認
Jiemin Fang, Taoran Yi, Xinggang Wang, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Matthias Nie{\ss}ner, Qi Tian(参考訳) ニューラルレイディアンス場(NeRF)は3次元シーンのモデリングと新規ビュー画像の合成において大きな成功を収めている。 しかし、これまでのほとんどのNeRF手法は、1つのシーンを最適化するのに多くの時間がかかる。 明示的なデータ構造、例えばvoxelの特徴は、トレーニングプロセスを加速する大きな可能性を示しています。 しかしながら、ボクセルの特徴は動的シーンに適用すべき2つの大きな課題に直面している。 タイムアウェアなボクセル特徴を持つシーンを表現し,TiNeuVoxという名前のラジアンスフィールドフレームワークを提案する。 粗い動きの軌跡をモデル化するために小さな座標変形ネットワークを導入し、放射網において時間情報をさらに強化する。 多距離補間法を提案し, ボクセルの特徴を小動と大動の両方のモデル化に適用した。 我々のフレームワークは、高いレンダリング品質を維持しながら動的ラミアンスフィールドの最適化を著しく加速する。 合成シーンと実シーンの両方で経験的評価を行う。 私たちのtineuvoxは、8分と8mbのストレージコストでトレーニングを完了します。

Neural radiance fields (NeRF) have shown great success in modeling 3D scenes and synthesizing novel-view images. However, most previous NeRF methods take much time to optimize one single scene. Explicit data structures, e.g. voxel features, show great potential to accelerate the training process. However, voxel features face two big challenges to be applied to dynamic scenes, i.e. modeling temporal information and capturing different scales of point motions. We propose a radiance field framework by representing scenes with time-aware voxel features, named as TiNeuVox. A tiny coordinate deformation network is introduced to model coarse motion trajectories and temporal information is further enhanced in the radiance network. A multi-distance interpolation method is proposed and applied on voxel features to model both small and large motions. Our framework significantly accelerates the optimization of dynamic radiance fields while maintaining high rendering quality. Empirical evaluation is performed on both synthetic and real scenes. Our TiNeuVox completes training with only 8 minutes and 8-MB storage cost while showing similar or even better rendering performance than previous dynamic NeRF methods.
翻訳日:2022-05-31 17:56:26 公開日:2022-05-30
# ランダムランク: 唯一の戦略的防御と比例的に公平な施設配置機構

Random Rank: The One and Only Strategyproof and Proportionally Fair Randomized Facility Location Mechanism ( http://arxiv.org/abs/2205.14798v1 )

ライセンス: Link先を確認
Haris Aziz, Alexander Lam, Mashbat Suzuki, Toby Walsh(参考訳) Proportionalityは、施設配置問題、社会選択における古典的な問題など、様々な問題に適用された魅力的な公平性の概念である。 本研究で提案するStrong Proportionalityという概念は,異なる場所にエージェントの2つのグループが存在する場合,両者が同じコストを発生させることを保証する。 強比例性は十分動機づけられ基本的な公理であるが、その性質を満たす決定論的戦略防御機構は存在しない。 次にランダムランキング(Random Rank)と呼ばれるランダム化メカニズム($k$から$n$の数値を均一に選択し、期待するStrong Proportionalityを満たす$k$から$n$の最高エージェントロケーションに施設を配置する)を特定します。 我々の主定理はランダムランクを普遍的真理性、普遍的匿名性、全てのランダム化機構の予測における強比例性を達成するユニークなメカニズムとして特徴づけている。 最後に、AverageOrRandomRank機構を通して、期待する戦略の正当性を弱めることで、ポスト前の公正性を保証することさえも達成できることを示す。

Proportionality is an attractive fairness concept that has been applied to a range of problems including the facility location problem, a classic problem in social choice. In our work, we propose a concept called Strong Proportionality, which ensures that when there are two groups of agents at different locations, both groups incur the same total cost. We show that although Strong Proportionality is a well-motivated and basic axiom, there is no deterministic strategyproof mechanism satisfying the property. We then identify a randomized mechanism called Random Rank (which uniformly selects a number $k$ between $1$ to $n$ and locates the facility at the $k$'th highest agent location) which satisfies Strong Proportionality in expectation. Our main theorem characterizes Random Rank as the unique mechanism that achieves universal truthfulness, universal anonymity, and Strong Proportionality in expectation among all randomized mechanisms. Finally, we show via the AverageOrRandomRank mechanism that even stronger ex-post fairness guarantees can be achieved by weakening universal truthfulness to strategyproofness in expectation.
翻訳日:2022-05-31 17:54:25 公開日:2022-05-30
# ベルナップ上の更新信念関数-ダン論理

Updating belief functions over Belnap--Dunn logic ( http://arxiv.org/abs/2205.15159v1 )

ライセンス: Link先を確認
Sabine Frittella, Ondrej Majer, Sajad Nazari(参考訳) 信念と可能性は確率よりも不確実性の弱い尺度である。 完全な確率的情報が得られない状況に動機づけられている。 しかし、情報は矛盾することもある。 したがって、古典論理の枠組みが必ずしも最も適切とは限らない。 belnap-dunn論理は不完全で矛盾する情報を推論するために導入された。 Klein et al と Bilkova et al はそれぞれ確率測度と信念関数の概念をベルナップ・ダン論理に一般化する。 本稿では,新しい情報を用いた信念機能の更新方法について検討する。 本稿では,Belnap-Dunn論理のフレームセマンティクスによる最初のアプローチを提案する。

Belief and plausibility are weaker measures of uncertainty than that of probability. They are motivated by the situations when full probabilistic information is not available. However, information can also be contradictory. Therefore, the framework of classical logic is not necessarily the most adequate. Belnap-Dunn logic was introduced to reason about incomplete and contradictory information. Klein et al and Bilkova et al generalize the notion of probability measures and belief functions to Belnap-Dunn logic, respectively. In this article, we study how to update belief functions with new pieces of information. We present a first approach via a frame semantics of Belnap-Dunn logic.
翻訳日:2022-05-31 17:54:02 公開日:2022-05-30
# (参考訳) vlue:視覚言語モデル評価のためのマルチタスクベンチマーク

VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models ( http://arxiv.org/abs/2205.15237v1 )

ライセンス: CC BY 4.0
Wangchunshu Zhou, Yan Zeng, Shizhe Diao, Xinsong Zhang(参考訳) 視覚言語前訓練(VLP)の最近の進歩は、視覚言語前訓練(VL)タスクにおいて顕著なパフォーマンスを示している。 しかし、一般のマルチモーダル・インテリジェンスの構築におけるコミュニティの進展を測定するためのいくつかの課題がある。 まず、下流のVLデータセットのほとんどは、事前トレーニング中にすでに見られる生画像を使って注釈付けされ、現在のVLPモデルの一般化能力を過大評価する可能性がある。 第二に、最近のVLPの研究は主に絶対性能に焦点を当てているが、進歩を測定する重要な指標である効率と性能のトレードオフを見落としている。 この目的のために、VLPモデルの一般化能力と効率性能トレードオフ(`Pareto SOTA''')を評価するマルチタスクマルチ次元ベンチマークであるVision-Language Understanding Evaluation (VLUE)ベンチマークを導入する。 文化にまたがるより多様な分布の画像にアノテートされた分散テストセットをテストする際に、すべてのvlpモデルにかなりの一般化ギャップがあることを実証する。 さらに,VLPモデルの効率と性能のトレードオフを測定することで,VLPの設計選択の相補的な洞察が得られた。 我々はVLUEベンチマークを公開し、事前学習中に見つからないより多様な画像や概念を一般化し、効率と性能のトレードオフの観点から実践的な視覚言語モデルの構築を促進する。

Recent advances in vision-language pre-training (VLP) have demonstrated impressive performance in a range of vision-language (VL) tasks. However, there exist several challenges for measuring the community's progress in building general multi-modal intelligence. First, most of the downstream VL datasets are annotated using raw images that are already seen during pre-training, which may result in an overestimation of current VLP models' generalization ability. Second, recent VLP work mainly focuses on absolute performance but overlooks the efficiency-performance trade-off, which is also an important indicator for measuring progress. To this end, we introduce the Vision-Language Understanding Evaluation (VLUE) benchmark, a multi-task multi-dimension benchmark for evaluating the generalization capabilities and the efficiency-performance trade-off (``Pareto SOTA'') of VLP models. We demonstrate that there is a sizable generalization gap for all VLP models when testing on out-of-distribution test sets annotated on images from a more diverse distribution that spreads across cultures. Moreover, we find that measuring the efficiency-performance trade-off of VLP models leads to complementary insights for several design choices of VLP. We release the VLUE benchmark to promote research on building vision-language models that generalize well to more diverse images and concepts unseen during pre-training, and are practical in terms of efficiency-performance trade-off.
翻訳日:2022-05-31 17:46:57 公開日:2022-05-30
# face anti-spoofingモデルにおける細粒度逆境脆弱性の暴露

Exposing Fine-grained Adversarial Vulnerability of Face Anti-spoofing Models ( http://arxiv.org/abs/2205.14851v1 )

ライセンス: Link先を確認
Songlin Yang, Wei Wang, Chenye Xu, Bo Peng and Jing Dong(参考訳) 敵対的攻撃は、顔の反偽造モデルの高い精度を脅かす。 敵対的雑音は、生身の分類と密封の分類を乱すことがある。 既存の敵対的攻撃は、標的の顔のどの部分が脆弱であるかを把握できず、敵対的分析が難しい。 そこで我々は,顔を汚すモデルの脆弱性を露呈するためのきめ細かな攻撃を提案する。 まず,敵対的なノイズセマンティックアウェアリング機能を実現するセマンティック・フィーチャー・アジュメンテーション(SFA)モジュールを提案する。 sfaは、対スプーフィングの文脈において、データとモデルのテクスチャバイアスの対比クラスを検討し、攻撃成功率を平均40%近く増加させる。 次に, 補助情報付きマルチタスクネットワークとSFAに基づいて, きめ細かい逆例を生成する。 我々は,4つのバックボーンネットワーク(VGG,Resnet,Densenet,Swin Transformer)上で,3つのアノテーション(界面属性,スプーフィングタイプ,照明)と2つの幾何マップ(深度と反射)を評価した。 顔属性アノテーションと最先端ネットワークは、モデルが敵攻撃に対して堅牢であることを保証できない。 このような敵攻撃は、より補助的な情報やバックボーンネットワークに一般化することができ、我々のコミュニティが精度と敵の堅牢性の間のトレードオフを処理するのに役立つ。

Adversarial attacks seriously threaten the high accuracy of face anti-spoofing models. Little adversarial noise can perturb their classification of live and spoofing. The existing adversarial attacks fail to figure out which part of the target face anti-spoofing model is vulnerable, making adversarial analysis tricky. So we propose fine-grained attacks for exposing adversarial vulnerability of face anti-spoofing models. Firstly, we propose Semantic Feature Augmentation (SFA) module, which makes adversarial noise semantic-aware to live and spoofing features. SFA considers the contrastive classes of data and texture bias of models in the context of face anti-spoofing, increasing the attack success rate by nearly 40% on average. Secondly, we generate fine-grained adversarial examples based on SFA and the multitask network with auxiliary information. We evaluate three annotations (facial attributes, spoofing types and illumination) and two geometric maps (depth and reflection), on four backbone networks (VGG, Resnet, Densenet and Swin Transformer). We find that facial attributes annotation and state-of-art networks fail to guarantee that models are robust to adversarial attacks. Such adversarial attacks can be generalized to more auxiliary information and backbone networks, to help our community handle the trade-off between accuracy and adversarial robustness.
翻訳日:2022-05-31 17:07:21 公開日:2022-05-30
# 教師なし異常検出と局所化のベンチマーク

Benchmarking Unsupervised Anomaly Detection and Localization ( http://arxiv.org/abs/2205.14852v1 )

ライセンス: Link先を確認
Ye Zheng, Xiang Wang, Yu Qi, Wei Li, Liwei Wu(参考訳) コンピュータビジョンにおける最も実用的で困難な問題の1つとして、教師なし異常検出と局所化が近年注目されている。 MVTec ADデータセットが提案されてから現在に至るまで、常に提案されている新しい研究手法は、その精度を飽和に推し進めている。 既存の手法を総合的に比較し、さらなる研究を刺激する時期である。 本稿では,非教師付き異常検出および局所化タスクの性能について13論文を広範囲に比較し,コミュニティがこれまで無視していた推論効率の比較を加えた。 一方、MVTec ADデータセットの分析も行われ、特にモデルに影響を与えるラベルの曖昧さは、完全なマークを達成できない。 さらに,新しいMVTec 3D-ADデータセットの提案を考慮し,既存の最先端2D手法を用いた実験を行い,解析結果について報告する。

Unsupervised anomaly detection and localization, as of one the most practical and challenging problems in computer vision, has received great attention in recent years. From the time the MVTec AD dataset was proposed to the present, new research methods that are constantly being proposed push its precision to saturation. It is the time to conduct a comprehensive comparison of existing methods to inspire further research. This paper extensively compares 13 papers in terms of the performance in unsupervised anomaly detection and localization tasks, and adds a comparison of inference efficiency previously ignored by the community. Meanwhile, analysis of the MVTec AD dataset are also given, especially the label ambiguity that affects the model fails to achieve full marks. Moreover, considering the proposal of the new MVTec 3D-AD dataset, this paper also conducts experiments using the existing state-of-the-art 2D methods on this new dataset, and reports the corresponding results with analysis.
翻訳日:2022-05-31 17:06:54 公開日:2022-05-30
# ランク残留分解による圧縮性NeRF

Compressible-composable NeRF via Rank-residual Decomposition ( http://arxiv.org/abs/2205.14870v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Xiaokang Chen, Jingbo Wang, Gang Zeng(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、3Dオブジェクトやシーンをリアルにレンダリングするための魅力的な方法として登場した。 しかし、その暗黙の表現は、明示的なメッシュ表現のようなモデルを操作するのに困難を引き起こす。 最近のNeRF操作のいくつかの進歩は、通常共有レンダラーネットワークによって制限されるか、大きなモデルサイズに悩まされる。 本稿では,このハードルを回避するために,モデルの効率的かつ便利な操作を可能にする明示的なニューラルネットワーク表現を提案する。 この目的を達成するために、ニューラルネットワークなしでシーンのハイブリッドテンソルランク分解を学習する。 SVDアルゴリズムの低階近似特性により,下位階における一次情報の保存を促進するために,ランク-残留学習戦略を提案する。 モデルサイズをランク切り下げによって動的に調整して詳細レベルを制御し、余分な最適化なしに準最適圧縮を実現する。 さらに、ランク次元に沿って結合することにより、異なるモデルを任意に変換し、1つのシーンに構成することができる。 合成シーン内の重要でないオブジェクトを圧縮することにより、ストレージコストの増大を軽減できる。 本手法は,圧縮と合成の余分な能力を実現しつつ,最先端の手法と同等のレンダリング品質を達成できることを実証する。 コードは \url{https://github.com/ashawkey/ccnerf} で入手できる。

Neural Radiance Field (NeRF) has emerged as a compelling method to represent 3D objects and scenes for photo-realistic rendering. However, its implicit representation causes difficulty in manipulating the models like the explicit mesh representation. Several recent advances in NeRF manipulation are usually restricted by a shared renderer network, or suffer from large model size. To circumvent the hurdle, in this paper, we present an explicit neural field representation that enables efficient and convenient manipulation of models. To achieve this goal, we learn a hybrid tensor rank decomposition of the scene without neural networks. Motivated by the low-rank approximation property of the SVD algorithm, we propose a rank-residual learning strategy to encourage the preservation of primary information in lower ranks. The model size can then be dynamically adjusted by rank truncation to control the levels of detail, achieving near-optimal compression without extra optimization. Furthermore, different models can be arbitrarily transformed and composed into one scene by concatenating along the rank dimension. The growth of storage cost can also be mitigated by compressing the unimportant objects in the composed scene. We demonstrate that our method is able to achieve comparable rendering quality to state-of-the-art methods, while enabling extra capability of compression and composition. Code will be made available at \url{https://github.com/ashawkey/CCNeRF}.
翻訳日:2022-05-31 17:06:37 公開日:2022-05-30
# CompleteDT:Dense Augment Inference Transformerを使用したポイントクラウド補完

CompleteDT: Point Cloud Completion with Dense Augment Inference Transformers ( http://arxiv.org/abs/2205.14999v1 )

ライセンス: Link先を確認
Jun Li, Shangwei Guo, Zhengchao Lai, Xiantong Meng, Shaokun Han(参考訳) ポイントクラウド補完タスクは、不完全なポイントクラウドの欠如を予測し、詳細で完全なポイントクラウドを生成することを目的としている。 本稿では,変換器をベースとした新しいポイントクラウド補完ネットワークであるCompleteDTを提案する。 CompleteDTは、近所の機能を学習し、これらの地区の関係を探ることができます。 異なる解像度の点雲を得るために不完全点雲をサンプリングすることにより、これらの点雲から特徴を自己誘導的に抽出し、幾何学的構造に基づいてそれらの特徴を一連の$patches$に変換する。 変圧器が点雲に関する情報を十分に活用できるようにするため,PCA (Point Cross-Attention Module) とPDMA (Point Dense Multi-Scale Attention Module) で構成されるRAA (Relation-Augment Attention Module) というプラグイン・アンド・プレイモジュールを提供する。 これら2つのモジュールは、Patches内で機能を学ぶ能力を高め、Patches間の相関を考慮できる。 したがって、RAAは不完全点雲の構造を学習し、生成した完全点雲の局所的な詳細を推測することができる。 さらに,効率の良い生成モジュール,すなわちMPF(Multi- resolution Point Fusion Module)を用いて,$patches$から完全な形状を予測する。 MPFは徐々に$patches$から完全なポイントクラウドを生成し、生成されたポイントクラウドに基づいて$patches$を更新する。 実験の結果,本手法は最先端の手法よりも優れていた。

Point cloud completion task aims to predict the missing part of incomplete point clouds and generate complete point clouds with details. In this paper, we propose a novel point cloud completion network, CompleteDT, which is based on the transformer. CompleteDT can learn features within neighborhoods and explore the relationship among these neighborhoods. By sampling the incomplete point cloud to obtain point clouds with different resolutions, we extract features from these point clouds in a self-guided manner, while converting these features into a series of $patches$ based on the geometrical structure. To facilitate transformers to leverage sufficient information about point clouds, we provide a plug-and-play module named Relation-Augment Attention Module (RAA), consisting of Point Cross-Attention Module (PCA) and Point Dense Multi-Scale Attention Module (PDMA). These two modules can enhance the ability to learn features within Patches and consider the correlation among these Patches. Thus, RAA enables to learn structures of incomplete point clouds and contribute to infer the local details of complete point clouds generated. In addition, we predict the complete shape from $patches$ with an efficient generation module, namely, Multi-resolution Point Fusion Module (MPF). MPF gradually generates complete point clouds from $patches$, and updates $patches$ based on these generated point clouds. Experimental results show that our method largely outperforms the state-of-the-art methods.
翻訳日:2022-05-31 17:03:50 公開日:2022-05-30
# SMUDLP:学習型パッチマッチを用いたマルチフレーム非教師付き内視鏡深度推定

SMUDLP: Self-Teaching Multi-Frame Unsupervised Endoscopic Depth Estimation with Learnable Patchmatch ( http://arxiv.org/abs/2205.15034v1 )

ライセンス: Link先を確認
Shuwei Shao, Zhongcai Pei, Weihai Chen, Xingming Wu, Zhong Liu, Zhengguo Li(参考訳) 教師なし単眼訓練深度推定モデルは、訓練段階で隣接するフレームを監視信号として利用する。 しかし、時間的に相関したフレームは、手術ナビゲーションなどの多くの臨床応用のために、推論時にも利用可能である。 大部分の単眼系は、深さの推定を強化するために展開できるこの貴重な信号を使用しない。 そのため、低均質なテクスチャやフレーム間の輝度変動など、内視鏡的な場面で特有の課題があるため、限られた利益しか得られない。 本研究では,多フレーム単眼の内視鏡的深度推定のための新しい,教師なしパラダイムSMUDLPを提案する。 smudlpは学習可能なパッチマッチモジュールを統合し、低テクスチャおよび均質テクスチャ領域における識別能力を適応的に向上させ、クロスティーチングおよび自己ティーチング構成を強制し、輝度変動に対して効果的な正規化を提供する。 SCAREDとHamlynのデータセットに関する詳細な実験によると、SMUDLPは、単一のフレームまたは複数のフレームを推論時に使用するものを含め、最先端の競合よりも大きなマージンで優れている。 ソースコードとトレーニングされたモデルは、受け入れ次第公開される。

Unsupervised monocular trained depth estimation models make use of adjacent frames as a supervisory signal during the training phase. However, temporally correlated frames are also available at inference time for many clinical applications, e.g., surgical navigation. The vast majority of monocular systems do not exploit this valuable signal that could be deployed to enhance the depth estimates. Those that do, achieve only limited gains due to the unique challenges in endoscopic scenes, such as low and homogeneous textures and inter-frame brightness fluctuations. In this work, we present SMUDLP, a novel and unsupervised paradigm for multi-frame monocular endoscopic depth estimation. The SMUDLP integrates a learnable patchmatch module to adaptively increase the discriminative ability in low-texture and homogeneous-texture regions, and enforces cross-teaching and self-teaching consistencies to provide efficacious regularizations towards brightness fluctuations. Our detailed experiments on both SCARED and Hamlyn datasets indicate that the SMUDLP exceeds state-of-the-art competitors by a large margin, including those that use single or multiple frames at inference time. The source code and trained models will be publicly available upon the acceptance.
翻訳日:2022-05-31 17:03:25 公開日:2022-05-30
# ディープニューラルネットワークを用いた文字のデブラリング

Deblurring Photographs of Characters Using Deep Neural Networks ( http://arxiv.org/abs/2205.15053v1 )

ライセンス: Link先を確認
Thomas Germer, Tobias Uelwer and Stefan Harmeling(参考訳) 本稿では,Helsinki Deblur Challenge (HDC2021)の取り組みについて述べる。 この課題の課題は、ポイントスプレッド機能(PSF)を知らずに文字のイメージを損なうことである。 主催者は鮮明でぼやけた画像のデータセットを提供した。 まず,鮮明な画像とぼやけた画像とを一致させるために,画像の歪み変換を推定する。 次に準ニュートン法を用いてPSFを推定する。 推定されたPSFは、鮮明でぼやけた画像を新たに生成することができる。 最後に,深層畳み込みニューラルネットワークを訓練し,ぼやけた画像からシャープな画像を再構成する。 本手法は,HDC 2021データの最初の10段階から画像の再構成に成功した。 私たちのコードは \url{https://github.com/hhu-machine-learning/hdc2021-psfnn} で利用可能です。

In this paper, we present our approach for the Helsinki Deblur Challenge (HDC2021). The task of this challenge is to deblur images of characters without knowing the point spread function (PSF). The organizers provided a dataset of pairs of sharp and blurred images. Our method consists of three steps: First, we estimate a warping transformation of the images to align the sharp images with the blurred ones. Next, we estimate the PSF using a quasi-Newton method. The estimated PSF allows to generate additional pairs of sharp and blurred images. Finally, we train a deep convolutional neural network to reconstruct the sharp images from the blurred images. Our method is able to successfully reconstruct images from the first 10 stages of the HDC 2021 data. Our code is available at \url{https://github.com/hhu-machine-learning/hdc2021-psfnn}.
翻訳日:2022-05-31 17:03:04 公開日:2022-05-30
# ディエンス予測タスクのための視覚変換器の自己教師付き事前訓練

Self-Supervised Pre-training of Vision Transformers for Dense Prediction Tasks ( http://arxiv.org/abs/2205.15173v1 )

ライセンス: Link先を確認
Jaonary Rabarisoa, Velentin Belissen, Florian Chabot, Quoc-Cuong Pham(参考訳) 本稿では,集中予測タスクのための視覚トランスフォーマの自己教師付き事前学習について述べる。 これは、ピクセルレベルの表現とグローバル画像表現を比較するビュー間の対比的損失に基づいている。 この戦略は、大域的な画像表現のみに基づく対照的な事前学習とは対照的に、密集した予測タスクに適したより良い局所特徴を生成する。 さらに,コントラスト損失に必要な負の例の数は局所的な特徴数の順であるため,このアプローチではバッチサイズが小さくなることはない。 本研究は,2つの密集した予測課題,意味セグメンテーションと単眼深度推定における事前学習戦略の有効性を示す。

We present a new self-supervised pre-training of Vision Transformers for dense prediction tasks. It is based on a contrastive loss across views that compares pixel-level representations to global image representations. This strategy produces better local features suitable for dense prediction tasks as opposed to contrastive pre-training based on global image representation only. Furthermore, our approach does not suffer from a reduced batch size since the number of negative examples needed in the contrastive loss is in the order of the number of local features. We demonstrate the effectiveness of our pre-training strategy on two dense prediction tasks: semantic segmentation and monocular depth estimation.
翻訳日:2022-05-31 17:02:52 公開日:2022-05-30
# ShuffleMixer:イメージ超解像のための効率的なConvNet

ShuffleMixer: An Efficient ConvNet for Image Super-Resolution ( http://arxiv.org/abs/2205.15175v1 )

ライセンス: Link先を確認
Long Sun, Jinshan Pan, Jinhui Tang(参考訳) 画像スーパーレゾリューション(sr)アルゴリズムの実用的応用には,軽量かつ効率性が重要である。 本稿では,大規模な畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のための,シンプルで効果的なShuffleMixerを提案する。 複数の小さなカーネル畳み込みや複雑な演算子を積み重ねて表現を学習する以前のSRモデルとは対照的に、モバイルフレンドリーなSR設計のための大規模なカーネルConvNetを探索する。 具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。 自然画像のコンテキストは局所的に強く相関しているため、大深度の畳み込みを用いるだけでは詳細を再構築できない。 提案モジュールの効率を保ちながらこの問題を克服するため,提案ネットワークにFused-MBConvsを導入し,異なる特徴の局所接続性をモデル化する。 実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さく,競争性能が向上していることがわかった。 ntire 2022では,効率のよい超解像度チャレンジ [23] のモデル複雑性トラックを獲得した。 コードはhttps://github.com/sunny2109/mobilesr-ntire2022で入手できる。

Lightweight and efficiency are critical drivers for the practical application of image super-resolution (SR) algorithms. We propose a simple and effective approach, ShuffleMixer, for lightweight image super-resolution that explores large convolution and channel split-shuffle operation. In contrast to previous SR models that simply stack multiple small kernel convolutions or complex operators to learn representations, we explore a large kernel ConvNet for mobile-friendly SR design. Specifically, we develop a large depth-wise convolution and two projection layers based on channel splitting and shuffling as the basic component to mix features efficiently. Since the contexts of natural images are strongly locally correlated, using large depth-wise convolutions only is insufficient to reconstruct fine details. To overcome this problem while maintaining the efficiency of the proposed module, we introduce Fused-MBConvs into the proposed network to model the local connectivity of different features. Experimental results demonstrate that the proposed ShuffleMixer is about 6x smaller than the state-of-the-art methods in terms of model parameters and FLOPs while achieving competitive performance. In NTIRE 2022, our primary method won the model complexity track of the Efficient Super-Resolution Challenge [23]. The code is available at https://github.com/sunny2109/MobileSR-NTIRE2022.
翻訳日:2022-05-31 17:02:42 公開日:2022-05-30
# The Devil is the Pose: Ambiguity-free 3D Rotation-invariant Learning via Pose-aware Convolution

The Devil is in the Pose: Ambiguity-free 3D Rotation-invariant Learning via Pose-aware Convolution ( http://arxiv.org/abs/2205.15210v1 )

ライセンス: Link先を確認
Ronghan Chen, Yang Cong(参考訳) 回転不変(RI)3次元深層学習法は、3次元座標と比較して重要なグローバル情報を失う入力としてRI表現を設計するのが一般的である。 ほとんどの最先端技術は、追加のブロックや複雑なグローバル表現を重く非効率な方法で獲得することでそれに対応する。 本稿では,各層でより軽量な局所的なポーズを復元するだけでよいため,より効率的かつ効果的に解決できる,未探索のポーズ情報損失問題に起因するグローバル情報損失を,深層ネットワークに階層的に集約し,余分な労力を要さずに解決できることを明らかにする。 この問題に対処するため、相対的なポーズに基づいてカーネルを動的に適応するPose-aware Rotation Invariant Convolution(PaRI-Conv)を開発した。 そこで本研究では,ri相対ポーズ情報を完全にエンコードする拡張点対機能(appf)と,ポーズ認識型カーネル生成のための因子化動的カーネルを提案し,カーネルを共有基底行列とポーズ認識対角行列に分解することにより,計算コストとメモリ負担をさらに低減する。 形状分類および部分分割タスクに関する大規模な実験により、我々のPaRI-Convはよりコンパクトで効率的でありながら最先端のRI法を超越していることが示された。

Rotation-invariant (RI) 3D deep learning methods suffer performance degradation as they typically design RI representations as input that lose critical global information comparing to 3D coordinates. Most state-of-the-arts address it by incurring additional blocks or complex global representations in a heavy and ineffective manner. In this paper, we reveal that the global information loss stems from an unexplored pose information loss problem, which can be solved more efficiently and effectively as we only need to restore more lightweight local pose in each layer, and the global information can be hierarchically aggregated in the deep networks without extra efforts. To address this problem, we develop a Pose-aware Rotation Invariant Convolution (i.e., PaRI-Conv), which dynamically adapts its kernels based on the relative poses. To implement it, we propose an Augmented Point Pair Feature (APPF) to fully encode the RI relative pose information, and a factorized dynamic kernel for pose-aware kernel generation, which can further reduce the computational cost and memory burden by decomposing the kernel into a shared basis matrix and a pose-aware diagonal matrix. Extensive experiments on shape classification and part segmentation tasks show that our PaRI-Conv surpasses the state-of-the-art RI methods while being more compact and efficient.
翻訳日:2022-05-31 17:02:20 公開日:2022-05-30
# EAMM:音声による感情認識運動モデルによるワンショット感情会話

EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model ( http://arxiv.org/abs/2205.15278v1 )

ライセンス: Link先を確認
Xinya Ji, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Wayne Wu, Feng Xu, Xun Cao(参考訳) 音声による発話顔生成には大きな進歩があったが、既存の方法は顔の感情を無視するか、任意の被験者に適用できない。 本稿では、感情源映像を取り入れたワンショットの感情会話顔を生成するための感情認識運動モデル(EAMM)を提案する。 具体的には,まず音声駆動非教師なしのゼロ・ファースト・オーダー・キーポイント・モーションから対話面を描画するaudio2facial-dynamicsモジュールを提案する。 さらに, 動きモデルの特性を探索し, 感情関係の表情動態を, 以前取得した動き表現に対する線形付加的変位として表現するインプリシット感情変位学習器を提案する。 包括的実験により,両モジュールの結果を組み込むことで,現実的な感情パターンを持つ任意の被験者に対して,良好な話し面結果を生成することができることを示した。

Although significant progress has been made to audio-driven talking face generation, existing methods either neglect facial emotion or cannot be applied to arbitrary subjects. In this paper, we propose the Emotion-Aware Motion Model (EAMM) to generate one-shot emotional talking faces by involving an emotion source video. Specifically, we first propose an Audio2Facial-Dynamics module, which renders talking faces from audio-driven unsupervised zero- and first-order key-points motion. Then through exploring the motion model's properties, we further propose an Implicit Emotion Displacement Learner to represent emotion-related facial dynamics as linearly additive displacements to the previously acquired motion representations. Comprehensive experiments demonstrate that by incorporating the results from both modules, our method can generate satisfactory talking face results on arbitrary subjects with realistic emotion patterns.
翻訳日:2022-05-31 17:00:06 公開日:2022-05-30
# (参考訳) トランスフォーマーは構成可能か? ニューラルマシン翻訳におけるイディオム処理の解析

Can Transformer be Too Compositional? Analysing Idiom Processing in Neural Machine Translation ( http://arxiv.org/abs/2205.15301v1 )

ライセンス: CC BY 4.0
Verna Dankers, Christopher G. Lucas, Ivan Titov(参考訳) リテラル式とは異なり、イディオムの意味はそれらの部分から直接従わないため、ニューラルマシン翻訳(NMT)の課題を提起する。 NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。 本研究では,英語を母語とし,ヨーロッパ7言語のうちの1言語を対象言語とするモデルの隠れた状態と注意パターンを分析し,イディオムの非結合性が支配的nmtモデルであるtransformerの力学に反映されているかどうかについて検討する。 Transformerが非リテラル翻訳(すなわち、表現を慣用的であると識別する)を出力すると、エンコーダはリテラル表現よりも単一の語彙単位としてイディオムを処理する。 これは、イディオムの部分の注意を通してグループ化され、イディオムとその文脈の間の相互作用を減少させる。 デコーダのクロスアテンションでは、図形入力はソース側トークンへの注意を減らせる。 以上の結果からトランスフォーマーがイディオムを合成表現として処理する傾向は,イディオムのリテラル翻訳に寄与することが示唆された。

Unlike literal expressions, idioms' meanings do not directly follow from their parts, posing a challenge for neural machine translation (NMT). NMT models are often unable to translate idioms accurately and over-generate compositional, literal translations. In this work, we investigate whether the non-compositionality of idioms is reflected in the mechanics of the dominant NMT model, Transformer, by analysing the hidden states and attention patterns for models with English as source language and one of seven European languages as target language. When Transformer emits a non-literal translation - i.e. identifies the expression as idiomatic - the encoder processes idioms more strongly as single lexical units compared to literal expressions. This manifests in idioms' parts being grouped through attention and in reduced interaction between idioms and their context. In the decoder's cross-attention, figurative inputs result in reduced attention on source-side tokens. These results suggest that Transformer's tendency to process idioms as compositional expressions contributes to literal translations of idioms.
翻訳日:2022-05-31 16:50:08 公開日:2022-05-30
# EA$^2$E:文書レベル引数抽出のためのイベント認識による一貫性の向上

EA$^2$E: Improving Consistency with Event Awareness for Document-Level Argument Extraction ( http://arxiv.org/abs/2205.14847v1 )

ライセンス: Link先を確認
Qi Zeng, Qiusi Zhan, Heng Ji(参考訳) イベントはドキュメントに関連しています。 ある参加者が同じ文書で複数のイベントにまたがって一貫した役割を演じる傾向があることを仮定する。 しかし、近年の文書レベルのイベント引数抽出モデルの研究は、個々のイベントを個別に抽出し、抽出されたイベント間の矛盾を生じさせ、イベント知識ベース人口、質問応答、仮説生成などの下流アプリケーションにさらに不一致をもたらす。 本稿では,文書レベル設定の下でのイベント-イベント関係の制約として,イベント引数の一貫性を定式化する。 一貫性を改善するために、トレーニングと推論のための拡張コンテキストを備えたイベントアウェア引数抽出(ea$^2$e)モデルを導入します。 WIKIEVENTS と ACE2005 データセットの実験結果は,ベースライン法と比較してEA$^2$E の有効性を示した。

Events are inter-related in documents. Motivated by the one-sense-per-discourse theory, we hypothesize that a participant tends to play consistent roles across multiple events in the same document. However recent work on document-level event argument extraction models each individual event in isolation and therefore causes inconsistency among extracted arguments across events, which will further cause discrepancy for downstream applications such as event knowledge base population, question answering, and hypothesis generation. In this work, we formulate event argument consistency as the constraints from event-event relations under the document-level setting. To improve consistency we introduce the Event-Aware Argument Extraction (EA$^2$E) model with augmented context for training and inference. Experiment results on WIKIEVENTS and ACE2005 datasets demonstrate the effectiveness of EA$^2$E compared to baseline methods.
翻訳日:2022-05-31 16:18:16 公開日:2022-05-30
# E2S2: 言語理解と生成のためのエンコード強化シーケンス・ツー・シーケンス事前学習

E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation ( http://arxiv.org/abs/2205.14912v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao(参考訳) sequence-to-sequence(seq2seq)学習は、簡潔で普遍的なフレームワークのため、言語モデルの事前学習において一般的なトレンドとなっている。 しかし、以前のseq2seqプリトレーニングモデルでは、一般的にデコーダ側の再構成目標に注目し、エンコーダ側の監督の影響を無視する。 そこで本研究では,より効率的な自己教師付き情報をエンコーダに統合することにより,seq2seqモデルを改善するe2s2という,符号化エンハンスされたseq2seqプリトレーニング戦略を提案する。 具体的には、E2S2はエンコーダ上の2つの自己監督対象を含んでいる。 1) 腐敗した文(否定目的)を通知する。 2)頑健な文表現(意味目的)の学習。 これらの2つの目的により、エンコーダは、ノイズトークンを効果的に識別し、より構文的および意味的な知識を捕捉し、入力文を理解し、ターゲットを条件的に生成するセック2セックモデルの能力を強化する。 我々は、最先端のセク2セック事前学習言語モデルBART上で、言語理解と生成タスクにまたがる広範な実験を行う。 GLUEベンチマークの1.0%の平均ゲイン,CoNLL2014データセットの1.75% F_0.5スコアの改善,E2S2の有効性とロバスト性を検証した。

Sequence-to-sequence (seq2seq) learning has become a popular trend for pretraining language models, due to its succinct and universal framework. However, the prior seq2seq pretraining models generally focus on reconstructive objectives on the decoder side and neglect the effect of encoder-side supervisions, which may lead to sub-optimal performance. To this end, we propose an encoding-enhanced seq2seq pretraining strategy, namely E2S2, which improves the seq2seq models via integrating more efficient self-supervised information into the encoders. Specifically, E2S2 contains two self-supervised objectives upon the encoder, which are from two perspectives: 1) denoising the corrupted sentence (denoising objective); 2) learning robust sentence representations (contrastive objective). With these two objectives, the encoder can effectively distinguish the noise tokens and capture more syntactic and semantic knowledge, thus strengthening the ability of seq2seq model to comprehend the input sentence and conditionally generate the target. We conduct extensive experiments spanning language understanding and generation tasks upon the state-of-the-art seq2seq pretrained language model BART. We show that E2S2 can consistently boost the performance, including 1.0% averaged gain on GLUE benchmark and 1.75% F_0.5 score improvement on CoNLL2014 dataset, validating the effectiveness and robustness of our E2S2.
翻訳日:2022-05-31 16:18:00 公開日:2022-05-30
# zusammenqa: 言語横断的質問応答システムのための特殊モデルによるデータ拡張

ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual Open-retrieval Question Answering System ( http://arxiv.org/abs/2205.14981v1 )

ライセンス: Link先を確認
Chia-Chien Hung, Tommaso Green, Robert Litschko, Tornike Tsereteli, Sotaro Takeshita, Marco Bombieri, Goran Glava\v{s}, Simone Paolo Ponzetto(参考訳) 本稿では,言語横断的オープン-検索質問応答(COQA)に関するMIA共有タスクを提案する。 この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、質問の言語で答えを生成する必要がある。 我々は,データ拡張,通路検索,回答生成という3つの主成分の異なるモデル変種を組み合わせる手法を考案した。 多言語事前学習言語モデル(PLM)と共有タスクベースラインの変種に基づいて、単言語BM25ランクラをランサーのアンサンブルに対して評価し、最近導入されたコントラッシブ・ロスを用いてスクラッチから再学習し、混合陰性サンプルを用いてトレーニングを通して強い勾配信号を維持する。 回答生成のために,既存の多言語エンコーダの継続言語モデル(LM)による言語とドメインの特殊化に着目した。 さらに, 文章検索と回答生成の両方において, wikipedia の文章から自動生成した質問・回答ペアを用いてタスクオーガナイザが提供する訓練データを拡張し, 学習データを提供していない低リソース言語におけるデータ不足の問題を軽減した。 この結果から,低リソース言語では,言語やドメイン特化やデータ拡張が有効であることがわかった。

This paper introduces our proposed system for the MIA Shared Task on Cross-lingual Open-retrieval Question Answering (COQA). In this challenging scenario, given an input question the system has to gather evidence documents from a multilingual pool and generate from them an answer in the language of the question. We devised several approaches combining different model variants for three main components: Data Augmentation, Passage Retrieval, and Answer Generation. For passage retrieval, we evaluated the monolingual BM25 ranker against the ensemble of re-rankers based on multilingual pretrained language models (PLMs) and also variants of the shared task baseline, re-training it from scratch using a recently introduced contrastive loss that maintains a strong gradient signal throughout training by means of mixed negative samples. For answer generation, we focused on language- and domain-specialization by means of continued language model (LM) pretraining of existing multilingual encoders. Additionally, for both passage retrieval and answer generation, we augmented the training data provided by the task organizers with automatically generated question-answer pairs created from Wikipedia passages to mitigate the issue of data scarcity, particularly for the low-resource languages for which no training data were provided. Our results show that language- and domain-specialization as well as data augmentation help, especially for low-resource languages.
翻訳日:2022-05-31 16:16:55 公開日:2022-05-30
# 数十億のパラメータがドメイン内トレーニングデータより価値がある:法ケースエンターテイメントタスクにおけるケーススタディ

Billions of Parameters Are Worth More Than In-domain Training Data: A case study in the Legal Case Entailment Task ( http://arxiv.org/abs/2205.15172v1 )

ライセンス: Link先を確認
Guilherme Moraes Rosa and Luiz Bonifacio and Vitor Jeronymo and Hugo Abonizio and Roberto Lotufo and Rodrigo Nogueira(参考訳) 最近の研究によると、GPT-3のような数十億のパラメータにスケールされた言語モデルは、ゼロショットや少数ショットのシナリオで驚くほどよく機能している。 本研究では,COLIEE 2022コンペティションにおける訴訟包括作業におけるゼロショットモデルの実験を行った。 実験により、言語モデルにおけるパラメータ数をスケーリングすることで、以前のゼロショット結果のf1スコアを6ポイント以上改善できることが示され、少なくともこのタスクでは、より強力なゼロショット能力がより大きなモデルの特徴である可能性が示唆された。 3bパラメータのゼロショットモデルは、co coliee 2021テストセットにおけるアンサンブルを含む全てのモデルよりも優れており、co coliee 2022コンペティションにおいて、1つのモデルの最高のパフォーマンスを達成している。 大規模言語モデルがもたらす課題は,主にリアルタイムアプリケーションにおける遅延制約によるものだが,本モデルが検索エンジンとして本番環境で使用されていることを示す。 私たちの提出コードとシステムのデモは、それぞれhttps://github.com/neuralmind-ai/colieeとhttps://neuralsearchx.neuralmind.aiで閲覧できます。

Recent work has shown that language models scaled to billions of parameters, such as GPT-3, perform remarkably well in zero-shot and few-shot scenarios. In this work, we experiment with zero-shot models in the legal case entailment task of the COLIEE 2022 competition. Our experiments show that scaling the number of parameters in a language model improves the F1 score of our previous zero-shot result by more than 6 points, suggesting that stronger zero-shot capability may be a characteristic of larger models, at least for this task. Our 3B-parameter zero-shot model outperforms all models, including ensembles, in the COLIEE 2021 test set and also achieves the best performance of a single model in the COLIEE 2022 competition, second only to the ensemble composed of the 3B model itself and a smaller version of the same model. Despite the challenges posed by large language models, mainly due to latency constraints in real-time applications, we provide a demonstration of our zero-shot monoT5-3b model being used in production as a search engine, including for legal documents. The code for our submission and the demo of our system are available at https://github.com/neuralmind-ai/coliee and https://neuralsearchx.neuralmind.ai, respectively.
翻訳日:2022-05-31 16:16:30 公開日:2022-05-30
# 誤用処理のためのテーマアスペクト議論モデル

Theme Aspect Argumentation Model for Handling Fallacies ( http://arxiv.org/abs/2205.15141v1 )

ライセンス: Link先を確認
Ryuta Arisaka(参考訳) 本稿では,より伝統的な誤り分類の代替として,形式的な制約によって誤用を識別する新しい手法を提案する。 この目的を達成するために、与えられた議論を表現したモデル(修辞的モデリング)と、修辞的論証モデルのより深い意味分析の両方を行うことができる新しい議論モデル、テーマアスペクト論証モデルを導入する。 テーマアスペクトの議論モデルに関する公式な制約により、例えば、修辞レベルで攻撃であるとされる'アタック'が本当に攻撃であるかどうかを確認することができる。 我々は、合理的な議論が観察すべき中核的な形式的制約を示し、次に、誤認識別能力を改善するためのより正式な制約を示す。 これらの形式的な制約の結果を示し、証明する。 次に、正規形式の概念と論理-修辞的結論の概念を定義し、非公式かつ論理的な特定の誤認の検出を実証するために使用する。

In this paper, we present a novel approach to identify fallacies through formal constraints, as a viable alternative to more traditional fallacy classifications by informal criteria. To achieve this objective, we introduce a novel argumentation model, the theme aspect argumentation model, which can do both: modelling of a given argumentation as it is expressed (rhetoric modelling); and deeper semantic analysis of the rhetoric argumentation model. By the help of formal constraints on the theme aspect argumentation model, it is for example possible to see if 'attack's which are claimed to be attacks at the rhetoric level are really attacks. We present core formal constraints that a reasonable argumentation should observe, and then more formal constraints that improve fallacy identification capability. We show and prove consequences of these formal constraints. We then define the concept of normal forms and that of logico-rhetorical conclusion, which we use to demonstrate detection of specific fallacies, informal and logical.
翻訳日:2022-05-31 16:13:47 公開日:2022-05-30
# (参考訳) bsnsing:再帰的最適ブール規則合成に基づく決定木誘導法

bsnsing: A decision tree induction method based on recursive optimal boolean rule composition ( http://arxiv.org/abs/2205.15263v1 )

ライセンス: CC BY 4.0
Yanchao Liu(参考訳) 本稿では,決定木誘導過程における分割規則選択を最適化する新しい混合整数型プログラミング(mip)方式を提案し,mipモデルの実用的インスタンスを商用解法よりも高速に解くことができる効率的な探索アルゴリズムを開発した。 この定式化は、その非凸性のために数学的プログラムでモデル化されたことのない効果的な分割選択基準であるジーニ還元を直接最大化する新しいものである。 提案手法は他の最適分類木モデルと異なり,木全体の最適化は行わないため,再帰的分割スキームの柔軟性は保たれ,最適化モデルはより快適である。 このアプローチはbsnsingというオープンソースのRパッケージで実装されている。 75のオープンデータセットのベンチマーク実験によると、bsnsingツリーはrpart、c50、party、treeパッケージを含む他の決定木コードでトレーニングされたツリーと比較して、新しいケースを識別する能力が最も高い。dl8.5、osdt、gosdt、間接的など他の最適な決定木パッケージと比較して、bsnsingはトレーニング速度、使いやすさ、予測精度を損なうことなく、より広い適用性で際立っている。

This paper proposes a new mixed-integer programming (MIP) formulation to optimize split rule selection in the decision tree induction process, and develops an efficient search algorithm that is able to solve practical instances of the MIP model faster than commercial solvers. The formulation is novel for it directly maximizes the Gini reduction, an effective split selection criterion which has never been modeled in a mathematical program for its nonconvexity. The proposed approach differs from other optimal classification tree models in that it does not attempt to optimize the whole tree, therefore the flexibility of the recursive partitioning scheme is retained and the optimization model is more amenable. The approach is implemented in an open-source R package named bsnsing. Benchmarking experiments on 75 open data sets suggest that bsnsing trees are the most capable of discriminating new cases compared to trees trained by other decision tree codes including the rpart, C50, party and tree packages in R. Compared to other optimal decision tree packages, including DL8.5, OSDT, GOSDT and indirectly more, bsnsing stands out in its training speed, ease of use and broader applicability without losing in prediction accuracy.
翻訳日:2022-05-31 16:05:51 公開日:2022-05-30
# 電力系統信頼性評価のためのエンドツーエンドトポロジアウェア機械学習

End-to-End Topology-Aware Machine Learning for Power System Reliability Assessment ( http://arxiv.org/abs/2205.14792v1 )

ライセンス: Link先を確認
Yongli Zhu, Chanan Singh(参考訳) 従来の電力系統の信頼性はモンテカルロシミュレーションの長期実行時間と解析列挙法の次元計算に悩まされている。 本稿では,負荷確率損失(LOLP)などの信頼性指標を直接予測するためのエンドツーエンド機械学習に関する予備的検討を提案する。 システムアプタンス行列を入力特徴に符号化することにより、提案する機械学習パイプラインは、伝送線路の定期的なメンテナンスによるトポロジ変化の影響を考慮できる。 2つのモデル(サポートベクターマシンとブースティングツリー)を訓練し比較する。 トレーニングデータ作成と事前処理の詳細についても論じる。 最後に、IEEE RTS-79システムで実験を行う。 提案したエンドツーエンド機械学習パイプラインの信頼性評価への適用性を示す。

Conventional power system reliability suffers from the long run time of Monte Carlo simulation and the dimension-curse of analytic enumeration methods. This paper proposes a preliminary investigation on end-to-end machine learning for directly predicting the reliability index, e.g., the Loss of Load Probability (LOLP). By encoding the system admittance matrix into the input feature, the proposed machine learning pipeline can consider the impact of specific topology changes due to regular maintenances of transmission lines. Two models (Support Vector Machine and Boosting Trees) are trained and compared. Details regarding the training data creation and preprocessing are also discussed. Finally, experiments are conducted on the IEEE RTS-79 system. Results demonstrate the applicability of the proposed end-to-end machine learning pipeline in reliability assessment.
翻訳日:2022-05-31 15:30:47 公開日:2022-05-30
# エピデミック予測のための時間分解能グラフニューラルネットワーク

Temporal Multiresolution Graph Neural Networks For Epidemic Prediction ( http://arxiv.org/abs/2205.14831v1 )

ライセンス: Link先を確認
Truong Son Hy and Viet Bach Nguyen and Long Tran-Thanh and Risi Kondor(参考訳) 本稿では,時間的多解像度グラフニューラルネットワーク(tmgnn)について紹介する。多スケール・多解像度グラフ構造の構築を両立し,時系列信号を組み込んで動的グラフの時間的変化をキャプチャする最初のアーキテクチャである。 本研究は,いくつかのヨーロッパ諸国におけるcovid-19パンデミックとニワトリポックスパンデミックから収集した過去の時系列データをもとに,パンデミックとパンデミックの将来的な流行を予測するための課題に適用し,これまでの最先端の時間的アーキテクチャやグラフ学習アルゴリズムと比較して,競争力のある結果を得た。 グラフのマルチスケールかつマルチレゾリューション構造を捉えることは、地域都市から始まり、世界中に広がる新型コロナウイルスのような世界的なパンデミックのダイナミクスを理解する上で重要な役割を果たすローカル情報またはグローバル情報を抽出する上で重要であることを実証した。 我々の研究は将来の流行とパンデミックの予測と緩和に有望な研究の方向性をもたらす。

In this paper, we introduce Temporal Multiresolution Graph Neural Networks (TMGNN), the first architecture that both learns to construct the multiscale and multiresolution graph structures and incorporates the time-series signals to capture the temporal changes of the dynamic graphs. We have applied our proposed model to the task of predicting future spreading of epidemic and pandemic based on the historical time-series data collected from the actual COVID-19 pandemic and chickenpox epidemic in several European countries, and have obtained competitive results in comparison to other previous state-of-the-art temporal architectures and graph learning algorithms. We have shown that capturing the multiscale and multiresolution structures of graphs is important to extract either local or global information that play a critical role in understanding the dynamic of a global pandemic such as COVID-19 which started from a local city and spread to the whole world. Our work brings a promising research direction in forecasting and mitigating future epidemics and pandemics.
翻訳日:2022-05-31 15:30:34 公開日:2022-05-30
# 講義の質的特徴の自動検出のためのディープラーニング手法

A Deep Learning Approach for Automatic Detection of Qualitative Features of Lecturing ( http://arxiv.org/abs/2205.14919v1 )

ライセンス: Link先を確認
Anna Wroblewska, Jozef Jasek, Bogdan Jastrzebski, Stanislaw Pawlak, Anna Grzywacz, Cheong Siew Ann, Tan Seng Chee, Tomasz Trzcinski, Janusz Holyst(参考訳) 高等教育における人工知能は、ディダクティック教材の充実、学生の業績評価の支援、講義の強化方法に関する教師への指示など、講義プロセスを改善する新たな可能性を開く。 本研究は,本研究の流れを辿り,定量的特徴によって学術講義を自動評価する方法を考察する。 まず,授業実践に基づく質的な特徴のセットを作成し,その目的のために収集した講義ビデオのデータセットに注釈を付ける。 次に、機械学習とコンピュータビジョン技術を用いて、これらの機能を自動検出する方法を示す。 我々の結果は、我々の仕事の潜在的有用性を示している。

Artificial Intelligence in higher education opens new possibilities for improving the lecturing process, such as enriching didactic materials, helping in assessing students' works or even providing directions to the teachers on how to enhance the lectures. We follow this research path, and in this work, we explore how an academic lecture can be assessed automatically by quantitative features. First, we prepare a set of qualitative features based on teaching practices and then annotate the dataset of academic lecture videos collected for this purpose. We then show how these features could be detected automatically using machine learning and computer vision techniques. Our results show the potential usefulness of our work.
翻訳日:2022-05-31 15:30:14 公開日:2022-05-30
# 相性マップの再考:脳波に基づく深層学習モデルを記述する文脈認識摂動法

Rethinking Saliency Map: An Context-aware Perturbation Method to Explain EEG-based Deep Learning Model ( http://arxiv.org/abs/2205.14976v1 )

ライセンス: Link先を確認
Hanqi Wang, Xiaoguang Zhu, Tao Chen, Chengfang Li, Liang Song(参考訳) 深層学習は脳波(EEG)信号を復号するために広く用いられている。 しかし、脳波に基づくディープラーニングモデルを説明する方法について具体的に研究する試みはほとんどない。 eegベースのディープラーニングモデルを説明する既存の成果を要約するレビューを行う。 残念ながら、それらを説明する適切な方法がないことが分かりました。 そこで本研究では,脳波データの特徴に基づいて,生脳波信号の観点からサリエンシーマップを生成するコンテキストアウェア摂動法を提案する。 さらに,脳波に基づく深層学習モデルにおいて,コンテキスト情報を用いて人工物を抑制することも正当化する。 実際には、一部のユーザーは説明のシンプルなバージョンを欲しがるかもしれない。 この目的のために、強調領域を制限するオプションの領域制限戦略を提案する。 提案手法を検証し,他の手法との比較を行うため,感情的脳波データセットDEAPの実験を行うために,3つの代表的な脳波モデルを選択した。 実験結果は,本手法の利点を裏付けるものである。

Deep learning is widely used to decode the electroencephalogram (EEG) signal. However, there are few attempts to specifically investigate how to explain the EEG-based deep learning models. We conduct a review to summarize the existing works explaining the EEG-based deep learning model. Unfortunately, we find that there is no appropriate method to explain them. Based on the characteristic of EEG data, we suggest a context-aware perturbation method to generate a saliency map from the perspective of the raw EEG signal. Moreover, we also justify that the context information can be used to suppress the artifacts in the EEG-based deep learning model. In practice, some users might want a simple version of the explanation, which only indicates a few features as salient points. To this end, we propose an optional area limitation strategy to restrict the highlighted region. To validate our idea and make a comparison with the other methods, we select three representative EEG-based models to implement experiments on the emotional EEG dataset DEAP. The results of the experiments support the advantages of our method.
翻訳日:2022-05-31 15:29:26 公開日:2022-05-30
# 高速非線形ベクトル量子回帰

Fast Nonlinear Vector Quantile Regression ( http://arxiv.org/abs/2205.14977v1 )

ライセンス: Link先を確認
Aviv A. Rosenberg, Sanketh Vedula, Yaniv Romano, Alex M. Bronstein(参考訳) quantile regression (qr) は、対象変数 $\mathrm{y}$ が与えられた説明的特徴 $\boldsymbol{\mathrm{x}}$ の1つ以上の条件付き量子タイルを推定するための強力なツールである。 QRの制限は、目的関数の定式化のため、スカラー対象変数に対してのみ定義され、また、量子化の概念は多変量分布の標準的な定義を持たないためである。 近年,多変数分布への量子化の概念の有意義な一般化により,ベクトル量子回帰(VQR)が高次元対象変数に対するQRの拡張として提案されている。 その優雅さにもかかわらず、VQRはいくつかの制限のために実際は適用されない。 (i)目的の $\mathrm{Y}$ の量子化に対する線型モデルを仮定し、その特徴を $\boldsymbol{\mathrm{X}}$ と仮定する。 (二)その厳密な定式化は、目標次元、回帰量子度数、特徴数において適度な大きさの問題であっても難解であり、その緩和された二重定式化は、推定された量子度の単調性に反する可能性がある。 (iii)VQRの高速かつスケーラブルな解法は存在しない。 この作業では、これらの制限、すなわち: (i)vqrを非線形の場合まで拡張し、線形vqrよりも大幅に改善する。 (II)VQR緩和によって得られる推定値が単調関数であることを保証する手法であるベクトル単調再構成を提案する。 3) 線形および非線形のVQRに対して高速でGPUを高速化する解法を提供し、多数のサンプルと量子レベルを持つ固定メモリフットプリントを維持し、数百万のサンプルと数千の量子レベルにスケールできることを実証する。 (iv)現実のアプリケーションでVQRを広く活用するために,解決者の最適化されたピソンパッケージをリリースする。

Quantile regression (QR) is a powerful tool for estimating one or more conditional quantiles of a target variable $\mathrm{Y}$ given explanatory features $\boldsymbol{\mathrm{X}}$. A limitation of QR is that it is only defined for scalar target variables, due to the formulation of its objective function, and since the notion of quantiles has no standard definition for multivariate distributions. Recently, vector quantile regression (VQR) was proposed as an extension of QR for high-dimensional target variables, thanks to a meaningful generalization of the notion of quantiles to multivariate distributions. Despite its elegance, VQR is arguably not applicable in practice due to several limitations: (i) it assumes a linear model for the quantiles of the target $\mathrm{Y}$ given the features $\boldsymbol{\mathrm{X}}$; (ii) its exact formulation is intractable even for modestly-sized problems in terms of target dimensions, number of regressed quantile levels, or number of features, and its relaxed dual formulation may violate the monotonicity of the estimated quantiles; (iii) no fast or scalable solvers for VQR currently exist. In this work we fully address these limitations, namely: (i) We extend VQR to the non-linear case, showing substantial improvement over linear VQR; (ii) We propose vector monotone rearrangement, a method which ensures the estimates obtained by VQR relaxations are monotone functions; (iii) We provide fast, GPU-accelerated solvers for linear and nonlinear VQR which maintain a fixed memory footprint with number of samples and quantile levels, and demonstrate that they scale to millions of samples and thousands of quantile levels; (iv) We release an optimized python package of our solvers as to widespread the use of VQR in real-world applications.
翻訳日:2022-05-31 15:22:57 公開日:2022-05-30
# Metrizing Fairness

Metrizing Fairness ( http://arxiv.org/abs/2205.15049v1 )

ライセンス: Link先を確認
Yves Rychener, Bahar Taskesen, Daniel Kuhn(参考訳) 本研究では,2つのグループのうちの1つに属する個人の特性を予測するための教師付き学習問題を調査し,統計的パリティに応じて公平な予測者を求める。 このことは、2つの群内の予測の分布がコルモゴロフ距離に近づき、学習問題の目的関数においてこれらの2つの分布の相似性を罰することによって公平性を達成することを意味する。 本稿では,コルモゴロフ距離以外の積分確率測度(IPM)を用いて不公平さを測る概念的および計算的利点を示す。 概念的には、任意の ipm の生成元をユーティリティ関数の族として解釈することができ、この ipm に関する不公平性は、2つの人口集団の個人が期待する効用を分散させた場合に生じる。 また,不公平度が2乗平均L^2$-距離または2乗平均誤差で測定された場合,不公平度正規化予測損失は不偏勾配推定器を許容することを示した。 この場合、フェアラーニング問題は、効率的な確率勾配勾配(SGD)アルゴリズムに影響を受けやすい。 実データに関する数値実験によると、これらのSGDアルゴリズムは、公正な学習のための最先端の手法よりも優れた精度と不公平なトレードオフを実現している。 最後に,統計的パリティが予測精度を向上させる条件を特定する。

We study supervised learning problems for predicting properties of individuals who belong to one of two demographic groups, and we seek predictors that are fair according to statistical parity. This means that the distributions of the predictions within the two groups should be close with respect to the Kolmogorov distance, and fairness is achieved by penalizing the dissimilarity of these two distributions in the objective function of the learning problem. In this paper, we showcase conceptual and computational benefits of measuring unfairness with integral probability metrics (IPMs) other than the Kolmogorov distance. Conceptually, we show that the generator of any IPM can be interpreted as a family of utility functions and that unfairness with respect to this IPM arises if individuals in the two demographic groups have diverging expected utilities. We also prove that the unfairness-regularized prediction loss admits unbiased gradient estimators if unfairness is measured by the squared $\mathcal L^2$-distance or by a squared maximum mean discrepancy. In this case, the fair learning problem is susceptible to efficient stochastic gradient descent (SGD) algorithms. Numerical experiments on real data show that these SGD algorithms outperform state-of-the-art methods for fair learning in that they achieve superior accuracy-unfairness trade-offs -- sometimes orders of magnitude faster. Finally, we identify conditions under which statistical parity can improve prediction accuracy.
翻訳日:2022-05-31 15:21:32 公開日:2022-05-30
# オンラインミラーディフレッシュによる多角形ゲームにおける効率の良い$\Phi$-Regret最小化

Efficient $\Phi$-Regret Minimization in Extensive-Form Games via Online Mirror Descent ( http://arxiv.org/abs/2205.15294v1 )

ライセンス: Link先を確認
Yu Bai, Chi Jin, Song Mei, Ziang Song, Tiancheng Yu(参考訳) EFG(Learning Extensive-Form Games)は、NFG(Normal-Form Games)に変換する手法である。 このアプローチにより,NFGの最先端技術や解析をEFGの学習に直接変換することが可能になるが,この変換によって導入されたゲームサイズが指数関数的に膨らみ,計算の難しさに悩まされることが多い。 本稿では,この問題を,NFGの大規模な平衡を学習可能な汎用アルゴリズムであるemph{$\Phi$-Hedge}アルゴリズムの,自然かつ重要な設定で解決する。 EFGにおけるNash Equilibria(ゼロサム設定)、Normal-Form Coarse Correlated Equilibria(NFCCE)、Extensive-Form Correlated Equilibria(EFCE)の学習に$\Phi$-Hedgeが直接利用できることを示す。 これらの設定では、emph{$\Phi$-Hedge}アルゴリズムは、適切な拡張正則化器を持つEFGの標準オンラインミラードライザー(OMD)アルゴリズムと等価であり、多項式時間で実行されることを証明している。 この新たな接続により、ログ分割関数の変更に基づいて新しいクラスのOMDアルゴリズムを設計および解析することが可能になる。 特に、$x$情報セット、$a$アクション、$t$エピソードを持つefgにおいて、bandit-feedbackの下で鋭い$\widetilde{\mathcal{o}}(\sqrt{xat})$efce-regretを達成するためのバランス技術を備えた改良されたアルゴリズムを設計する。 われわれの知る限りでは、これが初めてであり、情報理論の下限と一致する。

A conceptually appealing approach for learning Extensive-Form Games (EFGs) is to convert them to Normal-Form Games (NFGs). This approach enables us to directly translate state-of-the-art techniques and analyses in NFGs to learning EFGs, but typically suffers from computational intractability due to the exponential blow-up of the game size introduced by the conversion. In this paper, we address this problem in natural and important setups for the \emph{$\Phi$-Hedge} algorithm -- A generic algorithm capable of learning a large class of equilibria for NFGs. We show that $\Phi$-Hedge can be directly used to learn Nash Equilibria (zero-sum settings), Normal-Form Coarse Correlated Equilibria (NFCCE), and Extensive-Form Correlated Equilibria (EFCE) in EFGs. We prove that, in those settings, the \emph{$\Phi$-Hedge} algorithms are equivalent to standard Online Mirror Descent (OMD) algorithms for EFGs with suitable dilated regularizers, and run in polynomial time. This new connection further allows us to design and analyze a new class of OMD algorithms based on modifying its log-partition function. In particular, we design an improved algorithm with balancing techniques that achieves a sharp $\widetilde{\mathcal{O}}(\sqrt{XAT})$ EFCE-regret under bandit-feedback in an EFG with $X$ information sets, $A$ actions, and $T$ episodes. To our best knowledge, this is the first such rate and matches the information-theoretic lower bound.
翻訳日:2022-05-31 15:21:07 公開日:2022-05-30
# ニューラル形状マッチング:逆形状優先の自己監督対象集合

Neural Shape Mating: Self-Supervised Object Assembly with Adversarial Shape Priors ( http://arxiv.org/abs/2205.14886v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Haoda Li, Dylan Turpin, Alec Jacobson, Animesh Garg(参考訳) 形状を自律的に組み立てることを学ぶことは、多くのロボットアプリケーションにとって重要なスキルである。 既存の部品組立手法の大半は、オブジェクト全体を再現するために意味的な部分を正しく表現することに重点を置いているが、我々はアセンブリをより正確に解釈する。 意味的な手がかりではなく形状アライメントに焦点を合わせることで、カテゴリ間の一般化を実現することができる。 本稿では,新しい課題であるペアワイズ3次元幾何学的形状結合法と,この問題に取り組むためのニューラル・シェイプ・マッティング(nsm)を提案する。 未知のカテゴリの2つの対象部分の点雲を考えると、NSMは2つの部分の適合性を推論し、それらを密に結合する2つの3Dポーズを予測する。 我々は,nsmのトレーニングを暗黙の形状復元タスクと組み合わせることで,不完全な点雲観測をより堅牢にする。 NSMを訓練するために、オブジェクトメッシュをランダムに2つの部分に切断し、多種多様なオブジェクトメッシュから200Kの形状マッチングペアからなるデータセットを作成した、地上の真理でペアワイズな形状マッチングデータを生成する自己教師型データ収集パイプラインを提案する。 収集したデータセット上でNSMをトレーニングし、いくつかのポイントクラウド登録方法と1つのアセンブリベースラインと比較する。 各種条件下での実験結果とアブレーション実験により,提案アルゴリズムの有効性が示された。 追加資料は、https://neural-shape-mating.github.io/.com/で入手できる。

Learning to autonomously assemble shapes is a crucial skill for many robotic applications. While the majority of existing part assembly methods focus on correctly posing semantic parts to recreate a whole object, we interpret assembly more literally: as mating geometric parts together to achieve a snug fit. By focusing on shape alignment rather than semantic cues, we can achieve across-category generalization. In this paper, we introduce a novel task, pairwise 3D geometric shape mating, and propose Neural Shape Mating (NSM) to tackle this problem. Given the point clouds of two object parts of an unknown category, NSM learns to reason about the fit of the two parts and predict a pair of 3D poses that tightly mate them together. We couple the training of NSM with an implicit shape reconstruction task to make NSM more robust to imperfect point cloud observations. To train NSM, we present a self-supervised data collection pipeline that generates pairwise shape mating data with ground truth by randomly cutting an object mesh into two parts, resulting in a dataset that consists of 200K shape mating pairs from numerous object meshes with diverse cut types. We train NSM on the collected dataset and compare it with several point cloud registration methods and one part assembly baseline. Extensive experimental results and ablation studies under various settings demonstrate the effectiveness of the proposed algorithm. Additional material is available at: https://neural-shape-mating.github.io/
翻訳日:2022-05-31 15:19:36 公開日:2022-05-30
# 少数ショット画像分類のためのタスク優先条件変動自動エンコーダ

Task-Prior Conditional Variational Auto-Encoder for Few-Shot Image Classification ( http://arxiv.org/abs/2205.15014v1 )

ライセンス: Link先を確認
Zaiyun Yang(参考訳) トランスダクティブメソッドは常に、数ショットの画像分類シナリオにおいてインダクティブメソッドよりも優れています。 しかし、既存の数ショット法には遅延条件が含まれており、各クラスのサンプル数は同じであり、非現実的かもしれない。 本研究では,各クラスの問合せショットが一様でない場合(非一様数ショット学習など)に対処するため,TP-VAE と呼ばれるタスクパラメータ条件変分自動エンコーダモデルを提案する。 提案手法は,より難易度の高い非一様数発シナリオにおいて高い性能を得る。 さらに,本手法は,多種多様な画像分類シナリオにおいて最先端技術よりも優れている。 そのうち1発の精度は約3\%向上した。

Transductive methods always outperform inductive methods in few-shot image classification scenarios. However, the existing few-shot methods contain a latent condition: the number of samples in each class is the same, which may be unrealistic. To cope with those cases where the query shots of each class are nonuniform (i.e. nonuniform few-shot learning), we propose a Task-Prior Conditional Variational Auto-Encoder model named TP-VAE, conditioned on support shots and constrained by a task-level prior regularization. Our method obtains high performance in the more challenging nonuniform few-shot scenarios. Moreover, our method outperforms the state-of-the-art in a wide range of standard few-shot image classification scenarios. Among them, the accuracy of 1-shot increased by about 3\%.
翻訳日:2022-05-31 15:19:09 公開日:2022-05-30
# (参考訳) マルチゲーム決定トランスフォーマ

Multi-Game Decision Transformers ( http://arxiv.org/abs/2205.15241v1 )

ライセンス: CC BY 4.0
Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch(参考訳) aiの分野における長年の目標は、多様な経験を高度に有能なジェネラリストエージェントにまとめる戦略である。 ビジョンと言語のサブフィールドでは、これはトランスフォーマーベースのモデルをスケールアップし、大規模で多様なデータセットでトレーニングすることで実現された。 本研究は,本手法が一般強化学習エージェントの創出に有効かどうかを考察する。 具体的には、単一のトランスフォーマーベースのモデル(一組の重みを持つ)が、純粋にオフラインでトレーニングされ、人間に近いパフォーマンスで最大46個のAtariゲームを同時にプレイ可能であることを示す。 トレーニングと評価を適切に行うと、モデルサイズによるパフォーマンスのスケーリングや、ファインチューニングによる新しいゲームへの迅速な適応など、言語やビジョンホールドで見られるのと同じ傾向が分かる。 オンラインおよびオフラインのRL手法や行動クローンなど,このマルチゲーム設定におけるいくつかのアプローチを比較し,マルチゲーム決定変換モデルが最高のスケーラビリティと性能を提供することを確認した。 トレーニング済みのモデルとコードをリリースし、この方向のさらなる研究を奨励します。 追加情報、ビデオ、コードはsites.google.com/view/multi-game-transformersで見ることができる。

A longstanding goal of the field of AI is a strategy for compiling diverse experience into a highly capable, generalist agent. In the subfields of vision and language, this was largely achieved by scaling up transformer-based models and training them on large, diverse datasets. Motivated by this progress, we investigate whether the same strategy can be used to produce generalist reinforcement learning agents. Specifically, we show that a single transformer-based model - with a single set of weights - trained purely offline can play a suite of up to 46 Atari games simultaneously at close-to-human performance. When trained and evaluated appropriately, we find that the same trends observed in language and vision hold, including scaling of performance with model size and rapid adaptation to new games via fine-tuning. We compare several approaches in this multi-game setting, such as online and offline RL methods and behavioral cloning, and find that our Multi-Game Decision Transformer models offer the best scalability and performance. We release the pre-trained models and code to encourage further research in this direction. Additional information, videos and code can be seen at: sites.google.com/view/multi-game-transformers
翻訳日:2022-05-31 15:17:15 公開日:2022-05-30
# 文脈線形帯域を用いたメタ表現学習

Meta Representation Learning with Contextual Linear Bandits ( http://arxiv.org/abs/2205.15100v1 )

ライセンス: Link先を確認
Leonardo Cella, Karim Lounici, Massimiliano Pontil(参考訳) メタ学習は、以前の経験に基づいて新しい学習問題の解法を迅速に学習するアルゴリズムの構築を目指している。 本稿では,確率線形バンディットタスクの設定におけるメタラーニングについて検討する。 従来の学習課題から部分的に取得した低次元表現をタスクが共有していると仮定する。 我々は、この情報を利用して、同じ表現を共有する新しい下流バンディットタスクを学習することを目指している。 私たちの主な貢献は、学習した表象が未知のものをうまく見積もるならば、下流のタスクは、本研究で提案する欲望のポリシーによって効率的に学習できることを示すことです。 r\sqrt{n}(1\vee \sqrt{d/t})$、ここで$n$は下流タスクの地平線、$t$はトレーニングタスクの数、$d$はアンビエント次元、$r \ll d$は表現の次元である。 当社の戦略は$r$を知る必要がないことを強調する。 もし$t> d$ 我々の境界が真の基底表現を用いて最適なminimaxbanditアルゴリズムと同じ速度を達成すると注意する。 私たちの分析は、部分的には、i.i.d. full information set \citep{tripuraneni2021provable,boursier2022trace}におけるメタラーニングに関する以前の研究に基づいている。 個別の貢献として、これらの作業における特定の仮定を緩和する方法を示し、それによって表現学習とリスク分析を改善する。

Meta-learning seeks to build algorithms that rapidly learn how to solve new learning problems based on previous experience. In this paper we investigate meta-learning in the setting of stochastic linear bandit tasks. We assume that the tasks share a low dimensional representation, which has been partially acquired from previous learning tasks. We aim to leverage this information in order to learn a new downstream bandit task, which shares the same representation. Our principal contribution is to show that if the learned representation estimates well the unknown one, then the downstream task can be efficiently learned by a greedy policy that we propose in this work. We derive an upper bound on the regret of this policy, which is, up to logarithmic factors, of order $r\sqrt{N}(1\vee \sqrt{d/T})$, where $N$ is the horizon of the downstream task, $T$ is the number of training tasks, $d$ the ambient dimension and $r \ll d$ the dimension of the representation. We highlight that our strategy does not need to know $r$. We note that if $T> d$ our bound achieves the same rate of optimal minimax bandit algorithms using the true underlying representation. Our analysis is inspired and builds in part upon previous work on meta-learning in the i.i.d. full information setting \citep{tripuraneni2021provable,boursier2022trace}. As a separate contribution we show how to relax certain assumptions in those works, thereby improving their representation learning and risk analysis.
翻訳日:2022-05-31 14:50:08 公開日:2022-05-30
# 階層ベイズバンドの一般化

Generalizing Hierarchical Bayesian Bandits ( http://arxiv.org/abs/2205.15124v1 )

ライセンス: Link先を確認
Imad Aouali, Branislav Kveton, Sumeet Katariya(参考訳) 文脈的盗賊は、不確実性の下で行動するためのオンライン学習の一般的かつ実践的なフレームワークである。 多くの問題において、アクションの数は巨大であり、その平均報酬は相関している。 本研究では,複数の共用潜在パラメータを介して行動が関連づけられる2段階のグラフィカルモデルを用いて,そのような相関関係を捉えるための一般的なフレームワークを提案する。 本稿では,この構造を用いて効率的に探索し,ベイズを後悔させるトンプソンサンプリングアルゴリズムG-HierTSを提案する。 後悔には2つの用語があり、1つはアクションパラメータを学習し、もう1つは共有潜在パラメータを学習する。 この用語は、私たちのモデルの構造と事前の質を反映しています。 本研究は,合成問題と実世界問題の両方を用いて実証実験を行った。 またG-HierTSを用いて潜伏パラメータの因子的後部を維持する実験を行った。 この近似は保証を伴わないが、経験的後悔に最小限の影響で計算効率を向上させる。

A contextual bandit is a popular and practical framework for online learning to act under uncertainty. In many problems, the number of actions is huge and their mean rewards are correlated. In this work, we introduce a general framework for capturing such correlations through a two-level graphical model where actions are related through multiple shared latent parameters. We propose a Thompson sampling algorithm G-HierTS that uses this structure to explore efficiently and bound its Bayes regret. The regret has two terms, one for learning action parameters and the other for learning the shared latent parameters. The terms reflect the structure of our model as well as the quality of priors. Our theoretical findings are validated empirically using both synthetic and real-world problems. We also experiment with G-HierTS that maintains a factored posterior over latent parameters. While this approximation does not come with guarantees, it improves computational efficiency with a minimal impact on empirical regret.
翻訳日:2022-05-31 14:49:43 公開日:2022-05-30
# 不変表現によるPAC一般化

PAC Generalisation via Invariant Representations ( http://arxiv.org/abs/2205.15196v1 )

ライセンス: Link先を確認
Advait Parulekar, Karthikeyan Shanmugam, Sanjay Shakkottai(参考訳) 多様なトレーニング環境で提示された機械学習タスクに対する一般化可能なソリューションの1つは、データの不変表現を見つけることである。 これらは共変量の表現であり、表現の上の最良のモデルは訓練環境間で不変である。 線形構造方程式モデル(SEM)の文脈では、不変表現は分布外保証付きモデル、すなわちSEMの介入に対して堅牢なモデルを学ぶことができる。 有限標本集合における不変表現問題に対処するために、$\epsilon$-approximate invariance という概念を考える。 我々は、ある表現が与えられた訓練介入の数に対して大まかに不変であるなら、その表現は、より大きなsemの集合に対して大まかに不変となるだろうか? このより大きなsemのコレクションはパラメータ化された介入のファミリーによって生成される。 PAC学習に触発されて、忠実性の仮定を伴わない線形SEMの族に対して確率的に保たれる近似不変性に対する有限サンプル分布一般化保証を得る。 この結果から, 介入部位が非次境界ノードの一定サイズの部分集合内にある場合に, 周囲次元でスケールしない境界が示された。 また, 潜在変数を組み込んだ線形間接観測モデルに結果を拡張する方法を示す。

One method for obtaining generalizable solutions to machine learning tasks when presented with diverse training environments is to find invariant representations of the data. These are representations of the covariates such that the best model on top of the representation is invariant across training environments. In the context of linear Structural Equation Models (SEMs), invariant representations might allow us to learn models with out-of-distribution guarantees, i.e., models that are robust to interventions in the SEM. To address the invariant representation problem in a finite sample setting, we consider the notion of $\epsilon$-approximate invariance. We study the following question: If a representation is approximately invariant with respect to a given number of training interventions, will it continue to be approximately invariant on a larger collection of unseen SEMs? This larger collection of SEMs is generated through a parameterized family of interventions. Inspired by PAC learning, we obtain finite-sample out-of-distribution generalization guarantees for approximate invariance that holds probabilistically over a family of linear SEMs without faithfulness assumptions. Our results show bounds that do not scale in ambient dimension when intervention sites are restricted to lie in a constant size subset of in-degree bounded nodes. We also show how to extend our results to a linear indirect observation model that incorporates latent variables.
翻訳日:2022-05-31 14:49:30 公開日:2022-05-30
# 不完全データによるスパースPCAの回復支援

Support Recovery in Sparse PCA with Incomplete Data ( http://arxiv.org/abs/2205.15215v1 )

ライセンス: Link先を確認
Hanbyul Lee, Qifan Song, Jean Honorio(参考訳) 不完全かつノイズの多いデータのスパース主成分分析(PCA)のための実用的なアルゴリズムについて検討する。 本アルゴリズムは,非凸$l_1$-regularized PCA問題の半定値プログラム(SDP)緩和に基づく。 SDPが未知の真の行列のスパースリード固有ベクトルの真の支持を正確に回復できるという理論的および実験的証拠を提供する。 我々は,行列不整合,最大値と2番目に大きい固有値のスペクトルギャップ,観測確率とノイズ分散を含む,正確な回復のための十分な条件を導出する。 不完全な合成データを用いて理論的結果を検証し、遺伝子発現データセット上で有意義な結果を示す。

We study a practical algorithm for sparse principal component analysis (PCA) of incomplete and noisy data. Our algorithm is based on the semidefinite program (SDP) relaxation of the non-convex $l_1$-regularized PCA problem. We provide theoretical and experimental evidence that SDP enables us to exactly recover the true support of the sparse leading eigenvector of the unknown true matrix, despite only observing an incomplete (missing uniformly at random) and noisy version of it. We derive sufficient conditions for exact recovery, which involve matrix incoherence, the spectral gap between the largest and second-largest eigenvalues, the observation probability and the noise variance. We validate our theoretical results with incomplete synthetic data, and show encouraging and meaningful results on a gene expression dataset.
翻訳日:2022-05-31 14:49:06 公開日:2022-05-30
# フェデレートx武装バンディット

Federated X-Armed Bandit ( http://arxiv.org/abs/2205.15268v1 )

ライセンス: Link先を確認
Wenjie Li, Qifan Song, Jean Honorio, Guang Lin(参考訳) この研究は、異なるクライアントが同じドメインで定義された異種な局所目的関数に直面するフェデレートされた$\mathcal{x}$-armed banditの最初のフレームワークを確立し、グローバルな最適化を協調的に決定する必要がある。 本稿では,このような問題に対する最初のフェデレーションアルゴリズムを提案する。 階層分割における大域的対象のトポロジ的構造と弱滑らか性を利用して,クライアント数と評価予算の両方に関して線形累積的後悔を実現する。 一方、中央サーバとクライアント間の対数通信のみが必要で、クライアントのプライバシを保護する。 合成関数と実際のデータセットに関する実験結果は、シングルクライアントアルゴリズムとフェデレーションマルチアームドバンディットアルゴリズムに対する \texttt{fed-pne} の利点を検証する。

This work establishes the first framework of federated $\mathcal{X}$-armed bandit, where different clients face heterogeneous local objective functions defined on the same domain and are required to collaboratively figure out the global optimum. We propose the first federated algorithm for such problems, named \texttt{Fed-PNE}. By utilizing the topological structure of the global objective inside the hierarchical partitioning and the weak smoothness property, our algorithm achieves sublinear cumulative regret with respect to both the number of clients and the evaluation budget. Meanwhile, it only requires logarithmic communications between the central server and clients, protecting the client privacy. Experimental results on synthetic functions and real datasets validate the advantages of \texttt{Fed-PNE} over single-client algorithms and federated multi-armed bandit algorithms.
翻訳日:2022-05-31 14:48:54 公開日:2022-05-30
# 核神経の最適輸送

Kernel Neural Optimal Transport ( http://arxiv.org/abs/2205.15269v1 )

ライセンス: Link先を確認
Alexander Korotin, Daniil Selikhanovych, Evgeny Burnaev(参考訳) 我々は,一般最適輸送定式化を用いたニューラル最適輸送(not)アルゴリズムを研究し,確率的輸送計画を学ぶ。 弱い二次コストがなければ、最適でない偽の計画を学ぶことができる。 この問題を解決するため、カーネルの弱い二次コストを導入する。 理論的保証と実用性能の向上を図っている。 カーネルコストでテストしないのは、画像から画像への変換タスクです。

We study the Neural Optimal Transport (NOT) algorithm which uses the general optimal transport formulation and learns stochastic transport plans. We show that NOT with the weak quadratic cost might learn fake plans which are not optimal. To resolve this issue, we introduce kernel weak quadratic costs. We show that they provide improved theoretical guarantees and practical performance. We test NOT with kernel costs on the unpaired image-to-image translation task.
翻訳日:2022-05-31 14:48:38 公開日:2022-05-30
# 幾何学的不変性と等分散の検定

Testing for Geometric Invariance and Equivariance ( http://arxiv.org/abs/2205.15280v1 )

ライセンス: Link先を確認
Louis G. Christie and John A. D. Aston(参考訳) 不変および同変モデルは、推定される対象の対称性(非パラメトリック回帰関数 $f : \mathcal{X} \rightarrow \mathbb{R}$)を組み込む。 これらのモデルは($L^2$損失に関して)より良く機能し、実際はますます使われているが、対称性が誤って仮定されたときに問題に遭遇している。 本稿では,任意の半群 $g$ に対して$g$-equivariance をテストするためのフレームワークを提案する。 これは、対称性が事前に分かっていない場合に、そのようなモデルの使用に自信を与える。 これらのテストはモデルとは独立であり、計算速度が速いため、モデル適合前に簡単にテストすることができる。

Invariant and equivariant models incorporate the symmetry of an object to be estimated (here non-parametric regression functions $f : \mathcal{X} \rightarrow \mathbb{R}$). These models perform better (with respect to $L^2$ loss) and are increasingly being used in practice, but encounter problems when the symmetry is falsely assumed. In this paper we present a framework for testing for $G$-equivariance for any semi-group $G$. This will give confidence to the use of such models when the symmetry is not known a priori. These tests are independent of the model and are computationally quick, so can be easily used before model fitting to test their validity.
翻訳日:2022-05-31 14:48:32 公開日:2022-05-30
# 表現から推論へ : ビデオ質問応答のためのエビデンスと常識推論の両立に向けて

From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-Answering ( http://arxiv.org/abs/2205.14895v1 )

ライセンス: Link先を確認
Jiangtong Li, Li Niu, Liqing Zhang(参考訳) ビデオ理解は、ビデオキャプション、ビデオオブジェクトグラウンド、ビデオ記述的質問応答など、表現学習において大きな成功を収めている。 しかし、現在の手法は、証拠推論や常識推論など、ビデオ推論に苦戦している。 映像推論に向けた深い映像理解を容易にするために,シーン記述(記述)からエビデンス推論(説明),コモンセンス推論(予測と反事実)までの4種類の質問を含むCausal-VidQAの課題を提案する。 コモンセンス推論では、質問に答えて適切な理由を与える2段階のソリューションを設定した。 既存のビデオQA手法に関する広範な実験により、最先端の手法は記述に強いが推論には弱いことが判明した。 我々は、Causal-VidQAが表現学習から深い推論まで、映像理解の研究を導くことを願っている。 データセットと関連するリソースは \url{https://github.com/bcmi/causal-vidqa.git} で入手できる。

Video understanding has achieved great success in representation learning, such as video caption, video object grounding, and video descriptive question-answer. However, current methods still struggle on video reasoning, including evidence reasoning and commonsense reasoning. To facilitate deeper video understanding towards video reasoning, we present the task of Causal-VidQA, which includes four types of questions ranging from scene description (description) to evidence reasoning (explanation) and commonsense reasoning (prediction and counterfactual). For commonsense reasoning, we set up a two-step solution by answering the question and providing a proper reason. Through extensive experiments on existing VideoQA methods, we find that the state-of-the-art methods are strong in descriptions but weak in reasoning. We hope that Causal-VidQA can guide the research of video understanding from representation learning to deeper reasoning. The dataset and related resources are available at \url{https://github.com/bcmi/Causal-VidQA.git}.
翻訳日:2022-05-31 14:48:20 公開日:2022-05-30
# インクリメンタル・エクストリーム・バリューマシンによるオープンワールドの探索

Exploring the Open World Using Incremental Extreme Value Machines ( http://arxiv.org/abs/2205.14892v1 )

ライセンス: Link先を確認
Tobias Koch, Felix Liebezeit, Christian Riess, Vincent Christlein, Thomas K\"ohler(参考訳) 動的環境は適応的応用を必要とする。 動的環境における機械学習問題の一つはオープンワールド認識である。 トレーニングデータの1つのバッチにいくつかのクラスしか見られず、そのようなバッチはインクリメンタルにしか学習できない、連続的に変化するドメインを特徴付ける。 オープンワールド認識は、私たちの知る限りでは、いくつかの方法によってのみ対処される、要求の多いタスクです。 本研究は、オープンワールド認識を可能にするために広く知られているextreme value machine(evm)の修正を導入する。 提案手法は,更新時に影響のない空間を無視することにより,部分モデル適合関数でEVMを拡張した。 これによりトレーニング時間は28パーセント削減される。 さらに,重み付き最大k集合被覆を用いてモデル複雑性を厳密に拘束し,3.5倍の計算量を2.1 sから0.6 sに削減する修正モデル還元法を提案する。 実験では2つの新しい評価プロトコルを用いて開度を厳格に評価した。 提案手法は,画像分類と顔認識のタスクにおいて,約12%の精度と計算効率を向上する。

Dynamic environments require adaptive applications. One particular machine learning problem in dynamic environments is open world recognition. It characterizes a continuously changing domain where only some classes are seen in one batch of the training data and such batches can only be learned incrementally. Open world recognition is a demanding task that is, to the best of our knowledge, addressed by only a few methods. This work introduces a modification of the widely known Extreme Value Machine (EVM) to enable open world recognition. Our proposed method extends the EVM with a partial model fitting function by neglecting unaffected space during an update. This reduces the training time by a factor of 28. In addition, we provide a modified model reduction using weighted maximum K-set cover to strictly bound the model complexity and reduce the computational effort by a factor of 3.5 from 2.1 s to 0.6 s. In our experiments, we rigorously evaluate openness with two novel evaluation protocols. The proposed method achieves superior accuracy of about 12 % and computational efficiency in the tasks of image classification and face recognition.
翻訳日:2022-05-31 14:43:54 公開日:2022-05-30
# 不確かさの定量化とリソース要求型コンピュータビジョンの深層学習への応用

Uncertainty Quantification and Resource-Demanding Computer Vision Applications of Deep Learning ( http://arxiv.org/abs/2205.14917v1 )

ライセンス: Link先を確認
Julian Burghoff, Robin Chan, Hanno Gottschalk, Annika Muetze, Tobias Riedlinger, Matthias Rottmann, and Marius Schubert(参考訳) ディープニューラルネットワーク(DNN)を自動化運転、医療画像、財務といった安全上の重要なアプリケーションに導入するには、モデルの不確実性を完全に扱う必要がある。 ディープニューラルネットワークのトレーニングはすでにリソースが必要であり、不確実性も定量化されている。 本稿では,新しいオブジェクトクラスに遭遇した場合に,DNNに不確実性を教えるために開発した手法について概説する。 さらに,不確実性定量化の助けを借りて,少数のラベルから学習するためのトレーニング手法を提案する。 これは通常、通常のネットワークトレーニングと比較して、桁違いに大きな計算オーバーヘッドを負っていることに注意してください。 最後に,本研究は,通常のネットワークトレーニングよりもリソース要求の桁違いな,ニューラルネットワーク探索の研究である。

Bringing deep neural networks (DNNs) into safety critical applications such as automated driving, medical imaging and finance, requires a thorough treatment of the model's uncertainties. Training deep neural networks is already resource demanding and so is also their uncertainty quantification. In this overview article, we survey methods that we developed to teach DNNs to be uncertain when they encounter new object classes. Additionally, we present training methods to learn from only a few labels with help of uncertainty quantification. Note that this is typically paid with a massive overhead in computation of an order of magnitude and more compared to ordinary network training. Finally, we survey our work on neural architecture search which is also an order of magnitude more resource demanding then ordinary network training.
翻訳日:2022-05-31 14:43:34 公開日:2022-05-30
# ACIL:絶対記憶とプライバシー保護を備えた分析的クラスインクリメンタルラーニング

ACIL: Analytic Class-Incremental Learning with Absolute Memorization and Privacy Protection ( http://arxiv.org/abs/2205.14922v1 )

ライセンス: Link先を確認
Huiping Zhuang, Zhenyu Weng, Renchunzi Xie, Kar-Ann Toh, Zhiping Lin(参考訳) クラスインクリメンタルラーニング(CIL)は、段階的に異なるクラスのトレーニングデータを持つ分類モデルを学ぶ。 既存のCILは、破滅的な忘れ込みによる深刻な精度の損失に悩まされるか、あるいは、使用済みの例を再考することによってデータのプライバシーを侵害する。 線形学習の定式化に触発されて,過去の知識を絶対記憶し,データプライバシの侵害を回避する分析的クラスインクリメンタル学習(acil)を提案する。 絶対記憶は、ACILを用いたクラスインクリメンタル学習が、現在のサンプルと歴史的なサンプルの両方を消費する共同学習と同等の結果を与えるという意味で示される。 この等式は理論的に検証される。 学習プロセス中に履歴データが関与しないため、データのプライバシは保証される。 経験的検証は、様々なインクリメンタルなタスク設定(例えば5~50フェーズ)に対して、ほぼ同一の結果を持つacilの競合的正確性を示す。 これによりacilは、大局的なシナリオ(例えば25フェーズと50フェーズ)で最先端の手法を上回ることができる。

Class-incremental learning (CIL) learns a classification model with training data of different classes arising progressively. Existing CIL either suffers from serious accuracy loss due to catastrophic forgetting, or invades data privacy by revisiting used exemplars. Inspired by linear learning formulations, we propose an analytic class-incremental learning (ACIL) with absolute memorization of past knowledge while avoiding breaching of data privacy (i.e., without storing historical data). The absolute memorization is demonstrated in the sense that class-incremental learning using ACIL given present data would give identical results to that from its joint-learning counterpart which consumes both present and historical samples. This equality is theoretically validated. Data privacy is ensured since no historical data are involved during the learning process. Empirical validations demonstrate ACIL's competitive accuracy performance with near-identical results for various incremental task settings (e.g., 5-50 phases). This also allows ACIL to outperform the state-of-the-art methods for large-phase scenarios (e.g., 25 and 50 phases).
翻訳日:2022-05-31 14:43:20 公開日:2022-05-30
# サブグラフアライメントのためのスペクトル表現の活用

Harnessing spectral representations for subgraph alignment ( http://arxiv.org/abs/2205.14938v1 )

ライセンス: Link先を確認
Marco Pegoraro, Riccardo Marin, Arianna Rampini, Simone Melzi, Luca Cosmo, Emaneule Rodol\`a(参考訳) グラフ学習技術の台頭と出現により、グラフデータはユビキタスになった。 しかしながら、新しい畳み込みアーキテクチャ、プーリングまたは位置符号化スキームの設計にいくつかの取り組みが費やされている一方で、信号伝達、グラフ同型、部分グラフ対応といった(おそらく非常に大きな)グラフ間のマップに関する問題に費やされる労力は少ない。 本稿では,このような問題に対処するための便利なフレームワークの必要性を予測し,特に課題となる部分グラフアライメントシナリオに注目する。 まず第一に、地図の表現がこれらの問題をモデル化する上で中心的な役割を果たすと主張する。 幾何処理における最近の研究のヒントとして,コンパクトで計算が容易で,トポロジカルな変化に頑健で,既存のパイプラインへの接続が容易で,特にサブグラフアライメント問題に有効であるマップのスペクトル表現の採用を提案する。 グラフアライメントタスクで発生する偏りが、正確な部分グラフ同型がなくてもマップ係数の特別な構造として表され、数千ノードまでの異なるグラフの族にわたって一貫して観測されるという驚くべき現象を初めて報告した。

With the rise and advent of graph learning techniques, graph data has become ubiquitous. However, while several efforts are being devoted to the design of new convolutional architectures, pooling or positional encoding schemes, less effort is being spent on problems involving maps between (possibly very large) graphs, such as signal transfer, graph isomorphism and subgraph correspondence. With this paper, we anticipate the need for a convenient framework to deal with such problems, and focus in particular on the challenging subgraph alignment scenario. We claim that, first and foremost, the representation of a map plays a central role on how these problems should be modeled. Taking the hint from recent work in geometry processing, we propose the adoption of a spectral representation for maps that is compact, easy to compute, robust to topological changes, easy to plug into existing pipelines, and is especially effective for subgraph alignment problems. We report for the first time a surprising phenomenon where the partiality arising in the subgraph alignment task is manifested as a special structure of the map coefficients, even in the absence of exact subgraph isomorphism, and which is consistently observed over different families of graphs up to several thousand nodes.
翻訳日:2022-05-31 14:43:02 公開日:2022-05-30
# キーポイント分布アライメントによる6次元ポーズ推定のための知識蒸留

Knowledge Distillation for 6D Pose Estimation by Keypoint Distribution Alignment ( http://arxiv.org/abs/2205.14971v1 )

ライセンス: Link先を確認
Shuxuan Guo, Yinlin Hu, Jose M. Alvarez, Mathieu Salzmann(参考訳) 知識蒸留は、深層教師を用いて、コンパクトな学生ネットワークの訓練を容易にする。 これは多くのタスクで大きな成功をおさめたが、画像ベースの6dオブジェクトのポーズ推定については、まだ全く研究されていない。 本研究では,6次元ポーズ推定のための最初の知識蒸留法を提案する。 具体的には、オブジェクトキーポイントの2次元画像位置を予測する6次元ポーズ推定の標準手法に従う。 この文脈では、コンパクトな学生ネットワークを観察し、正確な2dキーポイント位置を予測するのに苦労する。 そこで,本稿では,キーポイント・ツー・キーポイントの指導を学生に委ねる代わりに,教師のキーポイント「emph{distribution}」を学生ネットワークに蒸留し,その訓練を容易にする最適輸送理論に基づく戦略を導入する。 いくつかのベンチマーク実験において, 蒸留法が, 異なるコンパクトな学生モデルを用いて, 最先端の成果をもたらすことを示した。

Knowledge distillation facilitates the training of a compact student network by using a deep teacher one. While this has achieved great success in many tasks, it remains completely unstudied for image-based 6D object pose estimation. In this work, we introduce the first knowledge distillation method for 6D pose estimation. Specifically, we follow a standard approach to 6D pose estimation, consisting of predicting the 2D image locations of object keypoints. In this context, we observe the compact student network to struggle predicting precise 2D keypoint locations. Therefore, to address this, instead of training the student with keypoint-to-keypoint supervision, we introduce a strategy based the optimal transport theory that distills the teacher's keypoint \emph{distribution} into the student network, facilitating its training. Our experiments on several benchmarks show that our distillation method yields state-of-the-art results with different compact student models.
翻訳日:2022-05-31 14:42:40 公開日:2022-05-30
# ドメインシフトのための事前学習ネットワークのFew-Shot適応

Few-Shot Adaptation of Pre-Trained Networks for Domain Shift ( http://arxiv.org/abs/2205.15234v1 )

ライセンス: Link先を確認
Wenyu Zhang, Li Shen, Wanyue Zhang, Chuan-Sheng Foo(参考訳) 深層ネットワークは、ソース(トレーニング)データとターゲット(テスト)データの間にドメインシフトがある場合、パフォーマンスが低下する傾向がある。 最近のテスト時間適応手法では,新たなターゲット環境にデプロイされた事前訓練されたソースモデルのバッチ正規化レイヤをストリームデータで更新することで,パフォーマンス劣化を軽減している。 このようなメソッドは、最初に大きなターゲットドメインデータセットを収集せずにオンザフライに適応できるが、パフォーマンスは、実際には予測できないミニバッチサイズやクラス分散といったストリーミング条件に依存する。 本研究では,データ効率適応の実践的課題に対処するために,少数ショット領域適応のためのフレームワークを提案する。 具体的には,対象領域から小さなサポートセットによって監視される事前学習されたソースモデルにおける特徴正規化統計量の制約付き最適化を提案する。 本手法は実装が容易で,クラス毎のサンプル数を1つに抑えることで,ソースモデルの性能を向上させる。 5つのクロスドメイン分類と4つのセマンティクスセグメンテーションデータセットに関する広範な実験により,本手法は,ストリーミング条件に制約されることなく,テスト時適応よりも正確かつ信頼性の高い性能を実現することが示された。

Deep networks are prone to performance degradation when there is a domain shift between the source (training) data and target (test) data. Recent test-time adaptation methods update batch normalization layers of pre-trained source models deployed in new target environments with streaming data to mitigate such performance degradation. Although such methods can adapt on-the-fly without first collecting a large target domain dataset, their performance is dependent on streaming conditions such as mini-batch size and class-distribution, which can be unpredictable in practice. In this work, we propose a framework for few-shot domain adaptation to address the practical challenges of data-efficient adaptation. Specifically, we propose a constrained optimization of feature normalization statistics in pre-trained source models supervised by a small support set from the target domain. Our method is easy to implement and improves source model performance with as few as one sample per class for classification tasks. Extensive experiments on 5 cross-domain classification and 4 semantic segmentation datasets show that our method achieves more accurate and reliable performance than test-time adaptation, while not being constrained by streaming conditions.
翻訳日:2022-05-31 14:42:23 公開日:2022-05-30
# pooling revisited: あなたの受容野は最適ではない

Pooling Revisited: Your Receptive Field is Suboptimal ( http://arxiv.org/abs/2205.15254v1 )

ライセンス: Link先を確認
Dong-Hwan Jang, Sanghyeok Chu, Joonhyuk Kim, Bohyung Han(参考訳) 受信フィールドのサイズと形状は、ネットワークがどのようにローカル情報を集約し、モデル全体の性能に大きく影響するかを決定する。 ニューラルネットワークの多くのコンポーネント、例えばカーネルのサイズや、畳み込みとプール操作のためのステップは、受容野の構成に影響を及ぼす。 しかし、それらは依然としてハイパーパラメータに依存しており、既存のモデルの受容野は準最適形状とサイズをもたらす。 そこで我々は,各層における受容場の大きさと形状を学習することにより,特徴マップのスケール係数をエンドツーエンドに最適化する,DynOPoolと呼ばれるシンプルな動的最適化プール操作を提案する。 ディープニューラルネットワーク内の任意の種類のリサイズモジュールは、最小限のコストでdynopoolの操作に置き換えることができる。 また、DynOPoolは計算コストを制約する追加の損失項を導入することで、モデルの複雑さを制御する。 実験の結果,学習可能なリサイズモジュールを備えたモデルは,画像分類やセマンティックセグメンテーションにおいて,複数のデータセットのベースラインネットワークよりも優れていることがわかった。

The size and shape of the receptive field determine how the network aggregates local information and affect the overall performance of a model considerably. Many components in a neural network, such as kernel sizes and strides for convolution and pooling operations, influence the configuration of a receptive field. However, they still rely on hyperparameters, and the receptive fields of existing models result in suboptimal shapes and sizes. Hence, we propose a simple yet effective Dynamically Optimized Pooling operation, referred to as DynOPool, which optimizes the scale factors of feature maps end-to-end by learning the desirable size and shape of its receptive field in each layer. Any kind of resizing modules in a deep neural network can be replaced by the operations with DynOPool at a minimal cost. Also, DynOPool controls the complexity of a model by introducing an additional loss term that constrains computational cost. Our experiments show that the models equipped with the proposed learnable resizing module outperform the baseline networks on multiple datasets in image classification and semantic segmentation.
翻訳日:2022-05-31 14:42:03 公開日:2022-05-30
# 分類におけるワンホットエンコーディングを超えて:人間の不確実性はモデルパフォーマンスを改善するか?

Going Beyond One-Hot Encoding in Classification: Can Human Uncertainty Improve Model Performance? ( http://arxiv.org/abs/2205.15265v1 )

ライセンス: Link先を確認
Christoph Koller, G\"oran Kauermann, Xiao Xiang Zhu(参考訳) 技術と計算の進歩は、ディープラーニングの幅広い分野を継続的に前進させる。 近年,モデリングプロセスに自然に伴う予測の不確かさを記述する量の導出が,深層学習コミュニティに対する一般の関心を喚起している。 機械学習の設定でしばしば無視されるのは、多くのラベル付けプロセスに影響を与える人間の不確実性である。 この作業の中核として、ラベルの不確実性は、ディストリビューションラベルを介してトレーニングプロセスに明示的に埋め込まれます。 本稿では,各画像に対する領域の専門家による複数のラベル投票を含むリモートセンシングデータセットを用いた画像分類におけるアプローチの有効性を示す。 既存のキャリブレーション法と同様に、分布ラベルはより良いキャリブレーションの確率をもたらし、それによってより確実で信頼できる予測が得られる。

Technological and computational advances continuously drive forward the broad field of deep learning. In recent years, the derivation of quantities describing theuncertainty in the prediction - which naturally accompanies the modeling process - has sparked general interest in the deep learning community. Often neglected in the machine learning setting is the human uncertainty that influences numerous labeling processes. As the core of this work, label uncertainty is explicitly embedded into the training process via distributional labels. We demonstrate the effectiveness of our approach on image classification with a remote sensing data set that contains multiple label votes by domain experts for each image: The incorporation of label uncertainty helps the model to generalize better to unseen data and increases model performance. Similar to existing calibration methods, the distributional labels lead to better-calibrated probabilities, which in turn yield more certain and trustworthy predictions.
翻訳日:2022-05-31 14:41:46 公開日:2022-05-30
# セマンティックグルーピングによる自己監督型視覚表現学習

Self-Supervised Visual Representation Learning with Semantic Grouping ( http://arxiv.org/abs/2205.15288v1 )

ライセンス: Link先を確認
Xin Wen, Bingchen Zhao, Anlin Zheng, Xiangyu Zhang, Xiaojuan Qi(参考訳) 本稿では,未ラベルのシーン中心データから視覚表現を学習する問題に取り組む。 既存の研究は、シーン中心のデータで基盤となる複雑な構造を利用する可能性を実証している。しかしながら、それらは一般的に、手作りのオブジェクトネスプリエントや特殊なプリテキストタスクに依存して、汎用性を損なう可能性のある学習フレームワークを構築している。 そこで本研究では,データ駆動型セマンティックスロット,すなわちSlotConから,協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。 セマンティックグルーピングは、一組の学習可能なプロトタイプに画素を割り当てることによって行われ、これによって各サンプルに適応することができる。 学習したデータ依存スロットに基づいて、特徴の識別性を高め、逆に意味的にコヒーレントな画素をグループ化するのを容易にする表現学習のための対比目的を用いる。 従来の手法と比較して, 意味的グループ化とコントラスト学習の2つの目標を同時に最適化することで, 手作り事前学習の欠点を回避し, シーン中心の画像からオブジェクト/グループレベルの表現を学習できる。 実験により,複雑なシーンを特徴学習のためのセマンティックグループに効果的に分解し,オブジェクト検出,インスタンス分割,セマンティックセマンティックセマンティクスといった下流タスクに多大な利益をもたらすことが示された。 コードは公開される予定だ。

In this paper, we tackle the problem of learning visual representations from unlabeled scene-centric data. Existing works have demonstrated the potential of utilizing the underlying complex structure within scene-centric data; still, they commonly rely on hand-crafted objectness priors or specialized pretext tasks to build a learning framework, which may harm generalizability. Instead, we propose contrastive learning from data-driven semantic slots, namely SlotCon, for joint semantic grouping and representation learning. The semantic grouping is performed by assigning pixels to a set of learnable prototypes, which can adapt to each sample by attentive pooling over the feature and form new slots. Based on the learned data-dependent slots, a contrastive objective is employed for representation learning, which enhances the discriminability of features, and conversely facilitates grouping semantically coherent pixels together. Compared with previous efforts, by simultaneously optimizing the two coupled objectives of semantic grouping and contrastive learning, our approach bypasses the disadvantages of hand-crafted priors and is able to learn object/group-level representations from scene-centric images. Experiments show our approach effectively decomposes complex scenes into semantic groups for feature learning and significantly benefits downstream tasks, including object detection, instance segmentation, and semantic segmentation. The code will be made publicly available.
翻訳日:2022-05-31 14:40:52 公開日:2022-05-30
# バイアス緩和のためのパラメータ効率的な差分プルーニング

Parameter Efficient Diff Pruning for Bias Mitigation ( http://arxiv.org/abs/2205.15171v1 )

ライセンス: Link先を確認
Lukas Hauzenberger and Navid Rekabsaz(参考訳) 近年,多種多様な自然言語処理タスクにおいて,言語モデルの性能が向上している。 これらのモデルのサイズが継続的に拡大しているため、より効率的な保存方法を探究することがますます重要になっている。 同時に認知能力の増大は、データセットに存在する社会バイアスが暗黙的にモデルウェイトにエンコードされる危険性を高める。 本稿では,DiffPruningとAdverserial Trainingという2つの手法を用いて,これら2つの課題を同時に扱うアーキテクチャを提案する。 その結果、元々のdiffpurning設定を拡張し、マスクとして追加のスパースサブネットワークを適用して、事前定義された保護属性の影響を推論時に減少させるモジュラーアーキテクチャとなる。

In recent years language models have achieved state of the art performance on a wide variety of natural language processing tasks. As these models are continuously growing in size it becomes increasingly important to explore methods to make them more storage efficient. At the same time their increase cognitive abilities increase the danger that societal bias existing in datasets are implicitly encoded in the model weights. We propose an architecture which deals with these two challenges at the same time using two techniques: DiffPruning and Adverserial Training. The result is a modular architecture which extends the original DiffPurning setup with and additional sparse subnetwork applied as a mask to diminish the effects of a predefined protected attribute at inference time.
翻訳日:2022-05-31 14:39:20 公開日:2022-05-30
# (参考訳) 強化学習を用いたオープンドメインマルチホップ探索の学習

Learning Open Domain Multi-hop Search Using Reinforcement Learning ( http://arxiv.org/abs/2205.15281v1 )

ライセンス: CC BY 4.0
Enrique Noriega-Atala, Mihai Surdeanu, Clayton T. Morrison(参考訳) 本稿では,オープンドメイン内のエンティティ間の関係のマルチホップパスの探索方法を学ぶための,自動エージェントの指導方法を提案する。 本方法は、コーパスの関連領域に集中するように、既存の情報検索及び機械読取リソースを指示するポリシーを学習する。 このアプローチは、探索プロセスのダイナミクスをエンコードする状態表現と、マルチホップパスを見つけながら処理しなければならない文書の数を最小化する報酬構造を備えたマルコフ決定プロセスとして学習問題を定式化する。 本手法をアクタ-クリティック強化学習アルゴリズムで実装し,英語wikipediaのサブセットから派生した検索問題のデータセット上で評価する。 このアルゴリズムは、複数のベースラインヒューリスティックアルゴリズムと比較して少ない文書を処理しながら、望ましい情報を抽出するのに成功するポリシーのファミリーを見つける。

We propose a method to teach an automated agent to learn how to search for multi-hop paths of relations between entities in an open domain. The method learns a policy for directing existing information retrieval and machine reading resources to focus on relevant regions of a corpus. The approach formulates the learning problem as a Markov decision process with a state representation that encodes the dynamics of the search process and a reward structure that minimizes the number of documents that must be processed while still finding multi-hop paths. We implement the method in an actor-critic reinforcement learning algorithm and evaluate it on a dataset of search problems derived from a subset of English Wikipedia. The algorithm finds a family of policies that succeeds in extracting the desired information while processing fewer documents compared to several baseline heuristic algorithms.
翻訳日:2022-05-31 14:36:45 公開日:2022-05-30
# 二足歩行ロボットの高速モータ適応

Adapting Rapid Motor Adaptation for Bipedal Robots ( http://arxiv.org/abs/2205.15299v1 )

ライセンス: Link先を確認
Ashish Kumar, Zhongyu Li, Jun Zeng, Deepak Pathak, Koushil Sreenath, Jitendra Malik(参考訳) 近年の脚歩行の進歩により、四足歩行は挑戦的な地形を歩けるようになった。 しかし、二足歩行ロボットは本質的に不安定なので、歩行制御器の設計は困難です。 本研究は,移動制御の高速化における最近の進歩を活用し,二足歩行ロボットで作業できるように拡張する。 既存の作業と同様に、適応モジュールから推定外生ベクトルを入力として実行しながらアクションを生成する基本ポリシーから始める。 この外部ベクトルは環境に関する情報を含み、歩行制御装置がオンラインで迅速に適応できるようにする。 しかし、extrinsics estimatorは不完全である可能性があり、それによって完璧な推定子を期待するベースポリシーのパフォーマンスが低下する可能性がある。 本稿では,モデルフリーRLを用いて非完全外部推定器の基本方針を微調整することで,A-RMA(Adapting RMA)を提案する。 A-RMAは、シミュレーションにおいて、多数のRLベースのベースラインコントローラやモデルベースのコントローラより優れており、また、2足歩行ロボットであるCassieが、トレーニング中に見た以上のさまざまなシナリオで歩けるように、単一のA-RMAポリシーのゼロショット展開を示す。 https://ashish-kmr.github.io/a-rma/

Recent advances in legged locomotion have enabled quadrupeds to walk on challenging terrains. However, bipedal robots are inherently more unstable and hence it's harder to design walking controllers for them. In this work, we leverage recent advances in rapid adaptation for locomotion control, and extend them to work on bipedal robots. Similar to existing works, we start with a base policy which produces actions while taking as input an estimated extrinsics vector from an adaptation module. This extrinsics vector contains information about the environment and enables the walking controller to rapidly adapt online. However, the extrinsics estimator could be imperfect, which might lead to poor performance of the base policy which expects a perfect estimator. In this paper, we propose A-RMA (Adapting RMA), which additionally adapts the base policy for the imperfect extrinsics estimator by finetuning it using model-free RL. We demonstrate that A-RMA outperforms a number of RL-based baseline controllers and model-based controllers in simulation, and show zero-shot deployment of a single A-RMA policy to enable a bipedal robot, Cassie, to walk in a variety of different scenarios in the real world beyond what it has seen during training. Videos and results at https://ashish-kmr.github.io/a-rma/
翻訳日:2022-05-31 14:25:28 公開日:2022-05-30
# マルチEDU構造認識による拡張テキスト表現による偽ニュースの検出

Detecting fake news by enhanced text representation with multi-EDU-structure awareness ( http://arxiv.org/abs/2205.15139v1 )

ライセンス: Link先を確認
Yuhang Wang and Li Wang and Yanjie Yang and Yilin Zhang(参考訳) 偽ニュースは社会や個人に深刻な脅威をもたらすため、テキスト、伝播、ユーザープロファイルを考慮して多くの研究がなされている。 データ収集の問題のため、伝播とユーザプロファイルに基づくこれらの手法は、初期段階では適用できない。 優れた代替方法は、テキストがリリースされるとすぐにニュースを検出することであり、テキストベースの手法が多数提案され、通常、単語、文、段落を基本単位として使用する。 しかし、単語はコヒーレントな情報をうまく表現するにはきめ細かな単位であり、文や段落は、特定の情報を示すには大きすぎる。 どの粒度が良いか、偽ニュース検出のためのテキスト表現を強化する方法が重要な2つの問題である。 本稿では,単語と文間の粒度を規定する小学校談話ユニット(EDU)を導入し,偽ニュース検出のためのテキスト表現,すなわちEDU4FDを改善するための多言語構造認識モデルを提案する。 マルチEDU構造認識のために,シーケンスベースEDU表現とグラフベースEDU表現を構築した。 前者は、連続EDU間のコヒーレンスを、意味的コヒーレンスを反映したTextCNNでモデル化することで得られる。 後者では、まず、EDU依存グラフを構築するための修辞的関係を抽出し、グローバルな物語論理を示し、真に主要なアイデアを提供するのに役立つ。 次にRGAT(Relation Graph Attention Network)を設定してグラフベースのEDU表現を得る。 最後に、2つのEDU表現を、グローバルアテンション機構と組み合わせたゲート再帰単位を用いて、偽ニュース検出のための拡張テキスト表現として組み込む。 4つのクロスソースフェイクニュースデータセットの実験によって、我々のモデルは最先端のテキストベースメソッドよりも優れています。

Since fake news poses a serious threat to society and individuals, numerous studies have been brought by considering text, propagation and user profiles. Due to the data collection problem, these methods based on propagation and user profiles are less applicable in the early stages. A good alternative method is to detect news based on text as soon as they are released, and a lot of text-based methods were proposed, which usually utilized words, sentences or paragraphs as basic units. But, word is a too fine-grained unit to express coherent information well, sentence or paragraph is too coarse to show specific information. Which granularity is better and how to utilize it to enhance text representation for fake news detection are two key problems. In this paper, we introduce Elementary Discourse Unit (EDU) whose granularity is between word and sentence, and propose a multi-EDU-structure awareness model to improve text representation for fake news detection, namely EDU4FD. For the multi-EDU-structure awareness, we build the sequence-based EDU representations and the graph-based EDU representations. The former is gotten by modeling the coherence between consecutive EDUs with TextCNN that reflect the semantic coherence. For the latter, we first extract rhetorical relations to build the EDU dependency graph, which can show the global narrative logic and help deliver the main idea truthfully. Then a Relation Graph Attention Network (RGAT) is set to get the graph-based EDU representation. Finally, the two EDU representations are incorporated as the enhanced text representation for fake news detection, using a gated recursive unit combined with a global attention mechanism. Experiments on four cross-source fake news datasets show that our model outperforms the state-of-the-art text-based methods.
翻訳日:2022-05-31 14:25:07 公開日:2022-05-30
# 画像から地形可視化への適応色移動

Adaptive color transfer from images to terrain visualizations ( http://arxiv.org/abs/2205.14908v1 )

ライセンス: Link先を確認
Mingguang Wu, Yanjie Sun, Shangjing Jiang(参考訳) 地形マッピングは、高度や地形がいかに急勾配であるかを伝えるだけでなく、ある場所に対する私たちがどう感じているかを伝えるのにも役立ちます。 しかし、非専門家と専門家の両方にとって、効果的で表現力のある催眠術を製作することは困難である。 本稿では,任意の画像から多様な地形モデルに色を転送できる2段階カラー転送方式を提案する。 まず,局所探索やグローバル探索,カテゴリカラー選択,シーケンシャルカラー補間といった一連のカラー操作を容易にする連続的な正規カラーグリッドに,離散的な不規則な画像色を整理する新しい画像カラー編成手法を提案する。 第二に、我々は「下、上、上」の原則、色慣行、空の視点など、高層カラークラフトに関する一連の主観的関心を定量化する。 また,画像と地形の色彩の類似性を美的品質で定義する。 次に,二目的最適化問題として画像対地色変換を数学的に定式化し,その解法としてヒューリスティック探索法を提案する。 最後に,4つの試験地形における標準カラースキームとの比較を行った。 評価の結果,提案手法のヒプソメトリックティントが標準スキームと同等に効果的に機能し,我々のチントがより視覚的に有利であることが判明した。 また,画像から地形の可視化へ感情を伝達できることを示す。

Terrain mapping is not only dedicated to communicating how high or how steep a landscape is but can also help to narrate how we feel about a place. However, crafting effective and expressive hypsometric tints is challenging for both nonexperts and experts. In this paper, we present a two-step image-to-terrain color transfer method that can transfer color from arbitrary images to diverse terrain models. First, we present a new image color organization method that organizes discrete, irregular image colors into a continuous, regular color grid that facilitates a series of color operations, such as local and global searching, categorical color selection and sequential color interpolation. Second, we quantify a series of subjective concerns about elevation color crafting, such as "the lower, the higher" principle, color conventions, and aerial perspectives. We also define color similarity between image and terrain visualization with aesthetic quality. We then mathematically formulate image-to-terrain color transfer as a dual-objective optimization problem and offer a heuristic searching method to solve the problem. Finally, we compare elevation tints from our method with a standard color scheme on four test terrains. The evaluations show that the hypsometric tints from the proposed method can work as effectively as the standard scheme and that our tints are more visually favorable. We also showcase that our method can transfer emotion from image to terrain visualization.
翻訳日:2022-05-31 14:24:35 公開日:2022-05-30
# 逆境浄化のための誘導拡散モデル

Guided Diffusion Model for Adversarial Purification ( http://arxiv.org/abs/2205.14969v1 )

ライセンス: Link先を確認
Jinyi Wang, Zhaoyang Lyu, Dahua Lin, Bo Dai, Hongfei Fu(参考訳) ディープニューラルネットワーク(dnn)をさまざまなアルゴリズムやフレームワークに広く適用することで、セキュリティの脅威が懸念されている。 敵対的攻撃はDNNベースの画像分類器を妨害し、攻撃者は意図的に入力画像に不可避な逆転を付加して分類器を騙すことができる。 本稿では, 分類器を敵の攻撃から守るために, 誘導拡散モデル (gdmp) と呼ばれる新しい浄化手法を提案する。 提案手法の核となるのは, 拡散確率モデル (DDPM) の拡散復調過程に純化を埋め込むことであり, 拡散過程はガウス雑音を徐々に加えた逆方向の摂動を吸収し, これらのノイズは誘導復調過程を経て同時に除去することができる。 各種データセットの包括的実験において,提案したGDMPは,敵対攻撃によって引き起こされた摂動を浅い範囲に低減し,分類の正しさを著しく向上させる。 GDMPはロバストな精度を5%改善し、CIFAR10データセットに対するPGD攻撃で90.1%を得る。 さらに、GDMPは、挑戦的なImageNetデータセット上で70.94%の堅牢性を達成する。

With wider application of deep neural networks (DNNs) in various algorithms and frameworks, security threats have become one of the concerns. Adversarial attacks disturb DNN-based image classifiers, in which attackers can intentionally add imperceptible adversarial perturbations on input images to fool the classifiers. In this paper, we propose a novel purification approach, referred to as guided diffusion model for purification (GDMP), to help protect classifiers from adversarial attacks. The core of our approach is to embed purification into the diffusion denoising process of a Denoised Diffusion Probabilistic Model (DDPM), so that its diffusion process could submerge the adversarial perturbations with gradually added Gaussian noises, and both of these noises can be simultaneously removed following a guided denoising process. On our comprehensive experiments across various datasets, the proposed GDMP is shown to reduce the perturbations raised by adversarial attacks to a shallow range, thereby significantly improving the correctness of classification. GDMP improves the robust accuracy by 5%, obtaining 90.1% under PGD attack on the CIFAR10 dataset. Moreover, GDMP achieves 70.94% robustness on the challenging ImageNet dataset.
翻訳日:2022-05-31 14:19:36 公開日:2022-05-30
# STN:Structure-Aware TrainingとAdaptive Compressionによるスケーラブルなテンソル化ネットワーク

STN: Scalable Tensorizing Networks via Structure-Aware Training and Adaptive Compression ( http://arxiv.org/abs/2205.15198v1 )

ライセンス: Link先を確認
Chang Nie, Huan Wang, Lu Zhao(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンの多くのタスクで顕著なパフォーマンスを実現している。 しかし、一般的なアーキテクチャの過剰なパラメータ表現は計算の複雑さとストレージコストを劇的に増加させ、制約のあるリソースを持つエッジデバイスでの可用性を妨げる。 DNNを圧縮してコンパクトな表現を学習するためによく研究されてきた多くのテンソル分解(TD)手法はともかく、実際には非無視のパフォーマンス劣化に悩まされている。 本稿では,モデルサイズと分解構造を動的かつ適応的に調整し,再学習を伴わないスケーラブルなテンソル化ネットワーク(STN)を提案する。 まず,ネットワークの所望の低ランク特性を完全テンソル形式で保証するために低ランク正規化器を追加することで,トレーニング中の圧縮について考察する。 そして、ネットワーク層が様々な低ランク構造を示すことを考慮し、事前学習したモデルから層ごとの分解の位相構造を学習したデータ駆動適応tdアプローチにより、階層を所定の記憶制約下で適切に選択する。 結果として、STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。 いくつかの一般的なアーキテクチャとベンチマークに関する総合的な実験は、パラメータ効率の改善に向けたモデルの優位性を裏付けるものである。

Deep neural networks (DNNs) have delivered a remarkable performance in many tasks of computer vision. However, over-parameterized representations of popular architectures dramatically increase their computational complexity and storage costs, and hinder their availability in edge devices with constrained resources. Regardless of many tensor decomposition (TD) methods that have been well-studied for compressing DNNs to learn compact representations, they suffer from non-negligible performance degradation in practice. In this paper, we propose Scalable Tensorizing Networks (STN), which dynamically and adaptively adjust the model size and decomposition structure without retraining. First, we account for compression during training by adding a low-rank regularizer to guarantee networks' desired low-rank characteristics in full tensor format. Then, considering network layers exhibit various low-rank structures, STN is obtained by a data-driven adaptive TD approach, for which the topological structure of decomposition per layer is learned from the pre-trained model, and the ranks are selected appropriately under specified storage constraints. As a result, STN is compatible with arbitrary network architectures and achieves higher compression performance and flexibility over other tensorizing versions. Comprehensive experiments on several popular architectures and benchmarks substantiate the superiority of our model towards improving parameter efficiency.
翻訳日:2022-05-31 14:19:13 公開日:2022-05-30
# 文脈内メタラーニングによる短期数学解の自動評価

Automatic Short Math Answer Grading via In-context Meta-learning ( http://arxiv.org/abs/2205.15219v1 )

ライセンス: Link先を確認
Mengxue Zhang, Sami Baral, Neil Heffernan, Andrew Lan(参考訳) 人工知能(AI)ベースのツールを教育改善に活用する方法を探究する上で,自動短解格付けは重要な研究方向である。 現在の最先端のアプローチでは、ニューラルネットワークモデルを使用して、学生の反応のベクトル化表現を作成し、次にスコアを予測する分類器が続く。 しかし、これらのアプローチにはいくつかの重要な制限がある。 一 教育対象ドメイン及び/又は学生生成テキストに適合しない訓練済み言語モデルを用いること。 二 問題ごとのモデルをほとんど常に訓練し、一問にまたがるリンクを無視し、先進的な言語モデルのサイズのため、重要なモデル記憶の問題を引き起こす。 本稿では,算数問題に対する学生の回答を自動短答評価する問題について検討し,この課題に対する新しい枠組みを提案する。 まず、数学的内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用し、学生の反応グレーディングの下流タスクに微調整する。 第2に、言語モデルへのインプットとしてスコアリング例を提供し、追加のコンテキスト情報を提供し、未認識の質問への一般化を促進する、コンテキスト内学習アプローチを用いる。 オープンエンドの数学質問に対する学生回答を実世界のデータセット上で評価し,そのフレームワークが既存のアプローチ,特にトレーニング中に見られない新たな質問よりも優れていることを示す。

Automatic short answer grading is an important research direction in the exploration of how to use artificial intelligence (AI)-based tools to improve education. Current state-of-the-art approaches use neural language models to create vectorized representations of students responses, followed by classifiers to predict the score. However, these approaches have several key limitations, including i) they use pre-trained language models that are not well-adapted to educational subject domains and/or student-generated text and ii) they almost always train one model per question, ignoring the linkage across a question and result in a significant model storage problem due to the size of advanced language models. In this paper, we study the problem of automatic short answer grading for students' responses to math questions and propose a novel framework for this task. First, we use MathBERT, a variant of the popular language model BERT adapted to mathematical content, as our base model and fine-tune it for the downstream task of student response grading. Second, we use an in-context learning approach that provides scoring examples as input to the language model to provide additional context information and promote generalization to previously unseen questions. We evaluate our framework on a real-world dataset of student responses to open-ended math questions and show that our framework (often significantly) outperforms existing approaches, especially for new questions that are not seen during training.
翻訳日:2022-05-31 14:16:50 公開日:2022-05-30
# prompting electra: 判別事前学習モデルを用いた少数ショット学習

Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models ( http://arxiv.org/abs/2205.15223v1 )

ライセンス: Link先を確認
Mengzhou Xia, Mikel Artetxe, Jingfei Du, Danqi Chen, Ves Stoyanov(参考訳) 事前学習されたマスク言語モデルは、ダウンストリームタスクをテキストインフィルングとして定式化することで、少数ショット学習を成功させた。 しかしながら、フルショット設定において強力な選択肢として、electraのような差別的事前訓練されたモデルはパラダイムに適合しない。 本研究では,ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。 ELECTRAはトークンが生成されるかオリジナルであるかを区別するために事前訓練される。 そこで我々は自然に,新たなパラメータを導入することなく,対象オプションの独自性を評価する訓練によって,プロンプトベースの数ショット学習に拡張する。 本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。 分析の結果、electraは下流のタスクに合致する分布を学習する。

Pre-trained masked language models successfully perform few-shot learning by formulating downstream tasks as text infilling. However, as a strong alternative in full-shot settings, discriminative pre-trained models like ELECTRA do not fit into the paradigm. In this work, we adapt prompt-based few-shot learning to ELECTRA and show that it outperforms masked language models in a wide range of tasks. ELECTRA is pre-trained to distinguish if a token is generated or original. We naturally extend that to prompt-based few-shot learning by training to score the originality of the target options without introducing new parameters. Our method can be easily adapted to tasks involving multi-token predictions without extra computation overhead. Analysis shows that ELECTRA learns distributions that align better with downstream tasks.
翻訳日:2022-05-31 14:16:28 公開日:2022-05-30
# アンチウイルスオートボット:深層学習によるパンデミック予防のための感染性ウイルス変異の予測

Anti-virus Autobots: Predicting More Infectious Virus Variants for Pandemic Prevention through Deep Learning ( http://arxiv.org/abs/2205.14854v1 )

ライセンス: Link先を確認
Glenda Tan Hui En, Koay Tze Erhn, Shen Bingquan(参考訳) 感染性ウイルスの変異は、タンパク質の急速な変異から生じ、新しい感染波を生み出す。 これらの変異体は免疫系を回避し、ワクチンの効果を低下させる。 そこで本研究ではワクチン設計を改善するため,既存のウイルス(sars-cov-2 など)から将来,より感染性の高い変異種を予測するための深層学習手法 optimus ppime を提案する。 このアプローチは、ホスト細胞を攻撃する"ウイルス"として機能するアルゴリズムを含む。 感染力を高めるために、「ウイルス」は宿主の受容体に良く結合するように変異する。 2つのアルゴリズムが試みられた: greedy searchとbeam search。 この変異ホスト結合の強度は、我々が開発したトランスフォーマーネットワークによって90%の精度で評価された。 両成分とも、ビームサーチは最終的により伝染性のある変種を提案した。 そのため、このアプローチは、感染が発覚する前に予防し、流行を未然に防ぎ、命を救えるワクチンを研究者が開発できる可能性がある。

More infectious virus variants can arise from rapid mutations in their proteins, creating new infection waves. These variants can evade one's immune system and infect vaccinated individuals, lowering vaccine efficacy. Hence, to improve vaccine design, this project proposes Optimus PPIme - a deep learning approach to predict future, more infectious variants from an existing virus (exemplified by SARS-CoV-2). The approach comprises an algorithm which acts as a "virus" attacking a host cell. To increase infectivity, the "virus" mutates to bind better to the host's receptor. 2 algorithms were attempted - greedy search and beam search. The strength of this variant-host binding was then assessed by a transformer network we developed, with a high accuracy of 90%. With both components, beam search eventually proposed more infectious variants. Therefore, this approach can potentially enable researchers to develop vaccines that provide protection against future infectious variants before they emerge, pre-empting outbreaks and saving lives.
翻訳日:2022-05-31 14:12:04 公開日:2022-05-30
# FRAug: Representation Augmentationを通じて、非IID機能によるフェデレーションラーニングに取り組む

FRAug: Tackling Federated Learning with Non-IID Features via Representation Augmentation ( http://arxiv.org/abs/2205.14900v1 )

ライセンス: Link先を確認
Haokun Chen, Ahmed Frikha, Denis Krompass, Volker Tresp(参考訳) Federated Learning(FL)は、複数のクライアントがローカルデータを集中せずにディープラーニングモデルを共同でトレーニングし、データプライバシを保存する、分散学習パラダイムである。 現実世界のアプリケーションは、通常、異なるクライアントのデータセット間の分散シフトを伴い、クライアントの一般化能力を損なう。 本稿では,最近提案されている,ラベル分布が同一であるクライアントの特徴分布が異なる特徴シフト問題に対処する。 本稿では,FRAug(Federated Representation Augmentation)を提案する。 提案手法は,通常は小さなクライアントデータセットを増大させるために,埋め込み空間にクライアント固有の合成サンプルを生成する。 そこで我々は、クライアントの知識を融合させ、異なる特徴分布から学習し、クライアントに依存しない埋め込みを合成するように共有生成モデルを訓練し、それをRepresentation Transformation Networks (RTNets) によってクライアント固有の埋め込みに局所的に変換する。 クライアント間で知識を転送することで、生成された埋め込みはクライアントモデルのレギュレータとして機能し、ローカルのオリジナルデータセットへのオーバーフィットを削減し、一般化を改善します。 複数のベンチマークデータセットにおける経験的評価により,提案手法の有効性が示され,partmentfed や fedbn を含む非iid機能に対する現状fl法を実質的に上回っている。

Federated Learning (FL) is a decentralized learning paradigm in which multiple clients collaboratively train deep learning models without centralizing their local data and hence preserve data privacy. Real-world applications usually involve a distribution shift across the datasets of the different clients, which hurts the generalization ability of the clients to unseen samples from their respective data distributions. In this work, we address the recently proposed feature shift problem where the clients have different feature distributions while the label distribution is the same. We propose Federated Representation Augmentation (FRAug) to tackle this practical and challenging problem. Our approach generates synthetic client-specific samples in the embedding space to augment the usually small client datasets. For that, we train a shared generative model to fuse the clients' knowledge, learned from different feature distributions, to synthesize client-agnostic embeddings, which are then locally transformed into client-specific embeddings by Representation Transformation Networks (RTNets). By transferring knowledge across the clients, the generated embeddings act as a regularizer for the client models and reduce overfitting to the local original datasets, hence improving generalization. Our empirical evaluation on multiple benchmark datasets demonstrates the effectiveness of the proposed method, which substantially outperforms the current state-of-the-art FL methods for non-IID features, including PartialFed and FedBN.
翻訳日:2022-05-31 14:11:48 公開日:2022-05-30
# CHALLENGER: 属性マップによるトレーニング

CHALLENGER: Training with Attribution Maps ( http://arxiv.org/abs/2205.15094v1 )

ライセンス: Link先を確認
Christian Tomani and Daniel Cremers(参考訳) ニューラルネットワークのトレーニングにアトリビューションマップを利用すると,モデルの規則化が改善され,パフォーマンスが向上することを示す。 ディープラーニングでは、特に比較的小さなデータセットで複雑なモデルをトレーニングする場合、正規化が鍵となる。 ニューラルネットワークの内部動作を理解するために、特に入力特徴の関連性を解釈するために、層間関連伝播(lrp)のような帰属法が広く研究されている。 特に関連する入力パターンを操作するために,帰属マップの説明力を活用するモジュールであるchallerを紹介する。 従って、曖昧さの領域を露呈して、基底データ多様体上のクラスを分離する、という問題は、特に小さなデータセット上でモデルをトレーニングする場合に発生する。 我々のChallengerモジュールは、ネットワーク内でより多様なフィルタを構築し、任意の入力データドメインに適用することで、モデルパフォーマンスを向上させる。 提案手法は,データセットの分類とキャリブレーション性能が著しく向上し,数千のサンプルを持つデータセットまでのサンプルがわずかであったことが実証された。 特に、我々の一般的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。

We show that utilizing attribution maps for training neural networks can improve regularization of models and thus increase performance. Regularization is key in deep learning, especially when training complex models on relatively small datasets. In order to understand inner workings of neural networks, attribution methods such as Layer-wise Relevance Propagation (LRP) have been extensively studied, particularly for interpreting the relevance of input features. We introduce Challenger, a module that leverages the explainable power of attribution maps in order to manipulate particularly relevant input patterns. Therefore, exposing and subsequently resolving regions of ambiguity towards separating classes on the ground-truth data manifold, an issue that arises particularly when training models on rather small datasets. Our Challenger module increases model performance through building more diverse filters within the network and can be applied to any input data domain. We demonstrate that our approach results in substantially better classification as well as calibration performance on datasets with only a few samples up to datasets with thousands of samples. In particular, we show that our generic domain-independent approach yields state-of-the-art results in vision, natural language processing and on time series tasks.
翻訳日:2022-05-31 14:10:43 公開日:2022-05-30
# ユニバーサルディープGNN:過剰スムーシング防止のための経路分解の観点からのGNNの残留接続再考

Universal Deep GNNs: Rethinking Residual Connection in GNNs from a Path Decomposition Perspective for Preventing the Over-smoothing ( http://arxiv.org/abs/2205.15127v1 )

ライセンス: Link先を確認
Jie Chen, Weiqi Liu, Zhizhong Huang, Junbin Gao, Junping Zhang, Jian Pu(参考訳) GNNのパフォーマンスは、過度なスムーシングのため、より深くなるにつれて低下する。 過度なスムース化を防ぐ試みの中で、残余接続は単純さのために有望な方法の1つである。 しかし、近年の研究では、残存する結合を持つGNNが変性をわずかに遅らせていることが示されている。 残余接続がGNNで失敗した理由はまだ不明である。 本稿では,新しい経路分解の観点から,残差接続を持つgnnの前方および後方挙動について検討する。 残差接続経路の両項分布から中央長経路の再帰的集約が出力表現を支配し,GNNがより深くなるにつれて過度にスムース化されることがわかった。 絡み合った伝播と重み行列は勾配の滑らか化を引き起こし、残りの接続を持つGNNがアイデンティティマッピングに最適化されるのを防ぐ。 これらの知見に基づき,冷間開始適応残差接続(DRIVE)とフィードフォワードモジュールを備えたUDGNN(Universal Deep GNN)フレームワークを提案する。 従来のGNNを積み重ねることにより,非平滑なヘテロフィリーデータセットに対して最先端の結果が得られる手法の有効性を示す。

The performance of GNNs degrades as they become deeper due to the over-smoothing. Among all the attempts to prevent over-smoothing, residual connection is one of the promising methods due to its simplicity. However, recent studies have shown that GNNs with residual connections only slightly slow down the degeneration. The reason why residual connections fail in GNNs is still unknown. In this paper, we investigate the forward and backward behavior of GNNs with residual connections from a novel path decomposition perspective. We find that the recursive aggregation of the median length paths from the binomial distribution of residual connection paths dominates output representation, resulting in over-smoothing as GNNs go deeper. Entangled propagation and weight matrices cause gradient smoothing and prevent GNNs with residual connections from optimizing to the identity mapping. Based on these findings, we present a Universal Deep GNNs (UDGNN) framework with cold-start adaptive residual connections (DRIVE) and feedforward modules. Extensive experiments demonstrate the effectiveness of our method, which achieves state-of-the-art results over non-smooth heterophily datasets by simply stacking standard GNNs.
翻訳日:2022-05-31 14:10:25 公開日:2022-05-30
# 教師学生設定における2層ReLUニューラルネットワークの過剰リスクとカーネル法への優越性

Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student Settings and its Superiority to Kernel Methods ( http://arxiv.org/abs/2205.14818v1 )

ライセンス: Link先を確認
Shunta Akiyama, Taiji Suzuki(参考訳) 深層学習は様々なタスクにおいて他の手法よりも優れているが、その理由を説明する理論的枠組みは確立されていない。 そこで本研究では,教師・生徒回帰モデルにおける2層reluニューラルネットワークの過剰リスクについて検討し,その出力から未知の教師ネットワークを学習する。 特に,教師ネットワークと同じ幅の学生ネットワークを,まず雑音勾配降下,次にバニラ勾配降下の2段階で学習する。 この結果から,学生ネットワークは極小値の最適解に到達し,ニューラルタンジェントカーネルアプローチ,ランダム特徴モデル,その他のカーネルメソッドを含む,任意のカーネルメソッド推定器(より一般的には線形推定器)より優れた性能を示すことがわかった。 この優位性をもたらす重要な概念は、ニューラルネットワークモデルの非凸性である。 ロスランドスケープは非常に非凸であるにもかかわらず、学生ネットワークは教師ニューロンを適応的に学習する。

While deep learning has outperformed other methods for various tasks, theoretical frameworks that explain its reason have not been fully established. To address this issue, we investigate the excess risk of two-layer ReLU neural networks in a teacher-student regression model, in which a student network learns an unknown teacher network through its outputs. Especially, we consider the student network that has the same width as the teacher network and is trained in two phases: first by noisy gradient descent and then by the vanilla gradient descent. Our result shows that the student network provably reaches a near-global optimal solution and outperforms any kernel methods estimator (more generally, linear estimators), including neural tangent kernel approach, random feature model, and other kernel methods, in a sense of the minimax optimal rate. The key concept inducing this superiority is the non-convexity of the neural network models. Even though the loss landscape is highly non-convex, the student network adaptively learns the teacher neurons.
翻訳日:2022-05-31 14:06:41 公開日:2022-05-30
# 反逆バンド、S$-Switchレグレットにロバスト

Adversarial Bandits Robust to $S$-Switch Regret ( http://arxiv.org/abs/2205.14839v1 )

ライセンス: Link先を確認
Jung-hun Kim, Se-Young Yun(参考訳) 我々は、未知の$S$に対してベストアームを切り替える回数$S$で、敵の盗賊問題を研究する。 この問題に対処するために,オンラインミラー降下法(OMD)を用いたマスタベースフレームワークを採用する。 まず、基本omdを持つマスターベースアルゴリズムを提供し、$\tilde{o}(s^{1/2}k^{1/3}t^{2/3}) を得る。 損失推定器の分散を制御するために、OMDの適応学習率を用いて、損失推定器の分散を制御し、$\tilde{O}(\min\{\mathbb{E}[\sqrt{SKT\rho_T(h^\dagger)}],S\sqrt{KT}\})$($\rho_T(h^\dagger)$は損失推定器の分散項である。

We study the adversarial bandit problem under $S$ number of switching best arms for unknown $S$. For handling this problem, we adopt the master-base framework using the online mirror descent method (OMD). We first provide a master-base algorithm with basic OMD, achieving $\tilde{O}(S^{1/2}K^{1/3}T^{2/3})$. For improving the regret bound with respect to $T$, we propose to use adaptive learning rates for OMD to control variance of loss estimators, and achieve $\tilde{O}(\min\{\mathbb{E}[\sqrt{SKT\rho_T(h^\dagger)}],S\sqrt{KT}\})$, where $\rho_T(h^\dagger)$ is a variance term for loss estimators.
翻訳日:2022-05-31 14:06:21 公開日:2022-05-30
# 離散化モデルのための連続時間フレームワーク

A Continuous Time Framework for Discrete Denoising Models ( http://arxiv.org/abs/2205.14987v1 )

ライセンス: Link先を確認
Andrew Campbell, Joe Benton, Valentin De Bortoli, Tom Rainforth, George Deligiannidis, Arnaud Doucet(参考訳) 離散データの拡散モデルを記述するための最初の完全連続時間フレームワークを提供する。 これは、前方ノイズ発生過程と対応する逆時間生成過程を連続時間マルコフ連鎖(CTMC)として定式化する。 モデルはELBOの連続時間バージョンを用いて効率的に訓練することができる。 我々は化学物理学で開発された手法を用いて高次元CTMCをシミュレートし、我々の連続時間フレームワークを利用して、離散データに対して離散時間法より優れた性能を示すハイパフォーマンスサンプリングを導出する。 また、連続時間処理により、生成したサンプル分布と真のデータ分布との誤差を限定した新しい理論的結果を得ることもできる。

We provide the first complete continuous time framework for denoising diffusion models of discrete data. This is achieved by formulating the forward noising process and corresponding reverse time generative process as Continuous Time Markov Chains (CTMCs). The model can be efficiently trained using a continuous time version of the ELBO. We simulate the high dimensional CTMC using techniques developed in chemical physics and exploit our continuous time framework to derive high performance samplers that we show can outperform discrete time methods for discrete data. The continuous time treatment also enables us to derive a novel theoretical result bounding the error between the generated sample distribution and the true data distribution.
翻訳日:2022-05-31 14:06:02 公開日:2022-05-30
# 分布比較のためのヒルベルト曲線投影距離

Hilbert Curve Projection Distance for Distribution Comparison ( http://arxiv.org/abs/2205.15059v1 )

ライセンス: Link先を確認
Tao Li, Cheng Meng, Jun Yu, Hongteng Xu(参考訳) 分散比較は、データ分類や生成モデリングといった多くの機械学習タスクにおいて中心的な役割を果たす。 本研究では,Hilbert curve projection (HCP) distance と呼ばれる新しい測度を提案し,高ロバスト性および低複雑性の2つの確率分布間の距離を測定する。 特に、まずヒルベルト曲線を用いて2つの高次元確率密度を投影し、それらのカップリングを求め、カップリングに従って元の空間におけるこれらの2つの密度間の移動距離を計算する。 hcp距離は適切な計量であり、絶対連続確率測度に対して well-defined であることを示す。 さらに, 実験的な hcp 距離は, 正規性条件下では $o(n^{-1/2d})$ 以下でその個体群と収束することを示した。 次元の呪いを抑制するため、(学習可能な)部分空間射影を用いたhcp距離の2つの変種も開発する。 合成データと実世界のデータの両方で実験したところ、我々のHCP距離はワッサーシュタイン距離の効果的なサロゲートとして機能し、スライスされたワッサーシュタイン距離の欠点を克服している。

Distribution comparison plays a central role in many machine learning tasks like data classification and generative modeling. In this study, we propose a novel metric, called Hilbert curve projection (HCP) distance, to measure the distance between two probability distributions with high robustness and low complexity. In particular, we first project two high-dimensional probability densities using Hilbert curve to obtain a coupling between them, and then calculate the transport distance between these two densities in the original space, according to the coupling. We show that HCP distance is a proper metric and is well-defined for absolutely continuous probability measures. Furthermore, we demonstrate that the empirical HCP distance converges to its population counterpart at a rate of no more than $O(n^{-1/2d})$ under regularity conditions. To suppress the curse-of-dimensionality, we also develop two variants of the HCP distance using (learnable) subspace projections. Experiments on both synthetic and real-world data show that our HCP distance works as an effective surrogate of the Wasserstein distance with low complexity and overcomes the drawbacks of the sliced Wasserstein distance.
翻訳日:2022-05-31 14:05:51 公開日:2022-05-30
# (参考訳) 共形クレダル自己教師付き学習

Conformal Credal Self-Supervised Learning ( http://arxiv.org/abs/2205.15239v1 )

ライセンス: CC BY 4.0
Julian Lienen, Caglar Demir, Eyke H\"ullermeier(参考訳) 半教師付き学習では、自己学習のパラダイムは学習者自身が提案した擬似ラベルから学習する考え方を指す。 様々な分野において、対応する手法が有効であることが証明され、最先端のパフォーマンスが達成されている。 しかし、疑似ラベルは大抵、その妥当性を保証せずに予測の質に依存する、アドホックなヒューリスティックスに由来する。 そのような方法の1つ、いわゆるcredal self-supervised learningは、ラベル上の(単一の)確率分布の集合の形で擬似スーパービジョンを維持し、柔軟だが不確実性のあるラベリングを可能にする。 しかし、実証的有効性以上の正当性はない。 この欠陥に対処するために、設定値予測の有効性の保証を伴うアプローチである共形予測を利用する。 その結果、ラベルのクレーダルセットの構築は厳密な理論基盤によって支えられ、未ラベルデータに対するキャリブレーションが向上し、エラーの少ない監視が可能となった。 そこで本研究では,credal self-supervisionから学習するための効果的なアルゴリズムを提案する。 実証実験により,疑似スーパービジョンのキャリブレーション特性と,複数のベンチマークデータセットにおける本手法の競合性が示された。

In semi-supervised learning, the paradigm of self-training refers to the idea of learning from pseudo-labels suggested by the learner itself. Across various domains, corresponding methods have proven effective and achieve state-of-the-art performance. However, pseudo-labels typically stem from ad-hoc heuristics, relying on the quality of the predictions though without guaranteeing their validity. One such method, so-called credal self-supervised learning, maintains pseudo-supervision in the form of sets of (instead of single) probability distributions over labels, thereby allowing for a flexible yet uncertainty-aware labeling. Again, however, there is no justification beyond empirical effectiveness. To address this deficiency, we make use of conformal prediction, an approach that comes with guarantees on the validity of set-valued predictions. As a result, the construction of credal sets of labels is supported by a rigorous theoretical foundation, leading to better calibrated and less error-prone supervision for unlabeled data. Along with this, we present effective algorithms for learning from credal self-supervision. An empirical study demonstrates excellent calibration properties of the pseudo-supervision, as well as the competitiveness of our method on several benchmark datasets.
翻訳日:2022-05-31 14:04:24 公開日:2022-05-30
# FloodNet VQAのための効率的なモダンベースライン

An Efficient Modern Baseline for FloodNet VQA ( http://arxiv.org/abs/2205.15025v1 )

ライセンス: Link先を確認
Aditya Kane and Sahil Khose(参考訳) 災害管理や対応システムにおいて, 効率的で信頼性の高いVQAシステムの設計は依然として困難な問題である。 本研究では,現代画像とテキストの特徴抽象化モデルとの結合,付加,要素ワイド乗算といった基本的な組み合わせ法を再検討する。 我々は,FloodNetデータセットの既存手法より優れ,最先端の性能を実現する,シンプルで効率的なシステムを設計する。 この単純化されたシステムでは、現在のVQAアーキテクチャよりもトレーニングや推論時間が大幅に少なくなります。 また,様々なバックボーンの性能を調査し,その統合結果を報告する。 コードはhttps://github.com/sahilkhose/floodnet_vqaで入手できる。

Designing efficient and reliable VQA systems remains a challenging problem, more so in the case of disaster management and response systems. In this work, we revisit fundamental combination methods like concatenation, addition and element-wise multiplication with modern image and text feature abstraction models. We design a simple and efficient system which outperforms pre-existing methods on the FloodNet dataset and achieves state-of-the-art performance. This simplified system requires significantly less training and inference time than modern VQA architectures. We also study the performance of various backbones and report their consolidated results. Code is available at https://github.com/sahilkhose/floodnet_vqa.
翻訳日:2022-05-31 13:27:00 公開日:2022-05-30
# 確率的な隣人の埋め込みを秘密裏に行う「Contrastive Learning」

Your Contrastive Learning Is Secretly Doing Stochastic Neighbor Embedding ( http://arxiv.org/abs/2205.14814v1 )

ライセンス: Link先を確認
Tianyang Hu, Zhili Liu, Fengwei Zhou, Wenjia Wang, Weiran Huang(参考訳) コントラスト学習、特に自己監督型コントラスト学習(SSCL)は、ラベルのないデータから強力な特徴を抽出することに成功した。 本研究では,SSCLの理論的理解に寄与し,従来のデータ可視化手法であるStochastic Neighbor Embedding (SNE) との関係を明らかにする。 SNEの観点からは、SSCLは、データ拡張から構築された「正」ペアによって指定された入力空間の対距離を持つ特別なケースとみなすことができる。 確立された対応は、SSCLの学習的特徴のより深い理論的理解と実践的改善のための方法論的ガイドラインを促進する。 具体的には、SNEのレンズを通して、アライメントと均一性原理を再導することができるだけでなく、ドメインに依存しない拡張と暗黙のバイアスに関する新しい分析を提供する。 sneから$t$-sneへの変更はsscl設定でも適用可能であり,分布内および分布外一般化の両方において有意な改善が得られた。

Contrastive learning, especially Self-Supervised Contrastive Learning (SSCL), has achieved great success in extracting powerful features from unlabeled data, enabling comparable performance to the supervised counterpart. In this work, we contribute to the theoretical understanding of SSCL and uncover its connection to the classic data visualization method, Stochastic Neighbor Embedding (SNE). In the perspective of SNE, whose goal is matching pairwise distance, SSCL can be viewed as a special case with the input space pairwise distance specified by constructed "positive" pairs from data augmentation. The established correspondence facilitates deeper theoretical understandings of learned features of SSCL, as well as methodological guidelines for practical improvement. Specifically, through the lens of SNE, not only can we re-derive the alignment and uniformity principle, but also provide novel analysis on domain-agnostic augmentations and implicit bias. To illustrate the practical advantage, we demonstrate that the modifications from SNE to $t$-SNE can also be adopted in the SSCL setting, achieving significant improvement in both in-distribution and out-of-distribution generalization.
翻訳日:2022-05-31 13:23:49 公開日:2022-05-30
# reluネットワークのadversarial trainingがなぜ難しいのか?

Why Adversarial Training of ReLU Networks Is Difficult? ( http://arxiv.org/abs/2205.15130v1 )

ライセンス: Link先を確認
Xu Cheng, Hao Zhang, Yue Xin, Wen Shen, Jie Ren, Quanshi Zhang(参考訳) 本稿では,ReLUネットワーク上での対向摂動の解析解を数学的に導き,対向学習の難しさを理論的に説明する。 具体的には、多段階攻撃によって生じる逆摂動のダイナミクスを定式化し、その逆摂動が、入力の損失 w.r.t. のヘッセン行列のいくつかのトップランク固有値に対応する固有ベクトルを強化する傾向があることを示す。 また,逆行訓練は指数的手法で大きな勾配ノルムを持つ信頼できない入力サンプルの影響を強める傾向があることも証明した。 さらに, 対向トレーニングは, 損失w.r.t.ネットワークパラメータのヘッセン行列の影響を強くし, 対向トレーニングが少数のサンプルの方向に沿って振動しやすくし, 対向トレーニングの難易度を高める。 重要な点として,我々の証明は,敵の訓練を理解する上でのこれまでの知見の統一的な説明を提供する。

This paper mathematically derives an analytic solution of the adversarial perturbation on a ReLU network, and theoretically explains the difficulty of adversarial training. Specifically, we formulate the dynamics of the adversarial perturbation generated by the multi-step attack, which shows that the adversarial perturbation tends to strengthen eigenvectors corresponding to a few top-ranked eigenvalues of the Hessian matrix of the loss w.r.t. the input. We also prove that adversarial training tends to strengthen the influence of unconfident input samples with large gradient norms in an exponential manner. Besides, we find that adversarial training strengthens the influence of the Hessian matrix of the loss w.r.t. network parameters, which makes the adversarial training more likely to oscillate along directions of a few samples, and boosts the difficulty of adversarial training. Crucially, our proofs provide a unified explanation for previous findings in understanding adversarial training.
翻訳日:2022-05-31 13:23:30 公開日:2022-05-30
# バッチ正規化は損失の第1および第2導関数に盲目である

Batch Normalization Is Blind to the First and Second Derivatives of the Loss ( http://arxiv.org/abs/2205.15146v1 )

ライセンス: Link先を確認
Zhanpeng Zhou, Wen Shen, Huixin Chen, Ling Tang, Quanshi Zhang(参考訳) 本稿では,BN操作が損失の第1および第2誘導体のバックプロパゲーションに及ぼす影響を実証する。 損失関数のテイラー級数展開を行うとき、BN演算が損失の1次項の影響と2次項の最も大きな影響を阻害することを証明する。 また,この問題の原因はBN演算の標準化段階にあることも確認した。 実験の結果, BN演算は特定のタスクの特徴表現に大きく影響し, 異なるサンプルの損失が同様の解析式を共有することがわかった。

In this paper, we prove the effects of the BN operation on the back-propagation of the first and second derivatives of the loss. When we do the Taylor series expansion of the loss function, we prove that the BN operation will block the influence of the first-order term and most influence of the second-order term of the loss. We also find that such a problem is caused by the standardization phase of the BN operation. Experimental results have verified our theoretical conclusions, and we have found that the BN operation significantly affects feature representations in specific tasks, where losses of different samples share similar analytic formulas.
翻訳日:2022-05-31 13:23:11 公開日:2022-05-30
# 知識蒸留による高効率3次元物体検出

Towards Efficient 3D Object Detection with Knowledge Distillation ( http://arxiv.org/abs/2205.15156v1 )

ライセンス: Link先を確認
Jihan Yang, Shaoshuai Shi, Runyu Ding, Zhe Wang, Xiaojuan Qi(参考訳) 3Dオブジェクト検出の大幅な進歩にもかかわらず、先進的な3D検出器はしばしば計算オーバーヘッドに悩まされる。 そこで本研究では,高効率な3次元物体検出器を開発するための知識蒸留(KD)の可能性を探り,一般的な柱型・ボクセル型検出器に焦点をあてるとともに,モデル圧縮と入力分解能低減の観点から,精度と効率の両立した学生モデルを得る方法について検討する。 そこで我々は,教師と学生のペア6名を対象に,3次元物体検出のための2次元領域で開発された既存のkd手法を評価するベンチマークを構築した。 さらに,教師の分類応答によって決定される少数のピボット位置でのみKDを行う拡張ロジットKD手法と,教師が指導する学生モデルの初期化を取り入れた改良KDパイプラインを提案する。 最後に、Waymoデータセットに関する広範な実験を行う。 我々の最高のパフォーマンスモデルは、LEVEL 2 mAPH$65.75 %を達成し、教師モデルを超え、教師フロップの44 %しか必要としない。 最も効率的なモデルはnvidia a100で51fpsで、pointpillarよりもさらに高い精度で2.2\times$で動作します。 コードは利用可能だ。

Despite substantial progress in 3D object detection, advanced 3D detectors often suffer from heavy computation overheads. To this end, we explore the potential of knowledge distillation (KD) for developing efficient 3D object detectors, focusing on popular pillar- and voxel-based detectors.Without well-developed teacher-student pairs, we first study how to obtain student models with good trade offs between accuracy and efficiency from the perspectives of model compression and input resolution reduction. Then, we build a benchmark to assess existing KD methods developed in the 2D domain for 3D object detection upon six well-constructed teacher-student pairs. Further, we propose an improved KD pipeline incorporating an enhanced logit KD method that performs KD on only a few pivotal positions determined by teacher classification response, and a teacher-guided student model initialization to facilitate transferring teacher model's feature extraction ability to students through weight inheritance. Finally, we conduct extensive experiments on the Waymo dataset. Our best performing model achieves $65.75\%$ LEVEL 2 mAPH, surpassing its teacher model and requiring only $44\%$ of teacher flops. Our most efficient model runs 51 FPS on an NVIDIA A100, which is $2.2\times$ faster than PointPillar with even higher accuracy. Code will be available.
翻訳日:2022-05-31 13:23:01 公開日:2022-05-30
# ranksim: 深い不均衡回帰に対するランキング類似性の正規化

RankSim: Ranking Similarity Regularization for Deep Imbalanced Regression ( http://arxiv.org/abs/2205.15236v1 )

ライセンス: Link先を確認
Yu Gong, Greg Mori, Frederick Tung(参考訳) データ不均衡は、複数のデータサンプルが少数のラベルから来るものであり、ディープニューラルネットワークのトレーニングにおいて課題となる。 分類とは異なり、回帰ではラベルは連続的で、潜在的に無限であり、自然な順序を形成する。 回帰のこれらの特徴はラベル空間関係にエンコードされた追加情報を活用する新しい技術を呼び出す。 本稿では,ラベル空間に近いサンプルを特徴空間に近づけるべき帰納的バイアスを符号化した,深い不均衡回帰のためのランクシム正則化器を提案する。 RankSimは、最近の分散スムーズなアプローチとは対照的に、あるデータサンプルに対して、ラベル空間内の隣人のソートリストを特徴空間内の隣人のソートリストに合わせるように推奨する。 RankSimは、再重み付け、二段階トレーニング、分散平滑化を含む従来の不均衡学習手法を補完し、3つの不均衡回帰ベンチマーク(IMDB-WIKI-DIR、 AgeDB-DIR、STS-B-DIR)で最先端のパフォーマンスを上げる。

Data imbalance, in which a plurality of the data samples come from a small proportion of labels, poses a challenge in training deep neural networks. Unlike classification, in regression the labels are continuous, potentially boundless, and form a natural ordering. These distinct features of regression call for new techniques that leverage the additional information encoded in label-space relationships. This paper presents the RankSim (ranking similarity) regularizer for deep imbalanced regression, which encodes an inductive bias that samples that are closer in label space should also be closer in feature space. In contrast to recent distribution smoothing based approaches, RankSim captures both nearby and distant relationships: for a given data sample, RankSim encourages the sorted list of its neighbors in label space to match the sorted list of its neighbors in feature space. RankSim is complementary to conventional imbalanced learning techniques, including re-weighting, two-stage training, and distribution smoothing, and lifts the state-of-the-art performance on three imbalanced regression benchmarks: IMDB-WIKI-DIR, AgeDB-DIR, and STS-B-DIR.
翻訳日:2022-05-31 13:22:39 公開日:2022-05-30
# アーキテクチャではなくオプティマイザの再パラメータ

Re-parameterizing Your Optimizers rather than Architectures ( http://arxiv.org/abs/2205.15242v1 )

ライセンス: Link先を確認
Xiaohan Ding, Honghao Chen, Xiangyu Zhang, Kaiqi Huang, Jungong Han, Guiguang Ding(参考訳) ニューラルネットワークのよく設計された構造は、モデルに組み込まれた以前の知識を反映している。 しかし、異なるモデルには様々な先行性があるが、モデルに依存しない最適化(SGDなど)でそれらを訓練するのに慣れている。 本稿では,モデル固有の事前知識をオプティマイザに組み込んで,汎用的な(シンプルな)モデルを訓練する,新しいパラダイムを提案する。 実装として,勾配再パラメータ化と呼ばれるモデル固有ハイパーパラメータの集合に従って勾配を変更し,最適化器を再最適化器(repoptimizers)と呼ぶ新しい手法を提案する。 モデル構造を極端にシンプルにするために、VGGスタイルのプレーンモデルに注目し、RepOpt-VGGと呼ばれるRepOptimizerで訓練されたそのような単純なモデルが、最近設計されたモデルと同等に動作することを示す。 実用の観点からは、RepOpt-VGGは単純な構造、高い推論速度、訓練効率のために好適なベースモデルである。 余分なトレーニング時間構造を構築することによってモデルに事前を付加する構造的再パラメータ化と比較して、RepOptimizersは余分なフォワード/バックワード計算を必要とせず、量子化の問題を解決する。 コードとモデルはhttps://github.com/DingXiaoH/RepOptimizers.comで公開されている。

The well-designed structures in neural networks reflect the prior knowledge incorporated into the models. However, though different models have various priors, we are used to training them with model-agnostic optimizers (e.g., SGD). In this paper, we propose a novel paradigm of incorporating model-specific prior knowledge into optimizers and using them to train generic (simple) models. As an implementation, we propose a novel methodology to add prior knowledge by modifying the gradients according to a set of model-specific hyper-parameters, which is referred to as Gradient Re-parameterization, and the optimizers are named RepOptimizers. For the extreme simplicity of model structure, we focus on a VGG-style plain model and showcase that such a simple model trained with a RepOptimizer, which is referred to as RepOpt-VGG, performs on par with the recent well-designed models. From a practical perspective, RepOpt-VGG is a favorable base model because of its simple structure, high inference speed and training efficiency. Compared to Structural Re-parameterization, which adds priors into models via constructing extra training-time structures, RepOptimizers require no extra forward/backward computations and solve the problem of quantization. The code and models are publicly available at https://github.com/DingXiaoH/RepOptimizers.
翻訳日:2022-05-31 13:22:15 公開日:2022-05-30
# 視覚トランスフォーマーを用いた肺癌マルチラベル分類のためのゼロショット・マイノショット学習

Zero-Shot and Few-Shot Learning for Lung Cancer Multi-Label Classification using Vision Transformer ( http://arxiv.org/abs/2205.15290v1 )

ライセンス: Link先を確認
Fu-Ming Guo, Yingfang Fan(参考訳) 肺がんは世界中でがん関連死亡の原因となっている。 肺腺癌 (luad) と肺扁平上皮癌 (lusc) は, nsclcの最も一般的な組織型である。 病理組織学は肺癌の診断に必須のツールである。 病理学者は支配的なサブタイプに従って分類を行う。 形態学は依然として診断の標準であるが,診断の解明には重要なツールを開発する必要がある。 本研究では,前訓練型視覚トランスフォーマー(vit)モデルを用いて,複数ラベル肺癌の組織学的スライス(lc25000)をゼロショットと少数ショットの両方で分類した。 次に、Zero-ShotとFew-Shot ViTのパフォーマンスを精度、精度、リコール、感度、特異性について比較する。 本研究では,事前学習したViTモデルがゼロショット設定において優れた性能を示し,Fewショット設定({epoch = 1})における競合精度(99.87\%$)とFewショット表示({epoch = 5})における最適結果($100.00\%$)が得られた。

Lung cancer is the cancer leading cause of cancer-related death worldwide. Lung adenocarcinoma (LUAD) and lung squamous cell carcinoma (LUSC) are the most common histologic subtypes of NSCLC. Histology is an essential tool for lung cancer diagnosis. Pathologists make classifications according to the dominant subtypes. Although morphology remains the standard for diagnosis, significant tool needs to be developed to elucidate the diagnosis. In our study, we utilize the pre-trained Vision Transformer (ViT) model to classify multiple label lung cancer on histologic slices (from dataset LC25000), in both Zero-Shot and Few-Shot manners. Then we compare the performance of Zero-Shot and Few-Shot ViT on accuracy, precision, recall, sensitivity and specificity. Our study show that the pre-trained ViT model has a good performance in Zero-Shot setting, a competitive accuracy ($99.87\%$) in Few-Shot setting ({epoch = 1}) and an optimal result ($100.00\%$) in Few-Shot seeting ({epoch = 5}).
翻訳日:2022-05-31 13:21:52 公開日:2022-05-30
# (参考訳) FedFormer:強化学習への注意を伴うコンテキストフェデレーション

FedFormer: Contextual Federation with Attention in Reinforcement Learning ( http://arxiv.org/abs/2205.13697v2 )

ライセンス: CC BY 4.0
Liam Hebert, Lukasz Golab, Pascal Poupart, Robin Cohen(参考訳) 連合強化学習における中核的な問題は、複数のエージェントからの洞察をひとつに集約する方法を定義することである。 これは、各エージェントのモデル重量の平均を1つの共通モデル(fedavg)にすることで行われる。 そこで我々は,Transformer Attention を利用した新しいフェデレーション戦略であるFedFormerを提案する。 このようにして、我々は、現在のエージェントの環境および学習関係に関する他のエージェントの貢献を注意深く評価し、より効果的で効率的なフェデレーションを提供する。 我々はメタワールド環境における手法を評価し,fedavgおよび非フェデレートソフトアクタ批判シングルエージェント法に対して,そのアプローチが著しい改善をもたらすことを見出した。 我々の結果は、Soft Actor Critiqueと比較すると、FedFormerは、フェデレーション学習のプライバシー制約を守りながら、パフォーマンスが良くなっている。 さらに,特定のタスクにおけるエージェントプールの増加による効率のほぼ線形改善を示す。 これとは対照的に、FedAvgはスケール時に顕著な改善をしない。

A core issue in federated reinforcement learning is defining how to aggregate insights from multiple agents into one. This is commonly done by taking the average of each participating agent's model weights into one common model (FedAvg). We instead propose FedFormer, a novel federation strategy that utilizes Transformer Attention to contextually aggregate embeddings from models originating from different learner agents. In so doing, we attentively weigh contributions of other agents with respect to the current agent's environment and learned relationships, thus providing more effective and efficient federation. We evaluate our methods on the Meta-World environment and find that our approach yields significant improvements over FedAvg and non-federated Soft Actor Critique single agent methods. Our results compared to Soft Actor Critique show that FedFormer performs better while still abiding by the privacy constraints of federated learning. In addition, we demonstrate nearly linear improvements in effectiveness with increased agent pools in certain tasks. This is contrasted by FedAvg, which fails to make noticeable improvements when scaled.
翻訳日:2022-05-31 12:16:05 公開日:2022-05-30
# (参考訳) TraClets: 軌跡分類のためのコンピュータビジョンのパワーを損なう

TraClets: Harnessing the power of computer vision for trajectory classification ( http://arxiv.org/abs/2205.13880v2 )

ライセンス: CC BY 4.0
Ioannis Kontopoulos, Antonios Makris, Konstantinos Tserpes, Vania Bogorny(参考訳) 近年、新しいモバイルデバイスやトラッキングセンサーが登場し、大量のデータが毎日作成されている。 したがって、この広大な情報の海を潜り抜け、洞察と意味のある情報を生み出す新しい手法が現れる必要がある。 この目的のために、研究者は追跡データを注釈付けできる軌道分類アルゴリズムを何年もかけて開発してきた。 同様に、コンピュータビジョン技術を用いて、直観的な人間の方法で軌跡を分類するために、トラクレットと呼ばれる軌跡の画像表現を利用する新しい方法論が提示されている。 いくつかの実世界のデータセットを用いて提案手法を評価し、その分類性能を他の最先端軌跡分類アルゴリズムと比較する。 実験の結果, トラクレットは, トラジェクトリ分類の汎用的, 高精度な手法として, 最先端技術に匹敵する, あるいはほとんどの場合において, 分類性能を達成していることがわかった。

Due to the advent of new mobile devices and tracking sensors in recent years, huge amounts of data are being produced every day. Therefore, novel methodologies need to emerge that dive through this vast sea of information and generate insights and meaningful information. To this end, researchers have developed several trajectory classification algorithms over the years that are able to annotate tracking data. Similarly, in this research, a novel methodology is presented that exploits image representations of trajectories, called TraClets, in order to classify trajectories in an intuitive humans way, through computer vision techniques. Several real-world datasets are used to evaluate the proposed approach and compare its classification performance to other state-of-the-art trajectory classification algorithms. Experimental results demonstrate that TraClets achieves a classification performance that is comparable to, or in most cases, better than the state-of-the-art, acting as a universal, high-accuracy approach for trajectory classification.
翻訳日:2022-05-31 12:01:47 公開日:2022-05-30
# シャープネスアウェアフリートレーニング

Sharpness-Aware Training for Free ( http://arxiv.org/abs/2205.14083v2 )

ライセンス: Link先を確認
Jiawei Du, Daquan Zhou, Jiashi Feng, Vincent Y. F. Tan, Joey Tianyi Zhou(参考訳) 現代のディープニューラルネットワーク(DNN)は最先端のパフォーマンスを達成したが、通常は過パラメータ化されている。 オーバーパラメータ化は、他のカスタマイズされたトレーニング戦略がなければ、望ましくないほど大きな一般化誤差をもたらす可能性がある。 近年、シャープネス・アウェア最小化 (SAM) と呼ばれる研究のラインは、損失景観の幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。 しかし、SAMライクな手法は、シャープネス尺度を近似するために与えられたベースオプティマイザ(例えばSGD)の2倍の計算オーバーヘッドを発生させる。 本稿では,saf(sharpness-aware training for free)を提案する。これは,ベースオプティマイザよりも計算コストがほぼゼロのシャープランドスケープを緩和する。 直感的には、SAFは重量の更新の軌跡を通して急激な局所性ミニマの損失を回避してこれを達成している。 具体的には,DNNの出力と現在の重量と過去の重量とのKL偏差に基づく新しい軌道損失をSAMのシャープネス尺度の代替として提案する。 この損失は、モデルの更新軌道に沿ってトレーニング損失の変化率をキャプチャする。 最小化することで、SAFは一般化能力を改善した平坦な最小限の収束を保証する。 大規模な実験結果から、SAFはSAMと同様のシャープネスを最小化し、ベースオプティマイザと基本的に同じ計算コストでImageNetデータセット上でより良い結果が得られることが示された。

Modern deep neural networks (DNNs) have achieved state-of-the-art performances but are typically over-parameterized. The over-parameterization may result in undesirably large generalization error in the absence of other customized training strategies. Recently, a line of research under the name of Sharpness-Aware Minimization (SAM) has shown that minimizing a sharpness measure, which reflects the geometry of the loss landscape, can significantly reduce the generalization error. However, SAM-like methods incur a two-fold computational overhead of the given base optimizer (e.g. SGD) for approximating the sharpness measure. In this paper, we propose Sharpness-Aware Training for Free, or SAF, which mitigates the sharp landscape at almost zero additional computational cost over the base optimizer. Intuitively, SAF achieves this by avoiding sudden drops in the loss in the sharp local minima throughout the trajectory of the updates of the weights. Specifically, we suggest a novel trajectory loss, based on the KL-divergence between the outputs of DNNs with the current weights and past weights, as a replacement of the SAM's sharpness measure. This loss captures the rate of change of the training loss along the model's update trajectory. By minimizing it, SAF ensures the convergence to a flat minimum with improved generalization capabilities. Extensive empirical results show that SAF minimizes the sharpness in the same way that SAM does, yielding better results on the ImageNet dataset with essentially the same computational cost as the base optimizer.
翻訳日:2022-05-31 11:41:31 公開日:2022-05-30
# 原型ネットワークを用いたフェデレーション半教師付き学習

Federated Semi-Supervised Learning with Prototypical Networks ( http://arxiv.org/abs/2205.13921v2 )

ライセンス: Link先を確認
Woojung Kim, Keondo Park, Kihyuk Sohn, Raphael Shu, Hyung-Sin Kim(参考訳) エッジデバイスのコンピューティング能力の増大に伴い、プライバシーを気にせずにモデルトレーニングを可能にするフェデレーション学習(fl)が出現する。 既存の研究の大半は、データがクライアント側で完全にラベル付けされていると仮定している。 しかし実際には、ラベル付きデータの量は限られていることが多い。 近年,未ラベルデータを効果的に活用する手段として,フェデレーション付き半教師付き学習(FSSL)が研究されている。 本研究では,プロトタイプネットワークに基づく新しいFSSLアプローチであるProtoFSSLを提案する。 ProtoFSSLでは、クライアントが軽量プロトタイプを通じて相互に知識を共有することで、ローカルモデルのばらつきを防止する。 ラベルなしデータの損失を計算するため、各クライアントは共有プロトタイプに基づいて正確な擬似ラベルを作成する。 ラベル付きデータと合わせて、擬似ラベルはローカルプロトタイプのトレーニング信号を提供する。 ウェイトシェアリングに基づくFSSLアプローチと比較して、プロトタイプベースのクライアント間知識共有は通信コストと計算コストの両方を著しく削減し、より多くのクライアント間でより頻繁な知識共有を可能にする。 複数のデータセットにおいて、ProtoFSSLは、FixMatch、FedRGD、FedMatchといった知識共有のない最近のFSSLメソッドと比較して、より正確である。 SVHNデータセットでは、ProtoFSSLは完全に教師付きFLメソッドと互換性がある。

With the increasing computing power of edge devices, Federated Learning (FL) emerges to enable model training without privacy concerns. The majority of existing studies assume the data are fully labeled on the client side. In practice, however, the amount of labeled data is often limited. Recently, federated semi-supervised learning (FSSL) is explored as a way to effectively utilize unlabeled data during training. In this work, we propose ProtoFSSL, a novel FSSL approach based on prototypical networks. In ProtoFSSL, clients share knowledge with each other via lightweight prototypes, which prevents the local models from diverging. For computing loss on unlabeled data, each client creates accurate pseudo-labels based on shared prototypes. Jointly with labeled data, the pseudo-labels provide training signals for local prototypes. Compared to a FSSL approach based on weight sharing, the prototype-based inter-client knowledge sharing significantly reduces both communication and computation costs, enabling more frequent knowledge sharing between more clients for better accuracy. In multiple datasets, ProtoFSSL results in higher accuracy compared to the recent FSSL methods with and without knowledge sharing, such as FixMatch, FedRGD, and FedMatch. On SVHN dataset, ProtoFSSL performs comparably to fully supervised FL methods.
翻訳日:2022-05-31 11:41:06 公開日:2022-05-30
# 推薦の公平性:調査

Fairness in Recommendation: A Survey ( http://arxiv.org/abs/2205.13619v2 )

ライセンス: Link先を確認
Yunqi Li, Hanxiong Chen, Shuyuan Xu, Yingqiang Ge, Juntao Tan, Shuchang Liu, Yongfeng Zhang(参考訳) 機械学習の最も普及している応用の1つとして、推奨システムは人間の意思決定を支援する上で重要な役割を果たす。 ユーザの満足度とプラットフォームの関心度は,生成した推奨結果の品質と密接に関連している。 しかし、高度にデータ駆動のシステムとして、レコメンダシステムはデータやアルゴリズムのバイアスの影響を受け、不公平な結果をもたらし、システムへの依存を弱める可能性がある。 その結果、推薦設定における潜在的不公平問題に対処することが重要である。 近年,レコメンデーションシステムにおける公平性への配慮が注目され,レコメンデーションの公平性を促進するためのアプローチに関する文献が増えている。 しかし、研究はむしろ断片化されており、体系的な組織を欠いているため、新たな研究者をドメインに侵入することは困難である。 これにより、既存のフェアネスに関するレコメンデーションに関する調査を体系的に実施する動機付けとなります。 本調査は、推薦文学における公正性の基盤に焦点を当てる。 まず、公平性研究の概観を提供するため、分類やランク付けといった基本的な機械学習タスクにおける公平性に関する簡単な紹介と、レコメンダシステムにおける公平性を研究する際に考慮すべきより複雑な状況と課題を紹介する。 その後、現在のフェアネス定義の分類法、フェアネス改善のための典型的な手法、そして、レコメンデーションにおけるフェアネス研究のためのデータセットに焦点を当てて、レコメンデーションにフェアネスを導入する。 また、フェアネス研究の課題と機会についても述べ、フェアリコメンデーション研究分野の推進などを目指している。

As one of the most pervasive applications of machine learning, recommender systems are playing an important role on assisting human decision making. The satisfaction of users and the interests of platforms are closely related to the quality of the generated recommendation results. However, as a highly data-driven system, recommender system could be affected by data or algorithmic bias and thus generate unfair results, which could weaken the reliance of the systems. As a result, it is crucial to address the potential unfairness problems in recommendation settings. Recently, there has been growing attention on fairness considerations in recommender systems with more and more literature on approaches to promote fairness in recommendation. However, the studies are rather fragmented and lack a systematic organization, thus making it difficult to penetrate for new researchers to the domain. This motivates us to provide a systematic survey of existing works on fairness in recommendation. This survey focuses on the foundations for fairness in recommendation literature. It first presents a brief introduction about fairness in basic machine learning tasks such as classification and ranking in order to provide a general overview of fairness research, as well as introduce the more complex situations and challenges that need to be considered when studying fairness in recommender systems. After that, the survey will introduce fairness in recommendation with a focus on the taxonomies of current fairness definitions, the typical techniques for improving fairness, as well as the datasets for fairness studies in recommendation. The survey also talks about the challenges and opportunities in fairness research with the hope of promoting the fair recommendation research area and beyond.
翻訳日:2022-05-31 11:40:30 公開日:2022-05-30
# CA-UDA: 最適アサインメントと擬似ラベルリファインメントによる教師なしドメイン適応

CA-UDA: Class-Aware Unsupervised Domain Adaptation with Optimal Assignment and Pseudo-Label Refinement ( http://arxiv.org/abs/2205.13579v2 )

ライセンス: Link先を確認
Can Zhang, Gim Hee Lee(参考訳) 教師なしドメイン適応(UDA)に関する最近の研究は、対象データ中の不足ラベルのサロゲートとして優れた擬似ラベルの選択に焦点を当てている。 しかし、ソースとターゲットドメインの共有ネットワークが典型的には擬似ラベル選択に使用されるため、擬似ラベルを劣化させるソースドメインバイアスは依然として存在する。 準最適特徴空間のソースからターゲットへのドメインアライメントもまた、不十分なパフォーマンスをもたらす可能性がある。 本稿では, 擬似ラベルの品質向上のためのCA-UDAを提案し, 最適課題, 擬似ラベル改善戦略, クラス対応ドメインアライメントを提案する。 我々は疑似ラベル改良のためのソース領域バイアスを軽減するために補助ネットワークを用いる。 私たちの直感は、ターゲットドメインの根底にあるセマンティクスが、ドメインシフト中のソース機能から推測される擬似ラベルを洗練するのに役立ちます。 さらに、最適な割り当ては、ソース・ツー・ターゲットドメインの機能を最適に調整でき、クラス・アウェアなドメインアライメントは、分類決定境界を維持しながら、同時にドメイン間隙を閉じることができる。 いくつかのベンチマークデータセットの大規模な実験により,画像分類タスクにおいて,我々の手法が最先端の性能を達成できることが示されている。

Recent works on unsupervised domain adaptation (UDA) focus on the selection of good pseudo-labels as surrogates for the missing labels in the target data. However, source domain bias that deteriorates the pseudo-labels can still exist since the shared network of the source and target domains are typically used for the pseudo-label selections. The suboptimal feature space source-to-target domain alignment can also result in unsatisfactory performance. In this paper, we propose CA-UDA to improve the quality of the pseudo-labels and UDA results with optimal assignment, a pseudo-label refinement strategy and class-aware domain alignment. We use an auxiliary network to mitigate the source domain bias for pseudo-label refinement. Our intuition is that the underlying semantics in the target domain can be fully exploited to help refine the pseudo-labels that are inferred from the source features under domain shift. Furthermore, our optimal assignment can optimally align features in the source-to-target domains and our class-aware domain alignment can simultaneously close the domain gap while preserving the classification decision boundaries. Extensive experiments on several benchmark datasets show that our method can achieve state-of-the-art performance in the image classification task.
翻訳日:2022-05-31 11:40:05 公開日:2022-05-30
# 確率変換器サロゲートを用いたサンプル効率最適化

Sample-Efficient Optimisation with Probabilistic Transformer Surrogates ( http://arxiv.org/abs/2205.13902v2 )

ライセンス: Link先を確認
Alexandre Maraval, Matthieu Zimmer, Antoine Grosnit, Rasul Tutunov, Jun Wang, Haitham Bou Ammar(参考訳) 複雑性の増大に直面した最近のベイズ最適化(BO)の研究は、ガウス過程(GP)の柔軟な代替品として深い確率モデルを適応することに焦点を当てている。 そこで本研究では,BOにおける最先端確率変換器の適用可能性について検討する。 さらに,トレーニング手順と損失定義から生じる2つの欠点を観察し,ブラックボックス最適化のプロキシとして直接展開することを妨げた。 まず、これらのモデルが均一に分散した入力に基づいてトレーニングされていることに気付き、これは非一様データ - 探索と探索のトレードオフに起因する典型的なboループから生じる設定 - の予測精度を損なう。 第2に、トレーニング損失(例えば、クロスエントロピー)は、一般的に保証できないグローバルな最適点に到着した後、正確に後部近似を漸近的に保証することのみに気づく。 しかし、損失関数の定常点において、特に入力空間の探索領域における予測性能の劣化を観察する。 これらの欠点に対処するために2つのコンポーネントを紹介します。 1)一様でない分散点を支持する前のBO調整訓練 2) 予測性能を向上させるため, 最適定常点をフィルタする新規な後続正則トレードオフ精度と入力感度について検討した。 実験の大規模なパネルでは、ランダムなGP先行データから事前学習した1つのトランスフォーマーが、GPベースBOと比較して16個のベンチマークブラックボックス上で競合する結果が得られることを示した。 我々のモデルは1回だけ事前訓練され、リトレーニングや微調整をせずに全てのタスクで使用されるので、GPのマッチングや性能を向上しながら、桁違いの時間短縮を報告します。

Faced with problems of increasing complexity, recent research in Bayesian Optimisation (BO) has focused on adapting deep probabilistic models as flexible alternatives to Gaussian Processes (GPs). In a similar vein, this paper investigates the feasibility of employing state-of-the-art probabilistic transformers in BO. Upon further investigation, we observe two drawbacks stemming from their training procedure and loss definition, hindering their direct deployment as proxies in black-box optimisation. First, we notice that these models are trained on uniformly distributed inputs, which impairs predictive accuracy on non-uniform data - a setting arising from any typical BO loop due to exploration-exploitation trade-offs. Second, we realise that training losses (e.g., cross-entropy) only asymptotically guarantee accurate posterior approximations, i.e., after arriving at the global optimum, which generally cannot be ensured. At the stationary points of the loss function, however, we observe a degradation in predictive performance especially in exploratory regions of the input space. To tackle these shortcomings we introduce two components: 1) a BO-tailored training prior supporting non-uniformly distributed points, and 2) a novel approximate posterior regulariser trading-off accuracy and input sensitivity to filter favourable stationary points for improved predictive performance. In a large panel of experiments, we demonstrate, for the first time, that one transformer pre-trained on data sampled from random GP priors produces competitive results on 16 benchmark black-boxes compared to GP-based BO. Since our model is only pre-trained once and used in all tasks without any retraining and/or fine-tuning, we report an order of magnitude time-reduction, while matching and sometimes outperforming GPs.
翻訳日:2022-05-31 11:39:45 公開日:2022-05-30
# OpenCalib: 自動運転のためのマルチセンサキャリブレーションツールボックス

OpenCalib: A Multi-sensor Calibration Toolbox for Autonomous Driving ( http://arxiv.org/abs/2205.14087v2 )

ライセンス: Link先を確認
Guohang Yan, Liu Zhuochun, Chengjie Wang, Chunlei Shi, Pengjin Wei, Xinyu Cai, Tao Ma, Zhizheng Liu, Zebin Zhong, Yuqian Liu, Ming Zhao, Zheng Ma, Yikang Li(参考訳) 正確なセンサーキャリブレーションは、自動運転車のマルチセンサー認識およびローカライゼーションシステムに必須である。 センサの内在パラメータキャリブレーションはセンサ内部のマッピング関係を得るためのものであり、外在パラメータキャリブレーションは2つ以上のセンサを統一された空間座標系に変換するためのものである。 ほとんどのセンサーは、センサー測定の精度を確保するために設置後に調整する必要がある。 この目的のために,様々なセンサキャリブレーション手法の豊富なセットを含む校正ツールボックスOpenCalibを提案する。 OpenCalibは、手動キャリブレーションツール、自動キャリブレーションツール、ファクトリキャリブレーションツール、さまざまなアプリケーションシナリオ用のオンラインキャリブレーションツールをカバーしている。 同時に,キャリブレーション精度を評価し,キャリブレーションアルゴリズムの精度を向上させるため,対応するベンチマークデータセットを作成した。 本稿では,このツールボックスの特徴とキャリブレーション方法を紹介する。 私たちの知る限り、この領域における自動運転関連のキャリブレーションアプローチの完全なセットを含む、初めてのオープンソースのキャリブレーションコードベースです。 このツールボックスが、自動運転研究者に役立つことを願っています。 コミュニティに利益をもたらすため、GitHubでコードをオープンソースにしています。 コードはhttps://github.com/PJLab-ADG/SensorsCalibration.comで入手できる。

Accurate sensor calibration is a prerequisite for multi-sensor perception and localization systems for autonomous vehicles. The intrinsic parameter calibration of the sensor is to obtain the mapping relationship inside the sensor, and the extrinsic parameter calibration is to transform two or more sensors into a unified spatial coordinate system. Most sensors need to be calibrated after installation to ensure the accuracy of sensor measurements. To this end, we present OpenCalib, a calibration toolbox that contains a rich set of various sensor calibration methods. OpenCalib covers manual calibration tools, automatic calibration tools, factory calibration tools, and online calibration tools for different application scenarios. At the same time, to evaluate the calibration accuracy and subsequently improve the accuracy of the calibration algorithm, we released a corresponding benchmark dataset. This paper introduces various features and calibration methods of this toolbox. To our knowledge, this is the first open-sourced calibration codebase containing the full set of autonomous-driving-related calibration approaches in this area. We wish that the toolbox could be helpful to autonomous driving researchers. We have open-sourced our code on GitHub to benefit the community. Code is available at https://github.com/PJLab-ADG/SensorsCalibration.
翻訳日:2022-05-31 11:39:15 公開日:2022-05-30