このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220424となっている論文です。

PDF登録状況(公開日: 20220424)

TitleAuthorsAbstract論文公表日・翻訳日
# 第二量子化形式主義のよりアドホックな導出について

Note on a less ad hoc derivation of the second quantization formalism ( http://arxiv.org/abs/2102.00706v3 )

ライセンス: Link先を確認
Ning Wu(参考訳) 第2量子化は、大学院・大学院の量子力学コースにおいて重要なトピックである。 しかし、この形式主義の透明性と自然性の欠如は、現存するほとんどの教科書の第一量子化から生じているようである。 単純な調和振動子の概念を導入せず、同じフェルミオンの集合を例に取ることなく、完全反対称多フェルミオン状態とフォック状態の同値性に基づく第二量子化形式主義のアドホックな導出を提供する。

Second quantization is an essential topic in senior undergraduate and postgraduate level Quantum Mechanics course. However, it seems that there is a lack of transparent and natural derivation of this formalism from the first-quantization one in most existing textbooks. Without introducing the concept of a simple harmonic oscillator and taking the case of an assembly of identical fermions as an example, we provide a less ad hoc derivation of the second quantization formalism based on the equivalence of the fully antisymmetric many-fermion states and the Fock states.
翻訳日:2023-04-13 03:14:33 公開日:2022-04-24
# 2プレイヤー量子ゲーム:プレイヤー戦略が方向選択による場合

Two-player quantum games: When player strategies are via directional choices ( http://arxiv.org/abs/2107.01256v4 )

ライセンス: Link先を確認
Azhar Iqbal and Derek Abbott(参考訳) 本研究では,EPR型実験に基づく量子ゲームのスキームを提案し,各プレイヤーの空間方向選択を戦略として検討する。 古典的な混合戦略ゲームは、プレイヤーの選択を特定の空間的軌道に制限することで回復される。 ベル-CHSHの不等式に違反するプレイヤーの方向選択に対して、量子ゲームにおけるプレイヤーの支払いは、古典的な混合戦略ゲーム内にマッピングされていないことを示す。 このスキームは古典ゲームと量子ゲームの間のより直接的なリンクを提供する。

We propose a scheme for a quantum game based on performing an EPR type experiment and in which each player's spatial directional choices are considered as their strategies. A classical mixed-strategy game is recovered by restricting the players' choices to specific spatial trajectories. We show that for players' directional choices for which the Bell-CHSH inequality is violated, the players' payoffs in the quantum game have no mapping within the classical mixed-strategy game. The scheme provides a more direct link between classical and quantum games.
翻訳日:2023-03-23 18:24:23 公開日:2022-04-24
# 量子自己テストのための運用環境

An Operational Environment for Quantum Self-Testing ( http://arxiv.org/abs/2108.06254v3 )

ライセンス: Link先を確認
Matthias Christandl, Nicholas Gauguin Houghton-Larsen and Laura Mancinska(参考訳) 観測された量子相関は、ある場合において基礎となる量子状態と測定を決定することが知られている。 この現象は(量子)自己テストとして知られている。 自己検査は、量子情報理論の実践的および理論的分岐を伴う重要な研究領域である。 しかし、マイヤーズとヤオによって20年前に概念化されて以来、厳密に自己検査を定式化する一般的な方法は、演算子代数的アイデンティティであり、この定式化は操作的解釈を欠いている。 特に、他の物理理論、作用素代数に言及しない量子理論の定式化、あるいは標準理論と因果的に異なるシナリオにおいて、どのように自己検査を定式化するかは不明である。 本稿では,相関を符号化する入力出力チャネルの因果構造拡張の観点から,量子自己テストの運用的理解について述べる。 これらのダイレーションは,特定のスケジュールに従って環境に漏出する副作用をモデル化し,これらの情報漏洩の相対的強度を自己検査がいかに懸念しているかを示す。 このように、私たちの論文のタイトルは二重の意味を持つ: 従来の量子自己検査を、情報リークの観点から環境に再放送し、一般的な運用フレームワークの周囲で特別なケースとして量子自己検査を実現する。 量子自己テストに対する新しいアプローチは、様々な一般化のための操作的理解力を提供するだけでなく、既存の定義の説明できないいくつかの側面を解決し、ロバストな自己テストに適した距離測度を自然に提案し、より大きな暗号の観点からモジュラー概念としての自己テストを指摘する。

Observed quantum correlations are known to determine in certain cases the underlying quantum state and measurements. This phenomenon is known as (quantum) self-testing. Self-testing constitutes a significant research area with practical and theoretical ramifications for quantum information theory. But since its conception two decades ago by Mayers and Yao, the common way to rigorously formulate self-testing has been in terms of operator-algebraic identities, and this formulation lacks an operational interpretation. In particular, it is unclear how to formulate self-testing in other physical theories, in formulations of quantum theory not referring to operator-algebra, or in scenarios causally different from the standard one. In this paper, we explain how to understand quantum self-testing operationally, in terms of causally structured dilations of the input-output channel encoding the correlations. These dilations model side-information which leaks to an environment according to a specific schedule, and we show how self-testing concerns the relative strength between such scheduled leaks of information. As such, the title of our paper has double meaning: we recast conventional quantum self-testing in terms of information-leaks to an environment -- and this realises quantum self-testing as a special case within the surroundings of a general operational framework. Our new approach to quantum self-testing not only supplies an operational understanding apt for various generalisations, but also resolves some unexplained aspects of the existing definition, naturally suggests a distance measure suitable for robust self-testing, and points towards self-testing as a modular concept in a larger, cryptographic perspective.
翻訳日:2023-03-18 14:57:30 公開日:2022-04-24
# n-レベルチャーン数と一般化ブロッホ超球面のネスト球面記述

Nested-sphere description of the N-level Chern number and the generalized Bloch hypersphere ( http://arxiv.org/abs/2110.06934v2 )

ライセンス: Link先を確認
Cameron J.D. Kemp, Nigel R. Cooper, F. Nur \"Unal(参考訳) ブロッホ球面上の(pseudo)スピン1/2系の幾何学的解釈は、凝縮物から量子情報、高エネルギー物理学まで様々な領域で評価されている。 より大きなヒルベルト空間に対する同様の概念は数学において確立されているが、凝縮体の設定における実用的利用のための二段階の場合や、完全なヒルベルト空間内の部分多様体に対する制限などよりはるかに少ない。 ここではコヒーレンスベクトル記述を用いて、基礎となる SU(N) 代数の構造を尊重し、位相概念のための物理的直感的な幾何学的図形を構築することにより、高次元一般化されたブロッホ球面上の一般Nレベルシステムを理論的に特徴づける。 2次元空間に着目し, n-1-球面からなるネスト構造の観点から, より大きなヒルベルト空間におけるチャーン数の幾何学的解釈を明らかにした。 我々は、Nレベルの場合、特にチャーン数を決定する上で主要な役割を果たすことによって、システムの有用な特性を提供する外部2次元球が存在することを示した。 外部球面は、確立されたバンドマッピング技術により、超低温原子で直接測定することができ、状態の位相的性質に関する知識を与える。 また, 一般化ブロッホ超球面上で定義されたコヒーレンスベクトルの時間発展を, 実験における全状態ベクトルの抽出に利用し, 3レベル系に対するクエンチを含むトモグラフィスキームの開発を可能にした。 我々の幾何学的記述は、トポロジカル分類の解釈とマルチレベルシステムの力学的な説明のための新しい道を開き、新しい実験プローブの設計に役立てることが期待されている。

The geometric interpretation of (pseudo)spin 1/2 systems on the Bloch sphere has been appreciated across different areas ranging from condensed matter to quantum information and high energy physics. Although similar notions for larger Hilbert spaces are established in mathematics, they have been so far less explored beyond the two-level case for practical usage in condensed matter settings, or have involved restrictions to sub manifolds within the full Hilbert space. We here employ a coherence vector description to theoretically characterize a general N-level system on the higher dimensional generalized Bloch (hyper)sphere by respecting the structure of the underlying SU(N) algebra and construct physically intuitive geometric pictures for topological concepts. Focusing on two spatial dimensions, we reveal a geometric interpretation for the Chern number in larger Hilbert spaces in terms of a nested structure comprising N-1 two-spheres. We demonstrate that for the N-level case, there is an exterior two-sphere that provides a useful characterization of the system, notably by playing a primary role in determining the Chern number. The external sphere can be directly measured in ultracold atoms via well-established band mapping techniques, thereby imparting knowledge of the topological nature of state. We also investigate how the time evolution of the coherence vector defined on the generalized Bloch hypersphere can be utilized to extract the full state vector in experiments, allowing us to develop a tomography scheme involving quenches for three-level systems. Our geometric description opens up a new avenue for the interpretation of the topological classification and the dynamical illustration of multi-level systems, which in turn is anticipated to help in the design of new experimental probes.
翻訳日:2023-03-11 14:24:14 公開日:2022-04-24
# NISQ時代の強い時間依存性摂動による多状態遷移ダイナミクス

Multistate Transition Dynamics by Strong Time-Dependent Perturbation in NISQ era ( http://arxiv.org/abs/2112.06365v3 )

ライセンス: Link先を確認
Yulun Wang and Predrag S. Krstic(参考訳) 本研究では,マクラクラン変分原理を用いた量子計算法をハイブリッド量子古典アルゴリズムで開発し,多くの励起状態を持つ閉量子系の遷移ダイナミクスを時間依存摂動に正確に計算する。 単一Nビット符号化による一般N状態アンサッツの最適構築のための体系的アプローチを洗練する。 また,mclachlan変分量子アルゴリズムにおける量子ビットの効率的な符号化を用いて,量子ビット数をlog2nに削減し,量子回路の深さを減少させる。 第2次マーチング法を用いて,時間ステップ数の大幅な削減を実現する。 高精度を得るための機器は、時間依存のグローバル位相補正を含む回路の適応である。 我々は、強いレーザーアト秒パルスにさらされた16個の結合水素固有状態に対して量子コンピューティングアルゴリズムを例証し、テストし、最適化した。 ベンチマークデータと比較すると, 遷移確率は1%以下の精度で得られた。 ハミルトニアンの相互作用表現の使用は、量子系が時間的に進化する間、NISQノイズとサンプリングエラーの蓄積の効果を減少させる。

We develop a quantum computing scheme utilizing McLachlan variational principle in a hybrid quantum-classical algorithm to accurately calculate the transition dynamics of a closed quantum system with many excited states subject to a strong time-dependent perturbation. A systematic approach for optimal construction of a general N-state ansatz with unary N-qubit encoding is refined. We also utilize qubit efficient encoding in McLachlan variational quantum algorithm to reduce the number of qubits to log2 N, simultaneously diminishing depths of the quantum circuits. The significant reduction of the number of time steps is achieved by use of the second order marching method. Instrumental in obtaining high accuracy are adaptations of the circuits to include time-dependent global phase correction. We illustrated, tested and optimized our quantum computing algorithm on a set of 16 bound hydrogenic eigenstates exposed to a strong laser attosecond pulse. Results for transition probabilities are obtained with accuracy better than 1%, as established by comparison to the benchmark data. Use of interaction representation of the Hamiltonian reduces the effect of both NISQ noise and sampling errors accumulation while the quantum system evolves in time.
翻訳日:2023-03-04 16:56:14 公開日:2022-04-24
# 量子近似最適化アルゴリズムのショートカット

Shortcuts to Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2112.10943v3 )

ライセンス: Link先を確認
Yahui Chai, Yong-Jian Han, Yu-Chun Wu, Ye Li, Menghan Dou, Guo-Ping Guo(参考訳) 量子近似最適化アルゴリズム (quantum approximation optimization algorithm,qaoa) は、対象ハミルトニアンの基底状態を求める量子古典ハイブリッドアルゴリズムである。 理論的には、量子回路が十分に深い場合、QAOAは近似解を得ることができる。 実際、QAOAの性能は、短期デバイスがノイズフリーではなく、量子回路が増加するにつれてノイズによる誤差が蓄積されるため、量子回路が深い場合、実質的に低下する。 量子回路の深さを低減するために、S-QAOAは2体相互作用を多く含みパラメータ自由を解放することで、ターゲットハミルトン状態へのショートカットを提供する「ショートカット・トゥ・QAOA」(S-QAOA)と呼ばれる新しいアンサッツを提案する。 具体的には、QAOAアンサッツにおける既存のZZ相互作用に加えて、S-QAOAアンサッツに他の2体相互作用を導入し、回路深さを小さくすることで近似解を得ることができる。 MaxCut問題とSherrington-Kirkpatrick(SK)モデルを考えると、YY相互作用が最高の性能を示す。 この原因はYY相互作用によって生じる反断熱効果から生じる可能性がある。 さらに,2体相互作用のパラメータの自由を解放し,そのパラメータが必ずしも完全に同一でなくてもよいことを示すとともに,数値的な結果から,成功率の向上によりパラメータ自由度が増大する余分なコストを支払う価値が示された。

The Quantum Approximate Optimization Algorithm (QAOA) is a quantum-classical hybrid algorithm intending to find the ground state of a target Hamiltonian. Theoretically, QAOA can obtain the approximate solution if the quantum circuit is deep enough. Actually, the performance of QAOA decreases practically if the quantum circuit is deep since near-term devices are not noise-free and the errors caused by noise accumulate as the quantum circuit increases. In order to reduce the depth of quantum circuits, we propose a new ansatz dubbed as "Shortcuts to QAOA" (S-QAOA), S-QAOA provides shortcuts to the ground state of target Hamiltonian by including more two-body interactions and releasing the parameter freedoms. To be specific, besides the existing ZZ interaction in the QAOA ansatz, other two-body interactions are introduced in the S-QAOA ansatz such that the approximate solutions could be obtained with smaller circuit depth. Considering the MaxCut problem and Sherrington-Kirkpatrick (SK) model, numerically computation shows the YY interaction has the best performance. The reason for this might arise from the counterdiabatic effect generated by YY interaction. On top of this, we release the freedom of parameters of two-body interactions, which a priori do not necessarily have to be fully identical, and numerical results show that it is worth paying the extra cost of having more parameter freedom since one has a greater improvement on success rate.
翻訳日:2023-03-03 22:54:59 公開日:2022-04-24
# Kohn-Luttinger非収束問題の一般解

General solution to the Kohn-Luttinger nonconvergence problem ( http://arxiv.org/abs/2201.04839v3 )

ライセンス: Link先を確認
So Hirata(参考訳) コーン・ラッティンガー問題、すなわち、温度がゼロである場合の有限温度の多体摂動理論の非収束を、ある条件下ではゼロに下げる、という単純な、しかし一般的な解が提案されている。 摂動理論の5階までを用いて、基準波動関数を変更することによって、この非収束をいかに回避できるかを数値的に示す。

A simple, but general solution is proposed for the Kohn-Luttinger problem, i.e., the nonconvergence of the finite-temperature many-body perturbation theory with its zero-temperature counterpart as temperature is lowered to zero under some circumstances. How this nonconvergence can be avoided by altering the reference wave function is illustrated numerically by using up to the fifth order of the perturbation theory.
翻訳日:2023-03-01 06:44:27 公開日:2022-04-24
# 自律プロセス実行管理(APEM)の6つのレベル

Six Levels of Autonomous Process Execution Management (APEM) ( http://arxiv.org/abs/2204.11328v1 )

ライセンス: Link先を確認
Wil van der Aalst(参考訳) dto(digital twin of a organization)やha(hyperautomation)といった用語は、自動運転車を目標とするように、プロセスを自律的に管理し、オーケストレーションしたいという願望を示しています。 自動運転と自律プロセス実行管理(apem:autonomous process execution management)は、目標が極めて単純で、毎年進行している、という共通点があるが、完全自律運転と完全自律プロセス実行は現実というよりは夢である。 車について、SAE(Society of Automotive Engineers)は、運転自動化(SAE、レベル0)から全運転自動化(SAE、レベル5)までの6つのレベル(0-5)を特定した。 この記事では、APEM(Autonomous Process Execution Management)の6つのレベルを定義します。 目標は、自動運転車のように、あるレベルから次のレベルへの移行が徐々に進むことを示すことだ。

Terms such as the Digital Twin of an Organization (DTO) and Hyperautomation (HA) illustrate the desire to autonomously manage and orchestrate processes, just like we aim for autonomously driving cars. Autonomous driving and Autonomous Process Execution Management (APEM) have in common that the goals are pretty straightforward and that each year progress is made, but fully autonomous driving and fully autonomous process execution are more a dream than a reality. For cars, the Society of Automotive Engineers (SAE) identified six levels (0-5), ranging from no driving automation (SAE, Level 0) to full driving automation (SAE, Level 5). This short article defines six levels of Autonomous Process Execution Management (APEM). The goal is to show that the transition from one level to the next will be gradual, just like for self-driving cars.
翻訳日:2023-02-19 16:26:38 公開日:2022-04-24
# 有限熱浴モデルによる環境を考慮したスピン計測のシミュレーション

Simulating spin measurement with a finite heat bath model for the environment ( http://arxiv.org/abs/2204.11163v1 )

ライセンス: Link先を確認
Thomas Dittrich, \'Oscar Rodr\'i guez, Carlos Viviescas(参考訳) スピン測定は、メーターと装置を表す環境と結合したスピンのユニタリな時間発展として研究される。 環境を有限個のボソンモードのみからなる熱浴としてモデル化し、コヒーレント状態の基底として表現すると、ダヴィドフ・アンサッツ(davydov ansatz)に従って、全系の量子時間発展に完全に含めることができる。 偏極の射影的測定の数値シミュレーションを行い、スピンは最初、中立な純粋な状態で準備された。 同様に、環境の純粋な初期状態は、位相空間の原点の周りの中心のランダムな分布を持つボソンモードのコヒーレント状態の積として構成される。 スピンの自己エネルギーと熱浴への結合を時間依存変調によって切り替えることにより、スピンの長時間挙動の観点から測定結果を観察した。 熱浴と相互作用すると、スピンは熱と絡み合ってコヒーレンスを失い、「波動関数の収束」を再現する。 最終的な状態における期待量子ランダム性は、スピンが測定されたスピン作用素の2つの固有状態のいずれかに接近し、ほぼ純粋な状態を回復する傾向として、シミュレーションで示される。 一元的時間進化により、これらのランダムな最終状態を環境の初期状態と再現的に関連付け、それらの純度と相互エントロピーの観点から2つのサブシステム間の情報の交換を監視することができる。

Spin measurement is studied as a unitary time evolution of the spin coupled to an environment representing the meter and the apparatus. Modelling the environment as a heat bath comprising only a finite number of boson modes and represented in a basis of coherent states, following the Davydov ansatz, it can be fully included in the quantum time evolution of the total system. We perform numerical simulations of projective measurements of the polarization, with the spins prepared initially in a neutral pure state. The likewise pure initial state of the environment is constructed as a product of coherent states of the boson modes with a random distribution of their centroids around the origin of phase space. Switching the self-energy of the spin and the coupling to the heat bath on and off by a time-dependent modulation, we observe the outcome of the measurement in terms of the long-time behaviour of the spin. Interacting with the heat bath, the spins get entangled with it and lose coherence, thus reproduce the "collapse of the wavefunction". The expected quantum randomness in the final state is manifest in our simulations as a tendency of the spin to approach either one of the two eigenstates of the measured spin operator, recovering an almost pure state. The unitary time evolution allows us to reproducibly relate these random final states to the respective initial states of the environment and to monitor the exchange of information between the two subsystems in terms of their purity and mutual entropy.
翻訳日:2023-02-15 20:20:06 公開日:2022-04-24
# 時間反転型入出力理論

Input-output theory with time-reversal ( http://arxiv.org/abs/2204.11377v1 )

ライセンス: Link先を確認
Kevin Randles and Steven van Enk(参考訳) 入力出力理論において、カスケード量子システム間を伝播するフォトン波パケットにユニタリ変換を組み込む。 これは、システム1からシステム2への異なる量子システム(量子変換)間の量子状態遷移の基礎である。 我々は、時間反転、周波数変換、光子波パケットのストレッチの変換である$u$を提示する。 システム1が出力するウェーブパケットがシステム2に吸収されるように、$U$を調整できる。 標準的な入力出力理論によく似た変更を加えて、状態の時間引数の変更について最もよく理解することができる: $\rho(t) = \rho_1(\tilde{t}) \otimes \rho_2(t)$, ここで、$\tilde{t}$はシステム1の架空の時間であり、$U$によって決定される。

We incorporate unitary transformations to the photon wave packet propagating between cascaded quantum systems in input-output theory. This is a basis for quantum state transfer between different quantum systems (quantum transduction), from system 1 to system 2. We present a transformation, $U$, that time reverses, frequency translates, and stretches the photon wave packet. $U$ can be tuned such that a wave packet emitted by system 1 is absorbed by system 2. We find concomitant modifications to the standard input-output theory that can best be understood in terms of a change to the state's time argument, $\rho(t) = \rho_1(\tilde{t}) \otimes \rho_2(t)$, where $\tilde{t}$ is a fictitious time for system 1, which runs backwards, as determined by $U$.
翻訳日:2023-02-15 20:16:56 公開日:2022-04-24
# 単一量子デバイスからの有効認証ランダム性

Efficient Certifiable Randomness from a Single Quantum Device ( http://arxiv.org/abs/2204.11353v1 )

ライセンス: Link先を確認
Urmila Mahadev, Umesh Vazirani, Thomas Vidick(参考訳) Brakerskiなど。 al [BCM+18]は、単一の信頼できない量子デバイスの暗号テストモデルを導入し、証明可能なランダムネス生成のためのプロトコルを提供した。 エラー問題のある学習の漏えい回復特性を用いて,先行研究で未解決の課題であるランダム性の発生率に対処した。 新しいプロトコルは、一定のラウンドにおいて、$\omega(n)$のランダム性を保証することができ、ここでは$n$はプロトコルのパラメータであり、合計通信は$o(n)$である。 出力が統計的にランダムであることの証明は概念的に単純であり、技術的に初等的である。

Brakerski et. al [BCM+18] introduced the model of cryptographic testing of a single untrusted quantum device and gave a protocol for certifiable randomness generation. We use the leakage resilience properties of the Learning With Errors problem to address a key issue left open in previous work - the rate of generation of randomness. Our new protocol can certify $\Omega(n)$ fresh bits of randomness in constant rounds, where $n$ is a parameter of the protocol and the total communication is $O(n)$, thus achieving a nearly optimal rate. The proof that the output is statistically random is conceptually simple and technically elementary.
翻訳日:2023-02-15 20:16:19 公開日:2022-04-24
# 吸音による最適方向推定実験

Experimental optimal direction guessing with abstention ( http://arxiv.org/abs/2204.11310v1 )

ライセンス: Link先を確認
Wen-Zhe Yan, Zhibo Hou, Jun-Feng Tang, Guo-Yong Xiang, Chuan-Feng Li, Guang-Can Guo, Marc-Olivier Renou(参考訳) 高度化量子測定は、多くの情報問題において量子上の優位性を得るための基礎となる。 ここでは、2キュービットの純状態で符号化された方向を推定する作業を検討する。 我々は,非理想状態からでも最適方向推定(忠実度と最大度スコアで測定)を再現できることを実験的に証明した。 このプロトコルは9段階のフォトニック量子ウォークを用いて、0.9850以上のフィディティを持つ最適な5出力2量子ビット集団計測を実装している。 棄却により,方向推定スコアの10倍以上の改善(最適推定スコアへの偏差)が得られた。 本研究は,光量子ウォークの多量子化手法の汎用性を実証するものである。

Sophisticated quantum measurements are fundamental to obtain a quantum advantage in many informational problems. Here, we consider the task of guessing a direction encoded in a two-qubit pure state. We experimentally demonstrate that abstention can be used to recover optimal direction guessing (measured in terms of the fidelity and maximum likelihood scores) even from non ideal states. Our protocol uses nine-step photonic quantum walks to implement the optimal five-output two-qubit collective measurements with fidelities above 0.9850. Thanks to abstention, we obtain more than a 10-fold improvement of the direction guessing scores (in terms of deviation to the optimal guessing scores). Our work demonstrates the versatility of photonic quantum walks for implementing many-qubit sophisticated measurements.
翻訳日:2023-02-15 20:16:00 公開日:2022-04-24
# newman-mooreモデルにおける自己回帰ニューラルネットのニューラルアニーリングと可視化

Neural annealing and visualization of autoregressive neural networks in the Newman-Moore model ( http://arxiv.org/abs/2204.11272v1 )

ライセンス: Link先を確認
Estelle M. Inack, Stewart Morawetz and Roger G. Melko(参考訳) ニューラルネットワークは古典系や量子系の研究に広く採用されている。 しかし、ガラス性やフラストレーションを示すような難解なシステムの中には、表現力や絡み合いの内容にもかかわらず、主に満足のいく結果を得たものもあり、学習過程における計算複雑性の保存の可能性を示している。 三角格子上の2次元ニューマン・ムーアモデルであるガラスおよびフラクタルダイナミクスを示すモデル上に,自己回帰ニューラルネットワークを用いたニューラルアニーリング法を実装することで,この可能性を探る。 熱力学は、非常にカオス的なロスランドスケープのため、全世界的に不安定であることがわかった。 さらに、正しい基底状態エネルギーが検出されたとしても、一般にニューラルネットワークはモード崩壊による縮退基底状態配置を見出すことができない。 これらの結果から, フラクトン励起の存在によるニューマン・ムーアモデルによるガラスのダイナミクスは, トレーニング可能性の問題や最適化景観のモード崩壊によって, 発現する可能性が示唆された。

Artificial neural networks have been widely adopted as ansatzes to study classical and quantum systems. However, some notably hard systems such as those exhibiting glassiness and frustration have mainly achieved unsatisfactory results despite their representational power and entanglement content, thus, suggesting a potential conservation of computational complexity in the learning process. We explore this possibility by implementing the neural annealing method with autoregressive neural networks on a model that exhibits glassy and fractal dynamics: the two-dimensional Newman-Moore model on a triangular lattice. We find that the annealing dynamics is globally unstable because of highly chaotic loss landscapes. Furthermore, even when the correct ground state energy is found, the neural network generally cannot find degenerate ground-state configurations due to mode collapse. These findings indicate that the glassy dynamics exhibited by the Newman-Moore model caused by the presence of fracton excitations in the configurational space likely manifests itself through trainability issues and mode collapse in the optimization landscape.
翻訳日:2023-02-15 20:15:39 公開日:2022-04-24
# スペクトル純粋共振ストークス場におけるフォノン調和度の影響

The influence of phonon harmonicity on spectrally pure resonant Stokes fields ( http://arxiv.org/abs/2204.11255v1 )

ライセンス: Link先を確認
Georgios Stoikos and Eduardo Granados(参考訳) 高コヒーレント発光とコンパクトな形状因子により、単一軸モードダイヤモンドラマンレーザーは、集積量子技術、高分解能分光法、コヒーレント光通信などの応用に有用な資産として同定されている。 これらのレーザーの放射線幅はよりフーリエに制限されるが、熱光学特性はキャリア周波数のドリフトを引き起こし、超安定発光を必要とするアプリケーションにとって重要な課題となる。 本稿では, モノリシックファブリペロ(FP)ダイヤモンドラマン共振器で発生する定常ストークス波を用いて, ダイヤモンドの屈折温度依存性指数を正確に測定する方法を提案する。 本手法は, 強刺激ラマン散乱(SRS)条件下での1次フォノン線と平均格子フォノン周波数に対する温度の影響を考慮したものである。 さらに, このモデルを用いて, 可視スペクトル範囲における温度依存性熱光学係数とダイヤモンドのグラニュセンパラメータを計算する。 この理論は、<4MHz未満の安定化中心周波数偏差を持つ可変フーリエ制限ストークスナノ秒パルスの実証を伴う。

Thanks to their highly coherent emission and compact form factor, single axial mode diamond Raman lasers have been identified as a valuable asset for applications including integrated quantum technology, high resolution spectroscopy or coherent optical communications. While the fundamental emission linewidth of these lasers can be Fourier limited, their thermo-optic characteristics lead to drifts in their carrier frequency, posing important challenges for applications requiring ultra-stable emission. We propose here a method for measuring accurately the temperature-dependent index of refraction of diamond by employing standing Stokes waves produced in a monolithic Fabry-Perot (FP) diamond Raman resonator. Our approach takes into account the influence of the temperature on the first-order phonon line and the average lattice phonon frequency under intense stimulated Raman scattering (SRS) conditions. We further utilize this model to calculate the temperature-dependent thermo-optic coefficient and the Gruneisen parameter of diamond in the visible spectral range. The theory is accompanied by the demonstration of tunable Fourier-limited Stokes nanosecond pulses with a stabilized center frequency deviation of less than <4 MHz.
翻訳日:2023-02-15 20:15:22 公開日:2022-04-24
# クロスドメインユーザプロファイルのコピーによるブラックボックス勧告の攻撃

Attacking Black-box Recommendations via Copying Cross-domain User Profiles ( http://arxiv.org/abs/2005.08147v2 )

ライセンス: Link先を確認
Wenqi Fan, Tyler Derr, Xiangyu Zhao, Yao Ma, Hui Liu, Jianping Wang, Jiliang Tang, Qing Li(参考訳) 近年,ユーザがオンラインで対話するアイテムのパーソナライズされたリストを提案するレコメンデーションシステムに注目が集まっている。 実際、これらの最先端技術の多くはディープラーニングに基づいています。 近年の研究では、これらのディープラーニングモデル(特にレコメンデーションシステム)は、選択された一連のアイテムをプロモートするユーザを生成するデータ中毒などの攻撃に対して脆弱であることが示されている。 しかし最近では、これらの生成したユーザーを偽のプロフィールで検出する防衛戦略が開発されている。 したがって、より‘リアル’な’ユーザプロファイルを作成して、一連のアイテムを促進する高度なインジェクション攻撃は、ディープラーニングベースのレコメンデーションシステムの領域において依然として重要な課題である。 本研究では,提案するフレームワークであるCopyAttackについて紹介する。これは強化学習に基づくブラックボックス攻撃手法で,プロファイルをターゲットドメインにコピーすることで,ソースドメインから実際のユーザを活用する。 copyattackは、まず選択したポリシーグラデーションネットワークを効率的に学習し、その後、ソースドメインからユーザープロファイルを精巧化し、最終的にターゲットドメインにコピーする。 CopyAttackの目標は、ターゲットドメイン内のユーザのTop-k$レコメンデーションリストにあるターゲットアイテムのヒット率を最大化することである。 実世界の2つのデータセットの実験を行い、提案フレームワークの有効性を実証的に検証し、さらに詳細なモデル解析を行った。

Recently, recommender systems that aim to suggest personalized lists of items for users to interact with online have drawn a lot of attention. In fact, many of these state-of-the-art techniques have been deep learning based. Recent studies have shown that these deep learning models (in particular for recommendation systems) are vulnerable to attacks, such as data poisoning, which generates users to promote a selected set of items. However, more recently, defense strategies have been developed to detect these generated users with fake profiles. Thus, advanced injection attacks of creating more `realistic' user profiles to promote a set of items is still a key challenge in the domain of deep learning based recommender systems. In this work, we present our framework CopyAttack, which is a reinforcement learning based black-box attack method that harnesses real users from a source domain by copying their profiles into the target domain with the goal of promoting a subset of items. CopyAttack is constructed to both efficiently and effectively learn policy gradient networks that first select, and then further refine/craft, user profiles from the source domain to ultimately copy into the target domain. CopyAttack's goal is to maximize the hit ratio of the targeted items in the Top-$k$ recommendation list of the users in the target domain. We have conducted experiments on two real-world datasets and have empirically verified the effectiveness of our proposed framework and furthermore performed a thorough model analysis.
翻訳日:2022-12-02 06:06:11 公開日:2022-04-24
# 断続ブール積分布の効率的なパラメータ推定

Efficient Parameter Estimation of Truncated Boolean Product Distributions ( http://arxiv.org/abs/2007.02392v2 )

ライセンス: Link先を確認
Dimitris Fotakis, Alkis Kalavasis, Christos Tzamos(参考訳) 我々は、会員オラクルを通してアクセス可能な$s \subset \{0, 1\}^d$ によってサンプルが切り離されるとき、ブール積分布のパラメータを$d$次元で推定する問題を研究した。 切断標本からの学習の計算と統計の複雑さが離散的な設定で考慮されるのはこれが初めてである。 そこで本研究では, 実分布に関する十分な情報を明らかにするために, 減価償却セット$s$ の太さという自然概念を導入する。 切断集合が十分に太っている場合、真の分布からのサンプルは切断されたサンプルから生成できることを示す。 驚くべき結果として、ブール積分布に対して効率的に実行できる事実上あらゆる統計タスク(例えば、総変動距離、パラメータ推定、一様性、同一性テスト)も、縮小されたサンプルから実行でき、サンプル複雑性がわずかに増加する。 我々は,d$ の代替品に対して分布をランク付けするアプローチを一般化し,停止したサンプルからmallowsモデルの効率的なパラメータ推定を実現する方法を示す。 切り刻まれたサンプルから離散モデルを学習する限界を探索し、効率的な識別に必要となる3つの自然条件を同定する。 (i)truncation set $S$ は十分にリッチであるべきである。 (ii)$s$は会員問合せを通じてアクセス可能でなければならない。 (iii)$s$の切り下げは、すべての方向に十分なランダム性を残すべきである。 確率的勾配降下アプローチ(daskalakis et al., focs 2018)を注意深く適応させることで,これらの条件がブール積分布の効率的な学習にも十分であることを示す。

We study the problem of estimating the parameters of a Boolean product distribution in $d$ dimensions, when the samples are truncated by a set $S \subset \{0, 1\}^d$ accessible through a membership oracle. This is the first time that the computational and statistical complexity of learning from truncated samples is considered in a discrete setting. We introduce a natural notion of fatness of the truncation set $S$, under which truncated samples reveal enough information about the true distribution. We show that if the truncation set is sufficiently fat, samples from the true distribution can be generated from truncated samples. A stunning consequence is that virtually any statistical task (e.g., learning in total variation distance, parameter estimation, uniformity or identity testing) that can be performed efficiently for Boolean product distributions, can also be performed from truncated samples, with a small increase in sample complexity. We generalize our approach to ranking distributions over $d$ alternatives, where we show how fatness implies efficient parameter estimation of Mallows models from truncated samples. Exploring the limits of learning discrete models from truncated samples, we identify three natural conditions that are necessary for efficient identifiability: (i) the truncation set $S$ should be rich enough; (ii) $S$ should be accessible through membership queries; and (iii) the truncation by $S$ should leave enough randomness in all directions. By carefully adapting the Stochastic Gradient Descent approach of (Daskalakis et al., FOCS 2018), we show that these conditions are also sufficient for efficient learning of truncated Boolean product distributions.
翻訳日:2022-11-13 08:13:04 公開日:2022-04-24
# トランスフォーマーを用いたtwitterに基づく性別認識

Twitter-Based Gender Recognition Using Transformers ( http://arxiv.org/abs/2205.06801v1 )

ライセンス: Link先を確認
Zahra Movahedi Nia, Ali Ahmadi, Bruce Mellado, Jianhong Wu, James Orbinski, Ali Agary, Jude Dzevela Kong(参考訳) ソーシャルメディアには、ビジネスや金融、健康、社会経済的不平等、性別の脆弱性など、さまざまな分野(例えば、意見マイニング、感情/感情分析、統計分析など)の研究を進める上で役立つ人や社会に関する有用な情報が含まれている。 ユーザーの人口統計は、さらに研究に役立つ豊富な情報を提供する。 しかし、性別などのユーザー人口統計は非公開であり、自由に利用できない。 本研究では,ユーザの性別を画像やツイートから予測するトランスフォーマーに基づくモデルを提案する。 視覚トランスフォーマー(vit)に基づくモデルを微調整し,男女画像の階層化を行う。 次に、トランスフォーマー(bert)からの双方向エンコーダ表現に基づく別のモデルを微調整し、ユーザの性別をツイートで認識する。 なぜなら、すべてのユーザーが性別を示す画像を提供するわけではないからだ。 このようなユーザーの性別は、ツイートによって検出できる。 組み合わせモデルは画像分類モデルとテキスト分類モデルの精度をそれぞれ6.98%と4.43%改善する。 これは画像とテキストの分類モデルが互いに追加情報を提供することで相互補完できることを示す。 本手法をPAN-2018データセットに適用し,85.52%の精度を得る。

Social media contains useful information about people and the society that could help advance research in many different areas (e.g. by applying opinion mining, emotion/sentiment analysis, and statistical analysis) such as business and finance, health, socio-economic inequality and gender vulnerability. User demographics provide rich information that could help study the subject further. However, user demographics such as gender are considered private and are not freely available. In this study, we propose a model based on transformers to predict the user's gender from their images and tweets. We fine-tune a model based on Vision Transformers (ViT) to stratify female and male images. Next, we fine-tune another model based on Bidirectional Encoders Representations from Transformers (BERT) to recognize the user's gender by their tweets. This is highly beneficial, because not all users provide an image that indicates their gender. The gender of such users could be detected form their tweets. The combination model improves the accuracy of image and text classification models by 6.98% and 4.43%, respectively. This shows that the image and text classification models are capable of complementing each other by providing additional information to one another. We apply our method to the PAN-2018 dataset, and obtain an accuracy of 85.52%.
翻訳日:2022-05-22 12:17:50 公開日:2022-04-24
# (参考訳) セキュアな分散/フェデレーション学習:マルチエージェントシステムのための予測・生産性トレードオフ

Secure Distributed/Federated Learning: Prediction-Privacy Trade-Off for Multi-Agent System ( http://arxiv.org/abs/2205.04855v1 )

ライセンス: CC BY 4.0
Mohamed Ridha Znaidi, Gaurav Gupta, Paul Bogdan(参考訳) 分散学習は、複数の有界コンピューティングエージェントの計算能力を高めるための効率的な新興パラダイムである。 分散および連合学習(dlおよびfl)フレームワーク内で推論を実行するビッグデータ時代において、中央サーバは、複数の分散トレーニングタスクを実行するためにさまざまなエージェントに依存しながら、大量のデータを処理する必要がある。 分散コンピューティングトポロジを考えると、プライバシは第一級の関心事になっている。 さらに、エージェントの限られた情報処理能力を仮定すると、効率的な計算を保証する高度な \textit{privacy-preserving decentralization} が要求される。 この目的に向けて,分散プライベートフェデレーション学習(dpfl)アプローチによるグローバル端末に関するエージェントが受信した情報メッセージを,プライバシを保ちながら,各エージェントに関連する情報処理制約の対象となる問題である \textit{privacy-aware server to multi-agent assignment} について検討する。 2エージェントシステムの分散化スキームを見つけるために,各エージェントの圧縮制約の質を考慮して,プライバシと精度のバランスをとる最適化問題を定式化する。 自己整合方程式を交互に解く反復収束アルゴリズムを提案する。 また,プライバシー保護のトレードオフを示すための提案手法を数値的に評価し,DLとFLのプライバシー確保に新たなアプローチの有効性を示す。

Decentralized learning is an efficient emerging paradigm for boosting the computing capability of multiple bounded computing agents. In the big data era, performing inference within the distributed and federated learning (DL and FL) frameworks, the central server needs to process a large amount of data while relying on various agents to perform multiple distributed training tasks. Considering the decentralized computing topology, privacy has become a first-class concern. Moreover, assuming limited information processing capability for the agents calls for a sophisticated \textit{privacy-preserving decentralization} that ensures efficient computation. Towards this end, we study the \textit{privacy-aware server to multi-agent assignment} problem subject to information processing constraints associated with each agent, while maintaining the privacy and assuring learning informative messages received by agents about a global terminal through the distributed private federated learning (DPFL) approach. To find a decentralized scheme for a two-agent system, we formulate an optimization problem that balances privacy and accuracy, taking into account the quality of compression constraints associated with each agent. We propose an iterative converging algorithm by alternating over self-consistent equations. We also numerically evaluate the proposed solution to show the privacy-prediction trade-off and demonstrate the efficacy of the novel approach in ensuring privacy in DL and FL.
翻訳日:2022-05-16 01:59:37 公開日:2022-04-24
# (参考訳) 自動インフラ検査のためのメータ検出手法の比較検討

A Comparative Study of Meter Detection Methods for Automated Infrastructure Inspection ( http://arxiv.org/abs/2204.14117v1 )

ライセンス: CC BY 4.0
Yusuke Ohtsubo, Takuto Sato, Hirohiko Sagawa(参考訳) 位置誤差のある自律検査ロボットにおいてカメラからメーター値を読み取るためには,画像からメーター領域を検出する必要がある。 本研究では, 形状, テクスチャ, 背景情報に基づく手法をメータ領域検出手法として開発した。 その結果, 背景情報に基づく手法は, 形状や数に関わらず最遠距離の計測が可能であり, 直径40pxの安定検出が可能であることを確認した。

In order to read meter values from a camera on an autonomous inspection robot with positional errors, it is necessary to detect meter regions from the image. In this study, we developed shape-based, texture-based, and background information-based methods as meter area detection techniques and compared their effectiveness for meters of different shapes and sizes. As a result, we confirmed that the background information-based method can detect the farthest meters regardless of the shape and number of meters, and can stably detect meters with a diameter of 40px.
翻訳日:2022-05-09 01:51:39 公開日:2022-04-24
# (参考訳) 畳み込みニューラルネットワークによる睡眠の質予測

Predicting Sleeping Quality using Convolutional Neural Networks ( http://arxiv.org/abs/2204.13584v1 )

ライセンス: CC BY 4.0
Vidya Rohini Konanur Sathish, Wai Lok Woo, Edmond S. L. Ho(参考訳) 睡眠ステージとパターンの同定は、睡眠障害の診断と治療に不可欠である。 スマートテクノロジーの進歩により、睡眠パターンに関連するセンサデータは簡単にキャプチャできる。 本稿では,分類性能を向上させる畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 特に、ロジスティック回帰(LR)、決定木(DT)、k-Nearest Neighbour(k-NN)、Naive Bayes(NB)、Support Vector Machine(SVM)といった従来の機械学習手法の分類性能を3つの公開睡眠データセット上でベンチマークする。 精度、感度、特異性、精度、リコール、Fスコアが報告され、将来この方向の研究をシミュレートするためのベースラインとして機能する。

Identifying sleep stages and patterns is an essential part of diagnosing and treating sleep disorders. With the advancement of smart technologies, sensor data related to sleeping patterns can be captured easily. In this paper, we propose a Convolution Neural Network (CNN) architecture that improves the classification performance. In particular, we benchmark the classification performance from different methods, including traditional machine learning methods such as Logistic Regression (LR), Decision Trees (DT), k-Nearest Neighbour (k-NN), Naive Bayes (NB) and Support Vector Machine (SVM), on 3 publicly available sleep datasets. The accuracy, sensitivity, specificity, precision, recall, and F-score are reported and will serve as a baseline to simulate the research in this direction in the future.
翻訳日:2022-04-30 08:23:03 公開日:2022-04-24
# 非拡張型生成ネットワークプリエントによる信号回復

Signal Recovery with Non-Expansive Generative Network Priors ( http://arxiv.org/abs/2204.13599v1 )

ライセンス: Link先を確認
Jorio Cocola(参考訳) 我々は以前に深部生成ネットワークを用いた圧縮センシングについて検討した。 圧縮線形測定からの効率的な回復のための初期の理論的保証は、ガウス重みと対数拡大率を持つreluネットワークの範囲の信号に対して開発されている:すなわち、各層が対数係数により前層よりも大きい場合である。 後に、一定の膨張性は回復に十分であることが示された。 実際のジェネレータの場合と同様に、拡張性が収縮層を持つネットワークを緩和できるかどうかについては、未解決のままである。 本研究は,ガウス生成ネットワークの範囲内の信号が,入力層の大きさ(ログファクタまで)に比例して,いくつかの線形測定値から復元可能であることを証明して,この問題に答える。 この条件により、生成ネットワークは収縮層を持つことができる。 その結果, ガウス行列が行列濃度の不等式を満たすこと, 範囲制限重み分布条件 (R2WDC) とよばれ, 従来の理論的保証に基づく重量分布条件 (WDC) を弱めることを示した。 wdcは、生成ネットワークプリエントによる他の信号リカバリ問題の解析にも使われている。 WDCをR2WDCに置き換えることで、拡張生成ネットワークを用いて信号回復のための以前の結果を拡張することができる。 本稿では,位相検索,雑音除去,スパイク行列回復のための拡張について検討する。

We study compressive sensing with a deep generative network prior. Initial theoretical guarantees for efficient recovery from compressed linear measurements have been developed for signals in the range of a ReLU network with Gaussian weights and logarithmic expansivity: that is when each layer is larger than the previous one by a logarithmic factor. It was later shown that constant expansivity is sufficient for recovery. It has remained open whether the expansivity can be relaxed allowing for networks with contractive layers, as often the case of real generators. In this work we answer this question, proving that a signal in the range of a Gaussian generative network can be recovered from a few linear measurements provided that the width of the layers is proportional to the input layer size (up to log factors). This condition allows the generative network to have contractive layers. Our result is based on showing that Gaussian matrices satisfy a matrix concentration inequality, which we term Range Restricted Weight Distribution Condition (R2WDC), and weakens the Weight Distribution Condition (WDC) upon which previous theoretical guarantees were based on. The WDC has also been used to analyze other signal recovery problems with generative network priors. By replacing the WDC with the R2WDC, we are able to extend previous results for signal recovery with expansive generative network priors to non-expansive ones. We discuss these extensions for phase retrieval, denoising, and spiked matrix recovery.
翻訳日:2022-04-29 13:14:27 公開日:2022-04-24
# (参考訳) グラフ分割に対するベイズ的アプローチ

A Bayesian Approach To Graph Partitioning ( http://arxiv.org/abs/2204.12927v1 )

ライセンス: CC BY 4.0
Farshad Noravesh(参考訳) ガウス過程(GP)に基づく局所グラフコンダクタンス学習のためのベイジアン推論に基づく新しいアルゴリズムを,先進MCMC収束法を用いて,間接重み付きグラフをトラバースする際のコンダクタンスの振る舞いを学習するために提供される定常分布への収束のスケーラブルで高速なアルゴリズムを作成する。 最初の計量埋め込みはグラフの頂点を表すために使われる。 そして、トレーニングポイントに対して均一誘導コンダクタンスを算出する。 最後に、学習段階において、一様導電率を近似するためにガウス過程を用いる。 MCMCは推定されたハイパーパラメータの不確実性を測定するために使用される。

A new algorithm based on bayesian inference for learning local graph conductance based on Gaussian Process(GP) is given that uses advanced MCMC convergence ideas to create a scalable and fast algorithm for convergence to stationary distribution which is provided to learn the bahavior of conductance when traversing the indirected weighted graph. First metric embedding is used to represent the vertices of the graph. Then, uniform induced conductance is calculated for training points. Finally, in the learning step, a gaussian process is used to approximate the uniform induced conductance. MCMC is used to measure uncertainty of estimated hyper-parameters.
翻訳日:2022-04-29 07:25:07 公開日:2022-04-24
# (参考訳) 3次元光音響イメージングのためのメモリ効率の高いインバータブルニューラルネットワーク

Memory Efficient Invertible Neural Networks for 3D Photoacoustic Imaging ( http://arxiv.org/abs/2204.11850v1 )

ライセンス: CC BY 4.0
Rafael Orozco, Mathias Louboutin and Felix J. Herrmann(参考訳) 光音響イメージング(PAI)は、癌腫瘍モニタリングにおける血管性などの臨床的関心の高解像度構造を画像化することができる。 人体をイメージングするとき、幾何学的制約は、画像アーティファクトを引き起こす限定ビューデータ検索を強制する。 反復的物理モデルに基づくアプローチは、アーティファクトを減少させるが、PDE解決に時間を要する。 機械学習(ML)は物理モデルと学習ネットワークを組み合わせることでPAIを加速した。 しかし、ML手法の深さと全体的なパワーは、メモリ集中トレーニングによって制限される。 本稿では、インバータブルニューラルネットワーク(INN)を用いてメモリ圧力を軽減することを提案する。 INNは、限られたビュー、ノイズ、サブサンプルデータの設定で3D光音響ボリュームを画像化することができる。 INNのフラジカルメモリ使用量により、16GBのRAMを持つコンシューマGPU上で学習層を任意の深さでトレーニングすることができる。

Photoacoustic imaging (PAI) can image high-resolution structures of clinical interest such as vascularity in cancerous tumor monitoring. When imaging human subjects, geometric restrictions force limited-view data retrieval causing imaging artifacts. Iterative physical model based approaches reduce artifacts but require prohibitively time consuming PDE solves. Machine learning (ML) has accelerated PAI by combining physical models and learned networks. However, the depth and overall power of ML methods is limited by memory intensive training. We propose using invertible neural networks (INNs) to alleviate memory pressure. We demonstrate INNs can image 3D photoacoustic volumes in the setting of limited-view, noisy, and subsampled data. The frugal constant memory usage of INNs enables us to train an arbitrary depth of learned layers on a consumer GPU with 16GB RAM.
翻訳日:2022-04-28 05:19:33 公開日:2022-04-24
# 不均質な情報ネットワークによる銀行マイクロ・中小企業のデフォルト分析

Heterogeneous Information Network based Default Analysis on Banking Micro and Small Enterprise Users ( http://arxiv.org/abs/2204.11849v1 )

ライセンス: Link先を確認
Zheng Zhang, Yingsheng Ji, Jiachen Shen, Xi Zhang, Guangwen Yang(参考訳) リスクアセスメントは、その方法論的豊かさと様々な実践的応用の両方について広く研究されている金融機関にとって重大な問題である。 包括的金融の拡大に伴い、近年の注目は中小企業(MSE)に向けられている。 大企業と比較して、MSEは安全性の低い金融安定のため、デフォルトよりも露出率が高い。 従来の取り組みは、精巧な特徴工学を用いて履歴データから分類器を学習する。 しかし、MSEの主な障害は信用関連情報の不足であり、予測性能を低下させる可能性がある。 さらに、金融活動は多様で暗黙的な関係を持ち、商業銀行のリスク判断には十分に活用されていない。 特に実データでは, 企業ユーザ間の様々な関係が, 財務リスク分析においてさらなる力を持つことが示されている。 本稿では,銀行データのグラフについて考察し,その目的のために新しいHIDAMモデルを提案する。 具体的には,マルチタイプノードに豊富な属性を持つ異種情報ネットワークと,ビジネスバンキングサービスのシナリオをモデル化するためのリンクを組み込もうとする。 MSEの特徴表現を強化するため,メタパスを通してインタラクティブな情報を抽出し,経路情報を完全に活用する。 さらに,各メタパス内のコンテンツの重要性と異なるメタパスの重要性を学習するために,階層的注意機構をそれぞれ考案する。 実験結果から,HIDAMが現実の銀行データにおいて最先端の競争相手を上回ることが確認された。

Risk assessment is a substantial problem for financial institutions that has been extensively studied both for its methodological richness and its various practical applications. With the expansion of inclusive finance, recent attentions are paid to micro and small-sized enterprises (MSEs). Compared with large companies, MSEs present a higher exposure rate to default owing to their insecure financial stability. Conventional efforts learn classifiers from historical data with elaborate feature engineering. However, the main obstacle for MSEs involves severe deficiency in credit-related information, which may degrade the performance of prediction. Besides, financial activities have diverse explicit and implicit relations, which have not been fully exploited for risk judgement in commercial banks. In particular, the observations on real data show that various relationships between company users have additional power in financial risk analysis. In this paper, we consider a graph of banking data, and propose a novel HIDAM model for the purpose. Specifically, we attempt to incorporate heterogeneous information network with rich attributes on multi-typed nodes and links for modeling the scenario of business banking service. To enhance feature representation of MSEs, we extract interactive information through meta-paths and fully exploit path information. Furthermore, we devise a hierarchical attention mechanism respectively to learn the importance of contents inside each meta-path and the importance of different metapahs. Experimental results verify that HIDAM outperforms state-of-the-art competitors on real-world banking data.
翻訳日:2022-04-27 13:08:47 公開日:2022-04-24
# マルチリレーショナルモデリングによる次世代POI勧告の活用

Empowering Next POI Recommendation with Multi-Relational Modeling ( http://arxiv.org/abs/2204.12288v1 )

ライセンス: Link先を確認
Zheng Huang, Jing Ma, Yushun Dong, Natasha Zhang Foutz, Jundong Li(参考訳) モバイルデバイスやWebアプリケーションの普及により、位置情報ベースのソーシャルネットワーク(LBSN)は、個人レベルの大規模活動や経験を提供する。 関心の次点(POI)レコメンデーションは、LBSNにおいて最も重要なタスクのひとつであり、ユーザの過去の活動から好みを発見することで、次の適切な場所のパーソナライズされたレコメンデーションをユーザに提供することを目的としている。 注目すべきは、LBSNは、ユーザやPOI(家族や同僚などのユーザ・ユーザ・ソーシャル関係やユーザ・POI訪問関係を含む)に関する豊富な異種関係情報に、例外なくアクセスすることである。 このような関係情報は、次のPOIレコメンデーションを促進する大きな可能性を秘めている。 しかし、既存のほとんどのメソッドは単にユーザ-POI訪問だけにフォーカスするか、あるいはリレーショナルな不均一性を無視しながら過度に単純化された仮定に基づいて異なる関係を扱う。 そこで本研究では,マルチネットワーク表現学習モジュールとのヘテロジニアスな関係を効果的に活用し,時間間ユーザとpoi間の相互影響を結合型リカレントニューラルネットワークに明示的に組み込む,新たな枠組みであるmemoを提案する。 実世界のLBSNデータに関する大規模な実験は、最先端の次世代POIレコメンデーション手法よりもフレームワークの優位性を検証する。

With the wide adoption of mobile devices and web applications, location-based social networks (LBSNs) offer large-scale individual-level location-related activities and experiences. Next point-of-interest (POI) recommendation is one of the most important tasks in LBSNs, aiming to make personalized recommendations of next suitable locations to users by discovering preferences from users' historical activities. Noticeably, LBSNs have offered unparalleled access to abundant heterogeneous relational information about users and POIs (including user-user social relations, such as families or colleagues; and user-POI visiting relations). Such relational information holds great potential to facilitate the next POI recommendation. However, most existing methods either focus on merely the user-POI visits, or handle different relations based on over-simplified assumptions while neglecting relational heterogeneities. To fill these critical voids, we propose a novel framework, MEMO, which effectively utilizes the heterogeneous relations with a multi-network representation learning module, and explicitly incorporates the inter-temporal user-POI mutual influence with the coupled recurrent neural networks. Extensive experiments on real-world LBSN data validate the superiority of our framework over the state-of-the-art next POI recommendation methods.
翻訳日:2022-04-27 13:06:27 公開日:2022-04-24
# (参考訳) 非監督型産業異常検出アルゴリズムの検討

A Survey on Unsupervised Industrial Anomaly Detection Algorithms ( http://arxiv.org/abs/2204.11161v1 )

ライセンス: CC BY 4.0
Yajie Cui, Zhaoxiang Liu and Shiguo Lian(参考訳) 異常欠陥検出は工業生産プロセスにおいて不可欠である。 前回の研究では、従来の異常検出アルゴリズムの大部分は教師付き学習のカテゴリに属しているが、教師なしの状況はほとんどの実用的な応用シナリオで一般的である。 そのため、近年では、監視されていない異常検出が多くの研究の対象となっている。 本稿では,新たに提案した視覚異常検出手法の総合的な紹介を行う。 より広範かつクロスドメインな視点を構築するために、リサーチコミュニティと業界分野を支援することを願っています。

Anomaly defect detection has become an indispensable part of industrial production process. In previous study, a large part of the traditional anomaly detection algorithms belong to the category of supervised learning, while the unsupervised situation is more common for most practical application scenarios. Hence gradually unsupervised anomaly detection has been the subject of much research over the last few years. In this survey, we provide a comprehensive introduction to newly proposed approaches for visual anomaly detection. We hope that it can help the research community as well as the industry field to build a broader and cross-domain perspective.
翻訳日:2022-04-27 05:56:02 公開日:2022-04-24
# (参考訳) 資源制約型プロジェクトスケジューリング問題に対するMAP-Elitesに基づくハイパーヒューリスティック

MAP-Elites based Hyper-Heuristic for the Resource Constrained Project Scheduling Problem ( http://arxiv.org/abs/2204.11162v1 )

ライセンス: CC BY 4.0
Shelvin Chand, Kousik Rajesh, Rohitash Chandra(参考訳) 資源制約付きプロジェクトスケジューリング問題(RCPSP)はNP-Hard組合せ最適化問題である。 RCPSPの目的は、アクティビティの優先順位やリソース制約に違反することなく、一連のアクティビティをスケジュールすることである。 近年、研究者はメタヒューリスティックスや厳密な数学的アプローチといった複雑な解法から、優先順位規則のようなより単純な直感的な解へと移行している。 これはしばしば、遺伝子プログラミングに基づく超ヒューリスティック(GPHH)を使用して、新しい未確認ケースに適用可能な新しい優先度ルールを発見する。 GPHHに影響を及ぼす一般的な問題は進化の多様性であり、しばしば品質の低下につながる。 本稿では, MAP-Elites を用いたハイパーヒューリスティック (MEHH) を用いて, RCPSP の効率的な優先ルールの自動発見を行う。 MAP-Elitesは品質の多様性に基づくアプローチを採用し、複数の特徴次元に沿って特徴付けられる多様なソリューションのアーカイブを明示的に維持する。 提案した超ヒューリスティックの利点を実証するため,従来のGPHHと人的専門家による優先ルールとの比較を行った。 その結果,多様性と性能の両面で大きな改善が見られた。 特に、既存の文献では研究されていない大規模インスタンスの大きな改善が見られる。

The resource constrained project scheduling problem (RCPSP) is an NP-Hard combinatorial optimization problem. The objective of RCPSP is to schedule a set of activities without violating any activity precedence or resource constraints. In recent years researchers have moved away from complex solution methodologies, such as meta heuristics and exact mathematical approaches, towards more simple intuitive solutions like priority rules. This often involves using a genetic programming based hyper-heuristic (GPHH) to discover new priority rules which can be applied to new unseen cases. A common problem affecting GPHH is diversity in evolution which often leads to poor quality output. In this paper, we present a MAP-Elites based hyper-heuristic (MEHH) for the automated discovery of efficient priority rules for RCPSP. MAP-Elites uses a quality diversity based approach which explicitly maintains an archive of diverse solutions characterised along multiple feature dimensions. In order to demonstrate the benefits of our proposed hyper-heuristic, we compare the overall performance against a traditional GPHH and priority rules proposed by human experts. Our results indicate strong improvements in both diversity and performance. In particular we see major improvements for larger instances which have been under-studied in the existing literature.
翻訳日:2022-04-27 05:36:37 公開日:2022-04-24
# (参考訳) グラフに基づくスパム検出におけるサブグループフェアネス

Subgroup Fairness in Graph-based Spam Detection ( http://arxiv.org/abs/2204.11164v1 )

ライセンス: CC BY 4.0
Jiaxin Liu, Yuefei Lyu, Xi Zhang, Sihong Xie(参考訳) 偽レビューはamazonやyelpなどのレビューウェブサイトで広く使われている。 GNNは、不審なレビュアーを検知する最先端の手法であり、レビュアー、レビュー、ターゲット製品を結合するグラフのトポロジを利用する。 しかし、レビュアーの異なるグループに対する検出精度の差は、ウェブサイトの異なるレビュアーの差別的扱いを引き起こし、そのようなウェブサイトのエンゲージメントや信頼性が低下する。 レビューグラフ上の複雑な依存関係は、大きなグループに隠され不公平に扱われるレビュアーのサブグループをティーズすることの難しさをもたらす。 レビューアの公平な扱いを改善するための微妙なサブグループを定義し、発見する以前の研究はない。 本稿では,スパム検出のためのサブグループメンバシップの定義,発見,活用の課題に対処する。 まず、サブグループにおける精度の差につながる部分グループメンバーシップを定義する。 サブグループのメンバシップは通常観察できないが,GNN検出器を誘導して治療のバランスをとることが重要であるため,隠れたサブグループのメンバシップを共同で推論し,対象のGNNの検出精度をサブグループ間で調整するモデルの設計を行う。 2つのyelpレビューデータセットの包括的な結果は、提案されたモデルがサブグループをより公平に扱うように訓練できることを示しています。

Fake reviews are prevalent on review websites such as Amazon and Yelp. GNN is the state-of-the-art method that can detect suspicious reviewers by exploiting the topologies of the graph connecting reviewers, reviews, and target products. However, the discrepancy in the detection accuracy over different groups of reviewers causes discriminative treatment of different reviewers of the websites, leading to less engagement and trustworthiness of such websites. The complex dependencies over the review graph introduce difficulties in teasing out subgroups of reviewers that are hidden within larger groups and are treated unfairly. There is no previous study that defines and discovers the subtle subgroups to improve equitable treatment of reviewers. This paper addresses the challenges of defining, discovering, and utilizing subgroup memberships for fair spam detection. We first define a subgroup membership that can lead to discrepant accuracy in the subgroups. Since the subgroup membership is usually not observable while also important to guide the GNN detector to balance the treatment, we design a model that jointly infers the hidden subgroup memberships and exploits the membership for calibrating the target GNN's detection accuracy across subgroups. Comprehensive results on two large Yelp review datasets demonstrate that the proposed model can be trained to treat the subgroups more fairly.
翻訳日:2022-04-27 05:16:25 公開日:2022-04-24
# (参考訳) RelViT:ビジュアルリレーショナル推論のための概念誘導型視覚変換器

RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning ( http://arxiv.org/abs/2204.11167v1 )

ライセンス: CC BY 4.0
Xiaojian Ma, Weili Nie, Zhiding Yu, Huaizu Jiang, Chaowei Xiao, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar(参考訳) 視覚関係に関する推論は、人間が視覚の世界をどう解釈するかの中心である。 このタスクは3つの重要な技術的課題を共同で解決する必要があるため、現在のディープラーニングアルゴリズムでは依然として困難である。 1)オブジェクトエンティティとそのプロパティの識別。 2)一対の実体間の意味関係を推測すること、及び 3)新しい対象-関係の組み合わせ、すなわち体系的一般化への一般化。 本研究では,視覚推論のベースモデルとして視覚トランスフォーマー(vits)を使用し,オブジェクトエンティティとして定義された概念とその関係をよりよく活用し,vitsの推論能力を向上させる。 具体的には,概念キーを用いた学習時にフレキシブルな画像特徴検索を可能にする新しい概念特徴辞書を提案する。 この辞書は2つの新しい概念誘導補助タスクを可能にする。 1)関係推論推進のためのグローバルタスク、及び 2)セマンティックオブジェクト中心の対応学習を容易にするローカルタスク。 視覚的推論モデルの体系的一般化を検討するために,標準HICOおよびGQAベンチマークの系統的分割を導入する。 その結果,概念誘導型視覚変換器(略してRelViT)は,HICOとGQAの先行アプローチを16%,GQAが13%,系統分割が43%,系統分割が18%で有意に上回った。 我々のアブレーション分析は、複数のViT変異体との互換性とハイパーパラメータに対するロバスト性も明らかにしている。

Reasoning about visual relationships is central to how humans interpret the visual world. This task remains challenging for current deep learning algorithms since it requires addressing three key technical problems jointly: 1) identifying object entities and their properties, 2) inferring semantic relations between pairs of entities, and 3) generalizing to novel object-relation combinations, i.e., systematic generalization. In this work, we use vision transformers (ViTs) as our base model for visual reasoning and make better use of concepts defined as object entities and their relations to improve the reasoning ability of ViTs. Specifically, we introduce a novel concept-feature dictionary to allow flexible image feature retrieval at training time with concept keys. This dictionary enables two new concept-guided auxiliary tasks: 1) a global task for promoting relational reasoning, and 2) a local task for facilitating semantic object-centric correspondence learning. To examine the systematic generalization of visual reasoning models, we introduce systematic splits for the standard HICO and GQA benchmarks. We show the resulting model, Concept-guided Vision Transformer (or RelViT for short) significantly outperforms prior approaches on HICO and GQA by 16% and 13% in the original split, and by 43% and 18% in the systematic split. Our ablation analyses also reveal our model's compatibility with multiple ViT variants and robustness to hyper-parameters.
翻訳日:2022-04-27 04:47:03 公開日:2022-04-24
# (参考訳) トランスダクティブFew-Shot学習の現実的評価

Realistic Evaluation of Transductive Few-Shot Learning ( http://arxiv.org/abs/2204.11181v1 )

ライセンス: CC BY 4.0
Olivier Veilleux, Malik Boudiaf, Pablo Piantanida, Ismail Ben Ayed(参考訳) トランスダクティブ推論(Transductive inference)は、数ショットのタスクのラベル付けされていないクエリセットの統計を利用するため、数ショットの学習で広く使われている。 現在のマイナショットベンチマークでは、推論時に完全なクラスバランスのタスクを使用する。 このような人工的正則性は非現実的であり、テストサンプルの限界ラベル確率が知られ、均一分布に固定されていると仮定する。 実際、現実的なシナリオでは、ラベルなしのクエリセットには任意のラベルの限界がある。 提案手法では,クラスバランスアーティファクトを取り除き,推論時の少数タスクの問合せ集合内の任意のクラス分布の影響について検討する。 具体的には、クラスの限界確率をdirichlet-distributed random variableとしてモデル化する。 これは現在の数ショットのベンチマークを活用し、任意のクラス分布でテストタスクを構築する。 提案手法は,3つの広く使用されているデータセットに対して実験的に最先端のトランスダクティブ手法の評価を行い,その性能低下を観察する。 さらに,クラス分配の変動を効果的に処理できる$\alpha$-divergencesに基づく相互情報損失の一般化を提案する。 経験的に、当社のトランスダクティブ$\alpha$-divergence最適化は、いくつかのデータセット、モデル、少数の設定で最先端のメソッドよりも優れています。 私たちのコードはhttps://github.com/oveilleux/Realistic_Transductive_Few_Shotで公開されています。

Transductive inference is widely used in few-shot learning, as it leverages the statistics of the unlabeled query set of a few-shot task, typically yielding substantially better performances than its inductive counterpart. The current few-shot benchmarks use perfectly class-balanced tasks at inference. We argue that such an artificial regularity is unrealistic, as it assumes that the marginal label probability of the testing samples is known and fixed to the uniform distribution. In fact, in realistic scenarios, the unlabeled query sets come with arbitrary and unknown label marginals. We introduce and study the effect of arbitrary class distributions within the query sets of few-shot tasks at inference, removing the class-balance artefact. Specifically, we model the marginal probabilities of the classes as Dirichlet-distributed random variables, which yields a principled and realistic sampling within the simplex. This leverages the current few-shot benchmarks, building testing tasks with arbitrary class distributions. We evaluate experimentally state-of-the-art transductive methods over 3 widely used data sets, and observe, surprisingly, substantial performance drops, even below inductive methods in some cases. Furthermore, we propose a generalization of the mutual-information loss, based on $\alpha$-divergences, which can handle effectively class-distribution variations. Empirically, we show that our transductive $\alpha$-divergence optimization outperforms state-of-the-art methods across several data sets, models and few-shot settings. Our code is publicly available at https://github.com/oveilleux/Realistic_Transductive_Few_Shot.
翻訳日:2022-04-27 04:22:35 公開日:2022-04-24
# (参考訳) PUERT:CS-MRIのための確率的アンダーサンプリングと説明可能な再構成ネットワーク

PUERT: Probabilistic Under-sampling and Explicable Reconstruction Network for CS-MRI ( http://arxiv.org/abs/2204.11189v1 )

ライセンス: CC BY 4.0
Jingfen Xie, Jian Zhang, Yongbing Zhang, Xiangyang Ji(参考訳) Compressed Sensing MRI (CS-MRI) は、k空間データをサンプリングしてMRイメージングを加速するために、サブニキストからデエイリアスイメージを再構成することを目的としている。 両問題を同時に処理するために, サンプリングパターンと再構成ネットワークを協調的に最適化するために, PUERT と呼ばれる新しいエンド・ツー・エンドの確率的アンダーサンプリングと Explicable Reconstruction neTwork を提案する。 決定論的マスクを学習する代わりに、提案するサンプリングサブネットは最適な確率的サブサンプリングパターンを探索し、それぞれのサンプリング点における独立したベルヌーイ確率変数を記述し、より信頼性の高いcs再構成のための堅牢性と確率性を保持する。 さらに、動的勾配推定戦略を導入し、後方伝播における二項化関数を徐々に近似し、勾配情報を効率的に保存し、さらに復元品質を向上させる。 さらに,再構成サブネットでは,サンプリングサブネットのさらなる活用を支援するために,高効率かつ解釈性を有するモデルベースネットワーク設計方式を採用する。 2つの広く使われているmriデータセットに関する広範囲な実験により、提案するpuertは定量的指標と視覚品質の両方で最先端の結果を得るだけでなく、サブサンプリングパターンとトレーニングデータにカスタマイズされた再構成モデルも生み出すことが示された。

Compressed Sensing MRI (CS-MRI) aims at reconstructing de-aliased images from sub-Nyquist sampling k-space data to accelerate MR Imaging, thus presenting two basic issues, i.e., where to sample and how to reconstruct. To deal with both problems simultaneously, we propose a novel end-to-end Probabilistic Under-sampling and Explicable Reconstruction neTwork, dubbed PUERT, to jointly optimize the sampling pattern and the reconstruction network. Instead of learning a deterministic mask, the proposed sampling subnet explores an optimal probabilistic sub-sampling pattern, which describes independent Bernoulli random variables at each possible sampling point, thus retaining robustness and stochastics for a more reliable CS reconstruction. A dynamic gradient estimation strategy is further introduced to gradually approximate the binarization function in backward propagation, which efficiently preserves the gradient information and further improves the reconstruction quality. Moreover, in our reconstruction subnet, we adopt a model-based network design scheme with high efficiency and interpretability, which is shown to assist in further exploitation for the sampling subnet. Extensive experiments on two widely used MRI datasets demonstrate that our proposed PUERT not only achieves state-of-the-art results in terms of both quantitative metrics and visual quality but also yields a sub-sampling pattern and a reconstruction model that are both customized to training data.
翻訳日:2022-04-27 03:54:47 公開日:2022-04-24
# (参考訳) 文書要約のための知識の埋め込み:調査

Embedding Knowledge for Document Summarization: A Survey ( http://arxiv.org/abs/2204.11190v1 )

ライセンス: CC BY 4.0
Yutong Qu, Wei Emma Zhang, Jian Yang, Lingfei Wu, Jia Wu and Xindong Wu(参考訳) ナレッジアウェアの手法は、過去数十年間、様々な自然言語処理アプリケーションを強化してきた。 勢いの高まりとともに、近年は文書要約研究において知識が大きな注目を集めている。 従来の研究は、知識を組み込んだ文書要約器が優れた消化力、特に情報性、一貫性、事実整合性を生み出すのに優れていたことを証明した。 本稿では,知識を文書要約に組み込む最先端方法論について,初めて体系的な調査を行う。 特に,文書要約の視点で知識と知識の埋め込みを再結合する新しい分類法を提案する。 さらに、文書要約モデルの学習アーキテクチャ、特にディープラーニングモデルにおいて、埋め込みがどのように生成されるかを考察する。 最後に、このトピックの課題と今後の方向性について論じる。

Knowledge-aware methods have boosted a range of Natural Language Processing applications over the last decades. With the gathered momentum, knowledge recently has been pumped into enormous attention in document summarization research. Previous works proved that knowledge-embedded document summarizers excel at generating superior digests, especially in terms of informativeness, coherence, and fact consistency. This paper pursues to present the first systematic survey for the state-of-the-art methodologies that embed knowledge into document summarizers. Particularly, we propose novel taxonomies to recapitulate knowledge and knowledge embeddings under the document summarization view. We further explore how embeddings are generated in learning architectures of document summarization models, especially in deep learning models. At last, we discuss the challenges of this topic and future directions.
翻訳日:2022-04-27 03:25:17 公開日:2022-04-24
# (参考訳) モーションキューを用いた2次元LiDARとカメラフュージョンによる屋内レイアウト推定

2D LiDAR and Camera Fusion Using Motion Cues for Indoor Layout Estimation ( http://arxiv.org/abs/2204.11202v1 )

ライセンス: CC0 1.0
Jieyu Li, Robert Stevenson(参考訳) 本稿では,2次元LiDARと強度カメラデータの融合に基づく屋内レイアウト推定システムを提案する。 地上ロボットは、単一の床と垂直の壁を持つ屋内空間を探索し、一連の強度画像と2D LiDARデータセットを収集する。 LiDARは正確な深度情報を提供し、カメラは意味解釈のための高解像度データをキャプチャする。 センサ出力のアライメントと画像セグメンテーションは、部屋の輪郭のサンプルであるライダー点を画像の地壁境界に合わせることにより、共同で計算される。 また、アライメント問題をトップダウンビュー投影と2次元類似性変換推定に分解し、2つのセンサの垂直消滅点と動きに応じて解くことができる。 逐次測定により複数の仮説を生成し,評価し,最適化するために,再帰的ランダムサンプルコンセンサスアルゴリズムを実装した。 このシステムは、オフラインキャリブレーションなしで、異なるセンサーから幾何学的解釈を共同で分析することができる。 地層境界抽出のための画像の曖昧さをLiDAR観測により除去し,セマンティックセグメンテーションの精度を向上させる。 局所化とマッピングは融合データを用いて洗練され、低テクスチャや低幾何学的特徴を持つシーンで確実に動作する。

This paper presents a novel indoor layout estimation system based on the fusion of 2D LiDAR and intensity camera data. A ground robot explores an indoor space with a single floor and vertical walls, and collects a sequence of intensity images and 2D LiDAR datasets. The LiDAR provides accurate depth information, while the camera captures high-resolution data for semantic interpretation. The alignment of sensor outputs and image segmentation are computed jointly by aligning LiDAR points, as samples of the room contour, to ground-wall boundaries in the images. The alignment problem is decoupled into a top-down view projection and a 2D similarity transformation estimation, which can be solved according to the vertical vanishing point and motion of two sensors. The recursive random sample consensus algorithm is implemented to generate, evaluate and optimize multiple hypotheses with the sequential measurements. The system allows jointly analyzing the geometric interpretation from different sensors without offline calibration. The ambiguity in images for ground-wall boundary extraction is removed with the assistance of LiDAR observations, which improves the accuracy of semantic segmentation. The localization and mapping is refined using the fused data, which enables the system to work reliably in scenes with low texture or low geometric features.
翻訳日:2022-04-27 02:45:58 公開日:2022-04-24
# (参考訳) グラフニューラルネットワークを用いた早期ベアリング障害検出

Graph Neural Network-based Early Bearing Fault Detection ( http://arxiv.org/abs/2204.11220v1 )

ライセンス: CC BY 4.0
Xusheng Du, Jiong Yu(参考訳) 故障の早期発見は、壊滅的な事故を回避し、機械の安全な運転を確保するために重要である。 aiと実世界の機械システムの橋渡しを行うために,新しいグラフニューラルネットワークに基づく故障検出手法を提案する。 まず、ユークリッド構造データである振動信号をグラフ(非ユークリッド構造データ)に変換し、互いに独立な振動信号を相互に相関させる。 第二に、データセットと対応するグラフをトレーニングのためにGNNに入力し、ネットワークの各隠蔽層にグラフを含むことにより、グラフニューラルネットワークは自身とその隣人の特徴値を学ぶことができ、得られた初期特徴はより識別性が高い。 最後に、GNNの出力層を障害オブジェクトとして再構成することが難しいトップnオブジェクトを決定する。 提案手法の有効性を検証するために軸受の公開データセットが用いられている。 提案手法は, 正常な対象領域に混入した異常物体を効果的に検出できることを見いだした。

Early detection of faults is of importance to avoid catastrophic accidents and ensure safe operation of machinery. A novel graph neural network-based fault detection method is proposed to build a bridge between AI and real-world running mechanical systems. First, the vibration signals, which are Euclidean structured data, are converted into graph (non-Euclidean structured data), so that the vibration signals, which are originally independent of each other, are correlated with each other. Second, inputs the dataset together with its corresponding graph into the GNN for training, which contains graphs in each hidden layer of the network, enabling the graph neural network to learn the feature values of itself and its neighbors, and the obtained early features have stronger discriminability. Finally, determines the top-n objects that are difficult to reconstruct in the output layer of the GNN as fault objects. A public datasets of bearings have been used to verify the effectiveness of the proposed method. We find that the proposed method can successfully detect faulty objects that are mixed in the normal object region.
翻訳日:2022-04-27 02:35:17 公開日:2022-04-24
# (参考訳) 半監督物体検出によるOCTの病変局在化

Lesion Localization in OCT by Semi-Supervised Object Detection ( http://arxiv.org/abs/2204.11227v1 )

ライセンス: CC BY 4.0
Yue Wu and Yang Zhou and Jianchun Zhao and Jingyuan Yang and Weihong Yu and Youxin Chen and Xirong Li(参考訳) 世界中の3億人以上が様々な網膜疾患に罹患している。 非侵襲性光コヒーレンス・トモグラフィー(OCT)スキャンにより、網膜の異常な構造変化、すなわち網膜病変を同定することができる。 したがって,OCTにおける病変の自動局在は早期網膜疾患の検出に重要である。 深層学習における手動アノテーションの欠如を克服するために, OCT画像の病変局所化に半教師付き物体検出(SSOD)を利用するための最初の研究を行った。 そこで我々は,現在のSSOD手法の統一的かつ構造化された視点を提供する分類法を開発し,その結果,これらの手法の主要なモジュールを同定する。 新しいタスクにおけるこれらのモジュールの影響を評価するために,1k以上の専門家ラベル付きCTBスキャン画像と13k以上の未ラベルのBスキャン画像からなる新しいデータセットであるOCT-SSを構築した。 OCT-SSの広範囲にわたる実験は、Unbiased Teacher (UnT) を病変局所化のための最良のSSOD法として同定している。 さらに,この強力なベースラインに対して,マップを49.34から50.86に増やした。

Over 300 million people worldwide are affected by various retinal diseases. By noninvasive Optical Coherence Tomography (OCT) scans, a number of abnormal structural changes in the retina, namely retinal lesions, can be identified. Automated lesion localization in OCT is thus important for detecting retinal diseases at their early stage. To conquer the lack of manual annotation for deep supervised learning, this paper presents a first study on utilizing semi-supervised object detection (SSOD) for lesion localization in OCT images. To that end, we develop a taxonomy to provide a unified and structured viewpoint of the current SSOD methods, and consequently identify key modules in these methods. To evaluate the influence of these modules in the new task, we build OCT-SS, a new dataset consisting of over 1k expert-labeled OCT B-scan images and over 13k unlabeled B-scans. Extensive experiments on OCT-SS identify Unbiased Teacher (UnT) as the best current SSOD method for lesion localization. Moreover, we improve over this strong baseline, with mAP increased from 49.34 to 50.86.
翻訳日:2022-04-27 02:08:44 公開日:2022-04-24
# (参考訳) 非均質クラッタにおける教師なし学習判別MIG検出器

Unsupervised Learning Discriminative MIG Detectors in Nonhomogeneous Clutter ( http://arxiv.org/abs/2204.11278v1 )

ライセンス: CC BY 4.0
Xiaoqiang Hua, Yusuke Ono, Linyu Peng, Yuting Xu(参考訳) 主成分分析(PCA)は、高次元データをデータ分散を最大化する低次元空間にマッピングする一般的なパターン解析法であり、データの分離性を促進する。 PCAの原理に触発されて、教師なしシナリオにおける新しいタイプの識別行列情報幾何(MIG)検出器を開発し、非均一環境における信号検出に適用した。 エルミート正定値(HPD)行列はサンプルデータのモデル化に利用でき、クラッタ共分散行列は二次HPD行列の幾何平均によって推定される。 高次元多様体内のhpd行列を低次元でより識別的な行列に写像し、データ分散を最大化することによりhpd行列の分離度を増加させる射影を定義する。 写像の学習はリーマン多様体における2段階のミニマックス最適化問題として定式化でき、リーマン勾配降下アルゴリズムによって解くことができる。 3つの識別的mig検出器は、異なる幾何学的測度、すなわちログユークリッド計量、ジェンセン・ブレグマン・ロデットの発散、対称性化されたクルバック・リーバーの発散に関して示される。 シミュレーションの結果,新しいMIG検出器の性能向上は,非均一環境下での従来の検出器とその最先端検出器と比較して達成できることがわかった。

Principal component analysis (PCA) is a common used pattern analysis method that maps high-dimensional data into a lower-dimensional space maximizing the data variance, that results in the promotion of separability of data. Inspired by the principle of PCA, a novel type of learning discriminative matrix information geometry (MIG) detectors in the unsupervised scenario are developed, and applied to signal detection in nonhomogeneous environments. Hermitian positive-definite (HPD) matrices can be used to model the sample data, while the clutter covariance matrix is estimated by the geometric mean of a set of secondary HPD matrices. We define a projection that maps the HPD matrices in a high-dimensional manifold to a low-dimensional and more discriminative one to increase the degree of separation of HPD matrices by maximizing the data variance. Learning a mapping can be formulated as a two-step mini-max optimization problem in Riemannian manifolds, which can be solved by the Riemannian gradient descent algorithm. Three discriminative MIG detectors are illustrated with respect to different geometric measures, i.e., the Log-Euclidean metric, the Jensen--Bregman LogDet divergence and the symmetrized Kullback--Leibler divergence. Simulation results show that performance improvements of the novel MIG detectors can be achieved compared with the conventional detectors and their state-of-the-art counterparts within nonhomogeneous environments.
翻訳日:2022-04-27 01:56:25 公開日:2022-04-24
# (参考訳) 入場料による施設立地

Facility Location with Entrance Fees ( http://arxiv.org/abs/2204.11282v1 )

ライセンス: CC0 1.0
Mengfan Ma, Mingyu Xiao, Tian Bai, and Bakh Khoussainov(参考訳) 機構設計において、施設位置ゲームは広く研究されている問題である。 古典的なモデルでは、各エージェントのコストは最も近い施設までの距離である。 本稿では,施設の入場料に場所依存の入場料金を課す新しいモデルについて検討する。 したがって,我々のモデルでは,各エージェントの費用は施設までの距離と施設の入場料の合計である。 これは古典モデルの洗練された一般化である。 モデルと設計の戦略防御機構について検討する。 1つの施設と2つの施設に対して、実用目的と平等目的に関する決定的・ランダム化機構によって与えられる近似比の上限と下限を提供する。 我々の境界は厳密であり、これらの境界は入場料関数から独立している。 入場料関数は任意であるため,本研究の結果は可能な限り一般的である。

In mechanism design, the facility location game is an extensively studied problem. In the classical model, the cost of each agent is her distance to the nearest facility. In this paper, we consider a new model, where there is a location-dependent entrance fee to the facility. Thus, in our model, the cost of each agent is the sum of the distance to the facility and the entrance fee of the facility. This is a refined generalization of the classical model. We study the model and design strategyproof mechanisms. For one and two facilities, we provide upper and lower bounds for the approximation ratio given by deterministic and randomized mechanisms, with respect to the utilitarian objective and the egalitarian objective. Most of our bounds are tight and these bounds are independent of the entrance fee functions. Our results are as general as possible because the entrance fee function we consider is arbitrary.
翻訳日:2022-04-27 01:29:19 公開日:2022-04-24
# (参考訳) 複雑さと回避

Complexity and Avoidance ( http://arxiv.org/abs/2204.11289v1 )

ライセンス: CC BY 4.0
Hayden Jananthan(参考訳) この論文では、複雑性、$\mathrm{LUA}$(Linearly Universal Avoidance)およびシフト複雑性階層を含むいくつかの階層間の関係を、成長速度の定量的な境界に注目して検討する。 適切な$f$と$p$に対して、$q$と$g$があり、$\mathrm{LUA} であることを示す。 (q) \leq_\mathrm{s} \mathrm{COMPLEX} (f)$ と $\mathrm{complex} (g) \leq_\mathrm{s} \mathrm{LUA} (p)$および$q$および$g$の成長率の定量化。 逆向きに、$\lim_{n \to \infty}{f(n)/n}=1$を満たす部分同一の$f$ に対して$\mathrm{complex} となる$q$ が存在することを示す。 (f) \leq_\mathrm{w} \mathrm{LUA} (q)$と、ある急速に成長する$p$に対して、$\mathrm{LUA} となる$g$が存在する。 (p) \leq_\mathrm{s} \mathrm{COMPLEX} (g)$および$q$および$g$の成長率の定量化。 シフト複雑性に関して、$\rm{LUA} の任意のメンバに対して、q$ がどれだけ遅く成長するかを明確に制限する。 (q)$ で$\delta$-shift の複素列を計算する。 複雑性階層に動機付けられ、シフト複雑性の概念を一般化して、$X$ を満たす列 $\operatorname{KP}(\tau) \geq f(|\tau|) - O(1)$ をすべての部分弦に対して $\tau$ of $X$ とする。 十分にゆっくり成長する$f$の場合、$f$-shift複素列は$g$-complex sequencesによって一様に計算され、$g$は$f$よりもわずかに速く成長する。 $\mathrm{LUA}$階層の構造は、ブッディーツリーの強制によって調べられ、主な結果は、任意の順序関数$p$に対して、$\mathrm{LUA} のようなゆっくりと成長する順序関数 $q$ が存在することである。 (p)$ と $\mathrm{lua} (q)$は弱可算である。 これを用いて、深い空でない$\Pi^0_1$クラスの弱度フィルタとシフト複雑性と$\mathrm{LUA}$階層との間の接続に関する新しい結果を示す。

In this dissertation we examine the relationships between the several hierarchies, including the complexity, $\mathrm{LUA}$ (Linearly Universal Avoidance), and shift complexity hierarchies, with an eye towards quantitative bounds on growth rates therein. We show that for suitable $f$ and $p$, there are $q$ and $g$ such that $\mathrm{LUA}(q) \leq_\mathrm{s} \mathrm{COMPLEX}(f)$ and $\mathrm{COMPLEX}(g) \leq_\mathrm{s} \mathrm{LUA}(p)$, as well as quantify the growth rates of $q$ and $g$. In the opposite direction, we show that for certain sub-identical $f$ satisfying $\lim_{n \to \infty}{f(n)/n}=1$ there is a $q$ such that $\mathrm{COMPLEX}(f) \leq_\mathrm{w} \mathrm{LUA}(q)$, and for certain fast-growing $p$ there is a $g$ such that $\mathrm{LUA}(p) \leq_\mathrm{s} \mathrm{COMPLEX}(g)$, as well as quantify the growth rates of $q$ and $g$. Concerning shift complexity, explicit bounds are given on how slow-growing $q$ must be for any member of $\rm{LUA}(q)$ to compute $\delta$-shift complex sequences. Motivated by the complexity hierarchy, we generalize the notion of shift complexity to consider sequences $X$ satisfying $\operatorname{KP}(\tau) \geq f(|\tau|) - O(1)$ for all substrings $\tau$ of $X$ where $f$ is any order function. We show that for sufficiently slow-growing $f$, $f$-shift complex sequences can be uniformly computed by $g$-complex sequences, where $g$ grows slightly faster than $f$. The structure of the $\mathrm{LUA}$ hierarchy is examined using bushy tree forcing, with the main result being that for any order function $p$, there is a slow-growing order function $q$ such that $\mathrm{LUA}(p)$ and $\mathrm{LUA}(q)$ are weakly incomparable. Using this, we prove new results about the filter of the weak degrees of deep nonempty $\Pi^0_1$ classes and the connection between the shift complexity and $\mathrm{LUA}$ hierarchies.
翻訳日:2022-04-27 01:02:37 公開日:2022-04-24
# (参考訳) 低周波・高周波同時ブートストラップによる大規模時系列表現学習

Large Scale Time-Series Representation Learning via Simultaneous Low and High Frequency Feature Bootstrapping ( http://arxiv.org/abs/2204.11291v1 )

ライセンス: CC BY-SA 4.0
Vandan Gorade, Azad Singh and Deepak Mishra(参考訳) ラベルのない時系列データからの表現の学習は難しい問題である。 時系列領域における既存の自己監督的および非教師的アプローチの多くは、同時に低周波数の特徴を捉えない。 さらに、これらの方法のいくつかは、トランスフォーマーのような大規模モデルを採用するか、コントラスト学習のような計算コストの高い技術に依存している。 これらの問題に対処するために,非コントラスト型自己教師型学習手法を提案する。 本手法は, 時系列データを入力として入力し, 同一家族からランダムに増補をサンプリングすることで, モデルの2つの分岐に対して2つの異なる拡張ビューを生成する。 BYOLの用語に従い、2つのブランチはオンラインとターゲットネットワークと呼ばれ、潜在表現のブートストラップを可能にする。 BYOLとは対照的に、バックボーンエンコーダにマルチ層パーセプトロン(MLP)ヘッドが続き、提案モデルは、追加の時間畳み込みネットワーク(TCN)ヘッドを含む。 拡張ビューはエンコーダの大きなカーネル畳み込みブロックを通過するため、後続のMLPとTCNの組み合わせは、様々な受容場による低域と高周波数の時間変化の特徴を効果的に表現することができる。 2つのモジュール (MLP と TCN) は相補的に作用する。 対象ネットワークブランチの各モジュールの結果を予測するために,各モジュールが学習するオンラインネットワークをトレーニングする。 モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。 本手法は,5つの実世界のデータセットすべてにおいて最先端のパフォーマンスを達成した。

Learning representation from unlabeled time series data is a challenging problem. Most existing self-supervised and unsupervised approaches in the time-series domain do not capture low and high-frequency features at the same time. Further, some of these methods employ large scale models like transformers or rely on computationally expensive techniques such as contrastive learning. To tackle these problems, we propose a non-contrastive self-supervised learning approach efficiently captures low and high-frequency time-varying features in a cost-effective manner. Our method takes raw time series data as input and creates two different augmented views for two branches of the model, by randomly sampling the augmentations from same family. Following the terminology of BYOL, the two branches are called online and target network which allows bootstrapping of the latent representation. In contrast to BYOL, where a backbone encoder is followed by multilayer perceptron (MLP) heads, the proposed model contains additional temporal convolutional network (TCN) heads. As the augmented views are passed through large kernel convolution blocks of the encoder, the subsequent combination of MLP and TCN enables an effective representation of low as well as high-frequency time-varying features due to the varying receptive fields. The two modules (MLP and TCN) act in a complementary manner. We train an online network where each module learns to predict the outcome of the respective module of target network branch. To demonstrate the robustness of our model we performed extensive experiments and ablation studies on five real-world time-series datasets. Our method achieved state-of-art performance on all five real-world datasets.
翻訳日:2022-04-27 01:00:53 公開日:2022-04-24
# (参考訳) 深層分布型マルチインテンス学習による大腸癌生存予測

Colorectal cancer survival prediction using deep distribution based multiple-instance learning ( http://arxiv.org/abs/2204.11294v1 )

ライセンス: CC BY 4.0
Xingyu Li, Jitendra Jonnagaddala, Min Cen, Hong Zhang, Xu Steven Xu(参考訳) whole slide image (wsis) を用いてがん患者の生存率を予測するディープラーニングアルゴリズムが開発されている。 しかし、患者生存と疾患進行に関連するWSI内の画像表現型の同定は、臨床医と深層学習アルゴリズムの両方にとって困難である。 生存予測のための最も深い学習に基づく多重インスタンス学習(MIL)アルゴリズムは、トップインスタンス(例えば、最大プール)またはトップ/ボットインスタンス(例えば、MesoNet)を使用して画像表現型を識別する。 本研究では,wsi内のパッチスコアの分布に関するヒューリスティックな情報が,癌生存率の予測に有効であることを仮定した。 この仮説を検証するために,分布に基づく多重インスタンス生存学習アルゴリズム(DeepDisMISL)を開発した。 我々は,MCO CRCとTCGA COAD-READの2つの大規模大腸癌WSIsデータセットを用いて実験を設計・実行した。 以上の結果から,wsi のパッチスコアの分布に関する情報が多いほど,予測性能が向上することが示唆された。 選択された分布位置(例えばパーセンタイル)に複数の近傍インスタンスを含めることで、予測をさらに改善することができる。 DeepDisMISLは、最近発表された最先端のアルゴリズムよりも優れた予測能力を示した。 さらに,本アルゴリズムは解釈可能であり,癌形態学的表現型とがん生存リスクとの関係の理解に役立てることができる。

Several deep learning algorithms have been developed to predict survival of cancer patients using whole slide images (WSIs).However, identification of image phenotypes within the WSIs that are relevant to patient survival and disease progression is difficult for both clinicians, and deep learning algorithms. Most deep learning based Multiple Instance Learning (MIL) algorithms for survival prediction use either top instances (e.g., maxpooling) or top/bottom instances (e.g., MesoNet) to identify image phenotypes. In this study, we hypothesize that wholistic information of the distribution of the patch scores within a WSI can predict the cancer survival better. We developed a distribution based multiple-instance survival learning algorithm (DeepDisMISL) to validate this hypothesis. We designed and executed experiments using two large international colorectal cancer WSIs datasets - MCO CRC and TCGA COAD-READ. Our results suggest that the more information about the distribution of the patch scores for a WSI, the better is the prediction performance. Including multiple neighborhood instances around each selected distribution location (e.g., percentiles) could further improve the prediction. DeepDisMISL demonstrated superior predictive ability compared to other recently published, state-of-the-art algorithms. Furthermore, our algorithm is interpretable and could assist in understanding the relationship between cancer morphological phenotypes and patients cancer survival risk.
翻訳日:2022-04-27 00:49:34 公開日:2022-04-24
# (参考訳) ニューラルネットワーク損失関数のマルチスケール構造:最適化と創発性への影響

The Multiscale Structure of Neural Network Loss Functions: The Effect on Optimization and Origin ( http://arxiv.org/abs/2204.11326v1 )

ライセンス: CC BY 4.0
Chao Ma, Lei Wu, Lexing Ying(参考訳) 局所二次近似は、最小限のニューラルネットワーク損失関数の最適化の研究に広く用いられている。 しかし、通常は最小限の非常に小さな近傍にあり、最適化過程で観測された多くの現象を説明できない。 本研究では,ニューラルネットワーク損失関数の構造とその2次近似の範囲を超えた領域における最適化への影響について検討する。 数値的には、ニューラルネットワークの損失関数は、(1)ミニマ近傍では、損失がスケールの連続体とサブクアドラルな成長を混合し、(2)より大きな領域では、損失がいくつかの別々のスケールを示すという2つの方法で表されるマルチスケール構造を持っている。 準四面体成長を用いて,勾配降下法(GD)法で観測された安定性のエッジ[4]を説明することができる。 個別の尺度を用いて,学習率減衰の動作機構を簡単な例で説明する。 最後に,マルチスケール構造の起源を考察し,トレーニングデータの非一様性がその原因の一つであることを示す。 2層ニューラルネットワーク問題を構築することで、異なる大きさのトレーニングデータが損失関数の異なるスケールを生じさせ、サブクワッドラティックな成長または複数の別スケールを生み出すことを示す。

Local quadratic approximation has been extensively used to study the optimization of neural network loss functions around the minimum. Though, it usually holds in a very small neighborhood of the minimum, and cannot explain many phenomena observed during the optimization process. In this work, we study the structure of neural network loss functions and its implication on optimization in a region beyond the reach of good quadratic approximation. Numerically, we observe that neural network loss functions possesses a multiscale structure, manifested in two ways: (1) in a neighborhood of minima, the loss mixes a continuum of scales and grows subquadratically, and (2) in a larger region, the loss shows several separate scales clearly. Using the subquadratic growth, we are able to explain the Edge of Stability phenomenon[4] observed for gradient descent (GD) method. Using the separate scales, we explain the working mechanism of learning rate decay by simple examples. Finally, we study the origin of the multiscale structure and propose that the non-uniformity of training data is one of its cause. By constructing a two-layer neural network problem we show that training data with different magnitudes give rise to different scales of the loss function, producing subquadratic growth or multiple separate scales.
翻訳日:2022-04-27 00:48:29 公開日:2022-04-24
# (参考訳) 医用画像登録のための深層学習 : 総合的レビュー

Deep Learning for Medical Image Registration: A Comprehensive Review ( http://arxiv.org/abs/2204.11341v1 )

ライセンス: CC BY 4.0
Subrato Bharati, M. Rubaiyat Hossain Mondal, Prajoy Podder, V. B. Surya Prasath(参考訳) 画像登録は様々な医用画像解析の応用において重要な要素である。 近年,深層学習(DL)に基づく医用画像登録モデルの開発が急増している。 本稿では,医療画像登録の包括的レビューを行う。 まず, 完全教師登録, 二重監督登録, 弱監督登録など, 監督登録カテゴリについて議論する。 次に、類似度ベースおよび生成逆ネットワーク(gan)ベースの登録を教師なし登録の一部として提示する。 深い反復的な登録は、深い類似性と強化学習に基づく登録に重点を置いて記述される。 また、医療画像登録の申請領域について検討する。 本総説では,X線,CTスキャン,超音波,MRIなどのモノモダルおよびマルチモーダルの登録と関連画像に焦点をあてる。 既存の課題はこのレビューで強調されており、既知の変換を持つトレーニングデータセットがないことが大きな課題であることが示されている。 最後に、DLベースの医用画像登録分野における将来的な研究分野について議論する。

Image registration is a critical component in the applications of various medical image analyses. In recent years, there has been a tremendous surge in the development of deep learning (DL)-based medical image registration models. This paper provides a comprehensive review of medical image registration. Firstly, a discussion is provided for supervised registration categories, for example, fully supervised, dual supervised, and weakly supervised registration. Next, similarity-based as well as generative adversarial network (GAN)-based registration are presented as part of unsupervised registration. Deep iterative registration is then described with emphasis on deep similarity-based and reinforcement learning-based registration. Moreover, the application areas of medical image registration are reviewed. This review focuses on monomodal and multimodal registration and associated imaging, for instance, X-ray, CT scan, ultrasound, and MRI. The existing challenges are highlighted in this review, where it is shown that a major challenge is the absence of a training dataset with known transformations. Finally, a discussion is provided on the promising future research areas in the field of DL-based medical image registration.
翻訳日:2022-04-27 00:32:01 公開日:2022-04-24
# (参考訳) 深層学習モデルにおけるSHAP(SHapley Additive Explanations)の安定性に及ぼす背景データサイズの影響に関する実証的研究

An empirical study of the effect of background data size on the stability of SHapley Additive exPlanations (SHAP) for deep learning models ( http://arxiv.org/abs/2204.11351v1 )

ライセンス: CC BY 4.0
Han Yuan, Mingxuan Liu, Michael Krauthammer, Lican Kang, Chenkui Miao, Ying Wu(参考訳) 今日では、機械学習(ML)モデルが特定の推論を行う理由の解釈は、そのような推論の正確さと同じくらい重要である。 決定木のようなMLモデルは、人間によって直接解釈できる固有の解釈可能性を持っている。 しかし、artificial neural networks (ann)のような他のものは、推論メカニズムを明らかにするために外部の方法に依存している。 SHAP(SHapley Additive exPlanations)は、ANNを解釈する際にバックグラウンドデータセットを必要とする外部メソッドの1つである。 一般的に、バックグラウンドデータセットはトレーニングデータセットからランダムにサンプリングされたインスタンスで構成される。 しかし、サンプリングサイズとそのシャップへの影響は未解明のままである。 MIMIC-IIIデータセットに関する実証的研究では,ランダムサンプリングから取得した異なる背景データセットを使用すると,SHAP値と変数ランクが変動し,SHAPからのワンショット解釈を疑わしく信頼できないことを示す。 幸いなことに、背景データセットサイズの増加に伴い、そのような変動は減少する。 また、SHAP変数ランキングの安定性評価におけるU字型は、中等度に重要な変数よりも、最も重要かつ最も重要でない変数のランク付けに信頼性が高いことを示す。 以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。

Nowadays, the interpretation of why a machine learning (ML) model makes certain inferences is as crucial as the accuracy of such inferences. Some ML models like the decision tree possess inherent interpretability that can be directly comprehended by humans. Others like artificial neural networks (ANN), however, rely on external methods to uncover the deduction mechanism. SHapley Additive exPlanations (SHAP) is one of such external methods, which requires a background dataset when interpreting ANNs. Generally, a background dataset consists of instances randomly sampled from the training dataset. However, the sampling size and its effect on SHAP remain to be unexplored. In our empirical study on the MIMIC-III dataset, we show that the two core explanations - SHAP values and variable rankings fluctuate when using different background datasets acquired from random sampling, indicating that users cannot unquestioningly trust the one-shot interpretation from SHAP. Luckily, such fluctuation decreases with the increase of the background dataset size. Also, we notice an U-shape in the stability assessment of SHAP variable rankings, demonstrating that SHAP is more reliable in ranking the most and least important variables compared to moderately important ones. Overall, our results suggest that users should take into account how background data affects SHAP results, with improved SHAP stability as the background sample size increases.
翻訳日:2022-04-26 23:55:59 公開日:2022-04-24
# (参考訳) dersによるpowergrids攻撃の学習

Learning to Attack Powergrids with DERs ( http://arxiv.org/abs/2204.11352v1 )

ライセンス: CC BY-SA 4.0
Eric MSP Veith, Nils Wenninghoff, Stephan Balduin, Thomas Wolgast, Sebastian Lehnhoff(参考訳) 近年、電力網はサイバー攻撃にとって貴重な標的となっている。 特にウクライナの電力網に対する攻撃は、攻撃ベクトル、その範囲、緩和の可能性に関する多くの研究を引き起こしている。 しかし、多くの場合、時系列が独立したジェネレータやコンシューマのトランジェントな振る舞いを反映したシミュレーションに組み込まれるような現実的なシナリオは考えていない。 さらに、潜在的な攻撃者の感覚入力が限られていると考えるものはほとんどない。 本稿では,よく理解されたシナリオに基づくリアクティブパワーアタックについて述べる。 独立エージェントがそれに対する電力グリッドのダイナミクスを学習できることと、攻撃が他のジェネレータやコンシューマノードが独立して動作している場合でも機能することを示します。

In the past years, power grids have become a valuable target for cyber-attacks. Especially the attacks on the Ukrainian power grid has sparked numerous research into possible attack vectors, their extent, and possible mitigations. However, many fail to consider realistic scenarios in which time series are incorporated into simulations to reflect the transient behaviour of independent generators and consumers. Moreover, very few consider the limited sensory input of a potential attacker. In this paper, we describe a reactive power attack based on a well-understood scenario. We show that independent agents can learn to use the dynamics of the power grid against it and that the attack works even in the face of other generator and consumer nodes acting independently.
翻訳日:2022-04-26 23:45:53 公開日:2022-04-24
# (参考訳) Hate Me Not: コードスイッチド言語におけるHate Inducing Memesの検出

Hate Me Not: Detecting Hate Inducing Memes in Code Switched Languages ( http://arxiv.org/abs/2204.11356v1 )

ライセンス: CC BY 4.0
Kshitij Rajput, Raghav Kapoor, Kaushal Rai, Preeti Kaur(参考訳) ソーシャルメディア利用者の増加は、オンラインで投稿された憎しみのあるコンテンツの増加につながっている。 複数の言語が話されているインドのような国では、こうしたアホレントポストは、コードに切り替えられた言語が異例に混在している。 この憎しみの言葉は、イメージの助けを借りて「ミーム」を形成し、人間の心に長期間の影響を及ぼす。 本稿では,コード切り換え言語にテキストを含む画像(ミーム)など,マルチモーダルなデータから嫌悪検出のタスクを取り上げる。 まず,インド独立後に発生した様々な政治イベントのミームを含む,三重注釈付きインド政治ミーム(IPM)データセットを3つのカテゴリに分類した。 また、CNNモデルとLSTMモデルを用いたテキストを用いて画像を処理し、そのタスクの最先端結果を得るためのバイナリチャネル化されたCNN cum LSTMモデルを提案する。

The rise in the number of social media users has led to an increase in the hateful content posted online. In countries like India, where multiple languages are spoken, these abhorrent posts are from an unusual blend of code-switched languages. This hate speech is depicted with the help of images to form "Memes" which create a long-lasting impact on the human mind. In this paper, we take up the task of hate and offense detection from multimodal data, i.e. images (Memes) that contain text in code-switched languages. We firstly present a novel triply annotated Indian political Memes (IPM) dataset, which comprises memes from various Indian political events that have taken place post-independence and are classified into three distinct categories. We also propose a binary-channelled CNN cum LSTM based model to process the images using the CNN model and text using the LSTM model to get state-of-the-art results for this task.
翻訳日:2022-04-26 23:33:23 公開日:2022-04-24
# (参考訳) ネットワーク能力の向上による敵攻撃に対する深層学習モデルロバストネスの改善

Improving Deep Learning Model Robustness Against Adversarial Attack by Increasing the Network Capacity ( http://arxiv.org/abs/2204.11357v1 )

ライセンス: CC BY 4.0
Marco Marchetti and Edmond S. L. Ho(参考訳) 現在、私たちはますますディープラーニング(dl)モデルに依存しているため、これらのシステムのセキュリティを保護することが不可欠です。 本稿では,よりレジリエントなモデルの構築に向けて,実験を通じて,深層学習と分析におけるセキュリティ問題を検討する。 敵攻撃に対するDLモデルの堅牢性を改善するために,新たなアプローチの強みと弱みを識別する実験を行った。 結果は、より優れたDLアルゴリズムを作成するために研究者や実践者が推奨できる改善と新しいアイデアを示している。

Nowadays, we are more and more reliant on Deep Learning (DL) models and thus it is essential to safeguard the security of these systems. This paper explores the security issues in Deep Learning and analyses, through the use of experiments, the way forward to build more resilient models. Experiments are conducted to identify the strengths and weaknesses of a new approach to improve the robustness of DL models against adversarial attacks. The results show improvements and new ideas that can be used as recommendations for researchers and practitioners to create increasingly better DL algorithms.
翻訳日:2022-04-26 23:23:03 公開日:2022-04-24
# (参考訳) 視覚複合ゲームのための低次元観測フィルタを用いた深層強化学習

Deep Reinforcement Learning Using a Low-Dimensional Observation Filter for Visual Complex Video Game Playing ( http://arxiv.org/abs/2204.11370v1 )

ライセンス: CC BY 4.0
Victor Augusto Kich, Junior Costa de Jesus, Ricardo Bedin Grando, Alisson Henrique Kolling, Gabriel Vin\'icius Heisler, Rodrigo da Silva Guerra(参考訳) 深層強化学習(DRL)は、生の視覚入力データを処理できるなど、提案以来大きな成果を上げてきた。 しかし、イメージフィードバックに基づいてタスクを実行するエージェントのトレーニングは依然として課題である。 高次元の観測空間、フレーム単位のフレームから大量のデータを処理する必要がある。エージェントのアクションは、エンドツーエンドのディープニューラルネットワークポリシーに従って計算される。 画像前処理は、これらの高次元空間を減らし、シーンに存在する不要な情報を排除し、エージェントのニューラルネットワークにおける特徴と表現の抽出をサポートする効果的な方法である。 現代のビデオゲームは、その視覚的複雑さのため、DRLアルゴリズムのこの種の課題の例である。 本稿では,深層Qネットワークエージェントが,Neon Driveと呼ばれる,視覚的に複雑で現代的なビデオゲームでうまく遊べる低次元観察フィルタを提案する。

Deep Reinforcement Learning (DRL) has produced great achievements since it was proposed, including the possibility of processing raw vision input data. However, training an agent to perform tasks based on image feedback remains a challenge. It requires the processing of large amounts of data from high-dimensional observation spaces, frame by frame, and the agent's actions are computed according to deep neural network policies, end-to-end. Image pre-processing is an effective way of reducing these high dimensional spaces, eliminating unnecessary information present in the scene, supporting the extraction of features and their representations in the agent's neural network. Modern video-games are examples of this type of challenge for DRL algorithms because of their visual complexity. In this paper, we propose a low-dimensional observation filter that allows a deep Q-network agent to successfully play in a visually complex and modern video-game, called Neon Drive.
翻訳日:2022-04-26 23:12:52 公開日:2022-04-24
# (参考訳) 等変世界モデルの学習対称埋め込み

Learning Symmetric Embeddings for Equivariant World Models ( http://arxiv.org/abs/2204.11371v1 )

ライセンス: CC BY 4.0
Jung Yeon Park, Ondrej Biza, Linfeng Zhao, Jan Willem van de Meent, Robin Walters(参考訳) 対称性を組み込むことで、変換に関連したデータサンプルの同値クラスを定義することで、高度にデータ効率が高く、一般化できるモデルが得られる。 しかし、入力データに変換がどのように作用するかを特徴付けることはしばしば困難であり、同変モデルの適用性を制限する。 本稿では,入力空間(画像など)を符号化する学習対称埋め込みネットワーク(sens)を提案する。 このネットワークは、同変タスクネットワークでエンドツーエンドにトレーニングして、明示的に対称表現を学ぶことができる。 このアプローチを3つの異なる対称性を持つ同変遷移モデルの文脈で検証する。 実験により、SENは複素対称性表現を持つデータへの同変ネットワークの適用を促進することを示した。 さらに、それによって完全同値ベースラインと非同値ベースラインの両方に対して精度と一般化が向上する。

Incorporating symmetries can lead to highly data-efficient and generalizable models by defining equivalence classes of data samples related by transformations. However, characterizing how transformations act on input data is often difficult, limiting the applicability of equivariant models. We propose learning symmetric embedding networks (SENs) that encode an input space (e.g. images), where we do not know the effect of transformations (e.g. rotations), to a feature space that transforms in a known manner under these operations. This network can be trained end-to-end with an equivariant task network to learn an explicitly symmetric representation. We validate this approach in the context of equivariant transition models with 3 distinct forms of symmetry. Our experiments demonstrate that SENs facilitate the application of equivariant networks to data with complex symmetry representations. Moreover, doing so can yield improvements in accuracy and generalization relative to both fully-equivariant and non-equivariant baselines.
翻訳日:2022-04-26 23:02:30 公開日:2022-04-24
# (参考訳) ニューラル情報検索におけるロバスト注意分布に対するエンティティ記述型質問生成

Entity-Conditioned Question Generation for Robust Attention Distribution in Neural Information Retrieval ( http://arxiv.org/abs/2204.11373v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Md Arafat Sultan, Martin Franz, Avirup Sil, Heng Ji(参考訳) 教師付きニューラル情報検索 (ir) モデルでは, 通過トークンよりも少ない注意パターンを学習する傾向がみられ, その結果, 名前付きエンティティが低注意重みを受けるなどの重要なフレーズが生成され, 最終的には低パフォーマンスモデルとなる。 対象とする新しい合成データ生成手法により, 参加者の少なさと生成エピソードの条件を同定し, 与えられた経路内の全ての要素に対してより均一かつ堅牢な参加をニューラルIRに教える。 2つの公開IRベンチマークにおいて、提案手法はゼロショット設定を含むモデルの注意パターンと検索性能の両方を改善することを実証的に示す。

We show that supervised neural information retrieval (IR) models are prone to learning sparse attention patterns over passage tokens, which can result in key phrases including named entities receiving low attention weights, eventually leading to model under-performance. Using a novel targeted synthetic data generation method that identifies poorly attended entities and conditions the generation episodes on those, we teach neural IR to attend more uniformly and robustly to all entities in a given passage. On two public IR benchmarks, we empirically show that the proposed method helps improve both the model's attention patterns and retrieval performance, including in zero-shot settings.
翻訳日:2022-04-26 22:35:49 公開日:2022-04-24
# 一般化ラグランジュ符号化コンピューティング:フレキシブルな計算・通信トレードオフ

Generalized Lagrange Coded Computing: A Flexible Computation-Communication Tradeoff ( http://arxiv.org/abs/2204.11168v1 )

ライセンス: Link先を確認
Jinbao Zhu and Songze Li(参考訳) 本稿では,マスタノードと複数のワーカノードを持つ分散計算機システムにおいて,大規模データセット上で任意の多変量多項式を評価する問題を考える。 一般化されたラグランジュ符号計算(GLCC)符号は、時間内に計算結果を返さないストラグラー、その利益のために意図的に結果を変更する敵の労働者、および労働者の共謀の可能性を秘めたデータセットの情報理論的セキュリティに対して堅牢性を提供するために提案される。 GLCCコードは、まずデータセットを複数のグループに分割し、次に慎重に設計された補間多項式を用いてデータセットを符号化することで構成される。 特に、GLCC符号は、最先端のラグランジュ符号計算(LCC)符号を特別なケースとして含み、システム効率を最適化する際の通信と計算オーバーヘッドの間のより柔軟なトレードオフを実現する。

We consider the problem of evaluating arbitrary multivariate polynomials over a massive dataset, in a distributed computing system with a master node and multiple worker nodes. Generalized Lagrange Coded Computing (GLCC) codes are proposed to provide robustness against stragglers who do not return computation results in time, adversarial workers who deliberately modify results for their benefit, and information-theoretic security of the dataset amidst possible collusion of workers. GLCC codes are constructed by first partitioning the dataset into multiple groups, and then encoding the dataset using carefully designed interpolation polynomials, such that interference computation results across groups can be eliminated at the master. Particularly, GLCC codes include the state-of-the-art Lagrange Coded Computing (LCC) codes as a special case, and achieve a more flexible tradeoff between communication and computation overheads in optimizing system efficiency.
翻訳日:2022-04-26 15:56:14 公開日:2022-04-24
# Hidden-Layer Concatenated Extreme Learning Machine による部分微分方程式の数値計算

Numerical Computation of Partial Differential Equations by Hidden-Layer Concatenated Extreme Learning Machine ( http://arxiv.org/abs/2204.11375v1 )

ライセンス: Link先を確認
Naxian Ni, Suchuan Dong(参考訳) 極端学習機械(ELM)法は線形/非線形偏微分方程式(PDE)に対する高精度な解が得られるが、ニューラルネットワークの最後の隠れ層を広くして高い精度を達成する必要がある。 最後の隠蔽層が狭い場合、ネットワーク構成の他の部分に関係なく、既存のEMM法の精度は低下する。 本稿では,従来のEMM法の欠点を克服するため,HLConcELM (hidden-layer concatenated ELM) と呼ばれる改良ELM法を提案する。 HLConcELM法は,ネットワークの最後の隠蔽層が狭く,幅が広い場合に,線形/非線形PDEに対する高精度な解が得られる。 新しい手法は、HLConcFNN (hidden-layer concatenated FNN)と呼ばれる修正フィードフォワードニューラルネットワーク(FNN)のタイプに基づいており、ネットワーク内の隠された層を論理的に結合させ、すべての隠されたノードを出力層ノードに公開する。 HLConcFNNは,ネットワークアーキテクチャを前提として,ネットワークに新たな隠蔽層を追加する場合や,既存の隠蔽層に余分なノードを追加する場合,新たなアーキテクチャに関連するHLConcFNNの近似能力は,ネットワークアーキテクチャのそれよりも小さくないことが保証されている。 本稿では, HLConcELM法の計算精度と性能, 従来のEMMよりも優れた性能を示すために, 線形非線形PDEを用いたベンチマーク試験を行った。

The extreme learning machine (ELM) method can yield highly accurate solutions to linear/nonlinear partial differential equations (PDEs), but requires the last hidden layer of the neural network to be wide to achieve a high accuracy. If the last hidden layer is narrow, the accuracy of the existing ELM method will be poor, irrespective of the rest of the network configuration. In this paper we present a modified ELM method, termed HLConcELM (hidden-layer concatenated ELM), to overcome the above drawback of the conventional ELM method. The HLConcELM method can produce highly accurate solutions to linear/nonlinear PDEs when the last hidden layer of the network is narrow and when it is wide. The new method is based on a type of modified feedforward neural networks (FNN), termed HLConcFNN (hidden-layer concatenated FNN), which incorporates a logical concatenation of the hidden layers in the network and exposes all the hidden nodes to the output-layer nodes. We show that HLConcFNNs have the remarkable property that, given a network architecture, when additional hidden layers are appended to the network or when extra nodes are added to the existing hidden layers, the approximation capacity of the HLConcFNN associated with the new architecture is guaranteed to be not smaller than that of the original network architecture. We present ample benchmark tests with linear/nonlinear PDEs to demonstrate the computational accuracy and performance of the HLConcELM method and the superiority of this method to the conventional ELM from previous works.
翻訳日:2022-04-26 15:52:55 公開日:2022-04-24
# ハイブリッドモダリティクエリを用いた画像検索のためのプログレッシブ学習

Progressive Learning for Image Retrieval with Hybrid-Modality Queries ( http://arxiv.org/abs/2204.11212v1 )

ライセンス: Link先を確認
Yida Zhao, Yuqing Song, Qin Jin(参考訳) CTI-IR (Composing Text and Image for Image Search) は、検索意図がより複雑なクエリ形式で表現され、視覚とテキストの両方のモダリティを含む検索タスクである。 例えば、対象商品画像は、基準商品画像と、基準画像の特定の属性をクエリとして変更することに関するテキストを用いて検索される。 これは、セマンティック空間学習とクロスモーダル融合の両方を必要とする、より困難な画像検索タスクである。 両方の側面に対処しようとする以前のアプローチは、満足のいくパフォーマンスを実現します。 本稿では,CTI-IRタスクを3段階学習問題に分解し,ハイブリッドモダリティクエリを用いた画像検索の複雑な知識を段階的に学習する。 まず,セマンティクス埋め込み空間をオープンドメイン画像テキスト検索に活用し,その学習知識をファッション関連事前学習タスクでファッションドメインに転送する。 最後に,CTI-IRタスクに対する単一クエリからハイブリッドモダリティクエリへの事前学習モデルの拡張を行う。 さらに,ハイブリッドモダリティクエリにおける個々のモダリティの寄与は,検索シナリオによって異なるため,より優れた検索のために,画像とテキストの重要性を動的に決定する自己教師付き適応重み付け戦略を提案する。 広範な実験により,提案手法は,fashion-iq および shoes ベンチマークデータセットにおいて,recall@k を用いて,24.9% および 9.5% の精度で最先端手法を有意に上回っていることがわかった。

Image retrieval with hybrid-modality queries, also known as composing text and image for image retrieval (CTI-IR), is a retrieval task where the search intention is expressed in a more complex query format, involving both vision and text modalities. For example, a target product image is searched using a reference product image along with text about changing certain attributes of the reference image as the query. It is a more challenging image retrieval task that requires both semantic space learning and cross-modal fusion. Previous approaches that attempt to deal with both aspects achieve unsatisfactory performance. In this paper, we decompose the CTI-IR task into a three-stage learning problem to progressively learn the complex knowledge for image retrieval with hybrid-modality queries. We first leverage the semantic embedding space for open-domain image-text retrieval, and then transfer the learned knowledge to the fashion-domain with fashion-related pre-training tasks. Finally, we enhance the pre-trained model from single-query to hybrid-modality query for the CTI-IR task. Furthermore, as the contribution of individual modality in the hybrid-modality query varies for different retrieval scenarios, we propose a self-supervised adaptive weighting strategy to dynamically determine the importance of image and text in the hybrid-modality query for better retrieval. Extensive experiments show that our proposed model significantly outperforms state-of-the-art methods in the mean of Recall@K by 24.9% and 9.5% on the Fashion-IQ and Shoes benchmark datasets respectively.
翻訳日:2022-04-26 15:44:01 公開日:2022-04-24
# COVID-Net Biochem: 臨床・生化学データによるCOVID-19患者の生存・腎臓損傷予測のための機械学習モデル構築のための説明責任駆動型フレームワーク

COVID-Net Biochem: An Explainability-driven Framework to Building Machine Learning Models for Predicting Survival and Kidney Injury of COVID-19 Patients from Clinical and Biochemistry Data ( http://arxiv.org/abs/2204.11210v1 )

ライセンス: Link先を確認
Hossein Aboutalebi, Maya Pavlova, Mohammad Javad Shafiee, Adrian Florea, Andrew Hryniowski, Alexander Wong(参考訳) 2020年の世界保健機関(WHO)による新型コロナウイルスのパンデミック宣言以来、世界はSARS-CoV-2ウイルスによる新型コロナウイルスの感染拡大を抑えるのに苦戦を続けている。 これは、omicron変異体とその亜変量および組換え体の増加によって特に困難であり、治療を求める患者が大幅に増加し、病院や医療システムに多大な負担をかけた。 パンデミックの間に直面した大きな課題は、生存率の予測と個々の患者への追加的な怪我のリスクであり、さらなる合併症を避けるために重要な臨床専門知識と追加のリソースを必要とする。 本研究では,患者生存予測のための機械学習モデル構築のための説明可能性駆動型フレームワークであるCOVID-Net Biochemを提案する。 第1段階では,ストーニーブルック大学の患者1366名を対象に,臨床評価に基づいて慎重に選択した臨床・生化学データのベンチマークデータセットを作成した。 臨床および生化学的マーカーを慎重に選択し,生き残りと腎臓傷害予測に特化して設計・訓練された,勾配に基づくブースティングツリーアーキテクチャとディープトランスフォーマーアーキテクチャの多様性を持つ機械学習モデルのコレクション。

Ever since the declaration of COVID-19 as a pandemic by the World Health Organization in 2020, the world has continued to struggle in controlling and containing the spread of the COVID-19 pandemic caused by the SARS-CoV-2 virus. This has been especially challenging with the rise of the Omicron variant and its subvariants and recombinants, which has led to a significant increase in patients seeking treatment and has put a tremendous burden on hospitals and healthcare systems. A major challenge faced during the pandemic has been the prediction of survival and the risk for additional injuries in individual patients, which requires significant clinical expertise and additional resources to avoid further complications. In this study we propose COVID-Net Biochem, an explainability-driven framework for building machine learning models to predict patient survival and the chance of developing kidney injury during hospitalization from clinical and biochemistry data in a transparent and systematic manner. In the first "clinician-guided initial design" phase, we prepared a benchmark dataset of carefully selected clinical and biochemistry data based on clinician assessment, which were curated from a patient cohort of 1366 patients at Stony Brook University. A collection of different machine learning models with a diversity of gradient based boosting tree architectures and deep transformer architectures was designed and trained specifically for survival and kidney injury prediction based on the carefully selected clinical and biochemical markers.
翻訳日:2022-04-26 15:37:28 公開日:2022-04-24
# 話者認証に関する辞書攻撃

Dictionary Attacks on Speaker Verification ( http://arxiv.org/abs/2204.11304v1 )

ライセンス: Link先を確認
Mirko Marras, Pawel Korus, Anubhav Jain, Nasir Memon(参考訳) 本稿では,話者検証に対する辞書攻撃を提案する。これは,話者の多数を偶然に一致させることを目的とした,新たな攻撃ベクトルである。 本稿では,様々な音声表現と脅威モデルで使用可能な攻撃の汎用的定式化を提案する。 攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。 結果として得られたマスター音声は、未知の人口の非自明な部分とうまくマッチする。 提案手法により得られた逆波形は, 平均69%のメス, 38%のオスに対して, 厳格な判定閾値で一致し, 偽警報率1%を達成できた。 この攻撃をブラックボックス音声クローンシステムを用いて行うことで,最も困難な条件下で有効で,スピーカエンコーダ間で転送可能なマスタ音声を得る。 また、複数の試みを組み合わせることで、この攻撃がシステムのセキュリティに関する深刻な問題にさらに開いていることも示しています。

In this paper, we propose dictionary attacks against speaker verification - a novel attack vector that aims to match a large fraction of speaker population by chance. We introduce a generic formulation of the attack that can be used with various speech representations and threat models. The attacker uses adversarial optimization to maximize raw similarity of speaker embeddings between a seed speech sample and a proxy population. The resulting master voice successfully matches a non-trivial fraction of people in an unknown population. Adversarial waveforms obtained with our approach can match on average 69% of females and 38% of males enrolled in the target system at a strict decision threshold calibrated to yield false alarm rate of 1%. By using the attack with a black-box voice cloning system, we obtain master voices that are effective in the most challenging conditions and transferable between speaker encoders. We also show that, combined with multiple attempts, this attack opens even more to serious issues on the security of these systems.
翻訳日:2022-04-26 15:33:25 公開日:2022-04-24
# エンドツーエンドニューラルダイアリゼーションのための模擬会話の自然性向上

Improving the Naturalness of Simulated Conversations for End-to-End Neural Diarization ( http://arxiv.org/abs/2204.11232v1 )

ライセンス: Link先を確認
Natsuo Yamashita, Shota Horiguchi, Takeshi Homma(参考訳) 本稿では,エンド・ツー・エンドニューラルダイアリゼーション(EEND)モデルトレーニングにおける自然な会話のシミュレーション手法について検討する。 注釈付き実際の会話データセットがないため、EENDは通常、まず大規模なシミュレートされた会話データセット上で事前訓練され、次にターゲットの実際のデータセットに適合する。 シミュレーションデータセットは、eendのトレーニングにおいて不可欠な役割を果たすが、最適なシミュレーション方法に関する調査はまだ不十分である。 そこで本研究では自然会話音声をシミュレートする手法を提案する。 複数の話者の音声を合成する従来の手法とは対照的に,本手法はターンテイクを考慮に入れている。 話者遷移の4つのタイプを定義し、自然な会話をシミュレートするためにそれらを順次配置する。 その結果,本手法を用いてシミュレーションしたデータセットは実データと統計的に類似していることが判明した。 callhomeとcsjデータセットを用いた2話者ダイアリゼーション実験の結果,シミュレーションデータセットがeendの性能向上に寄与することがわかった。

This paper investigates a method for simulating natural conversation in the model training of end-to-end neural diarization (EEND). Due to the lack of any annotated real conversational dataset, EEND is usually pretrained on a large-scale simulated conversational dataset first and then adapted to the target real dataset. Simulated datasets play an essential role in the training of EEND, but as yet there has been insufficient investigation into an optimal simulation method. We thus propose a method to simulate natural conversational speech. In contrast to conventional methods, which simply combine the speech of multiple speakers, our method takes turn-taking into account. We define four types of speaker transition and sequentially arrange them to simulate natural conversations. The dataset simulated using our method was found to be statistically similar to the real dataset in terms of the silence and overlap ratios. The experimental results on two-speaker diarization using the CALLHOME and CSJ datasets showed that the simulated dataset contributes to improving the performance of EEND.
翻訳日:2022-04-26 15:05:47 公開日:2022-04-24
# 共感対話生成のための感情認識変換器エンコーダ

Emotion-Aware Transformer Encoder for Empathetic Dialogue Generation ( http://arxiv.org/abs/2204.11320v1 )

ライセンス: Link先を確認
Raman Goel, Seba Susan, Sachin Vashisht, and Armaan Dhanda(参考訳) 現代の会話エージェントは、人間がコミュニケーションする方法をエミュレートするために訓練されている。 ユーザーと感情的に結びつくためには、これらの仮想エージェントはユーザーの感情状態を認識する必要がある。 トランスフォーマは、発話-応答ペアからの単語埋め込みでエンコーダ-デコーダモデルをトレーニングすることを含む、シーケンス-シーケンス学習における最近の技術である。 本稿では,感情認識型トランスコーダを提案する。ユーザの発話中の感情的商をキャプチャして,人間のような共感応答を生成する。 論文の貢献は以下のとおりである。 1)入力発話に訓練された感情検出モジュールは、初期段階におけるユーザの感情状態を決定する 2) 入力発話の意味的・情緒的側面を統合した感情埋め込みによる単語埋め込みを付加・正規化する新しいトランスコーダを提案する。 3) エンコーダスタックとデコーダスタックは,言語モデリングにおける最新の技術であるtransformer-xlアーキテクチャに属している。 facebook ai empathetic dialogueデータセットのベンチマークによる実験では、既存の手法と比較して、生成された応答に対して達成された高bleu-4スコアからモデルの有効性を確認した。 感情的にインテリジェントな仮想エージェントは、今や現実であり、すべてのヒューマンマシンインターフェースにおけるモダリティとしての感情の包含は、近い将来予測される。

Modern day conversational agents are trained to emulate the manner in which humans communicate. To emotionally bond with the user, these virtual agents need to be aware of the affective state of the user. Transformers are the recent state of the art in sequence-to-sequence learning that involves training an encoder-decoder model with word embeddings from utterance-response pairs. We propose an emotion-aware transformer encoder for capturing the emotional quotient in the user utterance in order to generate human-like empathetic responses. The contributions of our paper are as follows: 1) An emotion detector module trained on the input utterances determines the affective state of the user in the initial phase 2) A novel transformer encoder is proposed that adds and normalizes the word embedding with emotion embedding thereby integrating the semantic and affective aspects of the input utterance 3) The encoder and decoder stacks belong to the Transformer-XL architecture which is the recent state of the art in language modeling. Experimentation on the benchmark Facebook AI empathetic dialogue dataset confirms the efficacy of our model from the higher BLEU-4 scores achieved for the generated responses as compared to existing methods. Emotionally intelligent virtual agents are now a reality and inclusion of affect as a modality in all human-machine interfaces is foreseen in the immediate future.
翻訳日:2022-04-26 15:05:32 公開日:2022-04-24
# M2N:PDEソリューションのためのメッシュ移動ネットワーク

M2N: Mesh Movement Networks for PDE Solvers ( http://arxiv.org/abs/2204.11188v1 )

ライセンス: Link先を確認
Wenbin Song, Mingrui Zhang, Joseph G. Wallwork, Junpeng Gao, Zheng Tian, Fanglei Sun, Matthew D. Piggott, Junqing Chen, Zuoqiang Shi, Xiang Chen, Jun Wang(参考訳) 主ストリーム数値偏微分方程式(PDE)は、メッシュを用いて物理領域を離散化する必要がある。 メッシュ運動法は,解が未解決のメッシュ分解能を向上し,不必要な分解能を低下させることにより,数値解の精度を向上させることを目的としている。 しかし、monge-ampere法のようなメッシュ移動法では補助方程式の解が必要であり、メッシュが頻繁に適応する場合には非常に費用がかかる。 本稿では,pdeソルバのための,最初の学習ベースのエンドツーエンドメッシュ移動フレームワークを提案する。 学習ベースのメッシュムーブメント手法の主な要件は、メッシュタングリングの緩和、境界整合性、およびさまざまな解像度のメッシュへの一般化である。 これらの目的を達成するため、我々はニューラルスプラインモデルとグラフアテンションネットワーク(GAT)をモデルに導入した。 Neural-Splineベースのモデルでは大きな変形に対する柔軟性が向上するが、GATベースのモデルはより複雑な形状のドメインを処理でき、微妙な局所的な変形を行うのに優れている。 定常・時間依存・線形・非線形等式および規則的および不規則な形状の領域において,本手法を検証する。 従来のMonge-Ampere法と比較して,本手法はメッシュ適応プロセスを大幅に高速化し,数値誤差低減を実現している。

Mainstream numerical Partial Differential Equation (PDE) solvers require discretizing the physical domain using a mesh. Mesh movement methods aim to improve the accuracy of the numerical solution by increasing mesh resolution where the solution is not well-resolved, whilst reducing unnecessary resolution elsewhere. However, mesh movement methods, such as the Monge-Ampere method, require the solution of auxiliary equations, which can be extremely expensive especially when the mesh is adapted frequently. In this paper, we propose to our best knowledge the first learning-based end-to-end mesh movement framework for PDE solvers. Key requirements of learning-based mesh movement methods are alleviating mesh tangling, boundary consistency, and generalization to mesh with different resolutions. To achieve these goals, we introduce the neural spline model and the graph attention network (GAT) into our models respectively. While the Neural-Spline based model provides more flexibility for large deformation, the GAT based model can handle domains with more complicated shapes and is better at performing delicate local deformation. We validate our methods on stationary and time-dependent, linear and non-linear equations, as well as regularly and irregularly shaped domains. Compared to the traditional Monge-Ampere method, our approach can greatly accelerate the mesh adaptation process, whilst achieving comparable numerical error reduction.
翻訳日:2022-04-26 14:54:02 公開日:2022-04-24
# ルールリストのための良いモデル集合の計算

Computing the Collection of Good Models for Rule Lists ( http://arxiv.org/abs/2204.11285v1 )

ライセンス: Link先を確認
Kota Mata, Kentaro Kanamori, Hiroki Arimura(参考訳) 2001年のブレイマンによる初等論文では、説明可能なAIの観点から多変量予測の潜在的な害を指摘したことから、「羅生門集合」として知られる全ての良いモデルを集めた世界的分析が近年注目を集めている。 このような良いモデルの集合を見つけることは難しい計算問題であるため、この問題にはいくつかのアルゴリズムしか存在せず、そのほとんどは近似的か不完全である。 この難しさを克服するために、ルールリストと呼ばれる解釈可能なモデルのサブクラスに対する全ての良いモデルの効率的な列挙について研究する。 我々は2017年にangelinoらによって提案された最新の最適ルールリスト学習者corelsに基づいて、データセットと最適モデルからのエラー許容度を与えられた入力サイズの多項式空間を用いて、すべての良いモデルのセットを正確に計算する効率的な列挙アルゴリズムcorelsenumを提案する。 recidivism predictionのcompasデータセットを用いた実験により、アルゴリズムのcorelsenumは最大で$\ell = 3$ 約1,000秒で数万の優れたルールリストを列挙し、一方ローラー法とcorels法を組み合わせたトップ・オブ・ザ・アートのルールリスト学習者は2018年にharaと石畑によって提案され、6,000秒のタイムアウトまでわずか40モデルしか見つからなかった。 大域的解析のために,ラショモン集合を特徴付ける実験を行い,予測多重性と公平性において多種多様なモデルが観察された。

Since the seminal paper by Breiman in 2001, who pointed out a potential harm of prediction multiplicities from the view of explainable AI, global analysis of a collection of all good models, also known as a `Rashomon set,' has been attracted much attention for the last years. Since finding such a set of good models is a hard computational problem, there have been only a few algorithms for the problem so far, most of which are either approximate or incomplete. To overcome this difficulty, we study efficient enumeration of all good models for a subclass of interpretable models, called rule lists. Based on a state-of-the-art optimal rule list learner, CORELS, proposed by Angelino et al. in 2017, we present an efficient enumeration algorithm CorelsEnum for exactly computing a set of all good models using polynomial space in input size, given a dataset and a error tolerance from an optimal model. By experiments with the COMPAS dataset on recidivism prediction, our algorithm CorelsEnum successfully enumerated all of several tens of thousands of good rule lists of length at most $\ell = 3$ in around 1,000 seconds, while a state-of-the-art top-$K$ rule list learner based on Lawler's method combined with CORELS, proposed by Hara and Ishihata in 2018, found only 40 models until the timeout of 6,000 seconds. For global analysis, we conducted experiments for characterizing the Rashomon set, and observed large diversity of models in predictive multiplicity and fairness of models.
翻訳日:2022-04-26 14:53:40 公開日:2022-04-24
# 大地観測データのための衛星画像時系列解析

Satellite Image Time Series Analysis for Big Earth Observation Data ( http://arxiv.org/abs/2204.11301v1 )

ライセンス: Link先を確認
Rolf Simoes, Gilberto Camara, Gilberto Queiroz, Felipe Souza, Pedro R. Andrade, Lorena Santos, Alexandre Carvalho and Karine Ferreira(参考訳) 大地観測データ解析ソフトウェアの開発にはいくつかの課題がある。 デザイナーは相反する要因のバランスをとる必要がある。 特定のハードウェアアーキテクチャに効率的なソリューションは、他の環境では使用できない。 汎用ハードウェアとオープンスタンダードで動作するパッケージは、専用のソリューションと同等の性能を持ちません。 ユーザをコンピュータプログラマと仮定するソフトウェアは柔軟だが、幅広い読者のために学ぶのは難しいかもしれない。 本稿では,機械学習を用いた衛星画像時系列解析のためのオープンソースRパッケージである sit について述べる。 専門家が衛星画像を最大限に活用できるようにするため、衛星は時間第一の、後続のアプローチを採用している。 土地分類のためのデータ分析の完全なサイクルをサポートする。 そのAPIはシンプルだが強力な関数セットを提供する。 ソフトウェアはさまざまなクラウドコンピューティング環境で動作する。 衛星画像時系列は機械学習分類器に入力され、結果は空間平滑化を用いて後処理される。 機械学習手法は正確なトレーニングデータを必要とするため、トレーニングサンプルの品質評価方法を含んでいる。 このソフトウェアは、検証と精度測定の方法も提供する。 このパッケージは、大規模なEOデータ分析のための生産環境を含む。 この手法は,2018年の世界高速移動農業フロンティアの一つ,セラド生物群(Cerrado biome)のケーススタディを通じて,土地利用と土地被覆マップの精度が高いことを示す。

The development of analytical software for big Earth observation data faces several challenges. Designers need to balance between conflicting factors. Solutions that are efficient for specific hardware architectures can not be used in other environments. Packages that work on generic hardware and open standards will not have the same performance as dedicated solutions. Software that assumes that its users are computer programmers are flexible but may be difficult to learn for a wide audience. This paper describes sits, an open-source R package for satellite image time series analysis using machine learning. To allow experts to use satellite imagery to the fullest extent, sits adopts a time-first, space-later approach. It supports the complete cycle of data analysis for land classification. Its API provides a simple but powerful set of functions. The software works in different cloud computing environments. Satellite image time series are input to machine learning classifiers, and the results are post-processed using spatial smoothing. Since machine learning methods need accurate training data, sits includes methods for quality assessment of training samples. The software also provides methods for validation and accuracy measurement. The package thus comprises a production environment for big EO data analysis. We show that this approach produces high accuracy for land use and land cover maps through a case study in the Cerrado biome, one of the world's fast moving agricultural frontiers for the year 2018.
翻訳日:2022-04-26 14:53:08 公開日:2022-04-24
# 非拘束フレームからの3次元アバター再構成のためのMVP-Humanデータセット

MVP-Human Dataset for 3D Human Avatar Reconstruction from Unconstrained Frames ( http://arxiv.org/abs/2204.11184v1 )

ライセンス: Link先を確認
Xiangyu Zhu, Tingting Liao, Jiangjing Lyu, Xiang Yan, Yunfeng Wang, Kan Guo, Qiong Cao, Stan Z. Li, and Zhen Lei(参考訳) 本稿では,複数の制約のないフレームから3次元アバターを再構成する,カメラキャリブレーション,キャプチャ空間,制約された動作の仮定に依存しない,新たな問題を考える。 この問題は、複数の制約のない画像を入力として取り、標準空間の形状とスキニングアバターを生成し、1つのフィードフォワードパスで終了するフレームワークによって解決されるべきである。 そこで本研究では,複数の画像から得られた画像の特徴をアライメントして統合し,その形状を表すピクセルにアライメントされた暗黙関数を推定することにより,暗黙のスキンフィールドを多段階的に再構築する野生の3次元アバター再構成(arwild)を提案する。 新しいフレームワークのトレーニングとテストを可能にするため、400人の被験者からなる大規模データセットMVP-Human(Multi-ViewとMulti-ViewとMulti-Pose 3D Human)をコントリビュートし、それぞれ異なるポーズで15のスキャンと8のビューイメージを持ち、合計6,000の3Dスキャンと48,000の画像を提供する。 全体として、特定のネットワークアーキテクチャと多様なデータにより、トレーニングされたモデルは、制約のないフレームから3Dアバターの再構築を可能にし、最先端のパフォーマンスを達成する。

In this paper, we consider a novel problem of reconstructing a 3D human avatar from multiple unconstrained frames, independent of assumptions on camera calibration, capture space, and constrained actions. The problem should be addressed by a framework that takes multiple unconstrained images as inputs, and generates a shape-with-skinning avatar in the canonical space, finished in one feed-forward pass. To this end, we present 3D Avatar Reconstruction in the wild (ARwild), which first reconstructs the implicit skinning fields in a multi-level manner, by which the image features from multiple images are aligned and integrated to estimate a pixel-aligned implicit function that represents the clothed shape. To enable the training and testing of the new framework, we contribute a large-scale dataset, MVP-Human (Multi-View and multi-Pose 3D Human), which contains 400 subjects, each of which has 15 scans in different poses and 8-view images for each pose, providing 6,000 3D scans and 48,000 images in total. Overall, benefits from the specific network architecture and the diverse data, the trained model enables 3D avatar reconstruction from unconstrained frames and achieves state-of-the-art performance.
翻訳日:2022-04-26 14:21:45 公開日:2022-04-24
# 分布推定によるソースフリー領域適応

Source-Free Domain Adaptation via Distribution Estimation ( http://arxiv.org/abs/2204.11257v1 )

ライセンス: Link先を確認
Ning Ding, Yixing Xu, Yehui Tang, Chao Xu, Yunhe Wang, Dacheng Tao(参考訳) ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分布が異なるラベル付きターゲットドメインに転送することを目的としている。 しかし、既存のメソッドのほとんどで必要とされるソースドメインのトレーニングデータは、プライバシー保護ポリシーのため、現実世界のアプリケーションでは利用できない。 近年、ソースフリードメイン適応(sfda)が注目され、ソースデータを用いずにドメイン適応問題に取り組むようになった。 本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。 まず,事前学習モデルの分類器によって学習される重みベクトル (anchors) を初期クラス中心とする球状k平均クラスタリングを用いて,対象データのロバストな擬似ラベルを生成する。 さらに,対象データと対応するアンカーを利用して,ソースドメインのクラス条件特徴分布を推定する。 最後に,推定分布からサロゲート特徴をサンプリングし,コントラスト適応損失関数を最小化し,二つの領域を整合させる。 大規模な実験により,提案手法は複数のDAベンチマーク上での最先端性能を実現し,また,大量のソースデータを必要とする従来のDA手法よりも優れていた。

Domain Adaptation aims to transfer the knowledge learned from a labeled source domain to an unlabeled target domain whose data distributions are different. However, the training data in source domain required by most of the existing methods is usually unavailable in real-world applications due to privacy preserving policies. Recently, Source-Free Domain Adaptation (SFDA) has drawn much attention, which tries to tackle domain adaptation problem without using source data. In this work, we propose a novel framework called SFDA-DE to address SFDA task via source Distribution Estimation. Firstly, we produce robust pseudo-labels for target data with spherical k-means clustering, whose initial class centers are the weight vectors (anchors) learned by the classifier of pretrained model. Furthermore, we propose to estimate the class-conditioned feature distribution of source domain by exploiting target data and corresponding anchors. Finally, we sample surrogate features from the estimated distribution, which are then utilized to align two domains by minimizing a contrastive adaptation loss function. Extensive experiments show that the proposed method achieves state-of-the-art performance on multiple DA benchmarks, and even outperforms traditional DA methods which require plenty of source data.
翻訳日:2022-04-26 14:19:55 公開日:2022-04-24
# rmgn:パーサーフリー仮想トライオンのための地域マスク誘導ネットワーク

RMGN: A Regional Mask Guided Network for Parser-free Virtual Try-on ( http://arxiv.org/abs/2204.11258v1 )

ライセンス: Link先を確認
Chao Lin, Zhao Li, Sheng Zhou, Shichang Hu, Jialun Zhang, Linhao Luo, Jiarun Zhang, Longtao Huang, Yuan He(参考訳) VTON(Virtual try-on)は,電子商取引において広く採用されている人物画像に対象の衣服を合わせることを目的としており,既存のVTONアプローチをパーサーベース(PB)とパーサーフリー(PF)に狭義に分類することができる。 パーサ情報を放棄することでPF法の適用性が向上したが、詳細な合成能力も犠牲にされている。 結果として、合成された画像、特に複雑な姿勢や高分解能の用途において、原布からの逸脱が持続する可能性がある。 上記の課題に対処するため,地域マスクガイドネットワーク(RMGN)という新しいPF手法を提案する。 より具体的には、対象の衣服と参照者の特徴を明示的に融合させ、持続した気晴らしをなくすための地域マスクが提案されている。 さらに,複雑な姿勢を処理し,高分解能画像を合成するために,姿勢認識損失と多レベル特徴抽出器を提案する。 広範な実験により,提案するrmgnは最先端pb法とpf法の両方に勝ることを示し,rmgnにおけるモジュールの有効性をさらに検証した。

Virtual try-on(VTON) aims at fitting target clothes to reference person images, which is widely adopted in e-commerce.Existing VTON approaches can be narrowly categorized into Parser-Based(PB) and Parser-Free(PF) by whether relying on the parser information to mask the persons' clothes and synthesize try-on images. Although abandoning parser information has improved the applicability of PF methods, the ability of detail synthesizing has also been sacrificed. As a result, the distraction from original cloth may persistin synthesized images, especially in complicated postures and high resolution applications. To address the aforementioned issue, we propose a novel PF method named Regional Mask Guided Network(RMGN). More specifically, a regional mask is proposed to explicitly fuse the features of target clothes and reference persons so that the persisted distraction can be eliminated. A posture awareness loss and a multi-level feature extractor are further proposed to handle the complicated postures and synthesize high resolution images. Extensive experiments demonstrate that our proposed RMGN outperforms both state-of-the-art PB and PF methods.Ablation studies further verify the effectiveness ofmodules in RMGN.
翻訳日:2022-04-26 14:19:35 公開日:2022-04-24
# EMOCA:感情駆動型モノクルフェイスキャプチャーとアニメーション

EMOCA: Emotion Driven Monocular Face Capture and Animation ( http://arxiv.org/abs/2204.11312v1 )

ライセンス: Link先を確認
Radek Danecek, Michael J. Black, Timo Bolkart(参考訳) 3d顔のアバターがコミュニケーションに広く使われるようになるにつれ、感情を忠実に伝えることが重要である。 残念なことに、単眼画像からパラメトリックな3D顔モデルを回帰する最も最近の手法は、微妙な感情や極端な感情など、表情の完全なスペクトルを捉えることができない。 訓練に使用される標準復元基準(ランドマーク再投影誤差、測光誤差、顔認識損失)は、高忠実度表現をキャプチャするには不十分である。 その結果、入力画像の感情的内容と一致しない顔のジオメトリが得られる。 EMOCA (EMOtion Capture and Animation) でこの問題に対処し、トレーニング中に新たな深い知覚的感情整合性損失を導入し、再構成された3次元表現が入力画像に表現された表現と一致することを保証する。 EMOCAは、現在のベストメソッドと同等の3次元再構成誤差を達成しているが、再構成された表現の質と知覚された感情内容の点で、それらを著しく上回っている。 また,ヴァレンスレベルと覚醒レベルを直接後退させ,推定した3次元顔パラメータから基本表現を分類する。 In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。 モデルとコードはhttps://emoca.is.tue.mpg.deで公開されている。

As 3D facial avatars become more widely used for communication, it is critical that they faithfully convey emotion. Unfortunately, the best recent methods that regress parametric 3D face models from monocular images are unable to capture the full spectrum of facial expression, such as subtle or extreme emotions. We find the standard reconstruction metrics used for training (landmark reprojection error, photometric error, and face recognition loss) are insufficient to capture high-fidelity expressions. The result is facial geometries that do not match the emotional content of the input image. We address this with EMOCA (EMOtion Capture and Animation), by introducing a novel deep perceptual emotion consistency loss during training, which helps ensure that the reconstructed 3D expression matches the expression depicted in the input image. While EMOCA achieves 3D reconstruction errors that are on par with the current best methods, it significantly outperforms them in terms of the quality of the reconstructed expression and the perceived emotional content. We also directly regress levels of valence and arousal and classify basic expressions from the estimated 3D face parameters. On the task of in-the-wild emotion recognition, our purely geometric approach is on par with the best image-based methods, highlighting the value of 3D geometry in analyzing human behavior. The model and code are publicly available at https://emoca.is.tue.mpg.de.
翻訳日:2022-04-26 14:19:10 公開日:2022-04-24
# 実世界静止画像における流体シミュレーション

Simulating Fluids in Real-World Still Images ( http://arxiv.org/abs/2204.11335v1 )

ライセンス: Link先を確認
Siming Fan, Jingtan Piao, Chen Qian, Kwan-Yee Lin, Hongsheng Li(参考訳) 本研究では,静止画像からの実世界の流体アニメーションの問題に取り組む。 本システムの鍵となるのは、映像分解から導かれる表面層表現であり、シーンは2つの層の構成を特徴付けるために、対応する透明な背景層と表面流体層に分離される。 アニメーションビデオは、流体の動きの推定に応じて表面流体層のみをワープし、背景と再結合することで作成することができる。 さらに, 運動推定の代替として, 表面のみの流体シミュレーション, 2.5d$流体計算版を導入する。 具体的には,モノキュラー深度推定器に基づく三角メッシュを用いて流体表面層を表現し,複雑な実世界画像テクスチャに適応するために,ハイブリッドラグランジアン・オイラー法(英語版)の古典理論に触発された物理系フレームワークの運動をシミュレートする。 標準客観的指標と主観的ランキング得点の両方において,既存の手法との比較により,提案システムの有効性を示す。 提案手法は,多岐にわたる実験により,一般的な流体シーンにおける競合性能を示すだけでなく,複雑な透明流体シナリオにおけるロバスト性や推論性も向上した。 さらに, 地表面層表現と地表面流体シミュレーションが自然にシーンを歪めてしまうため, 現実的な結果により, 河川への物体付加やテクスチャ置換といったインタラクティブな編集が容易に実現できる。

In this work, we tackle the problem of real-world fluid animation from a still image. The key of our system is a surface-based layered representation deriving from video decomposition, where the scene is decoupled into a surface fluid layer and an impervious background layer with corresponding transparencies to characterize the composition of the two layers. The animated video can be produced by warping only the surface fluid layer according to the estimation of fluid motions and recombining it with the background. In addition, we introduce surface-only fluid simulation, a $2.5D$ fluid calculation version, as a replacement for motion estimation. Specifically, we leverage the triangular mesh based on a monocular depth estimator to represent the fluid surface layer and simulate the motion in the physics-based framework with the inspiration of the classic theory of the hybrid Lagrangian-Eulerian method, along with a learnable network so as to adapt to complex real-world image textures. We demonstrate the effectiveness of the proposed system through comparison with existing methods in both standard objective metrics and subjective ranking scores. Extensive experiments not only indicate our method's competitive performance for common fluid scenes but also better robustness and reasonability under complex transparent fluid scenarios. Moreover, as the proposed surface-based layer representation and surface-only fluid simulation naturally disentangle the scene, interactive editing such as adding objects to the river and texture replacing could be easily achieved with realistic results.
翻訳日:2022-04-26 14:18:46 公開日:2022-04-24
# オープンエンドワイルドファイア管理資源分布のためのグラフニューラルネットワーク層を用いた協調的オートキュリキュラマルチエージェント強化学習

Collaborative Auto-Curricula Multi-Agent Reinforcement Learning with Graph Neural Network Communication Layer for Open-ended Wildfire-Management Resource Distribution ( http://arxiv.org/abs/2204.11350v1 )

ライセンス: Link先を確認
Philipp Dominic Siedler(参考訳) ほとんどの実世界のドメインはマルチエージェント(ma)システムとして定式化できる。 意図共有エージェントは、おそらくより少ない時間で協力することで、より複雑なタスクを解決できる。 真の協調行動は、利己的および集団的理由に有益である。 しかし、個々のエージェントにエゴリスティックな利益を犠牲にして、よりよい集団的パフォーマンスを得るように教えるのは困難である。 我々は,グラフニューラルネットワーク(GNN)通信層を用いたMARL(Multi-Agent Reinforcement Learning)機構を構築した。 稀に選択されたコミュニケーション行動は極めて有益であった。 本稿では,エージェントが協調作業者のパフォーマンスを向上させながら,個人のパフォーマンスを低下させることが可能なmarlシステムを提案する。 我々は,野火管理のための資源配分の文脈で研究を行う。 環境特性の伝達と部分的に観察可能な火災の発生は、エージェント集団が事前にリソースを分配するのに役立つ。 さらに,汎用性向上に向けて,自己帰結と開放性を考慮した手続き訓練環境を提案する。 我々のMA通信提案は、Greedy Heuristic BaselineとSingle-Agent (SA)セットアップより優れている。 さらに,自動計算とオープン性によってMA提案の一般化性が向上することを示す。

Most real-world domains can be formulated as multi-agent (MA) systems. Intentionality sharing agents can solve more complex tasks by collaborating, possibly in less time. True cooperative actions are beneficial for egoistic and collective reasons. However, teaching individual agents to sacrifice egoistic benefits for a better collective performance seems challenging. We build on a recently proposed Multi-Agent Reinforcement Learning (MARL) mechanism with a Graph Neural Network (GNN) communication layer. Rarely chosen communication actions were marginally beneficial. Here we propose a MARL system in which agents can help collaborators perform better while risking low individual performance. We conduct our study in the context of resource distribution for wildfire management. Communicating environmental features and partially observable fire occurrence help the agent collective to pre-emptively distribute resources. Furthermore, we introduce a procedural training environment accommodating auto-curricula and open-endedness towards better generalizability. Our MA communication proposal outperforms a Greedy Heuristic Baseline and a Single-Agent (SA) setup. We further demonstrate how auto-curricula and openendedness improves generalizability of our MA proposal.
翻訳日:2022-04-26 13:49:41 公開日:2022-04-24
# 隠れた共同創設者に対する連続治療の効果

Bounding the Effects of Continuous Treatments for Hidden Confounders ( http://arxiv.org/abs/2204.11206v1 )

ライセンス: Link先を確認
Myrl G. Marmarelis, Greg Ver Steeg, Aram Galstyan(参考訳) 因果推論(英: Causal inference)とは、共同設立者に対する治療変数による効果の歪曲である。 1度に1つの結果が観測されるため、この問題はデータセット内の各個人に対して反事実を予測する1つに変わる。 観察的研究は、この試みを複雑にし、治療とサンプル内の他の変数間の依存関係を許容する。 共変体が治療の妥当性に影響を与える場合、共変体シフトに苦しむ。 結果と治療が共変量を考慮した後でも他の変数によって影響を受ける場合、隠れた混在も生じる。 それは定義で測れない。 むしろ、下流の意思決定において隠れた共起の限界レベルの最悪の結果を研究する必要がある。 我々はこの問題を連続治療の場合に検討する。 本研究では,部分同定された線量応答曲線の無知区間を計算し,隠れた共同設立者に対する推論の感受性を定量化する枠組みを開発した。 本手法は2つの観測実験に基づく実証実験と同様にシミュレーションによって支援されている。

Causal inference involves the disentanglement of effects due to a treatment variable from those of confounders, observed as covariates or not. Since one outcome is ever observed at a time, the problem turns into one of predicting counterfactuals on every individual in the dataset. Observational studies complicate this endeavor by permitting dependencies between the treatment and other variables in the sample. If the covariates influence the propensity of treatment, then one suffers from covariate shift. Should the outcome and the treatment be affected by another variable even after accounting for the covariates, there is also hidden confounding. That is immeasurable by definition. Rather, one must study the worst possible consequences of bounded levels of hidden confounding on downstream decision-making. We explore this problem in the case of continuous treatments. We develop a framework to compute ignorance intervals on the partially identified dose-response curves, which enable us to quantify the susceptibility of our inference to hidden confounders. Our method is supported by simulations as well as empirical tests based on two observational studies.
翻訳日:2022-04-26 13:46:59 公開日:2022-04-24
# ピアワイズ・リニア・アクティベーションと解析的アクティベーション関数:より表現力のあるニューラルネットを創るか?

Piecewise-Linear Activations or Analytic Activation Functions: Which Produce More Expressive Neural Networks? ( http://arxiv.org/abs/2204.11231v1 )

ライセンス: Link先を確認
Anastasis Kratsios and Behnoosh Zamanlooy(参考訳) 現在利用可能な普遍近似定理の多くは、任意の適切な活性化関数を用いて定義された深いフィードフォワードネットワークが、$L^1$-ノルムの任意の可積分函数を局所的に近似することができることを証明している。 他のクラスのアクティベーション関数を使って定義されたディープニューラルネットワークでは、異なる近似レートが利用可能であるが、reluネットワークが古典的な(例えばsgmoidal)ネットワークよりも優れているという実証的な利点についてはほとんど説明されていない。 我々の主な結果は、部分線形活性化を持つディープネットワーク(ReLUやPRELUなど)は、分析を持つディープフィードフォワードネットワーク(sigmoid、Swish、GeLU、Softplusなど)よりも根本的に表現力が高いことを示している。 More specifically, we construct a strict refinement of the topology on the space $L^1_{\operatorname{loc}}(\mathbb{R}^d,\mathbb{R}^D)$ of locally Lebesgue-integrable functions, in which the set of deep ReLU networks with (bilinear) pooling $\operatorname{NN}^{\operatorname{ReLU} + \operatorname{Pool}}$ is dense (i.e. universal) but the set of deep feedforward networks defined using any combination of analytic activation functions with (or without) pooling layers $\operatorname{NN}^{\omega+\operatorname{Pool}}$ is not dense (i.e. not universal). Our main result is further explained by \textit{quantitatively} demonstrating that this "separation phenomenon" between the networks in $\operatorname{NN}^{\operatorname{ReLU}+\operatorname{Pool}}$ and those in $\operatorname{NN}^{\omega+\operatorname{Pool}}$ by showing that the networks in $\operatorname{NN}^{\operatorname{ReLU}}$ are capable of approximate any compactly supported Lipschitz function while \textit{simultaneously} approximating its essential support; whereas, the networks in $\operatorname{NN}^{\omega+\operatorname{pool}}$ cannot.

Many currently available universal approximation theorems affirm that deep feedforward networks defined using any suitable activation function can approximate any integrable function locally in $L^1$-norm. Though different approximation rates are available for deep neural networks defined using other classes of activation functions, there is little explanation for the empirically confirmed advantage that ReLU networks exhibit over their classical (e.g. sigmoidal) counterparts. Our main result demonstrates that deep networks with piecewise linear activation (e.g. ReLU or PReLU) are fundamentally more expressive than deep feedforward networks with analytic (e.g. sigmoid, Swish, GeLU, or Softplus). More specifically, we construct a strict refinement of the topology on the space $L^1_{\operatorname{loc}}(\mathbb{R}^d,\mathbb{R}^D)$ of locally Lebesgue-integrable functions, in which the set of deep ReLU networks with (bilinear) pooling $\operatorname{NN}^{\operatorname{ReLU} + \operatorname{Pool}}$ is dense (i.e. universal) but the set of deep feedforward networks defined using any combination of analytic activation functions with (or without) pooling layers $\operatorname{NN}^{\omega+\operatorname{Pool}}$ is not dense (i.e. not universal). Our main result is further explained by \textit{quantitatively} demonstrating that this "separation phenomenon" between the networks in $\operatorname{NN}^{\operatorname{ReLU}+\operatorname{Pool}}$ and those in $\operatorname{NN}^{\omega+\operatorname{Pool}}$ by showing that the networks in $\operatorname{NN}^{\operatorname{ReLU}}$ are capable of approximate any compactly supported Lipschitz function while \textit{simultaneously} approximating its essential support; whereas, the networks in $\operatorname{NN}^{\omega+\operatorname{pool}}$ cannot.
翻訳日:2022-04-26 13:41:06 公開日:2022-04-24
# EPiDA: 高性能テキスト分類のための簡易なプラグインデータ拡張フレームワーク

EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance Text Classification ( http://arxiv.org/abs/2204.11205v1 )

ライセンス: Link先を確認
Minyi Zhao, Lu Zhang, Yi Xu, Jiandong Ding, Jihong Guan, Shuigeng Zhou(参考訳) 近年,NLPタスクにおけるデータ拡張(DA)の有効性,特にデータ不足に悩む人々に対する効果が実証的に示されている。 直感的には、生成されたデータのサイズを考えると、その多様性と品質は目標とするタスクのパフォーマンスに不可欠である。 しかし、我々の知る限りでは、既存のほとんどの手法は、拡張データの多様性と品質の両方しか考慮していないため、NLPにおけるDAの可能性を完全には排除できない。 本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。 EPiDAはデータ生成を制御するために相対エントロピー最大化(REM)と条件エントロピー最小化(CEM)という2つのメカニズムを採用している。 EPiDAは効率的な分類器トレーニングのための効率的で継続的なデータ生成をサポートする。 大規模な実験により、EPiDAはエージェントネットワークや事前訓練された世代ネットワークを使わずに既存のSOTA法よりも優れており、様々なDAアルゴリズムや分類モデルとうまく機能することが示された。 コードはhttps://github.com/zhaominyiz/EPiDAで入手できる。

Recent works have empirically shown the effectiveness of data augmentation (DA) in NLP tasks, especially for those suffering from data scarcity. Intuitively, given the size of generated data, their diversity and quality are crucial to the performance of targeted tasks. However, to the best of our knowledge, most existing methods consider only either the diversity or the quality of augmented data, thus cannot fully mine the potential of DA for NLP. In this paper, we present an easy and plug-in data augmentation framework EPiDA to support effective text classification. EPiDA employs two mechanisms: relative entropy maximization (REM) and conditional entropy minimization (CEM) to control data generation, where REM is designed to enhance the diversity of augmented data while CEM is exploited to ensure their semantic consistency. EPiDA can support efficient and continuous data generation for effective classifier training. Extensive experiments show that EPiDA outperforms existing SOTA methods in most cases, though not using any agent networks or pre-trained generation networks, and it works well with various DA algorithms and classification models. Code is available at https://github.com/zhaominyiz/EPiDA.
翻訳日:2022-04-26 13:39:16 公開日:2022-04-24
# タスクに依存しないマスクトレーニングによるbert transferの抽選チケット獲得の学習

Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training ( http://arxiv.org/abs/2204.11218v1 )

ライセンス: Link先を確認
Yuanxin Liu, Fandong Meng, Zheng Lin, Peng Fu, Yanan Cao, Weiping Wang, Jie Zhou(参考訳) 抽選券仮説(LTH)の最近の研究は、BERTのような事前学習言語モデル(PLM)が、元のPLMと類似した転送学習性能を持つサブネットを含んでいることを示している。 これらのサブネットワークはマグニチュードベースのプルーニングを用いて見つけられる。 本稿では,BERTサブネットワークがこれらの研究よりさらに可能性が高いことを明らかにする。 第一に, 大規模刈り込みの成功は, 下流転送性と相関する保存事前学習性能に起因することが判明した。 そこで本研究では,事前学習目標に対して直接ネットワーク構造を最適化し,事前学習性能の維持を図ることを提案する。 具体的には、特定の下流タスクに非依存なサブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりもバイナリマスクを訓練する。 次に、GLUEベンチマークとSQuADデータセットのサブネットワークを微調整します。 その結果, マスクトレーニングは, 等級プルーニングと比較して, 下流タスクにおける全体的な性能を改善したBERTサブネットワークを効果的に見つけることができた。 さらに,本手法はサブネットの探索にも有効であり,データ不足の範囲内で微調整を行う場合には有利である。 私たちのコードはhttps://github.com/llyx97/tamtで利用可能です。

Recent studies on the lottery ticket hypothesis (LTH) show that pre-trained language models (PLMs) like BERT contain matching subnetworks that have similar transfer learning performance as the original PLM. These subnetworks are found using magnitude-based pruning. In this paper, we find that the BERT subnetworks have even more potential than these studies have shown. Firstly, we discover that the success of magnitude pruning can be attributed to the preserved pre-training performance, which correlates with the downstream transferability. Inspired by this, we propose to directly optimize the subnetwork structure towards the pre-training objectives, which can better preserve the pre-training performance. Specifically, we train binary masks over model weights on the pre-training tasks, with the aim of preserving the universal transferability of the subnetwork, which is agnostic to any specific downstream tasks. We then fine-tune the subnetworks on the GLUE benchmark and the SQuAD dataset. The results show that, compared with magnitude pruning, mask training can effectively find BERT subnetworks with improved overall performance on downstream tasks. Moreover, our method is also more efficient in searching subnetworks and more advantageous when fine-tuning within a certain range of data scarcity. Our code is available at https://github.com/llyx97/TAMT.
翻訳日:2022-04-26 13:38:57 公開日:2022-04-24
# 動的多形知識融合によるオープンドメイン対話生成

Open-domain Dialogue Generation Grounded with Dynamic Multi-form Knowledge Fusion ( http://arxiv.org/abs/2204.11239v1 )

ライセンス: Link先を確認
Feifei Xu, Shanlin Zhou, Xinpeng Wang, Yunpu Ma, Wenkai Zhang, Zhisong Li(参考訳) オープンドメインのマルチターン会話は通常、会話の内容の充実と拡張の方法の課題に直面します。 近年,豊富な意味と情報会話を生み出すために,外部知識に基づく多くのアプローチが提案されている。 知識グラフからの構造化トリプルと文書からの非構造化テキストという,知識を意識したオープンドメイン対話生成のための2つのタイプの知識が研究されている。 本稿では,文書に豊富な非構造化潜在知識と構造化知識グラフの情報拡張能力の利点を両立するために,新しい対話生成モデルである動的多形知識融合型オープンドメインチャットマシン(dmkcm)を提案する。 特に、DMKCMは、関連文書を第1ホップとして見つけるためにインデックス付きテキスト(仮想知識ベース)を適用し、その後、コモンセンス知識グラフを使用して対話の内容と第1ホップを拡張して、アポサイトトリプルを第2ホップとして取得する。 これら2つの知識を効果的に対話に融合するために,動的仮想知識セレクタと,知識空間の充実と拡張を支援するコントローラを設計した。 さらに、DMKCMは、歴史的推論知識を効果的に活用してより良い応答を生成する、新しい動的知識記憶モジュールを採用する。 実験結果から,対話コヒーレンスと情報性の観点から,本手法の有効性が示唆された。

Open-domain multi-turn conversations normally face the challenges of how to enrich and expand the content of the conversation. Recently, many approaches based on external knowledge are proposed to generate rich semantic and information conversation. Two types of knowledge have been studied for knowledge-aware open-domain dialogue generation: structured triples from knowledge graphs and unstructured texts from documents. To take both advantages of abundant unstructured latent knowledge in the documents and the information expansion capabilities of the structured knowledge graph, this paper presents a new dialogue generation model, Dynamic Multi-form Knowledge Fusion based Open-domain Chatt-ing Machine (DMKCM).In particular, DMKCM applies an indexed text (a virtual Knowledge Base) to locate relevant documents as 1st hop and then expands the content of the dialogue and its 1st hop using a commonsense knowledge graph to get apposite triples as 2nd hop. To merge these two forms of knowledge into the dialogue effectively, we design a dynamic virtual knowledge selector and a controller that help to enrich and expand knowledge space. Moreover, DMKCM adopts a novel dynamic knowledge memory module that effectively uses historical reasoning knowledge to generate better responses. Experimental results indicate the effectiveness of our method in terms of dialogue coherence and informativeness.
翻訳日:2022-04-26 13:38:33 公開日:2022-04-24
# 説得のための項目応答理論の枠組み

An Item Response Theory Framework for Persuasion ( http://arxiv.org/abs/2204.11337v1 )

ライセンス: Link先を確認
Anastassia Kornilova, Daniel Argyle, Vladimir Eidelman(参考訳) 本稿では,言語における議論の説得性の分析に,教育や政治科学研究で人気のある項目応答理論を適用した。 政治擁護の領域における新しいデータセットを含む3つのデータセットでモデルの性能を実証的に評価する。 本稿では,モデルが生成する話者埋め込みによる説得可能性に関する実世界観測能力の評価を含む,いくつかのスタイルとコンテンツ表現の下でこれらのコンポーネントを分離する利点を示す。

In this paper, we apply Item Response Theory, popular in education and political science research, to the analysis of argument persuasiveness in language. We empirically evaluate the model's performance on three datasets, including a novel dataset in the area of political advocacy. We show the advantages of separating these components under several style and content representations, including evaluating the ability of the speaker embeddings generated by the model to parallel real-world observations about persuadability.
翻訳日:2022-04-26 13:38:11 公開日:2022-04-24
# 生成ゼロショット学習における意味弱化問題:アンテホックとポストホック

Towards the Semantic Weak Generalization Problem in Generative Zero-Shot Learning: Ante-hoc and Post-hoc ( http://arxiv.org/abs/2204.11280v1 )

ライセンス: Link先を確認
Dubing Chen, Yuming Shen, Haofeng Zhang, Philip H.S. Torr(参考訳) 本稿では, 生成型ゼロショット学習(zsl)の性能天井を制限する, 従来未検討の因子を, 単純かつ効果的な戦略を提案する。 まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らし、分類器訓練における負の影響を最小化するためのアプローチを検討する。 ante-hocフェーズでは、ジェネレータのセマンティクス入力を増強するとともに、ジェネレータの適合ターゲットを緩和する。 模擬未確認サンプルの生成後) では, 偏差した未確認分布によって担持される分類器重みの勾配増加を最小化するため, 損失関数の勾配から導出する。 複雑な設計がなければ、我々のアプローチは重要な問題にぶつかり、広く使われている4つのZSLデータセットの最先端を著しく上回ります。

In this paper, we present a simple and effective strategy lowering the previously unexplored factors that limit the performance ceiling of generative Zero-Shot Learning (ZSL). We begin by formally defining semantic generalization, then look into approaches for reducing the semantic weak generalization problem and minimizing its negative influence on classifier training. In the ante-hoc phase, we augment the generator's semantic input, as well as relax the fitting target of the generator. In the post-hoc phase (after generating simulated unseen samples), we derive from the gradient of the loss function to minimize the gradient increment on seen classifier weights carried by biased unseen distribution, which tends to cause misleading on intra-seen class decision boundaries. Without complicated designs, our approach hit the essential problem and significantly outperform the state-of-the-art on four widely used ZSL datasets.
翻訳日:2022-04-26 12:59:13 公開日:2022-04-24
# ジョイント変分オートエンコーダを用いた遠方音声認識の改良

Improved far-field speech recognition using Joint Variational Autoencoder ( http://arxiv.org/abs/2204.11286v1 )

ライセンス: Link先を確認
Shashi Kumar, Shakti P. Rath and Abhishek Pandey(参考訳) ASR(Automatic Speech Recognition)システムは、音源音声が雑音や室内インパルス応答(RIR)によって破損した場合にかなり悩まされる。 通常、音声強調は、ミスマッチしたシナリオトレーニングとテストの両方に適用される。 マッチング設定では、アコースティックモデル(am)は、不一致設定ではamが固定される間、残響遠方特徴に基づいて訓練される。 近年,denoising autoencoder (da) を用いた遠方から近方への音声特徴のマッピングが検討されている。 本稿では,一致シナリオのトレーニングに焦点をあて,提案した共同VAEマッピングがDAよりも大幅に改善されていることを示す。 具体的には,単語誤り率(WER)の絶対的な改善は,DAに基づく拡張に比べて2.5%,遠距離フィルタバンクで直接訓練されたAMに比べて3.96%であった。

Automatic Speech Recognition (ASR) systems suffer considerably when source speech is corrupted with noise or room impulse responses (RIR). Typically, speech enhancement is applied in both mismatched and matched scenario training and testing. In matched setting, acoustic model (AM) is trained on dereverberated far-field features while in mismatched setting, AM is fixed. In recent past, mapping speech features from far-field to close-talk using denoising autoencoder (DA) has been explored. In this paper, we focus on matched scenario training and show that the proposed joint VAE based mapping achieves a significant improvement over DA. Specifically, we observe an absolute improvement of 2.5% in word error rate (WER) compared to DA based enhancement and 3.96% compared to AM trained directly on far-field filterbank features.
翻訳日:2022-04-26 12:54:59 公開日:2022-04-24
# RealNet: 最適化対象検出と情報融合深さ推定を組み合わせたIoT設計

RealNet: Combining Optimized Object Detection with Information Fusion Depth Estimation Co-Design Method on IoT ( http://arxiv.org/abs/2204.11216v1 )

ライセンス: Link先を確認
Zhuohao Li, Fandi Gou, Qixin De, Leqi Ding, Yuanhang Zhang, Yunze Cai(参考訳) 深度推定と物体検出認識は、ディープラーニング人工知能の指導の下で自律運転技術において重要な役割を果たす。 本稿では,モデル流線形認識アルゴリズムと深度推定アルゴリズムと情報融合を組み合わせた協調設計手法であるRealNetというハイブリッド構造を提案し,それらを単眼視覚センサを用いた無人車両のJetson-Nano上に展開する。 実験にはROSを使用します。 本稿では,リアルタイム要求の高いモバイルプラットフォームに適した手法を提案する。 本手法の革新は、情報融合を用いて出力画像のフレームレートの不足を補償し、単眼視下での目標検出と深度推定のロバスト性を向上させることである。 我々はdarknet53のネットワーク構造を簡略化し,0.01sまでの予測速度を実現する。 深さ推定は3次元大域空間における複数の幾何学的制約を考慮したVNL深さ推定に基づいている。 仮想正規ベクトルVNとラベルとのずれを計算して損失関数を算出し、深度情報を得ることができる。 我々は pnp fusion アルゴリズムを用いて, 深度マップ出力のフレームレートの不足問題を解く。 VNL計算よりも高速なコーナー特徴マッチングに基づいて3次元目標から2次元点への運動推定深度を解く。 我々は情報融合を実現するためにVNL出力とPnP出力を補間する。 実験により, 深度情報のジッタを効果的に除去し, 堅牢性を向上できることが示された。 制御端では、目標検出と深さ推定の結果を組み合わせて目標位置を計算し、純粋なトラッキング制御アルゴリズムを用いて追跡する。

Depth Estimation and Object Detection Recognition play an important role in autonomous driving technology under the guidance of deep learning artificial intelligence. We propose a hybrid structure called RealNet: a co-design method combining the model-streamlined recognition algorithm, the depth estimation algorithm with information fusion, and deploying them on the Jetson-Nano for unmanned vehicles with monocular vision sensors. We use ROS for experiment. The method proposed in this paper is suitable for mobile platforms with high real-time request. Innovation of our method is using information fusion to compensate the problem of insufficient frame rate of output image, and improve the robustness of target detection and depth estimation under monocular vision.Object Detection is based on YOLO-v5. We have simplified the network structure of its DarkNet53 and realized a prediction speed up to 0.01s. Depth Estimation is based on the VNL Depth Estimation, which considers multiple geometric constraints in 3D global space. It calculates the loss function by calculating the deviation of the virtual normal vector VN and the label, which can obtain deeper depth information. We use PnP fusion algorithm to solve the problem of insufficient frame rate of depth map output. It solves the motion estimation depth from three-dimensional target to two-dimensional point based on corner feature matching, which is faster than VNL calculation. We interpolate VNL output and PnP output to achieve information fusion. Experiments show that this can effectively eliminate the jitter of depth information and improve robustness. At the control end, this method combines the results of target detection and depth estimation to calculate the target position, and uses a pure tracking control algorithm to track it.
翻訳日:2022-04-26 12:40:30 公開日:2022-04-24
# Farmer's Assistant: 農業ソリューションのための機械学習ベースのアプリケーション

Farmer's Assistant: A Machine Learning Based Application for Agricultural Solutions ( http://arxiv.org/abs/2204.11340v1 )

ライセンス: Link先を確認
Shloka Gupta, Akshay Chopade, Nishit Jain, Aparna Bhonde(参考訳) 農夫は不確実な灌水、土壌の質の低下など作物を育てる際にいくつかの課題に直面している。 特にインドでは、農夫の大多数が適切な作物や肥料を選択する知識を持っていない。 さらに、病気による作物の故障は農家や消費者に大きな損失をもたらしている。 近年,機械学習技術を用いてこれらの疾患を自動的に検出する手法が開発されているが,Deep Learningの利用は十分に検討されていない。 加えて、トレーニングで使用される高品質なデータ、計算能力の欠如、モデルの一般化の貧弱さから、そのようなモデルの使用は容易ではない。 この目的のために、我々はこれらの問題に対処するためにオープンソースの使いやすいWebアプリケーションを作成し、作物の生産を改善するのに役立ちます。 特に,作物の推薦,肥料の推薦,植物病の予測,対話型ニューズフィードを支援。 また,本研究では,疾患検出モデルによる予測について説明するために,解釈可能性技術を用いている。

Farmers face several challenges when growing crops like uncertain irrigation, poor soil quality, etc. Especially in India, a major fraction of farmers do not have the knowledge to select appropriate crops and fertilizers. Moreover, crop failure due to disease causes a significant loss to the farmers, as well as the consumers. While there have been recent developments in the automated detection of these diseases using Machine Learning techniques, the utilization of Deep Learning has not been fully explored. Additionally, such models are not easy to use because of the high-quality data used in their training, lack of computational power, and poor generalizability of the models. To this end, we create an open-source easy-to-use web application to address some of these issues which may help improve crop production. In particular, we support crop recommendation, fertilizer recommendation, plant disease prediction, and an interactive news-feed. In addition, we also use interpretability techniques in an attempt to explain the prediction made by our disease detection model.
翻訳日:2022-04-26 12:37:31 公開日:2022-04-24
# バンダリングのための完全な政策レグレット境界

Complete Policy Regret Bounds for Tallying Bandits ( http://arxiv.org/abs/2204.11174v1 )

ライセンス: Link先を確認
Dhruv Malik, Yuanzhi Li, Aarti Singh(参考訳) ポリシー後悔は、オンライン学習アルゴリズムのパフォーマンスを適応的な敵に対して測定する、確立された概念である。 我々は,政策後悔の最も強力なバージョンである 'emph{complete policy regret}' の効率的な最小化を可能にする敵に対する制限について検討する。 この困難な環境では、どのような制限がトラクタビリティを許すのか、現在の理論的理解のギャップを識別する。 このギャップを解決するため、確率的多武装バンディットの一般化を考察し、これを 'emph{tallying bandit} と呼ぶ。 これは、$m$-memory bounded adversaryを持つオンライン学習セットで、アクションをプレイする平均損失は、最後の$m$の時間ステップでアクションがプレイされた回数(または集計値)の未知の関数である。 k$ action と time horizon $t$ のバンドイット問題に対して、w.h.p は$\tilde{\mathcal{o}}(mk\sqrt{t})$ の完全なポリシー後悔保証を達成するアルゴリズムを提供し、ここで $\tilde{\mathcal{o}}$ notation は対数因子のみを隠蔽する。 さらに,計算量の多いbanditアルゴリズムの予測された完全ポリシー後悔に対する$\tilde\omega(\sqrt{m k t})$の上限を証明し,近似的最適性を示す。

Policy regret is a well established notion of measuring the performance of an online learning algorithm against an adaptive adversary. We study restrictions on the adversary that enable efficient minimization of the \emph{complete policy regret}, which is the strongest possible version of policy regret. We identify a gap in the current theoretical understanding of what sorts of restrictions permit tractability in this challenging setting. To resolve this gap, we consider a generalization of the stochastic multi armed bandit, which we call the \emph{tallying bandit}. This is an online learning setting with an $m$-memory bounded adversary, where the average loss for playing an action is an unknown function of the number (or tally) of times that the action was played in the last $m$ timesteps. For tallying bandit problems with $K$ actions and time horizon $T$, we provide an algorithm that w.h.p achieves a complete policy regret guarantee of $\tilde{\mathcal{O}}(mK\sqrt{T})$, where the $\tilde{\mathcal{O}}$ notation hides only logarithmic factors. We additionally prove an $\tilde\Omega(\sqrt{m K T})$ lower bound on the expected complete policy regret of any tallying bandit algorithm, demonstrating the near optimality of our method.
翻訳日:2022-04-26 12:11:43 公開日:2022-04-24
# 注意関係グラフ蒸留を用いた深部ニューラルネットワークのバックドアトリガー除去

Eliminating Backdoor Triggers for Deep Neural Networks Using Attention Relation Graph Distillation ( http://arxiv.org/abs/2204.09975v2 )

ライセンス: Link先を確認
Jun Xia, Ting Wang, Jiepin Ding, Xian Wei, Mingsong Chen(参考訳) 人工知能(ai)技術の繁栄により、より多くのバックドアが敵によって設計され、ディープニューラルネットワーク(dnn)を攻撃する。 最新の方法であるニューラルアテンション蒸留(NAD)は、DNNからのバックドアトリガーを効果的に消し去ることができるが、同じ順序のアテンション特徴(注意マップ)を用いたバックドアディフェンスに焦点を当てているため、未確認のアタック成功率(ASR)と低分類のACC(ACC)とを併せ持つ。 本稿では,アテンションリレーショナルグラフ蒸留(ARGD)と呼ばれる新しいバックドアディフェンスフレームワークを紹介し,アテンションリレーショナルグラフ(ARG)を用いて,アテンション特徴と異なる順序との相関性について検討する。 知識蒸留における教師モデルと学生モデルの両方のARGのアライメントに基づいて、ARGDはNADよりもバックドアトリガーを根絶することができる。 総合的な実験の結果、最新の6つのバックドア攻撃に対して、ARGDはNADを94.85%減少させ、ACCを3.23%改善させることができる。

Due to the prosperity of Artificial Intelligence (AI) techniques, more and more backdoors are designed by adversaries to attack Deep Neural Networks (DNNs).Although the state-of-the-art method Neural Attention Distillation (NAD) can effectively erase backdoor triggers from DNNs, it still suffers from non-negligible Attack Success Rate (ASR) together with lowered classification ACCuracy (ACC), since NAD focuses on backdoor defense using attention features (i.e., attention maps) of the same order. In this paper, we introduce a novel backdoor defense framework named Attention Relation Graph Distillation (ARGD), which fully explores the correlation among attention features with different orders using our proposed Attention Relation Graphs (ARGs). Based on the alignment of ARGs between both teacher and student models during knowledge distillation, ARGD can eradicate more backdoor triggers than NAD. Comprehensive experimental results show that, against six latest backdoor attacks, ARGD outperforms NAD by up to 94.85% reduction in ASR, while ACC can be improved by up to 3.23%.
翻訳日:2022-04-26 10:32:46 公開日:2022-04-24