このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211103となっている論文です。

PDF登録状況(公開日: 20211103)

TitleAuthorsAbstract論文公表日・翻訳日
# 純対称三ビット状態の非局所性を特徴づける

Characterizing nonlocality of pure symmetric three-qubit states ( http://arxiv.org/abs/2005.02943v4 )

ライセンス: Link先を確認
K. Anjali, Akshata Shenoy Hejamadi, H. S. Karthik, Shradhanjali Sahu, Sudha and A.R. Usha Devi(参考訳) アリス, ボブ, チャーリー間で共有される3量子純対称状態の非局所性について, クレーター・ホーネ・シモニー・ホルトの不等式を用いて検討する。 これらの状態の正準形式におけるエレガントなパラメトリゼーションは、メイルとマイヤー(Phys)によって提唱された。 rev. a, 96, 062310 (2017) はマヨラナ幾何学表現に基づいている。 任意の純交叉対称3量子状態から抽出された2量子状態はCHSH不等式に違反せず、したがってCHSH局所的である。 しかし、アリスとボブがCHSH試験を行ったとき、チャーリーの測定結果を条件づけた後、州の非局所性を明らかにする。 また、条件付きCHSH非局所性試験において、それぞれ2つの異なるスピノル(量子ビット)と3つの異なるスピノル(量子ビット)からなる3ビット純対称状態の2つの異なるファミリーが、違反の強さに基づいて区別できることを示した。 さらに, 3人組, 2人組, 2人組, (3,2,2) シナリオ (phys) におけるタイトベルの不等式46種のうち6種を同定した。 a94, 062121 (2016)を参照。 3量子の純粋な対称状態の2つの非同値族のうち、3つの異なるスピノル類に属する状態のみがこれら6つのタイトベルの不等式を最大に破っている。

We explore nonlocality of three-qubit pure symmetric states shared between Alice, Bob and Charlie using the Clauser-Horne-Shimony-Holt (CHSH) inequality. We make use of the elegant parametrization in the canonical form of these states, proposed by Meill and Meyer (Phys. Rev. A, 96, 062310 (2017)) based on Majorana geometric representation. The reduced two-qubit states, extracted from an arbitrary pure entangled symmetric three-qubit state do not violate the CHSH inequality and hence they are CHSH-local. However, when Alice and Bob perform a CHSH test, after conditioning over measurement results of Charlie, nonlocality of the state is revealed. We have also shown that two different families of three-qubit pure symmetric states, consisting of two and three distinct spinors (qubits) respectively, can be distinguished based on the strength of violation in the conditional CHSH nonlocality test. Furthermore, we identify six of the 46 classes of tight Bell inequalities in the three-party, two-setting, two-outcome i.e., (3,2,2) scenario (Phys. Rev. A 94, 062121 (2016)). Among the two inequivalent families of three-qubit pure symmetric states, only the states belonging to three distinct spinor class show maximum violations of these six tight Bell inequalities.
翻訳日:2023-05-21 00:38:57 公開日:2021-11-03
# 量子ビットの界面のイメージングとその量子量体環境

Imaging the interface of a qubit and its quantum-many-body environment ( http://arxiv.org/abs/2011.11022v3 )

ライセンス: Link先を確認
S. Rammohan, S. Tiwari, A. Mishra, A. Pendse, A. K. Chauhan, R. Nath, A. Eisfeld, and S. W\"uster(参考訳) デコヒーレンスは、自然または人工の全ての量子系に影響し、量子技術を妨げる主要な障害である。 理論的には、ボース凝縮環境でのRydberg qubitの場合、実験はデコヒーレンスの中心となるシステム環境インタフェースをイメージできる。 凝縮された環境の高精度な吸収画像は、環境中におけるメソスコピックの絡み合った状態のリアルタイム構築を示す過渡信号を捉えることができる。 これは縮合体自身以外のデコヒーレンス源が起動する前に可能であり、クビットデコヒーレンス時間スケールは励起リードベルク主量子数 {\nu} の選択によりナノ秒からマイクロ秒に調整できる。 インターフェースのイメージングは、オープン量子システムの概念の詳細な探索を可能にし、非マルコフ環境における挑戦的なシナリオにおけるコヒーレンス保護のためのガイダンスを提供する。

Decoherence affects all quantum systems, natural or artificial, and is the primary obstacle impeding quantum technologies. We show theoretically that for a Rydberg qubit in a Bose condensed environment, experiments can image the system-environment interface that is central for decoherence. High precision absorption images of the condensed environment will be able to capture transient signals that show the real time build up of a mesoscopic entangled state in the environment. This is possible before decoherence sources other than the condensate itself can kick in, since qubit decoherence time-scales can be tuned from the order of nanoseconds to microseconds by choice of the excited Rydberg principal quantum number {\nu}. Imaging the interface will allow detailed explorations of open quantum system concepts and may offer guidance for coherence protection in challenging scenarios with non-Markovian environments.
翻訳日:2023-04-23 11:11:47 公開日:2021-11-03
# loschmidt cumulantsを用いた強相関多体系における動的量子相転移の決定

Determination of dynamical quantum phase transitions in strongly correlated many-body systems using Loschmidt cumulants ( http://arxiv.org/abs/2011.13612v2 )

ライセンス: Link先を確認
Sebastiano Peotta, Fredrik Brange, Aydin Deger, Teemu Ojanen and Christian Flindt(参考訳) 動的相転移は臨界の概念を非定常な設定に拡張し、時間発展する量子システムのマクロな性質が突然変化することによって特徴づけられる。 動的相転移の研究は対称性、トポロジー、非平衡物理学の側面を組み合わせるが、大きな相互作用する量子系の時間発展を予測することの悪名高い難しさによって進歩は妨げられている。 そこで我々は,Loschmidt cumulants を用いたクエンチ後の多体相互作用の臨界時間を決定することで,この問題に対処する。 具体的には、相互作用するキタエフ鎖とスピン-1ハイゼンベルク鎖の動的位相相転移を調べる。 この目的のために、ロスシュミット振幅が消滅する複素時間の熱力学的線をマッピングし、虚軸との交点を同定し、クエンチ後の実臨界時間を生成する。 キタエフ連鎖では、臨界挙動が強い相互作用によってどのように影響を受けるかを正確に予測することができる。 また,初期状態におけるエネルギーゆらぎを計測することにより,量子多体系の最初の臨界時間を予測する実験的な展望を考察し,量子ビット数に制限のある短期量子コンピュータ上で実装する可能性について述べる。 我々の研究は、ロシミト累積物が強い相関多体系の遠方平衡力学を解く強力なツールであることを示し、我々のアプローチは即座に高次元に適用できることを示した。

Dynamical phase transitions extend the notion of criticality to non-stationary settings and are characterized by sudden changes in the macroscopic properties of time-evolving quantum systems. Investigations of dynamical phase transitions combine aspects of symmetry, topology, and non-equilibrium physics, however, progress has been hindered by the notorious difficulties of predicting the time evolution of large, interacting quantum systems. Here, we tackle this outstanding problem by determining the critical times of interacting many-body systems after a quench using Loschmidt cumulants. Specifically, we investigate dynamical topological phase transitions in the interacting Kitaev chain and in the spin-1 Heisenberg chain. To this end, we map out the thermodynamic lines of complex times, where the Loschmidt amplitude vanishes, and identify the intersections with the imaginary axis, which yield the real critical times after a quench. For the Kitaev chain, we can accurately predict how the critical behavior is affected by strong interactions, which gradually shift the time at which a dynamical phase transition occurs. We also discuss the experimental perspectives of predicting the first critical time of a quantum many-body system by measuring the energy fluctuations in the initial state, and we describe the prospects of implementing our method on a near-term quantum computer with a limited number of qubits. Our work demonstrates that Loschmidt cumulants are a powerful tool to unravel the far-from-equilibrium dynamics of strongly correlated many-body systems, and our approach can immediately be applied in higher dimensions.
翻訳日:2023-04-22 20:47:32 公開日:2021-11-03
# Kibble-Zurek機構を超える多体量子相転移の観測

Observation of many-body quantum phase transitions beyond the Kibble-Zurek mechanism ( http://arxiv.org/abs/2012.01734v3 )

ライセンス: Link先を確認
Qi Huang, Ruixiao Yao, Libo Liang, Shuai Wang, Qinpei Zheng, Dingping Li, Wei Xiong, Xiaoji Zhou, Wenlan Chen, Xuzong Chen, Jiazhong Hu(参考訳) 多体相転移の量子臨界挙動は、量子物理学において最も興味深いが挑戦的な問題の一つである。 そこで我々は,超流動からモット絶縁体への量子相転移を研究するためにバンドマッピング法を改良し,動的定常緩和領域と位相振動領域の両方における量子相転移の臨界挙動を観察した。 様々な観測値に基づいて、同じ量子臨界パラメータの2つの異なる値が観測される。 この結果は、キブル・ズレーク機構として知られる量子相転移の普遍的スケール法則に留まらず、複数の量子臨界機構が不均一系の多体量子相転移実験に競合していることを示唆している。

Quantum critical behavior of many-body phase transitions is one of the most fascinating yet challenging questions in quantum physics. Here, we improved the band-mapping method to investigate the quantum phase transition from superfluid to Mott insulators, and we observed the critical behaviors of quantum phase transitions in both dynamical steady-state-relaxation region and phase-oscillation region. Based on various observables, two different values for the same quantum critical parameter are observed. This result is beyond a universal-scaling-law description of quantum phase transitions known as the Kibble-Zurek mechanism, and suggests that multiple quantum critical mechanisms are competing in many-body quantum phase transition experiments in inhomogeneous systems.
翻訳日:2023-04-22 05:45:36 公開日:2021-11-03
# 量子アニールにおける埋め込み最適化問題のスケーリングオーバーヘッド

Scaling overhead of embedding optimization problems in quantum annealing ( http://arxiv.org/abs/2103.15991v2 )

ライセンス: Link先を確認
Mario S. K\"onz, Wolfgang Lechner, Helmut G. Katzgraber, Matthias Troyer(参考訳) all-to-all connected quadratic binary optimization problem (qubo) をハードウェア量子アニーラで扱うためには、ハードウェアトポロジーのスパースのため、元の問題を埋め込む必要がある。 完全連結グラフの埋め込み - 一般的に工業アプリケーションに見られる - は二次空間のオーバーヘッドを伴い、解決までの時間において大きなオーバーヘッドとなる。 ここでは, 正方格子上のマイナー埋め込み, キメラグラフ上のマイナー埋め込み, 古典ハードウェア上のシミュレーション量子アニーリングを用いたレヒナー・ハウケ・ゾラースキームなど, 確立された平面埋め込みスキームの埋め込みペナルティについて検討する。 大規模量子モンテカルロシミュレーションは多項式時間対解のオーバーヘッドを示唆する。 以上の結果から,標準アナログ量子アニールハードウェアは,従来のデジタルアニールやゲートモデル量子アニールと比較して不利であり,標準量子アニールプロトコルの改良のためのベンチマークとして機能する可能性が示唆された。

In order to treat all-to-all connected quadratic binary optimization problems (QUBO) with hardware quantum annealers, an embedding of the original problem is required due to the sparsity of the hardware's topology. Embedding fully-connected graphs - typically found in industrial applications - incurs a quadratic space overhead and thus a significant overhead in the time to solution. Here we investigate this embedding penalty of established planar embedding schemes such as minor embedding on a square lattice, minor embedding on a Chimera graph, and the Lechner-Hauke-Zoller scheme using simulated quantum annealing on classical hardware. Large-scale quantum Monte Carlo simulation suggest a polynomial time-to-solution overhead. Our results demonstrate that standard analog quantum annealing hardware is at a disadvantage in comparison to classical digital annealers, as well as gate-model quantum annealers and could also serve as benchmark for improvements of the standard quantum annealing protocol.
翻訳日:2023-04-06 05:41:48 公開日:2021-11-03
# 量子誤り補償のための原子間相互作用

Atomic interactions for qubit-error compensations ( http://arxiv.org/abs/2104.10928v2 )

ライセンス: Link先を確認
Michele Delvecchio, Francesco Petiziol, Ennio Arimondo, and Sandro Wimberger(参考訳) 実験的不完全性は量子系の位相と集団誤差を引き起こす。 量子ビット状態の人口にも影響を及ぼすユニタリ誤差を補償する手法を提案する。 これは、ターゲット量子ビットと追加の制御量子ビットとの相互作用によって達成される。 本手法は単光子および2光子励起スキームに対して有効であることを示す。 第一に 2つの縮小モデルについて (i)その相互作用が有効なレベルシフトに対応する二段階システム (ii)ベル三重項部分空間内の2つのキュービットを記述する3レベル1。 第2のケースでは、二重STIRAPプロセスは単光子の場合に対して同等の補償効率で示される。

Experimental imperfections induce phase and population errors in quantum systems. We present a method to compensate unitary errors affecting also the population of the qubit states. This is achieved through the interaction of the target qubit with an additional control qubit. We show that our approach works well for single-photon and two-photon excitation schemes. In the first case, we study two reduced models (i) a two-level system in which the interaction corresponds to an effective level shift and (ii) a three-level one describing two qubits in the Bell triplet subspace. In the second case, instead, a double-STIRAP process is presented with comparable compensation efficiency with respect to the single-photon case.
翻訳日:2023-04-02 20:29:10 公開日:2021-11-03
# ゼロエネルギー基底状態を持つ超調和ダブルウェル系:拡散緩和シナリオとの関連性

Superharmonic double-well systems with zero-energy ground states: Relevance for diffusive relaxation scenarios ( http://arxiv.org/abs/2104.11905v3 )

ライセンス: Link先を確認
Piotr Garbaczewski and Vladimir A. Stephanovich(参考訳) ライン上のスモロフスキー拡散過程の緩和特性(特に時間率)は、収束ポテンシャル$ U(x) \sim x^m$, $m=2n \geq 2$ において、対応するSchr\"{o}dinger semigroup $\exp (-t\hat{H})$, $t\geq 0$ を用いてスペクトル的に定量化することができる。 推論された(次元的に再スケールされた)運動生成器 $\hat{H}= - \Delta + {\cal{V}}(x)$ はポテンシャル関数 ${\cal{V}}(x)= ax^{2m-2} - bx^{m-2}$, $a=a(m), b=b(m) > 0$ で、$m>2$ は顕著な高次(超調和性)二重井戸形式を持つ。 m>2$ の各値に対して、$ \hat{h}$ はゼロエネルギー基底状態固有関数 $\rho _*^{1/2}(x)$ を持ち、ここで$\rho _*(x) \sim \exp -[u(x)]$ は拡散プロセスのボルツマン平衡 pdf を表す。 $\hat{H}$ の特異性は、スペクトルデータが残留または解析的に利用できない準特殊解決可能な Schr\"{o}dinger-type 系の族を指す。 また、この目的のために数値的に支援された手順は開発されていない。 基底状態ゼロ固有値と偶発的な試行錯誤結果を除いて、$\hat{H}$の最低正のエネルギーレベル(およびエネルギーギャップ)は未知である。 この障害を克服するために, 近似スペクトル解である$\hat{h}$ for $m>2$ を回収するコンピュータ支援手法を開発した。 この課題は、スペクトルの緩和関連低部のために達成される。 大きな値の$m$(最大$m=104$)を認めることで、r$ で$\hat{h}$, $m\gg 2$ のスペクトル "クローズネス" と、二面反射によるブラウン運動の生成で知られる区間 $[-1,1]$ でノイマンラプラキアンの$\delta _{\cal{n}}$ を調べる。

Relaxation properties (specifically time-rates) of the Smoluchowski diffusion process on a line, in a confining potential $ U(x) \sim x^m$, $m=2n \geq 2$, can be spectrally quantified by means of the affiliated Schr\"{o}dinger semigroup $\exp (-t\hat{H})$, $t\geq 0$. The inferred (dimensionally rescaled) motion generator $\hat{H}= - \Delta + {\cal{V}}(x)$ involves a potential function ${\cal{V}}(x)= ax^{2m-2} - bx^{m-2}$, $a=a(m), b=b(m) >0$, which for $m>2$ has a conspicuous higher degree (superharmonic) double-well form. For each value of $m>2$, $ \hat{H}$ has the zero-energy ground state eigenfunction $\rho _*^{1/2}(x)$, where $\rho _*(x) \sim \exp -[U(x)]$ stands for the Boltzmann equilibrium pdf of the diffusion process. A peculiarity of $\hat{H}$ is that it refers to a family of quasi-exactly solvable Schr\"{o}dinger-type systems, whose spectral data are either residual or analytically unavailable. As well, no numerically assisted procedures have been developed to this end. Except for the ground state zero eigenvalue and incidental trial-error outcomes, lowest positive energy levels (and energy gaps) of $\hat{H}$ are unknown. To overcome this obstacle, we develop a computer-assisted procedure to recover an approximate spectral solution of $\hat{H}$ for $m>2$. This task is accomplished for the relaxation-relevant low part of the spectrum. By admitting larger values of $m$ (up to $m=104$), we examine the spectral "closeness" of $\hat{H}$, $m\gg 2$ on $R$ and the Neumann Laplacian $\Delta _{\cal{N}}$ in the interval $[-1,1]$, known to generate the Brownian motion with two-sided reflection.
翻訳日:2023-04-02 13:05:15 公開日:2021-11-03
# メソスコピック量子系の超伝導オンチップ分光計

Superconducting on-chip spectrometer for mesoscopic quantum systems ( http://arxiv.org/abs/2106.02632v2 )

ライセンス: Link先を確認
J. Griesmar and R. H. Rodriguez and V. Benzoni and J.-D. Pillet and J.-L. Smirr and F. Lafont and \c{C}. \"O. Girit(参考訳) 分光法は物理的、化学的、生物学的システムを調べる強力なツールである。 マイクロファブリケーションの最近の進歩は、超伝導-半導体ハイブリッドデバイスやトポロジカルに非自明な電気回路を含む、新しいメソスコピック量子システムを導入している。 これらのシステムのエネルギーレベルを調べるための感度の高い汎用分光器は不足している。 本稿では,電圧バイアス超伝導量子干渉デバイスに基づくミリ波帯によく機能するオンチップ吸収分光計を提案する。 準粒子やプラズマ励起などの現象を観測し,様々な超伝導系に結合させることにより,分光器の機能を示す。 我々は、40-50ghz帯の微視的波長可変非線形共振器の分光を行い、高励起状態への遷移を測定する。 周波数範囲、感度、結合強度に優れたジョセフソン接合分光計は、新しいメソスコピック系の線形および非線形分光の新しい実験を可能にする。

Spectroscopy is a powerful tool to probe physical, chemical, and biological systems. Recent advances in microfabrication have introduced novel, intriguing mesoscopic quantum systems including superconductor-semiconductor hybrid devices and topologically non-trivial electric circuits. A sensitive, general purpose spectrometer to probe the energy levels of these systems is lacking. We propose an on-chip absorption spectrometer functioning well into the millimeter wave band which is based on a voltage-biased superconducting quantum interference device. We demonstrate the capabilities of the spectrometer by coupling it to a variety of superconducting systems, probing phenomena such as quasiparticle and plasma excitations. We perform spectroscopy of a microscopic tunable non-linear resonator in the 40-50 GHz range and measure transitions to highly excited states. The Josephson junction spectrometer, with outstanding frequency range, sensitivity, and coupling strength will enable new experiments in linear and non-linear spectroscopy of novel mesoscopic systems.
翻訳日:2023-03-27 21:01:29 公開日:2021-11-03
# ワイル半金属のホーキング破断とホーキング減衰

Hawking fragmentation and Hawking attenuation in Weyl semimetals ( http://arxiv.org/abs/2106.14553v3 )

ライセンス: Link先を確認
Daniel Sabsovich and Paul Wunderlich and Victor Fleurov and Dmitry I. Pikulin and Roni Ilan and Tobias Meng(参考訳) ワイル半金属中の黒と白の穴類似性について検討した。 微視的格子の存在は、素粒子に存在しない大きなモーメントで低エネルギーのフェルミオン二重項状態を生み出し、ワイルハミルトニアンと一般相対性理論の類似性にどのように影響するかを研究する。 微視的強結合格子モデルを用いて、アナログ事象地平線による波束のホーキング断片化とホーキング減衰を引き起こす二重状態を求める。 これらの現象はアナログホーキング温度に依存しており、数値シミュレーションによって確認されるように、メタマテリアルや固体で測定することができる。

We study black and white hole analogues in Weyl semimetals with inhomogenous nodal tilts. We study how the presence of a microscopic lattice, giving rise to low-energy fermion doubler states at large momenta that are not present for elementary particles, affects the analogy between Weyl Hamiltonians and general relativity. Using a microscopic tight-binding lattice model, we find the doubler states to give rise to Hawking fragmentation and Hawking attenuation of wavepackets by the analogue event horizon. These phenomena depend on an analogue Hawking temperature, and can be measured in metamaterials and solids, as we confirm by numerical simulations.
翻訳日:2023-03-24 22:17:51 公開日:2021-11-03
# テンソル分解に基づく可逆論理回路合成アルゴリズム

An Algorithm for Reversible Logic Circuit Synthesis Based on Tensor Decomposition ( http://arxiv.org/abs/2107.04298v3 )

ライセンス: Link先を確認
Hochang Lee and Kyung Chul Jeong and Daewan Han and Panjin Kim(参考訳) 可逆論理合成のためのアルゴリズムを提案する。 与えられた$n$-bit置換写像 $P_n: \{0,1\}^n \rightarrow \{0,1\}^n$ に対して、地図を実装する可逆論理ゲートの列を見つける。 この作品で採用されたゲートライブラリは、複数の制御された toffoli ゲートから成り、$c^m\! X$、$m$は0から$n-1$までの制御ビットの数である。 大きな$m \,\,(>2)$の制御ゲートはさらに$C^0\!に分解される。 X$, $C^1\! X$, and $C^2\! X$ゲート。 アルゴリズムの設計における主な関心事は、$C^2\!の使用を減らすことである。 X$ゲート(トフォリゲートとも呼ばれる)は普遍的であることが知られている。 主なアイデアは、n$-bit置換写像をランク-$2n$テンソルとして表示し、その結果の写像をランク-($2n-2$)テンソルと$2\times 2$の同一行列のテンソル積として書けるように変換することである。 $\mathcal{P}_n$ をすべての$n$-bit置換写像の集合とする。 サイズ縮小写像 $\mathcal{A}_{\rm red}: \mathcal{P}_n \rightarrow \{P_n: P_n = P_{n-1} \otimes I_2\}$ が見つかる。 ここで$i_m$は$m\times m$ identity matrixである。 出力の$p_{n-1} \otimes i_2$が$n-1$bitsのみに対して非自明に振る舞うことが分かるので、合成されるマップは$p_{n-1}$となる。 サイズ削減プロセスは、わずか2 \times 2$行列のテンソル積に達するまで反復的に適用される。

An algorithm for reversible logic synthesis is proposed. The task is, for a given $n$-bit substitution map $P_n: \{0,1\}^n \rightarrow \{0,1\}^n$, to find a sequence of reversible logic gates that implements the map. The gate library adopted in this work consists of multiple-controlled Toffoli gates denoted by $C^m\!X$, where $m$ is the number of control bits that ranges from 0 to $n-1$. Controlled gates with large $m \,\,(>2)$ are then further decomposed into $C^0\!X$, $C^1\!X$, and $C^2\!X$ gates. A primary concern in designing the algorithm is to reduce the use of $C^2\!X$ gate (also known as Toffoli gate) which is known to be universal. The main idea is to view an $n$-bit substitution map as a rank-$2n$ tensor and to transform it such that the resulting map can be written as a tensor product of a rank-($2n-2$) tensor and the $2\times 2$ identity matrix. Let $\mathcal{P}_n$ be a set of all $n$-bit substitution maps. What we try to find is a size reduction map $\mathcal{A}_{\rm red}: \mathcal{P}_n \rightarrow \{P_n: P_n = P_{n-1} \otimes I_2\}$. %, where $I_m$ is the $m\times m$ identity matrix. One can see that the output $P_{n-1} \otimes I_2$ acts nontrivially on $n-1$ bits only, meaning that the map to be synthesized becomes $P_{n-1}$. The size reduction process is iteratively applied until it reaches tensor product of only $2 \times 2$ matrices.
翻訳日:2023-03-23 00:00:29 公開日:2021-11-03
# コンパクトアーベルヒッグスモデルのための量子シミュレータの設計とテストのための理論的手法

Theoretical methods to design and test quantum simulators for the compact Abelian Higgs model ( http://arxiv.org/abs/2107.11366v2 )

ライセンス: Link先を確認
Yannick Meurice(参考訳) 格子コンパクトAbelian Higgsモデルは低エネルギースカラー量子電磁力学の非摂動正規化定式化である。 1+1次元では、このモデルはライドベルクの原子を持つはしご型光学格子(Zhang et al., Phys. Rev. 121, 223201)を用いて量子シミュレーションすることができる。 このセットアップでは、1つの空間次元が量子ローターの角運動量を運ぶために使用される。 スピン-2 と spin-1 に対応する切断を用いて、格子のリンクに付随する局所ヒルベルト空間を構築することができる。 我々は、rydberg原子のラダー型構成可能な配列が同じ目的のために使用できると主張する。 2つと3つのRydberg原子が1つの局所スピン-1空間(クォート)を作るための具体的な提案を行う。 ハミルトン計算の構成要素は 1 と 2 つのスピンを持つモデルであることが示される。 対象とシミュレータを摂動法と数値法で比較する。 2つの原子配置は1スピンモデルの制御が容易なシミュレータを提供し、3つの原子配置は非線形方程式を解く。 これは現在の技術でテストできる。 短期技術は、2つ以上のスピンを持つモデルの量子シミュレートに使用できる。

The lattice compact Abelian Higgs model is a non-perturbative regularized formulation of low-energy scalar quantum electrodynamics. In 1+1 dimensions, this model can be quantum simulated using a ladder-shaped optical lattice with Rydberg-dressed atoms (Zhang et al., Phys. Rev. Lett. 121, 223201). In this setup, one spatial dimension is used to carry the angular momentum of the quantum rotors. One can use truncations corresponding to spin-2 and spin-1 to build local Hilbert spaces associated with the links of the lattice. We argue that ladder-shaped configurable arrays of Rydberg atoms can be used for the same purpose. We make concrete proposals involving two and three Rydberg atoms to build one local spin-1 space (a qutrit). We show that the building blocks of the Hamiltonian calculations are models with one and two spins. We compare target and simulators using perturbative and numerical methods. The two-atom setup provides an easily controllable simulator of the one-spin model while the three-atom setup involves solving nonlinear equations. This could be tested with current technology. We argue that near-term technology could be used to quantum simulate models with two or more spins.
翻訳日:2023-03-21 03:13:35 公開日:2021-11-03
# 散逸環境におけるガウス量子力学

Gaussian quantum metrology in a dissipative environment ( http://arxiv.org/abs/2107.13161v2 )

ライセンス: Link先を確認
Wei Wu, Jun-Hong An(参考訳) 量子計量学は、量子資源を用いて物理量の高精度な測定を追求する。 しかし、デコヒーレンスは一般にそのパフォーマンスを妨げる。 以前の研究で、メトロジー誤差はボルン・マルコフ近似デコヒーレンス(英語版)による長エンコーディング時の状態に分岐する傾向にあり、これはノイジー量子メトロジーのノーゴー定理と呼ばれる。 本稿では、バイモーダル量子化光学場を量子プローブとして用いたガウス量子メトロジースキームを提案する。 これはイデアルの場合、準ハイゼンベルク極限の精度を達成する。 しかし、マルコフのデコヒーレンスにより、プローブの質量中心モードによって引き起こされるメトロロジー誤差が発散する。 この可視的no-go定理を取り除くメカニズムは、非マルコフ力学で見られる。 この結果から,実効連続変数系における高精度な量子メトロジーを実現することができる。

Quantum metrology pursues high-precision measurements of physical quantities by using quantum resources. However, the decoherence generally hinders its performance. Previous work found that the metrological error tends to diverge in the long-encoding-time regime due to the Born-Markovian approximate decoherence, which is called the no-go theorem of noisy quantum metrology. Here we propose a Gaussian quantum metrology scheme using bimodal quantized optical fields as the quantum probe. It achieves the precision of a sub-Heisenberg limit in the ideal case. However, the Markovian decoherence causes the metrological error contributed by the center-of-mass mode of the probe to be divergent. A mechanism to remove this ostensible no-go theorem is found in the non-Markovian dynamics. Our result gives an efficient way to realize high-precision quantum metrology in practical continuous-variable systems.
翻訳日:2023-03-20 17:28:56 公開日:2021-11-03
# ライドバーグ鎖におけるイジング共形場理論の微視的キャラクタリゼーション

Microscopic characterization of Ising conformal field theory in Rydberg chains ( http://arxiv.org/abs/2108.09309v2 )

ライセンス: Link先を確認
Kevin Slagle, David Aasen, Hannes Pichler, Roger S. K. Mong, Paul Fendley, Xie Chen, Manuel Endres, Jason Alicea(参考訳) rydberg chainsは、無数の物理的設定で普遍的な振る舞いを捉える共形場理論(cfts)を探索するための魅力的なプラットフォームを提供する。 電荷密度波と乱相を分離するイジング転移におけるリドベルク連鎖に着目し, 臨界時に生じる顕微鏡と低エネルギー物理の詳細な関係を確立する。 我々はまず、カイラルフェルミオンを含むイジング CFT の元体の格子化(英語版)を構築する -- リーズベルク連鎖ハミルトニアンが正確なフェルミオン化を認めないことを考えると、非自明な問題である。 この辞書を使って、顕微鏡ライドバーグ作用素の相関関係を計算し、即時実験関連性の有限開鎖に特に注意を払う。 さらに,隣り合うRydberg相互作用がIsing CFTにおける4つのフェルミオン結合の符号と強度をどのように調整するかを定量化する手法を開発した。 最後に、4つのフェルミオンカップリングがイジング三臨界性に不安定性をもたらすとき、イジング場がどのように進化するかを決定する。 以上の結果から,Rydberg配列のIsing臨界性について実験的に評価し,結合臨界鎖に基づく新しい高次元位相の設計について報告する。

Rydberg chains provide an appealing platform for probing conformal field theories (CFTs) that capture universal behavior in a myriad of physical settings. Focusing on a Rydberg chain at the Ising transition separating charge density wave and disordered phases, we establish a detailed link between microscopics and low-energy physics emerging at criticality. We first construct lattice incarnations of primary fields in the underlying Ising CFT including chiral fermions -- a nontrivial task given that the Rydberg chain Hamiltonian does not admit an exact fermionization. With this dictionary in hand, we compute correlations of microscopic Rydberg operators, paying special attention to finite, open chains of immediate experimental relevance. We further develop a method to quantify how second-neighbor Rydberg interactions tune the sign and strength of four-fermion couplings in the Ising CFT. Finally, we determine how the Ising fields evolve when four-fermion couplings drive an instability to Ising tricriticality. Our results pave the way to a thorough experimental characterization of Ising criticality in Rydberg arrays, and can inform the design of novel higher-dimensional phases based on coupled critical chains.
翻訳日:2023-03-17 22:51:50 公開日:2021-11-03
# 乱れたケイリー木上のグリーン関数の統計と前方散乱近似の有効性

Statistics of Green's functions on a disordered Cayley tree and the validity of forward scattering approximation ( http://arxiv.org/abs/2108.10326v2 )

ライセンス: Link先を確認
P. A. Nosov, I. M. Khaymovich, A. Kudlis and V. E. Kravtsov(参考訳) カイリー木上のアンダーソン局在モデルの2点グリーン関数に対する前方散乱近似の精度について検討した。 超対称汎関数積分法の枠組みにおいて,グリーン関数のモーメントと線形移動行列方程式の最大固有値との関係が証明された。 この固有値に対する新しい大差分近似が導出され、その精度が確立される。 この近似を用いて、2点グリーン関数の確率分布を発見し、フォワード散乱近似 (fsa) でそれと比較する。 FSAは共鳴の役割を過大に見積もっているため、グリーン関数の確率はその典型的な値よりもかなり大きいことが示されている。 FSAの誤差は、2点グリーン関数の点間距離を増加させることで増加する。

The accuracy of the forward scattering approximation for two-point Green's functions of the Anderson localization model on the Cayley tree is studied. A relationship between the moments of the Green's function and the largest eigenvalue of the linearized transfer-matrix equation is proved in the framework of the supersymmetric functional-integral method. The new large-disorder approximation for this eigenvalue is derived and its accuracy is established. Using this approximation the probability distribution of the two-point Green's function is found and compared with that in the forward scattering approximation (FSA). It is shown that FSA overestimates the role of resonances and thus the probability for the Green's function to be significantly larger than its typical value. The error of FSA increases with increasing the distance between points in a two-point Green's function.
翻訳日:2023-03-17 11:50:10 公開日:2021-11-03
# 量子力学と一般相対性理論による角測定と回転の基本限界

Fundamental Limit on Angular Measurements and Rotations from Quantum Mechanics and General Relativity ( http://arxiv.org/abs/2108.11990v2 )

ライセンス: Link先を確認
Xavier Calmet, Stephen D.H. Hsu(参考訳) 角計測や回転(例えば、量子ビットやスピン状態の向き)の精度は、量子力学や一般相対性理論(重力崩壊)から生じる基本的な制約によって制限される。 制限精度はプランク単位において$r^{-1}$であり、$r$はスピン状態を操作するために使われる(マクロな)装置の物理的範囲である。 この基本的な制限は、スピン状態 $s_1$ と $s_2$ が十分に小さい回転で異なる場合、互いに実験的に区別できないことを意味する。 実験は、量子状態ベクトル(つまりヒルベルト空間)の空間が連続ではなく本質的に離散的である可能性を排除することはできない。 物理学は無限性や連続体を必要とするのか?

We show that the precision of an angular measurement or rotation (e.g., on the orientation of a qubit or spin state) is limited by fundamental constraints arising from quantum mechanics and general relativity (gravitational collapse). The limiting precision is $r^{-1}$ in Planck units, where $r$ is the physical extent of the (possibly macroscopic) device used to manipulate the spin state. This fundamental limitation means that spin states $S_1$ and $S_2$ cannot be experimentally distinguished from each other if they differ by a sufficiently small rotation. Experiments cannot exclude the possibility that the space of quantum state vectors (i.e., Hilbert space) is fundamentally discrete, rather than continuous. We discuss the implications for finitism: does physics require infinity or a continuum?
翻訳日:2023-03-17 02:57:00 公開日:2021-11-03
# バイエクシトンの量子フーリエ変換分光法

Quantum Fourier transform spectroscopy of biexciton ( http://arxiv.org/abs/2109.03715v2 )

ライセンス: Link先を確認
Hiroya Seki, Kensuke Miyajima and Ryosuke Shimizu(参考訳) 古典的干渉法によるフーリエ変換分光法は、光の粒子の性質の観点から単光子強度スペクトルの測定に対応する。 対照的に、2光子量子干渉パターンのフーリエ変換は、2つの光子の強度スペクトルを構成光子の和または差周波数の関数として提供する。 この量子干渉分光法の特異な特徴は、古典的測定と異なる種類のスペクトル情報を提供し、2光子放出を持つ非線形分光法に有用である。 ここでは、半導体CuCl中のバイエクシトンを介して放出される光子対の2光子量子干渉の最初の実験例を報告する。 量子干渉パターンへのフーリエ変換の適用に加えて、2光子和または差分周波数におけるバイエクシトン発光の強度スペクトルを再構成する。 本稿では,CuCl中の再構成スペクトルと励起子状態の関連性および固体分光における量子干渉法の性能について論じる。

Fourier transform spectroscopy with classical interferometry corresponds to the measurement of a single-photon intensity spectrum from the viewpoint of the particle nature of light. In contrast, the Fourier transform of two-photon quantum interference patterns provides the intensity spectrum of the two photons as a function of the sum or difference frequency of the constituent photons. This unique feature of quantum interferometric spectroscopy offers a different type of spectral information from the classical measurement and may prove useful for nonlinear spectroscopy with two-photon emission. Here, we report the first experimental demonstration of two-photon quantum interference of photon pairs emitted via biexcitons in the semiconductor CuCl. Besides applying Fourier transform to quantum interference patterns, we reconstruct the intensity spectrum of the biexciton luminescence in the two-photon sum or difference frequency. We discuss the connection between the reconstructed spectra and exciton states in CuCl as well as the capability of quantum interferometry in solid-state spectroscopy.
翻訳日:2023-03-15 20:33:46 公開日:2021-11-03
# a$ および $b$ 形式の正準構造

Canonical structures of $A$ and $B$ forms ( http://arxiv.org/abs/2109.10409v2 )

ライセンス: Link先を確認
Sudha, B.N.Karthik, A.R.Usha Devi, A.K.Rajagopal(参考訳) 論文は「Phys」。 Rev.121, 920 (1961)) Sudarshan, Mathews and Rau は、$n$次元量子系に作用する動的$A$および$B$写像の性質を調査した。 オープン量子系の進化における動的マップの性質は、後世に多くの注目を集めている。 しかし、$A$と$B$のダイナミックマップに関する新しい論文は、十分な注目を集めていない。 このチュートリアルでは、有限次元量子システムのダイナミクスに関連する$a$および$b$形式の性質について概説する。 特に、$A$形式に関連する標準構造を調査し、関連する$B$形式と等価性を確立する。 a$形式の正準構造は、簡潔な方法でダイナミクスの完全正の(完全に正のではない)性質を捉えていることを示している。 この機能は、キュービットチャネルの物理的例を通して示される。

In their seminal paper (Phys. Rev.121, 920 (1961)) Sudarshan, Mathews and Rau investigated properties of the dynamical $A$ and $B$ maps acting on $n$ dimensional quantum systems. Nature of the dynamical maps in open quantum system evolutions has attracted great deal of attention in the later years. However, the novel paper on the $A$ and $B$ dynamical maps has not received its due attention. In this tutorial article we review the properties of $A$ and $B$ forms associated with the dynamics of finite dimensional quantum systems. In particular we investigate a canonical structure associated with the $A$ form and establish its equivalence with the associated $B$ form. We show that the canonical structure of the $A$ form captures the completely positive (not completely positive) nature of the dynamics in a succinct manner. This feature is illustrated through physical examples of qubit channels.
翻訳日:2023-03-14 03:13:43 公開日:2021-11-03
# 偏光性2D-IR透過スペクトル

Isolating Polaritonic 2D-IR Transmission Spectra ( http://arxiv.org/abs/2110.00073v2 )

ライセンス: Link先を確認
Rong Duan, Joseph N. Mastron, Yin Song, and Kevin J. Kubarych(参考訳) 共鳴光学マイクロキャビティ内の分子の振動遷移の間の強い結合は、集合的な非局在的な振動分極を形成する。 偏光化学」の潜在的な応用は、修飾化学反応性から量子情報処理まで多岐にわたる。 偏光応答を得る上での課題のひとつは、偏光子透過スペクトルによって振幅がフィルタリングされる通常の2D-IRスペクトルを生成するアンカップリング分子によるバックグラウンドコントリビューションを取り除くことである。 この背景信号と真のポラリトン応答の線形重ね合わせによって、振動ポラリトンの2d-irスペクトルのほとんどの特徴を説明できることを示した。 2D-IRスペクトルを測定したキャビティ応答から抽出し, 偏光スペクトルを復元する簡単な補正法により, 偏光スペクトルを復元する。

Strong coupling between vibrational transitions in molecules within a resonant optical microcavity leads to the formation of collective, delocalized vibrational polaritons. There are many potential applications of "polaritonic chemistry," ranging from modified chemical reactivity to quantum in-formation processing. One challenge in obtaining the polaritonic response is to remove a background contribution due to the uncoupled molecules that generate an ordinary 2D-IR spectrum whose amplitude is filtered by the polariton transmission spectrum. We show that most features in 2D-IR spectra of vibrational polaritons can be explained by a linear superposition of this background signal and the true polariton response. Through a straightforward correction procedure, where the filtered bare molecule 2D-IR spectrum is subtracted from the measured cavity response, we recover the polaritonic spectrum.
翻訳日:2023-03-12 22:53:21 公開日:2021-11-03
# メタバースについて知っておくべきこと:技術特異性、仮想生態系、研究アジェンダに関する完全な調査

All One Needs to Know about Metaverse: A Complete Survey on Technological Singularity, Virtual Ecosystem, and Research Agenda ( http://arxiv.org/abs/2110.05352v3 )

ライセンス: Link先を確認
Lik-Hang Lee, Tristan Braud, Pengyuan Zhou, Lin Wang, Dianlei Xu, Zijun Lin, Abhishek Kumar, Carlos Bermejo, Pan Hui(参考訳) 1990年代にインターネットが普及して以来、サイバー空間は進化を続けている。 われわれは、ソーシャルネットワーク、ビデオ会議、バーチャル3Dワールド(VRチャットなど)、拡張現実アプリケーション(ポケモンGOなど)、非Fungible Token Games(アップランドなど)など、様々なコンピュータによる仮想環境を作成してきた。 このような仮想環境は、永遠で接続されていないものの、デジタルトランスフォーメーションの度合いはさまざまです。 metaverse'という言葉は、私たちの生活のあらゆる側面におけるデジタルトランスフォーメーションをさらに促進するために作られた。 メタバースの中核は、没入型インターネットが巨大な、統一され、永続的で共有された領域としてのビジョンである。 メタバースは未来的で、拡張現実、5G、人工知能といった新興技術によって触媒されるかもしれないが、私たちのサイバー空間のデジタル「ビッグバン」は遠くない。 本稿では,最先端技術とメタバースエコシステムの次元で最新のメタバース開発を検証し,デジタル「ビッグバン」の可能性を示す,包括的枠組みを提供するための最初の試みについて述べる。 第一に、テクノロジーは現在のインターネットからメタバースへの移行を駆動するイネーブルである。 そこで我々は,拡張現実性,ユーザインタラクション(Human-Computer Interaction),人工知能,ブロックチェーン,コンピュータビジョン,IoTとロボティクス,エッジとクラウドコンピューティング,Future Mobile Networksの8つの実現可能なテクノロジを厳格に検討した。 アプリケーションの観点からは、metaverseエコシステムによって、人間ユーザは自己維持的で永続的で共有された領域で生活し、遊ぶことができる。 そこで我々は,アバター,コンテンツ創造,バーチャルエコノミー,社会的受容性,セキュリティとプライバシ,信頼と説明責任という,ユーザ中心の6つの要因について論じる。 最後に,メタバース開発のための具体的な研究課題を提案する。

Since the popularisation of the Internet in the 1990s, the cyberspace has kept evolving. We have created various computer-mediated virtual environments including social networks, video conferencing, virtual 3D worlds (e.g., VR Chat), augmented reality applications (e.g., Pokemon Go), and Non-Fungible Token Games (e.g., Upland). Such virtual environments, albeit non-perpetual and unconnected, have bought us various degrees of digital transformation. The term `metaverse' has been coined to further facilitate the digital transformation in every aspect of our physical lives. At the core of the metaverse stands the vision of an immersive Internet as a gigantic, unified, persistent, and shared realm. While the metaverse may seem futuristic, catalysed by emerging technologies such as Extended Reality, 5G, and Artificial Intelligence, the digital `big bang' of our cyberspace is not far away. This survey paper presents the first effort to offer a comprehensive framework that examines the latest metaverse development under the dimensions of state-of-the-art technologies and metaverse ecosystems, and illustrates the possibility of the digital `big bang'. First, technologies are the enablers that drive the transition from the current Internet to the metaverse. We thus examine eight enabling technologies rigorously - Extended Reality, User Interactivity (Human-Computer Interaction), Artificial Intelligence, Blockchain, Computer Vision, IoT and Robotics, Edge and Cloud computing, and Future Mobile Networks. In terms of applications, the metaverse ecosystem allows human users to live and play within a self-sustaining, persistent, and shared realm. Therefore, we discuss six user-centric factors -- Avatar, Content Creation, Virtual Economy, Social Acceptability, Security and Privacy, and Trust and Accountability. Finally, we propose a concrete research agenda for the development of the metaverse.
翻訳日:2023-03-12 07:53:32 公開日:2021-11-03
# QAOAKit:QAOAの再現可能な研究、応用、検証のためのツールキット

QAOAKit: A Toolkit for Reproducible Study, Application, and Verification of the QAOA ( http://arxiv.org/abs/2110.05555v3 )

ライセンス: Link先を確認
Ruslan Shaydulin, Kunal Marwaha, Jonathan Wurtz, Phillip C. Lotshaw(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)の最もよく知られたパラメータ、性能、体系的な振る舞いを理解することは、アルゴリズムが普及してもオープンな研究課題である。 探索研究用に構築されたQAOAのためのPythonツールキットであるQAOAKitを紹介する。 QAOAKitは、量子シミュレーションフレームワークのための事前最適化されたQAOAパラメータと回路ジェネレータの統一リポジトリである。 我々は、MaxCut問題の既知パラメータを結合し、標準化し、相互検証し、これをQAOAKitに組み込む。 また、これらのパラメータをいくつかの量子シミュレーションフレームワークの入力として使用する変換ツールを構築し、文献中の様々なソースから既知の結果を再現、比較、拡張するために使用します。 我々は、qaoakitについて述べ、その研究結果を再現し、量子最適化におけるオープンな問題に取り組む方法の例を示す。

Understanding the best known parameters, performance, and systematic behavior of the Quantum Approximate Optimization Algorithm (QAOA) remain open research questions, even as the algorithm gains popularity. We introduce QAOAKit, a Python toolkit for the QAOA built for exploratory research. QAOAKit is a unified repository of preoptimized QAOA parameters and circuit generators for common quantum simulation frameworks. We combine, standardize, and cross-validate previously known parameters for the MaxCut problem, and incorporate this into QAOAKit. We also build conversion tools to use these parameters as inputs in several quantum simulation frameworks that can be used to reproduce, compare, and extend known results from various sources in the literature. We describe QAOAKit and provide examples of how it can be used to reproduce research results and tackle open problems in quantum optimization.
翻訳日:2023-03-11 19:00:13 公開日:2021-11-03
# エネルギー, ハイゼンベルクの不確実性, 平均エネルギー, 力, 平均力, 熱力学量における時間非依存量子系の比較

Comparison between time-independent and time-dependent quantum systems in the context of energy, Heisenberg uncertainty, average energy, force, average force and thermodynamic quantities ( http://arxiv.org/abs/2110.05609v2 )

ライセンス: Link先を確認
Debraj Nath(参考訳) 時間依存ポテンシャルの存在下での時間依存シュリンガー方程式の厳密な解は、点変換と変数の分離によって定義される。 平均エネルギーとハイゼンベルクの不確実性関係は時間依存ポテンシャルに対して定義される。 固定境界壁に作用する力と移動境界壁に作用する平均力は、様々な軌道に沿って示される。 高温の場合、分割関数の解析形式とそれに対応する熱力学量は、有限上のオイラー・マクローリン和式および正確な表現のための無限領域に従って導出される。 3つの量子系は1つの量子系から点変換、変数の分離、超対称性の量子力学の助けを借りて生成され、対応する結果は全ての系で比較され、そのうちの2つは時間に依存し、もう2つは時間に依存している。

Exact solutions of time-dependent Schr\"odinger equation in presence of time-dependent potential is defined by point transformation and separation of variables. Energy and Heisenberg uncertainty relation are pursued for time-independent potential whereas average energy and Heisenberg uncertainty relation are defined for time-dependent potential. Forces acting on a fixed boundary wall as well as average force acting on moving boundary wall are presented along various trajectories. For high temperature, analytical forms of partition function and the corresponding thermodynamic quantities are derived following the Euler-Maclaurin summation formula over a finite as well as an infinite domain for accurate presentation. Three quantum systems are generated with the help of point transformation, separation of variables and super-symmetric quantum mechanics from one quantum system and the corresponding results are compared among all systems, where two of them are time-independent and another two are time-dependent.
翻訳日:2023-03-11 17:14:25 公開日:2021-11-03
# 単光子非局所性の簡易場理論記述法

A Simple Field Theoretic Description of Single-Photon Nonlocality ( http://arxiv.org/abs/2110.12930v2 )

ライセンス: Link先を確認
Andrea Aiello(参考訳) 単光子場の非局所性の単純かつ厳密な場理論的証明を示す。 定式化によって、ビームスプリッターを通して送信される単光子光線の電界を計算でき、これは光子自体が粒子と見なされるのではなく、非局所性を示す光場であることが直接的に示される。 この結果は不等式や特定測定装置を使わずに得られるので, 完全な汎用性が得られる。

We present a simple yet rigorous field theoretic demonstration of the nonlocality of a single-photon field. The formalism used allows us to calculate the electric field of a single-photon light beam sent through a beam splitter, which directly demonstrates that it is the light field, rather than the photon itself regarded as a particle, that exhibits nonlocality. Our results are obtained without using either inequalities or specific measurement apparatuses, so that they have perfectly general validity.
翻訳日:2023-03-10 07:51:58 公開日:2021-11-03
# Soros, Child Sacrifices, and 5G: Web コミュニティにおける陰謀論の広がりを理解する

Soros, Child Sacrifices, and 5G: Understanding the Spread of Conspiracy Theories on Web Communities ( http://arxiv.org/abs/2111.02187v1 )

ライセンス: Link先を確認
Pujan Paudel, Jeremy Blackburn, Emiliano De Cristofaro, Savvas Zannettou, and Gianluca Stringhini(参考訳) 本稿では,陰謀論を論じるソーシャルメディア投稿の特定を目的としたマルチプラットフォーム計算パイプラインを提案する。 我々はSnopesが収集した189件の陰謀の主張を使い、Redditで66kの投稿と277kのコメントを見つけ、379kのツイートで議論している。 次に, 異なるwebコミュニティにおいて, どのように共謀が議論され, どちらが議論の推進に特に影響を与えているかを考察する。 私たちの分析では、陰謀論がオンライン上で議論され、広められるかに光を当てています。

This paper presents a multi-platform computational pipeline geared to identify social media posts discussing (known) conspiracy theories. We use 189 conspiracy claims collected by Snopes, and find 66k posts and 277k comments on Reddit, and 379k tweets discussing them. Then, we study how conspiracies are discussed on different Web communities and which ones are particularly influential in driving the discussion about them. Our analysis sheds light on how conspiracy theories are discussed and spread online, while highlighting multiple challenges in mitigating them.
翻訳日:2023-03-09 06:59:15 公開日:2021-11-03
# 多層都市移動と多層輸送ネットワーク

Multimodal urban mobility and multilayer transport networks ( http://arxiv.org/abs/2111.02152v1 )

ライセンス: Link先を確認
Luis Guillermo Natera Orozco, Laura Alessandretti, Meead Saberi, Michael Szell, Federico Battiston(参考訳) 自転車道からバスや鉄道まで、交通網が都市移動のバックボーンとなっている。 大都市では、高速で持続可能な人々の流れを保証するために異なる交通手段の統合が重要になっている。 ネットワークサイエンスのアプローチを用いて、マルチモーダルトランスポートシステムは、異なるトランスポートモードに関連するネットワークを独立して考えるのではなく、相互接続されたレイヤの集合として記述することができる。 現代都市におけるマルチモダリティの重要性にもかかわらず、このトピックの統一された見解は現在欠落している。 本稿では,多層輸送ネットワークとマルチモーダル都市モビリティの新たな研究分野を総合的に概観し,複雑系,都市データ科学,都市科学の学際的な分野からの貢献に焦点を当てた。 まず,多層ネットワークの数学的枠組みについて紹介する。 マルチモーダルインフラストラクチャのモデルや,マルチモーダル性や関連する経験的知見を定量化するための尺度に応用する。 本研究は,様々な交通手段を用いて都市システムを走行する実世界の移動パターンに着目し,マルチモーダルモビリティと公共交通システムの動態のモデル化手法と観察的証拠を概観する。 次に、マルチモーダルインフラストラクチャとモビリティに関する自由に利用可能なデータセットのサーベイと、分析のためのオープンソースツールのリストを提供する。 最後に,オープンリサーチの課題と今後の研究の方向性について概観する。

Transportation networks, from bicycle paths to buses and railways, are the backbone of urban mobility. In large metropolitan areas, the integration of different transport modes has become crucial to guarantee the fast and sustainable flow of people. Using a network science approach, multimodal transport systems can be described as multilayer networks, where the networks associated to different transport modes are not considered in isolation, but as a set of interconnected layers. Despite the importance of multimodality in modern cities, a unified view of the topic is currently missing. Here, we provide a comprehensive overview of the emerging research areas of multilayer transport networks and multimodal urban mobility, focusing on contributions from the interdisciplinary fields of complex systems, urban data science, and science of cities. First, we present an introduction to the mathematical framework of multilayer networks. We apply it to survey models of multimodal infrastructures, as well as measures used for quantifying multimodality, and related empirical findings. We review modelling approaches and observational evidence in multimodal mobility and public transport system dynamics, focusing on integrated real-world mobility patterns, where individuals navigate urban systems using different transport modes. We then provide a survey of freely available datasets on multimodal infrastructure and mobility, and a list of open source tools for their analyses. Finally, we conclude with an outlook on open research questions and promising directions for future research.
翻訳日:2023-03-09 06:58:29 公開日:2021-11-03
# 量子コンピュータが基礎物理学やその逆をテストする

Quantum computers to test fundamental physics or viceversa ( http://arxiv.org/abs/2111.02136v1 )

ライセンス: Link先を確認
Simanraj Sadana, Lorenzo Maccone, Urbasi Sinha(参考訳) 量子コンピュータと量子力学の基礎を組み合わせるための2つの相補的な視点を示す。 一方、理想デバイスは、量子力学の基礎の実験的なテストのためのテストベッドとして使用できる:我々は、重ね合わせ原理のペレステストとボルンの規則のソルキンテストのためのアルゴリズムを提供する。 一方、ノイズの多い中間スケール量子(NISQ)デバイスは、これらの同じテストを用いてベンチマークすることができる。 これらは量子理論の基礎に基づく深量子ベンチマークである。 リゲッティのハードウェアによるテストデータを示す。

We present two complementary viewpoints for combining quantum computers and the foundations of quantum mechanics. On one hand, ideal devices can be used as testbeds for experimental tests of the foundations of quantum mechanics: we provide algorithms for the Peres test of the superposition principle and the Sorkin test of Born's rule. On the other hand, noisy intermediate-scale quantum (NISQ) devices can be benchmarked using these same tests. These are deep-quantum benchmarks based on the foundations of quantum theory itself. We present test data from Rigetti hardware.
翻訳日:2023-03-09 06:57:57 公開日:2021-11-03
# 非平衡4階干渉における一般考察

General considerations in unbalanced fourth-order interference ( http://arxiv.org/abs/2111.02107v1 )

ライセンス: Link先を確認
Z. Y. Ou and Xiaoying Li(参考訳) 干渉計はセンシング用途で広く用いられている。 しかし、干渉経路が平衡しない場合の光源の有限コヒーレンス時間によってこの技術は制限される。 高次干渉効果は複数の検出器間の強度相関を伴い、1つの検出器だけに現れる従来の2次干渉効果よりも有利である可能性がある。 異なる経路における不均衡遅延を伴う4次干渉の様々なシナリオについて考察する。 いくつかのケースでは、遅延がソースのコヒーレンス時間よりもはるかに大きい場合でも干渉効果は持続する。 また,パルス形状を考慮し,異なる治療を必要とする非定常パルス場についても議論を展開する。 これらの結果はリモートセンシングアプリケーションに役立ちます。

Interferometry has been used widely in sensing application. However, the technique is limited by the finite coherence time of the light sources when the interference paths are not balanced. Higher-order interference effects involve intensity correlations between multiple detectors and may have the advantage over the traditional second order interference effect exhibited in only one detector. We discuss various scenarios in fourth-order interference with unbalanced delays in different paths. We find in some cases, interference effect persists even when the delays are much larger than the coherence time of the sources. We also extend the discussion to non-stationary pulsed fields, which needs to consider the pulse shape and requires a different treatment. These results will be useful in remote sensing applications.
翻訳日:2023-03-09 06:57:49 公開日:2021-11-03
# 量子バイオテクノロジー

Quantum Biotechnology ( http://arxiv.org/abs/2111.02021v1 )

ライセンス: Link先を確認
Nicolas P. Mauranyapin, Alex Terrason and Warwick P. Bowen(参考訳) 量子技術は量子物理学の法則を活用し、コンピューティングから通信、センシングまで幅広い応用において性能上の利点を享受する。 生物科学における様々な応用が提案されている。 これには、より良い顕微鏡とバイオセンサー、分子プロセスのシミュレーションの改善、生体分子と化学反応の挙動を制御する新しい機能が含まれる。 量子効果についても多くの議論があり、例えば、より効率的なエネルギー輸送と酵素触媒の速度の向上を可能にし、生物学において機能的な利益をもたらすと予測されている。 逆に、生物学的システムの環境からの障害に対する堅牢性は、量子技術内のコンポーネント、例えば量子通信システムの光源として使用するという提案につながっている。 量子・生物科学のインターフェイスにおけるこの幅広い応用は、量子物理学が将来のバイオテクノロジーの発展を刺激する上で重要な役割を果たすことを示唆している。 このレビューは、量子バイオテクノロジーの新しい分野を概観し、現在の能力、将来の展望、潜在的な影響領域を紹介することを目的としている。 このレビューは、非専門家に公開され、量子可能なセンシング、量子可能なイメージング、量子生体分子制御、生物学における量子効果の4つの重要な領域に焦点を当てている。

Quantum technologies leverage the laws of quantum physics to achieve performance advantages in applications ranging from computing to communications and sensing. They have been proposed to have a range of applications in biological science. This includes better microscopes and biosensors, improved simulations of molecular processes, and new capabilities to control the behaviour of biomolecules and chemical reactions. Quantum effects are also predicted, with much debate, to have functional benefits in biology, for instance, allowing more efficient energy transport and improving the rate of enzyme catalysis. Conversely, the robustness of biological systems to disorder from their environment has led to proposals to use them as components within quantum technologies, for instance as light sources for quantum communication systems. Together, this breadth of prospective applications at the interface of quantum and biological science suggests that quantum physics will play an important role in stimulating future biotechnological advances. This review aims to provide an overview of this emerging field of quantum biotechnology, introducing current capabilities, future prospects, and potential areas of impact. The review is written to be accessible to the non-expert and focuses on the four key areas of quantum-enabled sensing, quantum-enabled imaging, quantum biomolecular control, and quantum effects in biology.
翻訳日:2023-03-09 06:57:40 公開日:2021-11-03
# 機能型後継表現学習におけるシナプス重み初期化の効果

The effect of synaptic weight initialization in feature-based successor representation learning ( http://arxiv.org/abs/2111.02017v1 )

ライセンス: Link先を確認
Hyunsu Lee(参考訳) 場所細胞を発見した後、幾何学空間を表す海馬関数(HPC)のアイデアは、予測、想像、概念認知マップにまで拡張された。 近年の研究では、HPCは予測地図であり、HPCは特定の場所への訪問を予測している。 この予測地図理論は強化学習による後継表現(sr)に基づいている。 特徴ベースSR(Feature-based SR, SF)は、ニューラルネットワークを関数近似としてSRを学習する。 しかし、重量の初期化(W)がSF学習にどのように影響するかはよく分かっていない。 本研究では,SF学習者が単純な迷路環境に曝露し,学習効率とWパターンの変化を分析した。 3種類のW初期化パターンが, 同一性行列, ゼロ行列, 小さいランダム行列を用いた。 ランダムな重み行列で開始したSF学習者は,他の3つのRLエージェントよりも優れた性能を示した。 SF重み行列の神経生物学的意義について論じる。 このアプローチを通じて,神経科学と人工知能の観点から,知性に対する理解を高めることを試みた。

After discovering place cells, the idea of the hippocampal (HPC) function to represent geometric spaces has been extended to predictions, imaginations, and conceptual cognitive maps. Recent research arguing that the HPC represents a predictive map; and it has shown that the HPC predicts visits to specific locations. This predictive map theory is based on successor representation (SR) from reinforcement learning. Feature-based SR (SF), which uses a neural network as a function approximation to learn SR, seems more plausible neurobiological model. However, it is not well known how different methods of weight (W) initialization affect SF learning. In this study, SF learners were exposed to simple maze environments to analyze SF learning efficiency and W patterns pattern changes. Three kinds of W initialization pattern were used: identity matrix, zero matrix, and small random matrix. The SF learner initiated with random weight matrix showed better performance than other three RL agents. We will discuss the neurobiological meaning of SF weight matrix. Through this approach, this paper tried to increase our understanding of intelligence from neuroscientific and artificial intelligence perspective.
翻訳日:2023-03-09 06:57:21 公開日:2021-11-03
# ゼロ重力カー・ニューマン時空におけるディラック・ハミルトンの点スペクトル

The point spectrum of the Dirac Hamiltonian on the zero-gravity Kerr-Newman spacetime ( http://arxiv.org/abs/2111.01960v1 )

ライセンス: Link先を確認
Michael K. -H. Kiessling, Eric Ling, A. Shadi Tahvildar-Zadeh(参考訳) 本稿では,ゼロ重力カー・ニューマン時空上のディラック方程式について述べる。 我々の主な目的は、zGKNスペクトルの有界状態の分類と、水素原子の通常の水素状態1s_{1/2}$、2s_{1/2}$などとの対応性を提供することである。

In this short paper, we review the Dirac equation on the zero-gravity Kerr-Newman spacetime. Our main objective is to provide a correspondence between the classification of the bound states for the zGKN spectrum and the usual hydrogenic states $1s_{1/2}$, $2s_{1/2}$, etc. of the Hydrogen atom.
翻訳日:2023-03-09 06:56:53 公開日:2021-11-03
# 量子ネットワークと従来型ネットワークのインターフェースについて学ぶ

Lessons Learned on the Interface between Quantum and Conventional Networking ( http://arxiv.org/abs/2111.02341v1 )

ライセンス: Link先を確認
Muneer Alshowkan, Nageswara S. V. Rao, Joseph C. Chapman, Brian P. Williams, Philip G. Evans, Raphael C. Pooser, Joseph M. Lukens, and Nicholas A. Peters(参考訳) 将来のQuantum Internetは、従来のネットワークによって補完されるコア量子トランスポート機能を備えたハイブリッドアーキテクチャをベースとすることが期待されている。 (i)既存の通信繊維インフラを多用し、 (ii)量子ネットワークプロトコルに必要な並列従来のデータチャネルを提供する。 本稿では,これらの要件を満たす新しいアーキテクチャを実装するためにQCN(Quantum-Conventional Network)を提案する。 qcnコントロールプレーンは制御と管理トラフィックを持ち、そのデータプレーンは従来のデータ通信と量子データ通信を処理する。 我々は3つの量子研究所を専用ファイバーと従来のネットワーク接続で接続するローカル領域QCNを構築した。 このネットワーク上で行った最近の量子エンタングルメント分布実験により, 層状QCN関数の考察とトレードオフについて述べる。

The future Quantum Internet is expected to be based on a hybrid architecture with core quantum transport capabilities complemented by conventional networking.Practical and foundational considerations indicate the need for conventional control and data planes that (i) utilize extensive existing telecommunications fiber infrastructure, and (ii) provide parallel conventional data channels needed for quantum networking protocols. We propose a quantum-conventional network (QCN) harness to implement a new architecture to meet these requirements. The QCN control plane carries the control and management traffic, whereas its data plane handles the conventional and quantum data communications. We established a local area QCN connecting three quantum laboratories over dedicated fiber and conventional network connections. We describe considerations and tradeoffs for layering QCN functionalities, informed by our recent quantum entanglement distribution experiments conducted over this network.
翻訳日:2023-03-09 06:50:45 公開日:2021-11-03
# 一次元アンハーモニックトラップにおける相互作用する2つの原子のクエンチダイナミクス

Quench dynamics of two interacting atoms in a one-dimensional anharmonic trap ( http://arxiv.org/abs/2111.02321v1 )

ライセンス: Link先を確認
I. S. Ishmukhamedov(参考訳) 1次元高調波トラップと無調波トラップの結合強度のクエンチに対する相互作用粒子の時間応答について検討した。 結合強度は反発性から魅力的な相互作用に変更される。 忠実度,波状パケット,一体還元密度行列,運動量分布の時間的変化を詳細に解析した。 その結果, 前・後状態の影響は動的に変化することが判明した。 無調波トラップの場合、質量中心励起状態のさらなる寄与が作用し、全体の進化が著しく変化する。 しかし、いくつかのケースでは、プレクエンチ状態とポストクエンチ状態の影響がまだ特定できる。 地盤のクエンチダイナミクスと励起状態が考慮される。

A temporal response of two interacting particles to a quench of the coupling strength in one-dimensional harmonic and anharmonic traps is explored. The coupling strength is changed from repulsive to attractive interactions and vice versa. The time evolution of the fidelity, wave packet, one-body reduced density matrix and momentum distributions is analyzed in details. It was found that impacts of the pre- and postquench states interchange during the dynamics. In the case of the anharmonic trap additional contribution of the center-of-mass excited states comes into play and the whole evolution becomes significantly altered. Yet the impact of the pre- and postquench states in some cases still could be identified. The quench dynamics of the ground and excited states are considered.
翻訳日:2023-03-09 06:50:33 公開日:2021-11-03
# NPまたはQMAオーラクルに対する多項式的な多くのクエリについて

On polynomially many queries to NP or QMA oracles ( http://arxiv.org/abs/2111.02296v1 )

ライセンス: Link先を確認
Sevag Gharibian and Dorian Rudolph(参考訳) P^{NP}$や$P^{QMA}$といったNPやQuantum Merlin-Arthur-oracle(QMA)へのアクセスを伴う決定論的多項式時間で解ける問題の複雑性について検討する。 前者はPolynomial-Time Hierarchy (PH)よりも細かな分類が可能であり、後者は Approximate Simulation (APX-SIM) [Ambainis, CCC 2014] のような物理的動機付けの問題を特徴付ける。 この領域では、中心的な役割は$P^{NP[\log]}$と$P^{QMA[\log]}$によって演じられ、これは$P^{NP}$と$P^{QMA}$と同一に定義される。 ここで [Gottlob, FOCS 1993] は、$P^{NP}$マシンで作られた適応的なクエリが木である「クエリグラフ」を持つなら、この計算は$P^{NP[\log]}$でシミュレートできることを示した。 この研究において、まず、検証クラス$C\in\{NP,MA,QCMA,QMA(2),NEXP,QMA_{\exp}\}$に対して、"セパレータ番号"のクエリグラフを持つ任意の$P^C$マシンに対して、$s$は決定論的時間$\exp(s\log n)$と$s\log n$クエリを$C$-oracleにシミュレートできることを示す。 もし$s\in o(1)$(これは$o(1)$-treewidthの場合を含み、したがって木も含む)の場合、これは$p^{c[\log]}$の上限を与え、$s\in o(\log^k(n))$のとき、バウンド$qp^{c[\log^{k+1}]}$(qpは準多項時間を意味する)となる。 次に、Gottlobの"許容重み付け関数"フレームワークと[Watson, Bausch, Gharibian, 2020]の"フラグキュービット"フレームワークを組み合わせる方法を示し、ブラックボックス方式でAPX-SIMインスタンスに直接$P^C$計算を埋め込む統一的なアプローチを得る。 最後に、多項式に関する単純なno-go文を形式化する(c.f. [Krentel, STOC 1986]): 算術回路で指定された多重線型多項式$p$が与えられたとき、その最適値が表現するのに$m$ビットを必要とするように$p$を「弱圧縮」できるなら、$P^{NP}$はNP-オラクルへのクエリだけで決定できる。

We study the complexity of problems solvable in deterministic polynomial time with access to an NP or Quantum Merlin-Arthur (QMA)-oracle, such as $P^{NP}$ and $P^{QMA}$, respectively. The former allows one to classify problems more finely than the Polynomial-Time Hierarchy (PH), whereas the latter characterizes physically motivated problems such as Approximate Simulation (APX-SIM) [Ambainis, CCC 2014]. In this area, a central role has been played by the classes $P^{NP[\log]}$ and $P^{QMA[\log]}$, defined identically to $P^{NP}$ and $P^{QMA}$, except that only logarithmically many oracle queries are allowed. Here, [Gottlob, FOCS 1993] showed that if the adaptive queries made by a $P^{NP}$ machine have a "query graph" which is a tree, then this computation can be simulated in $P^{NP[\log]}$. In this work, we first show that for any verification class $C\in\{NP,MA,QCMA,QMA,QMA(2),NEXP,QMA_{\exp}\}$, any $P^C$ machine with a query graph of "separator number" $s$ can be simulated using deterministic time $\exp(s\log n)$ and $s\log n$ queries to a $C$-oracle. When $s\in O(1)$ (which includes the case of $O(1)$-treewidth, and thus also of trees), this gives an upper bound of $P^{C[\log]}$, and when $s\in O(\log^k(n))$, this yields bound $QP^{C[\log^{k+1}]}$ (QP meaning quasi-polynomial time). We next show how to combine Gottlob's "admissible-weighting function" framework with the "flag-qubit" framework of [Watson, Bausch, Gharibian, 2020], obtaining a unified approach for embedding $P^C$ computations directly into APX-SIM instances in a black-box fashion. Finally, we formalize a simple no-go statement about polynomials (c.f. [Krentel, STOC 1986]): Given a multi-linear polynomial $p$ specified via an arithmetic circuit, if one can "weakly compress" $p$ so that its optimal value requires $m$ bits to represent, then $P^{NP}$ can be decided with only $m$ queries to an NP-oracle.
翻訳日:2023-03-09 06:50:23 公開日:2021-11-03
# 相互コヒーレントな点源の解消

Resolving Mutually Coherent Bright Point-Sources ( http://arxiv.org/abs/2111.02233v1 )

ライセンス: Link先を確認
Ilya Karuseichyk, Giacomo Sorelli, Manuel Gessner, Mattia Walschaers and Nicolas Treps(参考訳) 我々は、任意の量子統計量、相互位相、相対的および絶対的な強度を持つ相互整合源の場合の2つの点源の解法を解析する。 モーメント法に基づく感度尺度を用い,空間モードのデ多重化と直接撮像を比較し,後者の利点を解析的に証明する。 空間モードデマルチプレクシングの感度は、すべての既知の場合において、ソースの非ガウス状態であっても、量子フィッシャー情報を飽和させることを示す。

We analyze the problem of resolving two point-sources in the case of mutually coherent sources with arbitrary quantum statistics, mutual phase, relative and absolute intensity. We use a sensitivity measure based on the method of moments and compare direct imaging with spatial mode demultiplexing, analytically proving the advantage of the latter. We show that the sensitivity of spatial mode demultiplexing saturates the quantum Fisher information, for all known cases, even for non-Gaussian states of the sources.
翻訳日:2023-03-09 06:49:00 公開日:2021-11-03
# 散逸性非エルミート結合量子系における位相同期

Phase synchronization in dissipative non-Hermitian coupled quantum systems ( http://arxiv.org/abs/2111.02201v1 )

ライセンス: Link先を確認
J. Rohn, K. P. Schmidt and C. Genes(参考訳) 補助モードに結合した$\mathcal{N}$ボソニックモード系における非エルミート力学と位相同期の相互作用について検討する。 このような系における進化の線形性は、同期条件に対する完全な解析結果の導出を可能にする。 対照的に、位相力学のレベルでの分析、続いて集合基底への変換は、既知の解析解を持つ全対全結合蔵本モデルへの完全な還元を可能にする。 非均質な周波数拡大が存在する場合、いくつかのモードから大きな$\mathcal{n}$のマクロ限界まで、システムの解析と数値解を提供し、外部ノイズの作用下での位相同期のロバスト性をテストする。

We study the interplay between non-Hermitian dynamics and phase synchronization in a system of $\mathcal{N}$ bosonic modes coupled to an auxiliary mode. The linearity of the evolution in such a system allows for the derivation of fully analytical results for synchronization conditions. In contrast, analysis at the level of phase dynamics, followed by a transformation to a collective basis allows a complete reduction to an all-to-all coupled Kuramoto model with known analytical solutions. We provide analytical and numerical solutions for systems ranging from a few modes to the macroscopic limit of large $\mathcal{N}$ in the presence of inhomogeneous frequency broadening and test the robustness of phase synchronization under the action of external noise.
翻訳日:2023-03-09 06:48:13 公開日:2021-11-03
# 重力デコヒーレンス:主題的概要

Gravitational Decoherence: A Thematic Overview ( http://arxiv.org/abs/2111.02462v1 )

ライセンス: Link先を確認
Charis Anastopoulos and Bei-Lok Hu(参考訳) 重力デコヒーレンス(英: gravitational decoherence、gd)とは、量子系の古典的外観の活性化における重力の影響である。 基礎となるプロセスは一般相対性理論(GR)、量子場理論(QFT)、および量子情報に関わるため、GDは基本的な理論的重要性を持つ。 GDモデルには様々な種類があり、その多くがGRやQFTから分岐する物理学を含んでいる。 この概要は、一つのテーマに沿った2つの特定の目標を持っている。 (i)gr及びqftに基づくgdの理論を提示し、その実験的予測を探究する。 (II) GD の他の理論をGR と QFT の精査の下に置き、それらの理論的な違いを指摘する。 我々はまた、今後数十年間の宇宙でのgd実験が、どのように2つのレベルで証拠を提供できるかを説明した。 a) 代替量子理論及び非GR理論を識別すること b) 重力が基本か有効理論かを見極めること。

Gravitational decoherence (GD) refers to the effects of gravity in actuating the classical appearance of a quantum system. Because the underlying processes involve issues in general relativity (GR), quantum field theory (QFT) and quantum information, GD has fundamental theoretical significance. There is a great variety of GD models, many of them involving physics that diverge from GR and/or QFT. This overview has two specific goals along one central theme: (i) present theories of GD based on GR and QFT and explore their experimental predictions; (ii) place other theories of GD under the scrutiny of GR and QFT, and point out their theoretical differences. We also describe how GD experiments in space in the coming decades can provide evidences at two levels: a) discriminate alternative quantum theories and non-GR theories; b) discern whether gravity is a fundamental or an effective theory.
翻訳日:2023-03-09 06:42:30 公開日:2021-11-03
# 並進不変行列積状態の対称性と局所変換

Symmetries and local transformations of translationally invariant Matrix Product States ( http://arxiv.org/abs/2111.02457v1 )

ライセンス: Link先を確認
Martin Hebenstreit, David Sauerwein, Andras Molnar, J. Ignacio Cirac, Barbara Kraus(参考訳) 我々は変換不変行列積状態(mps)の局所対称性と局所変換特性を決定する。 我々は物理的次元 $d=2$ と結合次元 $d=3$ に注目し、d. sauerwein ら phys で導入された手順を用いる。 Rev. Lett. 123, 170504 (2019) これらの状態のすべての(非大域的)対称性を決定する。 我々はMPSで許容される確率的局所変換(SLOCC)を同定し分類する。 我々は2つの非常に異なるMPSの集合を精査し、その対称性とSLOCC変換の可能性の両方で生じる大きな多様性(例えば$D=2$)を示す。 これらの結果は、低結合次元の翻訳不変状態に制限されたとしても、MPSの様々な局所的性質を反映する。 最後に、非自明な局所対称性を持つ状態が、$d = 2$ および $D > 3$ の測度 0 であることを示す。

We determine the local symmetries and local transformation properties of translationally invariant matrix product states (MPS). We focus on physical dimension $d=2$ and bond dimension $D=3$ and use the procedure introduced in D. Sauerwein et al., Phys. Rev. Lett. 123, 170504 (2019) to determine all (including non--global) symmetries of those states. We identify and classify the stochastic local transformations (SLOCC) that are allowed among MPS. We scrutinize two very distinct sets of MPS and show the big diversity (also compared to the case $D=2$) occurring in both, their symmetries and the possible SLOCC transformations. These results reflect the variety of local properties of MPS, even if restricted to translationally invariant states with low bond dimension. Finally, we show that states with non-trivial local symmetries are of measure zero for $d = 2$ and $D > 3$.
翻訳日:2023-03-09 06:42:15 公開日:2021-11-03
# 無弾性マクロメカニカル発振器のフィードバック冷却の量子理論

Quantum theory of feedback cooling of an anelastic macro-mechanical oscillator ( http://arxiv.org/abs/2111.02412v1 )

ライセンス: Link先を確認
Kentaro Komori, Dominika \v{D}urov\v{c}\'ikov\'a, Vivishek Sudhir(参考訳) 従来のレーザー冷却技術では、内部状態のコヒーレント散乱や光キャビティモードにより、数ナノグラム以上の機械振動子では非効率であることが証明されている。 これは、大きな発振器が補助モードへの結合によって得られる散乱速度に比べて、周波数が小さすぎるためである。 重低周波弾性懸濁発振器で一般的に見られるデコヒーレンス機構は、従来のレーザー冷却法とは大きく異なる。 キャビティの機械的に適合する終端ミラーを形成する低周波非弾性発振器では、計測に基づくフィードバックを併用して剛化・減衰させることで、定量的に生成された量子相関を活用し、運動基底状態への効率的な冷却を実現することができる。 これは、例えば巨大な量子系に対する重力の影響の試験のために、純粋な運動状態で準備されたミリグラム規模の機械振動子を求める実験の道を開くだろう。

Conventional techniques for laser cooling, by coherent scattering off of internal states or through an optical cavity mode, have so far proved inefficient on mechanical oscillators heavier than a few nanograms. That is because larger oscillators vibrate at frequencies much too small compared to the scattering rates achievable by their coupling to auxiliary modes. Decoherence mechanisms typically observed in heavy low frequency elastically suspended oscillators also differ markedly from what is assumed in conventional treatments of laser cooling. We show that for a low-frequency anelastic oscillator forming the mechanically compliant end-mirror of a cavity, detuned optical readout, together with measurement-based feedback to stiffen and dampen it, can harness ponderomotively generated quantum correlations, to realize efficient cooling to the motional ground state. This will pave the way for experiments that call for milligram-scale mechanical oscillators prepared in pure motional states, for example, for tests of gravity's effect on massive quantum systems.
翻訳日:2023-03-09 06:41:05 公開日:2021-11-03
# qsimとCirqを用いた近似雑音をもつ量子回路のシミュレーション

Simulations of Quantum Circuits with Approximate Noise using qsim and Cirq ( http://arxiv.org/abs/2111.02396v1 )

ライセンス: Link先を確認
Sergei V. Isakov, Dvir Kafri, Orion Martin, Catherine Vollgraff Heidweiller, Wojciech Mruczkiewicz, Matthew P. Harrigan, Nicholas C. Rubin, Ross Thomson, Michael Broughton, Kevin Kissell, Evan Peters, Erik Gustafson, Andy C. Y. Li, Henry Lamm, Gabriel Perdue, Alan K. Ho, Doug Strain, Sergio Boixo(参考訳) 本稿では,量子回路のオープンソース高性能シミュレータであるqsimを用いたマルチノード量子軌道シミュレーションを提案する。 qsimは、量子回路を書くためのpythonソフトウェアライブラリであるcirqのバックエンドとして使用できる。 本稿では,量子軌道に対する新しい遅延内積法を提案する。 また、このフレームワークをgoogle cloud platformで使用するためのツールも提供しています。 マルチノード構成は、量子軌道を持つノイズ量子回路をシミュレートするのに好適である。 最後に、googleの実験的量子コンピューティングプラットフォームにおける近似雑音モデルを導入し、googleの量子コンピューティングサービスにおけるいくつかの量子アルゴリズムに対するノイズシミュレーションの結果と実験結果の比較を行う。

We introduce multinode quantum trajectory simulations with qsim, an open source high performance simulator of quantum circuits. qsim can be used as a backend of Cirq, a Python software library for writing quantum circuits. We present a novel delayed inner product algorithm for quantum trajectories which can result in an order of magnitude speedup for low noise simulation. We also provide tools to use this framework in Google Cloud Platform, with high performance virtual machines in a single mode or multinode setting. Multinode configurations are well suited to simulate noisy quantum circuits with quantum trajectories. Finally, we introduce an approximate noise model for Google's experimental quantum computing platform and compare the results of noisy simulations with experiments for several quantum algorithms on Google's Quantum Computing Service.
翻訳日:2023-03-09 06:40:49 公開日:2021-11-03
# 多体量子系の流体力学方程式の発見

Discovering hydrodynamic equations of many-body quantum systems ( http://arxiv.org/abs/2111.02385v1 )

ライセンス: Link先を確認
Yaroslav Kharkov, Oles Shtanko, Alireza Seif, Przemyslaw Bienias, Mathias Van Regemortel, Mohammad Hafezi, and Alexey V. Gorshkov(参考訳) 量子多体系の力学のシミュレーションと予測は、システム全体に絡み合いが広がるため、最先端の計算方法であっても極めて困難である。 しかし、長波長の限界において、量子系は単純な記述をしばしば認めており、これは物理観測可能な小さな集合を含み、音速や粘性などのパラメータしか必要としない。 これらの流体力学方程式と基礎となる顕微鏡理論の関係を明らかにするには、通常、凝縮物質論者による多大な努力が必要である。 本稿では,限られたデータ集合から有効方程式の自動発見を行うための新しい機械学習フレームワークを開発し,複雑な解析的導出を回避した。 データは数値シミュレーションから生成するか、実験的な量子シミュレータプラットフォームから生成することができる。 直接比較できる可積分モデルを用いて、既知の流体力学方程式を再現し、新しい方程式を著しく発見し、可能な限り導出する。 相互作用系の力学を記述する新しい流体力学方程式を発見し,その導出は依然として顕著な課題である。 本手法は, 量子材料と量子シミュレータの特性を非摂動論的に研究するための新しい解釈可能な手法である。

Simulating and predicting dynamics of quantum many-body systems is extremely challenging, even for state-of-the-art computational methods, due to the spread of entanglement across the system. However, in the long-wavelength limit, quantum systems often admit a simplified description, which involves a small set of physical observables and requires only a few parameters such as sound velocity or viscosity. Unveiling the relationship between these hydrodynamic equations and the underlying microscopic theory usually requires a great effort by condensed matter theorists. In the present paper, we develop a new machine-learning framework for automated discovery of effective equations from a limited set of available data, thus bypassing complicated analytical derivations. The data can be generated from numerical simulations or come from experimental quantum simulator platforms. Using integrable models, where direct comparisons can be made, we reproduce previously known hydrodynamic equations, strikingly discover novel equations and provide their derivation whenever possible. We discover new hydrodynamic equations describing dynamics of interacting systems, for which the derivation remains an outstanding challenge. Our approach provides a new interpretable method to study properties of quantum materials and quantum simulators in non-perturbative regimes.
翻訳日:2023-03-09 06:39:49 公開日:2021-11-03
# 光円錐外における量子-真空場相関の検出

Detection of quantum-vacuum field correlations outside the light cone ( http://arxiv.org/abs/2111.02377v1 )

ライセンス: Link先を確認
Francesca Fabiana Settembrini, Frieder Lindel, Alexa Marina Herter, Stefan Yoshi Buhman, J\`er\^ome Faist(参考訳) 場の量子論によれば、すべての実励起を取り除いた理論の基底状態である空空間は空ではなく、量子真空のゆらぎで満たされている。 それらの存在はカシミール力、自発的放出、分散力といった一連の現象を通じて現れる。 これらのゆらぎ場は光円錐の外の時空点、すなわち特別な相対性理論に従って因果的に非連結な点の間の相関を持つ。 直観に反する結果として、因果的に切り離された時空領域にある空空間(量子真空)の2つの初期無相関量子物体は、情報の交換ができない。 電気光学サンプリングを用いて、非因果接続時空点に対する真空場の相関関係を実験的に実証した。 この結果は、非線形結晶を伝播する470 fsの飛行時間で分離された2つの195 fsレーザーパルス間の真空誘起相関を検出し、解析することによって得られる。 我々の理論は、光円錐の外側の時空点から生じる相関のほとんどを明らかにする。 この研究は、量子場理論における真空相関の時空構造を解析する第一歩となる。

According to quantum field theory, empty space -- the ground state of the theory with all real excitations removed -- is not empty at all, but filled with quantum-vacuum fluctuations. Their presence can manifest itself through a series of phenomena such as the Casimir force, spontaneous emission, or dispersion forces. These fluctuating fields possess correlations between space-time points outside the light cone, i.e. between points which are causally disconnected according to special relativity. A counterintuitive consequence is that two initially uncorrelated quantum objects in empty space (the quantum vacuum) which are located in causally disconnected space-time regions, and therefore unable to exchange information, can become correlated. Using electro-optic sampling, we have experimentally demonstrated the existence of correlations of the vacuum fields for non-causally connected space-time points. This result is obtained by detecting and analyzing vacuum-induced correlations between two 195 fs laser pulses separated by a time of flight of 470 fs which propagate through a nonlinear crystal. Our theory reveals the vast majority of the correlations as stemming from space-time points outside the light cone. This work marks a first step in analyzing the space-time structure of vacuum correlations in quantum field theory.
翻訳日:2023-03-09 06:39:32 公開日:2021-11-03
# つぶやきのメディケーション検出のためのデータ拡張戦略付きPubMedBERTに基づく分類器

A PubMedBERT-based Classifier with Data Augmentation Strategy for Detecting Medication Mentions in Tweets ( http://arxiv.org/abs/2112.02998v1 )

ライセンス: Link先を確認
Qing Han, Shubo Tian, Jinfeng Zhang(参考訳) 主要なソーシャルメディアプラットフォームとして、twitterは毎日大量のユーザー生成テキスト(ツイート)を公開している。 このようなデータをマイニングすることで、他の方法では実現できない重要な社会的、公衆衛生、緊急管理の問題に対処することができる。 多くのテキストマイニングパイプラインで不可欠なステップはエンティティ認識(ner)と呼ばれるもので、ツイートデータに対していくつかの特別な課題を提示している。 その中には、非標準表現、極端な不均衡クラス、文脈情報の欠如などが含まれる。 BioCreative Challenge VII (BC7) のトラック3は、ツイート中の医薬品の言及を検出する方法を評価するために編成された。 本稿では,複数のデータ拡張手法を組み合わせたPubMedBERTベースの分類器について検討したBC7トラック3について報告する。 提案手法はF1スコアが0.762であり, 平均値 (0.696) よりもかなり高い値を示した。

As a major social media platform, Twitter publishes a large number of user-generated text (tweets) on a daily basis. Mining such data can be used to address important social, public health, and emergency management issues that are infeasible through other means. An essential step in many text mining pipelines is named entity recognition (NER), which presents some special challenges for tweet data. Among them are nonstandard expressions, extreme imbalanced classes, and lack of context information, etc. The track 3 of BioCreative challenge VII (BC7) was organized to evaluate methods for detecting medication mentions in tweets. In this paper, we report our work on BC7 track 3, where we explored a PubMedBERT-based classifier trained with a combination of multiple data augmentation approaches. Our method achieved an F1 score of 0.762, which is substantially higher than the mean of all submissions (0.696).
翻訳日:2023-03-09 06:32:22 公開日:2021-11-03
# 米国大統領選挙における偏極とTwitterニュースの影響の推移

Shifting Polarization and Twitter News Influencers between two U.S. Presidential Elections ( http://arxiv.org/abs/2111.02505v1 )

ライセンス: Link先を確認
James Flamino, Alessandro Galezzi, Stuart Feldman, Michael W. Macy, Brendan Cross, Zhenkun Zhou, Matteo Serafino, Alexandre Bovet, Hernan A. Makse, Boleslaw K. Szymanski(参考訳) ソーシャルメディアは分散化され、対話的で、変革的で、ユーザーが他人に影響を与える情報を作り、広めることができる。 これにより、従来の企業メディアが支配していた政治コミュニケーションのダイナミクスが変化した。 2016年と2020年の大統領選挙で何億ものツイートが収集されたことで、分極化の変化と政治情報の拡散を測定するユニークな機会が得られました。 我々は、Twitter利用者間の政治情報の拡散を分析し、これらの選挙間の分極の変化と、この変化がインフルエンサーとそのリツイート者の構成と分極に与える影響を調べた。 我々は、情報を拡散し、それをメディア組織、政治組織、あるいは非関連組織に分類する能力によって「インフルエンサー」を識別する。 トップインフルエンサーのほとんどが両選挙期間中にメディア団体に加盟していた。 2016年から2020年にかけて、インフルエンサーとインフルエンサーの間で偏極が顕著に増加した。 さらに、2020年のトップインフルエンサーの75%は、2016年時点では存在していなかった。 2016年から2020年にかけて、メディア系インフルエンサーの10%が政治組織や無所属インフルエンサー系インフルエンサーに置き換えられた。

Social media are decentralized, interactive, and transformative, empowering users to produce and spread information to influence others. This has changed the dynamics of political communication that were previously dominated by traditional corporate news media. Having hundreds of millions of tweets collected over the 2016 and 2020 U.S. presidential elections gave us a unique opportunity to measure the change in polarization and the diffusion of political information. We analyze the diffusion of political information among Twitter users and investigate the change of polarization between these elections and how this change affected the composition and polarization of influencers and their retweeters. We identify "influencers" by their ability to spread information and classify them into those affiliated with a media organization, a political organization, or unaffiliated. Most of the top influencers were affiliated with media organizations during both elections. We found a clear increase from 2016 to 2020 in polarization among influencers and among those whom they influence. Moreover, 75% of the top influencers in 2020 were not present in 2016, demonstrating that such status is difficult to retain. Between 2016 and 2020, 10% of influencers affiliated with media were replaced by center- or right-orientated influencers affiliated with political organizations and unaffiliated influencers.
翻訳日:2023-03-09 06:30:58 公開日:2021-11-03
# カルミケル関数計算のための量子アルゴリズム

A quantum algorithm for computing the Carmichael function ( http://arxiv.org/abs/2111.02488v1 )

ライセンス: Link先を確認
Juan Carlos Garcia-Escartin(参考訳) 量子コンピュータは多くの数論問題を効率的に解くことができる。 本稿では, 順序探索のための効率的な量子アルゴリズムを用いて, 1 に近い確率で任意の整数 $N$ に対してカーマイケル関数を計算するアルゴリズムを提案する。 このアルゴリズムは、$O((\log n )^3n^3)$量子演算、または高速乗算を用いた$O(\log n)^4n^2)$演算を必要とする。 検証、量子最適化、RSAおよび予備性試験への応用についても論じる。

Quantum computers can solve many number theory problems efficiently. Using the efficient quantum algorithm for order finding as an oracle, this paper presents an algorithm that computes the Carmichael function for any integer $N$ with a probability as close to 1 as desired. The algorithm requires $O((\log n )^3n^3)$ quantum operations, or $O(\log\log n (\log n)^4 n^2)$ operations using fast multiplication. Verification, quantum optimizations and applications to RSA and primality tests are also discussed.
翻訳日:2023-03-09 06:30:22 公開日:2021-11-03
# 位相空間におけるガウス局在型ディラック猫状態の固有量子相関

Intrinsic quantum correlations for Gaussian localized Dirac cat states in phase space ( http://arxiv.org/abs/2111.02479v1 )

ライセンス: Link先を確認
Caio Fernando e Silva, Alex E. Bernardini(参考訳) 一定の磁場下でのディラックスピナーへの情報ベースアプローチに従い、対称および反対称局在化ディラックキャット状態の位相空間表現を求める。 ディラック・ハミルトニアンによる固有絡み合いプロファイルは、位相空間変数に相関した量子ビットのキャリアとして量子状態に光を放つために研究される。 ガウス状態の重ね合わせに対応して、猫状態は内在的絡み合いと量子重ね合わせの間の相互作用を含む非自明な初等的情報ダイナミクスを示す。 非定常状態としての時間進化にも拘わらず、ウィグナー関数は、位相空間局所化されたディラックスピノル状態の時間依存のSU(2) \otimes SU(2)$(スピンプロジェクションと固有パリティ)相関プロファイルの定量化に一貫して使用できる頑健な枠組みに従って基本情報量化器を制約する。 以上の結果から,猫状態のディラック・ウィグナー関数は,一般ラゲール多項式を用いて記述され,磁場強度に応じて古典的あるいは量子的スピンパリティ相関によって引き起こされる時間的持続的相互情報プロファイルをほぼ最大化する。

Following the information-based approach to Dirac spinors under a constant magnetic field, the phase-space representation of symmetric and anti-symmetric localized Dirac cat states is obtained. The intrinsic entanglement profile implied by the Dirac Hamiltonian is then investigated so as to shed a light on quantum states as carriers of qubits correlated by phase-space variables. Corresponding to the superposition of Gaussian states, cat states exhibit non-trivial elementary information dynamics which include the interplay between intrinsic entanglement and quantum superposition as reported by the corresponding Dirac archetypes. Despite the involved time-evolution as non-stationary states, the Wigner function constrains the elementary information quantifiers according to a robust framework which can be consistently used for quantifying the time-dependent $SU(2) \otimes SU(2)$ (spin projection and intrinsic parity) correlation profile of phase-space localized Dirac spinor states. Our results show that the Dirac Wigner functions for cat states -- described in terms of generalized Laguerre polynomials -- exhibit an almost maximized timely persistent mutual information profile which is engendered by either classical- or quantum-like spin-parity correlations, depending on the magnetic field intensity.
翻訳日:2023-03-09 06:30:13 公開日:2021-11-03
# 弱教師付きアクティブ話者定位のためのクロスモーダル映像表現

Cross modal video representations for weakly supervised active speaker localization ( http://arxiv.org/abs/2003.04358v2 )

ライセンス: Link先を確認
Rahul Sharma, Krishna Somandepalli and Shrikanth Narayanan(参考訳) 映画やテレビなどの画面で誰かがどれだけ聞こえているかの包括的描写のようなメディア描写を客観的に理解するためには、マシンは、誰がいつ、どのように、どこで話しているのかを自動的に識別する必要がある。 メディアコンテンツに存在するリッチなマルチモーダル情報から話者活動を自動的に識別することができる。 しかし、メディアコンテンツの多様性とコンテキストの変動、ラベル付きデータの欠如などにより、これは難しい問題である。 本研究では,視覚フレーム内の話者の空間的位置に関する暗黙的な情報を持つ視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。 視覚フレームにおけるアクティブスピーカーの手動アノテーションの必要性を回避し,その取得は非常に費用がかかるため,映像コンテンツ中のアクティブスピーカーのローカライズを行うための弱教師付きシステムを提案する。 学習したクロスモーダルな視覚表現を使用し、音声活動のプロキシとして働く映画の字幕の監督が弱いため、手動のアノテーションは不要である。 本稿では, avaアクティブ話者データセットにおける提案システムの性能を評価し, 完全教師付きシステムと比較して, アクティブ話者のローカライズにおけるクロスモーダル埋め込みの有効性を示す。 また,特に音声に雑音や音楽が伴う場合において,聴覚・視覚的枠組みを用いた音声活動検出作業の最先端性能を示す。

An objective understanding of media depictions, such as inclusive portrayals of how much someone is heard and seen on screen such as in film and television, requires the machines to discern automatically who, when, how, and where someone is talking, and not. Speaker activity can be automatically discerned from the rich multimodal information present in the media content. This is however a challenging problem due to the vast variety and contextual variability in the media content, and the lack of labeled data. In this work, we present a cross-modal neural network for learning visual representations, which have implicit information pertaining to the spatial location of a speaker in the visual frames. Avoiding the need for manual annotations for active speakers in visual frames, acquiring of which is very expensive, we present a weakly supervised system for the task of localizing active speakers in movie content. We use the learned cross-modal visual representations, and provide weak supervision from movie subtitles acting as a proxy for voice activity, thus requiring no manual annotations. We evaluate the performance of the proposed system on the AVA active speaker dataset and demonstrate the effectiveness of the cross-modal embeddings for localizing active speakers in comparison to fully supervised systems. We also demonstrate state-of-the-art performance for the task of voice activity detection in an audio-visual framework, especially when speech is accompanied by noise and music.
翻訳日:2022-12-25 09:28:55 公開日:2021-11-03
# システム評価:細粒CNNと従来のCNN分類器の比較

A Systematic Evaluation: Fine-Grained CNN vs. Traditional CNN Classifiers ( http://arxiv.org/abs/2003.11154v3 )

ライセンス: Link先を確認
Saeed Anwar, Nick Barnes and Lars Petersson(参考訳) 下位の微妙な違いを最大限に活用するために、細粒度の分類器はクラス間変異に関する情報を収集する。 このタスクは、同じクラスエンティティの色、視点、構造の違いが小さいため、非常に難しい。 他のクラスとの視点の違いとそれ自身の違いの類似性により、分類はより困難になる。 そこで本研究では,大規模分類データセットにおいてトップノッチ結果を示した目印の一般cnn分類器の性能を細粒度データセット上で検証し,最先端の細粒度分類器と比較する。 本稿では,2つの具体的疑問を提起する。 (i)一般的なCNN分類器は、きめ細かい分類器に匹敵する結果が得られるか? (ii) CNN分類器は、きめ細かい情報を改善するために、特定の情報を必要とするか? この作業を通じて、きめ細かいデータセットに特有なアスペクトを導入することなく、一般的なCNN分類器を訓練する。 本研究では,6つのデータセットについて広範な評価を行い,細粒度分類器が実験でベースラインを昇華できるかどうかを判定する。

To make the best use of the underlying minute and subtle differences, fine-grained classifiers collect information about inter-class variations. The task is very challenging due to the small differences between the colors, viewpoint, and structure in the same class entities. The classification becomes more difficult due to the similarities between the differences in viewpoint with other classes and differences with its own. In this work, we investigate the performance of the landmark general CNN classifiers, which presented top-notch results on large scale classification datasets, on the fine-grained datasets, and compare it against state-of-the-art fine-grained classifiers. In this paper, we pose two specific questions: (i) Do the general CNN classifiers achieve comparable results to fine-grained classifiers? (ii) Do general CNN classifiers require any specific information to improve upon the fine-grained ones? Throughout this work, we train the general CNN classifiers without introducing any aspect that is specific to fine-grained datasets. We show an extensive evaluation on six datasets to determine whether the fine-grained classifier is able to elevate the baseline in their experiments.
翻訳日:2022-12-20 09:00:00 公開日:2021-11-03
# アクティブ不変因果予測:安定性による実験選択

Active Invariant Causal Prediction: Experiment Selection through Stability ( http://arxiv.org/abs/2006.05690v3 )

ライセンス: Link先を確認
Juan L. Gamella and Christina Heinze-Deml(参考訳) 因果学習の基本的な難点は、因果モデルが一般に観測データのみに基づいて完全に同定できないことである。 介入データは、異なる実験環境に由来するデータであり、識別性が向上する。 しかし,その改善は,各実験における介入の目的と性質に大きく依存する。 実際のアプリケーションでは、実験はコストがかかる傾向があるため、可能な限り少ない介入を必要とするような適切な介入を行う必要がある。 本研究では,不変因果予測に基づく新しいアクティブラーニング(実験選択)フレームワーク(a-icp)を提案する(peters et al., 2016)。 一般的な構造因果モデルでは、(Pfister et al., 2019)によって導入された概念である、いわゆる安定集合に対する介入の効果を特徴付ける。 これらの結果を利用して、ICP固有のエラー制御を維持しつつ、因果グラフにおける応答変数の直接原因を迅速に明らかにする、A-ICPの介入選択ポリシーを提案する。 実験により, 人口および有限登録実験において提案した政策の有効性を実証的に分析した。

A fundamental difficulty of causal learning is that causal models can generally not be fully identified based on observational data only. Interventional data, that is, data originating from different experimental environments, improves identifiability. However, the improvement depends critically on the target and nature of the interventions carried out in each experiment. Since in real applications experiments tend to be costly, there is a need to perform the right interventions such that as few as possible are required. In this work we propose a new active learning (i.e. experiment selection) framework (A-ICP) based on Invariant Causal Prediction (ICP) (Peters et al., 2016). For general structural causal models, we characterize the effect of interventions on so-called stable sets, a notion introduced by (Pfister et al., 2019). We leverage these results to propose several intervention selection policies for A-ICP which quickly reveal the direct causes of a response variable in the causal graph while maintaining the error control inherent in ICP. Empirically, we analyze the performance of the proposed policies in both population and finite-regime experiments.
翻訳日:2022-11-23 06:08:48 公開日:2021-11-03
# ガウス潜在位置ネットワークモデルのための高速MCMC

Faster MCMC for Gaussian Latent Position Network Models ( http://arxiv.org/abs/2006.07687v2 )

ライセンス: Link先を確認
Neil A. Spencer, Brian Junker, Tracy M. Sweet(参考訳) 潜在位置ネットワークモデルはネットワーク科学において汎用的なツールであり、アプリケーションにはクラスタリングエンティティ、因果共生の制御、未観測グラフに対する事前定義が含まれる。 各ノードの潜在位置を推定するのは、一般的にベイズ推定問題であり、gibbs内のメトロポリスは後方分布を近似する最も一般的なツールである。 しかし,gibbs内のmetropolisは大規模ネットワークでは非効率であることはよく知られている。 本稿では,後方分布の関数型をより効率的な後方計算に利用するマルコフ連鎖モンテカルロ戦略(スプリットハミルトンモンテカルロとファイアフライモンテカルロの組み合わせを用いて定義される)を提案する。 これらの戦略は、Gibbsなどの合成ネットワーク上でのメトロポリスや、学区内の教師やスタッフの実際の情報共有ネットワークよりも優れていることを示す。

Latent position network models are a versatile tool in network science; applications include clustering entities, controlling for causal confounders, and defining priors over unobserved graphs. Estimating each node's latent position is typically framed as a Bayesian inference problem, with Metropolis within Gibbs being the most popular tool for approximating the posterior distribution. However, it is well-known that Metropolis within Gibbs is inefficient for large networks; the acceptance ratios are expensive to compute, and the resultant posterior draws are highly correlated. In this article, we propose an alternative Markov chain Monte Carlo strategy -- defined using a combination of split Hamiltonian Monte Carlo and Firefly Monte Carlo -- that leverages the posterior distribution's functional form for more efficient posterior computation. We demonstrate that these strategies outperform Metropolis within Gibbs and other algorithms on synthetic networks, as well as on real information-sharing networks of teachers and staff in a school district.
翻訳日:2022-11-21 21:37:37 公開日:2021-11-03
# 深部ネットワークのランダム行列理論を超えて

Beyond Random Matrix Theory for Deep Networks ( http://arxiv.org/abs/2006.07721v2 )

ライセンス: Link先を確認
Diego Granziol(参考訳) 深部ニューラルネットワーク理論解析によく用いられるWigner半円とMarcenko-Pastur分布が、経験的に観察されたスペクトル密度と一致するかどうかを調べた。 観測されたスペクトル形状は, 外れ値が許容される場合でも, 理論的な予測から大きく逸脱することがわかった。 これはディープラーニングにおけるこれらのモデルの有用性に関する大きな疑問を提起する。 さらに、臨界点の層状性質のような理論的結果は、これらの制限スペクトル密度の正確な形の使用に強く依存していることを示す。 ランダムウィグナー/ウィッシュアートアンサンブルとパーコレーションされたウィグナー/ウィッシュアートアンサンブルの2つの新しいクラスを検討した。 彼らはまた、起源において大きな離散スペクトルピークを与え、様々な最適値が低損失値の1次元で接続できるという観察の理論的な説明を与える。 さらに, ランダム行列積の場合, 0$の離散スペクトル成分の重みは, 重み行列の次元比に依存することを示した。

We investigate whether the Wigner semi-circle and Marcenko-Pastur distributions, often used for deep neural network theoretical analysis, match empirically observed spectral densities. We find that even allowing for outliers, the observed spectral shapes strongly deviate from such theoretical predictions. This raises major questions about the usefulness of these models in deep learning. We further show that theoretical results, such as the layered nature of critical points, are strongly dependent on the use of the exact form of these limiting spectral densities. We consider two new classes of matrix ensembles; random Wigner/Wishart ensemble products and percolated Wigner/Wishart ensembles, both of which better match observed spectra. They also give large discrete spectral peaks at the origin, providing a theoretical explanation for the observation that various optima can be connected by one dimensional of low loss values. We further show that, in the case of a random matrix product, the weight of the discrete spectral component at $0$ depends on the ratio of the dimensions of the weight matrices.
翻訳日:2022-11-21 20:52:04 公開日:2021-11-03
# グリッドセルの経路統合について:群表現と等方性スケーリング

On Path Integration of Grid Cells: Group Representation and Isotropic Scaling ( http://arxiv.org/abs/2006.10259v6 )

ライセンス: Link先を確認
Ruiqi Gao, Jianwen Xie, Xue-Xin Wei, Song-Chun Zhu, Ying Nian Wu(参考訳) グリッドセルの経路積分計算の実行方法を理解することは、依然として根本的な問題である。 本稿では, 2次元自己位置を高次元ベクトルとして符号化し, 2次元自己運動をベクトルの一般変換として表現するグリッドセルによる経路積分の一般表現モデルの理論的解析を行う。 変換には2つの条件がある。 1つは、パス統合に必要なグループ表現条件である。 もう1つは、局所的な共形埋め込みを保証する等方性スケーリング条件であり、ベクトル表現の誤差が2次元自己配置の誤差に同値に変換される。 次に,最も単純な変換,すなわち線形変換について検討し,その明示的な代数的および幾何学的構造を回転の行列リー群として明らかにし,等方性スケーリング条件とヘキサゴン格子パターンの特殊クラスとの関係を考察する。 最後に、最適化ベースのアプローチでは、げっ歯類脳のグリッド細胞の類似性を共有する六角形グリッドパターンを学べます。 学習モデルは、正確な長距離経路統合を可能にする。 コードはhttps://github.com/ruiqigao/grid-cell-pathで入手できる。

Understanding how grid cells perform path integration calculations remains a fundamental problem. In this paper, we conduct theoretical analysis of a general representation model of path integration by grid cells, where the 2D self-position is encoded as a higher dimensional vector, and the 2D self-motion is represented by a general transformation of the vector. We identify two conditions on the transformation. One is a group representation condition that is necessary for path integration. The other is an isotropic scaling condition that ensures locally conformal embedding, so that the error in the vector representation translates conformally to the error in the 2D self-position. Then we investigate the simplest transformation, i.e., the linear transformation, uncover its explicit algebraic and geometric structure as matrix Lie group of rotation, and explore the connection between the isotropic scaling condition and a special class of hexagon grid patterns. Finally, with our optimization-based approach, we manage to learn hexagon grid patterns that share similar properties of the grid cells in the rodent brain. The learned model is capable of accurate long distance path integration. Code is available at https://github.com/ruiqigao/grid-cell-path.
翻訳日:2022-11-19 13:23:22 公開日:2021-11-03
# 注意に基づく量子トモグラフィー

Attention-based Quantum Tomography ( http://arxiv.org/abs/2006.12469v3 )

ライセンス: Link先を確認
Peter Cha, Paul Ginsparg, Felix Wu, Juan Carrasquilla, Peter L. McMahon, Eun-Ah Kim(参考訳) 量子システムのためのプラットフォーム全体の急速な進歩により、ノイズ量子状態に対する多体量子状態再構成の問題が重要な課題となっている。 最近の研究は、生成型ニューラルネットワークモデルを用いて量子状態計測ベクトルの確率分布を学習するために量子状態再構成の問題を再キャストする可能性を見出した。 本稿では,ノイズ量子状態の混合状態密度行列を学習する注意機構に基づく生成ネットワークを用いた量子状態再構成手法"attention-based quantum tomography"(aqt)を提案する。 AQT は Vishwani et al (2017) が提案した "Attention is all you need" モデルに基づいている。 我々は、AQTが従来のニューラルネットワークベースの量子状態再構成よりも優れているだけでなく、IBMQ量子コンピュータで実験的に実現されたノイズ量子状態に関連する密度行列を正確に再構成できることを実証する。 AQTの成功は、自然言語処理の注意モデルが文中の単語間の相関を捉えるのと同様に、量子システム全体の量子絡み合いをモデル化する能力に起因していると推測する。

With rapid progress across platforms for quantum systems, the problem of many-body quantum state reconstruction for noisy quantum states becomes an important challenge. Recent works found promise in recasting the problem of quantum state reconstruction to learning the probability distribution of quantum state measurement vectors using generative neural network models. Here we propose the "Attention-based Quantum Tomography" (AQT), a quantum state reconstruction using an attention mechanism-based generative network that learns the mixed state density matrix of a noisy quantum state. The AQT is based on the model proposed in "Attention is all you need" by Vishwani et al (2017) that is designed to learn long-range correlations in natural language sentences and thereby outperform previous natural language processing models. We demonstrate not only that AQT outperforms earlier neural-network-based quantum state reconstruction on identical tasks but that AQT can accurately reconstruct the density matrix associated with a noisy quantum state experimentally realized in an IBMQ quantum computer. We speculate the success of the AQT stems from its ability to model quantum entanglement across the entire quantum system much as the attention model for natural language processing captures the correlations among words in a sentence.
翻訳日:2022-11-18 06:49:03 公開日:2021-11-03
# 不均衡勾配:過大評価逆境ロバスト性の原因

Imbalanced Gradients: A Subtle Cause of Overestimated Adversarial Robustness ( http://arxiv.org/abs/2006.13726v3 )

ライセンス: Link先を確認
Xingjun Ma, Linxi Jiang, Hanxun Huang, Zejia Weng, James Bailey, Yu-Gang Jiang(参考訳) 防御モデルの堅牢性を評価することは、敵の堅牢性研究において難しい課題である。 グラデーションマスキングの一種である難解勾配は、以前は多くの防御方法に存在し、強靭性の誤ったシグナルを引き起こすことが発見されている。 本稿では,不均衡勾配という,過度に推定された敵の強靭性も引き起こす,より微妙な状況を特定する。 不均衡勾配の現象は、マージン損失の一項の勾配が支配的となり、攻撃を準最適方向に進めるときに起こる。 不均衡勾配を利用するために、マージン分解(MD)攻撃を定式化し、各項にマージン損失を分解し、2段階のプロセスを通してこれらの項の攻撃可能性を探る。 また,md攻撃のマルチターゲット版とアンサンブル版を提案する。 2018年以降に提案された17の防御モデルを調査することで、6つのモデルが不均衡勾配に影響を受けやすく、我々のmd攻撃は、最良のベースライン・アタックによって評価されるロバスト性が2%低下することが分かった。 また,不均衡な勾配の原因と効果的な対策の詳細な分析を行った。

Evaluating the robustness of a defense model is a challenging task in adversarial robustness research. Obfuscated gradients, a type of gradient masking, have previously been found to exist in many defense methods and cause a false signal of robustness. In this paper, we identify a more subtle situation called Imbalanced Gradients that can also cause overestimated adversarial robustness. The phenomenon of imbalanced gradients occurs when the gradient of one term of the margin loss dominates and pushes the attack towards to a suboptimal direction. To exploit imbalanced gradients, we formulate a Margin Decomposition (MD) attack that decomposes a margin loss into individual terms and then explores the attackability of these terms separately via a two-stage process. We also propose a MultiTargeted and an ensemble version of our MD attack. By investigating 17 defense models proposed since 2018, we find that 6 models are susceptible to imbalanced gradients and our MD attack can decrease their robustness evaluated by the best baseline standalone attack by another 2%. We also provide an in-depth analysis of the likely causes of imbalanced gradients and effective countermeasures.
翻訳日:2022-11-17 10:17:26 公開日:2021-11-03
# マルチパラメトリックmriを用いた前立腺癌のvoxel-wise分類のためのマルチレゾリューションスーパーラーナー

Multi-resolution Super Learner for Voxel-wise Classification of Prostate Cancer Using Multi-parametric MRI ( http://arxiv.org/abs/2007.00816v2 )

ライセンス: Link先を確認
Jin Jin (1), Lin Zhang (2), Ethan Leng (3), Gregory J. Metzger (4), Joseph S. Koopmeiners (2) ((1) Department of Biostatistics, Bloomberg School of Public Health, Johns Hopkins University, (2) Devision of Biostatistics, School of Public Health, University of Minnesota, (3) Department of Biomedical Engineering, University of Minnesota, (4) Department of Radiology, University of Minnesota)(参考訳) 前立腺癌(pca)の診断におけるマルチパラメトリックmri(mpmri)の重要性が最近の研究から明らかにされているが、mpmriデータの特定の構造をどのように組み込むか、例えば、領域的不均一性や、被験者内のボクセル間相関などについて、さらなる研究が必要である。 本稿では,データのユニークな構造を考慮し,ボクセルワイドPCa分類を改善する機械学習手法を提案する。 局所的不均一性を考慮したマルチレゾリューションモデリング手法を提案し,マルチレゾリュータを用いて局所的に学習した基礎学習者を組み合わせ,空間ガウス核平滑化によるボクセル間相関を考慮した。 超学習者フレームワークは、任意の分類器をベース学習者として実装可能であり、がんをよりサブカテゴリに分類するために容易に拡張できる。 本報告では,二進性pca状態の詳細な分類アルゴリズムと,より普及度の低い癌カテゴリの検出に重み付け法を適用したpcaの順序的臨床的意義について述べる。 シミュレーションとin vivoデータへの応用を通じて,従来のモデリングおよび機械学習アプローチよりも,提案手法の利点を説明する。

While current research has shown the importance of Multi-parametric MRI (mpMRI) in diagnosing prostate cancer (PCa), further investigation is needed for how to incorporate the specific structures of the mpMRI data, such as the regional heterogeneity and between-voxel correlation within a subject. This paper proposes a machine learning-based method for improved voxel-wise PCa classification by taking into account the unique structures of the data. We propose a multi-resolution modeling approach to account for regional heterogeneity, where base learners trained locally at multiple resolutions are combined using the super learner, and account for between-voxel correlation by efficient spatial Gaussian kernel smoothing. The method is flexible in that the super learner framework allows implementation of any classifier as the base learner, and can be easily extended to classifying cancer into more sub-categories. We describe detailed classification algorithm for the binary PCa status, as well as the ordinal clinical significance of PCa for which a weighted likelihood approach is implemented to enhance the detection of the less prevalent cancer categories. We illustrate the advantages of the proposed approach over conventional modeling and machine learning approaches through simulations and application to in vivo data.
翻訳日:2022-11-14 13:06:30 公開日:2021-11-03
# 高速・至近対角プレコンディショニング

Fast and Near-Optimal Diagonal Preconditioning ( http://arxiv.org/abs/2008.01722v2 )

ライセンス: Link先を確認
Arun Jambulapati, Jerry Li, Christopher Musco, Aaron Sidford, Kevin Tian(参考訳) 線形系 $\mathbf{a} x = b$ を解くための反復的手法の収束率は、通常行列 $\mathbf{a}$ の条件数に依存する。 プリコンディショニングは、この条件数を計算的に安価な方法で削減することで、これらの方法を高速化する一般的な方法である。 本稿では、左あるいは右の対角線再スケーリングによる$\mathbf{A}$の条件数を改善する方法に関する数十年前の問題を再考する。 我々はこの問題をいくつかの方向に進める。 まず、その対角値によって$\mathbf{a}$をスケーリングするという古典的なヒューリスティックの新しい境界(jacobi preconditioning)を提供する。 このアプローチは、$\mathbf{a}$の条件数を最良のスケーリングの2次係数の範囲に減少させることを証明します。 第二に、構造的混合パッキングと半定義型プログラム(mpc sdps)の解法を与える。これは、$\widetilde{o}(\text{nnz}(\mathbf{a}) \cdot \text{poly}(\kappa^\star))$ factor の定値最適スケーリングを計算し、$\widetilde{o}(\text{poly}(\kappa^\star)$ factor までスケールした後の線形系を解くコストに一致する。 第3に、十分に一般的な幅独立なmpc sdpソルバは、我々が検討するスケーリング問題や平均条件付けの尺度に関連する自然変種に対して、ほぼ最適のランタイムであることを示す。 最後に, 半ランダム雑音モデルへのプレコンディショニング手法の接続や, 各種統計回帰モデルにおけるリスク低減への応用について注目する。

The convergence rates of iterative methods for solving a linear system $\mathbf{A} x = b$ typically depend on the condition number of the matrix $\mathbf{A}$. Preconditioning is a common way of speeding up these methods by reducing that condition number in a computationally inexpensive way. In this paper, we revisit the decades-old problem of how to best improve $\mathbf{A}$'s condition number by left or right diagonal rescaling. We make progress on this problem in several directions. First, we provide new bounds for the classic heuristic of scaling $\mathbf{A}$ by its diagonal values (a.k.a. Jacobi preconditioning). We prove that this approach reduces $\mathbf{A}$'s condition number to within a quadratic factor of the best possible scaling. Second, we give a solver for structured mixed packing and covering semidefinite programs (MPC SDPs) which computes a constant-factor optimal scaling for $\mathbf{A}$ in $\widetilde{O}(\text{nnz}(\mathbf{A}) \cdot \text{poly}(\kappa^\star))$ time; this matches the cost of solving the linear system after scaling up to a $\widetilde{O}(\text{poly}(\kappa^\star))$ factor. Third, we demonstrate that a sufficiently general width-independent MPC SDP solver would imply near-optimal runtimes for the scaling problems we consider, and natural variants concerned with measures of average conditioning. Finally, we highlight connections of our preconditioning techniques to semi-random noise models, as well as applications in reducing risk in several statistical regression models.
翻訳日:2022-11-02 23:58:32 公開日:2021-11-03
# 変分オートエンコーダ事前学習のためのコントラスト学習手法

A Contrastive Learning Approach for Training Variational Autoencoder Priors ( http://arxiv.org/abs/2010.02917v3 )

ライセンス: Link先を確認
Jyoti Aneja, Alexander Schwing, Jan Kautz, Arash Vahdat(参考訳) 変分オートエンコーダ(VAE)は、多くの領域で応用される強力な可能性に基づく生成モデルの一つである。 しかし、特にテンパリングなしで前者からサンプルを得る場合、高品質な画像を生成するのに苦労する。 VAEsが生成性に乏しいことの1つの説明は、事前の分布が集合の近似的な後部と一致しないという、事前の穴の問題である。 このミスマッチのため、エンコードされた画像に対応しない、前者の下の高濃度の潜在空間に領域が存在する。 これらの領域のサンプルは、破損した画像にデコードされる。 この問題に対処するために,ベース先行分布の積と,ベースを集合体後部へ近づけるように設計された再重み付け係数によって定義されるエネルギーベースの事前定義を提案する。 ノイズコントラスト推定により重み付け係数を訓練し,多くの潜在変数群を持つ階層的vaesに一般化した。 提案手法は,MNIST,CIFAR-10,CelebA 64,CelebA HQ 256データセットにおいて,最先端のVAEの生成性能を大きく向上させるものであることを確認した。 提案手法は単純で,従来の分布の表現性を向上させるため,多種多様なVAEに適用可能である。

Variational autoencoders (VAEs) are one of the powerful likelihood-based generative models with applications in many domains. However, they struggle to generate high-quality images, especially when samples are obtained from the prior without any tempering. One explanation for VAEs' poor generative quality is the prior hole problem: the prior distribution fails to match the aggregate approximate posterior. Due to this mismatch, there exist areas in the latent space with high density under the prior that do not correspond to any encoded image. Samples from those areas are decoded to corrupted images. To tackle this issue, we propose an energy-based prior defined by the product of a base prior distribution and a reweighting factor, designed to bring the base closer to the aggregate posterior. We train the reweighting factor by noise contrastive estimation, and we generalize it to hierarchical VAEs with many latent variable groups. Our experiments confirm that the proposed noise contrastive priors improve the generative performance of state-of-the-art VAEs by a large margin on the MNIST, CIFAR-10, CelebA 64, and CelebA HQ 256 datasets. Our method is simple and can be applied to a wide variety of VAEs to improve the expressivity of their prior distribution.
翻訳日:2022-10-10 05:10:31 公開日:2021-11-03
# より良い損失関数はトランスファー可能な機能を減らせるのか?

Why Do Better Loss Functions Lead to Less Transferable Features? ( http://arxiv.org/abs/2010.16402v2 )

ライセンス: Link先を確認
Simon Kornblith, Ting Chen, Honglak Lee, Mohammad Norouzi(参考訳) 画像分類タスクにおけるテスト精度を向上させるために,多くの新しい損失関数と正規化器を提案する。 しかし、これらの損失関数が下流タスクの表現をより良く学習するかどうかは不明である。 本稿では,imagenet上でトレーニングされた畳み込みニューラルネットワークの隠れ表現の転送性にトレーニング対象の選択が与える影響について検討する。 提案手法では,画像ネットの精度はバニラソフトマックスのクロスエントロピーよりも統計的に有意に向上するが,固定特徴抽出器の下流タスクへの移動は著しく悪化し,ネットワークが新しいタスクに完全に微調整された場合,損失の選択がほとんど影響しないことを示した。 ネットワークの隠蔽表現間の類似性を測定するためにカーネルアライメントを中心とし、損失関数間の差はネットワークの最後の数層でのみ明らかとなる。 我々は、ペナルティメート層の表現をより深く掘り下げ、異なる目的とハイパーパラメータの組み合わせがクラス分離の劇的に異なるレベルをもたらすことを見出します。 クラス分離の高い表現は、元のタスクで高い精度を得るが、それらの機能は下流タスクではあまり役に立たない。 この結果から,元のタスクに不変な学習機能と,転送タスクに関連する特徴との間にはトレードオフがあることが示唆された。

Previous work has proposed many new loss functions and regularizers that improve test accuracy on image classification tasks. However, it is not clear whether these loss functions learn better representations for downstream tasks. This paper studies how the choice of training objective affects the transferability of the hidden representations of convolutional neural networks trained on ImageNet. We show that many objectives lead to statistically significant improvements in ImageNet accuracy over vanilla softmax cross-entropy, but the resulting fixed feature extractors transfer substantially worse to downstream tasks, and the choice of loss has little effect when networks are fully fine-tuned on the new tasks. Using centered kernel alignment to measure similarity between hidden representations of networks, we find that differences among loss functions are apparent only in the last few layers of the network. We delve deeper into representations of the penultimate layer, finding that different objectives and hyperparameter combinations lead to dramatically different levels of class separation. Representations with higher class separation obtain higher accuracy on the original task, but their features are less useful for downstream tasks. Our results suggest there exists a trade-off between learning invariant features for the original task and features relevant for transfer tasks.
翻訳日:2022-10-01 16:17:05 公開日:2021-11-03
# OnION: テキストバックドア攻撃に対するシンプルで効果的な防御

ONION: A Simple and Effective Defense Against Textual Backdoor Attacks ( http://arxiv.org/abs/2011.10369v3 )

ライセンス: Link先を確認
Fanchao Qi, Yangyi Chen, Mukai Li, Yuan Yao, Zhiyuan Liu, Maosong Sun(参考訳) バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する緊急トレーニングタイム脅威の一種だ。 彼らはDNNの出力を操作でき、攻撃性が高い。 自然言語処理の分野では、いくつかの攻撃手法が提案され、複数の人気モデルに対して非常に高い攻撃成功率を達成している。 それでも、テキストバックドア攻撃に対する防御に関する研究はほとんどない。 そこで本研究では,オニオンという単純なテキストバックドア防御手法を提案する。オニオンは単語の異常検出に基づくもので,我々の知る限りでは,すべてのテキストバックドア攻撃を処理できる最初の手法である。 実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。 この論文のコードとデータは、https://github.com/thunlp/ONION.comで入手できる。

Backdoor attacks are a kind of emergent training-time threat to deep neural networks (DNNs). They can manipulate the output of DNNs and possess high insidiousness. In the field of natural language processing, some attack methods have been proposed and achieve very high attack success rates on multiple popular models. Nevertheless, there are few studies on defending against textual backdoor attacks. In this paper, we propose a simple and effective textual backdoor defense named ONION, which is based on outlier word detection and, to the best of our knowledge, is the first method that can handle all the textual backdoor attack situations. Experiments demonstrate the effectiveness of our model in defending BiLSTM and BERT against five different backdoor attacks. All the code and data of this paper can be obtained at https://github.com/thunlp/ONION.
翻訳日:2022-09-23 06:17:09 公開日:2021-11-03
# 自動睡眠停止:最近の展開,課題,今後の方向性

Automatic Sleep Staging: Recent Development, Challenges, and Future Directions ( http://arxiv.org/abs/2111.08446v1 )

ライセンス: Link先を確認
Huy Phan, Kaare Mikkelsen(参考訳) 現代のディープラーニングは、人間の睡眠における臨床実践を変える大きな可能性を秘めている。 日常的な作業を行う機械を教えることは、臨床医の作業負荷を大幅に削減するでしょう。 睡眠ステージングは、睡眠練習の基本的なステップであり、これに適したタスクであり、この記事の焦点となる。 近年、自動睡眠ステージングシステムが手動のスコアリングを模倣するように訓練され、少なくとも健康な被験者のスコアにおいて、人間の睡眠専門家と同じようなパフォーマンスがもたらされている。 著明な進歩にもかかわらず,臨床環境では自動睡眠スコアが広く採用されていない。 本総説は, 自動睡眠ステージングにおける最新の技術開発, 対処すべき課題, 臨床的価値を達成するための自動睡眠スコアリングの今後の方向性について, 著者の共通見解を提供することを目的としている。

Modern deep learning holds a great potential to transform clinical practice on human sleep. Teaching a machine to carry out routine tasks would be a tremendous reduction in workload for clinicians. Sleep staging, a fundamental step in sleep practice, is a suitable task for this and will be the focus in this article. Recently, automatic sleep staging systems have been trained to mimic manual scoring, leading to similar performance to human sleep experts, at least on scoring of healthy subjects. Despite tremendous progress, we have not seen automatic sleep scoring adopted widely in clinical environments. This review aims to give a shared view of the authors on the most recent state-of-the-art development in automatic sleep staging, the challenges that still need to be addressed, and the future directions for automatic sleep scoring to achieve clinical value.
翻訳日:2021-11-21 14:52:20 公開日:2021-11-03
# (参考訳) 公共の場に人の流れをモニタするIoT

IoT to monitor people flow in areas of public interest ( http://arxiv.org/abs/2111.04465v1 )

ライセンス: CC BY 4.0
Damiano Perri, Marco Simonetti, Alex Bordini, Simone Cimarelli, Osvaldo Gervasi(参考訳) 私たちが生きている予期せぬ歴史的期間は、突然、個人間の対話を緩和し、安全距離へのコンプライアンスを可能にする新しい方法に徐々に対処せざるを得なくなりました。 本研究の目的は、個人や機密データを収集することなく、公共の場所や施設(博物館、劇場、映画館など)内の人々の流れを監視するシステムを構築することである。 モノのインターネット(internet of things)ツールによる人流の弱い監視(つまり、監視対象の個人的識別無しの監視)は、ラインアップや過密を最小限に抑えるための有効なソリューションである。 イタリアのウンブリア地方で実験として始まった研究は、土地をより快適にするために、人々の流れを自動で計画する際のいくつかの答えの1つを目指しています。 我々は,モノのインターネットが,基本的な情報プロセスの開発から,ビジネス関係者が関心のあるコンシューマと接続可能な真のポータル実装に至るまで,ほぼ無限のツールや可能性を提供することを示すつもりです。

The unexpected historical period we are living has abruptly pushed us to loosen any sort of interaction between individuals, gradually forcing us to deal with new ways to allow compliance with safety distances; indeed the present situation has demonstrated more than ever how critical it is to be able to properly organize our travel plans, put people in safe conditions, and avoid harmful circumstances. The aim of this research is to set up a system to monitor the flow of people inside public places and facilities of interest (museums, theatres, cinemas, etc.) without collecting personal or sensitive data. Weak monitoring of people flows (i.e. monitoring without personal identification of the monitored subjects) through Internet of Things tools might be a viable solution to minimize lineups and overcrowding. Our study, which began as an experiment in the Umbria region of Italy, aims to be one of several answers to automated planning of people's flows in order to make our land more liveable. We intend to show that the Internet of Things gives almost unlimited tools and possibilities, from developing a basic information process to implementing a true portal which enables business people to connect with interested consumers.
翻訳日:2021-11-14 15:24:18 公開日:2021-11-03
# 検証仮定のモニタに対する信頼度構成

Confidence Composition for Monitors of Verification Assumptions ( http://arxiv.org/abs/2111.03782v1 )

ライセンス: Link先を確認
Ivan Ruchkin, Matthew Cleaveland, Radoslav Ivanov, Pengyuan Lu, Taylor Carpenter, Oleg Sokolsky, Insup Lee(参考訳) ニューラルネットワークコントローラによるサイバー物理システムのクローズドループ検証は、特定の前提の下で強力な安全性保証を提供する。 しかしながら、これらの保証が実行時に適用されるかどうかを判断することは困難である。 検証システムの安全性違反を予測するため,検証仮説の信頼性をモニタリングする3段階の枠組みを提案する。 まず,前提よりも命題論理式で検証された安全性の十分条件を示す。 第二に、各仮定が持つ確率を評価する正当性モニタを構築する。 第3に,論理式に適した合成関数を用いて仮定モニタを構成することにより,検証保証の信頼性を得る。 構成モニターのキャリブレーションと保守性に関する理論的境界を提供する。 2つのケーススタディにおいて、構成したモニターが構成成分を改良し、安全性侵害をうまく予測できることを実証した。

Closed-loop verification of cyber-physical systems with neural network controllers offers strong safety guarantees under certain assumptions. It is, however, difficult to determine whether these guarantees apply at run time because verification assumptions may be violated. To predict safety violations in a verified system, we propose a three-step framework for monitoring the confidence in verification assumptions. First, we represent the sufficient condition for verified safety with a propositional logical formula over assumptions. Second, we build calibrated confidence monitors that evaluate the probability that each assumption holds. Third, we obtain the confidence in the verification guarantees by composing the assumption monitors using a composition function suitable for the logical formula. Our framework provides theoretical bounds on the calibration and conservatism of compositional monitors. In two case studies, we demonstrate that the composed monitors improve over their constituents and successfully predict safety violations.
翻訳日:2021-11-14 15:11:40 公開日:2021-11-03
# リーマン多様体上の微分プライバシー

Differential Privacy Over Riemannian Manifolds ( http://arxiv.org/abs/2111.02516v1 )

ライセンス: Link先を確認
Matthew Reimherr, Karthik Bharath, Carlos Soto(参考訳) 本研究では、リーマン多様体上に存在する微分プライベートな統計要約を解放する問題を考える。 多様体上の固有距離と体積を利用するLaplace あるいは K-norm 機構の拡張について述べる。 また、要約が多様体上に存在するデータの Fr'echet 平均である場合についても詳細に検討する。 この機構はレート最適であり、任意の周囲空間の次元ではなく多様体の次元のみに依存することを証明し、また、多様体構造を無視することでサニタイズされた要約の有用性をいかに低下させるかを示す。 統計学における特に興味のある2つの例:共分散行列に使用される対称正定値行列の空間と離散分布のモデリングの空間として使用できる球面である。

In this work we consider the problem of releasing a differentially private statistical summary that resides on a Riemannian manifold. We present an extension of the Laplace or K-norm mechanism that utilizes intrinsic distances and volumes on the manifold. We also consider in detail the specific case where the summary is the Fr\'echet mean of data residing on a manifold. We demonstrate that our mechanism is rate optimal and depends only on the dimension of the manifold, not on the dimension of any ambient space, while also showing how ignoring the manifold structure can decrease the utility of the sanitized summary. We illustrate our framework in two examples of particular interest in statistics: the space of symmetric positive definite matrices, which is used for covariance matrices, and the sphere, which can be used as a space for modeling discrete distributions.
翻訳日:2021-11-14 15:11:28 公開日:2021-11-03
# (参考訳) ProSTformer:交通流予測のための訓練済み進行時空間自己注意モデル

ProSTformer: Pre-trained Progressive Space-Time Self-attention Model for Traffic Flow Forecasting ( http://arxiv.org/abs/2111.03459v1 )

ライセンス: CC0 1.0
Xiao Yan, Xianghua Gan, Jingjing Tang, Rui Wang(参考訳) 交通の流れの予測は、インテリジェントな都市管理と公共の安全に欠かせない。 近年の研究では、複雑な影響因子間の動的依存性を抽出するための畳み込みフリー変圧器アプローチの可能性が示されている。 しかし,2つの課題により,トラヒックフロー予測に効果的に適用できない。 まず、トラフィックフロービデオの時空間構造を無視します。 第二に、長いシーケンスでは、2次時間ドット積計算のために重要な注意を集中することは困難である。 この2つの問題に対処するため、まず依存関係を分解し、ProSTformerというプログレッシブな時空間自己保持機構を設計する。 It has two distinctive characteristics: (1) corresponding to the factorization, the self-attention mechanism progressively focuses on spatial dependence from local to global regions, on temporal dependence from inside to outside fragment (i.e., closeness, period, and trend), and finally on external dependence such as weather, temperature, and day-of-week; (2) by incorporating the spatiotemporal structure into the self-attention mechanism, each block in ProSTformer highlights the unique dependence by aggregating the regions with spatiotemporal positions to significantly decrease the computation. 2つのトラヒックデータセットでprostformerを評価し,各データセットは,大小,中小の3つのデータセットを含む。 トラフィックフロー予測のための畳み込みアーキテクチャとは全く異なる設計であるにもかかわらず、prostformerは、rmseによる6つの最先端のベースラインメソッドよりも、大規模なデータセットでパフォーマンスが良いか、同等である。 大規模データセットで事前トレーニングを行い、中小規模データセットに転送すると、ProSTformerは大幅に拡張され、最も振舞う。

Traffic flow forecasting is essential and challenging to intelligent city management and public safety. Recent studies have shown the potential of convolution-free Transformer approach to extract the dynamic dependencies among complex influencing factors. However, two issues prevent the approach from being effectively applied in traffic flow forecasting. First, it ignores the spatiotemporal structure of the traffic flow videos. Second, for a long sequence, it is hard to focus on crucial attention due to the quadratic times dot-product computation. To address the two issues, we first factorize the dependencies and then design a progressive space-time self-attention mechanism named ProSTformer. It has two distinctive characteristics: (1) corresponding to the factorization, the self-attention mechanism progressively focuses on spatial dependence from local to global regions, on temporal dependence from inside to outside fragment (i.e., closeness, period, and trend), and finally on external dependence such as weather, temperature, and day-of-week; (2) by incorporating the spatiotemporal structure into the self-attention mechanism, each block in ProSTformer highlights the unique dependence by aggregating the regions with spatiotemporal positions to significantly decrease the computation. We evaluate ProSTformer on two traffic datasets, and each dataset includes three separate datasets with big, medium, and small scales. Despite the radically different design compared to the convolutional architectures for traffic flow forecasting, ProSTformer performs better or the same on the big scale datasets than six state-of-the-art baseline methods by RMSE. When pre-trained on the big scale datasets and transferred to the medium and small scale datasets, ProSTformer achieves a significant enhancement and behaves best.
翻訳日:2021-11-09 05:41:16 公開日:2021-11-03
# ソーシャルメディアが中国全土のストレスの違いを明らかに

Social Media Reveals Urban-Rural Differences in Stress across China ( http://arxiv.org/abs/2110.15726v2 )

ライセンス: Link先を確認
Jesse Cui, Tingdan Zhang, Kokil Jaidka, Dandan Pang, Garrick Sherman, Vinit Jakhetiya, Lyle Ungar, Sharath Chandra Guntuku(参考訳) 中国の都市部と農村部における異なるストレス表現のモデル化は、ここ20年で急速に経済的な成長を遂げた国の心理的幸福に対する都市化の影響をよりよく理解することができる。 本稿では,329郡65,000人以上の利用者を対象に,階層的混合効果モデルを用いて都市農村中国におけるストレス経験と表現の言語的差異について検討した。 我々は,中国の都市部と農村部における心理的ストレスに関する評価的差異をよりよく理解するため,Weiboの投稿において,フレーズ,話題,心理言語的単語選択について分析した。 社会経済的・ジェンダー的な差異をコントロールした上で,地域社会では人間関係や健康,機会といった感情的・個人的テーマにストレスを表わす傾向にあり,都市部の利用者は仕事,政治,経済といった相対的・時間的・外部的なテーマを用いてストレスを表わす傾向にあった。 これらの違いはGDPと都市化の規制を超えて存在し、農村住民と都市住民の生活様式が非常に特定の環境で根本的に異なることを示している。 ギャラップ調査では, 都市化に伴う身体, 財政, 社会福祉の相関傾向がみられた。

Modeling differential stress expressions in urban and rural regions in China can provide a better understanding of the effects of urbanization on psychological well-being in a country that has rapidly grown economically in the last two decades. This paper studies linguistic differences in the experiences and expressions of stress in urban-rural China from Weibo posts from over 65,000 users across 329 counties using hierarchical mixed-effects models. We analyzed phrases, topical themes, and psycho-linguistic word choices in Weibo posts mentioning stress to better understand appraisal differences surrounding psychological stress in urban and rural communities in China; we then compared them with large-scale polls from Gallup. After controlling for socioeconomic and gender differences, we found that rural communities tend to express stress in emotional and personal themes such as relationships, health, and opportunity while users in urban areas express stress using relative, temporal, and external themes such as work, politics, and economics. These differences exist beyond controlling for GDP and urbanization, indicating a fundamentally different lifestyle between rural and urban residents in very specific environments, arguably having different sources of stress. We found corroborative trends in physical, financial, and social wellness with urbanization in Gallup polls.
翻訳日:2021-11-07 11:42:39 公開日:2021-11-03
# (参考訳) インセプションネットワークと転写学習を用いた皮膚癌の分類

Skin Cancer Classification using Inception Network and Transfer Learning ( http://arxiv.org/abs/2111.02402v1 )

ライセンス: CC BY 4.0
Priscilla Benedetti and Damiano Perri and Marco Simonetti and Osvaldo Gervasi and Gianluca Reali and Mauro Femminella(参考訳) 医学データ分類は通常、クラス間の不均衡のために難しい課題である。 本稿では,HAM10000 (Human Against Machine with 10000 training images) データセットから皮膚病変を7種類の不均衡で高精度かつ低リソースで分類する手法を提案する。 分類は事前訓練された畳み込みニューラルネットワークを用いて行われる。 提案の精度と性能を評価し,拡張の可能性を示す。

Medical data classification is typically a challenging task due to imbalance between classes. In this paper, we propose an approach to classify dermatoscopic images from HAM10000 (Human Against Machine with 10000 training images) dataset, consisting of seven imbalanced types of skin lesions, with good precision and low resources requirements. Classification is done by using a pretrained convolutional neural network. We evaluate the accuracy and performance of the proposal and illustrate possible extensions.
翻訳日:2021-11-06 04:38:39 公開日:2021-11-03
# (参考訳) WORD:全腹部領域における臓器分節の再検討

WORD: Revisiting Organs Segmentation in the Whole Abdominal Region ( http://arxiv.org/abs/2111.02403v1 )

ライセンス: CC BY 4.0
Xiangde Luo, Wenjun Liao, Jianghong Xiao, Tao Song, Xiaofan Zhang, Kang Li, Guotai Wang, and Shaoting Zhang(参考訳) 腹部臓器の分節は腹部病変の診断,放射線治療計画,経過観察において重要な役割を担っている。 しかし、すべての腹部臓器を手作業で検査することは時間がかかり、非常に費用がかかる。 近年,深層学習に基づく医用画像のセグメンテーションは手動のデライン化の取り組みを減らす可能性を示しているが,トレーニングには大規模な微調整データセットが必要である。 この課題には多くの取り組みがあるが、腹部全臓器分節の正確な詳細な注釈を付して腹部全領域をカバーする大きな画像データセットは少ない。 本研究では, アルゴリズム研究と臨床応用開発のために, 大規模の \textit{w}hole abdominal \textit{or}gans \textit{d}ataset (\textit{word}) を確立する。 このデータセットは、150の腹部CTボリューム(30495スライス)を含み、各ボリュームには、微細なピクセルレベルのアノテーションとスクリブルベースのスパースアノテーションを備えた16の臓器がある。 このデータセットでは,いくつかの最先端セグメンテーション手法が評価されている。 また, 深層学習法と実際の腫瘍学とのギャップを測定するために, モデル予測の見直しを臨床腫瘍学者に依頼した。 さらに,このデータセット上で,新しいscribbleベースの弱教師付きセグメンテーションを導入し,評価する。 この研究は腹部多臓器分節タスクの新しいベンチマークを提供し、これらの実験は将来の研究および臨床応用開発の基礎となる。 コードベースとデータセットは、https://github.com/HiLab-git/WORDでリリースされる。

Whole abdominal organs segmentation plays an important role in abdomen lesion diagnosis, radiotherapy planning, and follow-up. However, delineating all abdominal organs by oncologists manually is time-consuming and very expensive. Recently, deep learning-based medical image segmentation has shown the potential to reduce manual delineation efforts, but it still requires a large-scale fine annotated dataset for training. Although many efforts in this task, there are still few large image datasets covering the whole abdomen region with accurate and detailed annotations for the whole abdominal organ segmentation. In this work, we establish a large-scale \textit{W}hole abdominal \textit{OR}gans \textit{D}ataset (\textit{WORD}) for algorithms research and clinical applications development. This dataset contains 150 abdominal CT volumes (30495 slices) and each volume has 16 organs with fine pixel-level annotations and scribble-based sparse annotation, which may be the largest dataset with whole abdominal organs annotation. Several state-of-the-art segmentation methods are evaluated on this dataset. And, we also invited clinical oncologists to revise the model predictions to measure the gap between the deep learning method and real oncologists. We further introduce and evaluate a new scribble-based weakly supervised segmentation on this dataset. The work provided a new benchmark for the abdominal multi-organ segmentation task and these experiments can serve as the baseline for future research and clinical application development. The codebase and dataset will be released at: https://github.com/HiLab-git/WORD
翻訳日:2021-11-06 04:31:22 公開日:2021-11-03
# (参考訳) 嵐サージシミュレーションにおける時空間欠落データに対する畳み込み生成逆インプテーションネットワーク

Convolutional generative adversarial imputation networks for spatio-temporal missing data in storm surge simulations ( http://arxiv.org/abs/2111.02823v1 )

ライセンス: CC BY 4.0
Ehsan Adeli, Jize Zhang and Alexandros A. Taflanidis(参考訳) 欠落したデータの計算は、多くの工学と科学の応用において重要な役割を果たすタスクである。 このような欠落したデータは、センサーの限界や後処理の変換エラーから実験的に観測されることが多い。 コンピュータシミュレーションにおける数値的制約やアルゴリズム的制約から生じることもある。 このような事例と応用例の1つは,嵐サージの数値シミュレーションである。 シミュレーションデータは、関心領域内の多くの保存点に関する時系列サージ予測に対応し、サージ点が空間的および時間的に強く相関し、欠落値領域がランダムに構造的に分布する時空間的インプテーション問題を生成する。 近年、ニューラルネットワーク法などの機械学習手法が開発され、データインプテーションタスクの欠如に利用されている。 GAN(Generative Adversarial Nets)とGANベースの技術は、教師なし機械学習手法として特に注目を集めている。 本研究では,完全連結層に代えて畳み込みニューラルネットワークを適用し,データ相関の把握と隣接サージ点からの学習を促進することにより,生成的逆向的インプテーションネット(gain)の性能を向上させる。 研究データに特に必要とされる方法のもう一つの調整は、畳み込み層を通してモデルにより多くの情報を提供する追加の特徴として点の座標を考えることである。 提案手法をConv-GAIN(Convolutional Generative Adversarial Imputation Nets)と呼ぶ。 ストームサージデータに必要な改良と適応を考慮し,本手法の性能評価を行い,本手法と他の手法との比較を行った。 その結果,Conv-GAINは研究データに対する代替手法よりも優れた性能を示した。

Imputation of missing data is a task that plays a vital role in a number of engineering and science applications. Often such missing data arise in experimental observations from limitations of sensors or post-processing transformation errors. Other times they arise from numerical and algorithmic constraints in computer simulations. One such instance and the application emphasis of this paper are numerical simulations of storm surge. The simulation data corresponds to time-series surge predictions over a number of save points within the geographic domain of interest, creating a spatio-temporal imputation problem where the surge points are heavily correlated spatially and temporally, and the missing values regions are structurally distributed at random. Very recently, machine learning techniques such as neural network methods have been developed and employed for missing data imputation tasks. Generative Adversarial Nets (GANs) and GAN-based techniques have particularly attracted attention as unsupervised machine learning methods. In this study, the Generative Adversarial Imputation Nets (GAIN) performance is improved by applying convolutional neural networks instead of fully connected layers to better capture the correlation of data and promote learning from the adjacent surge points. Another adjustment to the method needed specifically for the studied data is to consider the coordinates of the points as additional features to provide the model more information through the convolutional layers. We name our proposed method as Convolutional Generative Adversarial Imputation Nets (Conv-GAIN). The proposed method's performance by considering the improvements and adaptations required for the storm surge data is assessed and compared to the original GAIN and a few other techniques. The results show that Conv-GAIN has better performance than the alternative methods on the studied data.
翻訳日:2021-11-06 04:15:45 公開日:2021-11-03
# (参考訳) バランスの取れたQ-ラーニング:最適化と悲観的目標の影響を組み合わせる

Balanced Q-learning: Combining the Influence of Optimistic and Pessimistic Targets ( http://arxiv.org/abs/2111.02787v1 )

ライセンス: CC BY 4.0
Thommen George Karimpanal, Hung Le, Majid Abdolshah, Santu Rana, Sunil Gupta, Truyen Tran, Svetha Venkatesh(参考訳) Q-ラーニングターゲットの楽観的な性質は、標準の$Q-$ラーニングに関連する固有の問題である過大評価バイアスをもたらす。 このようなバイアスは、特にリスクのあるシナリオにおいて、低いリターンの可能性を考慮するのに失敗する。 しかし、過大評価であれ過小評価であれ、バイアスの存在は必ずしも望ましくないとは限らない。 本稿では,バイアス学習の有用性を解析的に検討し,シナリオによっては,特定の種類のバイアスが望ましいことを示す。 そこで本研究では,新たな強化学習アルゴリズムであるBa balanced Q-learningを設計し,対象を悲観的および楽観的な用語の凸結合に修正し,関連する重みをオンラインで解析的に決定する。 本研究では,このアルゴリズムの収束性を表形式で証明し,様々な環境において優れた学習性能を実証する。

The optimistic nature of the Q-learning target leads to an overestimation bias, which is an inherent problem associated with standard $Q-$learning. Such a bias fails to account for the possibility of low returns, particularly in risky scenarios. However, the existence of biases, whether overestimation or underestimation, need not necessarily be undesirable. In this paper, we analytically examine the utility of biased learning, and show that specific types of biases may be preferable, depending on the scenario. Based on this finding, we design a novel reinforcement learning algorithm, Balanced Q-learning, in which the target is modified to be a convex combination of a pessimistic and an optimistic term, whose associated weights are determined online, analytically. We prove the convergence of this algorithm in a tabular setting, and empirically demonstrate its superior learning performance in various environments.
翻訳日:2021-11-06 04:14:37 公開日:2021-11-03
# (参考訳) データ駆動型ディープニューラルネットワークの線形および非線形構造ダイナミクスへの応用について

On the Application of Data-Driven Deep Neural Networks in Linear and Nonlinear Structural Dynamics ( http://arxiv.org/abs/2111.02784v1 )

ライセンス: CC BY 4.0
Nan Feng, Guodong Zhang and Kapil Khandelwal(参考訳) 線形および非線形構造力学系のサロゲートとしてディープニューラルネットワーク(DNN)モデルを用いる。 目標は、入力(ハーモニック)励起に対する構造応答、すなわち変位と加速度を予測するdnnベースのサロゲートを開発することである。 特に、完全接続、疎結合、畳み込みネットワーク層を用いた効率的なネットワークアーキテクチャの開発と、対象とするデータ空間におけるネットワーク全体の複雑さと予測精度のバランスを提供する、対応するトレーニング戦略に重点が置かれている。 線形力学では、ネットワーク層内の重み行列の空間パターンを用いて、スパース層を持つ畳み込みDNNを構成する。 非線形力学では,ネットワーク層内の疎結合性が失われ,ネットワーク層が完全連結で畳み込み可能な効率的なDNNアーキテクチャが探索されている。 また,提案するdnnの学習を成功させるためにトランスファー学習戦略を導入し,ネットワークアーキテクチャに影響を与える様々な負荷要因について検討した。 提案したDNNは,高調波負荷下での線形および非線形動的応答の予測に有効かつ正確なサロゲートとして利用できる。

The use of deep neural network (DNN) models as surrogates for linear and nonlinear structural dynamical systems is explored. The goal is to develop DNN based surrogates to predict structural response, i.e., displacements and accelerations, for given input (harmonic) excitations. In particular, the focus is on the development of efficient network architectures using fully-connected, sparsely-connected, and convolutional network layers, and on the corresponding training strategies that can provide a balance between the overall network complexity and prediction accuracy in the target dataspaces. For linear dynamics, sparsity patterns of the weight matrix in the network layers are used to construct convolutional DNNs with sparse layers. For nonlinear dynamics, it is shown that sparsity in network layers is lost, and efficient DNNs architectures with fully-connected and convolutional network layers are explored. A transfer learning strategy is also introduced to successfully train the proposed DNNs, and various loading factors that influence the network architectures are studied. It is shown that the proposed DNNs can be used as effective and accurate surrogates for predicting linear and nonlinear dynamical responses under harmonic loadings.
翻訳日:2021-11-06 03:56:45 公開日:2021-11-03
# (参考訳) 産業用制御システムのための自律攻撃緩和

Autonomous Attack Mitigation for Industrial Control Systems ( http://arxiv.org/abs/2111.02445v1 )

ライセンス: CC BY 4.0
John Mern, Kyle Hatch, Ryan Silva, Cameron Hickert, Tamim Sookoor, Mykel J. Kochenderfer(参考訳) サイバー攻撃からコンピュータネットワークを守るには、警告や脅威情報に対するタイムリーな応答が必要である。 応答方法に関する決定は、ネットワーク操作の混乱を最小限に抑えながら、妥協の不完全な指標に基づいて、複数のノード間でのアクションのコーディネートを伴う。 現在、プレイブックはレスポンスプロセスの一部を自動化するために使われていますが、複雑な意思決定は人間のアナリストに任せます。 本稿では,大規模産業制御ネットワークにおける自律的応答と回復に対する深い強化学習手法を提案する。 本稿では,保護下のネットワークサイズに柔軟に対応する注目型ニューラルネットワークを提案する。 自律型ディフェンダーエージェントを訓練し,評価するために,強化学習に適した産業制御ネットワークシミュレーション環境を提案する。 実験により、学習エージェントは実行数ヶ月前に観測可能な信号がほとんどない先進攻撃を効果的に軽減できることが示された。 提案した深層強化学習手法は,ネットワーク上のより多くのノードを防御しながら,破壊的な動作を少なくし,完全に自動化されたプレイブック法よりも優れている。 学習されたポリシーは、プレイブックアプローチよりも攻撃行動の変化に対して堅牢である。

Defending computer networks from cyber attack requires timely responses to alerts and threat intelligence. Decisions about how to respond involve coordinating actions across multiple nodes based on imperfect indicators of compromise while minimizing disruptions to network operations. Currently, playbooks are used to automate portions of a response process, but often leave complex decision-making to a human analyst. In this work, we present a deep reinforcement learning approach to autonomous response and recovery in large industrial control networks. We propose an attention-based neural architecture that is flexible to the size of the network under protection. To train and evaluate the autonomous defender agent, we present an industrial control network simulation environment suitable for reinforcement learning. Experiments show that the learned agent can effectively mitigate advanced attacks that progress with few observable signals over several months before execution. The proposed deep reinforcement learning approach outperforms a fully automated playbook method in simulation, taking less disruptive actions while also defending more nodes on the network. The learned policy is also more robust to changes in attacker behavior than playbook approaches.
翻訳日:2021-11-06 03:54:31 公開日:2021-11-03
# (参考訳) 加速レプリカ交換確率勾配ランゲヴィン拡散強化ベイズディープONetによる雑音パラメトリックPDEの解法

Accelerated replica exchange stochastic gradient Langevin diffusion enhanced Bayesian DeepONet for solving noisy parametric PDEs ( http://arxiv.org/abs/2111.02484v1 )

ライセンス: CC BY 4.0
Guang Lin, Christian Moya, Zecheng Zhang(参考訳) Deep Operator Networks~(DeepONet)は、パラメトリック偏微分方程式(PDE)の解演算子を含む近似非線形演算子に訓練するニューラルネットワークの基本的なクラスである。 DeepONetsは、比較的小さなデータセットでトレーニングしても、顕著な近似と一般化能力を示している。 しかしながら、トレーニングデータがノイズで汚染されると、deeponetsのパフォーマンスが低下する。 ノイズデータを用いたdeeponetsトレーニングを実現するために,レプリカ交換ランジュバン拡散のベイズフレームワークを提案する。 このようなフレームワークは2つの粒子を使い、1つは探索用、もう1つはDeepONetsの損失関数のランドスケープを利用する。 提案手法は,(1)雑音シナリオにおけるDeepONetsのトレーニングコンバージェンスの改善,(2)パラメトリックPDEの予測解に対する不確実性推定を行うことを可能にした。 さらに、レプリカ交換のLangeving Diffusionは、最先端の勾配に基づく最適化アルゴリズム(例えばAdam)で訓練されたバニラDeepONetsと比較して、ノイズの多いシナリオにおけるDeepONetの平均予測精度も向上することを示した。 本研究では、複製の潜在的に高い計算コストを削減するために、DeepONetsのニューラルネットワークアーキテクチャを利用して、提案するフレームワークの性能を損なうことなく、その計算コストを25%まで削減するレプリカ交換ランゲヴィン拡散の高速化トレーニングフレームワークを提案する。 最後に,4つのパラメトリックpde問題に対する一連の実験を用いて,提案手法の有効性を示す。

The Deep Operator Networks~(DeepONet) is a fundamentally different class of neural networks that we train to approximate nonlinear operators, including the solution operator of parametric partial differential equations (PDE). DeepONets have shown remarkable approximation and generalization capabilities even when trained with relatively small datasets. However, the performance of DeepONets deteriorates when the training data is polluted with noise, a scenario that occurs very often in practice. To enable DeepONets training with noisy data, we propose using the Bayesian framework of replica-exchange Langevin diffusion. Such a framework uses two particles, one for exploring and another for exploiting the loss function landscape of DeepONets. We show that the proposed framework's exploration and exploitation capabilities enable (1) improved training convergence for DeepONets in noisy scenarios and (2) attaching an uncertainty estimate for the predicted solutions of parametric PDEs. In addition, we show that replica-exchange Langeving Diffusion (remarkably) also improves the DeepONet's mean prediction accuracy in noisy scenarios compared with vanilla DeepONets trained with state-of-the-art gradient-based optimization algorithms (e.g. Adam). To reduce the potentially high computational cost of replica, in this work, we propose an accelerated training framework for replica-exchange Langevin diffusion that exploits the neural network architecture of DeepONets to reduce its computational cost up to 25% without compromising the proposed framework's performance. Finally, we illustrate the effectiveness of the proposed Bayesian framework using a series of experiments on four parametric PDE problems.
翻訳日:2021-11-06 03:30:53 公開日:2021-11-03
# (参考訳) エッジデバイス上での分散推論のための通信効率の良い分離型ニューラルネットワーク

Communication-Efficient Separable Neural Network for Distributed Inference on Edge Devices ( http://arxiv.org/abs/2111.02489v1 )

ライセンス: CC BY 4.0
Jun-Liang Lin and Sheng-De Wang(参考訳) ニューラルネットワークの推論は通常、エッジデバイス上のリソース(例えば、コンピューティングパワー、メモリ、帯域幅)によって制限される。 ハードウェア設計の改善と効率的なモデルのデプロイに加えて、多くのデバイスのコンピューティングパワーを集約して機械学習モデルを有効にすることができる。 本稿では,分散推論のためのニューラルネットワークを分離するためにモデル並列性を利用する新しい手法を提案する。 通信遅延,計算遅延,性能のバランスを改善するために,最適な伝送ポリシを探索し通信量を削減するためにニューラルネットワーク検索(nas)を採用している。 最良のモデルは、ベースラインと比較してデータ転送量の86.6%減少し、パフォーマンスにはあまり影響しない。 デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示し、モノのインターネット(IoT)にインテリジェントなアプリケーションをデプロイするための新しいソリューションを提供する。

The inference of Neural Networks is usually restricted by the resources (e.g., computing power, memory, bandwidth) on edge devices. In addition to improving the hardware design and deploying efficient models, it is possible to aggregate the computing power of many devices to enable the machine learning models. In this paper, we proposed a novel method of exploiting model parallelism to separate a neural network for distributed inferences. To achieve a better balance between communication latency, computation latency, and performance, we adopt neural architecture search (NAS) to search for the best transmission policy and reduce the amount of communication. The best model we found decreases by 86.6% of the amount of data transmission compared to the baseline and does not impact performance much. Under proper specifications of devices and configurations of models, our experiments show that the inference of large neural networks on edge clusters can be distributed and accelerated, which provides a new solution for the deployment of intelligent applications in the internet of things (IoT).
翻訳日:2021-11-06 03:12:57 公開日:2021-11-03
# (参考訳) 次世代計測システムにおける信号処理のロードマップ

Roadmap on Signal Processing for Next Generation Measurement Systems ( http://arxiv.org/abs/2111.02493v1 )

ライセンス: CC BY 4.0
D.K. Iakovidis, M. Ooi, Y.C. Kuang, S. Damidenko, A. Shestakov, V. Sinistin, M. Henry, A. Sciacchitano, A. Discetti, S. Donati, M. Norgia, A. Menychtas, I. Maglogiannis, S.C. Wriessnegger, L.A. Barradas Chacon, G. Dimas, D. Filos, A.H. Aletras, J. T\"oger, F. Dong, S. Ren, A. Uhl, J. Paziewski, J. Geng, F. Fioranelli, R.M. Narayanan, C. Fernandez, C. Stiller, K. Malamousi, S. Kamnis, K. Delibasis, D. Wang, J. Zhang, R.X. Gao(参考訳) 信号処理はほとんどのセンサ対応システムの基本的な構成要素であり、様々な科学分野に幅広い応用がある。 時系列データ、画像、および映像シーケンスは、情報抽出および定量化のために強化および分析される信号の代表形式からなる。 人工知能と機械学習の最近の進歩は、インテリジェントでデータ駆動の信号処理に研究の焦点を移している。 本ロードマップは,次世代計測システムに向けた今後の課題と研究機会を浮き彫りにすることを目的とした,最先端の手法と応用に関する批判的概要を示す。 基礎研究から工業研究まで幅広い分野をカバーし、研究分野ごとの現在と将来の発展の傾向と影響を反映した簡潔なテーマのセクションで組織されている。 さらに、新たな展望を特定するための研究者や資金提供機関にガイダンスを提供する。

Signal processing is a fundamental component of almost any sensor-enabled system, with a wide range of applications across different scientific disciplines. Time series data, images, and video sequences comprise representative forms of signals that can be enhanced and analysed for information extraction and quantification. The recent advances in artificial intelligence and machine learning are shifting the research attention towards intelligent, data-driven, signal processing. This roadmap presents a critical overview of the state-of-the-art methods and applications aiming to highlight future challenges and research opportunities towards next generation measurement systems. It covers a broad spectrum of topics ranging from basic to industrial research, organized in concise thematic sections that reflect the trends and the impacts of current and future developments per research field. Furthermore, it offers guidance to researchers and funding agencies in identifying new prospects.
翻訳日:2021-11-06 03:01:26 公開日:2021-11-03
# (参考訳) コンテキスト・アクティビティ・フュージョンによるポーズ推定の改善

Improving Pose Estimation through Contextual Activity Fusion ( http://arxiv.org/abs/2111.02500v1 )

ライセンス: CC BY-SA 4.0
David Poulton, Richard Klein(参考訳) 本研究は,既存のポーズ推定アーキテクチャへのアクティビティ融合の考え方を示し,その予測能力を高める。 これは、現代の機械学習アーキテクチャに見られる高レベルの概念の台頭と、活動コンテキストがポーズ推定の問題に有用な情報であるという考えに動機づけられている。 この概念を分析するために、既存のディープラーニングアーキテクチャを採用し、1x1の畳み込みを追加してモデルにアクティビティ情報を融合させます。 我々は,一般的なポーズ推定データセット上で評価と比較を行い,ベースラインモデル,特に非一般的なポーズと通常難しいジョイントの性能改善を示す。 さらに,行動情報から性能改善が実際に引き出すことを示すために,アブレーション分析を行う。

This research presents the idea of activity fusion into existing Pose Estimation architectures to enhance their predictive ability. This is motivated by the rise in higher level concepts found in modern machine learning architectures, and the belief that activity context is a useful piece of information for the problem of pose estimation. To analyse this concept we take an existing deep learning architecture and augment it with an additional 1x1 convolution to fuse activity information into the model. We perform evaluation and comparison on a common pose estimation dataset, and show a performance improvement over our baseline model, especially in uncommon poses and on typically difficult joints. Additionally, we perform an ablative analysis to indicate that the performance improvement does in fact draw from the activity information.
翻訳日:2021-11-06 03:00:23 公開日:2021-11-03
# (参考訳) 電池性能の非正規分散データに対する複数線形回帰に対する木ベース回帰の評価

Evaluation of Tree Based Regression over Multiple Linear Regression for Non-normally Distributed Data in Battery Performance ( http://arxiv.org/abs/2111.02513v1 )

ライセンス: CC BY 4.0
Shovan Chowdhury, Yuxiao Lin, Boryann Liaw, Leslie Kerby(参考訳) バッテリパフォーマンスデータセットは通常、非正規およびマルチコリニアである。 モデル予測のためにこのようなデータセットを推定するには、そのような特性に注意する必要がある。 本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。 本研究では,木に基づく回帰モデルと多重線形回帰モデルについて,マルチコリニア性を持つ高度に歪んだ非正規データセットから構築し,比較する。 このデータセットで良質な多重線形回帰モデルを達成するためには、データ変換のようないくつかの技術が必要である。 これらの手法により、最良の多重回帰モデルは、R^2 = 81.23%に達し、本研究で使用されるデータセットに対して多重線型性効果は示さなかった。 木ベースのモデルは、非パラメトリックであり、変数間の複雑な関係を処理でき、マルチコリニティの影響を受けないため、このデータセット上でより良く機能する。 ランダムな森林の利用において、袋詰めは過剰フィットを減少させる。 R^2 = 97.73%の精度を達成した。 本研究は,木に基づく回帰が非正規分散マルチコリニアデータの機械学習モデルとして有望な理由を説明する。

Battery performance datasets are typically non-normal and multicollinear. Extrapolating such datasets for model predictions needs attention to such characteristics. This study explores the impact of data normality in building machine learning models. In this work, tree-based regression models and multiple linear regressions models are each built from a highly skewed non-normal dataset with multicollinearity and compared. Several techniques are necessary, such as data transformation, to achieve a good multiple linear regression model with this dataset; the most useful techniques are discussed. With these techniques, the best multiple linear regression model achieved an R^2 = 81.23% and exhibited no multicollinearity effect for the dataset used in this study. Tree-based models perform better on this dataset, as they are non-parametric, capable of handling complex relationships among variables and not affected by multicollinearity. We show that bagging, in the use of Random Forests, reduces overfitting. Our best tree-based model achieved accuracy of R^2 = 97.73%. This study explains why tree-based regressions promise as a machine learning model for non-normally distributed, multicollinear data.
翻訳日:2021-11-06 02:51:33 公開日:2021-11-03
# (参考訳) シフト: 分類器の調整

Shift Happens: Adjusting Classifiers ( http://arxiv.org/abs/2111.02529v1 )

ライセンス: CC BY 4.0
Theodore James Thibault Heiser, Mari-Liis Allikivi, Meelis Kull(参考訳) brierスコアやlog-loss(cross-entropy)などの適切なスコアルールによって測定される期待損失の最小化は、確率的分類器のトレーニングにおいて共通の目的である。 データがトレーニング後にクラス分布が変化するデータセットシフトを経験した場合、モデルのパフォーマンスが低下し、一部のクラスの確率を過小評価し、他のクラスを平均的に過小評価することが多い。 我々は,すべての予測を平均予測とクラス分布を(再)等化する非有界および有界一般調整(ugaおよびbga)法を提案する。 これらの手法は、どの適切なスコアリングルールを最小化するかによって異なる振る舞いをしており、正確なクラス分布が分かっていれば、テストデータの損失を減らす理論的保証がある。 また、実際にクラス分布がほぼ知られている場合、シフトの量やクラス分布が知られている精度に応じて、損失が減少することがしばしばあることを実験的に実証した。

Minimizing expected loss measured by a proper scoring rule, such as Brier score or log-loss (cross-entropy), is a common objective while training a probabilistic classifier. If the data have experienced dataset shift where the class distributions change post-training, then often the model's performance will decrease, over-estimating the probabilities of some classes while under-estimating the others on average. We propose unbounded and bounded general adjustment (UGA and BGA) methods that transform all predictions to (re-)equalize the average prediction and the class distribution. These methods act differently depending on which proper scoring rule is to be minimized, and we have a theoretical guarantee of reducing loss on test data, if the exact class distribution is known. We also demonstrate experimentally that, when in practice the class distribution is known only approximately, there is often still a reduction in loss depending on the amount of shift and the precision to which the class distribution is known.
翻訳日:2021-11-06 02:40:52 公開日:2021-11-03
# (参考訳) 可視顔認識のためのクロスドメインプレゼンテーションアタック検出の理解

Understanding Cross Domain Presentation Attack Detection for Visible Face Recognition ( http://arxiv.org/abs/2111.02548v1 )

ライセンス: CC BY-SA 4.0
Jennifer Hamblin, Kshitij Nikhal, Benjamin S. Riggan(参考訳) 顔のシグネチャはサイズ、形状、テクスチャ、肌の色、目色、外観、傷跡/マークなどであり、アクセス制御のための識別的生体情報として広く使われている。 近年の顔認識システムの発展にもかかわらず、顔認識システムに対するプレゼンテーション攻撃はますます高度になっている。 プレゼンテーション攻撃や偽装未遂を検知する能力は、顔認識システムの完全性、セキュリティ、そして信頼を迫られる懸念である。 マルチスペクトルイメージング(multi-spectral imaging)は、電磁スペクトルの異なる領域(可視光、近赤外、遠赤外線など)に敏感なセンサを使用することで、プレゼンテーションアタック検出を改善する手段として以前に導入された。 マルチスペクトル提示攻撃検知システムは識別可能であるが、追加のセンサーと計算資源の必要性は、複雑さとコストを大幅に増大させる。 その代わり、トレーニング中の赤外線画像からの情報を活用して、視覚的提示攻撃検知システムの識別性を高める手法を提案する。 本稿では,(1) 可視光画像のみを用いて,ボナフィドとプレゼンテーションアタックの分離性を高める新しいクロスドメインプレゼンテーションアタック検出フレームワーク,(2) クロスドメインプレゼンテーションアタック検出フレームワークを最適化する際のトレーニング安定性を高める逆ドメイン正規化手法,(3) 可視領域と非可視領域間の表現を変換する高密度ドメイン適応サブネットワークを提案する。

Face signatures, including size, shape, texture, skin tone, eye color, appearance, and scars/marks, are widely used as discriminative, biometric information for access control. Despite recent advancements in facial recognition systems, presentation attacks on facial recognition systems have become increasingly sophisticated. The ability to detect presentation attacks or spoofing attempts is a pressing concern for the integrity, security, and trust of facial recognition systems. Multi-spectral imaging has been previously introduced as a way to improve presentation attack detection by utilizing sensors that are sensitive to different regions of the electromagnetic spectrum (e.g., visible, near infrared, long-wave infrared). Although multi-spectral presentation attack detection systems may be discriminative, the need for additional sensors and computational resources substantially increases complexity and costs. Instead, we propose a method that exploits information from infrared imagery during training to increase the discriminability of visible-based presentation attack detection systems. We introduce (1) a new cross-domain presentation attack detection framework that increases the separability of bonafide and presentation attacks using only visible spectrum imagery, (2) an inverse domain regularization technique for added training stability when optimizing our cross-domain presentation attack detection framework, and (3) a dense domain adaptation subnetwork to transform representations between visible and non-visible domains.
翻訳日:2021-11-06 02:15:13 公開日:2021-11-03
# (参考訳) 連続学習のためのメタラーニングニューロンモデル

A Meta-Learned Neuron model for Continual Learning ( http://arxiv.org/abs/2111.02557v1 )

ライセンス: CC BY 4.0
Rodrigue Siry(参考訳) 継続学習とは、過去のトレーニングデータにアクセスできないと仮定して、学習した知識を忘れずに新しい知識を得る能力である。 勾配降下で訓練されたニューラルネットワーク近似器は、定常分布からサンプリングされたデータポイントのストリームから学習する必要があるため、この設定で失敗することが知られている。 本研究では,破滅的干渉を最小限に抑えるために推論と更新規則を最適化したメタ学習ニューロンモデルにより,標準ニューロンを置き換える。 トレーニングサンプルのデータセット長シーケンスを記憶し,その学習能力を任意のドメインに一般化する。 従来の連続学習法とは異なり,本手法では,タスクの作り方,提供方法,相互関係について,入力データのストリームが時間的関連であるか否かに関わらず,トレーニングサンプルを1つずつ吸収・保持する。

Continual learning is the ability to acquire new knowledge without forgetting the previously learned one, assuming no further access to past training data. Neural network approximators trained with gradient descent are known to fail in this setting as they must learn from a stream of data-points sampled from a stationary distribution to converge. In this work, we replace the standard neuron by a meta-learned neuron model whom inference and update rules are optimized to minimize catastrophic interference. Our approach can memorize dataset-length sequences of training samples, and its learning capabilities generalize to any domain. Unlike previous continual learning methods, our method does not make any assumption about how tasks are constructed, delivered and how they relate to each other: it simply absorbs and retains training samples one by one, whether the stream of input data is time-correlated or not.
翻訳日:2021-11-06 02:02:13 公開日:2021-11-03
# 近似最適化による重み付き量子チャネルコンパイル

Weighted Quantum Channel Compiling through Proximal Policy Optimization ( http://arxiv.org/abs/2111.02426v1 )

ライセンス: Link先を確認
Weiyuan Gong, Si Jiang and Dong-Ling Deng(参考訳) 本稿では, 近似ポリシ最適化に基づく, 任意の量子チャネルを近似量子ビットを使わずにコンパイルする汎用的かつ体系的な手法を提案する。 我々は、ユニタリゲートをコンパイルする場合とは対照的に、任意の有限小チャネル集合で任意の精度で任意のチャネルをコンパイルすることは、分解列の長さに関係なく不可能であることを厳密に証明する。 しかし、固定された精度で$\epsilon$ は、任意の量子チャネルがこれらの初等チャネルの列に分解され、ユニタリゲートが続き、シーケンスの長さは$o(\frac{1}{\epsilon}\log\frac{1}{\epsilon})$となるような、一定数の$\epsilon$依存性の初等チャネルを持つ普遍集合を構成することができる。 マヨラナフェルミオンのトポロジカルコンパイルに関する具体例を通して,提案アルゴリズムは,近似ポリシ最適化の報酬関数に重み付けコストを加えることにより,高価な基本ゲートの使用を便利かつ効果的に削減できることを示す。

We propose a general and systematic strategy to compile arbitrary quantum channels without using ancillary qubits, based on proximal policy optimization -- a powerful deep reinforcement learning algorithm. We rigorously prove that, in sharp contrast to the case of compiling unitary gates, it is impossible to compile an arbitrary channel to arbitrary precision with any given finite elementary channel set, regardless of the length of the decomposition sequence. However, for a fixed accuracy $\epsilon$ one can construct a universal set with constant number of $\epsilon$-dependent elementary channels, such that an arbitrary quantum channel can be decomposed into a sequence of these elementary channels followed by a unitary gate, with the sequence length bounded by $O(\frac{1}{\epsilon}\log\frac{1}{\epsilon})$. Through a concrete example concerning topological compiling of Majorana fermions, we show that our proposed algorithm can conveniently and effectively reduce the use of expensive elementary gates through adding the weighted cost into the reward function of the proximal policy optimization.
翻訳日:2021-11-05 16:15:44 公開日:2021-11-03
# 高速サンプリングのための非ニュートンモーメントを用いたハミルトン動力学

Hamiltonian Dynamics with Non-Newtonian Momentum for Rapid Sampling ( http://arxiv.org/abs/2111.02434v1 )

ライセンス: Link先を確認
Greg Ver Steeg and Aram Galstyan(参考訳) 非正規化確率分布からのサンプリングは、ベイズモデル、潜在因子推論、エネルギーベースモデルトレーニングなどを含む機械学習の基本的な問題である。 数十年にわたる研究の後、MCMCのバリエーションは、収束が遅いにもかかわらずサンプリングのデフォルトのアプローチのままである。 補助的ニューラルモデルはMCMCの高速化を学ぶことができるが、追加モデルのトレーニングのオーバーヘッドは禁じることができる。 非ニュートン運動量を持つ新しいハミルトン力学を用いて、この問題に対する根本的に異なるアプローチを提案する。 ハミルトニアン・モンテカルロのようなMCMCアプローチとは対照的に、確率的なステップは不要である。 代わりに、拡張状態空間における決定論的力学は、エルゴディディティの仮定の下でエネルギー関数によって指定されたターゲット分布を正確にサンプリングする。 あるいは、ダイナミクスはトレーニングなしで特定のエネルギーモデルをサンプリングする正規化フローとして解釈できる。 提案したEnergy Sampling Hamiltonian (ESH) 力学は、既存のODEソルバで解ける単純な形式を持つが、より優れた性能を示す特殊な解法を導出する。 ESHダイナミクスは、より高速で安定したニューラルネットワークエネルギーモデルのトレーニングを可能にするMCMC競合よりも早く収束する。

Sampling from an unnormalized probability distribution is a fundamental problem in machine learning with applications including Bayesian modeling, latent factor inference, and energy-based model training. After decades of research, variations of MCMC remain the default approach to sampling despite slow convergence. Auxiliary neural models can learn to speed up MCMC, but the overhead for training the extra model can be prohibitive. We propose a fundamentally different approach to this problem via a new Hamiltonian dynamics with a non-Newtonian momentum. In contrast to MCMC approaches like Hamiltonian Monte Carlo, no stochastic step is required. Instead, the proposed deterministic dynamics in an extended state space exactly sample the target distribution, specified by an energy function, under an assumption of ergodicity. Alternatively, the dynamics can be interpreted as a normalizing flow that samples a specified energy model without training. The proposed Energy Sampling Hamiltonian (ESH) dynamics have a simple form that can be solved with existing ODE solvers, but we derive a specialized solver that exhibits much better performance. ESH dynamics converge faster than their MCMC competitors enabling faster, more stable training of neural network energy models.
翻訳日:2021-11-05 15:48:37 公開日:2021-11-03
# 画像補間による乳癌の分類

Breast Cancer Classification Using: Pixel Interpolation ( http://arxiv.org/abs/2111.02409v1 )

ライセンス: Link先を確認
Osama Rezq Shahin, Hamdy Mohammed Kelash, Gamal Mahrous Attiya and Osama Slah Farg Allah(参考訳) 画像処理は、工学と計算機科学の専門分野におけるバックボーン研究分野である。 今日では急速に技術が発展し、特に癌疾患におけるバイオメディカル分野の様々な側面においてその応用が確立されている。 世界中の最新の統計によると、乳がんはあらゆる種類のがんの中で致命的なものと考えられている。 女性でもっとも多いがんであり、女性の間でがん死の第二の理由である。 開発途上国と開発途上国のがん患者の約23%を占める。 本研究では、乳がんを良性および悪性の主型に分類するために補間法が用いられた。 このスキームはマンモグラフィーの質量の形態スペクトルに依存する。 悪性腫瘍は良性腫瘍よりも不規則な形状比が高かった。 このようにして、腫瘍の境界を余分なピクセルで補間し、境界をできるだけ滑らかにするため、これらの必要なピクセルは腫瘍の不規則な形状に比例するので、腫瘍が悪性の場合に向かうように補間されたピクセルが増加する。 提案システムはMATLABプログラムを用いて実装され,マンモグラム画像解析協会 (MIAS) の画像データベースから得られた複数の画像に対して検証される。 MIASはマンモグラフィー研究の定期的な分類を提供している。 このシステムはより高速に動作し、あらゆる放射線技師が視覚検査によって石灰化の出現について明確な決定を下すことができる。

Image Processing represents the backbone research area within engineering and computer science specialization. It is promptly growing technologies today, and its applications founded in various aspects of biomedical fields especially in cancer disease. Breast cancer is considered the fatal one of all cancer types according to recent statistics all over the world. It is the most commonly cancer in women and the second reason of cancer death between females. About 23% of the total cancer cases in both developing and developed countries. In this work, an interpolation process was used to classify the breast cancer into main types, benign and malignant. This scheme dependent on the morphologic spectrum of mammographic masses. Malignant tumors had irregular shape percent higher than the benign tumors. By this way the boundary of the tumor will be interpolated by additional pixels to make the boundary smoothen as possible, these needed pixels is proportional with irregularity shape of the tumor, so that the increasing in interpolated pixels meaning the tumor goes toward the malignant case. The proposed system is implemented using MATLAB programming and tested over several images taken from the Mammogram Image Analysis Society (MIAS) image database. The MIAS offers a regular classification for mammographic studies. The system works faster so that any radiologist can take a clear decision about the appearance of calcifications by visual inspection.
翻訳日:2021-11-05 15:22:36 公開日:2021-11-03
# スラップキャット、ボッピングヘッド、オレオシェイク:tiktokショートビデオにおけるバイラル性の指標の理解

Slapping Cats, Bopping Heads, and Oreo Shakes: Understanding Indicators of Virality in TikTok Short Videos ( http://arxiv.org/abs/2111.02452v1 )

ライセンス: Link先を確認
Chen Ling, Jeremy Blackburn, Emiliano De Cristofaro, and Gianluca Stringhini(参考訳) ショートビデオは、若い世代が自らをオンラインに表現するために使っている主要なメディアの1つとなり、オンライン文化を形作る原動力となっている。 この状況下では、TikTokはバイラルビデオが最初に投稿されるプラットフォームとして登場した。 本稿では,TikTokに投稿された短いビデオの要素がバイラル性に与える影響について検討する。 我々は、コードブックを開発し、重要なバイラル性特徴を識別するために混合手法を適用する。 私たちは3つの研究仮説、すなわち、そのようにします。 1)ビデオの内容。 2)TikTokの推奨アルゴリズムと 3)ビデオクリエーターの人気はバイラル性に寄与する。 私たちは400のTikTokビデオとトレーニング分類器のデータセットを収集してラベル付けし、バイラル性に最も影響を及ぼす特徴を特定するのに役立ちます。 フォロワーの数は最も強力な予測者だが、クローズアップと中規模スケールも重要な役割を果たす。 ビデオのライフスパン、テキストの存在、そして視点もそうです。 我々の研究は、ウイルス以外のTikTokビデオとウイルスを区別する特徴を強調し、より魅力的なオンラインコンテンツを作成し、大観衆に届く可能性のある危険のあるコンテンツを積極的に特定するための新たなアプローチの基盤を築き上げている。

Short videos have become one of the leading media used by younger generations to express themselves online and thus a driving force in shaping online culture. In this context, TikTok has emerged as a platform where viral videos are often posted first. In this paper, we study what elements of short videos posted on TikTok contribute to their virality. We apply a mixed-method approach to develop a codebook and identify important virality features. We do so vis-\`a-vis three research hypotheses; namely, that: 1) the video content, 2) TikTok's recommendation algorithm, and 3) the popularity of the video creator contribute to virality. We collect and label a dataset of 400 TikTok videos and train classifiers to help us identify the features that influence virality the most. While the number of followers is the most powerful predictor, close-up and medium-shot scales also play an essential role. So does the lifespan of the video, the presence of text, and the point of view. Our research highlights the characteristics that distinguish viral from non-viral TikTok videos, laying the groundwork for developing additional approaches to create more engaging online content and proactively identify possibly risky content that is likely to reach a large audience.
翻訳日:2021-11-05 15:22:15 公開日:2021-11-03
# 高時間分解能動作同定のためのシーケンス・ツー・シーケンスモデリング

Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution ( http://arxiv.org/abs/2111.02521v1 )

ライセンス: Link先を確認
Aakash Kaku, Kangning Liu, Avinash Parnandi, Haresh Rengaraj Rajamohan, Kannan Venkataramanan, Anita Venkatesan, Audre Wirtanen, Natasha Pandit, Heidi Schambra, Carlos Fernandez-Granda(参考訳) ビデオと運動データからのアクションの自動識別は、ロボット工学からスマートヘルスまで幅広い応用において重要な機械学習問題である。 現存する作品のほとんどは、比較的長い期間の野菜のランニング、クライミング、切断などの粗い行動を識別することに焦点を当てている。 これは高時間分解能での微妙な動きの識別を必要とするアプリケーションにとって重要な制限である。 例えば、脳卒中回復において、リハビリテーションを定量化するには、秒以下の時間で運動を区別する必要がある。 私たちの目標は、このギャップを埋めることです。 そこで本研究では,大規模マルチモーダルデータセットである strokerehab を,時間分解能の高い微妙な短デュレーション動作を含む新しい行動認識ベンチマークとして導入する。 これらの短いデュレーションアクションは関数プリミティブと呼ばれ、リーチ、トランスポート、再配置、安定化、アイドルで構成される。 このデータセットは、高品質な慣性測定ユニットセンサーと41人の脳卒中患者のビデオデータからなり、食事や歯磨きなどの日常生活活動を行う。 セグメンテーションに基づく現在の最先端モデルでは、これらのデータに適用するとノイズの予測が発生し、アクションのオーバーカウントに繋がることが多い。 そこで本研究では,アクションのシーケンスを直接予測するシーケンス・ツー・シーケンス・モデルに基づく音声認識技術にヒントを得た,高精度な行動識別手法を提案する。 このアプローチは、StrokeRehabデータセットの現在の最先端メソッド、および標準ベンチマークデータセットの50Salads、Breakfast、Jigsawよりも優れています。

Automatic action identification from video and kinematic data is an important machine learning problem with applications ranging from robotics to smart health. Most existing works focus on identifying coarse actions such as running, climbing, or cutting a vegetable, which have relatively long durations. This is an important limitation for applications that require the identification of subtle motions at high temporal resolution. For example, in stroke recovery, quantifying rehabilitation dose requires differentiating motions with sub-second durations. Our goal is to bridge this gap. To this end, we introduce a large-scale, multimodal dataset, StrokeRehab, as a new action-recognition benchmark that includes subtle short-duration actions labeled at a high temporal resolution. These short-duration actions are called functional primitives, and consist of reaches, transports, repositions, stabilizations, and idles. The dataset consists of high-quality Inertial Measurement Unit sensors and video data of 41 stroke-impaired patients performing activities of daily living like feeding, brushing teeth, etc. We show that current state-of-the-art models based on segmentation produce noisy predictions when applied to these data, which often leads to overcounting of actions. To address this, we propose a novel approach for high-resolution action identification, inspired by speech-recognition techniques, which is based on a sequence-to-sequence model that directly predicts the sequence of actions. This approach outperforms current state-of-the-art methods on the StrokeRehab dataset, as well as on the standard benchmark datasets 50Salads, Breakfast, and Jigsaws.
翻訳日:2021-11-05 15:21:54 公開日:2021-11-03
# 単一rgb画像からのパンオプティカル3次元シーン再構成

Panoptic 3D Scene Reconstruction From a Single RGB Image ( http://arxiv.org/abs/2111.02444v1 )

ライセンス: Link先を確認
Manuel Dahnert, Ji Hou, Matthias Nie{\ss}ner, Angela Dai(参考訳) 1枚の画像から3dシーンを理解することは、ロボティクス、モーションプランニング、拡張現実など、さまざまなタスクの基本である。 単一のRGB画像からの3次元知覚における既存の研究は、幾何学的再構成のみに焦点を当てる傾向がある。 2dパンオプティカルセグメンテーションに触発されて,3d意味セグメンテーション,および3dインスタンスセグメンテーションのタスクを1つのrgb画像からパンオプティカル3dシーンセグメンテーションのタスクに統合し,画像のカメラフラスタムにおけるシーンの完全な幾何学的再構成を予測し,セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせることを提案する。 そこで本研究では,入力画像から3Dボリュームシーン表現への2D特徴の持ち上げと伝播を学習する,単一のRGB画像からの全体的3Dシーン理解のための新しいアプローチを提案する。 共同シーンの再構築,セマンティック,インスタンスセグメンテーションのこの全体的視点は,タスクを個別に扱うよりも有益であることを示す。

Understanding 3D scenes from a single image is fundamental to a wide variety of tasks, such as for robotics, motion planning, or augmented reality. Existing works in 3D perception from a single RGB image tend to focus on geometric reconstruction only, or geometric reconstruction with semantic segmentation or instance segmentation. Inspired by 2D panoptic segmentation, we propose to unify the tasks of geometric reconstruction, 3D semantic segmentation, and 3D instance segmentation into the task of panoptic 3D scene reconstruction - from a single RGB image, predicting the complete geometric reconstruction of the scene in the camera frustum of the image, along with semantic and instance segmentations. We thus propose a new approach for holistic 3D scene understanding from a single RGB image which learns to lift and propagate 2D features from an input image to a 3D volumetric scene representation. We demonstrate that this holistic view of joint scene reconstruction, semantic, and instance segmentation is beneficial over treating the tasks independently, thus outperforming alternative approaches.
翻訳日:2021-11-05 15:03:18 公開日:2021-11-03
# 生成モデルの周波数バイアスについて

On the Frequency Bias of Generative Models ( http://arxiv.org/abs/2111.02447v1 )

ライセンス: Link先を確認
Katja Schwarz and Yiyi Liao and Andreas Geiger(参考訳) GAN(Generative Adversarial Networks)の主な目的は、提供されるトレーニングデータと同じ統計値で新しいデータを生成することである。 しかし、最近の複数の研究によって、最先端のアーキテクチャがこの目標を達成するのにまだ苦労していることが示されている。 特に、スペクトル統計において高い周波数が報告され、実画像と生成された画像の区別が容易になる。 この現象の説明は物議を醸している: ほとんどの作品が人工物は生成者に帰属するが、他の作品が判別者を指している。 われわれはこれらの説明を精査し、高周波アーティファクトに対する提案された対策について考察する。 これを実現するために,我々はまず,生成器と判別器の両方のアーキテクチャを独立に評価し,高周波コンテンツの分布を特に問題視する周波数バイアスを示すかどうかを検証した。 これらの実験に基づいて、以下の4つの観察を行う。 1) 異なるアップサンプリング操作は、発生器を異なるスペクトル特性に偏らせる。 2)アップサンプリングによって導入されたチェッカーボードのアーティファクトは,ジェネレータがこれらのアーティファクトを補償できるため,スペクトルの相違だけでは説明できない。 3) 判別器は, 高い周波数を検出するのに苦しむのではなく, 低等級の周波数に苦しむ。 4) 判別器におけるダウンサンプリング操作は、提供される訓練信号の品質を損なうことができる。 これらの結果を踏まえて,最先端ganトレーニングにおける高周波アーチファクトに対する提案手法を分析したが,既存の手法ではスペクトルアーチファクトを完全に解決できないことがわかった。 以上の結果から, 判別器の改良には大きな可能性があり, トレーニングデータの分布に適合する鍵となる可能性が示唆された。

The key objective of Generative Adversarial Networks (GANs) is to generate new data with the same statistics as the provided training data. However, multiple recent works show that state-of-the-art architectures yet struggle to achieve this goal. In particular, they report an elevated amount of high frequencies in the spectral statistics which makes it straightforward to distinguish real and generated images. Explanations for this phenomenon are controversial: While most works attribute the artifacts to the generator, other works point to the discriminator. We take a sober look at those explanations and provide insights on what makes proposed measures against high-frequency artifacts effective. To achieve this, we first independently assess the architectures of both the generator and discriminator and investigate if they exhibit a frequency bias that makes learning the distribution of high-frequency content particularly problematic. Based on these experiments, we make the following four observations: 1) Different upsampling operations bias the generator towards different spectral properties. 2) Checkerboard artifacts introduced by upsampling cannot explain the spectral discrepancies alone as the generator is able to compensate for these artifacts. 3) The discriminator does not struggle with detecting high frequencies per se but rather struggles with frequencies of low magnitude. 4) The downsampling operations in the discriminator can impair the quality of the training signal it provides. In light of these findings, we analyze proposed measures against high-frequency artifacts in state-of-the-art GAN training but find that none of the existing approaches can fully resolve spectral artifacts yet. Our results suggest that there is great potential in improving the discriminator and that this could be key to match the distribution of the training data more closely.
翻訳日:2021-11-05 15:02:54 公開日:2021-11-03
# 公共輸送スケジュールを用いた微小領域の教師なし埋め込みと類似性検出

Unsupervised embedding and similarity detection of microregions using public transport schedules ( http://arxiv.org/abs/2111.02405v1 )

ライセンス: Link先を確認
Piotr Gramacki(参考訳) 近年,都市関連課題に取り組むための空間データの役割が増大している。 機械学習モデルでそれを使うには、それらをベクトル表現に変換することがしばしば必要であり、空間データ表現学習の分野の発展に繋がる。 また,表現学習手法を提案する空間データ型も増加している。 公共交通機関の時刻表は、都市内の地域の表現を学ぶタスクにはこれまで使われていなかった。 本研究では,公共交通機関の可用性情報をベクトル空間に埋め込む手法を開発した。 その適用実験を行うため、ヨーロッパの48都市から公共交通機関の時刻表が集められた。 H3空間インデクシング法を用いてマイクロリージョンに分割した。 公共交通機関に類似した特徴を持つ地域を特定する手法も提案した。 その根拠として、地域の公共交通提供の多水準型が定義された。 本論文は,提案手法により,都市間における公共交通特性の類似したマイクロリージョンの識別が可能であり,都市内で利用可能な公共交通の質を評価することができることを示す。

The role of spatial data in tackling city-related tasks has been growing in recent years. To use them in machine learning models, it is often necessary to transform them into a vector representation, which has led to the development in the field of spatial data representation learning. There is also a growing variety of spatial data types for which representation learning methods are proposed. Public transport timetables have so far not been used in the task of learning representations of regions in a city. In this work, a method is developed to embed public transport availability information into vector space. To conduct experiments on its application, public transport timetables were collected from 48 European cities. Using the H3 spatial indexing method, they were divided into micro-regions. A method was also proposed to identify regions with similar characteristics of public transport offers. On its basis, a multi-level typology of public transport offers in the regions was defined. This thesis shows that the proposed representation method makes it possible to identify micro-regions with similar public transport characteristics between the cities, and can be used to evaluate the quality of public transport available in a city.
翻訳日:2021-11-05 14:59:57 公開日:2021-11-03
# AlphaD3M: 機械学習パイプライン合成

AlphaD3M: Machine Learning Pipeline Synthesis ( http://arxiv.org/abs/2111.02508v1 )

ライセンス: Link先を確認
Iddo Drori, Yamuna Krishnamurthy, Remi Rampin, Raoni de Paula Lourenco, Jorge Piazentin Ono, Kyunghyun Cho, Claudio Silva, Juliana Freire(参考訳) 自己再生型シーケンスモデルを用いたメタ強化学習に基づく自動機械学習(automl)システムであるalphad3mを提案する。 AlphaD3Mは、説明可能性を提供する機械学習パイプラインプリミティブ上で実行される編集操作に基づいている。 OpenMLデータセット上で、AlphaD3Mと最先端のAutoMLシステムであるAutosklearn、Autostacker、TPOTを比較した。 alphad3mは桁違いに高速で、計算時間を数時間から数分に短縮し、設計によって説明可能な競合性能を実現している。

We introduce AlphaD3M, an automatic machine learning (AutoML) system based on meta reinforcement learning using sequence models with self play. AlphaD3M is based on edit operations performed over machine learning pipeline primitives providing explainability. We compare AlphaD3M with state-of-the-art AutoML systems: Autosklearn, Autostacker, and TPOT, on OpenML datasets. AlphaD3M achieves competitive performance while being an order of magnitude faster, reducing computation time from hours to minutes, and is explainable by design.
翻訳日:2021-11-05 14:59:41 公開日:2021-11-03
# バンバンバンはコントロールできるのか? Bernoulli Policiesによる継続的制御の解決

Is Bang-Bang Control All You Need? Solving Continuous Control with Bernoulli Policies ( http://arxiv.org/abs/2111.02552v1 )

ライセンス: Link先を確認
Tim Seyde, Igor Gilitschenski, Wilko Schwarting, Bartolomeo Stellato, Martin Riedmiller, Markus Wulfmeier, Daniela Rus(参考訳) 継続的制御のための強化学習(RL)は、通常、アクション空間全体をカバーしている分布を用いる。 本研究では、訓練されたエージェントが、その空間の境界における行動を好むことがよく知られている現象について検討する。 最適制御におけるバンバン動作の出現に関する理論的な関係を描き、近年のRLアルゴリズムにまたがる広範な経験的評価を提供する。 通常のガウス分布をベルヌーイ分布 (bernolli distribution) に置き換え、各作用次元の極値(バンバンバン制御)のみを考える。 ロボットハードウェアとは対照的に、エネルギーとメンテナンスコストがコントローラの選択に影響を与える。 探索,学習,最終解がRLに絡み合っているので,我々の分析に対する探索の影響を低減するために,さらなる模擬学習実験を行う。 最後に,実世界の課題をモデル化し,バンバン・バン・ソリューションの出現を緩和するための要因を評価する環境に,我々の観察が一般化することを示す。 我々の研究は、特に実世界の潜在的な応用の観点から、連続制御アルゴリズムのベンチマークの課題を強調した。

Reinforcement learning (RL) for continuous control typically employs distributions whose support covers the entire action space. In this work, we investigate the colloquially known phenomenon that trained agents often prefer actions at the boundaries of that space. We draw theoretical connections to the emergence of bang-bang behavior in optimal control, and provide extensive empirical evaluation across a variety of recent RL algorithms. We replace the normal Gaussian by a Bernoulli distribution that solely considers the extremes along each action dimension - a bang-bang controller. Surprisingly, this achieves state-of-the-art performance on several continuous control benchmarks - in contrast to robotic hardware, where energy and maintenance cost affect controller choices. Since exploration, learning,and the final solution are entangled in RL, we provide additional imitation learning experiments to reduce the impact of exploration on our analysis. Finally, we show that our observations generalize to environments that aim to model real-world challenges and evaluate factors to mitigate the emergence of bang-bang solutions. Our findings emphasize challenges for benchmarking continuous control algorithms, particularly in light of potential real-world applications.
翻訳日:2021-11-05 14:47:49 公開日:2021-11-03
# Athena 2.0:Alexa Prize SocialBotのためのコンテキスト化された対話管理

Athena 2.0: Contextualized Dialogue Management for an Alexa Prize SocialBot ( http://arxiv.org/abs/2111.02519v1 )

ライセンス: Link先を確認
Juraj Juraska, Kevin K. Bowden, Lena Reed, Vrindavan Harrison, Wen Cui, Omkar Patil, Rishi Rajasekaran, Angela Ramirez, Cecilia Li, Eduardo Zamora, Phillip Lee, Jeshwanth Bheemanpally, Rohan Pandey, Adwait Ratnaparkhi and Marilyn Walker(参考訳) Athena 2.0はAlexa Prize SocialBotで、過去2回のAlexa Prize Grand Challengesでファイナリストを務めた。 アテナの成功の1つの理由は、新しい対話管理戦略であり、コンポーネントモジュールからの対話と応答を動的に構築し、すべての対話と新しい会話をもたらす。 ここでは,athenaのシステム設計と性能を,20/21コンペティションにおけるalexa prizeで紹介する。 Athenaのライブデモとビデオ録画は、会話型AIにおける最先端技術に関する議論を引き起こします。

Athena 2.0 is an Alexa Prize SocialBot that has been a finalist in the last two Alexa Prize Grand Challenges. One reason for Athena's success is its novel dialogue management strategy, which allows it to dynamically construct dialogues and responses from component modules, leading to novel conversations with every interaction. Here we describe Athena's system design and performance in the Alexa Prize during the 20/21 competition. A live demo of Athena as well as video recordings will provoke discussion on the state of the art in conversational AI.
翻訳日:2021-11-05 14:43:47 公開日:2021-11-03
# 教師なし領域適応の確実性予測

Certainty Volume Prediction for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2111.02901v1 )

ライセンス: Link先を確認
Tobias Ringwald, Rainer Stiefelhagen(参考訳) unsupervised domain adaptation (uda) はラベルなしのターゲットドメインデータを分類する問題を扱うが、ラベル付きデータは異なるソースドメインでのみ利用できる。 残念なことに、一般的に使用される分類方法は、ソースとターゲットデータの間のドメインギャップのため、このタスクを適切に満たすことができない。 本稿では,不確かさを特徴空間における多変量ガウス分布としてモデル化する,新しい不確実性認識領域適応設定を提案する。 提案する不確実性尺度は,他の一般的な不確実性定量化と相関し,分類器の判定境界を平滑化させ,一般化能力を向上させる。 我々は、udaデータセットに挑戦するパイプラインを評価し、最先端の結果を得る。 このメソッドのコードはhttps://gitlab.com/tringwald/cvpで利用可能です。

Unsupervised domain adaptation (UDA) deals with the problem of classifying unlabeled target domain data while labeled data is only available for a different source domain. Unfortunately, commonly used classification methods cannot fulfill this task adequately due to the domain gap between the source and target data. In this paper, we propose a novel uncertainty-aware domain adaptation setup that models uncertainty as a multivariate Gaussian distribution in feature space. We show that our proposed uncertainty measure correlates with other common uncertainty quantifications and relates to smoothing the classifier's decision boundary, therefore improving the generalization capabilities. We evaluate our proposed pipeline on challenging UDA datasets and achieve state-of-the-art results. Code for our method is available at https://gitlab.com/tringwald/cvp.
翻訳日:2021-11-05 13:18:52 公開日:2021-11-03
# 動物運動の学習による人間と動物の統一3次元メッシュ回復

Unified 3D Mesh Recovery of Humans and Animals by Learning Animal Exercise ( http://arxiv.org/abs/2111.02450v1 )

ライセンス: Link先を確認
Kim Youwang, Kim Ji-Yeon, Kyungdon Joo, Tae-Hyun Oh(参考訳) 本稿では,人間と四足動物のエンドツーエンド統一型3次元メッシュリカバリを提案する。 単一のターゲットクラスのみに焦点を当てた最近の作業とは異なり、我々は単一のマルチタスクモデルでより広いクラスの3dメッシュを回復することを目指している。 しかし、人間と動物の両方のアノテーションが存在しないために、マルチタスク学習を直接可能にするデータセットは存在しない。例えば、人間の画像には動物のポーズのアノテーションがないので、不均一なデータセットを利用する新しい方法を考えなければならない。 不安定なマルチタスク学習を共同学習可能にするために,人間と動物の形態的類似性を活用し,動物のポーズを模倣する動物運動を動機とする。 人間と動物のメッシュ回帰枝の合同訓練を可能にするサブキーポイントと呼ばれる意味対応によって形態的類似性を実現する。 さらに, 平均形バイアスを回避し, 多クラス間の差分性を改善するために, クラス感性正規化手法を提案する。 提案手法は, 様々なヒトおよび動物のデータセット上の最近のユニモーダルモデルに対して, はるかにコンパクトでありながら好適に機能する。

We propose an end-to-end unified 3D mesh recovery of humans and quadruped animals trained in a weakly-supervised way. Unlike recent work focusing on a single target class only, we aim to recover 3D mesh of broader classes with a single multi-task model. However, there exists no dataset that can directly enable multi-task learning due to the absence of both human and animal annotations for a single object, e.g., a human image does not have animal pose annotations; thus, we have to devise a new way to exploit heterogeneous datasets. To make the unstable disjoint multi-task learning jointly trainable, we propose to exploit the morphological similarity between humans and animals, motivated by animal exercise where humans imitate animal poses. We realize the morphological similarity by semantic correspondences, called sub-keypoint, which enables joint training of human and animal mesh regression branches. Besides, we propose class-sensitive regularization methods to avoid a mean-shape bias and to improve the distinctiveness across multi-classes. Our method performs favorably against recent uni-modal models on various human and animal datasets while being far more compact.
翻訳日:2021-11-05 12:40:02 公開日:2021-11-03
# 摂動と最大積:離散エネルギーモデルにおけるサンプリングと学習

Perturb-and-max-product: Sampling and learning in discrete energy-based models ( http://arxiv.org/abs/2111.02458v1 )

ライセンス: Link先を確認
Miguel Lazaro-Gredilla, Antoine Dedieu, Dileep George(参考訳) Perturb-and-MAPは、摂動バージョンのMAP構成を計算し、エネルギーベースモデル(EBM)からおよそサンプルを抽出するエレガントなアプローチを提供する。 サンプリングは学習を可能にする。 しかし、この研究はMAP計算の一般的な難易度によって妨げられている。 トラクタブルなモデル外で動作する作業はほとんどなく、それらが実行された場合、線形プログラミングアプローチを使用します。 本稿では,個別のebmにおけるサンプリングと学習のための並列かつスケーラブルなメカニズムであるperturb-and-max-product (pmp)を提案する。 モデルは、抽出可能な要素を使って構築される限り任意のものとなる。 私たちはそれを示します (a) iting モデルの場合、pmp は、gibbs や gibbs-with-gradients (gwg) を学習し、類似又は良好な品質のサンプルを生成する場合において、桁違いに速い。 b)PMPは、RBMから学習し、サンプリングすることができる。 (c) GibbsとGWGが混在しない大きな絡み合ったグラフィカルモデルでは、PMPは成功する。

Perturb-and-MAP offers an elegant approach to approximately sample from a energy-based model (EBM) by computing the maximum-a-posteriori (MAP) configuration of a perturbed version of the model. Sampling in turn enables learning. However, this line of research has been hindered by the general intractability of the MAP computation. Very few works venture outside tractable models, and when they do, they use linear programming approaches, which as we will show, have several limitations. In this work we present perturb-and-max-product (PMP), a parallel and scalable mechanism for sampling and learning in discrete EBMs. Models can be arbitrary as long as they are built using tractable factors. We show that (a) for Ising models, PMP is orders of magnitude faster than Gibbs and Gibbs-with-Gradients (GWG) at learning and generating samples of similar or better quality; (b) PMP is able to learn and sample from RBMs; (c) in a large, entangled graphical model in which Gibbs and GWG fail to mix, PMP succeeds.
翻訳日:2021-11-05 12:37:39 公開日:2021-11-03
# 順序整合因数グラフのマルチタスク学習

Multi-task Learning of Order-Consistent Causal Graphs ( http://arxiv.org/abs/2111.02545v1 )

ライセンス: Link先を確認
Xinshi Chen, Haoran Sun, Caleb Ellington, Eric Xing, Le Song(参考訳) 我々は、関連するグラフ構造が一貫した因果順序とスパース結合を共有するような、K$関連のガウス有向非巡回グラフ(DAG)を発見する問題を考察する。 マルチタスク学習環境下では, 線形構造方程式モデルを学習するためのMLE ($l_1/l_2$-regularized maximum max estimator) を提案する。 理論的には,結合推定器は関連するタスク間のデータを活用することで,個別の推定よりも因果順序(あるいは位相次数)を回復するためのより良いサンプル複雑性を実現できることを示す。 さらに、関節推定器は、いくつかの同定可能なDAGと一緒に推定することにより、同定不可能なDAGを復元することができる。 最後に,本解析の結果から,構造物の連合支持回復の一貫性が示された。 実用的な実装を実現するために,最適化器はジョイント推定器と同じであり,反復アルゴリズムにより効率的に近似できる連続最適化問題を設計する。 実験における共同推定器の理論的解析と有効性を検証する。

We consider the problem of discovering $K$ related Gaussian directed acyclic graphs (DAGs), where the involved graph structures share a consistent causal order and sparse unions of supports. Under the multi-task learning setting, we propose a $l_1/l_2$-regularized maximum likelihood estimator (MLE) for learning $K$ linear structural equation models. We theoretically show that the joint estimator, by leveraging data across related tasks, can achieve a better sample complexity for recovering the causal order (or topological order) than separate estimations. Moreover, the joint estimator is able to recover non-identifiable DAGs, by estimating them together with some identifiable DAGs. Lastly, our analysis also shows the consistency of union support recovery of the structures. To allow practical implementation, we design a continuous optimization problem whose optimizer is the same as the joint estimator and can be approximated efficiently by an iterative algorithm. We validate the theoretical analysis and the effectiveness of the joint estimator in experiments.
翻訳日:2021-11-05 12:37:16 公開日:2021-11-03
# FeTAチャレンジ2021における部分的監督

Partial supervision for the FeTA challenge 2021 ( http://arxiv.org/abs/2111.02408v1 )

ライセンス: Link先を確認
Lucas Fidon, Michael Aertsen, Suprosanna Shit, Philippe Demaerel, S\'ebastien Ourselin, Jan Deprest and Tom Vercauteren(参考訳) 本稿では, FeTA Challenge2021(チーム名TRABIT)への参加について述べる。 医用画像分割のための畳み込みニューラルネットワークの性能は,トレーニングデータ数と正の相関があると考えられる。 FeTAチャレンジは、提供されたトレーニングデータのみの使用を制限するだけでなく、他の公開ソースの使用も許可している。 しかし、オープンアクセス胎児の脳データはまだ限られている。 したがって、より広い周産期脳画像源をカバーするためにトレーニングデータを拡張するという利点がある。 FeTAチャレンジデータ以外の周産期脳MRIは、現在公開されており、正常および病理学的胎児のアトラスと新生児スキャンにまたがっている。 しかし、異なるデータセットに区切られた周産期脳MRIは通常、異なるアノテーションプロトコルを持つ。 これにより、これらのデータセットを組み合わせることで、ディープニューラルネットワークのトレーニングが困難になる。 我々は最近,部分教師付き学習のためのラベルセット損失関数という損失関数の族を提案した。 ラベルセット損失関数は、部分分割された画像、すなわちいくつかのクラスをスーパークラスに分類できるセグメンテーションでディープニューラルネットワークを訓練することができる。 本稿では,複数の公開データセットをマージすることで,マルチクラスの胎児脳セグメンテーションのための最先端ディープラーニングパイプラインのセグメンテーション性能を向上させるためにラベルセット損失関数を提案する。 一般化性を促進するため,提案手法は追加のハイパーパラメータチューニングを導入しない。

This paper describes our method for our participation in the FeTA challenge2021 (team name: TRABIT). The performance of convolutional neural networks for medical image segmentation is thought to correlate positively with the number of training data. The FeTA challenge does not restrict participants to using only the provided training data but also allows for using other publicly available sources. Yet, open access fetal brain data remains limited. An advantageous strategy could thus be to expand the training data to cover broader perinatal brain imaging sources. Perinatal brain MRIs, other than the FeTA challenge data, that are currently publicly available, span normal and pathological fetal atlases as well as neonatal scans. However, perinatal brain MRIs segmented in different datasets typically come with different annotation protocols. This makes it challenging to combine those datasets to train a deep neural network. We recently proposed a family of loss functions, the label-set loss functions, for partially supervised learning. Label-set loss functions allow to train deep neural networks with partially segmented images, i.e. segmentations in which some classes may be grouped into super-classes. We propose to use label-set loss functions to improve the segmentation performance of a state-of-the-art deep learning pipeline for multi-class fetal brain segmentation by merging several publicly available datasets. To promote generalisability, our approach does not introduce any additional hyper-parameters tuning.
翻訳日:2021-11-05 12:13:25 公開日:2021-11-03
# 深部時空間学習による超音波血管の自動分割

Automatic ultrasound vessel segmentation with deep spatiotemporal context learning ( http://arxiv.org/abs/2111.02461v1 )

ライセンス: Link先を確認
Baichuan Jiang, Alvin Chen, Shyam Bharat, and Mingxin Zheng(参考訳) 超音波画像シーケンスにおける血管構造の正確なリアルタイムセグメンテーションは、腔径の測定と血管疾患の評価に役立つ。 しかし、特に可視化が難しい非常に小さな船では、この作業は依然として難しい課題である。 超音波で得られるリッチな時空間的文脈を活用し,小型下肢動脈血管の分節化を改善することを提案する。 我々は,Bモードとカラードップラー信号の情報を協調的に活用しながら,時間的,空間的,特徴を考慮したコンテキスト埋め込みを複数の解像度スケールで組み込んだ効率的なディープラーニング手法について述べる。 超音波検査の専門家による健常者に対する大腿骨頭動脈スキャンおよび大腿骨頭動脈動脈スキャンの評価,および内腔境界の根治的アノテーションとの比較を行い,文脈認識モデルを用いてリアルタイムセグメンテーションを実演し,比較ベースラインアプローチを著しく上回ったことを示す。

Accurate, real-time segmentation of vessel structures in ultrasound image sequences can aid in the measurement of lumen diameters and assessment of vascular diseases. This, however, remains a challenging task, particularly for extremely small vessels that are difficult to visualize. We propose to leverage the rich spatiotemporal context available in ultrasound to improve segmentation of small-scale lower-extremity arterial vasculature. We describe efficient deep learning methods that incorporate temporal, spatial, and feature-aware contextual embeddings at multiple resolution scales while jointly utilizing information from B-mode and Color Doppler signals. Evaluating on femoral and tibial artery scans performed on healthy subjects by an expert ultrasonographer, and comparing to consensus expert ground-truth annotations of inner lumen boundaries, we demonstrate real-time segmentation using the context-aware models and show that they significantly outperform comparable baseline approaches.
翻訳日:2021-11-05 12:13:07 公開日:2021-11-03
# 深層学習によるヘキサゴナルサンプリング画像の再サンプリングと超解像

Resampling and super-resolution of hexagonally sampled images using deep learning ( http://arxiv.org/abs/2111.02520v1 )

ライセンス: Link先を確認
Dylan Flaute, Russell C. Hardie, Hamed Elwarfalli(参考訳) 超解像度(SR)は画像の解像度を高めることを目的としている。 アプリケーションには、セキュリティ、医療イメージング、オブジェクト認識が含まれる。 ヘキサゴナルにサンプリングした低解像度画像を入力とし、矩形にサンプリングしたSR画像を出力として生成する深層学習型SRシステムを提案する。 トレーニングやテストには、回折による光学劣化と検出器統合によるセンサ劣化を含む現実的な観察モデルを用いる。 我々のSRアプローチは、まず非一様補間を用いて、観測された六角形画像を部分的にアップサンプリングし、矩形格子に変換する。 次に,sr用に設計されたconvolutional neural network(cnn)アーキテクチャを,残留チャネルアテンションネットワーク(rcan)として活用する。 特に, RCAN を用いて画像のアップサンプリングと復元を行い, 最終的な SR 画像推定値を生成する。 本システムは, 正方形サンプルLR画像に対して, RCANを直接適用するよりも優れていることを示す。 ヘキサゴナルサンプリングの理論的利点はよく知られている。 しかし、我々の知る限りでは、RCAN SRのような現代的な処理技術に照らして六角形サンプリングの実用的メリットは、これまで実証されていない。 ヘキサゴナルSRに改良RCANを用いた場合,本システムでは六角形サンプル画像の顕著な利点が示される。

Super-resolution (SR) aims to increase the resolution of imagery. Applications include security, medical imaging, and object recognition. We propose a deep learning-based SR system that takes a hexagonally sampled low-resolution image as an input and generates a rectangularly sampled SR image as an output. For training and testing, we use a realistic observation model that includes optical degradation from diffraction and sensor degradation from detector integration. Our SR approach first uses non-uniform interpolation to partially upsample the observed hexagonal imagery and convert it to a rectangular grid. We then leverage a state-of-the-art convolutional neural network (CNN) architecture designed for SR known as Residual Channel Attention Network (RCAN). In particular, we use RCAN to further upsample and restore the imagery to produce the final SR image estimate. We demonstrate that this system is superior to applying RCAN directly to rectangularly sampled LR imagery with equivalent sample density. The theoretical advantages of hexagonal sampling are well known. However, to the best of our knowledge, the practical benefit of hexagonal sampling in light of modern processing techniques such as RCAN SR is heretofore untested. Our SR system demonstrates a notable advantage of hexagonally sampled imagery when employing a modified RCAN for hexagonal SR.
翻訳日:2021-11-05 12:12:51 公開日:2021-11-03
# (参考訳) 単一画像からのアイ・イン・ハンドカメラキャリブレーションの学習

Learning Eye-in-Hand Camera Calibration from a Single Image ( http://arxiv.org/abs/2111.01245v2 )

ライセンス: CC BY 4.0
Eugene Valassakis, Kamil Dreczkowski, Edward Johns(参考訳) アイ・イン・ハンドカメラのキャリブレーションはロボット工学の基本的かつ長期にわたる問題である。 本稿では,この問題を解決するための学習的手法を1つのRGB画像からオンライン化し,モデルを完全に合成データでトレーニングする。 画像から外部行列を直接予測する1つの直接回帰モデルと、2次元キーポイントを回帰してPnPを使用する1つの疎対応モデルと、回帰深度とセグメンテーションマップを用いてICPのポーズ推定を可能にする1つの密対応モデルである。 実験では,これらの手法を相互に評価し,確立された古典的手法に対して評価し,直接回帰が他の手法に勝る驚くべき結果を見出した。

Eye-in-hand camera calibration is a fundamental and long-studied problem in robotics. We present a study on using learning-based methods for solving this problem online from a single RGB image, whilst training our models with entirely synthetic data. We study three main approaches: one direct regression model that directly predicts the extrinsic matrix from an image, one sparse correspondence model that regresses 2D keypoints and then uses PnP, and one dense correspondence model that uses regressed depth and segmentation maps to enable ICP pose estimation. In our experiments, we benchmark these methods against each other and against well-established classical methods, to find the surprising result that direct regression outperforms other approaches, and we perform noise-sensitivity analysis to gain further insights into these results.
翻訳日:2021-11-05 11:22:46 公開日:2021-11-03
# OPF-Learn:AC Optimal Power Flowデータセット作成のためのオープンソースフレームワーク

OPF-Learn: An Open-Source Framework for Creating Representative AC Optimal Power Flow Datasets ( http://arxiv.org/abs/2111.01228v2 )

ライセンス: Link先を確認
Trager Joswig-Jones, Kyri Baker, Ahmed S. Zamzam(参考訳) 再生可能発電のレベルの増加は、不確実性を管理するためにac最適電力フロー(ac opf)のためのデータ駆動アプローチへの関心が高まっているが、規律化されたデータセットの作成とベンチマークの欠如は、文献におけるアプローチ間の有用な比較を禁止している。 信頼性を高めるために、モデルは幅広い操作条件で確実に解を予測できなければならない。 本稿では、juliaとpython用のopf-learnパッケージを開発し、ac opf実現可能領域の幅広いスペクトルにまたがる代表データセットを作成するために計算効率の良い手法を用いている。 負荷プロファイルは、AC OPF可能なセットを含む凸集合から一様にサンプリングされる。 検出された各不実現点について、凸集合は緩和された定式化の特性を用いて、不実現性証明を用いて縮小される。 このフレームワークは、文献に見られる従来のテクニックよりも、実現可能なスペース全体を代表するデータセットを生成し、機械学習モデルのパフォーマンスを向上させる。

Increasing levels of renewable generation motivate a growing interest in data-driven approaches for AC optimal power flow (AC OPF) to manage uncertainty; however, a lack of disciplined dataset creation and benchmarking prohibits useful comparison among approaches in the literature. To instill confidence, models must be able to reliably predict solutions across a wide range of operating conditions. This paper develops the OPF-Learn package for Julia and Python, which uses a computationally efficient approach to create representative datasets that span a wide spectrum of the AC OPF feasible region. Load profiles are uniformly sampled from a convex set that contains the AC OPF feasible set. For each infeasible point found, the convex set is reduced using infeasibility certificates, found by using properties of a relaxed formulation. The framework is shown to generate datasets that are more representative of the entire feasible space versus traditional techniques seen in the literature, improving machine learning model performance.
翻訳日:2021-11-05 10:48:54 公開日:2021-11-03
# (参考訳) 機械学習によるタンパク質の2成分分類

Binary classification of proteins by a Machine Learning approach ( http://arxiv.org/abs/2111.01975v1 )

ライセンス: CC BY 4.0
Damiano Perri, Marco Simonetti, Andrea Lombardi, Noelia Faginas-Lago, Osvaldo Gervasi(参考訳) 本研究では、タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類できる畳み込みニューラルネットワークを用いて、ディープラーニングアプローチに基づくシステムを提案する。 それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。 この研究の目的は、大量のデータの収集と管理のための原型的なディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。 本稿では, 生体分子のより一般的な分類問題に対して, 構造的特性と類似性に関連するアプローチを適用することを検討する。

In this work we present a system based on a Deep Learning approach, by using a Convolutional Neural Network, capable of classifying protein chains of amino acids based on the protein description contained in the Protein Data Bank. Each protein is fully described in its chemical-physical-geometric properties in a file in XML format. The aim of the work is to design a prototypical Deep Learning machinery for the collection and management of a huge amount of data and to validate it through its application to the classification of a sequences of amino acids. We envisage applying the described approach to more general classification problems in biomolecules, related to structural properties and similarities.
翻訳日:2021-11-04 23:18:24 公開日:2021-11-03
# (参考訳) 機械学習によるタンパク質の2値分類法

A new method for binary classification of proteins with Machine Learning ( http://arxiv.org/abs/2111.01976v1 )

ライセンス: CC BY 4.0
Damiano Perri, Marco Simonetti, Andrea Lombardi, Noelia Faginas-Lago, Osvaldo Gervasi(参考訳) 本研究では,深層学習法を用いてタンパク質構造を分類する方法を見出した。 我々の人工知能は、タンパク質データバンク(PDB)データベースから外挿された複雑な生体分子構造を画像として認識するよう訓練されており、この目的のために、インセプションResNetV2やインセプションV3といった事前訓練された畳み込みニューラルネットワークを用いて、これらの画像から重要な特徴を抽出し、分子を正しく分類するために、様々な試験が行われた。 従って、様々なネットワークのパフォーマンスの比較分析が作成される。

In this work we set out to find a method to classify protein structures using a Deep Learning methodology. Our Artificial Intelligence has been trained to recognize complex biomolecule structures extrapolated from the Protein Data Bank (PDB) database and reprocessed as images; for this purpose various tests have been conducted with pre-trained Convolutional Neural Networks, such as InceptionResNetV2 or InceptionV3, in order to extract significant features from these images and correctly classify the molecule. A comparative analysis of the performances of the various networks will therefore be produced.
翻訳日:2021-11-04 23:13:36 公開日:2021-11-03
# (参考訳) 投票規則の明白な操作性

Obvious Manipulability of Voting Rules ( http://arxiv.org/abs/2111.01983v1 )

ライセンス: CC BY 4.0
Haris Aziz and Alexander Lam(参考訳) gibbard-satterthwaite の定理は、全会一致かつ非決定的投票ルールは戦略的許容性がないと述べている。 我々は投票規則を再検討し、トロイアンとモリル (2020) が提唱した明確なマニピュラビリティ(英語版)ではないというより弱い戦略的安全性の概念を考察する。 我々はこの概念を満たす投票規則のいくつかのクラスを特定する。 また、k-approvalを含むいくつかの投票規則がこの性質を満たすことができないことを示す。 投票ルールが明らかに操作可能な条件を特徴付ける。 私たちの洞察の1つは、投票者数に比べて選択肢が比較的多い場合、特定のルールは明らかに操作可能であるということです。 Gibbard-Satterthwaiteの定理とは対照的に、我々が検討したルールの多くは明らかに操作可能であるわけではない。 これは、戦略の完全情報仮定とは対照的に、概念の比較的容易な満足と明らかでない操作性のゼロ情報仮定を反映している。 また,明らかな操作を計算し,実験報告を行うためのアルゴリズム的結果も提示する。

The Gibbard-Satterthwaite theorem states that no unanimous and non-dictatorial voting rule is strategyproof. We revisit voting rules and consider a weaker notion of strategyproofness called not obvious manipulability that was proposed by Troyan and Morrill (2020). We identify several classes of voting rules that satisfy this notion. We also show that several voting rules including k-approval fail to satisfy this property. We characterize conditions under which voting rules are obviously manipulable. One of our insights is that certain rules are obviously manipulable when the number of alternatives is relatively large compared to the number of voters. In contrast to the Gibbard-Satterthwaite theorem, many of the rules we examined are not obviously manipulable. This reflects the relatively easier satisfiability of the notion and the zero information assumption of not obvious manipulability, as opposed to the perfect information assumption of strategyproofness. We also present algorithmic results for computing obvious manipulations and report on experiments.
翻訳日:2021-11-04 23:05:43 公開日:2021-11-03
# (参考訳) ベクトル型言語間情報検索における対話型および非対話型モデルの活用

Leveraging Advantages of Interactive and Non-Interactive Models for Vector-Based Cross-Lingual Information Retrieval ( http://arxiv.org/abs/2111.01992v1 )

ライセンス: CC BY 4.0
Linlong Xu, Baosong Yang, Xiaoyu Lv, Tianchi Bi, Dayiheng Liu, Haibo Zhang(参考訳) 対話型および非対話型モデル(interactive and non-interactive model)は,ベクトル型言語間情報検索(v-clir)における2つのデファクト標準フレームワークである。 検索精度と計算効率の観点から、各モデルには独自の優位性と欠点がある。 本稿では,これら2つのパラダイムの利点を活用するための新しい枠組みを提案する。 具体的には,非対話型アーキテクチャに基づくモデルを構築しながら,関連する多言語クエリとともに各文書をエンコードする半対話型機構を導入する。 したがって、言語横断的特徴は対話型モデルとしてより良く学習することができる。 さらに, 単語の埋め込みを再利用し, 知識蒸留を取り入れることで, 十分に訓練された対話モデルから知識を我々のものに伝達する。 本モデルは,多言語事前学習言語モデルM-BERTから初期化され,ウィキペディアから派生したオープンソースCLIRデータセットと実世界の検索エンジンから収集した社内データセットを用いて評価される。 その結果,計算効率を保ちながら検索精度を大幅に向上させることが判明した。

Interactive and non-interactive model are the two de-facto standard frameworks in vector-based cross-lingual information retrieval (V-CLIR), which embed queries and documents in synchronous and asynchronous fashions, respectively. From the retrieval accuracy and computational efficiency perspectives, each model has its own superiority and shortcoming. In this paper, we propose a novel framework to leverage the advantages of these two paradigms. Concretely, we introduce semi-interactive mechanism, which builds our model upon non-interactive architecture but encodes each document together with its associated multilingual queries. Accordingly, cross-lingual features can be better learned like an interactive model. Besides, we further transfer knowledge from a well-trained interactive model to ours by reusing its word embeddings and adopting knowledge distillation. Our model is initialized from a multilingual pre-trained language model M-BERT, and evaluated on two open-resource CLIR datasets derived from Wikipedia and an in-house dataset collected from a real-world search engine. Extensive analyses reveal that our methods significantly boost the retrieval accuracy while maintaining the computational efficiency.
翻訳日:2021-11-04 22:42:22 公開日:2021-11-03
# (参考訳) 自動リアルタイムICU緊急信号処理:フィールドレベルの実装

Automated, real-time hospital ICU emergency signaling: A field-level implementation ( http://arxiv.org/abs/2111.01999v1 )

ライセンス: CC BY 4.0
Nazifa M Shemonti, Shifat Uddin, Saifur Rahman, Tarem Ahmed and Mohammad Faisal Uddin(参考訳) 現代の患者監視システムは、電子健康記録インタフェースに中央監視を合理化した。 機械学習アプローチを採用することで、患者データの膨大な量を処理できる。 しかし、これらのシステムは、多くの病院、主に発展途上国において、人的、経済的、技術的資源に制限のある実施には適していない。 本稿では,集中治療施設の徹底的な研究を通じて,新しい中央患者監視システムを設計し,本システムにおける作業プロトタイプについて述べる。 提案するプロトタイプは,安価な周辺機器と簡易ユーザインタフェースを備える。 当院の患者監視システムは,緊急イベントシグナリングのためのKernel-based On-line Anomaly Detection (KOAD)アルゴリズムを実装している。 連続的な患者データを評価することにより,システムはリアルタイムに重要な事象を確実に検出でき,誤報率が低いことを示す。

Contemporary patient surveillance systems have streamlined central surveillance into the electronic health record interface. They are able to process the sheer volume of patient data by adopting machine learning approaches. However, these systems are not suitable for implementation in many hospitals, mostly in developing countries, with limited human, financial, and technological resources. Through conducting thorough research on intensive care facilities, we designed a novel central patient monitoring system and in this paper, we describe the working prototype of our system. The proposed prototype comprises of inexpensive peripherals and simplistic user interface. Our central patient monitoring system implements Kernel-based On-line Anomaly Detection (KOAD) algorithm for emergency event signaling. By evaluating continuous patient data, we show that the system is able to detect critical events in real-time reliably and has low false alarm rate.
翻訳日:2021-11-04 22:30:09 公開日:2021-11-03
# (参考訳) データ融合による認証人工知能

Certifiable Artificial Intelligence Through Data Fusion ( http://arxiv.org/abs/2111.02001v1 )

ライセンス: CC BY 4.0
Erik Blasch, Junchi Bin, Zheng Liu(参考訳) 本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。 AIコミュニティは急速に進歩しているが、AIシステムの認証には課題がある。 設計および運用テストおよび評価からの手順を用いることで、意図された使用の期待を管理するためのパフォーマンス境界を決定する機会がある。 画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。

This paper reviews and proposes concerns in adopting, fielding, and maintaining artificial intelligence (AI) systems. While the AI community has made rapid progress, there are challenges in certifying AI systems. Using procedures from design and operational test and evaluation, there are opportunities towards determining performance bounds to manage expectations of intended use. A notional use case is presented with image data fusion to support AI object recognition certifiability considering precision versus distance.
翻訳日:2021-11-04 22:23:01 公開日:2021-11-03
# (参考訳) Multi-Glimpse Network: 繰り返しダウンサンプル注意に基づくロバストかつ効率的な分類アーキテクチャ

Multi-Glimpse Network: A Robust and Efficient Classification Architecture based on Recurrent Downsampled Attention ( http://arxiv.org/abs/2111.02018v1 )

ライセンス: CC BY 4.0
Sia Huat Tan, Runpei Dong, Kaisheng Ma(参考訳) ほとんどのフィードフォワード畳み込みニューラルネットワークは、各ピクセルに対してほぼ同じ労力を費やす。 しかし、人間の視覚認識は、眼球運動と空間的注意の間の相互作用であり、異なる領域の物体を垣間見ることができる。 そこで本研究では,この観測結果に触発されて,高計算の課題と繰り返しダウンサンプリングされた注意機構に基づくロバスト性の欠如に対処することを目的とした,エンドツーエンドのトレーニング可能なマルチグリンプネットワーク(mgnet)を提案する。 特にmgnetは、画像のタスク関連領域を順次選択し、最終予測のために収集された全ての情報を適応的に結合する。 MGNetは、より少ない計算で敵攻撃や一般的な汚職に対して強い抵抗を示す。 また、mgnetは本質的に解釈しやすいので、各イテレーションで焦点を合わせる場所を明示的に知らせてくれます。 imagenet100における実験は, フィードフォワード方式を改善するために, 繰り返しダウンサンプリングされた注意機構の可能性を実証するものである。 例えば、mgnetは平均で4.76%の精度を向上し、計算コストは36.9%である。 さらに、ベースラインの精度は7.6%に低下するが、MGNetはResNet-50バックボーンと同じPGD攻撃強度で44.2%の精度を維持している。 私たちのコードはhttps://github.com/siahuat0727/mgnetで利用可能です。

Most feedforward convolutional neural networks spend roughly the same efforts for each pixel. Yet human visual recognition is an interaction between eye movements and spatial attention, which we will have several glimpses of an object in different regions. Inspired by this observation, we propose an end-to-end trainable Multi-Glimpse Network (MGNet) which aims to tackle the challenges of high computation and the lack of robustness based on recurrent downsampled attention mechanism. Specifically, MGNet sequentially selects task-relevant regions of an image to focus on and then adaptively combines all collected information for the final prediction. MGNet expresses strong resistance against adversarial attacks and common corruptions with less computation. Also, MGNet is inherently more interpretable as it explicitly informs us where it focuses during each iteration. Our experiments on ImageNet100 demonstrate the potential of recurrent downsampled attention mechanisms to improve a single feedforward manner. For example, MGNet improves 4.76% accuracy on average in common corruptions with only 36.9% computational cost. Moreover, while the baseline incurs an accuracy drop to 7.6%, MGNet manages to maintain 44.2% accuracy in the same PGD attack strength with ResNet-50 backbone. Our code is available at https://github.com/siahuat0727/MGNet.
翻訳日:2021-11-04 22:08:44 公開日:2021-11-03
# (参考訳) スケーラブル混合領域ガウス過程

Scalable mixed-domain Gaussian processes ( http://arxiv.org/abs/2111.02019v1 )

ライセンス: CC BY 4.0
Juho Timonen and Harri L\"ahdesm\"aki(参考訳) カテゴリー的および連続的な入力変数を組み合わせたガウス過程(GP)モデルは、例えば縦方向のデータ解析やコンピュータ実験で用いられる。 しかし、これらのモデルに対する標準的な推論は典型的な3次スケーリングを持ち、共分散関数が非連続であるため、GPに対する一般的なスケーラブルな近似スキームは適用できない。 本研究では,混合領域共分散関数の基底関数近似法を導出し,観測数や基底関数の総数に対して線形にスケールする。 提案手法は任意の観測モデルを用いたベイズGP回帰に適用可能である。 我々は,このアプローチを縦方向データモデリングの文脈で実証し,正確なgpモデルに近似することを示し,それに対応する正確なモデルに適合するよりもランタイムのほんの一部しか必要としないことを示した。

Gaussian process (GP) models that combine both categorical and continuous input variables have found use e.g. in longitudinal data analysis and computer experiments. However, standard inference for these models has the typical cubic scaling, and common scalable approximation schemes for GPs cannot be applied since the covariance function is non-continuous. In this work, we derive a basis function approximation scheme for mixed-domain covariance functions, which scales linearly with respect to the number of observations and total number of basis functions. The proposed approach is naturally applicable to Bayesian GP regression with arbitrary observation models. We demonstrate the approach in a longitudinal data modelling context and show that it approximates the exact GP model accurately, requiring only a fraction of the runtime compared to fitting the corresponding exact model.
翻訳日:2021-11-04 21:53:39 公開日:2021-11-03
# (参考訳) エネルギー部門におけるAIの強力な活用:インテリジェントな予測

The Powerful Use of AI in the Energy Sector: Intelligent Forecasting ( http://arxiv.org/abs/2111.02026v1 )

ライセンス: CC BY 4.0
Erik Blasch, Haoran Li, Zhihao Ma, Yang Weng(参考訳) 人工知能(AI)技術は、ほとんどの社会活動において重要なインフラとなる電力やエネルギーなど、政府や公共セクターに広まり続けている。 しかし、信頼性、説明責任、説明可能性の要求により、社会がカスケード障害や大規模な停電を許さないため、AIベースの手法を直接電力システムに適用することは危険である。 本稿では,(1)物理による電力システム計測の理解,(2)需要予測のためのAIアルゴリズムの設計,(3)堅牢で説明可能なAI手法の開発,(4)AIモデルの性能評価のための信頼性の高い尺度を作成することにより,エネルギーセクターにおけるAIシステムの開発と展開,評価を行う手法を提案する。 目標は、エネルギーユーティリティのユーザに高いレベルの信頼性を提供することだ。 本稿では,PMU(Phasor Measurement Units)によって測定された同期位相パターンを慎重に解析する,電力系統イベント予測(PEF)を例として用いた。 このような物理的理解は、物理の次元性を減らし、その事象を高い信頼性で予測するデータ駆動フレームワークにつながる。 具体的には、次元削減のために、機械学習は異なる次元から物理情報を配置し、非効率な情報抽出を行う。 イベント予測では、教師付き学習モデルは異なるモデルの結果を融合させ、信頼性を高める。 最後に、包括的な実験は、他の最先端の機械学習手法と比較して高い精度、効率、信頼性を示す。

Artificial Intelligence (AI) techniques continue to broaden across governmental and public sectors, such as power and energy - which serve as critical infrastructures for most societal operations. However, due to the requirements of reliability, accountability, and explainability, it is risky to directly apply AI-based methods to power systems because society cannot afford cascading failures and large-scale blackouts, which easily cost billions of dollars. To meet society requirements, this paper proposes a methodology to develop, deploy, and evaluate AI systems in the energy sector by: (1) understanding the power system measurements with physics, (2) designing AI algorithms to forecast the need, (3) developing robust and accountable AI methods, and (4) creating reliable measures to evaluate the performance of the AI model. The goal is to provide a high level of confidence to energy utility users. For illustration purposes, the paper uses power system event forecasting (PEF) as an example, which carefully analyzes synchrophasor patterns measured by the Phasor Measurement Units (PMUs). Such a physical understanding leads to a data-driven framework that reduces the dimensionality with physics and forecasts the event with high credibility. Specifically, for dimensionality reduction, machine learning arranges physical information from different dimensions, resulting inefficient information extraction. For event forecasting, the supervised learning model fuses the results of different models to increase the confidence. Finally, comprehensive experiments demonstrate the high accuracy, efficiency, and reliability as compared to other state-of-the-art machine learning methods.
翻訳日:2021-11-04 21:26:53 公開日:2021-11-03
# (参考訳) 法的データセットの構築

Building Legal Datasets ( http://arxiv.org/abs/2111.02034v1 )

ライセンス: CC BY-SA 4.0
Jerrold Soh(参考訳) データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。 地球外到達可能なデータ保護法が世界中で拡大するにつれ、データセットが合法であることは、‘better’の重要かつ見過ごされているコンポーネントとしてますます重要になっている。 この論文では、データセット構築者がこの複雑な法的空間をナビゲートしやすくするために、MLデータセットを取り巻く重要な法的義務をレビューし、MLパイプラインにおけるデータ法律の実践的影響を調べ、法的データセットを構築するためのフレームワークを提供する。

Data-centric AI calls for better, not just bigger, datasets. As data protection laws with extra-territorial reach proliferate worldwide, ensuring datasets are legal is an increasingly crucial yet overlooked component of ``better''. To help dataset builders become more willing and able to navigate this complex legal space, this paper reviews key legal obligations surrounding ML datasets, examines the practical impact of data laws on ML pipelines, and offers a framework for building legal datasets.
翻訳日:2021-11-04 21:13:13 公開日:2021-11-03
# (参考訳) 半監督学習によるフェアネス達成は可能か?

Can We Achieve Fairness Using Semi-Supervised Learning? ( http://arxiv.org/abs/2111.02038v1 )

ライセンス: CC BY-SA 4.0
Joymallya Chakraborty, Huy Tu, Suvodeep Majumder, Tim Menzies(参考訳) 機械学習モデルにおける倫理的バイアスは、ソフトウェアエンジニアリングコミュニティにおいて問題となっている。 以前のソフトウェアエンジニアリングのほとんどは、モデルに修正するよりも、モデルの倫理バイアスを見つけることに集中していた。 バイアスを見つけた後、次のステップは緩和です。 以前の研究者は、主に公正性を達成するために教師付きアプローチを使おうとした。 しかし、現実の世界では、信頼できる基礎的真理を持つデータを得ることは困難であり、基盤的真理は人間のバイアスを含む可能性がある。 半教師あり学習(semi-supervised learning)は、ラベル付きデータを段階的に使用して、残りのデータに対する擬似ラベルを生成する機械学習テクニックである(そして、そのデータはすべてモデルトレーニングに使用される)。 本研究では, 4つの一般的な半教師付き手法を疑似ラベルとして適用し, 公平な分類モデルを構築した。 当社のフレームワークであるFair-SSLは,ラベル付きデータの入力として非常に少量(10\%)のデータを取り込み,ラベルなしデータの擬似ラベルを生成する。 次に,fse 2021でchakrabortyらによって提案されたクラスと保護属性に基づくトレーニングデータのバランスをとるために,新たなデータポイントを合成的に生成する。 最後に、分類モデルはバランスのとれた擬似ラベルデータに基づいて訓練され、テストデータに基づいて検証される。 10のデータセットと3人の学習者で実験した結果、Fair-SSLは3つの最先端バイアス軽減アルゴリズムと同じようなパフォーマンスを実現していることがわかった。 とはいえ、Fair-SSLの明確な利点は、ラベル付きトレーニングデータの10%しか必要としないことです。 私たちの知る限りでは、SE MLモデルにおける倫理的バイアスに対抗するために半教師付きテクニックが使用されるのは、これが初めてです。

Ethical bias in machine learning models has become a matter of concern in the software engineering community. Most of the prior software engineering works concentrated on finding ethical bias in models rather than fixing it. After finding bias, the next step is mitigation. Prior researchers mainly tried to use supervised approaches to achieve fairness. However, in the real world, getting data with trustworthy ground truth is challenging and also ground truth can contain human bias. Semi-supervised learning is a machine learning technique where, incrementally, labeled data is used to generate pseudo-labels for the rest of data (and then all that data is used for model training). In this work, we apply four popular semi-supervised techniques as pseudo-labelers to create fair classification models. Our framework, Fair-SSL, takes a very small amount (10\%) of labeled data as input and generates pseudo-labels for the unlabeled data. We then synthetically generate new data points to balance the training data based on class and protected attribute as proposed by Chakraborty et al. in FSE 2021. Finally, the classification model is trained on the balanced pseudo-labeled data and validated on test data. After experimenting on ten datasets and three learners, we find that Fair-SSL achieves similar performance as three state-of-the-art bias mitigation algorithms. That said, the clear advantage of Fair-SSL is that it requires only 10\% of the labeled training data. To the best of our knowledge, this is the first SE work where semi-supervised techniques are used to fight against ethical bias in SE ML models.
翻訳日:2021-11-04 21:05:18 公開日:2021-11-03
# (参考訳) 視覚特徴表現のための自己監督パラダイムの最近の進歩

Recent Advancements in Self-Supervised Paradigms for Visual Feature Representation ( http://arxiv.org/abs/2111.02042v1 )

ライセンス: CC BY 4.0
Mrinal Anand, Aditya Garg(参考訳) 私たちは過去10年で教師付き学習パラダイムが大幅に成長しているのを目撃しました。 教師あり学習は、最先端のパフォーマンスに達するために大量のラベル付きデータを必要とする。 しかし、サンプルのラベル付けには多くの人的アノテーションが必要です。 ラベル付けのコストを回避するため,ラベル付けされていないデータを利用する自己管理手法が提案された。 本研究は,特徴表現のための自己監督パラダイムにおける最近の展開に関する包括的かつ洞察的な調査と分析を行う。 本稿では,異なる環境下での自己監督の有用性に影響を及ぼす要因について検討する。 本稿では,自己スーパービジョン,生成的および対比的手法における2つのアプローチに関する重要な知見を紹介する。 また,教師付き対人訓練の限界と,その限界を克服するための自己監督方法についても検討した。 次に,視覚タスクに自己スーパービジョンを効果的に使用する際の限界と課題について論じる。 最後に、いくつかのオープンな問題を取り上げ、今後の研究の方向性を指摘する。

We witnessed a massive growth in the supervised learning paradigm in the past decade. Supervised learning requires a large amount of labeled data to reach state-of-the-art performance. However, labeling the samples requires a lot of human annotation. To avoid the cost of labeling data, self-supervised methods were proposed to make use of largely available unlabeled data. This study conducts a comprehensive and insightful survey and analysis of recent developments in the self-supervised paradigm for feature representation. In this paper, we investigate the factors affecting the usefulness of self-supervision under different settings. We present some of the key insights concerning two different approaches in self-supervision, generative and contrastive methods. We also investigate the limitations of supervised adversarial training and how self-supervision can help overcome those limitations. We then move on to discuss the limitations and challenges in effectively using self-supervision for visual tasks. Finally, we highlight some open problems and point out future research directions.
翻訳日:2021-11-04 20:44:55 公開日:2021-11-03
# (参考訳) 深層畳み込みニューラルネットワークのき裂検出性能に及ぼす画像ノイズの影響

Influence of image noise on crack detection performance of deep convolutional neural networks ( http://arxiv.org/abs/2111.02079v1 )

ライセンス: CC BY 4.0
Riccardo Chianese, Andy Nguyen, Vahidreza Gharehbaghi, Thiru Aravinthan, Mohammad Noori(参考訳) 画像データを解析する深層学習技術の開発は、広範かつ新興の分野である。 画像データから興味のある特徴を追跡、識別、測定、分類することの利点は、コスト、時間、安全性を改善するための無限の応用である。 深層畳み込みニューラルネットワークを用いた画像データからの亀裂の分類に関する研究が盛んに行われているが、ノイズ画像を用いた場合のネットワーク性能の研究は最小限である。 本稿では,この問題に対処し,画像ノイズがネットワーク精度に与える影響について検討する。 使用する手法には,2種類のノイズで意図的に劣化したベンチマーク画像データセットと,画像強調前処理による処理が組み込まれている。 これらの画像は、2つの異なるネットワークのトレーニングと検証に使われ、精度と性能の違いを研究する。 本研究の結果,画像前処理の適用にもかかわらず,ノイズのある画像はネットワークの画像を正確に分類する能力に適度に高い影響を与えることが明らかになった。 計算タイミングと精度の点で最も効率的な分類法を見つけるために,新しい指標が開発された。 その結果、AlexNetは提案したインデックスに基づいて最も効率的なモデルに選ばれた。

Development of deep learning techniques to analyse image data is an expansive and emerging field. The benefits of tracking, identifying, measuring, and sorting features of interest from image data has endless applications for saving cost, time, and improving safety. Much research has been conducted on classifying cracks from image data using deep convolutional neural networks; however, minimal research has been conducted to study the efficacy of network performance when noisy images are used. This paper will address the problem and is dedicated to investigating the influence of image noise on network accuracy. The methods used incorporate a benchmark image data set, which is purposely deteriorated with two types of noise, followed by treatment with image enhancement pre-processing techniques. These images, including their native counterparts, are then used to train and validate two different networks to study the differences in accuracy and performance. Results from this research reveal that noisy images have a moderate to high impact on the network's capability to accurately classify images despite the application of image pre-processing. A new index has been developed for finding the most efficient method for classification in terms of computation timing and accuracy. Consequently, AlexNet was selected as the most efficient model based on the proposed index.
翻訳日:2021-11-04 20:33:03 公開日:2021-11-03
# (参考訳) 勧告における知識グラフの蒸留のための条件付き注意ネットワーク

Conditional Attention Networks for Distilling Knowledge Graphs in Recommendation ( http://arxiv.org/abs/2111.02100v1 )

ライセンス: CC0 1.0
Ke Tu, Peng Cui, Daixin Wang, Zhiqiang Zhang, Jun Zhou, Yuan Qi, Wenwu Zhu(参考訳) 知識グラフは一般的に、全体的なパフォーマンスを改善するために推奨システムに組み込まれる。 知識グラフの一般化とスケールのため、ほとんどの知識関係はターゲットのユーザ・イテム予測には役に立たない。 この知識グラフを利用してレコメンデーションシステムにおける目標固有の知識関係を抽出するには,有用な情報を保存するために知識グラフを蒸留し,ユーザの好みを捉えるために知識を洗練する必要がある。 そこで本研究では,知識グラフをレコメンデーションシステムに組み込むエンド・ツー・エンドのモデルであるKCAN(Knowledge-Aware Conditional Attention Networks)を提案する。 具体的には、まず、知識認識型注意伝達手法を用いてノード表現を取得し、ユーザ・テーマネットワークと知識グラフのグローバル意味的類似性を捉える。 そして、ターゲット、すなわちユーザーとアイテムのペアが与えられたとき、知識グラフを知識認識の注意に基づいて自動的にターゲット固有のサブグラフに絞り込む。 その後,条件付き注意アグリゲーションをサブグラフに適用することにより,知識グラフを洗練し,対象特定ノード表現を得る。 したがって、全体的なパフォーマンスを達成するために、表現可能性とパーソナライズの両方を得ることができる。 実世界のデータセットに対する実験結果は、最先端のアルゴリズムに対する我々のフレームワークの有効性を示す。

Knowledge graph is generally incorporated into recommender systems to improve overall performance. Due to the generalization and scale of the knowledge graph, most knowledge relationships are not helpful for a target user-item prediction. To exploit the knowledge graph to capture target-specific knowledge relationships in recommender systems, we need to distill the knowledge graph to reserve the useful information and refine the knowledge to capture the users' preferences. To address the issues, we propose Knowledge-aware Conditional Attention Networks (KCAN), which is an end-to-end model to incorporate knowledge graph into a recommender system. Specifically, we use a knowledge-aware attention propagation manner to obtain the node representation first, which captures the global semantic similarity on the user-item network and the knowledge graph. Then given a target, i.e., a user-item pair, we automatically distill the knowledge graph into the target-specific subgraph based on the knowledge-aware attention. Afterward, by applying a conditional attention aggregation on the subgraph, we refine the knowledge graph to obtain target-specific node representations. Therefore, we can gain both representability and personalization to achieve overall performance. Experimental results on real-world datasets demonstrate the effectiveness of our framework over the state-of-the-art algorithms.
翻訳日:2021-11-04 20:23:49 公開日:2021-11-03
# (参考訳) モデルベースエピソディックメモリは動的ハイブリッド制御を誘導する

Model-Based Episodic Memory Induces Dynamic Hybrid Controls ( http://arxiv.org/abs/2111.02104v1 )

ライセンス: CC BY 4.0
Hung Le, Thommen Karimpanal George, Majid Abdolshah, Truyen Tran, Svetha Venkates(参考訳) エピソード制御は、エピソード記憶から過去の経験を思い出し、強化学習におけるサンプル効率を実現する。 本稿では,最近のエピソディック制御の限界に対処し,トラジェクタのモデルベースエピソディックメモリを提案する。 我々のメモリは軌道値を推定し、エージェントを良いポリシーへと導く。 メモリ上に構築し,モデルベース,エピソディクス,習慣学習を単一アーキテクチャに統合した動的ハイブリッド制御による補完学習モデルを構築する。 実験により,確率的および非マルコフ的設定を含む様々な環境において,強強化学習エージェントよりも有意に高速で優れた学習が可能となった。

Episodic control enables sample efficiency in reinforcement learning by recalling past experiences from an episodic memory. We propose a new model-based episodic memory of trajectories addressing current limitations of episodic control. Our memory estimates trajectory values, guiding the agent towards good policies. Built upon the memory, we construct a complementary learning model via a dynamic hybrid control unifying model-based, episodic and habitual learning into a single architecture. Experiments demonstrate that our model allows significantly faster and better learning than other strong reinforcement learning agents across a variety of environments including stochastic and non-Markovian settings.
翻訳日:2021-11-04 20:07:17 公開日:2021-11-03
# (参考訳) オープンドメイン対話システムの自動評価とモデレーション

Automatic Evaluation and Moderation of Open-domain Dialogue Systems ( http://arxiv.org/abs/2111.02110v1 )

ライセンス: CC BY 4.0
Zhang Chen and Jo\~ao Sadoc and Luis Fernando D'Haro and Rafael Banchs and Alexander Rudnicky(参考訳) 近年、対話システムは学界と産業の両方で大きな関心を集めている。 特にオープンドメイン対話システムの分野であるチャットボットは大きな勢いを増している。 しかし、研究者を悩ませる長年の課題は、効果的な自動評価指標の欠如であり、現在の研究に重大な障害をもたらす。 オープンドメインの対話モデルの性能を評価する一般的なプラクティスは、時間とコストの両方が集中する最終デプロイモデルに対する広範囲な人間による評価である。 さらに,近年のオープンドメインチャットボット構築の傾向は,大量のソーシャルメディア会話データを用いた対話モデルの事前学習を伴っている。 しかし、ソーシャルメディアの会話に含まれる情報は不快で不適切かもしれない。 このようなデータの無差別使用は、非感受性で有毒な生成モデルをもたらす可能性がある。 本稿では,対話システム技術チャレンジ10(DSTC10)において,トラック5で得られたデータ,ベースライン,結果について述べる。

In recent years, dialogue systems have attracted significant interests in both academia and industry. Especially the discipline of open-domain dialogue systems, aka chatbots, has gained great momentum. Yet, a long standing challenge that bothers the researchers is the lack of effective automatic evaluation metrics, which results in significant impediment in the current research. Common practice in assessing the performance of open-domain dialogue models involves extensive human evaluation on the final deployed models, which is both time- and cost- intensive. Moreover, a recent trend in building open-domain chatbots involve pre-training dialogue models with a large amount of social media conversation data. However, the information contained in the social media conversations may be offensive and inappropriate. Indiscriminate usage of such data can result in insensitive and toxic generative models. This paper describes the data, baselines and results obtained for the Track 5 at the Dialogue System Technology Challenge 10 (DSTC10).
翻訳日:2021-11-04 19:41:02 公開日:2021-11-03
# (参考訳) laion-400m:クリップフィルターによる4億画像テキストペアのオープンデータセット

LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs ( http://arxiv.org/abs/2111.02114v1 )

ライセンス: CC BY 4.0
Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki(参考訳) 数億のイメージテキストペア(例えばCLIP、DALL-E)でトレーニングされたマルチモーダル言語ビジョンモデルは、最近急増し、ターゲット画像データにサンプルごとのラベルがなくても、ゼロまたは少数ショットの学習と転送を行う素晴らしい能力を示した。 この傾向にもかかわらず、これまでそのようなモデルをスクラッチからトレーニングするための十分なスケールのデータセットが公開されていない。 この問題に対処するため、コミュニティの取り組みとして、CLIPをフィルタした4億の画像テキストペア、CLIP埋め込み、効率的な類似検索を可能にするkNNインデックスを備えたデータセットであるLAION-400Mを開発しリリースしました。

Multi-modal language-vision models trained on hundreds of millions of image-text pairs (e.g. CLIP, DALL-E) gained a recent surge, showing remarkable capability to perform zero- or few-shot learning and transfer even in absence of per-sample labels on target image data. Despite this trend, to date there has been no publicly available datasets of sufficient scale for training such models from scratch. To address this issue, in a community effort we build and release for public LAION-400M, a dataset with CLIP-filtered 400 million image-text pairs, their CLIP embeddings and kNN indices that allow efficient similarity search.
翻訳日:2021-11-04 19:33:30 公開日:2021-11-03
# (参考訳) 用語共有タスクを用いたwmt 2021機械翻訳におけるlingua custodiaの参加

Lingua Custodia's participation at the WMT 2021 Machine Translation using Terminologies shared task ( http://arxiv.org/abs/2111.02120v1 )

ライセンス: CC BY 4.0
Melissa Ailem, Jinghsu Liu, Raheel Qader(参考訳) 本稿では,lingua custodiaの wmt21 shared task on machine translation using terminologiesについて述べる。 我々は英語からフランス語、ロシア語、中国語の3つの方向を考える。 本稿では,トランスフォーマーをベースとしたアーキテクチャをビルディングブロックとして利用し,用語処理の標準手順に2つの大きな変更を加える手法を提案する。 1つ目は、モデルが用語制約項に遭遇したときのコピーの振る舞いを学習するよう促すように、トレーニングデータを増強することである。 2つ目の変更は制約トークンマスキングで、その目的はコピー動作学習の容易化とモデルの一般化の改善である。 その結果,高い翻訳品質を維持しつつ,ほとんどの用語制約を満たすことがわかった。

This paper describes Lingua Custodia's submission to the WMT21 shared task on machine translation using terminologies. We consider three directions, namely English to French, Russian, and Chinese. We rely on a Transformer-based architecture as a building block, and we explore a method which introduces two main changes to the standard procedure to handle terminologies. The first one consists in augmenting the training data in such a way as to encourage the model to learn a copy behavior when it encounters terminology constraint terms. The second change is constraint token masking, whose purpose is to ease copy behavior learning and to improve model generalization. Empirical results show that our method satisfies most terminology constraints while maintaining high translation quality.
翻訳日:2021-11-04 19:27:04 公開日:2021-11-03
# (参考訳) 近距離再帰畳み込みネットワークを用いた時空間気象データ予測:weather4castチャレンジの解法

Spatiotemporal Weather Data Predictions with Shortcut Recurrent-Convolutional Networks: A Solution for the Weather4cast challenge ( http://arxiv.org/abs/2111.02121v1 )

ライセンス: CC BY 4.0
Jussi Leinonen(参考訳) 本稿では,衛星ベースの気象データ画像の時間的進化を予測することを目的とした,Weather4cast 2021 Challenge Stage 1で著者らが使用したニューラルネットワークモデルを提案する。 ネットワークは、ゲートリカレントユニット(GRU)、残留ブロック、U-Netに似たショートカットを持つ縮小/拡張アーキテクチャを利用するエンコーダ・フォカスターアーキテクチャに基づいている。 畳み込みに代えて残留ブロックを利用したGRU変種も導入された。 モデルに対する例の予測と評価指標を示す。 これらのことは、モデルが最初の予測のために入力の鋭い特徴を保持することができる一方で、後の予測は不確実性の増加を反映してより曖昧になることを示している。

This paper presents the neural network model that was used by the author in the Weather4cast 2021 Challenge Stage 1, where the objective was to predict the time evolution of satellite-based weather data images. The network is based on an encoder-forecaster architecture making use of gated recurrent units (GRU), residual blocks and a contracting/expanding architecture with shortcuts similar to U-Net. A GRU variant utilizing residual blocks in place of convolutions is also introduced. Example predictions and evaluation metrics for the model are presented. These demonstrate that the model can retain sharp features of the input for the first predictions, while the later predictions become more blurred to reflect the increasing uncertainty.
翻訳日:2021-11-04 19:20:29 公開日:2021-11-03
# (参考訳) 結婚は桃と聖杯:セマンティックWebにおける文化的象徴のモデル化

Marriage is a Peach and a Chalice: Modelling Cultural Symbolism on the SemanticWeb ( http://arxiv.org/abs/2111.02123v1 )

ライセンス: CC BY 4.0
Bruno Sartini, Marieke van Erp, Aldo Gangemi(参考訳) 本研究では,文化象徴主義の文脈において,セマンティックウェブのギャップを埋める。 そこで本研究では,シムラクラの権威論とジャン・ボードリラードのシミュレーションから得られた概念と,スティーブン・オールダーの「シンボリズム:包括的な辞書」から得られる記号構造と内容を組み合わせて,記号的意味の背景知識をモデル化するオントロジーであるシミュレーション・オントロジーを紹介する。 私たちは、異種資源にすでに存在する象徴的知識をオントロジースキーマに変換して、文化的な象徴性に完全に専心した最初の知識グラフであるハイパーリアルを作成することで、再設計しました。 記号論に関する定量的研究の可能性を示すために,知識グラフを用いた最初の実験を行った。

In this work, we fill the gap in the Semantic Web in the context of Cultural Symbolism. Building upon earlier work in, we introduce the Simulation Ontology, an ontology that models the background knowledge of symbolic meanings, developed by combining the concepts taken from the authoritative theory of Simulacra and Simulations of Jean Baudrillard with symbolic structures and content taken from "Symbolism: a Comprehensive Dictionary" by Steven Olderr. We re-engineered the symbolic knowledge already present in heterogeneous resources by converting it into our ontology schema to create HyperReal, the first knowledge graph completely dedicated to cultural symbolism. A first experiment run on the knowledge graph is presented to show the potential of quantitative research on symbolism.
翻訳日:2021-11-04 19:11:26 公開日:2021-11-03
# (参考訳) OpenStack Monascaによる予測自動スケーリング

Predictive Auto-scaling with OpenStack Monasca ( http://arxiv.org/abs/2111.02133v1 )

ライセンス: CC BY-SA 4.0
Giacomo Lanciano, Filippo Galli, Tommaso Cucinotta, Davide Bacciu, Andrea Passarella(参考訳) クラウドの自動スケーリングメカニズムは一般的に、何らかのメトリクス、例えばインスタンスの平均CPU使用率が予め定義されたしきい値を超えると、クラスタをスケールするリアクティブ自動化ルールに基づいている。 クラスタのスケールアップには、本番クラウドサービスで頻繁に発生するように、新しいインスタンスをブートストラップする非無視の時間が必要になります。 この問題に対処するため,我々は近日中にシステムが進化すると予想される状況に基づいて,クラウドサービスを自動スケーリングするアーキテクチャを提案する。 このアプローチでは,機械学習やニューラルネットワークをベースとした時系列予測技術を活用して,リソース消費指標などの主要なメトリクスの将来のダイナミクスを予測し,しきい値ベースのスケーリングポリシを適用する。 その結果、例えば、クラウドアプリケーションの負荷のピークを自動的に予測し、予想されるトラフィックの増加に対応する適切なスケーリングアクションを事前にトリガーすることができる予測自動化ポリシが生まれます。 私たちは、Monascaが提供する監視機能に依存するオープンソースのOpenStackコンポーネントとして、私たちのアプローチをプロトタイプ化し、その結果、HeatやSenlinといったオーケストレーションコンポーネントによって活用可能な予測メトリクスが追加されました。 本研究では,リカレントニューラルネットワークと多層パーセプトロンを予測器として,単純な線形回帰と従来の非予測オートスケーリングポリシと比較した実験結果を示す。 しかし,提案フレームワークにより,必要に応じて予測ポリシーのカスタマイズが容易になる。

Cloud auto-scaling mechanisms are typically based on reactive automation rules that scale a cluster whenever some metric, e.g., the average CPU usage among instances, exceeds a predefined threshold. Tuning these rules becomes particularly cumbersome when scaling-up a cluster involves non-negligible times to bootstrap new instances, as it happens frequently in production cloud services. To deal with this problem, we propose an architecture for auto-scaling cloud services based on the status in which the system is expected to evolve in the near future. Our approach leverages on time-series forecasting techniques, like those based on machine learning and artificial neural networks, to predict the future dynamics of key metrics, e.g., resource consumption metrics, and apply a threshold-based scaling policy on them. The result is a predictive automation policy that is able, for instance, to automatically anticipate peaks in the load of a cloud application and trigger ahead of time appropriate scaling actions to accommodate the expected increase in traffic. We prototyped our approach as an open-source OpenStack component, which relies on, and extends, the monitoring capabilities offered by Monasca, resulting in the addition of predictive metrics that can be leveraged by orchestration components like Heat or Senlin. We show experimental results using a recurrent neural network and a multi-layer perceptron as predictor, which are compared with a simple linear regression and a traditional non-predictive auto-scaling policy. However, the proposed framework allows for the easy customization of the prediction policy as needed.
翻訳日:2021-11-04 18:57:26 公開日:2021-11-03
# (参考訳) ソースカメラ識別のための堅牢なデバイス固有の指紋を学習するbeyond prnu

Beyond PRNU: Learning Robust Device-Specific Fingerprint for Source Camera Identification ( http://arxiv.org/abs/2111.02144v1 )

ライセンス: CC BY 4.0
Manisha, Chang-Tsun Li, Xufeng Lin, Karunakar A. Kotegar(参考訳) ソースカメラ識別ツールは、画像検査官が被疑者カメラと画像の関連付けを補助する。 取得時の画像に残る微妙な痕跡の分析に基づいて,様々な技術が開発されている。 センサの不完全性に起因する光応答不均一(PRNU)ノイズパターンは、ソースカメラの識別に有効な方法であることが証明されている。 既存の文献では、PRNUはデバイス固有の唯一の指紋であり、正確なソースデバイスを識別できることを示している。 しかし、prnuはカメラの設定、画像コンテンツ、画像処理操作、および対物攻撃の影響を受けやすい。 防犯攻撃や偶発的な画像操作を知らない法医学研究者は、誤解されるリスクがあります。 2つのPRNUのマッチングにおける空間的同期要件は、PRNUの大きな制限でもある。 近年、ディープラーニングベースのアプローチは、ソースカメラモデルの識別に成功している。 しかし、これらのデータ駆動アプローチによる同一モデルの個々のカメラの識別は相変わらず不満足である。 本稿では,デジタル画像にロバストなデータ駆動型デバイス固有の指紋が新たに存在し,同一モデルの個々のカメラを識別できることを示す。 新しいデバイス指紋は位置非依存で、確率的であり、グローバルに利用でき、空間同期問題を解決している。 高周波帯に存在するPRNUとは異なり、新しいデバイス指紋は低周波帯と中周波帯から抽出され、PRNUが競合できない脆弱な問題を解消する。 各種データセットを用いた実験により,新しい指紋は回転,ガンマ補正,積極的なjpeg圧縮などの画像操作に強い回復性を示す。

Source camera identification tools assist image forensic investigators to associate an image in question with a suspect camera. Various techniques have been developed based on the analysis of the subtle traces left in the images during the acquisition. The Photo Response Non Uniformity (PRNU) noise pattern caused by sensor imperfections has been proven to be an effective way to identify the source camera. The existing literature suggests that the PRNU is the only fingerprint that is device-specific and capable of identifying the exact source device. However, the PRNU is susceptible to camera settings, image content, image processing operations, and counter-forensic attacks. A forensic investigator unaware of counter-forensic attacks or incidental image manipulations is at the risk of getting misled. The spatial synchronization requirement during the matching of two PRNUs also represents a major limitation of the PRNU. In recent years, deep learning based approaches have been successful in identifying source camera models. However, the identification of individual cameras of the same model through these data-driven approaches remains unsatisfactory. In this paper, we bring to light the existence of a new robust data-driven device-specific fingerprint in digital images which is capable of identifying the individual cameras of the same model. It is discovered that the new device fingerprint is location-independent, stochastic, and globally available, which resolve the spatial synchronization issue. Unlike the PRNU, which resides in the high-frequency band, the new device fingerprint is extracted from the low and mid-frequency bands, which resolves the fragility issue that the PRNU is unable to contend with. Our experiments on various datasets demonstrate that the new fingerprint is highly resilient to image manipulations such as rotation, gamma correction, and aggressive JPEG compression.
翻訳日:2021-11-04 18:44:38 公開日:2021-11-03
# (参考訳) マルチエージェント深層ニューラルネットワークを用いた共有e-mobilityシステムの配置最適化

Deployment Optimization for Shared e-Mobility Systems with Multi-agent Deep Neural Search ( http://arxiv.org/abs/2111.02149v1 )

ライセンス: CC BY 4.0
Man Luo, Bowen Du, Konstantin Klemmer, Hongming Zhu, Hongkai Wen(参考訳) 共有のe-mobilityサービスは、世界中の都市で広くテストされ、試験されているが、既に現代の都市計画の布地に織り込まれている。 本稿では,それらのシステムにおける実用的かつ重要な課題である,空間と時間にわたってインフラストラクチャをデプロイし管理する方法について検討する。 しかし、現実世界のシステムでは、異なる配置戦略のパフォーマンスを評価し、最適な計画を見つけることは、しばしば試行錯誤のイテレーションを実行することができないため、非常に高価である。 本研究では,共有電子移動システムの主要動作詳細を粒度で抽象化し,実世界から収集したデータを用いてキャリブレーションする高忠実度シミュレーション環境を設計する。 これにより、現実世界のシステムで実際に実装する前に、最適な特定のコンテキストを学ぶための任意のデプロイメント計画を試すことができます。 特に,新たなマルチエージェント・ニューラルサーチ手法を提案し,暫定的な展開計画を作成する階層型コントローラを設計する。 生成されたデプロイメント計画は、マルチシミュレーションパラダイム(すなわち、並列に評価される)を使ってテストされ、その結果は、深い強化学習でコントローラをトレーニングするために使用される。 このクローズドループにより、コントローラは、将来のイテレーションでより良いデプロイメント計画を生成する確率を高めるように調整できる。 提案手法はシミュレーション環境において広く評価されており,人間知識や最先端のヒューリスティックベース最適化手法を,サービスカバレッジと純収益の両方において上回っている。

Shared e-mobility services have been widely tested and piloted in cities across the globe, and already woven into the fabric of modern urban planning. This paper studies a practical yet important problem in those systems: how to deploy and manage their infrastructure across space and time, so that the services are ubiquitous to the users while sustainable in profitability. However, in real-world systems evaluating the performance of different deployment strategies and then finding the optimal plan is prohibitively expensive, as it is often infeasible to conduct many iterations of trial-and-error. We tackle this by designing a high-fidelity simulation environment, which abstracts the key operation details of the shared e-mobility systems at fine-granularity, and is calibrated using data collected from the real-world. This allows us to try out arbitrary deployment plans to learn the optimal given specific context, before actually implementing any in the real-world systems. In particular, we propose a novel multi-agent neural search approach, in which we design a hierarchical controller to produce tentative deployment plans. The generated deployment plans are then tested using a multi-simulation paradigm, i.e., evaluated in parallel, where the results are used to train the controller with deep reinforcement learning. With this closed loop, the controller can be steered to have higher probability of generating better deployment plans in future iterations. The proposed approach has been evaluated extensively in our simulation environment, and experimental results show that it outperforms baselines e.g., human knowledge, and state-of-the-art heuristic-based optimization approaches in both service coverage and net revenue.
翻訳日:2021-11-04 18:26:00 公開日:2021-11-03
# (参考訳) 高速分岐型フレキシブルアクティベーションイベントの教師なし検出とオープンセット分類

Unsupervised detection and open-set classification of fast-ramped flexibility activation events ( http://arxiv.org/abs/2111.02174v1 )

ライセンス: CC BY 4.0
Nils M\"uller, Carsten Heinrich, Kai Heussen, Henrik W. Bindner(参考訳) モビリティと暖房の継続的な電化により、配電網運用に新たな課題がもたらされる。 価格信号に対する反応として電気自動車を同時に充電するなど、フレキシブルユニットの非協調的なアクティベーションは、系統的にトランスフォーマーやラインプロテクションをトリガーする可能性がある。 このような迅速な柔軟なアクティベーションのリアルタイムな識別は、社会的および財政的なコストを避けるために対抗措置を取ることができるだろう。 本研究では,高速なフレキシブルアクティベーションイベントを識別する新しいデータ処理パイプラインを提案する。 このパイプラインは教師なしイベント検出とオープンセット分類のテクニックを組み合わせる。 実負荷データに対する体系的な評価は、分散イベント検出アーキテクチャにおけるアプリケーションの重要な要件を満たすメソッドによって、提案パイプラインの主要なビルディングブロックを実現できることを示している。 柔軟性アクティベーションイベントの検出には、高いパフォーマンス限界が特定される。 さらに,オープンセット分類器のフレキシビリティ・アクティベーション・イベントの分類への応用により,広く適用されたクローズドセット分類器と比較して性能が向上することを示した。

The continuous electrification of the mobility and heating sector will introduce new challenges to distribution grid operation. Uncoordinated activation of flexible units, e.g. simultaneous charging of electric vehicles as a reaction to price signals, could systematically trigger transformer or line protections. Real-time identification of such fast-ramped flexibility activations would allow taking counteractions to avoid potential social and financial cost. In this work, a novel data processing pipeline for identification of fast-ramped flexibility activation events is proposed. The pipeline combines techniques for unsupervised event detection and open-set classification. The systematic evaluation on real load data demonstrates that main building blocks of the proposed pipeline can be realized with methods that fulfill important requirements for an application in a distributed event detection architecture. For the detection of flexibility activation events an upper performance limit is identified. Moreover, it is demonstrated that application of an open-set classifier for classification of flexibility activation events can improve the performance compared to widely-applied closed-set classifiers.
翻訳日:2021-11-04 18:02:28 公開日:2021-11-03
# (参考訳) 識別器合成:生成的対立ネットワークの残りの半分の再利用について

Discriminator Synthesis: On reusing the other half of Generative Adversarial Networks ( http://arxiv.org/abs/2111.02175v1 )

ライセンス: CC BY 4.0
Diego Porres(参考訳) 生成的な敵ネットワークは、コンピュータビジョンの世界に革命をもたらし、それと結びついた芸術の世界へと長い道のりを歩んできた。 ジェネレータネットワークの出力が最大限に忠実になるよう、トレーニングの活用と安定化に熱心に取り組んできたが、トレーニングが完了すると判別器を使うことはほとんどない。 本研究では,後者を用いて,トレーニングデータセットから学んだ特徴を,画像の変更とスクラッチからの生成の両方に使用する方法を提案する。 私たちはこのメソッドをDreamingと名付け、完全なコードはhttps://github.com/PDillis/stylegan3-fun.orgにある。

Generative Adversarial Networks have long since revolutionized the world of computer vision and, tied to it, the world of art. Arduous efforts have gone into fully utilizing and stabilizing training so that outputs of the Generator network have the highest possible fidelity, but little has gone into using the Discriminator after training is complete. In this work, we propose to use the latter and show a way to use the features it has learned from the training dataset to both alter an image and generate one from scratch. We name this method Discriminator Dreaming, and the full code can be found at https://github.com/PDillis/stylegan3-fun.
翻訳日:2021-11-04 17:32:11 公開日:2021-11-03
# (参考訳) BERT-DRE:自然言語文マッチングのための深部再帰エンコーダを用いたBERT

BERT-DRE: BERT with Deep Recursive Encoder for Natural Language Sentence Matching ( http://arxiv.org/abs/2111.02188v1 )

ライセンス: CC BY 4.0
Ehsan Tavan, Ali Rahmati, Maryam Najafi, Saeed Bibak(参考訳) 本稿では,深層再帰エンコーダ(BERT-DRE)をBERTに付加することにより,自然言語文マッチング(NLSM)のためのディープニューラルネットワークを提案する。 モデル動作の解析から,BERTはテキストの複雑さをフルに捉えていないことが分かるので,BERT上に深層再帰エンコーダを適用する。 残コネクションを持つ3つのBi-LSTM層を用いて再帰エンコーダを設計し、このエンコーダの上にアテンションモジュールを用いる。 最終ベクトルを得るには、平均および最大プーリングからなるプーリング層を用いる。 我々は、SNLI、FarsTail、MultiNLI、SciTailの4つのベンチマークと、新しいペルシアの宗教的質問データセットでモデルを実験した。 本稿では,NLSMタスクにおけるBERT結果の改善に焦点を当てる。 この場合、BERT-DREとBERTの比較を行い、すべての場合、BERT-DREはBERTよりも優れていることを示す。 BERTアルゴリズムは89.70%の精度を達成し、BERT-DREアーキテクチャは90.29%まで改善された。

This paper presents a deep neural architecture, for Natural Language Sentence Matching (NLSM) by adding a deep recursive encoder to BERT so called BERT with Deep Recursive Encoder (BERT-DRE). Our analysis of model behavior shows that BERT still does not capture the full complexity of text, so a deep recursive encoder is applied on top of BERT. Three Bi-LSTM layers with residual connection are used to design a recursive encoder and an attention module is used on top of this encoder. To obtain the final vector, a pooling layer consisting of average and maximum pooling is used. We experiment our model on four benchmarks, SNLI, FarsTail, MultiNLI, SciTail, and a novel Persian religious questions dataset. This paper focuses on improving the BERT results in the NLSM task. In this regard, comparisons between BERT-DRE and BERT are conducted, and it is shown that in all cases, BERT-DRE outperforms only BERT. The BERT algorithm on the religious dataset achieved an accuracy of 89.70%, and BERT-DRE architectures improved to 90.29% using the same dataset.
翻訳日:2021-11-04 17:23:34 公開日:2021-11-03
# (参考訳) 教師付きコントラストプレトレーニングによるアスペクトベース感情分析における暗黙的感情学習

Learning Implicit Sentiment in Aspect-based Sentiment Analysis with Supervised Contrastive Pre-Training ( http://arxiv.org/abs/2111.02194v1 )

ライセンス: CC BY-SA 4.0
Zhengyan Li, Yicheng Zou, Chong Zhang, Qi Zhang and Zhongyu Wei(参考訳) アスペクトベースの感情分析は、製品レビューにおける特定の側面の感情極性を特定することを目的としている。 レビューの約30%は明確な意見語を含まないが、暗黙の感情として知られる人間の意識指向を明確に伝達している。 しかし、最近のニューラルネットワークベースのアプローチは、レビューにまつわる暗黙の感情にはほとんど注意を払わなかった。 そこで我々は,ドメイン内言語資源から抽出した大規模感情アノテートコーパスに対して,教師付きコントラスト事前学習を採用する。 暗黙の感情表現を同一の感情ラベルを持つものと整合させることで、事前学習プロセスは、レビューの側面に対する暗黙の感情指向と明示的な感情指向の両方をよりよく捉える。 実験結果から,SemEval2014ベンチマークの最先端性能を実現し,包括的解析により暗黙的感情学習の有効性が検証された。

Aspect-based sentiment analysis aims to identify the sentiment polarity of a specific aspect in product reviews. We notice that about 30% of reviews do not contain obvious opinion words, but still convey clear human-aware sentiment orientation, which is known as implicit sentiment. However, recent neural network-based approaches paid little attention to implicit sentiment entailed in the reviews. To overcome this issue, we adopt Supervised Contrastive Pre-training on large-scale sentiment-annotated corpora retrieved from in-domain language resources. By aligning the representation of implicit sentiment expressions to those with the same sentiment label, the pre-training process leads to better capture of both implicit and explicit sentiment orientation towards aspects in reviews. Experimental results show that our method achieves state-of-the-art performance on SemEval2014 benchmarks, and comprehensive analysis validates its effectiveness on learning implicit sentiment.
翻訳日:2021-11-04 17:10:14 公開日:2021-11-03
# (参考訳) 教師なし領域適応のための奥行き角アライメント

Deep Least Squares Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2111.02207v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) 教師なしのドメイン適応はラベル付きソースドメインからの豊富な情報を活用してラベルなしのターゲットドメインをモデル化する。 既存のメソッドは、クロスドメイン分布を調整しようとする。 しかし、2つの領域のアライメントの統計的表現はうまく対応されていない。 本稿では,線形モデルを用いて潜在空間における2つの領域の分布を推定する深部最小二乗アライメント(dlsa)を提案する。 さらに,適合線間の角度を最小化し,インターセプタ差を最小化し,さらに学習領域不変性を持たせることにより,領域不一致を低減し,限界適応損失と条件適応損失を更に発展させる。 拡張実験により,提案したDLSAモデルは領域分布の整合に有効であり,最先端の手法より優れていることが示された。

Unsupervised domain adaptation leverages rich information from a labeled source domain to model an unlabeled target domain. Existing methods attempt to align the cross-domain distributions. However, the statistical representations of the alignment of the two domains are not well addressed. In this paper, we propose deep least squares alignment (DLSA) to estimate the distribution of the two domains in a latent space by parameterizing a linear model. We further develop marginal and conditional adaptation loss to reduce the domain discrepancy by minimizing the angle between fitting lines and intercept differences and further learning domain invariant features. Extensive experiments demonstrate that the proposed DLSA model is effective in aligning domain distributions and outperforms state-of-the-art methods.
翻訳日:2021-11-04 16:54:17 公開日:2021-11-03
# (参考訳) 独立したメディアのコレクションへのストーリーの自動埋め込み

Automatic Embedding of Stories Into Collections of Independent Media ( http://arxiv.org/abs/2111.02216v1 )

ライセンス: CC BY 4.0
Dylan R. Ashley and Vincent Herrmann and Zachary Friggstad and Kory W. Mathewson and J\"urgen Schmidhuber(参考訳) 我々は、独立したメディアコレクション内のアイテムの特性を導出する機械学習技術を用いて、ストーリーを自動的にそのようなコレクションに埋め込む方法について検討する。 そのために、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。 我々の研究は、トレーニング済みニューラルネットワークモデルを使用して生オーディオファイルのグローバルなテンポを抽出し、これらの尺度を適用して、物語をフォローするプレイリストを作成するオープンソースツールである。 このツールはhttps://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0で入手できる。

We look at how machine learning techniques that derive properties of items in a collection of independent media can be used to automatically embed stories into such collections. To do so, we use models that extract the tempo of songs to make a music playlist follow a narrative arc. Our work specifies an open-source tool that uses pre-trained neural network models to extract the global tempo of a set of raw audio files and applies these measures to create a narrative-following playlist. This tool is available at https://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0
翻訳日:2021-11-04 16:40:52 公開日:2021-11-03
# (参考訳) 金融セクターにおける説明可能なAIの探求:銀行と監督当局の視点

Exploring Explainable AI in the Financial Sector: Perspectives of Banks and Supervisory Authorities ( http://arxiv.org/abs/2111.02244v1 )

ライセンス: CC BY 4.0
Ouren Kuiper, Martin van den Berg, Joost van den Burgt, Stefan Leijnen(参考訳) 説明可能な人工知能(xAI)は、AIシステムをブラックボックスより少なくするためのソリューションと見なされている。 透明性、公正性、説明責任を確保することが不可欠であり、特に金融セクターにおいて重要となる。 本研究の目的は、金融セクターにおけるxAIの適用に関する監督当局及び規制機関の視点を予備調査することであった。 オランダの3つの銀行と2つの監督当局で半構造化インタビューを行い、3つのユースケース(消費者信用、信用リスク、反マネーロンダリング)を調査した。 調査を行った場合,AIシステムの説明可能性の望ましい範囲について,監督当局と銀行の間で格差が存在することがわかった。 金融セクターは、適用可能な法律や規制に関連して、技術的AI(モデル)の非説明可能性要件とより広範なAIシステムの説明可能性要件との明確な区別の恩恵を受けることができる、と我々は主張する。

Explainable artificial intelligence (xAI) is seen as a solution to making AI systems less of a black box. It is essential to ensure transparency, fairness, and accountability, which are especially paramount in the financial sector. The aim of this study was a preliminary investigation of the perspectives of supervisory authorities and regulated entities regarding the application of xAI in the fi-nancial sector. Three use cases (consumer credit, credit risk, and anti-money laundering) were examined using semi-structured interviews at three banks and two supervisory authorities in the Netherlands. We found that for the investigated use cases a disparity exists between supervisory authorities and banks regarding the desired scope of explainability of AI systems. We argue that the financial sector could benefit from clear differentiation between technical AI (model) ex-plainability requirements and explainability requirements of the broader AI system in relation to applicable laws and regulations.
翻訳日:2021-11-04 16:32:07 公開日:2021-11-03
# (参考訳) 次世代競馬場記憶における脳誘発認知

Brain-inspired Cognition in Next Generation Racetrack Memories ( http://arxiv.org/abs/2111.02246v1 )

ライセンス: CC BY 4.0
Asif Ali Khan, Sebastien Ollivier, Stephen Longofono, Gerald Hempel, Jeronimo Castrillon and Alex K. Jones(参考訳) hyperdimensional computing (hdc) は、認知をエミュレートするために数千次元のベクトルを操作する脳に触発された新しい計算フレームワークである。 数を扱う従来の計算フレームワークとは異なり、hdcは脳と同様に高次元ランダムベクトルを使用し、ワンショット学習が可能である。 HDCは、よく定義された演算セットに基づいており、非常にエラー耐性がある。 HDCのコア操作はHDベクトルをビット単位で操作し、並列性を活用する多くの機会を提供する。 残念なことに、Von-Neumanアーキテクチャでは、プロセッサとメモリ間のHDベクトルの連続的な移動は、認識タスクを極めて遅くエネルギー集約的にすることができる。 ハードウェアアクセラレーターは、関連するメトリクスをわずかに改善するだけだ。 それとは対照的に、メモリ内のhdcフレームワークの一部実装のみが、新たなmemristiveデバイスを使用して、かなりのパフォーマンス/エネルギ向上を報告している。 本稿では,レーストラックメモリ(RTM)をベースとして,メモリ内のHDCフレームワーク全体の実行と高速化を行うアーキテクチャを提案する。 提案手法では、最小限のCMOS回路が必要であり、Transverse Read (TR) と呼ばれるRTM内の複数の領域にまたがる読み出し演算を用いて排他的または追加操作を実現する。 CMOS回路のオーバーヘッドを最小限に抑えるため,TR演算と標準RTM演算を利用するRTMナノワイヤを用いたカウント機構を提案する。 言語認識をユースケースとして使用すると、FPGA設計と比較して、ランタイム全体の7.8倍と5.3倍のエネルギー消費が減少する。 最先端のインメモリ実装と比較して、提案したHDCシステムはエネルギー消費を8.6倍削減する。

Hyperdimensional computing (HDC) is an emerging computational framework inspired by the brain that operates on vectors with thousands of dimensions to emulate cognition. Unlike conventional computational frameworks that operate on numbers, HDC, like the brain, uses high dimensional random vectors and is capable of one-shot learning. HDC is based on a well-defined set of arithmetic operations and is highly error-resilient. The core operations of HDC manipulate HD vectors in bulk bit-wise fashion, offering many opportunities to leverage parallelism. Unfortunately, on conventional Von-Neuman architectures, the continuous movement of HD vectors among the processor and the memory can make the cognition task prohibitively slow and energy-intensive. Hardware accelerators only marginally improve related metrics. On the contrary, only partial implementation of an HDC framework inside memory, using emerging memristive devices, has reported considerable performance/energy gains. This paper presents an architecture based on racetrack memory (RTM) to conduct and accelerate the entire HDC framework within the memory. The proposed solution requires minimal additional CMOS circuitry and uses a read operation across multiple domains in RTMs called transverse read (TR) to realize exclusive-or (XOR) and addition operations. To minimize the overhead the CMOS circuitry, we propose an RTM nanowires-based counting mechanism that leverages the TR operation and the standard RTM operations. Using language recognition as the use case demonstrates 7.8x and 5.3x reduction in the overall runtime and energy consumption compared to the FPGA design, respectively. Compared to the state-of-the-art in-memory implementation, the proposed HDC system reduces the energy consumption by 8.6x.
翻訳日:2021-11-04 16:18:42 公開日:2021-11-03
# (参考訳) 畳み込みモチーフカーネルネットワーク

Convolutional Motif Kernel Networks ( http://arxiv.org/abs/2111.02272v1 )

ライセンス: CC BY-SA 4.0
Jonas C. Ditz, Bernhard Reuter, Nico Pfeifer(参考訳) ニューラルネットワークは、特定の結果に関連するデータ内の相関を検出するのに非常に適しています。 しかし、知識の深化とさらなる研究を支援するために、研究者はデータ領域内の予測結果を説明する必要がある。 さらに、Healthcare Providersのようなドメインの専門家は、予測された結果が高い利害関係のシナリオで信頼できるかどうかを評価するために、これらの説明を必要とします。 本稿では,モチーフカーネル関数の再生カーネルヒルベルト空間の部分空間内で特徴表現を学習するニューラルネットワークアーキテクチャである畳み込みモチーフカーネルネットワークを提案する。 結果として得られたモデルは最先端のパフォーマンスを持ち、研究者やドメインの専門家がポストホックな説明可能性メソッドを必要とせずに、予測結果を直接解釈し検証することができる。

Artificial neural networks are exceptionally good in learning to detect correlations within data that are associated with specified outcomes. However to deepen knowledge and support further research, researchers have to be able to explain predicted outcomes within the data's domain. Furthermore, domain experts like Healthcare Providers need these explanations to assess whether a predicted outcome can be trusted in high stakes scenarios and to help them incorporating a model into their own routine. In this paper we introduce Convolutional Motif Kernel Networks, a neural network architecture that incorporates learning a feature representation within a subspace of the reproducing kernel Hilbert space of the motif kernel function. The resulting model has state-of-the-art performance and enables researchers and domain experts to directly interpret and verify prediction outcomes without the need for a post hoc explainability method.
翻訳日:2021-11-04 15:46:13 公開日:2021-11-03
# (参考訳) 境界校正による生成相反ネットワークのモデル適合性の向上

Improving Model Compatibility of Generative Adversarial Networks by Boundary Calibration ( http://arxiv.org/abs/2111.02316v1 )

ライセンス: CC BY 4.0
Si-An Chen, Chun-Liang Li, Hsuan-Tien Lin(参考訳) Generative Adversarial Networks (GAN) は、基礎となる分布を学習して合成データを生成する強力なモデル群である。 gansの既存の研究の多くは、視覚アプリケーションのために生成された画像データの現実性を改善することに焦点を当てており、それらのうち、他の分類器を訓練するための生成されたデータの品質向上に関心を持つものはほとんどない。 その結果、既存のganは分類器の境界に遠く及ばない'easier'合成データを生成することを好むことが多く、分類器の訓練において重要な役割を果たすことが知られている、境界に近いデータの生成を控えている。 モデル整合性の観点からGANを改善するために,元データを用いて事前学習した分類器の集合からの境界情報を利用する境界校正GAN(BCGAN)を提案する。 特に, GAN の生成元に補助的境界校正損失 (BC-loss) を導入し, 事前学習した分類器の境界に関する原データの後方分布と生成されたデータの統計値とを一致させる。 BC-loss は明らかにバイアスがなく、モデル互換性を改善するために異なる GAN 変種と簡単に結合できる。 実験により、BCGANはオリジナルのGANのようなリアルな画像を生成するだけでなく、オリジナルのGANよりも優れたモデル互換性を実現することが示された。

Generative Adversarial Networks (GANs) is a powerful family of models that learn an underlying distribution to generate synthetic data. Many existing studies of GANs focus on improving the realness of the generated image data for visual applications, and few of them concern about improving the quality of the generated data for training other classifiers -- a task known as the model compatibility problem. As a consequence, existing GANs often prefer generating `easier' synthetic data that are far from the boundaries of the classifiers, and refrain from generating near-boundary data, which are known to play an important roles in training the classifiers. To improve GAN in terms of model compatibility, we propose Boundary-Calibration GANs (BCGANs), which leverage the boundary information from a set of pre-trained classifiers using the original data. In particular, we introduce an auxiliary Boundary-Calibration loss (BC-loss) into the generator of GAN to match the statistics between the posterior distributions of original data and generated data with respect to the boundaries of the pre-trained classifiers. The BC-loss is provably unbiased and can be easily coupled with different GAN variants to improve their model compatibility. Experimental results demonstrate that BCGANs not only generate realistic images like original GANs but also achieves superior model compatibility than the original GANs.
翻訳日:2021-11-04 15:28:39 公開日:2021-11-03
# (参考訳) ハンド衛生映像の予測のための深層学習モデルの比較

A Comparison of Deep Learning Models for the Prediction of Hand Hygiene Videos ( http://arxiv.org/abs/2111.02322v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 本稿では,世界保健機関(WHO)のガイドラインに従って記録された手の衛生的ジェスチャーの分類と予測のための,Exception,Resnet-50,Inception V3などの様々な深層学習モデルの比較を行った。 データセットはビデオ形式での6つの手動衛生運動で構成され、30人が参加する。 ネットワークは、トレーニング済みのモデルと、画像の重みとモデルの修正されたヘッドで構成されている。 37%(Xセプションモデル),33%(インセプションV3),72%(ResNet-50)の精度は,25エポックモデルのトレーニング後の分類報告において達成された。 ResNet-50モデルは、正しいクラス予測で明らかに優れています。 主要な速度制限は、将来の作業のために高速処理gpuを使用することで克服できる。 resnet-50アーキテクチャと医療従事者向けに、片手動作(リニアハンドモーション、円形ハンドローテーション)などの一般的なジェスチャとともに、完全な手衛生データセットをテストする。

This paper presents a comparison of various deep learning models such as Exception, Resnet-50, and Inception V3 for the classification and prediction of hand hygiene gestures, which were recorded in accordance with the World Health Organization (WHO) guidelines. The dataset consists of six hand hygiene movements in a video format, gathered for 30 participants. The network consists of pre-trained models with image net weights and a modified head of the model. An accuracy of 37% (Xception model), 33% (Inception V3), and 72% (ResNet-50) is achieved in the classification report after the training of the models for 25 epochs. ResNet-50 model clearly outperforms with correct class predictions. The major speed limitation can be overcome with the use of fast processing GPU for future work. A complete hand hygiene dataset along with other generic gestures such as one-hand movements (linear hand motion; circular hand rotation) will be tested with ResNet-50 architecture and the variants for health care workers.
翻訳日:2021-11-04 15:17:08 公開日:2021-11-03
# (参考訳) クラウドソーシング単一ラベル感性解析におけるエンド・ツー・エンドアノテータバイアス近似

End-to-End Annotator Bias Approximation on Crowdsourced Single-Label Sentiment Analysis ( http://arxiv.org/abs/2111.02326v1 )

ライセンス: CC BY 4.0
Gerhard Hagerer, David Szabo, Andreas Koch, Maria Luisa Ripoll Dominguez, Christian Widmer, Maximilian Wich, Hannah Danner, Georg Groh(参考訳) 感性分析は、多くのアノテータから与えられた主観的なラベルをクラウドソーシングする作業であることが多い。 各アノテータのアノテーションバイアスがいかにして最先端の手法で正しくモデル化できるかは、まだ完全には分かっていない。 しかしながら、アノテーションのバイアスを正確かつ確実に解決することは、アノテーションのラベリング動作を理解し、アノテーションタスクに関する個々の誤解や不正をうまく解決するための鍵となる。 私たちの貢献は、正確なニューラル・エンド・ツー・エンドのバイアスモデリングと基底的真理推定のための説明と改善であり、既存の最先端に関して望ましくないミスマッチを低減します。 分類実験により、各サンプルが1つのアノテータでアノテートされた場合にのみ精度が向上する可能性が示された。 我々は、ソースコード全体を公開し、有機食品に関する1万文を含む独自のドメイン固有の感情データセットをリリースする。 これらはソーシャルメディアからクロールされ、10人の専門家以外のアノテータによって単独でラベル付けされる。

Sentiment analysis is often a crowdsourcing task prone to subjective labels given by many annotators. It is not yet fully understood how the annotation bias of each annotator can be modeled correctly with state-of-the-art methods. However, resolving annotator bias precisely and reliably is the key to understand annotators' labeling behavior and to successfully resolve corresponding individual misconceptions and wrongdoings regarding the annotation task. Our contribution is an explanation and improvement for precise neural end-to-end bias modeling and ground truth estimation, which reduces an undesired mismatch in that regard of the existing state-of-the-art. Classification experiments show that it has potential to improve accuracy in cases where each sample is annotated only by one single annotator. We provide the whole source code publicly and release an own domain-specific sentiment dataset containing 10,000 sentences discussing organic food products. These are crawled from social media and are singly labeled by 10 non-expert annotators.
翻訳日:2021-11-04 15:11:53 公開日:2021-11-03
# (参考訳) ランダムネットワークファミリーの測地統計

Geodesic statistics for random network families ( http://arxiv.org/abs/2111.02330v1 )

ライセンス: CC BY 4.0
Sahil Loomba, Nick S. Jones(参考訳) ネットワークシステムの研究における重要なタスクは、接続性、同期性、堅牢性に影響を与える局所的およびグローバルな特性を導出することである。 ネットワークにおける最短経路や測地線を計算することは、そのような現象を説明するのに寄与するノード集中性とネットワーク接続性の尺度をもたらす。 超臨界レジームの巨成分、あるいは亜臨界レジームの小さな成分上の最短経路長の解析分布を、条件付き独立な辺を持つ任意のスパースグラフ(おそらく有向グラフ)の無限大極限で導出する。 確率的ブロックモデル,ドット生成グラフ,ランダム幾何グラフ,グラフなど,広く使用されているネットワークファミリに対して,具体的な結果を提供する。 最短経路長分布の生存関数は、有限長に対して漸近的に厳密な単純な閉形式下界を持ち、ネットワーク内の独立測地線を横断する自然な解釈を持ち、上記のネットワークファミリーに新たな洞察を与える。 特に、最短経路長分布は、上述のネットワーク族に対して、結合パーコレーションしきい値、巨大成分のサイズ、平均最短経路長、近接性と間隙中心性といった重要なグラフ特性を導出することができる。 また、20の経験的ネットワークの集合の相関解析も提供する。 この統合化フレームワークは、乱数グラフの豊富な族に対する測地統計を、真またはシミュレートされたネットワークにアクセスすることなく安価に計算できることを示す。

A key task in the study of networked systems is to derive local and global properties that impact connectivity, synchronizability, and robustness. Computing shortest paths or geodesics in the network yields measures of node centrality and network connectivity that can contribute to explain such phenomena. We derive an analytic distribution of shortest path lengths, on the giant component in the supercritical regime or on small components in the subcritical regime, of any sparse (possibly directed) graph with conditionally independent edges, in the infinite-size limit. We provide specific results for widely used network families like stochastic block models, dot-product graphs, random geometric graphs, and graphons. The survival function of the shortest path length distribution possesses a simple closed-form lower bound which is asymptotically tight for finite lengths, has a natural interpretation of traversing independent geodesics in the network, and delivers novel insight in the above network families. Notably, the shortest path length distribution allows us to derive, for the network families above, important graph properties like the bond percolation threshold, size of the giant component, average shortest path length, and closeness and betweenness centralities. We also provide a corroborative analysis of a set of 20 empirical networks. This unifying framework demonstrates how geodesic statistics for a rich family of random graphs can be computed cheaply without having access to true or simulated networks, especially when they are sparse but prohibitively large.
翻訳日:2021-11-04 14:49:35 公開日:2021-11-03
# (参考訳) 重量、ブロック、ユニット? Tiny Neural Acceleratorにおける音声強調のための空間トレードオフ探索

Weight, Block or Unit? Exploring Sparsity Tradeoffs for Speech Enhancement on Tiny Neural Accelerators ( http://arxiv.org/abs/2111.02351v1 )

ライセンス: CC BY 4.0
Marko Stamenovic, Nils L. Westhausen, Li-Chia Yang, Carl Jensen, Alex Pawlicki(参考訳) 我々は,低消費電力マイクロコントローラを用いたニューラルアクセラレータ(microNPU)の新世代のための最適構成まで,ニューラルネットワーク拡張(SE)を圧縮する目的で,ネットワークスペーシフィケーション戦略を検討する。 本研究は, 軽量刈り, ブロック刈り, ユニット刈りの3つの特異な空間構造について検討し, SEに適用した場合の利点と欠点について考察する。 我々は,計算スループットとメモリフットプリント,モデル品質の相互作用に注目した。 上記の3つの構造を全てサポートし、空間性とともに整数量子化重みを共同学習する。 さらに、整数量子化モデルのオフライン等級に基づくプルーニングを性能ベースラインとして示す。 効率的な音声強調は研究の活発な領域であるが,我々はまずSEにブロックプルーニングを適用し,まずマイクロNPUの文脈でSEモデル圧縮に対処する。 重み付け法を用いて、既にコンパクトなモデルのメモリフットプリントを3.7MBから87kBまで42倍圧縮でき、性能は0.1dBのSDRしか失わないことを示す。 また,ブロックプルーニングを用いて,SDRの0.59dB SDRに対応する6.7倍の高速化を示す。

We explore network sparsification strategies with the aim of compressing neural speech enhancement (SE) down to an optimal configuration for a new generation of low power microcontroller based neural accelerators (microNPU's). We examine three unique sparsity structures: weight pruning, block pruning and unit pruning; and discuss their benefits and drawbacks when applied to SE. We focus on the interplay between computational throughput, memory footprint and model quality. Our method supports all three structures above and jointly learns integer quantized weights along with sparsity. Additionally, we demonstrate offline magnitude based pruning of integer quantized models as a performance baseline. Although efficient speech enhancement is an active area of research, our work is the first to apply block pruning to SE and the first to address SE model compression in the context of microNPU's. Using weight pruning, we show that we are able to compress an already compact model's memory footprint by a factor of 42x from 3.7MB to 87kB while only losing 0.1 dB SDR in performance. We also show a computational speedup of 6.7x with a corresponding SDR drop of only 0.59 dB SDR using block pruning.
翻訳日:2021-11-04 14:47:33 公開日:2021-11-03
# (参考訳) Virus-MNIST:画像分類のための機械学習ベースライン計算

Virus-MNIST: Machine Learning Baseline Calculations for Image Classification ( http://arxiv.org/abs/2111.02375v1 )

ライセンス: CC BY 4.0
Erik Larsen, Korey MacVittie, and John Lilly(参考訳) Virus-MNISTデータセットは、ユビキタスなMNISTの手書き桁に類似したサムネイル画像の集合である。 しかし、これらは可能なマルウェアコードを画像配列に再構成することでキャストされる。 当然のことながら、ウイルス分類器モデルの訓練の進捗をベンチマークする役割を担っている。 10種類あり、9種類がマルウェア、1種類が良性である。 帰納試験は、分類と前処理の方法を選択する際に考慮すべき不等級人口やその他の重要な側面を明らかにする。 探索分析は、集約メトリクス(ピクセルの中央値など)や、強い相関を識別することで特徴の数を減らす方法から、識別可能な特性を示す。 モデルの比較により、光勾配ブースティングマシン、勾配ブースティング分類器、ランダムフォレストアルゴリズムが最も精度の高いスコアを示し、より深い精査が期待できることを示した。

The Virus-MNIST data set is a collection of thumbnail images that is similar in style to the ubiquitous MNIST hand-written digits. These, however, are cast by reshaping possible malware code into an image array. Naturally, it is poised to take on a role in benchmarking progress of virus classifier model training. Ten types are present: nine classified as malware and one benign. Cursory examination reveals unequal class populations and other key aspects that must be considered when selecting classification and pre-processing methods. Exploratory analyses show possible identifiable characteristics from aggregate metrics (e.g., the pixel median values), and ways to reduce the number of features by identifying strong correlations. A model comparison shows that Light Gradient Boosting Machine, Gradient Boosting Classifier, and Random Forest algorithms produced the highest accuracy scores, thus showing promise for deeper scrutiny.
翻訳日:2021-11-04 14:34:17 公開日:2021-11-03
# ランダム初期化CNNのためのJohnson-Lindenstraussフレームワーク

A Johnson--Lindenstrauss Framework for Randomly Initialized CNNs ( http://arxiv.org/abs/2111.02155v1 )

ライセンス: Link先を確認
Ido Nachum, Jan H\k{a}z{\l}a, Michael Gastpar, Anatoly Khina(参考訳) ニューラルネットワークの各ランダム初期化層の適用後、データセットの幾何表現はどのように変化するのか? 有名なjohnson-lindenstrauss lemmaは、線形完全連結ニューラルネットワーク(fnn)に関するこの疑問に答え、幾何学は本質的に保存されていると述べた。 ReLUアクティベーションを持つFNNでは、2つの入力間の角度は既知のマッピングに従って収縮する。 非線形畳み込みニューラルネットワーク(CNN)の問題はさらに複雑になる。 この質問に答えるために、幾何学的枠組みを紹介する。 線形CNNに対しては、ジョンソン-リンデンシュトラウス補題が引き続き保持され、すなわち、2つの入力間の角度が保存されていることを示す。 reluアクティベーションを持つcnnの場合、その挙動はより豊かである:出力間の角度は収縮し、そこでは収縮のレベルは入力の性質に依存する。 特に、ある層の後、自然画像の幾何学は本質的に保存され、ガウス相関入力の場合、cnnはreluアクティベーションを持つfnnと同じ収縮挙動を示す。

How does the geometric representation of a dataset change after the application of each randomly initialized layer of a neural network? The celebrated Johnson--Lindenstrauss lemma answers this question for linear fully-connected neural networks (FNNs), stating that the geometry is essentially preserved. For FNNs with the ReLU activation, the angle between two inputs contracts according to a known mapping. The question for non-linear convolutional neural networks (CNNs) becomes much more intricate. To answer this question, we introduce a geometric framework. For linear CNNs, we show that the Johnson--Lindenstrauss lemma continues to hold, namely, that the angle between two inputs is preserved. For CNNs with ReLU activation, on the other hand, the behavior is richer: The angle between the outputs contracts, where the level of contraction depends on the nature of the inputs. In particular, after one layer, the geometry of natural images is essentially preserved, whereas for Gaussian correlated inputs, CNNs exhibit the same contracting behavior as FNNs with ReLU activation.
翻訳日:2021-11-04 14:28:06 公開日:2021-11-03
# 分散グラフニューラルネットワークを用いたパワーフローバランシング

Power Flow Balancing with Decentralized Graph Neural Networks ( http://arxiv.org/abs/2111.02169v1 )

ライセンス: Link先を確認
Jonas Berg Hansen, Stian Normann Anfinsen, Filippo Maria Bianchi(参考訳) 汎用グリッド内の電力フローのバランスをとるために,グラフニューラルネットワーク(GNN)に基づくエンドツーエンドフレームワークを提案する。 最適化は、制御された頂点回帰タスクとして構成され、GNNは、電力フローバランスをもたらす各グリッドブランチにおける電流および電力注入を予測するために訓練される。 電力グリッドを分岐を頂点とした線グラフとして表現することにより、基底トポロジの変化に対してより正確で堅牢なGNNを訓練することができる。 さらに、特殊なGNNレイヤを使用することで、グラフ上の大きな近傍を考慮に入れながら、ローカライズされた操作のみを実装しながら、非常に深いアーキテクチャを構築することができる。 評価するために3つの異なる実験を行います 一 グローバルオペレーションではなくローカライズドを使用することの利点及び深層gnnモデルの使用時に過度に動揺する傾向 二 グラフトポロジーにおける摂動に対する弾力性 三 複数のグリッドトポロジ上でモデルを同時に訓練する能力及び新しい目に見えないグリッドへの一般化の連続的な改善 提案するフレームワークは,ディープラーニングに基づく他の解法と比較して効率的であり,グリッドコンポーネントの物理量だけでなくトポロジにも頑健である。

We propose an end-to-end framework based on a Graph Neural Network (GNN) to balance the power flows in a generic grid. The optimization is framed as a supervised vertex regression task, where the GNN is trained to predict the current and power injections at each grid branch that yield a power flow balance. By representing the power grid as a line graph with branches as vertices, we can train a GNN that is more accurate and robust to changes in the underlying topology. In addition, by using specialized GNN layers, we are able to build a very deep architecture that accounts for large neighborhoods on the graph, while implementing only localized operations. We perform three different experiments to evaluate: i) the benefits of using localized rather than global operations and the tendency to oversmooth when using deep GNN models; ii) the resilience to perturbations in the graph topology; and iii) the capability to train the model simultaneously on multiple grid topologies and the consequential improvement in generalization to new, unseen grids. The proposed framework is efficient and, compared to other solvers based on deep learning, is robust to perturbations not only to the physical quantities on the grid components, but also to the topology.
翻訳日:2021-11-04 14:27:48 公開日:2021-11-03
# 畳み込みニューラルネットワークを用いたエクソムーンの光度探索

Photometric Search for Exomoons by using Convolutional Neural Networks ( http://arxiv.org/abs/2111.02293v1 )

ライセンス: Link先を確認
Lukas Weghs(参考訳) 今まで、太陽系外惑星以外の衛星は確認されていません。 エクソモーンは、古典的居住ゾーンの外にある可能性のある新しい居住可能な場所を提供します。 しかし、これまでは古典的統計手法が採用されているため、エクソムーンの探索には多くの計算能力が必要だった。 深層学習と畳み込みニューラルネットワーク(CNN)を用いて, 実光曲線とトランジットのない実光曲線を併用した合成光曲線を学習することにより, エキソモンシグネチャを検出できることが示されている。 合成光曲線と観測光曲線の組み合わせによって訓練されたCNNはケプラーデータセットや同等のデータセットにおいて、衛星がより大きく、あるいはほぼ2-3地球半径に等しいものを見つけるために用いられる。 惑星トランジットや星の振動(plato)といった将来のミッションでニューラルネットワークを使用することで、エクソムーンの検出が可能になる。

Until now, there is no confirmed moon beyond our solar system (exomoon). Exomoons offer us new possibly habitable places which might also be outside the classical habitable zone. But until now, the search for exomoons needs much computational power because classical statistical methods are employed. It is shown that exomoon signatures can be found by using deep learning and Convolutional Neural Networks (CNNs), respectively, trained with synthetic light curves combined with real light curves with no transits. It is found that CNNs trained by combined synthetic and observed light curves may be used to find moons bigger or equal to roughly 2-3 earth radii in the Kepler data set or comparable data sets. Using neural networks in future missions like Planetary Transits and Oscillation of stars (PLATO) might enable the detection of exomoons.
翻訳日:2021-11-04 14:27:30 公開日:2021-11-03
# NIST SRE 2021のためのSTC話者認識システム

STC speaker recognition systems for the NIST SRE 2021 ( http://arxiv.org/abs/2111.02298v1 )

ライセンス: Link先を確認
Anastasia Avdeeva, Aleksei Gusev, Igor Korsunov, Alexander Kozlov, Galina Lavrentyeva, Sergey Novoselov, Timur Pekhovsky, Andrey Shulipa, Alisa Vinogradova, Vladimir Volokhov, Evgeny Smirnov, Vasily Galyuk(参考訳) 本稿では,nist 2021 話者認識評価に提出した stc ltd. システムについて,固定学習条件と開放学習条件の両方について述べる。 これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。 NIST 2021 SREの課題では、加算角マージンに基づく損失関数を用いて、ResNets や ECAPA ネットワークのような最先端の深層話者埋め込み抽出器の訓練に焦点をあてた。 さらに,音声認識におけるwav2vec 2.0の最近の成功に触発されて,提案手法の有効性について検討した。 我々の観測によれば、事前訓練された大型wav2vec 2.0モデルの微調整は、オープントラック条件に最適な性能を提供する。 固定条件に対するwav2vec 2.0ベースの抽出器を用いた実験により、コントラスト予測符号化損失を伴う教師なし自己回帰プリトレーニングが、生の音声信号から強力なトランスフォーマベースの抽出器を訓練するための扉を開くことが分かった。 ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。 一次システムの最終結果は, スコアレベルにおけるサブシステム融合の異なる構成と, スコアキャリブレーションによって得られた。

This paper presents a description of STC Ltd. systems submitted to the NIST 2021 Speaker Recognition Evaluation for both fixed and open training conditions. These systems consists of a number of diverse subsystems based on using deep neural networks as feature extractors. During the NIST 2021 SRE challenge we focused on the training of the state-of-the-art deep speaker embeddings extractors like ResNets and ECAPA networks by using additive angular margin based loss functions. Additionally, inspired by the recent success of the wav2vec 2.0 features in automatic speech recognition we explored the effectiveness of this approach for the speaker verification filed. According to our observation the fine-tuning of the pretrained large wav2vec 2.0 model provides our best performing systems for open track condition. Our experiments with wav2vec 2.0 based extractors for the fixed condition showed that unsupervised autoregressive pretraining with Contrastive Predictive Coding loss opens the door to training powerful transformer-based extractors from raw speech signals. For video modality we developed our best solution with RetinaFace face detector and deep ResNet face embeddings extractor trained on large face image datasets. The final results for primary systems were obtained by different configurations of subsystems fusion on the score level followed by score calibration.
翻訳日:2021-11-04 14:25:48 公開日:2021-11-03
# MIMO通信用SVD組み込みディープオートエンコーダ

SVD-Embedded Deep Autoencoder for MIMO Communications ( http://arxiv.org/abs/2111.02359v1 )

ライセンス: Link先を確認
Xinliang Zhang, Mojtaba Vaezi, Timothy J. O'Shea(参考訳) マルチインプットマルチアウトプット(MIMO)システムにおけるエンドツーエンド通信にディープオートエンコーダ(DAE)を用いることは、大きな可能性を秘めている新しい概念である。 DAE支援MIMOは、ビット誤り率(BER)の観点から、特異値分解(SVD)ベースのプリコードMIMOより優れていることが示されている。 本稿では,daeエンコーダとデコーダにチャネル行列の左右特異ベクトルを埋め込み,mimo空間多重化の性能をさらに向上させる手法を提案する。 SVD埋め込みDAEはBERの点で理論線形プリコーディングよりも優れている。 提案したDAEは,通信システムを単一エンドツーエンドの最適化ブロックとして扱うことにより,現在のシステム設計の限界を超える大きな可能性を実証している。 シミュレーション結果から,SNR=10dB において提案した SVD 埋め込み設計は BER を 10^{-5}$ に近づき,既存の SVD のない DAE と比較して BER を 10 倍,理論線形プリコーディングに比べて 18 倍向上させることができる。 我々は、提案するdaeが入力と出力とを有限アルファベット入力と適応変調構造としてマッチングできることを特徴とする。 また,DAEに残差接続を追加することで性能がさらに向上することが観察された。

Using a deep autoencoder (DAE) for end-to-end communication in multiple-input multiple-output (MIMO) systems is a novel concept with significant potential. DAE-aided MIMO has been shown to outperform singular-value decomposition (SVD)-based precoded MIMO in terms of bit error rate (BER). This paper proposes embedding left- and right-singular vectors of the channel matrix into DAE encoder and decoder to further improve the performance of MIMO spatial multiplexing. SVD-embedded DAE largely outperforms theoretic linear precoding in terms of BER. This is remarkable since it demonstrates that the proposed DAEs have significant potential to exceed the limits of current system design by treating the communication system as a single, end-to-end optimization block. Based on the simulation results, at SNR=10dB, the proposed SVD-embedded design can achieve BER nearly $10^{-5}$ and reduce the BER at least 10 times compared with existing DAE without SVD, and up to 18 times improvement compared with theoretical linear precoding. We attribute this to the fact that the proposed DAE can match the input and output as an adaptive modulation structure with finite alphabet input. We also observe that adding residual connections to the DAE further improves the performance.
翻訳日:2021-11-04 14:25:29 公開日:2021-11-03
# クロスドメイン特徴を有する深層学習に基づく非侵入的多目的音声評価モデル

Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features ( http://arxiv.org/abs/2111.02363v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Szu-Wei Fu, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao(参考訳) 本研究では,複数の発話評価指標を同時に推定できるクロスドメイン多目的音声評価モデル,すなわちmosa-netを提案する。 より具体的には、MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。 畳み込みニューラルネットワークと、表現抽出のための双方向長短期メモリ(CNN-BLSTM)アーキテクチャと、各評価基準に対する乗法的注意層と完全連結層とを備える。 さらに、自己教師付き学習モデルのクロスドメイン特徴(スペクトルと時間領域の特徴)と潜時表現を入力として、異なる音声表現からの豊かな音響情報を組み合わせてより正確な評価を得る。 実験結果から,MOSA-Netは,音声品質の知覚的評価(PESQ),短時間客観的インテリジェンス(STOI),音声歪み指数(SDI)のスコアを,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与している場合)と,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与していない場合)のいずれにおいても正確に予測できることがわかった。 確認された予測能力を考慮して、MOSA-Netの潜在表現を更に適用して、音声強調(SE)プロセスを導出し、品質認識性(QI-SE)アプローチを導出する。 実験結果から,QIA-SEは,客観的評価指標と定性評価試験の観点から,ベースラインSEシステムと比較して優れた向上性能を示すことが示された。

In this study, we propose a cross-domain multi-objective speech assessment model, i.e., the MOSA-Net, which can estimate multiple speech assessment metrics simultaneously. More specifically, the MOSA-Net is designed to estimate speech quality, intelligibility, and distortion assessment scores based on a test speech signal as input. It comprises a convolutional neural network and bidirectional long short-term memory (CNN-BLSTM) architecture for representation extraction, as well as a multiplicative attention layer and a fully-connected layer for each assessment metric. In addition, cross-domain features (spectral and time-domain features) and latent representations from self-supervised learned models are used as inputs to combine rich acoustic information from different speech representations to obtain more accurate assessments. Experimental results reveal that the MOSA-Net can precisely predict perceptual evaluation of speech quality (PESQ), short-time objective intelligibility (STOI), and speech distortion index (SDI) scores when tested on both noisy and enhanced speech utterances under either seen test conditions (where the test speakers and noise types are involved in the training set) or unseen test conditions (where the test speakers and noise types are not involved in the training set). In light of the confirmed prediction capability, we further adopt the latent representations of the MOSA-Net to guide the speech enhancement (SE) process and derive a quality-intelligibility (QI)-aware SE (QIA-SE) approach accordingly. Experimental results show that QIA-SE provides superior enhancement performance compared with the baseline SE system in terms of objective evaluation metrics and qualitative evaluation test.
翻訳日:2021-11-04 14:25:07 公開日:2021-11-03
# どんなロボットが必要なの? グラフニューラルネットワークを用いた形態と制御の高速同時適応

What Robot do I Need? Fast Co-Adaptation of Morphology and Control using Graph Neural Networks ( http://arxiv.org/abs/2111.02371v1 )

ライセンス: Link先を確認
Kevin Sebastian Luck, Roberto Calandra, Michael Mistry(参考訳) 高速な3次元製造法と効率的な深層強化学習アルゴリズムの出現に伴い,ロボット形態と行動の共適応がますます重要になる。 共適応手法を現実世界に適用する上での大きな課題は、モデルとシミュレーションの不正確さによるシミュレーション対現実ギャップである。 しかし、先行研究は主に、解析モデルや、人口規模が大きい(微分可能な)シミュレータを活用した形態学の進化的適応の研究に焦点をあて、シミュレーション・トゥ・レアリティ・ギャップの存在や実世界における製造サイクルのコストを無視している。 本稿では,従来の高周波数深部ニューラルネットワークと計算コストの高いグラフニューラルネットワークを組み合わせることで,自由度が変化するエージェントのデータ効率の共適応を提案する。 シミュレーションによる評価は, 設計最適化とオフライン強化学習を効率的に組み合わせることで, 限られた数の生産サイクル内でエージェントを協調的に適用できることを示す。

The co-adaptation of robot morphology and behaviour becomes increasingly important with the advent of fast 3D-manufacturing methods and efficient deep reinforcement learning algorithms. A major challenge for the application of co-adaptation methods to the real world is the simulation-to-reality-gap due to model and simulation inaccuracies. However, prior work focuses primarily on the study of evolutionary adaptation of morphologies exploiting analytical models and (differentiable) simulators with large population sizes, neglecting the existence of the simulation-to-reality-gap and the cost of manufacturing cycles in the real world. This paper presents a new approach combining classic high-frequency deep neural networks with computational expensive Graph Neural Networks for the data-efficient co-adaptation of agents with varying numbers of degrees-of-freedom. Evaluations in simulation show that the new method can co-adapt agents within such a limited number of production cycles by efficiently combining design optimization with offline reinforcement learning, that it allows for the direct application to real-world co-adaptation tasks in future work
翻訳日:2021-11-04 14:24:37 公開日:2021-11-03
# (参考訳) 侵入検出:画像分類のための機械学習ベースライン計算

Intrusion Detection: Machine Learning Baseline Calculations for Image Classification ( http://arxiv.org/abs/2111.02378v1 )

ライセンス: CC BY 4.0
Erik Larsen, Korey MacVittie, John Lilly(参考訳) サイバーセキュリティは、ネットワーク攻撃データをイメージフォーマットに再キャストし、教師付きコンピュータビジョンやその他の機械学習技術を用いて悪意ある検体を検出することによって、機械学習の適用によって強化することができる。 探索データ分析では,本研究で使用されている10種類のマルウェアの相関性はほとんどなく,識別性もほとんどない。 一般的なモデル比較では、考慮すべき最も有望な候補は、光グラディエントブースティングマシン、ランダムフォレスト分類器、エクストラツリー分類器である。 畳み込みネットワークは、単純で完全に接続されたアーキテクチャに取って代わられ、優れた分類能力を提供できない。 ほとんどのテストでは、80%の精度を損ねて低いf1スコアを提示できず、パフォーマンスを最大化するためにより洗練されたアプローチ(ブートストラップ、ランダムサンプル、特徴選択など)が必要となる可能性がある。

Cyber security can be enhanced through application of machine learning by recasting network attack data into an image format, then applying supervised computer vision and other machine learning techniques to detect malicious specimens. Exploratory data analysis reveals little correlation and few distinguishing characteristics between the ten classes of malware used in this study. A general model comparison demonstrates that the most promising candidates for consideration are Light Gradient Boosting Machine, Random Forest Classifier, and Extra Trees Classifier. Convolutional networks fail to deliver their outstanding classification ability, being surpassed by a simple, fully connected architecture. Most tests fail to break 80% categorical accuracy and present low F1 scores, indicating more sophisticated approaches (e.g., bootstrapping, random samples, and feature selection) may be required to maximize performance.
翻訳日:2021-11-04 14:23:33 公開日:2021-11-03
# データの粒度をまたぐリンク:多変量ホークプロセスと部分的間隔補正データ

Linking Across Data Granularity: Fitting Multivariate Hawkes Processes to Partially Interval-Censored Data ( http://arxiv.org/abs/2111.02062v1 )

ライセンス: Link先を確認
Pio Calderon, Alexander Soen, Marian-Andrei Rizoiu(参考訳) 本研究は,多変量ホークス過程を,次元のサブセット上のイベントタイムスタンプの混合と相補的次元の区間補正イベントカウントからなる部分的区間検閲データに適合させるために利用できる,新しい多変量時間点過程である部分平均行動ポアソン(pmbp)プロセスを導入する。 まず, PMBP過程を条件強度で定義し, サブクリティカル性の規則性条件を導出する。 我々は,Hawkes法とMBP法の両方(Rizoiu et al. (2021))がPMBP法の特別な場合であることを示す。 第2に,pmbpプロセスの条件強度とサンプリングイベント履歴の計算を可能にする数値スキームを提案する。 第3に,合成および実世界のデータセットを用いて実証実験を行い,PMBPプロセスの適用性を実証する: ホークスプロセスのサンプルイベント履歴から,多変量ホークスパラメータを復元するPMBPプロセスの有効性を検証する。 次に、Youtubeの人気予測タスクにおけるPMBPプロセスの評価を行い、現在最先端のホークス強度プロセス(Rizoiu et al. (2017b))より優れていることを示す。 最後に、各国の事例数とCOVID19関連ニュース記事のキュレートしたデータセットを用いて、PMBPに適合したパラメータのクラスタリングにより、ケースとニュースレポートの国レベルの相互作用に関して、各国の分類が可能となることを示す。

This work introduces a novel multivariate temporal point process, the Partial Mean Behavior Poisson (PMBP) process, which can be leveraged to fit the multivariate Hawkes process to partially interval-censored data consisting of a mix of event timestamps on a subset of dimensions and interval-censored event counts on the complementary dimensions. First, we define the PMBP process via its conditional intensity and derive the regularity conditions for subcriticality. We show that both the Hawkes process and the MBP process (Rizoiu et al. (2021)) are special cases of the PMBP process. Second, we provide numerical schemes that enable calculating the conditional intensity and sampling event histories of the PMBP process. Third, we demonstrate the applicability of the PMBP process by empirical testing using synthetic and real-world datasets: We test the capability of the PMBP process to recover multivariate Hawkes parameters given sample event histories of the Hawkes process. Next, we evaluate the PMBP process on the Youtube popularity prediction task and show that it outperforms the current state-of-the-art Hawkes Intensity process (Rizoiu et al. (2017b)). Lastly, on a curated dataset of COVID19 daily case counts and COVID19-related news articles for a sample of countries, we show that clustering on the PMBP-fitted parameters enables a categorization of countries with respect to the country-level interaction of cases and news reporting.
翻訳日:2021-11-04 14:17:46 公開日:2021-11-03
# 異質性緩和と分散低減を伴う連合期待最大化

Federated Expectation Maximization with heterogeneity mitigation and variance reduction ( http://arxiv.org/abs/2111.02083v1 )

ライセンス: Link先を確認
Aymeric Dieuleveut (X-DEP-MATHAPP), Gersende Fort (IMT), Eric Moulines (X-DEP-MATHAPP), Genevi\`eve Robin (LaMME)(参考訳) expectation Maximization (EM)アルゴリズムは、潜在変数モデルにおける推論のデフォルトアルゴリズムである。 機械学習の他の分野と同様に、非常に大きなデータセットへの潜在変数モデルの応用は、高度な並列および分散アーキテクチャの使用を必須とする。 本稿では,フェデレート学習コンテキストへのEMアルゴリズムの最初の拡張であるFedEMを紹介する。 FedEMは、ローカルデバイスの部分的な参加を扱う新しい通信効率向上手法であり、データセットの異種分布に対して堅牢である。 通信ボトルネックを軽減するため、FedEMは適切に定義された完全な統計データを圧縮する。 我々はまた、分散還元スキームをさらに組み込むためのFedEMの拡張を開発し、分析する。 いずれの場合も、滑らかな非凸問題に対する有限時間複雑性境界を導出する。 本研究の理論的知見と,生物多様性モニタリングのためのフェデレーション付き欠落値計算への応用について検討した。

The Expectation Maximization (EM) algorithm is the default algorithm for inference in latent variable models. As in any other field of machine learning, applications of latent variable models to very large datasets make the use of advanced parallel and distributed architectures mandatory. This paper introduces FedEM, which is the first extension of the EM algorithm to the federated learning context. FedEM is a new communication efficient method, which handles partial participation of local devices, and is robust to heterogeneous distributions of the datasets. To alleviate the communication bottleneck, FedEM compresses appropriately defined complete data sufficient statistics. We also develop and analyze an extension of FedEM to further incorporate a variance reduction scheme. In all cases, we derive finite-time complexity bounds for smooth non-convex problems. Numerical results are presented to support our theoretical findings, as well as an application to federated missing values imputation for biodiversity monitoring.
翻訳日:2021-11-04 14:17:19 公開日:2021-11-03
# reluニューラルネットワークにおける誤分類による正規化

Regularization by Misclassification in ReLU Neural Networks ( http://arxiv.org/abs/2111.02154v1 )

ライセンス: Link先を確認
Elisabetta Cornacchia, Jan H\k{a}z{\l}a, Ido Nachum, Amir Yehudayoff(参考訳) sgd の変種によって訓練された relu ニューラルネットワークの暗黙のバイアスについて検討し,各ステップにおいて確率 $p$ でラベルをランダムラベルに変更する(ラベル平滑化はこの手順の近縁な変種である)。 実験により、ラベルノイズは、典型的な入力の場合、少数のニューロンがアクティブであり、隠れた層の発火パターンはスペーサーである。 実際に、いくつかのケースでは、適切なラベルノイズがネットワークを混乱させるだけでなく、テストエラーを減らす。 すると、そのようなスパーシフィケーション機構の理論解析に目を向け、$p=1$の極端ケースに焦点をあてる。 このケースでは、ネットワークは実験から予想されたように枯渇するが、驚くべきことに、学習速度とバイアスの存在に依存するさまざまな方法で、重みが消失するか、ニューロンが燃え尽きるかのどちらかである。

We study the implicit bias of ReLU neural networks trained by a variant of SGD where at each step, the label is changed with probability $p$ to a random label (label smoothing being a close variant of this procedure). Our experiments demonstrate that label noise propels the network to a sparse solution in the following sense: for a typical input, a small fraction of neurons are active, and the firing pattern of the hidden layers is sparser. In fact, for some instances, an appropriate amount of label noise does not only sparsify the network but further reduces the test error. We then turn to the theoretical analysis of such sparsification mechanisms, focusing on the extremal case of $p=1$. We show that in this case, the network withers as anticipated from experiments, but surprisingly, in different ways that depend on the learning rate and the presence of bias, with either weights vanishing or neurons ceasing to fire.
翻訳日:2021-11-04 14:17:05 公開日:2021-11-03
# 固定翼uavセルアクセスポイントのエネルギー効率を最適化するマルチエージェント深層強化学習

Multi-Agent Deep Reinforcement Learning For Optimising Energy Efficiency of Fixed-Wing UAV Cellular Access Points ( http://arxiv.org/abs/2111.02258v1 )

ライセンス: Link先を確認
Boris Galkin, Babatunji Omoniwa, Ivana Dusparic(参考訳) 無人航空機(uavs)は、既存の地上ネットワークを補完するために地上ユーザーにワイヤレス接続を提供するため、次世代通信の本質的な部分になることを約束している。 UAVアクセスポイントの使用に関する既存の研究の大部分は、回転翼型UAV設計(すなわちクワッドコプター)を考慮に入れている。 しかし、固定翼uavは、回転翼設計に比べてエネルギー効率の良い飛行形態に依存しているため、長い飛行時間が必要なシナリオ(農村圏など)において、接続性のためにより適していると期待する。 固定翼UAVは、通常はホバリングができないため、その展開最適化は、地上のユーザーに対してエネルギー効率のよい高品質なサービスを提供できるように、個々の飛行軌跡を最適化する。 本稿では,固定翼uavセルラーアクセスポイントのエネルギー効率を最適化し,地上ユーザに対して高品質なサービスを提供するためのマルチエージェント深層強化学習手法を提案する。 我々の分散化アプローチでは、各UAVは、一連のタイムステップでUAVの3次元軌道を調整できるDueling Deep Q-Network (DDQN)エージェントを備えている。 近隣諸国と協調することで、UAVは個々の飛行軌道を調整し、システム全体のエネルギー効率を最適化する。 我々は,一連のヒューリスティックな軌道計画戦略に対してアプローチの性能をベンチマークし,我々の手法がシステムエネルギー効率を最大70%向上できることを実証した。

Unmanned Aerial Vehicles (UAVs) promise to become an intrinsic part of next generation communications, as they can be deployed to provide wireless connectivity to ground users to supplement existing terrestrial networks. The majority of the existing research into the use of UAV access points for cellular coverage considers rotary-wing UAV designs (i.e. quadcopters). However, we expect fixed-wing UAVs to be more appropriate for connectivity purposes in scenarios where long flight times are necessary (such as for rural coverage), as fixed-wing UAVs rely on a more energy-efficient form of flight when compared to the rotary-wing design. As fixed-wing UAVs are typically incapable of hovering in place, their deployment optimisation involves optimising their individual flight trajectories in a way that allows them to deliver high quality service to the ground users in an energy-efficient manner. In this paper, we propose a multi-agent deep reinforcement learning approach to optimise the energy efficiency of fixed-wing UAV cellular access points while still allowing them to deliver high-quality service to users on the ground. In our decentralized approach, each UAV is equipped with a Dueling Deep Q-Network (DDQN) agent which can adjust the 3D trajectory of the UAV over a series of timesteps. By coordinating with their neighbours, the UAVs adjust their individual flight trajectories in a manner that optimises the total system energy efficiency. We benchmark the performance of our approach against a series of heuristic trajectory planning strategies, and demonstrate that our method can improve the system energy efficiency by as much as 70%.
翻訳日:2021-11-04 14:16:48 公開日:2021-11-03
# 粒子相互作用の学習による粒状物質の操作

Manipulation of granular materials by learning particle interactions ( http://arxiv.org/abs/2111.02274v1 )

ライセンス: Link先を確認
Neea Tuomainen, David Blanco-Mulero, Ville Kyrki(参考訳) 砂や米などの粒状物質の操作は、材料粒子の相互作用のモデル化が困難であるため、未解決の課題である。 現在のアプローチは物質力学を単純化し、粒子間の相互作用を省略する傾向がある。 本稿では,物質とそれを操作する剛体との相互作用のダイナミクスをモデル化するために,グラフに基づく表現を提案する。 これにより、操作軌跡の計画がその素材の所望の構成に到達することができる。 グラフニューラルネットワーク(GNN)を用いて、メッセージパッシングによる粒子間相互作用をモデル化する。 そこで本研究では,粒子分布と所望の形状とのワッサーシュタイン距離を最小化することを提案する。 提案手法は, シミュレーションと実シナリオの両方において, 所望の構成に粒状材料を注入できることを実証する。

Manipulation of granular materials such as sand or rice remains an unsolved challenge due to the difficulty of modeling material particles interacting with each other. Current approaches tend to simplify the material dynamics and omit the interactions between the particles. In this paper, we propose to use a graph-based representation to model the interaction dynamics of the material and rigid bodies manipulating it. This allows the planning of manipulation trajectories to reach a desired configuration of the material. We use a graph neural network (GNN) to model the particle interactions via message-passing. To plan manipulation trajectories, we propose to minimise the Wasserstein distance between the distribution of granular particles and the desired configuration. We demonstrate that the proposed method is able to pour granular materials into the desired configuration both in simulated and real scenarios.
翻訳日:2021-11-04 14:16:23 公開日:2021-11-03
# プライベートに公開可能な個人プライバシ

Privately Publishable Per-instance Privacy ( http://arxiv.org/abs/2111.02281v1 )

ライセンス: Link先を確認
Rachel Redberg, Yu-Xiang Wang(参考訳) 目的の摂動によって生じるパーソナライズされたプライバシ損失を,PDP(Per-instance differential privacy)を用いてプライベートに共有する方法を検討する。 標準差分プライバシ(dp)は、固定データセットに対する特定の個人に対するプライバシの損失よりも桁違いに大きい、最悪のケース境界を提供します。 pDPフレームワークは、ターゲット個人に対してより詳細なプライバシ保証の分析を提供するが、インスタンスごとのプライバシ損失自体が機密データの機能である可能性がある。 本稿では,目的的摂動によって学習した個人的経験的リスク最小化によるプライバシ損失を分析し,プライバシコストを少しか全く増やさずに,個人的かつ正確にpdp損失を公表する方法を提案する。

We consider how to privately share the personalized privacy losses incurred by objective perturbation, using per-instance differential privacy (pDP). Standard differential privacy (DP) gives us a worst-case bound that might be orders of magnitude larger than the privacy loss to a particular individual relative to a fixed dataset. The pDP framework provides a more fine-grained analysis of the privacy guarantee to a target individual, but the per-instance privacy loss itself might be a function of sensitive data. In this paper, we analyze the per-instance privacy loss of releasing a private empirical risk minimizer learned via objective perturbation, and propose a group of methods to privately and accurately publish the pDP losses at little to no additional privacy cost.
翻訳日:2021-11-04 14:16:13 公開日:2021-11-03
# スパース・フェデレーション・アナリティクスに向けて:セキュアアグリゲーションによる分散差分プライバシー下の位置ヒートマップ

Towards Sparse Federated Analytics: Location Heatmaps under Distributed Differential Privacy with Secure Aggregation ( http://arxiv.org/abs/2111.02356v1 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Peter Kairouz, Stefan Mellem, Adri\`a Gasc\'on, Kallista Bonawitz, Deborah Estrin and Marco Gruteser(参考訳) 何百万ものユーザデバイスから分散データに対して,位置情報ヒートマップをプライベートに生成するためのスケーラブルなアルゴリズムを設計した。 データの精度が高く、ユーザのデバイス上のリソース消費を最小限に抑えながら、データがサービスプロバイダに見えるようになる前に、ディファレンシャルプライバシを確保することを目的としている。 そこで我々は,セキュアなマルチパーティ計算分野における最近の結果に基づいて分散微分プライバシーの概念を再検討し,位置分析のためのスケーラブルで適応的な分散微分プライバシーアプローチを設計する。 パブリックロケーションデータセットの評価から、このアプローチは数百万のユーザサンプルから、最先端のクライアント通信オーバーヘッドを持つ大都市圏のヒートマップを生成することに成功した。

We design a scalable algorithm to privately generate location heatmaps over decentralized data from millions of user devices. It aims to ensure differential privacy before data becomes visible to a service provider while maintaining high data accuracy and minimizing resource consumption on users' devices. To achieve this, we revisit the distributed differential privacy concept based on recent results in the secure multiparty computation field and design a scalable and adaptive distributed differential privacy approach for location analytics. Evaluation on public location datasets shows that this approach successfully generates metropolitan-scale heatmaps from millions of user samples with a worst-case client communication overhead that is significantly smaller than existing state-of-the-art private protocols of similar accuracy.
翻訳日:2021-11-04 14:15:57 公開日:2021-11-03
# マルチキュー適応感情認識ネットワーク

Multi-Cue Adaptive Emotion Recognition Network ( http://arxiv.org/abs/2111.02273v1 )

ライセンス: Link先を確認
Willams Costa, David Mac\^edo, Cleber Zanchettin, Lucas S. Figueiredo and Veronica Teichrieb(参考訳) 表情や身体表現を通じて感情を表現し識別することは、社会的相互作用の重要な部分である。 感情認識はコンピュータビジョンにおいて、その様々な応用と、主に人間と機械とのより自然な相互作用を可能にするために不可欠なタスクである。 感情認識の一般的なアプローチは表情の分析に重点を置いており、画像中の顔を自動的に位置決めする必要がある。 これらの手法は、制御されたシナリオで感情を正しく分類することができるが、制約のない日々のインタラクションを扱う場合に制限される。 本研究では,社会的相互作用やコミュニケーションに一般的に使用されるコンテキストや身体のポーズから情報を抽出する適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。 提案手法とCAER-Sデータセットの最先端アプローチを比較し,89.30%の精度でパイプライン内の異なるコンポーネントを評価する。

Expressing and identifying emotions through facial and physical expressions is a significant part of social interaction. Emotion recognition is an essential task in computer vision due to its various applications and mainly for allowing a more natural interaction between humans and machines. The common approaches for emotion recognition focus on analyzing facial expressions and requires the automatic localization of the face in the image. Although these methods can correctly classify emotion in controlled scenarios, such techniques are limited when dealing with unconstrained daily interactions. We propose a new deep learning approach for emotion recognition based on adaptive multi-cues that extract information from context and body poses, which humans commonly use in social interaction and communication. We compare the proposed approach with the state-of-art approaches in the CAER-S dataset, evaluating different components in a pipeline that reached an accuracy of 89.30%
翻訳日:2021-11-04 14:15:41 公開日:2021-11-03
# (参考訳) IoTファームウェアにおけるマルウェア検出のための機械学習アルゴリズムの検討

A Survey of Machine Learning Algorithms for Detecting Malware in IoT Firmware ( http://arxiv.org/abs/2111.02388v1 )

ライセンス: CC BY 4.0
Erik Larsen, Korey MacVittie, John Lilly(参考訳) この研究は、iot(internet-of-things)ファームウェアデータセットで機械学習技術を使用して、エッジデバイスへの悪意のある侵入や、ネットワーク全体の破壊を検知する。 ファームウェアのアップデートはIoTデバイスでは珍しく、脆弱性が多い。 このようなデバイスに対する攻撃は気づかず、ユーザはセキュリティの弱点になる可能性がある。 マルウェアはddos攻撃を引き起こし、人々の家のような機密性の高い地域をスパイする。 この脅威を軽減するため、本論文ではiotファームウェアを分類する機械学習アルゴリズムを数多く採用し、最も優れたモデルが報告されている。 一般的な比較では、上位3つのアルゴリズムは勾配ブースティング、ロジスティック回帰、ランダムフォレスト分類器である。 ConvolutionalやFully Connected Neural Networksなど、実験的および実証済みのアーキテクチャによるディープラーニングアプローチも検討されている。

This work explores the use of machine learning techniques on an Internet-of-Things firmware dataset to detect malicious attempts to infect edge devices or subsequently corrupt an entire network. Firmware updates are uncommon in IoT devices; hence, they abound with vulnerabilities. Attacks against such devices can go unnoticed, and users can become a weak point in security. Malware can cause DDoS attacks and even spy on sensitive areas like peoples' homes. To help mitigate this threat, this paper employs a number of machine learning algorithms to classify IoT firmware and the best performing models are reported. In a general comparison, the top three algorithms are Gradient Boosting, Logistic Regression, and Random Forest classifiers. Deep learning approaches including Convolutional and Fully Connected Neural Networks with both experimental and proven successful architectures are also explored.
翻訳日:2021-11-04 14:14:17 公開日:2021-11-03
# 超高分解能SARインテンシティデータを用いた深層学習に基づくシングルイメージハイト再構成

Deep-Learning-Based Single-Image Height Reconstruction from Very-High-Resolution SAR Intensity Data ( http://arxiv.org/abs/2111.02061v1 )

ライセンス: Link先を確認
Michael Recla, Michael Schmitt(参考訳) 当初、画像に基づくナビゲーションを念頭に置いて、ロボット工学や自動運転などの分野で開発された深層学習に基づく単一画像深度推定(SIDE)は、より広い画像分析コミュニティにおいて大きな関心を集めている。 リモートセンシングは例外ではなく、単一の空中画像や衛星画像から高度マップを推定できる可能性は、地形復元の文脈において大きな可能性がある。 いくつかの先駆的な研究により、光学的リモートセンシング画像からの単一画像高さ予測の汎用性が実証され、その方向へのさらなる研究の動機となった。 本稿では,リモートセンシングにおける他の重要なセンサモードである合成開口レーダ(SAR)データに対する,深層学習に基づく単一画像の高さ予測の初めての実演を示す。 SAR強度画像に対する畳み込みニューラルネットワーク(CNN)アーキテクチャの適用に加えて、トレーニングデータの生成のためのワークフローと、異なるSARイメージングモードとテストサイトに対する広範な実験結果を示す。 トランスファー可能性に特に重点を置いているため,異なる撮像モードや撮像パラメータが取得した場合でも,深層学習に基づく1画像高さ推定が可能となるだけでなく,未認識データへの転送も良好であることが確認できた。

Originally developed in fields such as robotics and autonomous driving with image-based navigation in mind, deep learning-based single-image depth estimation (SIDE) has found great interest in the wider image analysis community. Remote sensing is no exception, as the possibility to estimate height maps from single aerial or satellite imagery bears great potential in the context of topographic reconstruction. A few pioneering investigations have demonstrated the general feasibility of single image height prediction from optical remote sensing images and motivate further studies in that direction. With this paper, we present the first-ever demonstration of deep learning-based single image height prediction for the other important sensor modality in remote sensing: synthetic aperture radar (SAR) data. Besides the adaptation of a convolutional neural network (CNN) architecture for SAR intensity images, we present a workflow for the generation of training data, and extensive experimental results for different SAR imaging modes and test sites. Since we put a particular emphasis on transferability, we are able to confirm that deep learning-based single-image height estimation is not only possible, but also transfers quite well to unseen data, even if acquired by different imaging modes and imaging parameters.
翻訳日:2021-11-04 14:06:44 公開日:2021-11-03
# 機械知覚のための学習画像圧縮

Learned Image Compression for Machine Perception ( http://arxiv.org/abs/2111.02249v1 )

ライセンス: Link先を確認
Felipe Codevilla, Jean Gabriel Simard, Ross Goroshin and Chris Pal(参考訳) 近年の研究では、学習した画像圧縮戦略が、速度歪みトレードオフに関する何十年にも渡って開発されてきた標準的な手作り圧縮アルゴリズムより優れていることが示されている。 コンピュータビジョンの応用が増えているため、圧縮性表現からの高品質な画像再構成は、しばしば二次的な目的である。 画像のセグメンテーション、分類、検出などのコンピュータビジョンタスクにおいて高い精度を保証する圧縮は、様々な環境において大きな影響を与える可能性がある。 本研究では,人間の知覚と機械知覚の両方に適した圧縮フォーマットを生成するフレームワークを開発する。 コアビジョンタスクの圧縮と性能を同時に最適化する表現が学習可能であることを示す。 このアプローチでは,圧縮表現からモデルを直接トレーニングすることが可能であり,新しいタスクや低ショット学習環境でのパフォーマンス向上を実現する。 本稿では,標準品質のJPGに比べてセグメント化と検出性能が向上するが,画素あたりのビット数では4倍から10倍の表現が可能であることを示す。 さらに,従来のJEPGの10倍の圧縮手法とは異なり,我々のフォーマットからトレーニングしたセグメンテーションと検出モデルは,性能がわずかに低下するのみである。

Recent work has shown that learned image compression strategies can outperform standard hand-crafted compression algorithms that have been developed over decades of intensive research on the rate-distortion trade-off. With growing applications of computer vision, high quality image reconstruction from a compressible representation is often a secondary objective. Compression that ensures high accuracy on computer vision tasks such as image segmentation, classification, and detection therefore has the potential for significant impact across a wide variety of settings. In this work, we develop a framework that produces a compression format suitable for both human perception and machine perception. We show that representations can be learned that simultaneously optimize for compression and performance on core vision tasks. Our approach allows models to be trained directly from compressed representations, and this approach yields increased performance on new tasks and in low-shot learning settings. We present results that improve upon segmentation and detection performance compared to standard high quality JPGs, but with representations that are four to ten times smaller in terms of bits per pixel. Further, unlike naive compression methods, at a level ten times smaller than standard JEPGs, segmentation and detection models trained from our format suffer only minor degradation in performance.
翻訳日:2021-11-04 14:06:22 公開日:2021-11-03
# ml-persref: 移動車両から外部オブジェクトを参照する機械学習ベースのパーソナライズされたマルチモーダル融合アプローチ

ML-PersRef: A Machine Learning-based Personalized Multimodal Fusion Approach for Referencing Outside Objects From a Moving Vehicle ( http://arxiv.org/abs/2111.02327v1 )

ライセンス: Link先を確認
Amr Gomaa, Guillermo Reyes, Michael Feld(参考訳) 過去数十年、何百ものセンサーが現代の車両に追加され、その能力は指数関数的に増加した。 これにより、感情認識、頭部回転、視線、ポインティングジェスチャーといった従来のタッチベースおよび音声コマンドアプローチを越えて、車両と対話する新たなアプローチが可能になる。 視線とポインティングのジェスチャーは、以前は車内外の物体を参照するために用いられてきたが、これらのジェスチャーのマルチモーダル相互作用と融合は、これまで広く研究されていない。 シミュレーション環境下での長い運転経路を維持しながら、車外物体を参照するための学習に基づく新しいマルチモーダル融合手法を提案する。 提案するマルチモーダルアプローチは,複数の側面と条件において単一モダリティアプローチよりも優れている。 さらに,参照タスクの完了時にユーザ間の行動差を利用する方法を示し,各ドライバに適応可能なパーソナライズシステムを実現する。 本稿では,個人主義的参照行動に適応し,予測性を高めるために,超小型データサイズの学習概念に基づくパーソナライズ手法を提案する。 私たちのコードはhttps://github.com/amr-gomaa/ML-PersRefで公開されています。

Over the past decades, the addition of hundreds of sensors to modern vehicles has led to an exponential increase in their capabilities. This allows for novel approaches to interaction with the vehicle that go beyond traditional touch-based and voice command approaches, such as emotion recognition, head rotation, eye gaze, and pointing gestures. Although gaze and pointing gestures have been used before for referencing objects inside and outside vehicles, the multimodal interaction and fusion of these gestures have so far not been extensively studied. We propose a novel learning-based multimodal fusion approach for referencing outside-the-vehicle objects while maintaining a long driving route in a simulated environment. The proposed multimodal approaches outperform single-modality approaches in multiple aspects and conditions. Moreover, we also demonstrate possible ways to exploit behavioral differences between users when completing the referencing task to realize an adaptable personalized system for each driver. We propose a personalization technique based on the transfer-of-learning concept for exceedingly small data sizes to enhance prediction and adapt to individualistic referencing behavior. Our code is publicly available at https://github.com/amr-gomaa/ML-PersRef.
翻訳日:2021-11-04 14:06:03 公開日:2021-11-03
# Phylo Transformer:マルチヘッド自己注意機構に基づく突然変異予測の判別モデル

PhyloTransformer: A Discriminative Model for Mutation Prediction Based on a Multi-head Self-attention Mechanism ( http://arxiv.org/abs/2111.01969v1 )

ライセンス: Link先を確認
Yingying Wu, Shusheng Xu, Shing-Tung Yau, Yi Wu(参考訳) 重症急性呼吸器症候群ウイルス2(SARS-CoV-2)は10/19/21で219万人が感染し、死亡率は3.6%となっている。 しかし、特定されたウイルスは氷山の一角であり、潜在的に致命的な種類の懸念(VOC)が時間とともに出現する可能性がある。 出現するVOCのパターンを理解し、機能の獲得や免疫的脱出につながる可能性のある突然変異を予測することが急務である。 そこで我々は遺伝子変異をモデル化するために多頭自己付着機構を組み込んだトランスフォーマによる識別モデルであるphylotransformerを開発した。 入力シーケンスの各要素間の複雑な依存関係を識別するために、Phylo TransformerはPerformerからの新しいFast Attention Via positive Orthogonal Random Feature approach (FAVOR+)、Bidirectional Encoder Representations from Transformers (BERT)からのMasked Language Model (MLM)など、高度なモデリング技術を使用している。 PhyloTransformerはGISAID(Global Initiative for Sharing All Influenza Data)データベースから取得した1,765,297の遺伝子配列で訓練された。 まず,新しい変異と新しい組み合わせの予測精度を広範なベースラインモデルを用いて比較したところ,PhyloTransformerはすべてのベースライン法で統計的に優れていた。 次に、受容体結合モチーフ(rbm)の各ヌクレオチドの変異の予測について検討し、その予測が正確かつ正確であることを見出した。 第3に,N-グリコシル化部位の変異を予測し,ウイルスの進化に好適な変異を同定した。 我々はPhyloTransformerが将来のSARS-CoV-2変異体を効果的に標的としたプロアクティブワクチン設計を導くことを期待する。

Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) has caused an ongoing pandemic infecting 219 million people as of 10/19/21, with a 3.6% mortality rate. Natural selection can generate favorable mutations with improved fitness advantages; however, the identified coronaviruses may be the tip of the iceberg, and potentially more fatal variants of concern (VOCs) may emerge over time. Understanding the patterns of emerging VOCs and forecasting mutations that may lead to gain of function or immune escape is urgently required. Here we developed PhyloTransformer, a Transformer-based discriminative model that engages a multi-head self-attention mechanism to model genetic mutations that may lead to viral reproductive advantage. In order to identify complex dependencies between the elements of each input sequence, PhyloTransformer utilizes advanced modeling techniques, including a novel Fast Attention Via positive Orthogonal Random features approach (FAVOR+) from Performer, and the Masked Language Model (MLM) from Bidirectional Encoder Representations from Transformers (BERT). PhyloTransformer was trained with 1,765,297 genetic sequences retrieved from the Global Initiative for Sharing All Influenza Data (GISAID) database. Firstly, we compared the prediction accuracy of novel mutations and novel combinations using extensive baseline models; we found that PhyloTransformer outperformed every baseline method with statistical significance. Secondly, we examined predictions of mutations in each nucleotide of the receptor binding motif (RBM), and we found our predictions were precise and accurate. Thirdly, we predicted modifications of N-glycosylation sites to identify mutations associated with altered glycosylation that may be favored during viral evolution. We anticipate that PhyloTransformer may guide proactive vaccine design for effective targeting of future SARS-CoV-2 variants.
翻訳日:2021-11-04 14:02:44 公開日:2021-11-03
# (参考訳) hs3:階層的教師付き意味セグメンテーションにおける適切なタスク複雑性を伴う学習

HS3: Learning with Proper Task Complexity in Hierarchically Supervised Semantic Segmentation ( http://arxiv.org/abs/2111.02333v1 )

ライセンス: CC BY 4.0
Shubhankar Borse, Hong Cai, Yizhe Zhang, Fatih Porikli(参考訳) 近年の文献では、深く監視されたネットワークが一般的であるが、表現力が異なるにもかかわらず、それらは通常、全ての遷移層に同じ学習目標を課す。 本稿では,階層的教師付きセマンティックセグメンテーション(hs3)を提案する。これは,セグメンテーションネットワークの中間層を監督し,タスクの複雑さを変化させて意味のある表現を学習するトレーニングスキームである。 ネットワーク全体にわたる一貫したパフォーマンス対複雑性のトレードオフを実施するため、ネットワークの各遷移層を監督するさまざまなクラスクラスタを導出する。 さらに,これらの層が生成する階層的特徴を集約するために,hs3-fuseという融合フレームワークを考案した。 広範な実験により,提案するhs3スキームは推定コストを増すことなく,バニラ深層監視をかなり上回ることがわかった。 提案するHS3-Fuseフレームワークはセグメンテーション予測をさらに改善し、2つの大きなセグメンテーションベンチマークであるNYUD-v2とCityscapesで最先端の結果を得る。

While deeply supervised networks are common in recent literature, they typically impose the same learning objective on all transitional layers despite their varying representation powers. In this paper, we propose Hierarchically Supervised Semantic Segmentation (HS3), a training scheme that supervises intermediate layers in a segmentation network to learn meaningful representations by varying task complexity. To enforce a consistent performance vs. complexity trade-off throughout the network, we derive various sets of class clusters to supervise each transitional layer of the network. Furthermore, we devise a fusion framework, HS3-Fuse, to aggregate the hierarchical features generated by these layers, which can provide rich semantic contexts and further enhance the final segmentation. Extensive experiments show that our proposed HS3 scheme considerably outperforms vanilla deep supervision with no added inference cost. Our proposed HS3-Fuse framework further improves segmentation predictions and achieves state-of-the-art results on two large segmentation benchmarks: NYUD-v2 and Cityscapes.
翻訳日:2021-11-04 14:00:49 公開日:2021-11-03
# 逆摂動ウェーブレットによる形態素顔生成

Adversarially Perturbed Wavelet-based Morphed Face Generation ( http://arxiv.org/abs/2111.01965v1 )

ライセンス: Link先を確認
Kelsey O'Haire, Sobhan Soleymani, Baaria Chaudhary, Poorya Aghdaie, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) モーフィング(英: Morphing)とは、画像中の2つ以上の主題を組み合わせて、両方の個人の特徴を含む新しいアイデンティティを作成する過程である。 モールフされた画像は、顔認識システム(FRS)を騙して複数の人を誤って受け入れ、国家安全保障の失敗に繋がる。 画像合成が容易になるにつれて、このジレンマと戦うために研究コミュニティの利用可能なデータを拡張することが不可欠である。 本稿では, 変形画像生成のための2つの手法, 幾何変換(変形とブレンディングによる変形画像の生成)と光度摂動の組み合わせについて検討する。 両手法を用いて、FERET, FRGC, FRLLデータセットから高品質な逆摂動形態を生成する。 最終的な画像は両方の入力対象と高い類似性を保ちながら、視覚領域における最小のアーティファクトを生成する。 画像は2つの被写体からウェーブレットサブバンドを融合させて合成され、逆向きに摂動して、人間と深層モルヒネ検出器の両方を騙す高精細な画像を生成する。

Morphing is the process of combining two or more subjects in an image in order to create a new identity which contains features of both individuals. Morphed images can fool Facial Recognition Systems (FRS) into falsely accepting multiple people, leading to failures in national security. As morphed image synthesis becomes easier, it is vital to expand the research community's available data to help combat this dilemma. In this paper, we explore combination of two methods for morphed image generation, those of geometric transformation (warping and blending to create morphed images) and photometric perturbation. We leverage both methods to generate high-quality adversarially perturbed morphs from the FERET, FRGC, and FRLL datasets. The final images retain high similarity to both input subjects while resulting in minimal artifacts in the visual domain. Images are synthesized by fusing the wavelet sub-bands from the two look-alike subjects, and then adversarially perturbed to create highly convincing imagery to deceive both humans and deep morph detectors.
翻訳日:2021-11-04 13:48:56 公開日:2021-11-03
# 勾配場による深部点集合のサンプリング

Deep Point Set Resampling via Gradient Fields ( http://arxiv.org/abs/2111.02045v1 )

ライセンス: Link先を確認
Haolan Chen, Bi'an Du, Shitong Luo and Wei Hu(参考訳) 現実世界のオブジェクトやシーンをスキャンして取得した3Dポイントクラウドは、没入型テレプレゼンス、自動運転、監視など、幅広いアプリケーションを見つけている。 しばしば騒音や低密度に悩まされ、表面の再構築や理解といった下流の作業を妨げる。 本稿では,下面に点を収束させる点雲の連続勾配場を学習し,復元のための点集合再サンプリングの新しいパラダイムを提案する。 特に、その勾配場(対数確率密度関数の勾配)を通じて点雲を表現し、勾配場が連続であるように強制することにより、可解最適化のためのモデルの連続性を保証する。 提案するニューラルネットワークによって推定される連続勾配場に基づいて、ポイントクラウドをサンプリングすることで、入力ノイズまたはスパースポイントクラウド上でグラデーションベースのマルコフチェーンモンテカルロ(mcmc)を実行する。 さらに,中間再サンプリングされた点雲を反復的に洗練し,再サンプリングプロセスにおいて様々な事前処理を適応させる点クラウド復元中に,勾配に基づくmcmcに正規化を導入することを提案する。 広範な実験結果から,提案するポイントセットの再サンプリングは,ポイントクラウドのデノイジングやアップサンプリングなど,代表的な復元タスクにおける最先端のパフォーマンスを実現することが示された。

3D point clouds acquired by scanning real-world objects or scenes have found a wide range of applications including immersive telepresence, autonomous driving, surveillance, etc. They are often perturbed by noise or suffer from low density, which obstructs downstream tasks such as surface reconstruction and understanding. In this paper, we propose a novel paradigm of point set resampling for restoration, which learns continuous gradient fields of point clouds that converge points towards the underlying surface. In particular, we represent a point cloud via its gradient field -- the gradient of the log-probability density function, and enforce the gradient field to be continuous, thus guaranteeing the continuity of the model for solvable optimization. Based on the continuous gradient fields estimated via a proposed neural network, resampling a point cloud amounts to performing gradient-based Markov Chain Monte Carlo (MCMC) on the input noisy or sparse point cloud. Further, we propose to introduce regularization into the gradient-based MCMC during point cloud restoration, which essentially refines the intermediate resampled point cloud iteratively and accommodates various priors in the resampling process. Extensive experimental results demonstrate that the proposed point set resampling achieves the state-of-the-art performance in representative restoration tasks including point cloud denoising and upsampling.
翻訳日:2021-11-04 13:48:35 公開日:2021-11-03
# 一般化ゼロショット学習のためのデュアルプロトタイプネットワーク

Dual Progressive Prototype Network for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2111.02073v1 )

ライセンス: Link先を確認
Chaoqun Wang, Shaobo Min, Xuejin Chen, Xiaoyan Sun, Houqiang Li(参考訳) Generalized Zero-Shot Learning (GZSL) は、カテゴリ属性などの補助的な意味情報を持つ新しいカテゴリを認識することを目的としている。 本稿では,視覚表現の領域間移動可能性やカテゴリ識別性の向上により,目に見えるカテゴリと見えないカテゴリの混同という,ドメインシフトの問題に対処する。 提案手法はDPPN (Dual Progressive Prototype Network) と呼ばれ, 属性とカテゴリの視覚パターンをそれぞれ記録する2種類のプロトタイプを構築した。 属性プロトタイプでは、dppnは属性関連地域を交互に検索し、属性プロトタイプを更新して属性-地域対応を段階的に調査する。 これによってdppnは、正確な属性ローカライゼーション能力を持つ視覚的表現を作成でき、セマンティック・ビジュアルアライメントと表現転送可能性の恩恵を受ける。 さらに、プログレッシブ属性のローカライゼーションとともに、DPPNはプロトタイプを複数の空間に計画し、異なるカテゴリから視覚表現を段階的に取り除き、カテゴリ識別性を高める。 属性とカテゴリのプロトタイプは、dppnの視覚的表現を転送可能かつ識別可能な統一フレームワークで協調的に学習される。 4つのベンチマークの実験により、DPPNはGZSLの領域シフト問題を効果的に軽減することが示された。

Generalized Zero-Shot Learning (GZSL) aims to recognize new categories with auxiliary semantic information,e.g., category attributes. In this paper, we handle the critical issue of domain shift problem, i.e., confusion between seen and unseen categories, by progressively improving cross-domain transferability and category discriminability of visual representations. Our approach, named Dual Progressive Prototype Network (DPPN), constructs two types of prototypes that record prototypical visual patterns for attributes and categories, respectively. With attribute prototypes, DPPN alternately searches attribute-related local regions and updates corresponding attribute prototypes to progressively explore accurate attribute-region correspondence. This enables DPPN to produce visual representations with accurate attribute localization ability, which benefits the semantic-visual alignment and representation transferability. Besides, along with progressive attribute localization, DPPN further projects category prototypes into multiple spaces to progressively repel visual representations from different categories, which boosts category discriminability. Both attribute and category prototypes are collaboratively learned in a unified framework, which makes visual representations of DPPN transferable and distinctive. Experiments on four benchmarks prove that DPPN effectively alleviates the domain shift problem in GZSL.
翻訳日:2021-11-04 13:48:14 公開日:2021-11-03
# 高能率3次元深部LiDARオドメトリー

Efficient 3D Deep LiDAR Odometry ( http://arxiv.org/abs/2111.02135v1 )

ライセンス: Link先を確認
Guangming Wang, Xinrui Wu, Shuyang Jiang, Zhe Liu, Hesheng Wang(参考訳) 本稿では,LiDARオドメトリーのためのPWCLO-Netという,効率的な3Dポイントクラウド学習アーキテクチャを提案する。 このアーキテクチャでは、3Dポイントクラウドのプロジェクション対応表現が提案され、生の3Dポイントクラウドを順序付きデータ形式に整理して効率を上げる。 LiDARオドメトリータスクのピラミッド・ウォーピング・コストボリューム(PWC)構造は、階層的かつ効率的に粗いアプローチでポーズを推定・精査するために構築される。 2つの離散点雲を直接関連付けて埋め込み動作パターンを得るために、投影対応注意コストボリュームを構築する。 そこで, トレーニング可能な埋め込みマスクを提案し, 局所的な動きパターンの重み付けを行い, 全体のポーズを抑え, 外れ点をフィルタする。 トレーニング可能なポーズwarp-refinementモジュールは階層的に最適化された埋め込みマスクで反復的に使用される。 アーキテクチャ全体は、コストボリュームとマスクの適応学習を達成するために全体最適化されたエンドツーエンドであり、プロジェクションアウェアな3d特徴学習手法により、ポイントクラウドサンプリングとグループ化を含む全ての操作が促進される。 当社のlidarオドメトリアーキテクチャの優れた性能と有効性をkittiオドメトリデータセットで実証した。 提案手法は,KITTI odometry データセットのほとんどのシーケンスにおいて,最近の学習手法や幾何学的アプローチである LOAM よりも優れている。

An efficient 3D point cloud learning architecture, named PWCLO-Net, for LiDAR odometry is first proposed in this paper. In this architecture, the projection-aware representation of the 3D point cloud is proposed to organize the raw 3D point cloud into an ordered data form to achieve efficiency. The Pyramid, Warping, and Cost volume (PWC) structure for the LiDAR odometry task is built to estimate and refine the pose in a coarse-to-fine approach hierarchically and efficiently. A projection-aware attentive cost volume is built to directly associate two discrete point clouds and obtain embedding motion patterns. Then, a trainable embedding mask is proposed to weigh the local motion patterns to regress the overall pose and filter outlier points. The trainable pose warp-refinement module is iteratively used with embedding mask optimized hierarchically to make the pose estimation more robust for outliers. The entire architecture is holistically optimized end-to-end to achieve adaptive learning of cost volume and mask, and all operations involving point cloud sampling and grouping are accelerated by projection-aware 3D feature learning methods. The superior performance and effectiveness of our LiDAR odometry architecture are demonstrated on KITTI odometry dataset. Our method outperforms all recent learning-based methods and even the geometry-based approach, LOAM with mapping optimization, on most sequences of KITTI odometry dataset.
翻訳日:2021-11-04 13:47:50 公開日:2021-11-03
# 顔のランドマーク位置推定のためのサブピクセル・ヒートマップ・レグレッション

Subpixel Heatmap Regression for Facial Landmark Localization ( http://arxiv.org/abs/2111.02360v1 )

ライセンス: Link先を確認
Adrian Bulat and Enrique Sanchez and Georgios Tzimiropoulos(参考訳) ヒートマップ回帰に基づくディープラーニングモデルは、既存のモデルが大きなポーズ、非一様照明と影、オクルージョンと自己排他性、低解像度、ぼやけの下で頑健に動作することによって、顔のランドマークのローカライズというタスクに革命をもたらした。 しかし、熱マップ回帰手法は広く採用されているにもかかわらず、熱マップ符号化と復号処理の両方に関連する離散化による誤差に悩まされている。 本研究では,これらの誤りが顔のアライメント精度に驚くほど大きな悪影響を及ぼすことを示す。 この問題を軽減するため,本手法では,基礎となる連続分布を活用し,ヒートマップ符号化と復号化の新たな手法を提案する。 新たに提案した符号化復号機構をフル活用するために,様々な幾何学的画像変換における熱マップの整合性を実現するシームズに基づくトレーニングを導入する。 当社のアプローチでは,複数のデータセットにまたがって,新たな最先端の結果が顔ランドマークのローカライズを可能にする。 事前トレーニングされたモデルとともに、コードはhttps://www.adrianbulat.com/face-alignmentで利用可能になる。

Deep Learning models based on heatmap regression have revolutionized the task of facial landmark localization with existing models working robustly under large poses, non-uniform illumination and shadows, occlusions and self-occlusions, low resolution and blur. However, despite their wide adoption, heatmap regression approaches suffer from discretization-induced errors related to both the heatmap encoding and decoding process. In this work we show that these errors have a surprisingly large negative impact on facial alignment accuracy. To alleviate this problem, we propose a new approach for the heatmap encoding and decoding process by leveraging the underlying continuous distribution. To take full advantage of the newly proposed encoding-decoding mechanism, we also introduce a Siamese-based training that enforces heatmap consistency across various geometric image transformations. Our approach offers noticeable gains across multiple datasets setting a new state-of-the-art result in facial landmark localization. Code alongside the pretrained models will be made available at https://www.adrianbulat.com/face-alignment
翻訳日:2021-11-04 13:46:09 公開日:2021-11-03
# コントラスト特徴とアテンションモジュールによるビデオ・サイレント物体検出

Video Salient Object Detection via Contrastive Features and Attention Modules ( http://arxiv.org/abs/2111.02368v1 )

ライセンス: Link先を確認
Yi-Wen Chen, Xiaojie Jin, Xiaohui Shen, Ming-Hsuan Yang(参考訳) video salient object detectionは、ビデオの中で最も視覚的なオブジェクトを見つけることを目的としている。 時間的依存性を調べるために、既存の手法は通常、リカレントニューラルネットワークやオプティカルフローに頼る。 しかし、これらのアプローチは高い計算コストを必要とし、時間とともに不正確さを蓄積する傾向がある。 本稿では,高計算時間モデリング手法を使わずに映像サリエント物体検出のためのコントラスト特徴を学習するための注意モジュール付きネットワークを提案する。 ビデオフレーム内のグローバルな情報をキャプチャする非ローカル自己注意方式を開発した。 低レベルと高レベルを組み合わせるためにコアテンション式を用いる。 さらに、コントラスト学習を適用して、同一映像からのフォアグラウンド領域ペアをプルし、潜在空間内でフォアグラウンド・バックグラウンド領域ペアをプッシュする特徴表現を改善する。 フレーム内コントラスト損失は前景と背景の特徴を分離するのに役立ち、フレーム間コントラスト損失は時間的一貫性を改善する。 本研究では,ビデオサリエントオブジェクト検出と教師なしビデオオブジェクトセグメンテーションのためのいくつかのベンチマークデータセットについて広範な実験を行い,提案手法が計算量が少なく,最先端のアプローチに対して好適に動作することを示す。

Video salient object detection aims to find the most visually distinctive objects in a video. To explore the temporal dependencies, existing methods usually resort to recurrent neural networks or optical flow. However, these approaches require high computational cost, and tend to accumulate inaccuracies over time. In this paper, we propose a network with attention modules to learn contrastive features for video salient object detection without the high computational temporal modeling techniques. We develop a non-local self-attention scheme to capture the global information in the video frame. A co-attention formulation is utilized to combine the low-level and high-level features. We further apply the contrastive learning to improve the feature representations, where foreground region pairs from the same video are pulled together, and foreground-background region pairs are pushed away in the latent space. The intra-frame contrastive loss helps separate the foreground and background features, and the inter-frame contrastive loss improves the temporal consistency. We conduct extensive experiments on several benchmark datasets for video salient object detection and unsupervised video object segmentation, and show that the proposed method requires less computation, and performs favorably against the state-of-the-art approaches.
翻訳日:2021-11-04 13:45:49 公開日:2021-11-03
# FAST:ミニマリストカーネル表現を用いた高速任意形テキスト検出器の探索

FAST: Searching for a Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation ( http://arxiv.org/abs/2111.02394v1 )

ライセンス: Link先を確認
Zhe Chen, Wenhai Wang, Enze Xie, ZhiBo Yang, Tong Lu, Ping Luo(参考訳) 本研究では,FAST(高速な任意形テキスト検出器)と呼ばれる高精度かつ効率的なシーンテキスト検出フレームワークを提案する。 手作りのネットワークアーキテクチャと複雑な後処理を使用した最近の高度なテキスト検出器とは異なり、FASTは2つの新しい設計を持つ。 1) ネットワーク検索空間を設計してネットワークアーキテクチャを検索し, テキスト検出に適した報奨関数を慎重に設計し, 画像分類を行うほとんどのネットワークよりも強力な特徴を与える。 2) 任意の形状のテキストをモデル化するミニマリスト表現(1チャネル出力のみ)を設計し,GPU並列後処理によりテキスト行を無視できない時間オーバーヘッドで効率的に組み立てる。 この2つの設計の利点により、fastはいくつかの挑戦的なデータセットで精度と効率の優れたトレードオフを実現している。 例えば、FAST-A0はトータルテキスト上で152FPSで81.4%のF値を示し、精度と速度で1.5ポイント、70FPSよりも高速である。 TensorRTの最適化により、推論速度は600FPS以上に加速できる。

We propose an accurate and efficient scene text detection framework, termed FAST (i.e., faster arbitrarily-shaped text detector). Different from recent advanced text detectors that used hand-crafted network architectures and complicated post-processing, resulting in low inference speed, FAST has two new designs. (1) We search the network architecture by designing a network search space and reward function carefully tailored for text detection, leading to more powerful features than most networks that are searched for image classification. (2) We design a minimalist representation (only has 1-channel output) to model text with arbitrary shape, as well as a GPU-parallel post-processing to efficiently assemble text lines with negligible time overhead. Benefiting from these two designs, FAST achieves an excellent trade-off between accuracy and efficiency on several challenging datasets. For example, FAST-A0 yields 81.4% F-measure at 152 FPS on Total-Text, outperforming the previous fastest method by 1.5 points and 70 FPS in terms of accuracy and speed. With TensorRT optimization, the inference speed can be further accelerated to over 600 FPS.
翻訳日:2021-11-04 13:45:29 公開日:2021-11-03
# 単純言語横断的意見マイニングの事例研究と質的分析

A Case Study and Qualitative Analysis of Simple Cross-Lingual Opinion Mining ( http://arxiv.org/abs/2111.02259v1 )

ライセンス: Link先を確認
Gerhard Hagerer, Wing Sheung Leung, Qiaoxi Liu, Hannah Danner, Georg Groh(参考訳) ソーシャルメディアからのユーザ生成コンテンツは多くの言語で作られており、異なる文化や地域にわたってあるドメインから議論されたテーマを比較することは技術的に困難である。 これは、市場調査のようなグローバル化した世界のドメインに関係しており、2つの国と市場の人々が製品に対して異なる要件を持つ可能性がある。 本稿では,自然言語理解のための事前学習された最先端ニューラルネットワークに基づいて,複数の言語を同時にカバー可能な感情分析を用いた単一トピックモデルの構築方法を提案する。 その実現可能性を示すために,本モデルは新聞記事や特定のドメイン,すなわち有機食品および関連する消費行動のユーザコメントに適用する。 テーマは言語間で一致している。 また,安定的かつドメイン関連性の高い話題の比率が高いこと,トピックとそれぞれのテキスト内容の有意義な関係,ソーシャルメディア文書の解釈可能な表現が得られる。 マーケティングは、世界中の異なる市場地域から特定の顧客の興味に対処するための使いやすい手段を提供するので、当社の手法の恩恵を受ける可能性がある。 再現性のために、我々は研究のコード、データ、結果を提供する。

User-generated content from social media is produced in many languages, making it technically challenging to compare the discussed themes from one domain across different cultures and regions. It is relevant for domains in a globalized world, such as market research, where people from two nations and markets might have different requirements for a product. We propose a simple, modern, and effective method for building a single topic model with sentiment analysis capable of covering multiple languages simultanteously, based on a pre-trained state-of-the-art deep neural network for natural language understanding. To demonstrate its feasibility, we apply the model to newspaper articles and user comments of a specific domain, i.e., organic food products and related consumption behavior. The themes match across languages. Additionally, we obtain an high proportion of stable and domain-relevant topics, a meaningful relation between topics and their respective textual contents, and an interpretable representation for social media documents. Marketing can potentially benefit from our method, since it provides an easy-to-use means of addressing specific customer interests from different market regions around the globe. For reproducibility, we provide the code, data, and results of our study.
翻訳日:2021-11-04 13:45:07 公開日:2021-11-03
# ワンパスイメージネット

One Pass ImageNet ( http://arxiv.org/abs/2111.01956v1 )

ライセンス: Link先を確認
Huiyi Hu, Ang Li, Daniele Calandriello, Dilan Gorur(参考訳) 本稿では,ストリーミング環境における深層学習の有効性を検討するために,One Pass ImageNet(OPIN)問題を提案する。 imagenetは広く知られたベンチマークデータセットであり、ディープラーニングの最近の進歩を駆動し、評価するのに役立った。 通常、ディープラーニング手法は、モデルがランダムにアクセスする静的データに基づいてトレーニングされ、トレーニングの各エポックにランダムシャッフルのあるデータセットを複数回使用します。 このようなデータアクセスの仮定は、ストリームから大量のデータが収集され、すべてのデータの保存とアクセスがストレージコストとプライバシの懸念のために非現実的になるような、多くの現実のシナリオでは成り立たない。 OPINでは、ImageNetデータを逐次到着として扱い、データの小さなサブセットを格納するためのメモリ予算が限られています。 深層ネットワークを1回のパスでトレーニングし、複数のエポックトレーニングに使用する同じトレーニング設定で、予測精度が大幅に低下するのを観察する。 我々は,OPINが典型的な連続問題設定と異なるにもかかわらず,メモリコストの削減と連続学習のための技術を活用することで,性能ギャップを著しく低減できることを示す。 我々はopinを用いて資源効率のよい深層学習法を提案する。

We present the One Pass ImageNet (OPIN) problem, which aims to study the effectiveness of deep learning in a streaming setting. ImageNet is a widely known benchmark dataset that has helped drive and evaluate recent advancements in deep learning. Typically, deep learning methods are trained on static data that the models have random access to, using multiple passes over the dataset with a random shuffle at each epoch of training. Such data access assumption does not hold in many real-world scenarios where massive data is collected from a stream and storing and accessing all the data becomes impractical due to storage costs and privacy concerns. For OPIN, we treat the ImageNet data as arriving sequentially, and there is limited memory budget to store a small subset of the data. We observe that training a deep network in a single pass with the same training settings used for multi-epoch training results in a huge drop in prediction accuracy. We show that the performance gap can be significantly decreased by paying a small memory cost and utilizing techniques developed for continual learning, despite the fact that OPIN differs from typical continual problem settings. We propose using OPIN to study resource-efficient deep learning.
翻訳日:2021-11-04 13:43:16 公開日:2021-11-03
# 監視学習におけるてんかん(モデル)不確実性に関する調査研究:最近の進歩と応用

A Survey on Epistemic (Model) Uncertainty in Supervised Learning: Recent Advances and Applications ( http://arxiv.org/abs/2111.01968v1 )

ライセンス: Link先を確認
Xinlei Zhou and Han Liu and Farhad Pourpanah and Tieyong Zengd and Xizhao Wang(参考訳) 教師付き学習モデルの不確かさの定量化は、より信頼できる予測を行う上で重要な役割を果たす。 通常、モデルに関する知識不足が原因で生じるてんかんの不確実性は、より多くのデータを収集したり、学習モデルを精査することで軽減することができる。 ここ数年、学者は、ベイズとアンサンブルの2つのカテゴリに大まかに分類できる多くの疫学的不確実性処理技術を提案してきた。 本稿では,過去5年間の教師あり学習における疫学不確実性学習手法の総合的なレビューを行う。 このようにして、我々はまず、認識の不確実性をバイアスと分散項に分解する。 そして, その代表モデルとともに, エピステマティック不確実性学習技術の階層的分類を導入する。 さらに,コンピュータビジョン (cv) や自然言語処理 (nlp) などの応用例を提示するとともに,研究ギャップと今後の研究方向性について考察した。

Quantifying the uncertainty of supervised learning models plays an important role in making more reliable predictions. Epistemic uncertainty, which usually is due to insufficient knowledge about the model, can be reduced by collecting more data or refining the learning models. Over the last few years, scholars have proposed many epistemic uncertainty handling techniques which can be roughly grouped into two categories, i.e., Bayesian and ensemble. This paper provides a comprehensive review of epistemic uncertainty learning techniques in supervised learning over the last five years. As such, we, first, decompose the epistemic uncertainty into bias and variance terms. Then, a hierarchical categorization of epistemic uncertainty learning techniques along with their representative models is introduced. In addition, several applications such as computer vision (CV) and natural language processing (NLP) are presented, followed by a discussion on research gaps and possible future research directions.
翻訳日:2021-11-04 13:42:56 公開日:2021-11-03
# Pareto Adversarial Robustness: 空間的ロバストネスと感性に基づくロバストネスのバランス

Pareto Adversarial Robustness: Balancing Spatial Robustness and Sensitivity-based Robustness ( http://arxiv.org/abs/2111.01996v1 )

ライセンス: Link先を確認
Ke Sun, Mingjie Li, Zhouchen Lin(参考訳) 相対ロバスト性は主に感度に基づくロバスト性と空間ロバスト性を含み、ロバスト一般化において重要な役割を果たす。 本稿では,普遍的対角強靭性を実現するための戦略設計に尽力する。 この目標を達成するために,まず,学習不足の空間的ロバストネスを調査し,既存の空間的ロバストネス手法を,局所的および大域的空間的脆弱性を1つの空間攻撃と敵対的訓練に組み込むことにより統合する。 本研究は,強固な表現の観点からの強固な証拠によって支持される,自然の正確性,感度,空間的ロバスト性との包括的関係を示す。 さらに, 異なるロバスト性の相互影響を一つの統一的枠組みにバランスさせるため, 対角的ロバストネス解析に \textit{Pareto criterion} を組み込むことで, 普遍的ロバストネスに対する新戦略である \textit{Pareto criterion} を導出する。 結果として得られる最適解の集合であるパレートフロントは、自然の精度と異なる対向ロバスト性の間の最適均衡のセットを提供し、将来の普遍ロバスト性への解に光を当てる。 我々の知識を最大限に活用するために、我々は多目的最適化による普遍的対角ロバスト性を考える。

Adversarial robustness, which mainly contains sensitivity-based robustness and spatial robustness, plays an integral part in the robust generalization. In this paper, we endeavor to design strategies to achieve universal adversarial robustness. To hit this target, we firstly investigate the less-studied spatial robustness and then integrate existing spatial robustness methods by incorporating both local and global spatial vulnerability into one spatial attack and adversarial training. Based on this exploration, we further present a comprehensive relationship between natural accuracy, sensitivity-based and different spatial robustness, supported by the strong evidence from the perspective of robust representation. More importantly, in order to balance these mutual impacts of different robustness into one unified framework, we incorporate \textit{Pareto criterion} into the adversarial robustness analysis, yielding a novel strategy called \textit{Pareto Adversarial Training} towards universal robustness. The resulting Pareto front, the set of optimal solutions, provides the set of optimal balance among natural accuracy and different adversarial robustness, shedding light on solutions towards universal robustness in the future. To the best of our knowledge, we are the first to consider the universal adversarial robustness via multi-objective optimization.
翻訳日:2021-11-04 13:42:41 公開日:2021-11-03
# ニューラルネットワークはヘテロジニアスだ - フェーズがより重要

Neural network is heterogeneous: Phase matters more ( http://arxiv.org/abs/2111.02014v1 )

ライセンス: Link先を確認
Yuqi Nie, Hui Yuan(参考訳) 重み行列における位相の役割は、振幅行列よりもはるかに重要であると主張し、波動光学からの洞察による複雑なニューラルネットワークと実数値ニューラルネットワークの両面で異質性を見出した。 複素数値ニューラルネットワークでは, 位相情報のみを保存した重み行列が, 様々な深さと幅で頑健に保持する最適精度を達成できることが示される。 この結論は、信号が位相に取って代わる実数値ニューラルネットワークに一般化することができる。 これらの着想的な発見は、ネットワークプラニングとバイナリ計算のテクニックを豊かにする。

We find a heterogeneity in both complex and real valued neural networks with the insight from wave optics, claiming a much more important role of phase in the weight matrix than its amplitude counterpart. In complex-valued neural networks, we show that among different types of pruning, the weight matrix with only phase information preserved achieves the best accuracy, which holds robustly under various depths and widths. The conclusion can be generalized to real-valued neural networks, where signs take the place of phases. These inspiring findings enrich the techniques of network pruning and binary computation.
翻訳日:2021-11-04 13:42:13 公開日:2021-11-03
# 対立型MDPにおけるオンライン学習はエルゴードよりも難しいか?

Online Learning in Adversarial MDPs: Is the Communicating Case Harder than Ergodic? ( http://arxiv.org/abs/2111.02024v1 )

ライセンス: Link先を確認
Gautam Chandrasekaran and Ambuj Tewari(参考訳) マルコフ決定過程を全情報で通信する対人コミュニケーションにおけるオンライン学習について検討する。 我々は、遷移が決定論的である場合、後見において最良の固定決定論的ポリシーに対して$O(\sqrt{T})$を後悔するアルゴリズムを与える。 また、この設定において、MDPパラメータの多項式因子に密接な後悔の少ない境界が証明される。 また、MPPの通信において、$O(\sqrt{T})$の後悔を達成する非効率なアルゴリズムも与えている(遷移力学にさらなる制限を加えて)。

We study online learning in adversarial communicating Markov Decision Processes with full information. We give an algorithm that achieves a regret of $O(\sqrt{T})$ with respect to the best fixed deterministic policy in hindsight when the transitions are deterministic. We also prove a regret lower bound in this setting which is tight up to polynomial factors in the MDP parameters. We also give an inefficient algorithm that achieves $O(\sqrt{T})$ regret in communicating MDPs (with an additional mild restriction on the transition dynamics).
翻訳日:2021-11-04 13:42:03 公開日:2021-11-03
# SVMパラメータのヒューリスティックな選択

Heuristical choice of SVM parameters ( http://arxiv.org/abs/2111.02164v1 )

ライセンス: Link先を確認
Micha{\l} Cholewa, Micha{\l} Romaszewski, Przemys{\l}aw G{\l}omb(参考訳) Support Vector Machine (SVM)は最も一般的な分類手法の1つであり、多くの機械学習アプローチのデファクト参照である。 その性能はパラメータ選択によって決定され、通常は時間を要するグリッド探索クロスバリデーションによって達成される。 しかし、クラスラベル情報を使う代わりにパラメータを選択するためにデータセットの特性を利用する教師なしヒューリスティックがいくつか存在する。 教師なしのヒューリスティックは、桁違いに速いが、グリッド検索よりも結果が著しく悪いという仮定の下ではほとんど使われない。 この仮定に挑戦するために、30以上のデータセット上でSVMパラメータ選択のための様々なヒューリスティックを、教師付きシナリオと半教師付きシナリオの両方で幅広く研究した。 ほとんどの場合、クロスバリデーショングリッドサーチはヒューリスティックスに対して大きな優位性は得られなかった。 特に、ヒューリスティックなパラメータの選択は、高次元および不均衡データセットや、少数の例が利用可能である場合に望ましい。 以上の結果から,さらなるクロスバリデーションの開始点を決定するためにヒューリスティックを用いることで,デフォルトの開始点よりもはるかに優れた結果が得られないことが示唆された。

Support Vector Machine (SVM) is one of the most popular classification methods, and a de-facto reference for many Machine Learning approaches. Its performance is determined by parameter selection, which is usually achieved by a time-consuming grid search cross-validation procedure. There exist, however, several unsupervised heuristics that take advantage of the characteristics of the dataset for selecting parameters instead of using class label information. Unsupervised heuristics, while an order of magnitude faster, are scarcely used under the assumption that their results are significantly worse than those of grid search. To challenge that assumption we have conducted a wide study of various heuristics for SVM parameter selection on over thirty datasets, in both supervised and semi-supervised scenarios. In most cases, the cross-validation grid search did not achieve a significant advantage over the heuristics. In particular, heuristical parameter selection may be preferable for high dimensional and unbalanced datasets or when a small number of examples is available. Our results also show that using a heuristic to determine the starting point of further cross-validation does not yield significantly better results than the default start.
翻訳日:2021-11-04 13:41:52 公開日:2021-11-03
# ドロップ、スワップ、ジェネレーション:神経活動生成のための自己監督的アプローチ

Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity ( http://arxiv.org/abs/2111.02338v1 )

ライセンス: Link先を確認
Ran Liu, Mehdi Azabou, Max Dabagia, Chi-Heng Lin, Mohammad Gheshlaghi Azar, Keith B. Hengen, Michal Valko, Eva L. Dyer(参考訳) 神経活動の有意義で単純化された表現は、神経回路内でどのような情報が処理されているかについての洞察を与える。 しかしラベルがなければ、脳と行動の関係を明らかにする表現を見つけることは困難である。 本稿では,Swap-VAEと呼ばれる神経活動の非絡み合い表現を学習するための新しい教師なしアプローチを提案する。 提案手法では,入力(脳状態)の変換ビュー間の表現的類似性を最大化するために,生成モデリングフレームワークとインスタンス固有のアライメント損失を組み合わせる。 これらの変換された(または拡張された)ビューは、ニューロンをドロップアウトしてサンプルを揺らぎ、直感的にネットワークを神経状態を表すために使用される特定のニューロンに対する時間的一貫性と不変性の両方を維持する表現に導くべきである。 異なる霊長類脳の数百のニューロンから合成データと神経記録の両方を評価することで、行動に関連する潜伏次元に沿って神経データセットをアンタングルする表現を構築することができることを示す。

Meaningful and simplified representations of neural activity can yield insights into how and what information is being processed within a neural circuit. However, without labels, finding representations that reveal the link between the brain and behavior can be challenging. Here, we introduce a novel unsupervised approach for learning disentangled representations of neural activity called Swap-VAE. Our approach combines a generative modeling framework with an instance-specific alignment loss that tries to maximize the representational similarity between transformed views of the input (brain state). These transformed (or augmented) views are created by dropping out neurons and jittering samples in time, which intuitively should lead the network to a representation that maintains both temporal consistency and invariance to the specific neurons used to represent the neural state. Through evaluations on both synthetic data and neural recordings from hundreds of neurons in different primate brains, we show that it is possible to build representations that disentangle neural datasets along relevant latent dimensions linked to behavior.
翻訳日:2021-11-04 13:41:33 公開日:2021-11-03
# 陰影認識型デュアルエージェントフレームワークを用いた自律脊髄超音波診断用ロボット超音波プローブの画像誘導ナビゲーション

Image-Guided Navigation of a Robotic Ultrasound Probe for Autonomous Spinal Sonography Using a Shadow-aware Dual-Agent Framework ( http://arxiv.org/abs/2111.02167v1 )

ライセンス: Link先を確認
Keyu Li, Yangxin Xu, Jian Wang, Dong Ni, Li Liu, Max Q.-H. Meng(参考訳) 超音波(US)イメージングは脊椎疾患の診断と治療を支援するのが一般的であるが、プローブを手動で操作する米国の標準化された取得には、ソノグラフィーのかなりの経験と訓練が必要である。 そこで本研究では,usプローブの運動をリアルタイムus画像に基づいて共同決定するために,強化学習(rl)エージェントと深層学習(dl)エージェントを統合した新しいデュアルエージェントフレームワークを提案する。 さらに,USの伝搬特性や脊椎解剖の特徴に触発されて,影情報を利用した視覚特異的音響シャドウ報酬を導入し,プローブのナビゲーションを脊椎の異なる標準的な視界に向けて暗黙的に案内する。 本手法は,17ドルのボランティアから得られた米国データを用いたシミュレーション環境において,定量的および定性的な実験を行った。 異なる標準ビューに対する平均航法精度は、5.18mm/5.25^\circ$と12.87mm/17.49^\circ$である。 以上の結果から,本手法は米国の画像を効果的に解釈し,プローブをナビゲートし,脊椎の標準的なビューを複数取得できることを示した。

Ultrasound (US) imaging is commonly used to assist in the diagnosis and interventions of spine diseases, while the standardized US acquisitions performed by manually operating the probe require substantial experience and training of sonographers. In this work, we propose a novel dual-agent framework that integrates a reinforcement learning (RL) agent and a deep learning (DL) agent to jointly determine the movement of the US probe based on the real-time US images, in order to mimic the decision-making process of an expert sonographer to achieve autonomous standard view acquisitions in spinal sonography. Moreover, inspired by the nature of US propagation and the characteristics of the spinal anatomy, we introduce a view-specific acoustic shadow reward to utilize the shadow information to implicitly guide the navigation of the probe toward different standard views of the spine. Our method is validated in both quantitative and qualitative experiments in a simulation environment built with US data acquired from $17$ volunteers. The average navigation accuracy toward different standard views achieves $5.18mm/5.25^\circ$ and $12.87mm/17.49^\circ$ in the intra- and inter-subject settings, respectively. The results demonstrate that our method can effectively interpret the US images and navigate the probe to acquire multiple standard views of the spine.
翻訳日:2021-11-04 13:40:27 公開日:2021-11-03
# HoneyCar: 自動車のインターネット上でのHoneypotVulnerabilityの設定フレームワーク

HoneyCar: A Framework to Configure HoneypotVulnerabilities on the Internet of Vehicles ( http://arxiv.org/abs/2111.02364v1 )

ライセンス: Link先を確認
Sakshyam Panda, Stefan Rass, Sotiris Moschoyiannis, Kaitai Liang, George Loukas, Emmanouil Panaousis(参考訳) 相互接続された車両が相互に通信し、共通のネットワーク上の道路インフラと通信する「internet of vehicles(iov)」は、社会経済的利益を約束する一方で、新たなサイバーフィジカルな脅威をもたらす。 ハニーポットのようなシステムを使って、車載攻撃者のデータはサイバー脅威情報を通じて現実的に収集することができる。 確かに、ハニーポットの設定は、ハニーポットとアタッカーの相互作用のレベルと、これらのハニーポットの実装と監視に要するオーバーヘッドとコストの間のトレードオフをもたらす。 我々は、IoVの構成要素を表すためにハニーポットを戦略的に構成し、攻撃者がサイバー脅威情報を集めることで効果的な騙しが達成できると主張している。 本稿では,IoVにおけるハニーポット詐欺の新しい意思決定支援フレームワークであるHoneyCarを紹介する。 HoneyCarは、National Vulnerability Database(NVD)内のCommon Vulnerabilities and Exposure(CVE)データにある、自律および接続された車両の既知の脆弱性のリポジトリの上に構築され、最適なハニーポット構成戦略を計算する。 IoVネットワーク管理者がハニーポットで提供すべき脆弱性セットを選択し、戦略攻撃者が不確実性に乗じてIoVの脆弱性を選択するような、繰り返し不完全な情報ゼロサムゲームとして、敵の相互作用をモデル化する。 本研究は,ネットワーク管理者が最適なハニーポット構成を決定するための再設定コストを伴わずに,2つの異なるバージョンのゲームを検証することによって実証された。 我々は,戦略展開のための最適なハニーポット構成戦略を決定づけることで意思決定者を支援するために,ハニーカーを現実的なユースケースで評価する。

The Internet of Vehicles (IoV), whereby interconnected vehicles communicate with each other and with road infrastructure on a common network, has promising socio-economic benefits but also poses new cyber-physical threats. Data on vehicular attackers can be realistically gathered through cyber threat intelligence using systems like honeypots. Admittedly, configuring honeypots introduces a trade-off between the level of honeypot-attacker interactions and any incurred overheads and costs for implementing and monitoring these honeypots. We argue that effective deception can be achieved through strategically configuring the honeypots to represent components of the IoV and engage attackers to collect cyber threat intelligence. In this paper, we present HoneyCar, a novel decision support framework for honeypot deception in IoV. HoneyCar builds upon a repository of known vulnerabilities of the autonomous and connected vehicles found in the Common Vulnerabilities and Exposure (CVE) data within the National Vulnerability Database (NVD) to compute optimal honeypot configuration strategies. By taking a game-theoretic approach, we model the adversarial interaction as a repeated imperfect-information zero-sum game in which the IoV network administrator chooses a set of vulnerabilities to offer in a honeypot and a strategic attacker chooses a vulnerability of the IoV to exploit under uncertainty. Our investigation is substantiated by examining two different versions of the game, with and without the re-configuration cost to empower the network administrator to determine optimal honeypot configurations. We evaluate HoneyCar in a realistic use case to support decision makers with determining optimal honeypot configuration strategies for strategic deployment in IoV.
翻訳日:2021-11-04 13:40:06 公開日:2021-11-03
# ブラックボックスシステムの希少事象シミュレーションのための認証深度サンプリング

Certifiable Deep Importance Sampling for Rare-Event Simulation of Black-Box Systems ( http://arxiv.org/abs/2111.02204v1 )

ライセンス: Link先を確認
Mansur Arief, Yuanlu Bai, Wenhao Ding, Shengyi He, Zhiyuan Huang, Henry Lam, Ding Zhao(参考訳) 重要サンプリング(is)のような希少事象シミュレーション技術は、稀な破滅的な事象の困難な推定を高速化する強力なツールである。 これらの技術は、しばしばシステム構造に関する知識と分析を利用して、望ましい効率を保証する。 しかし、ブラックボックス問題、特に最近のAI駆動物理システムの安全クリティカルな応用から生じる問題は、その効率の保証を根本的に損なう可能性があり、診断的に検出されることなく危険な過小評価につながる。 我々は、多目的で保証が得られないブラックボックスサンプリングを、希少な確率のバウンダリを正確に推定できる緩和された効率証明と呼ぶものに変換することで、統計的に保証されたISを設計するためのDeep Probabilistic Accelerated Evaluation(Deep-PrAE)と呼ばれるフレームワークを提案する。 本稿では、支配点の概念と深層ニューラルネットワーク分類器による希少集合学習を組み合わせたDeep-PrAEの理論を提案し、インテリジェントな駆動アルゴリズムの安全性テストを含む数値例でその効果を実証する。

Rare-event simulation techniques, such as importance sampling (IS), constitute powerful tools to speed up challenging estimation of rare catastrophic events. These techniques often leverage the knowledge and analysis on underlying system structures to endow desirable efficiency guarantees. However, black-box problems, especially those arising from recent safety-critical applications of AI-driven physical systems, can fundamentally undermine their efficiency guarantees and lead to dangerous under-estimation without diagnostically detected. We propose a framework called Deep Probabilistic Accelerated Evaluation (Deep-PrAE) to design statistically guaranteed IS, by converting black-box samplers that are versatile but could lack guarantees, into one with what we call a relaxed efficiency certificate that allows accurate estimation of bounds on the rare-event probability. We present the theory of Deep-PrAE that combines the dominating point concept with rare-event set learning via deep neural network classifiers, and demonstrate its effectiveness in numerical examples including the safety-testing of intelligent driving algorithms.
翻訳日:2021-11-04 13:39:34 公開日:2021-11-03
# 深層学習を用いた航空交通通信における話者の役割同定の比較検討

A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches ( http://arxiv.org/abs/2111.02041v1 )

ライセンス: Link先を確認
Dongyue Guo, Jianwei Zhang, Bo Yang, Yi Lin(参考訳) 航空交通管制(atc)における制御-操縦者会話の自動音声指示理解(siu)は、音声の単語や意味を認識するだけでなく、話者の役割を判断する必要がある。 しかし、航空交通通信における自動理解システムに関する論文のほとんどが話者役割識別(sri)に焦点をあてている。 本稿では,二項分類問題として,制御パイロット通信のSRIタスクを定式化する。 さらに,SRIタスクを包括的に比較するために,テキストベース,音声ベース,音声およびテキストベースのマルチモーダル手法を提案する。 比較アプローチの影響を緩和するために、テキストベースおよび音声ベースの手法の実装を最適化するために、様々な高度なニューラルネットワークアーキテクチャを適用した。 最も重要なことは、マルチモーダル話者ロール識別ネットワーク(MMSRINet)は、音声とテキストの両モードの特徴を考慮してSRIタスクを実現するように設計されている。 モーダル・フュージョン・モジュールは,モーダル・アテンション・メカニズムと自己アテンション・プール・レイヤによって,それぞれ音響表現とテキスト表現を融合・圧縮する。 最後に,実環境のATC環境から収集したATCSpeechコーパスについて比較検討を行った。 実験の結果、sriタスクでは全ての比較手法が動作し、提案されたmmsrinetは、観測データと未確認データの両方における他の手法と比較して、それぞれ98.56%と98.08%の精度で競合性能と堅牢性を示している。

Automatic spoken instruction understanding (SIU) of the controller-pilot conversations in the air traffic control (ATC) requires not only recognizing the words and semantics of the speech but also determining the role of the speaker. However, few of the published works on the automatic understanding systems in air traffic communication focus on speaker role identification (SRI). In this paper, we formulate the SRI task of controller-pilot communication as a binary classification problem. Furthermore, the text-based, speech-based, and speech and text based multi-modal methods are proposed to achieve a comprehensive comparison of the SRI task. To ablate the impacts of the comparative approaches, various advanced neural network architectures are applied to optimize the implementation of text-based and speech-based methods. Most importantly, a multi-modal speaker role identification network (MMSRINet) is designed to achieve the SRI task by considering both the speech and textual modality features. To aggregate modality features, the modal fusion module is proposed to fuse and squeeze acoustic and textual representations by modal attention mechanism and self-attention pooling layer, respectively. Finally, the comparative approaches are validated on the ATCSpeech corpus collected from a real-world ATC environment. The experimental results demonstrate that all the comparative approaches are worked for the SRI task, and the proposed MMSRINet shows the competitive performance and robustness than the other methods on both seen and unseen data, achieving 98.56%, and 98.08% accuracy, respectively.
翻訳日:2021-11-04 13:39:14 公開日:2021-11-03
# (参考訳) 円滑なコストと円滑なポリシーによる円滑な模倣学習

Smooth Imitation Learning via Smooth Costs and Smooth Policies ( http://arxiv.org/abs/2111.02354v1 )

ライセンス: CC BY 4.0
Sapana Chaudhary, Balaraman Ravindran(参考訳) 模倣学習(il)は,強化学習(rl)における報酬の誤特定や探索の問題を回避しようとする他の理由として,継続的制御環境において一般的なアプローチである。 デモンストレーションからのilでは、入力に対してスムーズなエージェントポリシーを取得することが重要な課題である。 大規模な状態作用(英語版)(s$-a$)空間(高次元連続制御環境の典型)の関数として滑らかなポリシーを模倣して学ぶことは困難である。 我々は,この課題に取り組むための第一歩として,逆模倣学習のコストモデルである \textit{both} 上の正規化子を,滑らかに誘導することで解決する。 私たちの正規化子は、コスト関数が$s$-$a$の関数として制御された方法で変化することを保証し、エージェントポリシーは状態空間に関してうまく振る舞う。 我々は新しいスムースilアルゴリズム \textit{smooth policy and cost imitation learning} (spacil, 発音は「特殊」)と呼ぶ。 我々は,学習方針の円滑さを定量化する新しい指標を提案する。 我々は,MuJoCoの連続制御タスクにおけるSPaCILの優れた性能を示す。 このアルゴリズムは、提案された滑らかさのメトリクスに対して最先端のilアルゴリズムを上回るだけでなく、学習の高速化と平均リターンの大幅な向上というメリットを享受しています。

Imitation learning (IL) is a popular approach in the continuous control setting as among other reasons it circumvents the problems of reward mis-specification and exploration in reinforcement learning (RL). In IL from demonstrations, an important challenge is to obtain agent policies that are smooth with respect to the inputs. Learning through imitation a policy that is smooth as a function of a large state-action ($s$-$a$) space (typical of high dimensional continuous control environments) can be challenging. We take a first step towards tackling this issue by using smoothness inducing regularizers on \textit{both} the policy and the cost models of adversarial imitation learning. Our regularizers work by ensuring that the cost function changes in a controlled manner as a function of $s$-$a$ space; and the agent policy is well behaved with respect to the state space. We call our new smooth IL algorithm \textit{Smooth Policy and Cost Imitation Learning} (SPaCIL, pronounced 'Special'). We introduce a novel metric to quantify the smoothness of the learned policies. We demonstrate SPaCIL's superior performance on continuous control tasks from MuJoCo. The algorithm not just outperforms the state-of-the-art IL algorithm on our proposed smoothness metric, but, enjoys added benefits of faster learning and substantially higher average return.
翻訳日:2021-11-04 13:38:19 公開日:2021-11-03
# Causal-BALD:観測データによる治療効果の推定結果のベイズ的アクティブラーニング

Causal-BALD: Deep Bayesian Active Learning of Outcomes to Infer Treatment-Effects from Observational Data ( http://arxiv.org/abs/2111.02275v1 )

ライセンス: Link先を確認
Andrew Jesson and Panagiotis Tigas and Joost van Amersfoort and Andreas Kirsch and Uri Shalit and Yarin Gal(参考訳) 高次元観測データからパーソナライズされた治療効果を推定することは、実験的な設計が実現不可能、非倫理的、あるいは高価である状況において不可欠である。 既存のアプローチは、治療と管理のために観察された結果に深いモデルを適用することに依存している。 しかし、腫瘍生検の場合と同様に、個々の結果を測定するのにコストがかかる場合、各結果を取得するためのサンプル効率の戦略が必要である。 Deep Bayesian Active Learningは、不確実性の高い点を選択することによって、効率的なデータ取得のためのフレームワークを提供する。 しかし、既存の方法では、治療対象と管理対象の非重複支援領域への偏り学習データ取得が可能であった。 これらの領域では処理効果が同定できないため、試料効率は低い。 本稿では, パーソナライズされた治療効果を学習するためのサンプル効率を最大化するために, 重複する領域に対するバイアスデータ取得という情報理論に基づく因果的ベイズ買収機能を紹介する。 本稿では,合成および半合成データセットihdpおよびcmnistとその拡張における,共通データセットバイアスと病理をシミュレートすることを目的とした,提案手法の性能を示す。

Estimating personalized treatment effects from high-dimensional observational data is essential in situations where experimental designs are infeasible, unethical, or expensive. Existing approaches rely on fitting deep models on outcomes observed for treated and control populations. However, when measuring individual outcomes is costly, as is the case of a tumor biopsy, a sample-efficient strategy for acquiring each result is required. Deep Bayesian active learning provides a framework for efficient data acquisition by selecting points with high uncertainty. However, existing methods bias training data acquisition towards regions of non-overlapping support between the treated and control populations. These are not sample-efficient because the treatment effect is not identifiable in such regions. We introduce causal, Bayesian acquisition functions grounded in information theory that bias data acquisition towards regions with overlapping support to maximize sample efficiency for learning personalized treatment effects. We demonstrate the performance of the proposed acquisition strategies on synthetic and semi-synthetic datasets IHDP and CMNIST and their extensions, which aim to simulate common dataset biases and pathologies.
翻訳日:2021-11-04 13:18:10 公開日:2021-11-03
# 広ReLUネットワークにおける線形解の平均場解析

Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks ( http://arxiv.org/abs/2111.02278v1 )

ライセンス: Link先を確認
Alexander Shevchenko, Vyacheslav Kungurtsev, Marco Mondelli(参考訳) 確率勾配降下(SGD)によって訓練されたニューラルネットワークの性質を理解することは、ディープラーニング理論の中心にある。 本研究では,SGDを用いてトレーニングした2層ReLUネットワークを,一変量正規化回帰問題に適用する。 我々の主な成果は、SGD が単純な解に偏っていることである:収束において、ReLU ネットワークは入力の断片的に線形写像を実装し、ReLU ネットワーク推定器の接点が2つの連続するトレーニング入力の間で少なくとも3つの点が変化する点である。 特に、ネットワークのニューロンの数が増えるにつれて、SGDのダイナミクスは勾配流の解によって捉えられ、収束すると、重みの分布はギブス形式を持つ関連する自由エネルギーのユニークな最小化に近づく。 我々の重要な技術的貢献は、この最小化子から生じる推定器の分析である:我々は、その2番目の微分が「結び目」の点を表す特定の位置を除いて、至る所で消えることを示す。 また、我々の理論が予測したように、データポイントとは異なる場所で結び目が発生するという経験的証拠も提供する。

Understanding the properties of neural networks trained via stochastic gradient descent (SGD) is at the heart of the theory of deep learning. In this work, we take a mean-field view, and consider a two-layer ReLU network trained via SGD for a univariate regularized regression problem. Our main result is that SGD is biased towards a simple solution: at convergence, the ReLU network implements a piecewise linear map of the inputs, and the number of "knot" points - i.e., points where the tangent of the ReLU network estimator changes - between two consecutive training inputs is at most three. In particular, as the number of neurons of the network grows, the SGD dynamics is captured by the solution of a gradient flow and, at convergence, the distribution of the weights approaches the unique minimizer of a related free energy, which has a Gibbs form. Our key technical contribution consists in the analysis of the estimator resulting from this minimizer: we show that its second derivative vanishes everywhere, except at some specific locations which represent the "knot" points. We also provide empirical evidence that knots at locations distinct from the data points might occur, as predicted by our theory.
翻訳日:2021-11-04 13:17:51 公開日:2021-11-03
# クラスタ数、クラスタリングモデル、アルゴリズムを選択する。 二次判別スコアに基づく統一的アプローチ

Selecting the number of clusters, clustering models, and algorithms. A unifying approach based on the quadratic discriminant score ( http://arxiv.org/abs/2111.02302v1 )

ライセンス: Link先を確認
Luca Coraggio and Pietro Coretto(参考訳) クラスタ分析には、クラスタリング法と暗黙の参照モデル、クラスタの数、そしてしばしば、いくつかのハイパーパラメータとアルゴリズムのチューニングなど、多くの決定が必要である。 実際には、いくつかのパーティションを生成し、最後のパーティションは検証基準や選択基準に基づいて選択される。 暗黙的または明示的に特定のクラスタリングの概念を仮定する検証方法が多数存在する。 さらに、特定のメソッドから取得したパーティションの操作に制限されることが多い。 本稿では,2次境界あるいは線形境界で十分に分離できる群に焦点をあてる。 参照クラスタの概念は、二次判別スコア関数とクラスタのサイズ、中心、散乱を記述するパラメータによって定義される。 我々は二次スコアと呼ばれる2つのクラスタ品質基準を考案する。 これらの基準は、楕円対称分布の一般クラスから生成される群と一致することを示す。 この種のグループの探求はアプリケーションで一般的である。 混合モデルとモデルに基づくクラスタリングの確率論との関連について検討した。 二次スコアのブートストラップ再サンプリングに基づいて,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。 提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。 広範な数値実験と実データの解析は、たとえいくつかの競合手法がいくつかの設定で優れていると判明しても、提案手法により全体的な性能が向上することを示している。

Cluster analysis requires many decisions: the clustering method and the implied reference model, the number of clusters and, often, several hyper-parameters and algorithms' tunings. In practice, one produces several partitions, and a final one is chosen based on validation or selection criteria. There exist an abundance of validation methods that, implicitly or explicitly, assume a certain clustering notion. Moreover, they are often restricted to operate on partitions obtained from a specific method. In this paper, we focus on groups that can be well separated by quadratic or linear boundaries. The reference cluster concept is defined through the quadratic discriminant score function and parameters describing clusters' size, center and scatter. We develop two cluster-quality criteria called quadratic scores. We show that these criteria are consistent with groups generated from a general class of elliptically-symmetric distributions. The quest for this type of groups is common in applications. The connection with likelihood theory for mixture models and model-based clustering is investigated. Based on bootstrap resampling of the quadratic scores, we propose a selection rule that allows choosing among many clustering solutions. The proposed method has the distinctive advantage that it can compare partitions that cannot be compared with other state-of-the-art methods. Extensive numerical experiments and the analysis of real data show that, even if some competing methods turn out to be superior in some setups, the proposed methodology achieves a better overall performance.
翻訳日:2021-11-04 13:17:29 公開日:2021-11-03
# 電気自動車のナビゲーションにおけるエネルギー消費のオンライン学習

Online Learning of Energy Consumption for Navigation of Electric Vehicles ( http://arxiv.org/abs/2111.02314v1 )

ライセンス: Link先を確認
Niklas {\AA}kerblom, Yuxin Chen, Morteza Haghir Chehreghani(参考訳) エネルギー効率のよいナビゲーションは、電気自動車にとって重要な課題である。 道路セグメントのエネルギー消費を効率的なナビゲーションのためにモデル化するためにベイズ的手法を用いる。 モデルパラメータを学習するために,オンライン学習フレームワークを開発し,トンプソンサンプリングや上位信頼度境界など,いくつかの探索戦略を検討する。 そして、オンライン学習フレームワークをマルチエージェント設定に拡張し、複数の車両がエネルギーモデルのパラメータを適応的にナビゲートし、学習します。 我々はトンプソンサンプリングを解析し、バッチフィードバックによるアルゴリズムの解析により、単一エージェントと複数エージェントの設定におけるその性能に厳密な後悔の限界を確立する。 最後に,実際の都市道路ネットワークの実験を通じて,提案手法の性能を実証する。

Energy-efficient navigation constitutes an important challenge in electric vehicles, due to their limited battery capacity. We employ a Bayesian approach to model the energy consumption at road segments for efficient navigation. In order to learn the model parameters, we develop an online learning framework and investigate several exploration strategies such as Thompson Sampling and Upper Confidence Bound. We then extend our online learning framework to multi-agent setting, where multiple vehicles adaptively navigate and learn the parameters of the energy model. We analyze Thompson Sampling and establish rigorous regret bounds on its performance in the single-agent and multi-agent settings, through an analysis of the algorithm under batched feedback. Finally, we demonstrate the performance of our methods via experiments on several real-world city road networks.
翻訳日:2021-11-04 13:17:10 公開日:2021-11-03
# なぜ安定した学習がうまくいくのか? 共変量シフト一般化の理論

Why Stable Learning Works? A Theory of Covariate Shift Generalization ( http://arxiv.org/abs/2111.02355v1 )

ライセンス: Link先を確認
Renzhe Xu, Peng Cui, Zheyan Shen, Xingxuan Zhang, Tong Zhang(参考訳) out-of-distribution (ood) 一般化の典型例であるcovariate shift generalizationでは、covariate shiftという形式でアクセス可能なトレーニング分布と異なる、未知のテストディストリビューションでの優れたパフォーマンスが求められている。 近年、安定学習アルゴリズムは、回帰アルゴリズムとディープニューラルネットワークを含むいくつかの学習モデルの共変シフト一般化を扱うための経験的有効性を示している。 しかし、そのような効果の理論的説明はいまだに欠けている。 本稿では,安定学習アルゴリズムの理論的解析を特徴選択プロセスとして説明することによって,さらに一歩進める。 まず、最小の安定変数集合と呼ばれる変数の集合を定義し、これは平均二乗損失や二項交叉エントロピー損失を含む共通損失関数の共変シフト一般化を扱うのに最適である。 そして、理想的な条件下では、安定学習アルゴリズムがこの集合の変数を識別できることを示す。 また、漸近特性および誤り伝播に関するさらなる分析も提供される。 これらの理論は、なぜ安定学習が共変量シフト一般化に働くのかを浮き彫りにした。

Covariate shift generalization, a typical case in out-of-distribution (OOD) generalization, requires a good performance on the unknown testing distribution, which varies from the accessible training distribution in the form of covariate shift. Recently, stable learning algorithms have shown empirical effectiveness to deal with covariate shift generalization on several learning models involving regression algorithms and deep neural networks. However, the theoretical explanations for such effectiveness are still missing. In this paper, we take a step further towards the theoretical analysis of stable learning algorithms by explaining them as feature selection processes. We first specify a set of variables, named minimal stable variable set, that is minimal and optimal to deal with covariate shift generalization for common loss functions, including the mean squared loss and binary cross entropy loss. Then we prove that under ideal conditions, stable learning algorithms could identify the variables in this set. Further analysis on asymptotic properties and error propagation are also provided. These theories shed light on why stable learning works for covariate shift generalization.
翻訳日:2021-11-04 13:16:57 公開日:2021-11-03
# マルチモーダル感情認識のための自己アテンションと残差構造に基づくクロスモーダル融合ネットワーク

A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition ( http://arxiv.org/abs/2111.02172v1 )

ライセンス: Link先を確認
Ziwang Fu, Feng Liu, Hanyang Wang, Jiayin Qi, Xiangling Fu, Aimin Zhou, Zhibin Li(参考訳) オーディオビデオに基づくマルチモーダル感情認識は、堅牢なパフォーマンスのために多くの注目を集めている。 既存の手法のほとんどは、異なるモーダル融合戦略の提案に焦点を当てている。 しかし、これらの戦略は、モーダル情報間の相補的性質を完全に考慮することなく、異なるモーダルの特徴の冗長性を導入し、モーダル内およびモーダル間相互作用における元の意味情報の欠如を保証しない。 本稿では,マルチモーダル感情認識のための自己注意・残差構造(CFN-SR)に基づく新たな相互統合ネットワークを提案する。 まず,音声と映像のモダリティに対する表現学習を行い,その2つのモダリティの意味的特徴を,それぞれ効率的な再帰と1次元cnnによって獲得する。 第2に,2つのモダリティの特徴を分離してクロスモーダルブロックに供給し,自己着脱機構と残留構造を通じて情報の効率的な相補性と完全性を確保する。 最後に、得られた融合表現を元の表現とスプライシングすることで感情の出力を得る。 提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。 実験の結果、cfn-srは最新技術を達成し、26.30mのパラメータで75.76%の精度を得た。 私たちのコードはhttps://github.com/skeletonnn/cfn-srで入手できる。

The audio-video based multimodal emotion recognition has attracted a lot of attention due to its robust performance. Most of the existing methods focus on proposing different cross-modal fusion strategies. However, these strategies introduce redundancy in the features of different modalities without fully considering the complementary properties between modal information, and these approaches do not guarantee the non-loss of original semantic information during intra- and inter-modal interactions. In this paper, we propose a novel cross-modal fusion network based on self-attention and residual structure (CFN-SR) for multimodal emotion recognition. Firstly, we perform representation learning for audio and video modalities to obtain the semantic features of the two modalities by efficient ResNeXt and 1D CNN, respectively. Secondly, we feed the features of the two modalities into the cross-modal blocks separately to ensure efficient complementarity and completeness of information through the self-attention mechanism and residual structure. Finally, we obtain the output of emotions by splicing the obtained fused representation with the original representation. To verify the effectiveness of the proposed method, we conduct experiments on the RAVDESS dataset. The experimental results show that the proposed CFN-SR achieves the state-of-the-art and obtains 75.76% accuracy with 26.30M parameters. Our code is available at https://github.com/skeletonNN/CFN-SR.
翻訳日:2021-11-04 13:16:40 公開日:2021-11-03
# FaceQvec:ISO準拠に基づく顔バイオメトリックスのベクトル品質評価

FaceQvec: Vector Quality Assessment for Face Biometrics based on ISO Compliance ( http://arxiv.org/abs/2111.02078v1 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Julian Fierrez, Luis F. Gomez, Aythami Morales, Jose Luis Gonzalez-de-Suso, Francisco Zamora-Martinez(参考訳) 本稿では,ISO/IEC 19794-5で実証された各点による顔画像の整合性を推定するソフトウェアコンポーネントであるFaceQvecを開発した。 このタイプの品質評価ツールは、顔認識の精度の向上や、特定の顔画像の品質に影響を与える要因の特定に役立ち、例えば、後処理技術や画像の再取得によって、これらの要因を排除または削減するためのアクションを取ることができる。 faceqvecは、前述の標準で検討された異なる点に関連する25の個別テストの自動化と、顔の質に関連すると考えられる画像の他の特徴からなる。 まず,実環境下で収集した開発データセットで評価した品質テストの結果を含める。 これらの結果を用いて各テストの判定閾値を調整した。 そして,その精度を,開発中に見えない新しい顔画像を含む評価データベースで検証した。 評価の結果,ISO/IEC 19794-5の適合性を確認するための個別試験の精度が示された。 FaceQvecはオンラインで入手できる(https://github.com/uam-biometrics/FaceQvec)。

In this paper we develop FaceQvec, a software component for estimating the conformity of facial images with each of the points contemplated in the ISO/IEC 19794-5, a quality standard that defines general quality guidelines for face images that would make them acceptable or unacceptable for use in official documents such as passports or ID cards. This type of tool for quality assessment can help to improve the accuracy of face recognition, as well as to identify which factors are affecting the quality of a given face image and to take actions to eliminate or reduce those factors, e.g., with postprocessing techniques or re-acquisition of the image. FaceQvec consists of the automation of 25 individual tests related to different points contemplated in the aforementioned standard, as well as other characteristics of the images that have been considered to be related to facial quality. We first include the results of the quality tests evaluated on a development dataset captured under realistic conditions. We used those results to adjust the decision threshold of each test. Then we checked again their accuracy on a evaluation database that contains new face images not seen during development. The evaluation results demonstrate the accuracy of the individual tests for checking compliance with ISO/IEC 19794-5. FaceQvec is available online (https://github.com/uam-biometrics/FaceQvec).
翻訳日:2021-11-04 13:16:16 公開日:2021-11-03
# ゼロショット学習のためのエントロピー誘導強化部分畳み込みネットワーク

An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot Learning ( http://arxiv.org/abs/2111.02139v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Lina Yao, Xianzhi Wang, Julian McAuley, Xiaojun Chang(参考訳) Zero-Shot Learning (ZSL) は、観察されたクラスから意味的相関を通じて未知のクラスに学習知識を伝達することを目的としている。 有望な戦略は、グローバル情報を余分なローカル(入力の小さな部分/領域)に組み込むグローバルローカル表現を学ぶことである。 しかし,既存の手法では,地域間の特質や関係を掘り下げることなく,明示的な特徴に基づく局所性を見出すことができた。 本研究では,意味的関連性や視覚的相関性に基づいて局所性を段階的に抽出・集約する,エントロピー誘導型部分畳み込みネットワーク(ERPCNet)を提案する。 ERPCNetは、強化された部分的畳み込みとエントロピー誘導を使用する。 我々は、ZSLの最先端手法と4つのベンチマークデータセット上の一般化ゼロショット学習(GZSL)設定を比較して、ERPCNetの性能を示すための広範な実験を行った。 また、可視化分析により、ERPCNetは時間効率が高く、説明が可能であることも示しています。

Zero-Shot Learning (ZSL) aims to transfer learned knowledge from observed classes to unseen classes via semantic correlations. A promising strategy is to learn a global-local representation that incorporates global information with extra localities (i.e., small parts/regions of inputs). However, existing methods discover localities based on explicit features without digging into the inherent properties and relationships among regions. In this work, we propose a novel Entropy-guided Reinforced Partial Convolutional Network (ERPCNet), which extracts and aggregates localities progressively based on semantic relevance and visual correlations without human-annotated regions. ERPCNet uses reinforced partial convolution and entropy guidance; it not only discovers global-cooperative localities dynamically but also converges faster for policy gradient optimization. We conduct extensive experiments to demonstrate ERPCNet's performance through comparisons with state-of-the-art methods under ZSL and Generalized Zero-Shot Learning (GZSL) settings on four benchmark datasets. We also show ERPCNet is time efficient and explainable through visualization analysis.
翻訳日:2021-11-04 13:15:57 公開日:2021-11-03
# LTD:ロバスト対抗訓練のための低温蒸留

LTD: Low Temperature Distillation for Robust Adversarial Training ( http://arxiv.org/abs/2111.02331v1 )

ライセンス: Link先を確認
Erh-Chung Chen, Che-Rung Lee(参考訳) 敵のトレーニングは、敵の攻撃に対するニューラルネットワークモデルの堅牢性を高めるために広く使われている。 しかし、それでも自然の正確さと頑健な正確さの間には顕著なギャップがある。 理由の1つは、画像認識の学習過程を妨げる、よく使われるラベル、ワンホットベクトルである。 本稿では, 所望のソフトラベルを生成するための知識蒸留の枠組みを基礎として, 低温蒸留法(LTD)を提案する。 以前の研究とは異なり、LTDは教師モデルでは比較的低温を使用し、教師モデルと生徒モデルでは温度が異なるが固定されている。 さらに,本研究では,自然データと逆データの利用をLTDで相乗化する方法について検討した。 実験の結果,提案手法と先行研究を組み合わせることで,cifar-10とcifar-100のデータセットにおいて,それぞれ57.72\%と30.36\%のロバストな精度が得られることがわかった。

Adversarial training has been widely used to enhance the robustness of the neural network models against adversarial attacks. However, there still a notable gap between the nature accuracy and the robust accuracy. We found one of the reasons is the commonly used labels, one-hot vectors, hinder the learning process for image recognition. In this paper, we proposed a method, called Low Temperature Distillation (LTD), which is based on the knowledge distillation framework to generate the desired soft labels. Unlike the previous work, LTD uses relatively low temperature in the teacher model, and employs different, but fixed, temperatures for the teacher model and the student model. Moreover, we have investigated the methods to synergize the use of nature data and adversarial ones in LTD. Experimental results show that without extra unlabeled data, the proposed method combined with the previous work can achieve 57.72\% and 30.36\% robust accuracy on CIFAR-10 and CIFAR-100 dataset respectively, which is about 1.21\% improvement of the state-of-the-art methods in average.
翻訳日:2021-11-04 13:15:37 公開日:2021-11-03
# 注意点点滅効果のカテゴリー差と関連脳領域

Categorical Difference and Related Brain Regions of the Attentional Blink Effect ( http://arxiv.org/abs/2111.02044v1 )

ライセンス: Link先を確認
Renzhou Gui, Xiaohong Ji(参考訳) 注意点滅(AB)は生物学的効果であり,視覚的標的に注意を払ってから200~500msでは,次に現れる他の標的に気づくことは困難であり,注意点滅度(ABM)は,この効果の度合いを測定するための指標である。 研究者たちは、画像の異なるカテゴリが人間の心の意識に異なるアクセスが可能であり、異なる範囲のABM値を生成することを示した。 そこで本稿では、畳み込みニューラルネットワーク(CNN)から抽出した画像特徴から直接ABM値を予測し、機能的磁気共鳴画像(fMRI)データから間接的に、動物と物体に分類した2種類の画像を比較する。 まず,cnnの古典的なモデルであるalexnetの層から平均的な特徴を別々に抽出し,その特徴を訓練された線形回帰モデルに入力してabm値を予測する。 次に、被験者が50個のテスト画像を見てABM値を予測する際に収集した異なる脳領域のfMRIデータを用いて、LVC、HVC、VCなどの比較的広い領域をカバーする脳領域は、他のより小さな脳領域よりも優れていると結論づけた。

Attentional blink (AB) is a biological effect, showing that for 200 to 500ms after paying attention to one visual target, it is difficult to notice another target that appears next, and attentional blink magnitude (ABM) is a indicating parameter to measure the degree of this effect. Researchers have shown that different categories of images can access the consciousness of human mind differently, and produce different ranges of ABM values. So in this paper, we compare two different types of images, categorized as animal and object, by predicting ABM values directly from image features extracted from convolutional neural network (CNN), and indirectly from functional magnetic resonance imaging (fMRI) data. First, for two sets of images, we separately extract their average features from layers of Alexnet, a classic model of CNN, then input the features into a trained linear regression model to predict ABM values, and we find higher-level instead of lower-level image features determine the categorical difference in AB effect, and mid-level image features predict ABM values more correctly than low-level and high-level image features. Then we employ fMRI data from different brain regions collected when the subjects viewed 50 test images to predict ABM values, and conclude that brain regions covering relatively broader areas, like LVC, HVC and VC, perform better than other smaller brain regions, which means AB effect is more related to synthetic impact of several visual brain regions than only one particular visual regions.
翻訳日:2021-11-04 13:15:08 公開日:2021-11-03
# このデータセットを使って商用AIソフトウェアを構築できますか? おそらくそうではない

Can I use this publicly available dataset to build commercial AI software? Most likely not ( http://arxiv.org/abs/2111.02374v1 )

ライセンス: Link先を確認
Gopi Krishnan Rajbahadur, Erika Tuck, Li Zi, Zhang Wei, Dayi Lin, Boyuan Chen, Zhen Ming (Jack) Jiang, Daniel Morales German(参考訳) 公開データセットは、商用AIソフトウェアの主要な要因のひとつだ。 公開データセットの使用(特に商業目的)は、データセットライセンスによって管理される。 これらのデータセットライセンスは、与えられたデータセットに権利を付与する権利と、ライセンス違反なしにそのような権利を享受しなければならない義務を概説する。 しかしながら、標準化されたオープンソースソフトウェア(OSS)ライセンスとは異なり、既存のデータセットライセンスはアドホックな方法で定義されており、それらの使用に関する権利と義務を明確に示していない。 これにより、潜在的なライセンスコンプライアンス違反のチェックが困難になる。 さらに、パブリックデータセットを複数の場所にホストして、それぞれ異なるライセンスを持つ複数のデータソースから作成することもできる。 したがって、OSSライセンスのコンプライアンスをチェックする既存のアプローチは使用できない。 本稿では,商用AIソフトウェア構築に利用可能なデータセットを使用する場合,ライセンス違反の可能性を評価するための新しいアプローチを提案する。 我々は、ファーウェイ内の2つの製品グループで、一般に使用される6つのデータセットで、このアプローチを試行している。 その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。 その結果、ライセンスコンプライアンス違反に対して、公開データセットをより適切に評価する方法について、AIエンジニアに推奨します。

Publicly available datasets are one of the key drivers for commercial AI software. The use of publicly available datasets (particularly for commercial purposes) is governed by dataset licenses. These dataset licenses outline the rights one is entitled to on a given dataset and the obligations that one must fulfil to enjoy such rights without any license compliance violations. However, unlike standardized Open Source Software (OSS) licenses, existing dataset licenses are defined in an ad-hoc manner and do not clearly outline the rights and obligations associated with their usage. This makes checking for potential license compliance violations difficult. Further, a public dataset may be hosted in multiple locations and created from multiple data sources each of which may have different licenses. Hence, existing approaches on checking OSS license compliance cannot be used. In this paper, we propose a new approach to assess the potential license compliance violations if a given publicly available dataset were to be used for building commercial AI software. We conduct trials of our approach on two product groups within Huawei on 6 commonly used publicly available datasets. Our results show that there are risks of license violations on 5 of these 6 studied datasets if they were used for commercial purposes. Consequently, we provide recommendations for AI engineers on how to better assess publicly available datasets for license compliance violations.
翻訳日:2021-11-04 13:13:45 公開日:2021-11-03
# サイバー物理システムのためのビデオサーベイランスにおけるイベントとアクティビティ認識

Event and Activity Recognition in Video Surveillance for Cyber-Physical Systems ( http://arxiv.org/abs/2111.02064v1 )

ライセンス: Link先を確認
Swarnabja Bhaumik, Prithwish Jana and Partha Pratim Mohanta(参考訳) 本章は,映像サーベイランスの各種応用における事象や活動の自動理解におけるサイバー物理システム(CPS)の開発を支援することを目的としている。 これらのイベントは、主にドローンやcctv、初心者や未熟な個人がローエンドデバイスで捉えている。 制限がないので、これらのビデオは多くの品質要因のために非常に難しい。 この問題を長年にわたって解決してきた様々なアプローチについて概説する。 これは、早期にStructure from Motion (SFM)ベースのアプローチから、ディープニューラルネットワークを含む最近のソリューションフレームワークまで、幅広い。 イベント認識において,長期動作パターンのみが重要な役割を担っていることを示す。 したがって、各ビデオはグラフベースのアプローチで固定数のキーフレームで表現される。 時間的特徴のみが、ハイブリッド畳み込みニューラルネットワーク(cnn)+リカレントニューラルネットワーク(rnn)アーキテクチャを使用して悪用される。 得られた結果は,標準的な時間的CNNよりも優れており,動きの手がかりとともに空間情報を用いた結果と同等である。 さらにマルチストリームモデルを探索し,ネットワークの空間的および時間的翼に対する多層融合戦略を考察する。 ビデオおよびフレームレベルでの個々の予測ベクトルの集約表現は、バイアスド・フレレーション法を用いて得られる。 融合戦略は,最先端の手法に比べて各段階の精度が向上し,分類において強力なコンセンサスが達成される。 結果は、CCV、HMDB、UCF-101、KCVというアクション認識領域で広く使われている4つのベンチマークデータセットに記録される。 ビデオシーケンスのより優れた分類に注目すると、イベント監視とオブジェクトcumアクティビティトラッキング用に設計されたシステムのロバストなアクティベーションに確実につながります。

This chapter aims to aid the development of Cyber-Physical Systems (CPS) in automated understanding of events and activities in various applications of video-surveillance. These events are mostly captured by drones, CCTVs or novice and unskilled individuals on low-end devices. Being unconstrained, these videos are immensely challenging due to a number of quality factors. We present an extensive account of the various approaches taken to solve the problem over the years. This ranges from methods as early as Structure from Motion (SFM) based approaches to recent solution frameworks involving deep neural networks. We show that the long-term motion patterns alone play a pivotal role in the task of recognizing an event. Consequently each video is significantly represented by a fixed number of key-frames using a graph-based approach. Only the temporal features are exploited using a hybrid Convolutional Neural Network (CNN) + Recurrent Neural Network (RNN) architecture. The results we obtain are encouraging as they outperform standard temporal CNNs and are at par with those using spatial information along with motion cues. Further exploring multistream models, we conceive a multi-tier fusion strategy for the spatial and temporal wings of a network. A consolidated representation of the respective individual prediction vectors on video and frame levels is obtained using a biased conflation technique. The fusion strategy endows us with greater rise in precision on each stage as compared to the state-of-the-art methods, and thus a powerful consensus is achieved in classification. Results are recorded on four benchmark datasets widely used in the domain of action recognition, namely CCV, HMDB, UCF-101 and KCV. It is inferable that focusing on better classification of the video sequences certainly leads to robust actuation of a system designed for event surveillance and object cum activity tracking.
翻訳日:2021-11-04 13:13:06 公開日:2021-11-03
# WMT21共有タスクのためのMicrosoftの多言語機械翻訳システム

Multilingual Machine Translation Systems from Microsoft for WMT21 Shared Task ( http://arxiv.org/abs/2111.02086v1 )

ライセンス: Link先を確認
Jian Yang, Shuming Ma, Haoyang Huang, Dongdong Zhang, Li Dong, Shaohan Huang, Alexandre Muzio, Saksham Singhal, Hany Hassan Awadalla, Xia Song, Furu Wei(参考訳) 本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。 我々は,前者が拘束されず,後者が完全に拘束されている大型トラックと2つの小型トラックを含む3つの評価トラックすべてに参加した。 共有タスクへのモデルの提出はdeltalm\footnote{\url{https://aka.ms/deltalm}}で初期化され、膨大な収集された並列データとトラック設定に応じたデータソースに対応して微調整され、さらにパフォーマンスを向上させるためにプログレッシブラーニングと反復バックトランスレーションのアプローチを適用した。 最終提出は自動評価基準で3トラックにランクインした。

This report describes Microsoft's machine translation systems for the WMT21 shared task on large-scale multilingual machine translation. We participated in all three evaluation tracks including Large Track and two Small Tracks where the former one is unconstrained and the latter two are fully constrained. Our model submissions to the shared task were initialized with DeltaLM\footnote{\url{https://aka.ms/deltalm}}, a generic pre-trained multilingual encoder-decoder model, and fine-tuned correspondingly with the vast collected parallel data and allowed data sources according to track settings, together with applying progressive learning and iterative back-translation approaches to further improve the performance. Our final submissions ranked first on three tracks in terms of the automatic evaluation metric.
翻訳日:2021-11-04 13:11:34 公開日:2021-11-03
# serc:構文的および意味的シーケンスに基づく事象関係分類

SERC: Syntactic and Semantic Sequence based Event Relation Classification ( http://arxiv.org/abs/2111.02265v1 )

ライセンス: Link先を確認
Kritika Venkatachalam, Raghava Mutharaju, Sumit Bhatia(参考訳) 時間的関係と因果関係は、イベント間の依存関係を決定する上で重要な役割を果たす。 イベント間の時間的および因果関係の分類には、イベントタイムラインの生成、イベント要約、テキストの補足、質問応答など、多くの応用がある。 時間的関係と因果関係は密接に関連しており、相互に影響している。 そこで本稿では,時間的特徴と因果的特徴の両方を組み込んで因果関係の分類を行うジョイントモデルを提案する。 テキストから2つの事象間の時間的・因果関係を同定するために,テキストの構文構造を用いる。 テキストから音声タグシーケンス、依存タグシーケンス、単語シーケンスを抽出する。 本稿では,3つの符号化特徴の相互関係を捉える時間的・因果的関係分類のためのlstmモデルを提案する。 4つの一般的なデータセットに対するモデルの評価は、時間的および因果関係の分類に有望な結果をもたらす。

Temporal and causal relations play an important role in determining the dependencies between events. Classifying the temporal and causal relations between events has many applications, such as generating event timelines, event summarization, textual entailment and question answering. Temporal and causal relations are closely related and influence each other. So we propose a joint model that incorporates both temporal and causal features to perform causal relation classification. We use the syntactic structure of the text for identifying temporal and causal relations between two events from the text. We extract parts-of-speech tag sequence, dependency tag sequence and word sequence from the text. We propose an LSTM based model for temporal and causal relation classification that captures the interrelations between the three encoded features. Evaluation of our model on four popular datasets yields promising results for temporal and causal relation classification.
翻訳日:2021-11-04 13:11:19 公開日:2021-11-03
# HmBlogs: ペルシャの大企業

HmBlogs: A big general Persian corpus ( http://arxiv.org/abs/2111.02362v1 )

ライセンス: Link先を確認
Hamzeh Motahari Khansari, Mehrnoush Shamsfard(参考訳) 本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。 このコーパスは、ペルシャのブログの領域から約15年間にわたって2000万近いブログ記事の収集に基づいて作成され、680億以上のトークンが含まれている。 このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。 このコーパスは、生と前処理の両方の形式で提示され、前処理コーパスに基づいて単語埋め込みモデルを生成する。 得られたモデルにより、hmBlogsはペルシアで利用可能な最も重要なコーパスのいくつかと比較され、結果は他のコーパスよりもhmBlogsコーパスの方が優れていることを示している。 これらの評価は、コーパス、評価データセット、モデル生成方法、異なるハイパーパラメータ、さらには評価方法の重要性と効果を示す。 本研究は,コーパスとその生成言語モデルの評価に加えて,意味的類似データセットも提示する。

This paper introduces the hmBlogs corpus for Persian, as a low resource language. This corpus has been prepared based on a collection of nearly 20 million blog posts over a period of about 15 years from a space of Persian blogs and includes more than 6.8 billion tokens. It can be claimed that this corpus is currently the largest Persian corpus that has been prepared independently for the Persian language. This corpus is presented in both raw and preprocessed forms, and based on the preprocessed corpus some word embedding models are produced. By the provided models, the hmBlogs is compared with some of the most important corpora available in Persian, and the results show the superiority of the hmBlogs corpus over the others. These evaluations also present the importance and effects of corpora, evaluation datasets, model production methods, different hyperparameters and even the evaluation methods. In addition to evaluating the corpus and its produced language models, this research also presents a semantic analogy dataset.
翻訳日:2021-11-04 13:11:06 公開日:2021-11-03
# グラフツリーメモリネットワーク

Graph Tree Memory Networks ( http://arxiv.org/abs/2111.02353v1 )

ライセンス: Link先を確認
Seokjun Kim, Jaeeun Jang, Yeonju Jang, Seongyune Choi, Hyeoncheol Kim(参考訳) 任意のデータを記憶し記憶するグラフツリーメモリネットワークを導入する。 このニューラルネットワークには2つの記憶がある。 1つは、クラス不均衡問題を解決するキュー構造の短期記憶装置と、オブジェクトの分散を格納する長期記憶装置で構成され、様々なデータセットを格納して生成する内容を導入している。

We introduce Graph Tree Memory Networks that memorize and remember any data. This neural network has two memories. One consists of a queue-structured short-term memory to solve the class imbalance problem and long-term memory to store the distribution of objects, introducing the contents of storing and generating various datasets.
翻訳日:2021-11-04 13:10:50 公開日:2021-11-03
# (参考訳) エンドツーエンド視覚言語トランスフォーマの訓練に関する実証的研究

An Empirical Study of Training End-to-End Vision-and-Language Transformers ( http://arxiv.org/abs/2111.02387v1 )

ライセンス: CC BY 4.0
Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Nanyun (Violet) Peng, Zicheng Liu, Michael Zeng(参考訳) ビジョン・アンド・ランゲージ(VL)事前学習は、様々なVL下流タスクにおいて非常に効果的であることが証明されている。 近年の研究では、フルトランスフォーマーベースのVLモデルは従来のリージョン機能ベースの手法よりも効率的であることが示されているが、下流タスクの性能は著しく低下することが多い。 本稿では,METER~(\textbf{M}ultimodal \textbf{E}nd-to-end \textbf{T}ransform\textbf{ER})を提案する。 具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダル融合(例えば、マージアテンション対コアテンション)、アーキテクチャ設計(例えば、エンコーダのみ対エンコーダデコーダ)、事前訓練対象(例えば、マスク付き画像モデリング)など、複数の次元に沿ってモデル設計を識別する。 我々は、広範囲なVLタスクに関する総合的な実験を行い、高速な推論速度を維持しながら、性能の高いVLトランスのトレーニング方法に関する洞察を提供する。 特に、mt~achieveは、事前トレーニングに4m画像のみを使用してvqav2テスト-stdセット上で77.64\%の精度を持ち、最先端の領域機能ベースのvinvlモデルを+1.04\%上回り、以前の最高の完全トランスフォーマーベースのalbefモデルよりも+1.6\%上回る。

Vision-and-language (VL) pre-training has proven to be highly effective on various VL downstream tasks. While recent work has shown that fully transformer-based VL models can be more efficient than previous region-feature-based methods, their performance on downstream tasks are often degraded significantly. In this paper, we present METER~(\textbf{M}ultimodal \textbf{E}nd-to-end \textbf{T}ransform\textbf{ER}), through which we systematically investigate how to design and pre-train a fully transformer-based VL model in an end-to-end manner. Specifically, we dissect the model designs along multiple dimensions: vision encoders (e.g., CLIP-ViT, Swin transformer), text encoders (e.g., RoBERTa, DeBERTa), multimodal fusion (e.g., merged attention vs. co-attention), architecture design (e.g., encoder-only vs. encoder-decoder), and pre-training objectives (e.g., masked image modeling). We conduct comprehensive experiments on a wide range of VL tasks, and provide insights on how to train a performant VL transformer while maintaining fast inference speed. Notably, METER~achieves an accuracy of 77.64\% on the VQAv2 test-std set using only 4M images for pre-training, surpassing the state-of-the-art region-feature-based VinVL model by +1.04\%, and outperforming the previous best fully transformer-based ALBEF model by +1.6\%.
翻訳日:2021-11-04 13:08:46 公開日:2021-11-03
# OpenPrompt: プロンプト学習のためのオープンソースフレームワーク

OpenPrompt: An Open-source Framework for Prompt-learning ( http://arxiv.org/abs/2111.01998v1 )

ライセンス: Link先を確認
Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun(参考訳) プロンプト学習は現代の自然言語処理において新しいパラダイムとなり、プレトレーニング言語モデル(PLM)を直接$cloze$スタイルの予測、自動回帰モデリング、シーケンスからシーケンス生成に適応し、様々なタスクで有望なパフォーマンスをもたらす。 しかしながら、プロンプトラーニングの標準的な実装フレームワークはまだ提案されておらず、既存のプロンプトラーニングコードベースの多くは、しばしば規制されていないが、特定のシナリオに対する限定的な実装しか提供していない。 即時学習にはテンプレート戦略、初期化戦略、言語化戦略など多くの詳細を考慮する必要があるため、実践者は希望する素早い学習方法を迅速に応用するために障害に直面している。 本稿では, PLM 上で即時学習を行うための統一型使いやすいツールキットである {OpenPrompt} を提案する。 openpromptは、効率性、モジュール性、拡張性を備えた研究フレンドリーなフレームワークであり、その複合性により、さまざまなplm、タスクフォーマット、モジュールを統一パラダイムで推進することができる。 ユーザはプロンプト学習フレームワークを迅速にデプロイし、制約なく異なるnlpタスクの一般化を評価することができる。 OpenPrompt は {\url{ https://github.com/thunlp/OpenPrompt}} で公開されている。

Prompt-learning has become a new paradigm in modern natural language processing, which directly adapts pre-trained language models (PLMs) to $cloze$-style prediction, autoregressive modeling, or sequence to sequence generation, resulting in promising performances on various tasks. However, no standard implementation framework of prompt-learning is proposed yet, and most existing prompt-learning codebases, often unregulated, only provide limited implementations for specific scenarios. Since there are many details such as templating strategy, initializing strategy, and verbalizing strategy, etc. need to be considered in prompt-learning, practitioners face impediments to quickly adapting the desired prompt learning methods to their applications. In this paper, we present {OpenPrompt}, a unified easy-to-use toolkit to conduct prompt-learning over PLMs. OpenPrompt is a research-friendly framework that is equipped with efficiency, modularity, and extendibility, and its combinability allows the freedom to combine different PLMs, task formats, and prompting modules in a unified paradigm. Users could expediently deploy prompt-learning frameworks and evaluate the generalization of them on different NLP tasks without constraints. OpenPrompt is publicly released at {\url{ https://github.com/thunlp/OpenPrompt}}.
翻訳日:2021-11-04 12:49:33 公開日:2021-11-03
# VLMo:Mixture-of-Modality-Expertsによる統合ビジョンランゲージ事前トレーニング

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts ( http://arxiv.org/abs/2111.02358v1 )

ライセンス: Link先を確認
Wenhui Wang, Hangbo Bao, Li Dong, Furu Wei(参考訳) 本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。 具体的には、各ブロックがモダリティ固有の専門家のプールと共有自己着脱層を含むmixed-of-modality-experts (mome) transformerを導入する。 momeのモデリングの柔軟性により、事前訓練されたvlmoは視覚言語分類タスクのための融合エンコーダとして、または効率的な画像テキスト検索のためのデュアルエンコーダとして使用できる。 さらに,画像テキストペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する段階的事前学習戦略を提案する。 実験結果から,VLMoはVQAやNLVR2など,様々な視覚言語タスクにおいて最先端の結果が得られることがわかった。 コードと事前訓練されたモデルはhttps://aka.ms/vlmo.com/で入手できる。

We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA and NLVR2. The code and pretrained models are available at https://aka.ms/vlmo.
翻訳日:2021-11-04 12:49:12 公開日:2021-11-03
# 暗黙的な深層適応設計:好ましくない政策に基づく実験設計

Implicit Deep Adaptive Design: Policy-Based Experimental Design without Likelihoods ( http://arxiv.org/abs/2111.02329v1 )

ライセンス: Link先を確認
Desi R. Ivanova, Adam Foster, Steven Kleinegesse, Michael U. Gutmann and Tom Rainforth(参考訳) 暗黙的深層適応設計(iDAD)は,暗黙的モデルを用いた適応実験をリアルタイムに行う新しい手法である。 idadは、事前の設計ポリシーネットワークを学習することでベイズ最適実験設計(boed)のコストを償却する。 iDADネットワークは、クローズドフォームの可能性と条件に依存しない実験を必要とする以前の設計方針とは異なり、微分可能なサンプルをシミュレートするあらゆるモデルで訓練することができる。 iDADは、実験中に重い計算を必要とする従来のBOEDアプローチとは対照的に、ミリ秒で設計決定を行うことができる。 いくつかの実験でiDADの適用性を説明し、暗黙のモデルで適応設計を行うための高速かつ効果的なメカニズムを提供することを示す。

We introduce implicit Deep Adaptive Design (iDAD), a new method for performing adaptive experiments in real-time with implicit models. iDAD amortizes the cost of Bayesian optimal experimental design (BOED) by learning a design policy network upfront, which can then be deployed quickly at the time of the experiment. The iDAD network can be trained on any model which simulates differentiable samples, unlike previous design policy work that requires a closed form likelihood and conditionally independent experiments. At deployment, iDAD allows design decisions to be made in milliseconds, in contrast to traditional BOED approaches that require heavy computation during the experiment itself. We illustrate the applicability of iDAD on a number of experiments, and show that it provides a fast and effective mechanism for performing adaptive design with implicit models.
翻訳日:2021-11-04 12:48:54 公開日:2021-11-03
# Klarna Product Page Dataset: Web表現学習のためのリアルなベンチマーク

The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning ( http://arxiv.org/abs/2111.02168v1 )

ライセンス: Link先を確認
Alexandra Hotti, Riccardo Sven Risuleo, Stefan Magureanu, Aref Moradi, Jens Lagergren(参考訳) 本稿ではDOM木要素表現学習の未探索問題に取り組む。 機械学習ベースのWebオートメーションの分野を前進させ、この重要な領域に関するさらなる研究を2つのコントリビューションで促進したいと考えています。 まず、人気のあるグラフベースのニューラルネットワークモデルを適用し、それらをWebサイトDOMツリーに埋め込みます。 次に,大規模かつ現実的なWebページデータセットを提案する。 このオープンアクセスリソースを提供することで、この分野の研究への参入障壁を低くする。 データセットには、実際のEコマースウェブサイトから手動でラベル付けされた製品ページが51,701ドル含まれている。 ページは完全にウェブブラウザでレンダリングでき、コンピュータビジョンアプリケーションに適している。 これにより、web上の要素表現学習、分類、予測のために提案された他のデータセットよりも、実質的にリッチで多様である。 最後に、提案したデータセットを用いて、グラフ畳み込みニューラルネットワークによって生成された埋め込みが、Web要素予測タスクにおいて、他の最先端手法によって生成された表現より優れていることを示す。

This paper tackles the under-explored problem of DOM tree element representation learning. We advance the field of machine learning-based web automation and hope to spur further research regarding this crucial area with two contributions. First, we adapt several popular Graph-based Neural Network models and apply them to embed elements in website DOM trees. Second, we present a large-scale and realistic dataset of webpages. By providing this open-access resource, we lower the entry barrier to this area of research. The dataset contains $51,701$ manually labeled product pages from $8,175$ real e-commerce websites. The pages can be rendered entirely in a web browser and are suitable for computer vision applications. This makes it substantially richer and more diverse than other datasets proposed for element representation learning, classification and prediction on the web. Finally, using our proposed dataset, we show that the embeddings produced by a Graph Convolutional Neural Network outperform representations produced by other state-of-the-art methods in a web element prediction task.
翻訳日:2021-11-04 12:48:40 公開日:2021-11-03
# ランダム化実験のための最適ブロックセットを得る因果性に基づくグラフィカルテスト

A Causality-based Graphical Test to obtain an Optimal Blocking Set for Randomized Experiments ( http://arxiv.org/abs/2111.02306v1 )

ライセンス: Link先を確認
Abhishek K. Umrawal(参考訳) ランダム化実験は、しばしば興味の因果効果を研究するために行われる。 ブロッキングは実験材料が均質でない場合に因果効果を正確に推定する手法である。 ランダム化実験を行いながらブロック生成に使用する共変量集合を統計的に最適に獲得する問題を定式化する。 一般の半マルコフ因果モデルに対するそのような集合を得るためのグラフィカルテストを提供する。 また,ブロッキングの統計的コストと経済的コストの両方を考慮する最適ブロッキング集合を得るという,より一般的な問題を解決するためのアイデアを提案し,提案する。

Randomized experiments are often performed to study the causal effects of interest. Blocking is a technique to precisely estimate the causal effects when the experimental material is not homogeneous. We formalize the problem of obtaining a statistically optimal set of covariates to be used to create blocks while performing a randomized experiment. We provide a graphical test to obtain such a set for a general semi-Markovian causal model. We also propose and provide ideas towards solving a more general problem of obtaining an optimal blocking set that considers both the statistical and economic costs of blocking.
翻訳日:2021-11-04 12:48:26 公開日:2021-11-03
# 深部CNNモデルによる画像特徴バイアスの再考

Rethinking the Image Feature Biases Exhibited by Deep CNN Models ( http://arxiv.org/abs/2111.02058v1 )

ライセンス: Link先を確認
Dawei Dai and Yutang Li and Huanan Bao and Sy Xia and Guoyin Wang and Xiaoli Ma(参考訳) 近年、畳み込みニューラルネットワーク(cnns)が多くの分野でうまく適用されている。 しかし、そのような深い神経モデルはほとんどのタスクにおいてブラックボックスと見なされている。 この問題の根底にある根本的な問題は、どの特徴が画像認識タスクに最も影響するか、CNNによってどのように処理されるのかを理解することである。 CNNモデルは、オブジェクトが容易に分類されるまで、低レベルの特徴を組み合わせて複雑な形状を形成することは広く受け入れられているが、最近の研究ではテクスチャの特徴は他の特徴よりも重要であると主張している。 本稿では,特定のタスクによって特徴の重要性が異なり,特定のタスクが特徴バイアスを示すと仮定する。 予測バイアスを識別するために,人間の直観に基づく2つの分類タスクを設計した。 resnet と densenet モデルのバイアスをテストするために,多くのタスクからなる実験を考案した。 その結果、(1)特定の特徴の組合せ効果は、通常、どの特徴よりもはるかに影響が大きい、(2)異なるタスクにおいて、ニューラルモデルは異なるバイアスを実行できる、すなわち、特定の期待された特徴に対して神経モデルにバイアスを与える特定のタスクを設計できる、という結論が得られた。

In recent years, convolutional neural networks (CNNs) have been applied successfully in many fields. However, such deep neural models are still regarded as black box in most tasks. One of the fundamental issues underlying this problem is understanding which features are most influential in image recognition tasks and how they are processed by CNNs. It is widely accepted that CNN models combine low-level features to form complex shapes until the object can be readily classified, however, several recent studies have argued that texture features are more important than other features. In this paper, we assume that the importance of certain features varies depending on specific tasks, i.e., specific tasks exhibit a feature bias. We designed two classification tasks based on human intuition to train deep neural models to identify anticipated biases. We devised experiments comprising many tasks to test these biases for the ResNet and DenseNet models. From the results, we conclude that (1) the combined effect of certain features is typically far more influential than any single feature; (2) in different tasks, neural models can perform different biases, that is, we can design a specific task to make a neural model biased toward a specific anticipated feature.
翻訳日:2021-11-04 12:48:16 公開日:2021-11-03
# 暗黙ベイズ推論としての文脈内学習の説明

An Explanation of In-context Learning as Implicit Bayesian Inference ( http://arxiv.org/abs/2111.02080v1 )

ライセンス: Link先を確認
Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma(参考訳) GPT-3のような大規模な事前訓練された言語モデルは、入力出力例からなるプロンプトを条件にすることで、ダウンストリームタスクを学習する、コンテキスト内学習を行う驚くべき能力を持っている。 明示的に事前訓練されることなく、言語モデルは前方通過中にこれらの例から"out-of-distribution"プロンプトのパラメータを更新することなく学習する。 したがって、どのようなメカニズムがインコンテキスト学習を可能にするのかは不明だ。 本稿では,事前学習テキストが長距離コヒーレンスを持つ数学的条件下での,文脈内学習の出現における事前学習分布の役割について検討する。 ここで、言語モデルの事前トレーニングには、条件付きテキストから潜在文書レベルの概念を推論し、コヒーレントな次のトークンを生成する必要がある。 テスト時に、このメカニズムは、テスト例間で共有潜在概念を推論し、それを適用してテスト例の予測を行うことで、コンテキスト内学習を可能にする。 具体的には、事前学習分布がHMMの混合である場合に、潜在概念のベイズ的推論を通じて、文脈内学習が暗黙的に起こることを証明する。 これは、プロンプトとプリトレーニングデータの分散ミスマッチにもかかわらず起こり得る。 自然言語におけるインコンテキスト学習のための大規模事前学習データセットとは対照的に、TransformerとLSTM言語モデルの両方がインコンテキスト学習を示すような、小規模合成データセット(GINC)のファミリーを生成する。 事前学習分布の影響に焦点を当てた理論以外にも,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上できることを実証的に確認する。

Large pretrained language models such as GPT-3 have the surprising ability to do in-context learning, where the model learns to do a downstream task simply by conditioning on a prompt consisting of input-output examples. Without being explicitly pretrained to do so, the language model learns from these examples during its forward pass without parameter updates on "out-of-distribution" prompts. Thus, it is unclear what mechanism enables in-context learning. In this paper, we study the role of the pretraining distribution on the emergence of in-context learning under a mathematical setting where the pretraining texts have long-range coherence. Here, language model pretraining requires inferring a latent document-level concept from the conditioning text to generate coherent next tokens. At test time, this mechanism enables in-context learning by inferring the shared latent concept between prompt examples and applying it to make a prediction on the test example. Concretely, we prove that in-context learning occurs implicitly via Bayesian inference of the latent concept when the pretraining distribution is a mixture of HMMs. This can occur despite the distribution mismatch between prompts and pretraining data. In contrast to messy large-scale pretraining datasets for in-context learning in natural language, we generate a family of small-scale synthetic datasets (GINC) where Transformer and LSTM language models both exhibit in-context learning. Beyond the theory which focuses on the effect of the pretraining distribution, we empirically find that scaling model size improves in-context accuracy even when the pretraining loss is the same.
翻訳日:2021-11-04 12:46:35 公開日:2021-11-03
# 二重ランダム林のアンサンブル

Ensembles of Double Random Forest ( http://arxiv.org/abs/2111.02010v1 )

ライセンス: Link先を確認
M.A. Ganaie, M. Tanveer, P.N. Suganthan, V. Snasel(参考訳) 決定木のアンサンブルはランダムフォレストとして知られている。 Breimanが示唆したように、不安定な学習者の強さとそれらの多様性は、アンサンブルモデルのコア強度である。 本稿では,二重ランダム林のアンサンブルを生成する2つの手法を提案する。 最初のアプローチでは、二重ランダム森林の回転に基づくアンサンブルを提案する。 回転に基づく二重ランダムフォレストでは、各ノードで特徴空間の変換または回転が生成される。 各ノードで異なるランダム特徴部分空間が評価のために選択されるため、各ノードでの変換が異なる。 異なる変換により、基礎学習者間の多様性が向上し、したがって一般化性能が向上する。 ダブルランダムフォレストをベース学習機として、各ノードのデータは主成分分析と線形判別分析という2つの異なる変換によって変換される。 第2のアプローチでは、二重ランダム森林の斜めアンサンブルを提案する。 ランダム林と二重ランダム林における決定木は単変量であり、この結果、データの幾何学的構造を捉えるのに失敗する軸平行分割が発生する。 また、標準のランダム林は、最適以下の性能をもたらす十分な大きな決定木を成長させることができない。 地形特性を把握し, 十分な深さの決定木を育成するために, 二重ランダム林の斜めアンサンブルを提案する。 二重ランダム森林モデルの斜めアンサンブルは多変量決定木である。 各非リーフノードにおいて、多面的近位支持ベクトルマシンは、最適化性能を向上させるために最適な平面を生成する。 また、二重ランダム林の斜めアンサンブル決定木において、小さなサンプルサイズ問題に対処するために異なる正則化技術(ティコノフ正則化と軸平行分割正則化)を用いる。

An ensemble of decision trees is known as Random Forest. As suggested by Breiman, the strength of unstable learners and the diversity among them are the ensemble models' core strength. In this paper, we propose two approaches for generating ensembles of double random forest. In the first approach, we propose a rotation based ensemble of double random forest. In rotation based double random forests, transformation or rotation of the feature space is generated at each node. At each node different random feature subspace is chosen for evaluation, hence the transformation at each node is different. Different transformations result in better diversity among the base learners and hence, better generalization performance. With the double random forest as base learner, the data at each node is transformed via two different transformations namely, principal component analysis and linear discriminant analysis. In the second approach, we propose oblique ensembles of double random forest. Decision trees in random forest and double random forest are univariate, and this results in the generation of axis parallel split which fails to capture the geometric structure of the data. Also, the standard random forest may not grow sufficiently large decision trees resulting in suboptimal performance. To capture the geometric properties and to grow the decision trees of sufficient depth, we propose oblique ensembles of double random forest. The oblique ensembles of double random forest models are multivariate decision trees. At each non-leaf node, multisurface proximal support vector machine generates the optimal plane for better generalization performance. Also, different regularization techniques (Tikhonov regularisation and axis-parallel split regularisation) are employed for tackling the small sample size problems in the decision trees of oblique ensembles of double random forest.
翻訳日:2021-11-04 12:45:44 公開日:2021-11-03
# カリキュラムオフライン模倣学習

Curriculum Offline Imitation Learning ( http://arxiv.org/abs/2111.02056v1 )

ライセンス: Link先を確認
Minghuan Liu, Hanye Zhao, Zhengyu Yang, Jian Shen, Weinan Zhang, Li Zhao, Tie-Yan Liu(参考訳) オフライン強化学習(rl)タスクでは、エージェントは事前に収集したデータセットから、環境とのさらなるインタラクションなしに学習する必要がある。 行動方針を超越する可能性にもかかわらず、RLベースの手法は、トレーニングの不安定性と外挿エラーのブートストラップのため、一般的には実用的ではない。 対照的に、オフライン模倣学習(il)はブートストラップによって価値関数を見積もることなくポリシーを直接学習するため、そのような問題はない。 しかし、ilは通常、行動ポリシーの能力に制限があり、ポリシーの混合によって収集されたデータセットから中途半端な振る舞いを学ぶ傾向がある。 本稿では,ILを利用するが,そのような欠点を緩和する。 行動のクローン化は, より少ないデータで近隣の政策を模倣することができることを観察し, 適応的な近隣の政策から高いリターンで模倣する経験的選択戦略を生かし, カリキュラムの段階に沿って現在の政策を改良する「textit{Curriculum Offline Imitation Learning (COIL)」を提案する。 連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。

Offline reinforcement learning (RL) tasks require the agent to learn from a pre-collected dataset with no further interactions with the environment. Despite the potential to surpass the behavioral policies, RL-based methods are generally impractical due to the training instability and bootstrapping the extrapolation errors, which always require careful hyperparameter tuning via online evaluation. In contrast, offline imitation learning (IL) has no such issues since it learns the policy directly without estimating the value function by bootstrapping. However, IL is usually limited in the capability of the behavioral policy and tends to learn a mediocre behavior from the dataset collected by the mixture of policies. In this paper, we aim to take advantage of IL but mitigate such a drawback. Observing that behavior cloning is able to imitate neighboring policies with less data, we propose \textit{Curriculum Offline Imitation Learning (COIL)}, which utilizes an experience picking strategy for imitating from adaptive neighboring policies with a higher return, and improves the current policy along curriculum stages. On continuous control benchmarks, we compare COIL against both imitation-based and RL-based methods, showing that it not only avoids just learning a mediocre behavior on mixed datasets but is also even competitive with state-of-the-art offline RL methods.
翻訳日:2021-11-04 12:45:19 公開日:2021-11-03
# 多段階交通速度予測:時空間分布の時空間依存性を考慮した深層学習に基づくアプローチ

Multistep traffic speed prediction: A deep learning based approach using latent space mapping considering spatio-temporal dependencies ( http://arxiv.org/abs/2111.02115v1 )

ライセンス: Link先を確認
Shatrughan Modi, Jhilik Bhattacharya, Prasenjit Basak(参考訳) 道路上の車両数の増加により、都市における交通管理が大きな問題となっている。 インテリジェントトランスポーテーションシステム(ITS)は、正確な交通予測を提供することで、市の交通管理者がこの問題に取り組むのに役立つ。 このため、ITSは、過去の交通データと現在の交通データに基づいて、複数の時間ステップで正確な交通予測を提供できる信頼性の高い交通予測アルゴリズムを必要とする。 近年,精度の面での有効性が実証された交通予測手法がいくつか提案されている。 しかし,これらの手法の多くは空間情報や時間情報のみを考慮し,その効果を見落としている。 本稿では,この問題に対処するために,空間的および時間的依存関係を用いて深層学習に基づくアプローチを開発した。 時空間依存性を考慮するために、交通の類似度や距離といった属性に基づいて、特定の瞬間に近くの道路センサを選択する。 2つの事前訓練された深部自動エンコーダを潜時空間マッピングの概念を用いて相互接続し、選択した近接センサからのトラフィックデータを入力としてトレーニングした。 提案したディープラーニングベースのアプローチは、ロサンゼルスとベイエリアの異なる高速道路に設置されたループ検出センサーから収集された実世界のトラフィックデータを用いて訓練された。 交通データは、カリフォルニア州交通性能測定システム(PeMS)のWebポータルから無料で入手できる。 提案手法の有効性は,複数の機械学習手法との比較により検証した。 提案手法は,60分前予測においても,他の手法よりも誤差の少ない正確な交通予測結果を提供することがわかった。

Traffic management in a city has become a major problem due to the increasing number of vehicles on roads. Intelligent Transportation System (ITS) can help the city traffic managers to tackle the problem by providing accurate traffic forecasts. For this, ITS requires a reliable traffic prediction algorithm that can provide accurate traffic prediction at multiple time steps based on past and current traffic data. In recent years, a number of different methods for traffic prediction have been proposed which have proved their effectiveness in terms of accuracy. However, most of these methods have either considered spatial information or temporal information only and overlooked the effect of other. In this paper, to address the above problem a deep learning based approach has been developed using both the spatial and temporal dependencies. To consider spatio-temporal dependencies, nearby road sensors at a particular instant are selected based on the attributes like traffic similarity and distance. Two pre-trained deep auto-encoders were cross-connected using the concept of latent space mapping and the resultant model was trained using the traffic data from the selected nearby sensors as input. The proposed deep learning based approach was trained using the real-world traffic data collected from loop detector sensors installed on different highways of Los Angeles and Bay Area. The traffic data is freely available from the web portal of the California Department of Transportation Performance Measurement System (PeMS). The effectiveness of the proposed approach was verified by comparing it with a number of machine/deep learning approaches. It has been found that the proposed approach provides accurate traffic prediction results even for 60-min ahead prediction with least error than other techniques.
翻訳日:2021-11-04 12:44:52 公開日:2021-11-03
# ブラックボックス機械学習モデルテストのためのデータ合成

Data Synthesis for Testing Black-Box Machine Learning Models ( http://arxiv.org/abs/2111.02161v1 )

ライセンス: Link先を確認
Diptikalyan Saha, Aniya Aggarwal, Sandeep Hans(参考訳) 機械学習モデルの利用の増加は、これらのモデルの信頼性に関する疑問を提起する。 限られたデータでテストする現在のプラクティスはしばしば不十分です。 本稿では、ブラックボックスML/DLモデルをテストするための自動テストデータ合成のためのフレームワークを提供する。 モデルに依存しないカバレッジ基準で現実的なユーザコントロール可能なデータを生成するという重要な課題に対処し、さまざまな特性のセットをテストする。 本手法の有効性を実験的に実証する。

The increasing usage of machine learning models raises the question of the reliability of these models. The current practice of testing with limited data is often insufficient. In this paper, we provide a framework for automated test data synthesis to test black-box ML/DL models. We address an important challenge of generating realistic user-controllable data with model agnostic coverage criteria to test a varied set of properties, essentially to increase trust in machine learning models. We experimentally demonstrate the effectiveness of our technique.
翻訳日:2021-11-04 12:43:03 公開日:2021-11-03
# 連続境界行動空間を用いたベータ分布による最適政策最適化

Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution ( http://arxiv.org/abs/2111.02202v1 )

ライセンス: Link先を確認
Irving G. B. Petrazzini and Eric A. Antonelo(参考訳) 近年,連続制御タスクの強化学習手法が発展し,確率的ポリシをモデル化するためのガウス分布に主に依存する政策勾配手法のファミリが生み出されている。 しかし、ガウス分布は無限のサポートを持つが、実世界の応用は通常有界な作用空間を持つ。 この不協和は、ベータ分布が代わりにポリシーに使用される場合、有限な支持を示すので排除できる推定バイアスを引き起こす。 本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,PPOアルゴリズムによってトレーニングされた場合の動作について検討する。 両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。 高次元画像入力を有するキャラクシング環境において,エージェントの成功率はガウスの方針より63%向上した。

Reinforcement learning methods for continuous control tasks have evolved in recent years generating a family of policy gradient methods that rely primarily on a Gaussian distribution for modeling a stochastic policy. However, the Gaussian distribution has an infinite support, whereas real world applications usually have a bounded action space. This dissonance causes an estimation bias that can be eliminated if the Beta distribution is used for the policy instead, as it presents a finite support. In this work, we investigate how this Beta policy performs when it is trained by the Proximal Policy Optimization (PPO) algorithm on two continuous control tasks from OpenAI gym. For both tasks, the Beta policy is superior to the Gaussian policy in terms of agent's final expected reward, also showing more stability and faster convergence of the training process. For the CarRacing environment with high-dimensional image input, the agent's success rate was improved by 63% over the Gaussian policy.
翻訳日:2021-11-04 12:42:57 公開日:2021-11-03
# 解釈可能なフィードフォワードニューラルネットワークの有効性について

On the Effectiveness of Interpretable Feedforward Neural Network ( http://arxiv.org/abs/2111.02303v1 )

ライセンス: Link先を確認
Miles Q. Li, Benjamin C. M. Fung, Adel Abusitta(参考訳) ディープラーニングモデルは、多くの分類タスクにおいて最先端のパフォーマンスを達成した。 しかし、そのほとんどは分類結果の解釈を与えることはできない。 解釈可能な機械学習モデルは、通常線形または分割線形であり、性能が劣る。 非線形モデルは分類性能が大幅に向上するが、分類結果の解釈は困難である。 これは、高い分類性能とマルウェア検出の解釈可能性の両方を達成する、解釈可能なフィードフォワードニューラルネットワーク(iffnn)によって提案された。 IFFNNが、意味のある解釈を提供しながら、他の分類タスクに対してより柔軟で一般的な形式でうまく機能できるなら、応用機械学習コミュニティにとって大きな関心事になるかもしれない。 本稿では,解釈可能なフィードフォワードニューラルネットワークを,多クラス分類シナリオやフィードフォワードニューラルネットワークに一般化する方法を提案し,その分類性能と本質的解釈可能なデータセット上での解釈可能性を評価する。 一般化されたIFFNNは、通常のフィードフォワードニューラルネットワークと同等の分類性能を示し、意味のある解釈を提供する。 したがって、この種のニューラルネットワークアーキテクチャは、非常に実用的です。

Deep learning models have achieved state-of-the-art performance in many classification tasks. However, most of them cannot provide an interpretation for their classification results. Machine learning models that are interpretable are usually linear or piecewise linear and yield inferior performance. Non-linear models achieve much better classification performance, but it is hard to interpret their classification results. This may have been changed by an interpretable feedforward neural network (IFFNN) proposed that achieves both high classification performance and interpretability for malware detection. If the IFFNN can perform well in a more flexible and general form for other classification tasks while providing meaningful interpretations, it may be of great interest to the applied machine learning community. In this paper, we propose a way to generalize the interpretable feedforward neural network to multi-class classification scenarios and any type of feedforward neural networks, and evaluate its classification performance and interpretability on intrinsic interpretable datasets. We conclude by finding that the generalized IFFNNs achieve comparable classification performance to their normal feedforward neural network counterparts and provide meaningful interpretations. Thus, this kind of neural network architecture has great practical use.
翻訳日:2021-11-04 12:42:43 公開日:2021-11-03
# 遺伝子発現データの多変量特徴ランキング

Multivariate feature ranking of gene expression data ( http://arxiv.org/abs/2111.02357v1 )

ライセンス: Link先を確認
Fernando Jim\'enez and Gracia S\'anchez Jos\'e Palma and Luis Miralles-Pechu\'an and Juan Bot\'ia(参考訳) 遺伝子発現データセットは通常高次元であるため、属性の相対的重要性を特定するための効率的かつ効果的な方法が必要である。 可能な解の検索空間が巨大であるため、属性サブセット評価特徴選択手法は適用できない傾向があるため、これらのシナリオでは特徴ランク付け手法が用いられる。 文献に記載されている特徴ランキング法のほとんどは単変量法であるため,因子間の相互作用は検出されない。 本稿では,3つの遺伝子発現分類問題に適用した,ペアワイズ相関とペアワイズ一貫性に基づく2つの新しい多変量特徴ランキング手法を提案する。 提案手法が,多目的進化的探索戦略との相関と一貫性に基づく属性集合評価の特徴選択手法と同様に,特徴分類手法のクラスタリング変動,chi二乗法,相関法,情報ゲイン法,レリーフ法,重要度を上回っていることを統計的に証明した。

Gene expression datasets are usually of high dimensionality and therefore require efficient and effective methods for identifying the relative importance of their attributes. Due to the huge size of the search space of the possible solutions, the attribute subset evaluation feature selection methods tend to be not applicable, so in these scenarios feature ranking methods are used. Most of the feature ranking methods described in the literature are univariate methods, so they do not detect interactions between factors. In this paper we propose two new multivariate feature ranking methods based on pairwise correlation and pairwise consistency, which we have applied in three gene expression classification problems. We statistically prove that the proposed methods outperform the state of the art feature ranking methods Clustering Variation, Chi Squared, Correlation, Information Gain, ReliefF and Significance, as well as feature selection methods of attribute subset evaluation based on correlation and consistency with multi-objective evolutionary search strategy.
翻訳日:2021-11-04 12:42:26 公開日:2021-11-03
# 確率的バンディットにおけるバッチ学習の影響

The Impact of Batch Learning in Stochastic Bandits ( http://arxiv.org/abs/2111.02071v1 )

ライセンス: Link先を確認
Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, and Maurits Kaptein(参考訳) 我々は,バンディット問題,すなわちバッチバンディットの特殊な場合を考える。 推薦システムやeコマースプラットフォームの自然な制限により、学習エージェントは一定期間にわたってグループでバッチされた応答を観察する。 従来の作業とは異なり、バッチ学習のより効果的なバッチ中心のシナリオを考えます。 我々は、政策非依存の後悔分析を行い、候補者政策の後悔に対する上限を上下に示す。 本研究の主な理論的結果は,バッチ学習の効果をオンライン行動の観点から測定できることである。 最後に,実験を行い,最適なバッチサイズ選択を反映することにより,理論結果の一貫性を示す。

We consider a special case of bandit problems, namely batched bandits. Motivated by natural restrictions of recommender systems and e-commerce platforms, we assume that a learning agent observes responses batched in groups over a certain time period. Unlike previous work, we consider a more practically relevant batch-centric scenario of batch learning. We provide a policy-agnostic regret analysis and demonstrate upper and lower bounds for the regret of a candidate policy. Our main theoretical results show that the impact of batch learning can be measured in terms of online behavior. Finally, we demonstrate the consistency of theoretical results by conducting empirical experiments and reflect on the optimal batch size choice.
翻訳日:2021-11-04 12:41:52 公開日:2021-11-03
# ランダム林における大域的から局所的mdi変数の重要性とシャプリー値の場合

From global to local MDI variable importances for random forests and when they are Shapley values ( http://arxiv.org/abs/2111.02218v1 )

ライセンス: Link先を確認
Antonio Sutera, Gilles Louppe, Van Anh Huynh-Thu, Louis Wehenkel, Pierre Geurts(参考訳) ランダムフォレストは、特定のアウトプットを予測する入力変数の関連性に関するグローバル(データセット毎)レベルの洞察を与える、いわゆる重要度指標を提供する能力として広く使われている。 一方、ツリーベースモデルの局所的(インスタンス単位)レベルへの特徴的関連性の分析を洗練するために、shapley値に基づく手法が導入された。 この文脈では、まず、大域的不純物量減少(MDI)変動重要度スコアが、いくつかの条件下でシェープリー値に対応することを示す。 次に,グローバルなMDI尺度と非常に自然な関係を持ち,局所的特徴関連性の新たな概念に関連付けることのできる,変数関連性の局所的MDI重要度尺度を導出する。 さらに,本論文では,現地のMDI重要度とシェープ価値を関連づけるとともに,文献の関連指標として議論する。 これらの測度は、いくつかの分類および回帰問題に関する実験を通じて説明される。

Random forests have been widely used for their ability to provide so-called importance measures, which give insight at a global (per dataset) level on the relevance of input variables to predict a certain output. On the other hand, methods based on Shapley values have been introduced to refine the analysis of feature relevance in tree-based models to a local (per instance) level. In this context, we first show that the global Mean Decrease of Impurity (MDI) variable importance scores correspond to Shapley values under some conditions. Then, we derive a local MDI importance measure of variable relevance, which has a very natural connection with the global MDI measure and can be related to a new notion of local feature relevance. We further link local MDI importances with Shapley values and discuss them in the light of related measures from the literature. The measures are illustrated through experiments on several classification and regression problems.
翻訳日:2021-11-04 12:41:44 公開日:2021-11-03
# (参考訳) モデル校正の観点からの知識蒸留の再考

Rethinking the Knowledge Distillation From the Perspective of Model Calibration ( http://arxiv.org/abs/2111.01684v2 )

ライセンス: CC BY 4.0
Lehan Yang, Jincen Song(参考訳) 近年、知識蒸留の大幅な改善が見られ、教師モデルのモデルの有効性を維持しつつ、より効率的な生徒モデルを生成することができる。 より正確な教師は、能力のミスマッチのためにより良い教師を作る必要はない。 本稿では,モデルキャリブレーションの観点からその現象を分析することを目的とする。 より大規模な教師モデルは自信過剰である可能性があり,学生モデルは効果的に模倣できない。 教師モデルの簡易モデルキャリブレーションを行った結果,教師モデルのサイズは,生徒モデルの性能と正の相関を示した。

Recent years have witnessed dramatically improvements in the knowledge distillation, which can generate a compact student model for better efficiency while retaining the model effectiveness of the teacher model. Previous studies find that: more accurate teachers do not necessary make for better teachers due to the mismatch of abilities. In this paper, we aim to analysis the phenomenon from the perspective of model calibration. We found that the larger teacher model may be too over-confident, thus the student model cannot effectively imitate. While, after the simple model calibration of the teacher model, the size of the teacher model has a positive correlation with the performance of the student model.
翻訳日:2021-11-04 11:31:23 公開日:2021-11-03
# (参考訳) 材料科学・化学のための解釈・説明可能な機械学習

Interpretable and Explainable Machine Learning for Materials Science and Chemistry ( http://arxiv.org/abs/2111.01037v2 )

ライセンス: CC BY 4.0
Felipe Oviedo, Juan Lavista Ferres, Tonio Buonassisi, Keith Butler(参考訳) 材料科学と化学のためのデータ駆動アプローチの普及は、機械学習モデルが科学的発見を成功させる真の可能性を実現するための、エキサイティングな初期段階にあるが、それらは純粋に予測力を超えた性質を持つ必要がある。 モデルの予測と内部動作は、人間の専門家によるある程度の説明可能性を提供し、潜在的なモデル問題や制限の特定を可能にし、モデル予測への信頼を築き、科学的洞察につながる予期せぬ相関を明らかにするべきである。 本稿では,材料科学・化学における解釈可能性・説明可能性技術の応用を概説し,これらの技術が科学研究の成果をどう改善するかを論じる。 材料科学における機械学習の解釈に関する様々な課題について論じる。 特に,機械学習モデルを純粋に解釈することによる因果関係の推測や一般化のリスクと,モデル説明に対する不確実性推定の必要性を強調する。 最後に,物質科学や化学の問題に対する解釈可能性に資する,他の分野におけるエキサイティングな発展を数多く紹介する。

While the uptake of data-driven approaches for materials science and chemistry is at an exciting, early stage, to realise the true potential of machine learning models for successful scientific discovery, they must have qualities beyond purely predictive power. The predictions and inner workings of models should provide a certain degree of explainability by human experts, permitting the identification of potential model issues or limitations, building trust on model predictions and unveiling unexpected correlations that may lead to scientific insights. In this work, we summarize applications of interpretability and explainability techniques for materials science and chemistry and discuss how these techniques can improve the outcome of scientific studies. We discuss various challenges for interpretable machine learning in materials science and, more broadly, in scientific settings. In particular, we emphasize the risks of inferring causation or reaching generalization by purely interpreting machine learning models and the need of uncertainty estimates for model explanations. Finally, we showcase a number of exciting developments in other fields that could benefit interpretability in material science and chemistry problems.
翻訳日:2021-11-04 11:18:22 公開日:2021-11-03
# (参考訳) テキストベースフィッシング検出に向けて

Towards Text-based Phishing Detection ( http://arxiv.org/abs/2111.01676v2 )

ライセンス: CC BY 4.0
Gilchan Park and Julia M. Taylor(参考訳) 本稿では,テキストベースのフィッシング検出を,容易に利用可能なリソースを用いて,セマンティクスを使わずに行う実験について報告する。 開発されたアルゴリズムは、同じツールで動作する以前に公開された作業の修正版である。 フィッシングメールを認識できた結果は、以前報告されたものよりもかなり優れているが、フィッシングと誤認されたテキストの割合はやや悪い。 検出精度を維持しつつ,意味成分を付加することで偽陽性率を低減できることが期待される。

This paper reports on an experiment into text-based phishing detection using readily available resources and without the use of semantics. The developed algorithm is a modified version of previously published work that works with the same tools. The results obtained in recognizing phishing emails are considerably better than the previously reported work; but the rate of text falsely identified as phishing is slightly worse. It is expected that adding semantic component will reduce the false positive rate while preserving the detection accuracy.
翻訳日:2021-11-04 10:57:25 公開日:2021-11-03
# ディープラーニングを用いたツイートの因果関係の同定--2017-2021年の糖尿病関連ツイートを事例として

Identifying causal associations in tweets using deep learning: Use case on diabetes-related tweets from 2017-2021 ( http://arxiv.org/abs/2111.01225v2 )

ライセンス: Link先を確認
Adrian Ahne, Vivek Khetan, Xavier Tannier, Md Imbessat Hassan Rizvi, Thomas Czernichow, Francisco Orchard, Charline Bour, Andrew Fano, Guy Fagherazzi(参考訳) 目的: 糖尿病関連ツイートにおける明示的・暗黙的な因果関係を抽出し, 因果性の観点から, 糖尿病オンラインコミュニティ内で共有されている意見, 感情, 観察をよりよく理解するためのツールを提供する。 資料と方法:2017年4月から2021年1月の間に、3000万以上の英語の糖尿病関連ツイートが収集された。 ディープラーニングと自然言語処理は、個人的および感情的なコンテンツのツイートに焦点を当てるために適用された。 cause-effect-tweetデータセットが手動でラベル付けされ、トレーニングに使用される 1) 因果関係を含む因果関係文を検出するための微調整Bertweetモデル 2) BERTをベースとしたCRFモデルを用いて, 因果関係を抽出した。 原因と影響は半教師付きアプローチでクラスター化され、インタラクティブな因果効果ネットワークで可視化された。 結果: 不均衡データセットでは68%のリコールで因果文が検出された。 BERTをベースとしたCRFモデルは68%のマクロリコールで原因効果検出のための細調整BERTモデルより優れていた。 これにより96,676件の大義関連判決が下された。 ディアベテス」は中央クラスタとして同定され、「死」と「インスリン」が続く。 インスリン価格関連原因は、しばしば「死」と関連づけられた。 結論: 因果文を検出し, 明示的, 暗黙的, 単語的および多語的原因とそれに対応する効果を, BERTベースのアーキテクチャを活用し, 原因効果ネットワークとして可視化した糖尿病関連ツイートで表す新しい手法を開発した。 実生活における因果関係を抽出し,ソーシャルメディアデータから報告した患者報告の結果は,糖尿病研究において有用な補完的情報源となる。

Objective: Leveraging machine learning methods, we aim to extract both explicit and implicit cause-effect associations in patient-reported, diabetes-related tweets and provide a tool to better understand opinion, feelings and observations shared within the diabetes online community from a causality perspective. Materials and Methods: More than 30 million diabetes-related tweets in English were collected between April 2017 and January 2021. Deep learning and natural language processing methods were applied to focus on tweets with personal and emotional content. A cause-effect-tweet dataset was manually labeled and used to train 1) a fine-tuned Bertweet model to detect causal sentences containing a causal association 2) a CRF model with BERT based features to extract possible cause-effect associations. Causes and effects were clustered in a semi-supervised approach and visualised in an interactive cause-effect-network. Results: Causal sentences were detected with a recall of 68% in an imbalanced dataset. A CRF model with BERT based features outperformed a fine-tuned BERT model for cause-effect detection with a macro recall of 68%. This led to 96,676 sentences with cause-effect associations. "Diabetes" was identified as the central cluster followed by "Death" and "Insulin". Insulin pricing related causes were frequently associated with "Death". Conclusions: A novel methodology was developed to detect causal sentences and identify both explicit and implicit, single and multi-word cause and corresponding effect as expressed in diabetes-related tweets leveraging BERT-based architectures and visualised as cause-effect-network. Extracting causal associations on real-life, patient reported outcomes in social media data provides a useful complementary source of information in diabetes research.
翻訳日:2021-11-04 10:48:27 公開日:2021-11-03
# 特徴密度検出のための分類器訓練効率の向上

Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density ( http://arxiv.org/abs/2111.01689v2 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Fumito Masui, Aleksander Smywi\'nski-Pohl, Gniewosz Leliwa, Michal Wroczynski(参考訳) 学習前の機械学習(ml)分類器の潜在的な性能を比較評価するために,異なる言語的特徴前処理手法を用いた特徴密度(fd)の有効性について検討した。 データセットの複雑さを推定することで、必要な実験回数を減らすことができると仮定する。 これにより、利用可能なデータセットサイズの増加と、Deep Neural Networks(DNN)に基づいたモデルの人気の高まりにより、MLモデルのリソース集約的なトレーニングを最適化できます。 より強力な計算資源の需要が常に増大する問題は、大規模MLモデルのトレーニングによるCO2排出量の増加によって環境にも影響を与えている。 この調査は、一般的な感情分析モデルのトレーニングに使用されるyelp business reviewデータセットや、サイバーいじめの問題に対処しようとする最近のデータセットなど、一般的なデータセットを含む複数のデータセットで実施された。 我々は、複数の言語、すなわち英語、日本語、ポーランド語で収集されたサイバーいじめデータセットを使用する。 データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性についても議論できる。

We study the effectiveness of Feature Density (FD) using different linguistically-backed feature preprocessing methods in order to estimate dataset complexity, which in turn is used to comparatively estimate the potential performance of machine learning (ML) classifiers prior to any training. We hypothesise that estimating dataset complexity allows for the reduction of the number of required experiments iterations. This way we can optimize the resource-intensive training of ML models which is becoming a serious issue due to the increases in available dataset sizes and the ever rising popularity of models based on Deep Neural Networks (DNN). The problem of constantly increasing needs for more powerful computational resources is also affecting the environment due to alarmingly-growing amount of CO2 emissions caused by training of large-scale ML models. The research was conducted on multiple datasets, including popular datasets, such as Yelp business review dataset used for training typical sentiment analysis models, as well as more recent datasets trying to tackle the problem of cyberbullying, which, being a serious social problem, is also a much more sophisticated problem form the point of view of linguistic representation. We use cyberbullying datasets collected for multiple languages, namely English, Japanese and Polish. The difference in linguistic complexity of datasets allows us to additionally discuss the efficacy of linguistically-backed word preprocessing.
翻訳日:2021-11-04 10:47:59 公開日:2021-11-03
# ハードウェアを意識したニューラルアーキテクチャ検索のためのプロキシデバイス

One Proxy Device Is Enough for Hardware-Aware Neural Architecture Search ( http://arxiv.org/abs/2111.01203v2 )

ライセンス: Link先を確認
Bingqian Lu and Jianyi Yang and Weiwen Jiang and Yiyu Shi and Shaolei Ren(参考訳) 畳み込みニューラルネットワーク(cnns)は、視覚ベースの自律運転やビデオコンテンツ分析など、多くの現実のアプリケーションで使われている。 様々なターゲットデバイスでcnn推論を実行するには、ハードウェアアウェアニューラルアーキテクチャ検索(nas)が不可欠である。 効率的なハードウェア対応NASの重要な要件は、異なるアーキテクチャをランク付けするための推論レイテンシの高速評価である。 ターゲットデバイス毎の遅延予測器の構築は、技術状況において一般的に使用されているが、非常に多様なデバイスの存在下でスケーラビリティに欠ける、非常に時間を要するプロセスである。 本研究では,レイテンシのモノトニック性(monotonicity)を活用することでスケーラビリティの課題に対処します。 強いレイテンシのモノトニック性が存在する場合、最適性を損なうことなく、新しいターゲットデバイス上で1つのプロキシデバイスを検索したアーキテクチャを再利用できる。 強い遅延単調性がない場合、遅延単調性を大幅に向上させる効率的なプロキシ適応手法を提案する。 最後に、我々は、MobileNet-V2、MobileNet-V3、NAS-Bench-201、ProxylessNAS、FBNetなど、複数の主要な検索空間上で異なるプラットフォームで実験を行い、アプローチを検証する。 我々の結果は、ひとつのプロキシデバイスを使用することで、デバイス毎のNASとほぼ同じPareto-Optimalアーキテクチャを見つけることができ、各デバイス用の遅延予測器を構築することの禁止コストを回避することができることを強調している。 GitHub: https://github.com/Ren-Research/OneProxy

Convolutional neural networks (CNNs) are used in numerous real-world applications such as vision-based autonomous driving and video content analysis. To run CNN inference on various target devices, hardware-aware neural architecture search (NAS) is crucial. A key requirement of efficient hardware-aware NAS is the fast evaluation of inference latencies in order to rank different architectures. While building a latency predictor for each target device has been commonly used in state of the art, this is a very time-consuming process, lacking scalability in the presence of extremely diverse devices. In this work, we address the scalability challenge by exploiting latency monotonicity -- the architecture latency rankings on different devices are often correlated. When strong latency monotonicity exists, we can re-use architectures searched for one proxy device on new target devices, without losing optimality. In the absence of strong latency monotonicity, we propose an efficient proxy adaptation technique to significantly boost the latency monotonicity. Finally, we validate our approach and conduct experiments with devices of different platforms on multiple mainstream search spaces, including MobileNet-V2, MobileNet-V3, NAS-Bench-201, ProxylessNAS and FBNet. Our results highlight that, by using just one proxy device, we can find almost the same Pareto-optimal architectures as the existing per-device NAS, while avoiding the prohibitive cost of building a latency predictor for each device. GitHub: https://github.com/Ren-Research/OneProxy
翻訳日:2021-11-04 10:47:42 公開日:2021-11-03
# psd保証付き近似ベイズ推定のためのベイズニュートン法

Bayes-Newton Methods for Approximate Bayesian Inference with PSD Guarantees ( http://arxiv.org/abs/2111.01721v2 )

ライセンス: Link先を確認
William J. Wilkinson, Simo S\"arkk\"a and Arno Solin(参考訳) ベイズ後方分布のパラメータを最適化するためのニュートン法の拡張として,自然勾配変動推定(vi),期待伝播(ep),後続線形化(pl)を定式化した。 この視点は、数値最適化の枠組みの下で推論アルゴリズムを明示的に採用する。 我々は、ガウス・ニュートン法と準ニュートン法(例えば、BFGSアルゴリズム)の最適化文献からニュートン法に対する一般的な近似が、この「ベイズ・ニュートン」フレームワークの下でも有効であることを示す。 これは、標準の VI や EP とは異なり、正の半定値の共分散行列をもたらすことが保証される新しいアルゴリズムの組につながる。 我々の統一的な視点は、様々な推論スキーム間の関係に関する新たな洞察を提供する。 提示されたすべての方法がガウス的先行性および非共役性を持つ任意のモデルに適用され、これはガウス的過程と状態空間モデルで示される。

We formulate natural gradient variational inference (VI), expectation propagation (EP), and posterior linearisation (PL) as extensions of Newton's method for optimising the parameters of a Bayesian posterior distribution. This viewpoint explicitly casts inference algorithms under the framework of numerical optimisation. We show that common approximations to Newton's method from the optimisation literature, namely Gauss-Newton and quasi-Newton methods (e.g., the BFGS algorithm), are still valid under this 'Bayes-Newton' framework. This leads to a suite of novel algorithms which are guaranteed to result in positive semi-definite covariance matrices, unlike standard VI and EP. Our unifying viewpoint provides new insights into the connections between various inference schemes. All the presented methods apply to any model with a Gaussian prior and non-conjugate likelihood, which we demonstrate with (sparse) Gaussian processes and state space models.
翻訳日:2021-11-04 10:47:18 公開日:2021-11-03
# ビジョントランスフォーマーは進化できるのか?

Can Vision Transformers Perform Convolution? ( http://arxiv.org/abs/2111.01353v2 )

ライセンス: Link先を確認
Shanda Li, Xiangning Chen, Di He, Cho-Jui Hsieh(参考訳) 近年の研究では、ViT(Vision Transformer)のような注目ベースのネットワークが、畳み込み層を使わずに複数のコンピュータビジョンタスクにおいて畳み込みニューラルネットワーク(CNN)より優れていることが示されている。 ViTの自己保持層は、何らかの畳み込み操作を表現できますか? 本研究では,画像パッチを入力とする単一のViT層が,マルチヘッドアテンション機構と相対位置エンコーディングが重要な役割を果たすようなコンボリューション操作を構成的に実行可能であることを実証する。 さらに、CNNを表現するための視覚変換器のヘッド数を低くする。 実験結果から,提案手法はトランスフォーマーに畳み込みバイアスを注入し,低データ状態下でのViTの性能向上に有効であることが示された。

Several recent studies have demonstrated that attention-based networks, such as Vision Transformer (ViT), can outperform Convolutional Neural Networks (CNNs) on several computer vision tasks without using convolutional layers. This naturally leads to the following questions: Can a self-attention layer of ViT express any convolution operation? In this work, we prove that a single ViT layer with image patches as the input can perform any convolution operation constructively, where the multi-head attention mechanism and the relative positional encoding play essential roles. We further provide a lower bound on the number of heads for Vision Transformers to express CNNs. Corresponding with our analysis, experimental results show that the construction in our proof can help inject convolutional bias into Transformers and significantly improve the performance of ViT in low data regimes.
翻訳日:2021-11-04 10:47:02 公開日:2021-11-03
# タスク非依存トレーニングを用いたCOVID-19 CXR診断用フェデレートスプリットビジョントランス

Federated Split Vision Transformer for COVID-19 CXR Diagnosis using Task-Agnostic Training ( http://arxiv.org/abs/2111.01338v2 )

ライセンス: Link先を確認
Sangjoon Park, Gwanghyun Kim, Jeongsol Kim, Boah Kim, Jong Chul Ye(参考訳) 顧客間でニューラルネットワークの重みを共有するfederated learningは、データプライバシを維持しながら、大規模な分散データコーパスのトレーニングを可能にすることで、医療分野で注目を集めている。 例えば、複数の病院で患者のCXRデータを収集することなく、胸部X線(CXR)画像上の新型コロナウイルス診断のためのニューラルネットワークトレーニングが可能になる。 残念ながら、高度に表現力のあるネットワークアーキテクチャを採用すると、重みの交換はネットワーク帯域を素早く消費する。 いわゆる分割学習は、ニューラルネットワークをクライアントとサーバに分割することで、この問題を部分的に解決する。 しかし、ネットワーク全体の性能を犠牲にすることなく最適な分割を見つける方法は不明である。 そこで本研究では,直感的に分解可能な構成の深層学習アーキテクチャであるVision Transformerが,性能を犠牲にすることなく分割学習に最適であることを示す。 複数のソースからのCXRデータセットを使用して病院間の実際のコラボレーションをエミュレートする非独立で同一の分散データ分布であっても、提案したフレームワークは、データ分散トレーニングに匹敵するパフォーマンスを実現することができた。 さらに,ヘテロジニアスなマルチタスククライアントとともに,covid-19の診断を含む個々のタスクパフォーマンスも向上し,大きな重みを数えられるパラメータで共有する必要がなくなる。 本研究は,医療画像における協調学習におけるトランスフォーマーの適合性を検証し,将来的な実世界実装への道を開く。

Federated learning, which shares the weights of the neural network across clients, is gaining attention in the healthcare sector as it enables training on a large corpus of decentralized data while maintaining data privacy. For example, this enables neural network training for COVID-19 diagnosis on chest X-ray (CXR) images without collecting patient CXR data across multiple hospitals. Unfortunately, the exchange of the weights quickly consumes the network bandwidth if highly expressive network architecture is employed. So-called split learning partially solves this problem by dividing a neural network into a client and a server part, so that the client part of the network takes up less extensive computation resources and bandwidth. However, it is not clear how to find the optimal split without sacrificing the overall network performance. To amalgamate these methods and thereby maximize their distinct strengths, here we show that the Vision Transformer, a recently developed deep learning architecture with straightforward decomposable configuration, is ideally suitable for split learning without sacrificing performance. Even under the non-independent and identically distributed data distribution which emulates a real collaboration between hospitals using CXR datasets from multiple sources, the proposed framework was able to attain performance comparable to data-centralized training. In addition, the proposed framework along with heterogeneous multi-task clients also improves individual task performances including the diagnosis of COVID-19, eliminating the need for sharing large weights with innumerable parameters. Our results affirm the suitability of Transformer for collaborative learning in medical imaging and pave the way forward for future real-world implementations.
翻訳日:2021-11-04 10:46:47 公開日:2021-11-03
# スペクトル距離によるグラフ構造攻撃

Graph Structural Attack by Spectral Distance ( http://arxiv.org/abs/2111.00684v2 )

ライセンス: Link先を確認
Lu Lin, Ethan Blaser and Hongning Wang(参考訳) グラフ畳み込みネットワーク(GCNs)は、グラフ学習タスクにおける優れたパフォーマンスのため、関心が高まりつつあるが、敵攻撃に対する脆弱性も示されている。 本稿では,フーリエ領域におけるグラフスペクトルフィルタの破壊に有効なグラフ構造攻撃について検討する。 スペクトルフィルタの破壊を測定するために、グラフラプラシアンの固有値に基づいてスペクトル距離を定義する。 次に,タスク固有の攻撃目標と提案したスペクトル距離を同時に最大化し,エッジ摂動を生成する。 実験は、トレーニング時間とテスト時間の両方において、ホワイトボックス設定における提案された攻撃の有効性を示す。 筆者らの定性的分析は、攻撃行動とスペクトル分布の強制的な変化の関連性を示し、スペクトル距離の最大化が空間領域におけるグラフの構造特性の変化とフーリエ領域における周波数成分の摂動に有効な方法であることを示す実証的な証拠を提供する。

Graph Convolutional Networks (GCNs) have fueled a surge of interest due to their superior performance on graph learning tasks, but are also shown vulnerability to adversarial attacks. In this paper, an effective graph structural attack is investigated to disrupt graph spectral filters in the Fourier domain. We define the spectral distance based on the eigenvalues of graph Laplacian to measure the disruption of spectral filters. We then generate edge perturbations by simultaneously maximizing a task-specific attack objective and the proposed spectral distance. The experiments demonstrate remarkable effectiveness of the proposed attack in the white-box setting at both training and test time. Our qualitative analysis shows the connection between the attack behavior and the imposed changes on the spectral distribution, which provides empirical evidence that maximizing spectral distance is an effective manner to change the structural property of graphs in the spatial domain and perturb the frequency components in the Fourier domain.
翻訳日:2021-11-04 10:46:20 公開日:2021-11-03
# クロスモーダルビデオ検索のためのマスキングモード

Masking Modalities for Cross-modal Video Retrieval ( http://arxiv.org/abs/2111.01300v2 )

ライセンス: Link先を確認
Valentin Gabeur, Arsha Nagrani, Chen Sun, Karteek Alahari, Cordelia Schmid(参考訳) 大規模アンラベリングデータセットの事前トレーニングでは、コンピュータビジョンと自然言語処理の分野で顕著なパフォーマンス向上が見られた。 大規模ビデオデータセットの出現を考えると、ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使うことである。 しかし、音声は事前学習を監督するために使用されるため、ビデオエンコーダには見られず、そのモダリティを処理することを学ばない。 音声言語における豊富な手がかりを活用できない現在の事前学習手法の欠点に対処した。 提案手法は,ビデオモダリティの全てを監督,すなわち外見,音,書き起こし音声として利用して,ビデオエンコーダの事前訓練を行うことである。 入力の全体モダリティを隠蔽し、他の2つのモダリティを使って予測する。 これにより、それぞれのモダリティが他の人とコラボレーションすることを奨励し、私たちのビデオエンコーダは、音声と同様に外観や音声を処理することを学びます。 How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。

Pre-training on large scale unlabelled datasets has shown impressive performance improvements in the fields of computer vision and natural language processing. Given the advent of large-scale instructional video datasets, a common strategy for pre-training video encoders is to use the accompanying speech as weak supervision. However, as speech is used to supervise the pre-training, it is never seen by the video encoder, which does not learn to process that modality. We address this drawback of current pre-training methods, which fail to exploit the rich cues in spoken language. Our proposal is to pre-train a video encoder using all the available video modalities as supervision, namely, appearance, sound, and transcribed speech. We mask an entire modality in the input and predict it using the other two modalities. This encourages each modality to collaborate with the others, and our video encoder learns to process appearance and audio as well as speech. We show the superior performance of our "modality masking" pre-training approach for video retrieval on the How2R, YouCook2 and Condensed Movies datasets.
翻訳日:2021-11-04 10:46:04 公開日:2021-11-03
# HHP-Net:不確実性を考慮した頭部電位推定のための光ヘテロセダスティックニューラルネットワーク

HHP-Net: A light Heteroscedastic neural network for Head Pose estimation with uncertainty ( http://arxiv.org/abs/2111.01440v2 )

ライセンス: Link先を確認
Giorgio Cantarini, Federico Figari Tomenotti, Nicoletta Noceti, Francesca Odone(参考訳) 本稿では,頭部キーポイントの小さな集合から単眼画像中の人物の頭部姿勢を推定する新しい手法を提案する。 そこで本研究では,2次元ポーズ推定アルゴリズムで計算されたキーポイントを活用し,ヨー,ピッチ,ロールで表される頭部ポーズを出力する回帰モデルを提案する。 私たちのモデルは、技術の現状に関して、実装が簡単で、より効率的です -- 推論が高速で、メモリ占有率の面ではより小さく、同等の精度で。 また, 3つの角度に関する不確かさを, 適切に設計した損失関数を用いて測定し, 誤差と不確実性値の間に相関性があることを示し, この余分な情報源を計算ステップで用いることができることを示した。 画像中の社会的相互作用分析を例として, 頭部のポーズや相互位置の推論から, 人物間の相互作用のレベルを定量的に推定するアルゴリズムを提案する。 コードはhttps://github.com/cantarinigiorgio/hhp-netで入手できる。

In this paper we introduce a novel method to estimate the head pose of people in single images starting from a small set of head keypoints. To this purpose, we propose a regression model that exploits keypoints computed automatically by 2D pose estimation algorithms and outputs the head pose represented by yaw, pitch, and roll. Our model is simple to implement and more efficient with respect to the state of the art -- faster in inference and smaller in terms of memory occupancy -- with comparable accuracy. Our method also provides a measure of the heteroscedastic uncertainties associated with the three angles, through an appropriately designed loss function; we show there is a correlation between error and uncertainty values, thus this extra source of information may be used in subsequent computational steps. As an example application, we address social interaction analysis in images: we propose an algorithm for a quantitative estimation of the level of interaction between people, starting from their head poses and reasoning on their mutual positions. The code is available at https://github.com/cantarinigiorgio/HHP-Net.
翻訳日:2021-11-04 10:45:26 公開日:2021-11-03
# iCallee: バイナリのコールグラフの復元

iCallee: Recovering Call Graphs for Binaries ( http://arxiv.org/abs/2111.01415v2 )

ライセンス: Link先を確認
Wenyu Zhu, Zhiyao Feng, Zihan Zhang, Zhijian Ou, Min Yang, Chao Zhang(参考訳) プログラムのコールグラフの復元は、手続き間分析タスクやそれに基づくアプリケーションにとって不可欠である。 主な課題は、間接呼び出し(すなわち間接呼び出し)のターゲットを認識することである。 バイナリの情報が失われるため、ターゲットプログラムがバイナリ形式であれば、より困難になる。 既存のバイナリの間接的な呼び出し元認識ソリューションはいずれも高い偽陽性と陰性を持ち、コールグラフは不正確である。 本稿では,シームズニューラルネットワークに基づく新しい解iCalleeを提案する。 重要な洞察は、ニューラルネットワークが、呼び出し先の関数が間接呼び出しの潜在的なターゲットであるかどうかを、そのコンテキスト、すなわち近くの呼び出し側と呼び出し側の指示を解釈することによって学習できるということだ。 この知見に従い、まずターゲットバイナリを前処理し、呼び出し元と呼び出し元のコンテキストを抽出する。 次に、アセンブリ言語に適用可能なカスタマイズされた自然言語処理(nlp)モデルを構築する。 さらに,大量のcalliteとcalleeのペアを収集し,そのコンテキストをnlpモデルに埋め込み,siameseネットワークと分類器を訓練してcallite-calleeの質問に答える。 我々はiCalleeのプロトタイプを実装し、いくつかのターゲットグループで評価した。 評価の結果, 提案手法は, f1測定値93.7%, 93.8%, 精度93.5%, 精度93.5%, 最先端のソリューションよりはるかに優れていた。 その有用性を示すために、iCalleeをバイナリコードの類似性検出とバイナリプログラムのハードニングという2つの特定のアプリケーションに適用し、最先端のソリューションを大幅に改善できることを発見した。

Recovering programs' call graphs is crucial for inter-procedural analysis tasks and applications based on them. The core challenge is recognizing targets of indirect calls (i.e., indirect callees). It becomes more challenging if target programs are in binary forms, due to information loss in binaries. Existing indirect callee recognition solutions for binaries all have high false positives and negatives, making call graphs inaccurate. In this paper, we propose a new solution iCallee based on the Siamese Neural Network, inspired by the advances in question-answering applications. The key insight is that, neural networks can learn to answer whether a callee function is a potential target of an indirect callsite by comprehending their contexts, i.e., instructions nearby callsites and of callees. Following this insight, we first preprocess target binaries to extract contexts of callsites and callees. Then, we build a customized Natural Language Processing (NLP) model applicable to assembly language. Further, we collect abundant pairs of callsites and callees, and embed their contexts with the NLP model, then train a Siamese network and a classifier to answer the callsite-callee question. We have implemented a prototype of iCallee and evaluated it on several groups of targets. Evaluation results showed that, our solution could match callsites to callees with an F1-Measure of 93.7%, recall of 93.8%, and precision of 93.5%, much better than state-of-the-art solutions. To show its usefulness, we apply iCallee to two specific applications - binary code similarity detection and binary program hardening, and found that it could greatly improve state-of-the-art solutions.
翻訳日:2021-11-04 10:45:08 公開日:2021-11-03
# LogiKEyにおけるHOLのフラグメントとしての共通知識を用いた公開発表論理のモデル化と自動化

Modeling and Automating Public Announcement Logic with Relativized Common Knowledge as a Fragment of HOL in LogiKEy ( http://arxiv.org/abs/2111.01654v2 )

ライセンス: Link先を確認
Christoph Benzm\"uller and Sebastian Reiche(参考訳) 関連する共通知識を持つ公開告知論理の浅層意味埋め込みについて述べる。 この埋め込みにより、古典的な高階論理に対するオフ・ザ・シェルフ定理証明を用いて、この論理を初めて自動化することができる。 実証されています (i)このような方法でメタ理論的研究をいかに自動化できるか 二 対象論理(公告論理)における非自明な推論(例えば、賢明なマンパズルのエンコーディングと自動化を得るために必要なもの)を実現することができる。 提示された意味的埋め込みの鍵は、評価領域が明示的にモデル化され、組み込み対象論理の構成要素のエンコーディングにおいて追加のパラメータとして扱われることである;例えば、通常の様相論理の埋め込みにおいて、評価領域はメタ論理と対象論理の間で暗黙的に共有された。 本稿では、論理学とそれらの組み合わせ、一般知識とドメイン知識、そして具体的なユースケースを同時に実験できる、複数派のLogiKEy知識工学方法論の重要な追加となる。

A shallow semantical embedding for public announcement logic with relativized common knowledge is presented. This embedding enables the first-time automation of this logic with off-the-shelf theorem provers for classical higher-order logic. It is demonstrated (i) how meta-theoretical studies can be automated this way, and (ii) how non-trivial reasoning in the target logic (public announcement logic), required e.g. to obtain a convincing encoding and automation of the wise men puzzle, can be realized. Key to the presented semantical embedding is that evaluation domains are modeled explicitly and treated as an additional parameter in the encodings of the constituents of the embedded target logic; in previous related works, e.g. on the embedding of normal modal logics, evaluation domains were implicitly shared between meta-logic and target logic. The work presented in this article constitutes an important addition to the pluralist LogiKEy knowledge engineering methodology, which enables experimentation with logics and their combinations, with general and domain knowledge, and with concrete use cases -- all at the same time.
翻訳日:2021-11-04 10:44:39 公開日:2021-11-03
# DAGに基づく分散フェデレーション学習によるインプシットモデル特殊化

Implicit Model Specialization through DAG-based Decentralized Federated Learning ( http://arxiv.org/abs/2111.01257v2 )

ライセンス: Link先を確認
Jossekin Beilharz, Bjarne Pfitzner, Robert Schmid, Paul Geppert, Bert Arnrich, and Andreas Polze(参考訳) フェデレートされた学習により、分散クライアントのグループは、プライベートデータ上で共通の機械学習モデルをトレーニングできる。 モデル更新の交換は、中央のエンティティまたは分散型の方法で、例えばブロックチェーンによって管理される。 しかし、すべてのクライアント間の強い一般化により、これらのアプローチは非独立かつ同一の分散(非iid)データには適さない。 モデル更新の有向非巡回グラフ(DAG)に基づくフェデレーション学習における分散化とパーソナライズへの統一的なアプローチを提案する。 単一のグローバルモデルをトレーニングする代わりに、クライアントはローカルデータに特化して、各データの類似性に依存する他のクライアントからのモデル更新を使用する。 この特殊化は、DAGベースの通信とモデル更新の選択から暗黙的に現れる。 このように、データのサブセットに焦点を当てた特殊なモデルの進化を可能にすることで、集中型あるいはブロックチェーンベースのセットアップでのフェデレーション学習よりも、非IIDデータをカバーできるのです。 私たちの知る限りでは、提案するソリューションは、完全に分散した連合学習において、パーソナライゼーションと有毒な堅牢性を統合する最初の方法です。 評価の結果,3つのデータセット上でのモデル更新のDAGに基づく通信から,モデルの特殊化が直接現れることがわかった。 さらに,フェデレート平均化と比較してモデル精度が安定し,クライアント間のばらつきも小さくなった。

Federated learning allows a group of distributed clients to train a common machine learning model on private data. The exchange of model updates is managed either by a central entity or in a decentralized way, e.g. by a blockchain. However, the strong generalization across all clients makes these approaches unsuited for non-independent and identically distributed (non-IID) data. We propose a unified approach to decentralization and personalization in federated learning that is based on a directed acyclic graph (DAG) of model updates. Instead of training a single global model, clients specialize on their local data while using the model updates from other clients dependent on the similarity of their respective data. This specialization implicitly emerges from the DAG-based communication and selection of model updates. Thus, we enable the evolution of specialized models, which focus on a subset of the data and therefore cover non-IID data better than federated learning in a centralized or blockchain-based setup. To the best of our knowledge, the proposed solution is the first to unite personalization and poisoning robustness in fully decentralized federated learning. Our evaluation shows that the specialization of models emerges directly from the DAG-based communication of model updates on three different datasets. Furthermore, we show stable model accuracy and less variance across clients when compared to federated averaging.
翻訳日:2021-11-04 10:44:21 公開日:2021-11-03