このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211115となっている論文です。

PDF登録状況(公開日: 20211115)

TitleAuthorsAbstract論文公表日・翻訳日
# 4ビット純状態の絡み合いに対するモノガミー制約

Monogamy constraints on entanglement of four-qubit pure states ( http://arxiv.org/abs/2002.00701v3 )

ライセンス: Link先を確認
S. Shelly Sharma(参考訳) 一般4ビット純状態の1-三角形,2-三角形,3-三角形,4-方向相関に関する一様制約の集合を報告する。 It is found that given a two-qubit marginal state $\rho$ of a four qubit pure state $\left\vert \Psi_{4}\right\rangle $, the non-Hermitian matrix $\rho\widetilde{\rho}$ where $\widetilde{\rho}$ $=\left( \sigma_{y} \otimes\sigma_{y}\right) \rho^{\ast}\left( \sigma_{y}\otimes\sigma_{y}\right) $, contains information not only about the entanglement properties of the two-qubits in state $\rho$ but also about three tangles involving the selected pair as well as four-way correlations of the pair of qubits in $\left\vert \Psi_{4}\right\rangle $. 4量子状態 $\left\vert \psi_{4}\right\rangle $ の接に関する情報を抽出するために、行列 $\rho\widetilde{\rho}$ の特性多項式の係数を、状態係数の 2\times2$ 行列を用いて解析的に表現する。 四角形は四量子状態の異なるタイプを区別する。

We report a set of monogamy constraints on one-tangle, two-tangles, three-tangles and four-way correlations of a general four-qubit pure state. It is found that given a two-qubit marginal state $\rho$ of a four qubit pure state $\left\vert \Psi_{4}\right\rangle $, the non-Hermitian matrix $\rho\widetilde{\rho}$ where $\widetilde{\rho}$ $=\left( \sigma_{y} \otimes\sigma_{y}\right) \rho^{\ast}\left( \sigma_{y}\otimes\sigma_{y}\right) $, contains information not only about the entanglement properties of the two-qubits in state $\rho$ but also about three tangles involving the selected pair as well as four-way correlations of the pair of qubits in $\left\vert \Psi_{4}\right\rangle $. To extract information about tangles of a four-qubit state $\left\vert \Psi_{4}\right\rangle $, the coefficients in the characteristic polynomial of matrix $\rho\widetilde{\rho}$ are analytically expressed in terms of $2\times2$ matrices of state coefficients. Four-tangles distinguish between different types of entangled four-qubit pure states.
翻訳日:2023-06-04 20:41:03 公開日:2021-11-15
# 温度、因果性および量子制御されたウンルー・デウィット検出器

Thermality, causality and the quantum-controlled Unruh-deWitt detector ( http://arxiv.org/abs/2005.03914v5 )

ライセンス: Link先を確認
Joshua Foo, Sho Onoe, Robert B. Mann and Magdalena Zych(参考訳) unruh-dewitt検出器のような粒子検出器モデルは、相対論的量子情報と場理論において時空と量子場の大域的特徴を調べるために広く使われている。 これらの検出器は典型的には、古典的世界線に沿って局所的に場に結合するものとしてモデル化される。 本稿では,量子制御された軌道の重ね合わせで検出器を調製し,有限温度ミンコフスキー時空と拡張ド・ジッター宇宙における磁場に対する応答を調べるための最近の枠組みを利用する。 これらの時空を区別できない古典的な経路上の検出器とは異なり、重畳された検出器は、その環境の幾何学的・因果的構造に関する非局所的な情報を取得し、これらのグローバルな性質の探査能力を示す。

Particle detector models such as the Unruh-deWitt detector are widely used in relativistic quantum information and field theory to probe the global features of spacetime and quantum fields. These detectors are typically modelled as coupling locally to the field along a classical worldline. In this paper, we utilize a recent framework which enables us to prepare the detector in a quantum-controlled superposition of trajectories, and study its response to the field in finite-temperature Minkowski spacetime and an expanding de Sitter universe. Unlike a detector on a classical path which cannot distinguish these spacetimes, the superposed detector can do so by acquiring nonlocal information about the geometric and causal structure of its environment, demonstrating its capability as a probe of these global properties.
翻訳日:2023-05-20 20:16:54 公開日:2021-11-15
# k$-体相互作用を持つ量子多フェルミオン系の波動関数構造:-強度関数の条件付き$q$正規形

Wavefunction structure in quantum many-fermion systems with $k$-body interactions: conditional $q$-normal form of strength functions ( http://arxiv.org/abs/2011.05799v3 )

ライセンス: Link先を確認
V.K.B. Kota, Manan Vyas(参考訳) 単一粒子状態における$m$フェルミオンをモデル化し、$k$-body相互作用(k \leq m$)と相互作用する有限量子多粒子系では、波動関数構造はランダム行列理論を用いて研究される。 系のハミルトニアンは$H=H_0(t) + \lambda V(k)$で、未飽和の$H_0(t)$ Hamiltonianは$t$-body演算子で$V(k)$は$k$-body演算子で相互作用強度は$\lambda$である。 H_0(t)$と$V(k)$を独立ガウス直交アンサンブル(GOE)で表し、それぞれ$t$と$k$フェルミオン空間のランダム行列、および$m$フェルミオン空間の最初の4モーメント、および強度関数$F_\kappa(E)$を導出する。 エネルギー$H$エネルギまたは固有値を示す$E$と、エネルギー$E_\kappa$で未飽和基底状態を表す$\kappa$とすると、$F_\kappa(E)$は固有状態に対する$\kappa$状態の拡散を与える。 f_\kappa(e)$の最初の4つのモーメントは、p.j. szabowski, electronic journal of probability {\bf 15}, 1296 (2010) で与えられる条件付き$q$正規分布のそれと本質的に同じである。 これは自然に$f_\kappa(e)$の非対称性を与え、$e_\kappa$が増加するにつれて$e$が上昇し、ピーク値も$e_\kappa$で変化する。 したがって、k$-体相互作用を持つ量子多フェルミオン系の波動関数構造は、一般に条件付き$q$正規分布に従う。

For finite quantum many-particle systems modeled with say $m$ fermions in $N$ single particle states and interacting with $k$-body interactions ($k \leq m$), the wavefunction structure is studied using random matrix theory. Hamiltonian for the system is chosen to be $H=H_0(t) + \lambda V(k)$ with the unperturbed $H_0(t)$ Hamiltonian being a $t$-body operator and $V(k)$ a $k$-body operator with interaction strength $\lambda$. Representing $H_0(t)$ and $V(k)$ by independent Gaussian orthogonal ensembles (GOE) of random matrices in $t$ and $k$ fermion spaces respectively, first four moments, in $m$-fermion spaces, of the strength functions $F_\kappa(E)$ are derived; strength functions contain all the information about wavefunction structure. With $E$ denoting the $H$ energies or eigenvalues and $\kappa$ denoting unperturbed basis states with energy $E_\kappa$, the $F_\kappa(E)$ give the spreading of the $\kappa$ states over the eigenstates $E$. It is shown that the first four moments of $F_\kappa(E)$ are essentially same as that of the conditional $q$-normal distribution given in: P.J. Szabowski, Electronic Journal of Probability {\bf 15}, 1296 (2010). This naturally gives asymmetry in $F_\kappa(E)$ with respect to $E$ as $E_\kappa$ increases and also the peak value changes with $E_\kappa$. Thus, the wavefunction structure in quantum many-fermion systems with $k$-body interactions follows in general the conditional $q$-normal distribution.
翻訳日:2023-04-24 21:11:12 公開日:2021-11-15
# 量子ホーア型理論

Quantum Hoare Type Theory ( http://arxiv.org/abs/2012.02154v2 )

ライセンス: Link先を確認
Kartik Singhal(参考訳) 量子コンピュータが現実になるにつれて、プログラマが正しい量子プログラムを書くのに役立つ効果的なテクニックが思い浮かびます。 古典計算におけるホーア型理論に触発されて,量子ホーア型理論 (qhtt) を提案する。 ホア型内のこれらの仕様は、命題・アズ・タイプの原則に従ってホア論理スタイルの前条件とポスト条件の形で与えられる。 型チェックプロセスは、実装が提供された仕様に準拠していることを検証する。 QHTTは、量子プログラムのプログラミング、特定、推論のための統一されたシステムになる可能性がある。

As quantum computers become real, it is high time we come up with effective techniques that help programmers write correct quantum programs. Inspired by Hoare Type Theory in classical computing, we propose Quantum Hoare Type Theory (QHTT), in which precise specifications about the modification to the quantum state can be provided within the type of computation. These specifications within a Hoare type are given in the form of Hoare-logic style pre- and postconditions following the propositions-as-types principle. The type-checking process verifies that the implementation conforms to the provided specification. QHTT has the potential to be a unified system for programming, specifying, and reasoning about quantum programs.
翻訳日:2023-04-22 05:17:44 公開日:2021-11-15
# Taub-NUTブラックホールの一般クラスにおけるアナログ粒子生成モデル

Analog Particle Production Model for General Classes of Taub-NUT Black Holes ( http://arxiv.org/abs/2012.02348v2 )

ライセンス: Link先を確認
Joshua Foo, Michael R.R. Good, Robert B. Mann(参考訳) 我々は、タウブナットブラックホールの一般クラスから放出されるホーキング放射スペクトルと、(1+1)次元の平面時空における加速ディリクレ境界条件(すなわち、完全反射鏡)の相対論的運動によって引き起こされるそれとの対応を導出する。 粒子とエネルギーのスペクトルはリアルタイムに熱的であり, 粒子生成はNUTパラメータによって抑制されることを示した。 また, 回転帯電(Kerr-Newman) Taub-NUT シナリオと極端ケースの放射スペクトルを計算し, これらのパラメータが粒子およびエネルギーフラックスに与える影響を明らかにした。

We derive a correspondence between the Hawking radiation spectra emitted from general classes of Taub-NUT black holes with that induced by the relativistic motion of an accelerated Dirichlet boundary condition (i.e.\ a perfectly reflecting mirror) in (1+1)-dimensional flat spacetime. We demonstrate that the particle and energy spectra is thermal at late-times and that particle production is suppressed by the NUT parameter. We also compute the radiation spectrum in the rotating, electrically charged (Kerr-Newman) Taub-NUT scenario, and the extremal case, showing explicitly how these parameters affect the outgoing particle and energy fluxes.
翻訳日:2023-04-22 03:18:39 公開日:2021-11-15
# 量子コンピュータにおける古典力学の埋め込み

Embedding classical dynamics in a quantum computer ( http://arxiv.org/abs/2012.06097v3 )

ライセンス: Link先を確認
Dimitrios Giannakis, Abbas Ourmazd, Philipp Pfeffer, Joerg Schumacher, Joanna Slawinska(参考訳) 量子コンピュータ上で測定保存・エルゴード力学系をシミュレートするフレームワークを開発した。 本手法はエルゴード理論と量子情報科学を組み合わせた古典力学の新しい作用素論的表現を提供する。 古典力学(QECD)の量子埋め込みは、量子ゲートの二次数を用いて指数的に大きな次元を持つ古典的観測可能空間の効率的なシミュレーションを可能にする。 qecd フレームワークは、再現核ヒルベルト空間上の密度作用素による古典状態を表現する量子的特徴写像、$\mathcal h $ と、$\mathcal h$ 上の自己共役作用素への古典可観測の埋め込みに基づいている。 このスキームでは、量子状態と可観測物は古典系のクープマン進化作用素の持ち上げ作用の下で一元的に進化する。 さらに、$\mathcal H$ の再現性により、量子系は基礎となる古典力学と点で一致している。 指数的量子計算の優位性を達成するために、量子系の状態を2^n$-次元テンソル積ヒルベルト空間上の密度行列に投影する。 離散フーリエ・ウォルシュ変換を用いることで、有限次元量子系の進化作用素はテンソル積形式に分解され、サイズ$O(n)$の量子回路による実装が可能となる。 さらに、この回路は、サイズ$O(n)$の状態準備段階と、サイズ$O(n^2)$の量子フーリエ変換段階を特徴とし、標準計算ベースで測定することで可観測物の予測を可能にする。 これらの予測の理論的収束結果は$n\to\infty$である。 本稿では,Qiskit Aerの量子回路実験と,IBM Quantum System Oneの実際の実験について述べる。

We develop a framework for simulating measure-preserving, ergodic dynamical systems on a quantum computer. Our approach provides a new operator-theoretic representation of classical dynamics by combining ergodic theory with quantum information science. The resulting quantum embedding of classical dynamics (QECD) enables efficient simulation of spaces of classical observables with exponentially large dimension using a quadratic number of quantum gates. The QECD framework is based on a quantum feature map for representing classical states by density operators on a reproducing kernel Hilbert space, $\mathcal H $, and an embedding of classical observables into self-adjoint operators on $\mathcal H$. In this scheme, quantum states and observables evolve unitarily under the lifted action of Koopman evolution operators of the classical system. Moreover, by virtue of the reproducing property of $\mathcal H$, the quantum system is pointwise-consistent with the underlying classical dynamics. To achieve an exponential quantum computational advantage, we project the state of the quantum system to a density matrix on a $2^n$-dimensional tensor product Hilbert space associated with $n$ qubits. By employing discrete Fourier-Walsh transforms, the evolution operator of the finite-dimensional quantum system is factorized into tensor product form, enabling implementation through a quantum circuit of size $O(n)$. Furthermore, the circuit features a state preparation stage, also of size $O(n)$, and a quantum Fourier transform stage of size $O(n^2)$, which makes predictions of observables possible by measurement in the standard computational basis. We prove theoretical convergence results for these predictions as $n\to\infty$. We present simulated quantum circuit experiments in Qiskit Aer, as well as actual experiments on the IBM Quantum System One.
翻訳日:2023-04-21 03:35:06 公開日:2021-11-15
# 早期QUICトラフィックにおけるウェブサイトのフィンガープリント

Website fingerprinting on early QUIC traffic ( http://arxiv.org/abs/2101.11871v2 )

ライセンス: Link先を確認
Pengwei Zhan, Liming Wang, Yi Tang(参考訳) 暗号化プロトコルは、ユーザのプライバシ保護と個人情報の公開を避けるために広く使用されている。 QUIC (Quick UDP Internet Connections) は、もともとGoogle(GQUIC)によって設計されたバージョンとIETF(IQUIC)によって標準化されたバージョンを含む、従来のHTTPの代替として、それぞれ独自の送信特性を示している。 しかし、TCPに基づく既存の暗号化送信方式は、ウェブサイトのフィンガープリント(WFP)攻撃に弱いため、敵は送信チャンネルを盗聴することで、訪問したウェブサイトを推測することができる。 GQUICとIQUICがこのような攻撃に効果的に抵抗できるかどうかを調査する価値がある。 本稿では,交通分析の観点から,GQUIC,IQUIC,HTTPSのWFP攻撃に対する脆弱性について検討する。 大規模な実験によると、初期のトラフィックシナリオでは、GQUICはGQUIC、IQUIC、HTTPSの中でWFP攻撃に対して最も脆弱であるが、IQUICはHTTPSよりも脆弱であるが、3つのプロトコルの脆弱性は通常のフルトラフィックシナリオで類似している。 機能転送分析は、ほとんどの機能が通常のフルトラフィックシナリオでプロトコル間で転送可能であることを示している。 しかし, 遅延特徴表現の定性解析と組み合わせると, GQUIC, IQUIC, HTTPSなどの早期トラフィックでは, 早期トラフィックにおけるトラフィック分布のばらつきが著しく異なるため, 転送は非効率であることがわかった。 1回のWFP攻撃を複数のWFP Top-a攻撃にアップグレードすることで、GQUICとIQUICの攻撃精度はそれぞれ95.4%と95.5%に達し、わずか40個のパケットと単純な機能しか使用せず、HTTPSでは60.7%にしか達していないことがわかった。 また、IQUICの脆弱性はネットワーク環境にわずかに依存していることも示している。

Cryptographic protocols have been widely used to protect the user's privacy and avoid exposing private information. QUIC (Quick UDP Internet Connections), including the version originally designed by Google (GQUIC) and the version standardized by IETF (IQUIC), as alternatives to the traditional HTTP, demonstrate their unique transmission characteristics: based on UDP for encrypted resource transmitting, accelerating web page rendering. However, existing encrypted transmission schemes based on TCP are vulnerable to website fingerprinting (WFP) attacks, allowing adversaries to infer the users' visited websites by eavesdropping on the transmission channel. Whether GQUIC and IQUIC can effectively resist such attacks is worth investigating. In this paper, we study the vulnerabilities of GQUIC, IQUIC, and HTTPS to WFP attacks from the perspective of traffic analysis. Extensive experiments show that, in the early traffic scenario, GQUIC is the most vulnerable to WFP attacks among GQUIC, IQUIC, and HTTPS, while IQUIC is more vulnerable than HTTPS, but the vulnerability of the three protocols is similar in the normal full traffic scenario. Features transferring analysis shows that most features are transferable between protocols when on normal full traffic scenario. However, combining with the qualitative analysis of latent feature representation, we find that the transferring is inefficient when on early traffic, as GQUIC, IQUIC, and HTTPS show the significantly different magnitude of variation in the traffic distribution on early traffic. By upgrading the one-time WFP attacks to multiple WFP Top-a attacks, we find that the attack accuracy on GQUIC and IQUIC reach 95.4% and 95.5%, respectively, with only 40 packets and just using simple features, whereas reach only 60.7% when on HTTPS. We also demonstrate that the vulnerability of IQUIC is only slightly dependent on the network environment.
翻訳日:2023-04-13 11:58:52 公開日:2021-11-15
# ランダム化計測による探傷絡みの重要サンプリング

Importance sampling of randomized measurements for probing entanglement ( http://arxiv.org/abs/2102.13524v2 )

ライセンス: Link先を確認
Aniket Rath, Rick van Bijnen, Andreas Elben, Peter Zoller and Beno\^it Vermersch(参考訳) ランダム化計測プロトコルと重要サンプリングを組み合わせることで、より大きな量子システムにおける絡み合いを、従来よりも効率的な方法で特徴づけることができることを示す。 量子状態の部分情報を用いた機械学習とテンソルネットワークの古典的手法を用いて,統計誤差の劇的に低減する。 工学的な多体量子システムの実験的設定では、絡み合いを測定するための(サブ)システムサイズを効果的に2倍にする。 特に,製品状態およびGHZ状態の純度を推定するために,必要な測定回数を指数関数的に削減することを示す。

We show that combining randomized measurement protocols with importance sampling allows for characterizing entanglement in significantly larger quantum systems and in a more efficient way than in previous work. A drastic reduction of statistical errors is obtained using classical techniques of machine-learning and tensor networks using partial information on the quantum state. In present experimental settings of engineered many-body quantum systems this effectively doubles the (sub-)system sizes for which entanglement can be measured. In particular, we show an exponential reduction of the required number of measurements to estimate the purity of product states and GHZ states.
翻訳日:2023-04-09 20:41:29 公開日:2021-11-15
# デュアルユニタリ回路における絡み合い障壁

Entanglement Barriers in Dual-Unitary Circuits ( http://arxiv.org/abs/2103.12794v2 )

ライセンス: Link先を確認
Isaac Reid and Bruno Bertini(参考訳) 多体系における量子クエンチの後、有限サブシステムは非自明に時間的に発展し、最終的に定常状態に近づく。 典型的な状況では、与えられた部分系の還元密度行列が始まり、作用素空間の低絡みベクトルとしてこの試みを終わらせる。 これは、作用素空間の絡み合いが最初(一般の場合)大きくなると、最終的に減少し、バリア状の曲線を記述することを意味する。 この「絡み合い障壁」の形状を理解することは、3つの主な理由から興味深い。 i)(開)サブシステムにおける絡み合いのダイナミクスを定量化する。 (ii)行列積演算子を用いて、還元密度行列の近似性に関する情報を提供する。 (iii)システムによって引き起こされる力学の種類、量子カオスのシグナルによる質的差異を示す。 ここでは、可解行列積状態 (mps) のクラスで初期化された双対ユニタリ回路における量子クエンチ後の異なる r\'enyi エントロピーによって記述される絡み合い障壁の形状を正確に計算する。 自由(SWAPライクな)回路の場合、絡み合いエントロピーは有理CFTのように振る舞う。 一方、完全にカオス的な二重単位回路の場合、ホログラフィックのCFTのように振舞い、サブシステムが加熱されると急速に低下する長い絡み合い障壁を示す。 興味深いことに、エンタングルメントスペクトルは完全にカオスの場合では非自明である。 より高次の R'enyi エントロピーは、無限レプリカの極限において、自由かつ完全にカオスな障壁が同一であるような有理 CFT とますます類似した振る舞いをする(すなわち、min-エントロピー(min-entropy))。 また,mpssの結合寸法を増加させると,バリアが同じ形状を維持することも示している。 単に左にシフトして、大きな初期絡みを許容するだけである。

After quantum quenches in many-body systems, finite subsystems evolve non-trivially in time, eventually approaching a stationary state. In typical situations, the reduced density matrix of a given subsystem begins and ends this endeavour as a low-entangled vector in the space of operators. This means that if its operator space entanglement initially grows (which is generically the case), it must eventually decrease, describing a barrier-shaped curve. Understanding the shape of this "entanglement barrier" is interesting for three main reasons: (i) it quantifies the dynamics of entanglement in the (open) subsystem; (ii) it gives information on the approximability of the reduced density matrix by means of matrix product operators; (iii) it shows qualitative differences depending on the type of dynamics undergone by the system, signalling quantum chaos. Here we compute exactly the shape of the entanglement barriers described by different R\'enyi entropies after quantum quenches in dual-unitary circuits initialised in a class of solvable matrix product states (MPS)s. We show that, for free (SWAP-like) circuits, the entanglement entropy behaves as in rational CFTs. On the other hand, for completely chaotic dual-unitary circuits it behaves as in holographic CFTs, exhibiting a longer entanglement barrier that drops rapidly when the subsystem thermalises. Interestingly, the entanglement spectrum is non-trivial in the completely chaotic case. Higher R\'enyi entropies behave in an increasingly similar way to rational CFTs, such that the free and completely chaotic barriers are identical in the limit of infinite replicas (i.e. for the so called min-entropy). We also show that, upon increasing the bond dimension of the MPSs, the barrier maintains the same shape. It simply shifts to the left to accommodate for the larger initial entanglement.
翻訳日:2023-04-07 01:57:54 公開日:2021-11-15
# シミュレーションエコシステムの成長: シミュレーション開発のための透明でアクセシブルで拡張可能なデータパイプラインを提供するMesaデータの導入

Growing the Simulation Ecosystem: Introducing Mesa Data to Provide Transparent, Accessible and Extensible Data Pipelines for Simulation Development ( http://arxiv.org/abs/2104.02809v3 )

ライセンス: Link先を確認
Thomas Pike, Samantha Golden, Daniel Lowdermilk, Brandon Luong, Benjamin Rosado(参考訳) Agent Based Modelコミュニティは、モデリング者が厳格なシミュレーションを開発するのに役立つ、リッチで多様なライブラリ、プラットフォーム、アプリケーションのエコシステムを持っています。 この堅牢で多様なエコシステムにもかかわらず、微生物コミュニティからグローバルエコシステムへの生活の複雑さは、知識共有と再現性の能力を最適化できる再利用可能なコードを作成する上で大きな課題をまだ示している。 この研究は、研究者や実践者がデータ収集からバリデーションを通じて、透明でアクセスしやすく拡張可能なサブコンポーネントを通じて、より包括的なエコシステムのビジョンを提供することによって、これらの課題を緩和するための新しいツールを提供することを目指している。 このアプローチは、2つのデータパイプライン(crop yieldとsynthetic population)によって実証され、データのダウンロードからクリーニングと処理を経て、abmに統合可能なデータを持つまでユーザーを導く。 これらのパイプラインは透過的に構築されている: ユーザをステップバイステップで通過させることで、アクセス可能: スキルをスケーラブルにすることで、ユーザはコードやコードなしでそれらを活用でき、コミュニティ開発を容易にするために、githubのコーディング共有リポジトリで自由に利用できるように拡張できる。 複雑な現象をシミュレートするコードの再利用は大きな課題ですが、コミュニティの前進を支援するために一貫して対処する必要があります。 この研究は、すでに堅牢なエコシステムから拡張された潜在的な新しいツールを提供することによって、コミュニティがより効果的に内部的および規律にわたって協力することを支援することを目的としている。

The Agent Based Model community has a rich and diverse ecosystem of libraries, platforms, and applications to help modelers develop rigorous simulations. Despite this robust and diverse ecosystem, the complexity of life from microbial communities to the global ecosystem still presents substantial challenges in making reusable code that can optimize the ability of the knowledge-sharing and reproducibility. This research seeks to provide new tools to mitigate some of these challenges by offering a vision of a more holistic ecosystem that takes researchers and practitioners from the data collection through validation, with transparent, accessible, and extensible subcomponents. This proposed approach is demonstrated through two data pipelines (crop yield and synthetic population) that take users from data download through the cleaning and processing until users of have data that can be integrated into an ABM. These pipelines are built to be transparent: by walking users step by step through the process, accessible: by being skill scalable so users can leverage them without code or with code, and extensible by being freely available on the coding sharing repository GitHub to facilitate community development. Reusing code that simulates complex phenomena is a significant challenge but one that must be consistently addressed to help the community move forward. This research seeks to aid that progress by offering potential new tools extended from the already robust ecosystem to help the community collaborate more effectively internally and across disciplines.
翻訳日:2023-04-05 04:25:46 公開日:2021-11-15
# 混合状態と主化の不確かさ関係の実験実験

Experimental test of the majorization uncertainty relation with mixed states ( http://arxiv.org/abs/2104.02848v2 )

ライセンス: Link先を確認
Shuang Wang, Fang-Xia Meng, Hui Wang, Cong-Feng Qiao(参考訳) 不確実性関係は量子論の中心にあり、系内の非互換可観測性の非古典的制約として振る舞う。 文献では、主に純粋状態に焦点を当てた不確実性関係の検証に多くの実験が費やされてきた。 本研究では,混合度を調節可能な一連の混合状態を用いて3つの非互換可観測器の新たなメジャー化不確かさ関係を検証し,様々なエントロピー不確実性関係のコンパクト性を比較する。 実験の結果, 一般混合量子系では, メジャー化の不確かさ関係は不確かさに対する最も強い制約となりがちであり, メジャー化不確実性関係から得られるエントロピー不確実性関係が最適であることが示された。 我々の実験装置は混合状態を作成するための簡単な手段を提供しており、この単純な光学素子を用いて必要な量子状態を実現することができる。

The uncertainty relation lies at the heart of quantum theory and behaves as a non-classical constraint on the indeterminacies of incompatible observables in a system. In the literature, many experiments have been devoted to the test of the uncertainty relations which mainly focus on the pure states. In this work we test the novel majorization uncertainty relations of three incompatible observables using a series of mixed states with adjustable mixing degrees, and compare the compactness of various entropy uncertainty relations. The experimental results confirm that for general mixed quantum system, the majorization uncertainty relation tends to be the tightest constraint on uncertainty, and indicate that the entropy uncertainty relation obtained from the majorzation uncertainty relation is the optimal one. Our experimental setup provides an easy means for preparing mixed states, and based on this simple optical elements can be utilized to realize the required quantum states.
翻訳日:2023-04-05 02:38:53 公開日:2021-11-15
# エラー-プロセス相互作用によるクラスター状態の絡み合いの定量化

Quantifying Entanglement in Cluster States Built with Error-Prone Interactions ( http://arxiv.org/abs/2104.12775v2 )

ライセンス: Link先を確認
Zhangjie Qin, Woo-Ram Lee, Brian DeMarco, Bryce Gadway, Svetlana Kotochigova, V.W. Scarola(参考訳) 計測に基づく量子コンピューティングは、回路ベースのモデルに代わるパラダイムである。 このアプローチは、読み込みが高速で正確であるような特定のシナリオでは有利だが、粒子間相互作用によって実現される2量子ゲートは遅く、並列化することでクラスタ状態を効率的に生成することができる。 しかし、2ビットの誤差がアルゴリズムの精度にどのように影響するかを理解し、クラスタ状態の忠実さを特徴づける実験的アプローチを開発することは、大きな課題である。 ここでは,制御相,Ising,XY相互作用から構築された1次元クラスター状態と相互作用強度の遅い2ビット誤差を,様々なキュービットアーキテクチャで見られる相互作用の誤差モデルと整合的に考察する。 我々は、これらのエラーがクラスタ状態に与える影響を測る実験可能なテレポーテーションの忠実度について詳述する。 我々の忠実度計算は、この誤差が2ビットのエンタングゲートで使用される基礎的な相互作用によって明らかに異なる影響を持つことを示している。 特に、Ising と XY の相互作用は、大きなエラーがあってもクラスタ状態を通して完全なテレポーテーションを可能にするが、制御された位相相互作用は実現しない。 それでも、N$のクラスタ状態チェーンによるテレポーテーションは、N^{-1/2}$として減少する量子チャネルに沿ったテレポーテーションの最大2キュービット誤差を持つ。 より大きなクラスター状態の構築を可能にするため,低次再集光パルスの設計を行い,相互作用強度の低下を補正する。 本研究は, クラスター状態の高次元化を一般化し, クラスター状態の絡み合いの増大を観測する実験のステージを設定する。

Measurement-based quantum computing is an alternative paradigm to the circuit-based model. This approach can be advantageous in certain scenarios, such as when read-out is fast and accurate, but two-qubit gates realized via inter-particle interactions are slow and can be parallelized to efficiently create a cluster state. However, understanding how two-qubit errors impact algorithm accuracy and developing experimentally viable approaches to characterize cluster-state fidelity are outstanding challenges. Here, we consider one-dimensional cluster states built from controlled phase, Ising, and XY interactions with slow two-qubit error in the interaction strength, consistent with error models of interactions found in a variety of qubit architectures. We detail an experimentally viable teleportation fidelity that offers a measure of the impact of these errors on the cluster state. Our fidelity calculations show that the error has a distinctly different impact depending on the underlying interaction used for the two-qubit entangling gate. In particular, the Ising and XY interactions can allow perfect teleportation through the cluster state even with large errors, but the controlled phase interaction does not. Nonetheless, we find that teleportation through cluster state chains of size $N$ has a maximum two-qubit error for teleportation along a quantum channel that decreases as $N^{-1/2}$. To enable construction of larger cluster states, we design lowest-order refocusing pulses for correcting these slow errors in the interaction strength. Our work generalizes to higher-dimensional cluster states and sets the stage for experiments to monitor the growth of entanglement in cluster states built from error-prone interactions.
翻訳日:2023-04-02 08:53:29 公開日:2021-11-15
# 一般境界条件に対する磁場誘起磁気双極子相互作用

The field induced magnetic dipolar interaction for general boundary conditions ( http://arxiv.org/abs/2105.09573v2 )

ライセンス: Link先を確認
Sheng-Wen Li, Li-Ping Yang(参考訳) 双極子場の伝播ダイナミクスを適切に考慮し、2つの量子双極子間の完全な磁気双極子相互作用を求める。 マックスウェル方程式と対応するグリーン関数の助けにより、この結果は一般境界条件に適用され、常備双極子、共振子あるいは非共振子双極子の間のすべての相互作用項と、反回転相互作用項とを自然に統一する。 特に, 離散場モードを持つ矩形3次元キャビティにおける双極子相互作用について検討した。 2つのダイポールが互いに非常に近く、空洞の境界から遠く離れている場合、それらの相互作用は単に空洞間距離が空洞境界と場モード波長との距離と等しい場合、双極子像と近接共振共振共振器モードは自由空間相互作用に大きな変化をもたらす。 このアプローチは、他の種類の分野によって媒介される相互作用を研究する一般的な方法も提供する。

By properly considering the propagation dynamics of the dipole field, we obtain the full magnetic dipolar interaction between two quantum dipoles for general situations. With the help the Maxwell equation and the corresponding Green function, this result applies for general boundary conditions, and naturally unifies all the interaction terms between permanent dipoles, resonant or non-resonant transition dipoles, and even the counter-rotating interaction terms altogether. In particular, we study the dipolar interaction in a rectangular 3D cavity with discrete field modes. When the two dipoles are quite near to each other and far from the cavity boundary, their interaction simply returns the freespace result; when the distance between the two dipoles is comparable to their distance to the cavity boundary and the field mode wavelength, the dipole images and near-resonant cavity modes bring in significant changes to the freespace interaction. This approach also provides a general way to study the interaction mediated by other kinds of fields.
翻訳日:2023-03-30 07:27:25 公開日:2021-11-15
# 熱状態と時間発展のための局所的正確なテンソルネットワーク

Locally accurate tensor networks for thermal states and time evolution ( http://arxiv.org/abs/2106.00710v3 )

ライセンス: Link先を確認
\'Alvaro M. Alhambra and J. Ignacio Cirac(参考訳) テンソルネットワーク法は様々な平衡シナリオと非平衡シナリオの近似に常用され、アルゴリズムは十分低い時間または逆温度で小さな結合次元を必要とする。 これらのアプローチは、熱状態や時間発展に対する既存の近似が、系の大きさで成長する結合次元を要求するため、厳密な数学的正当性に欠けていた。 この問題に対処するために、すべての局所観測可能量に対して$i)$の熱予測値と$ii)$Heisenberg時間発展を近似するPEPOを構築する。 必要な結合寸法は、システムのサイズではなく、温度や時間にのみ依存する。 また,量子クエンチェにおける熱相関関数や期待値の近似にも利用できることを示した。

Tensor network methods are routinely used in approximating various equilibrium and non-equilibrium scenarios, with the algorithms requiring a small bond dimension at low enough time or inverse temperature. These approaches so far lacked a rigorous mathematical justification, since existing approximations to thermal states and time evolution demand a bond dimension growing with system size. To address this problem, we construct PEPOs that approximate, for all local observables, $i)$ their thermal expectation values and $ii)$ their Heisenberg time evolution. The bond dimension required does not depend on system size, but only on the temperature or time. We also show how these can be used to approximate thermal correlation functions and expectation values in quantum quenches.
翻訳日:2023-03-28 03:30:52 公開日:2021-11-15
# $\mathcal{pt}$対称性によって保護される例外的ノード位相の分類

Classification of Exceptional Nodal Topologies Protected by $\mathcal{PT}$ Symmetry ( http://arxiv.org/abs/2106.04582v3 )

ライセンス: Link先を確認
Marcus St{\aa}lhammar, Emil J. Bergholtz(参考訳) 固有値と固有ベクトルの両方が結合する例外的縮退と、フォトニック系の平衡利得と損失を反映したパリティ時間(\mathcal{pt}$)対称性は、非エルミート系において最も重要な概念である。 ここでは、最大3次元で$\mathcal{pt}$ 対称性によって保護される例外的節変性の位相的分類を完了し、例外的節位相が以前に見落とされた任意の属の二階結び目曲面、三階結び目、四階点などを含む簡単な例モデルを提供する。

Exceptional degeneracies, at which both eigenvalues and eigenvectors coalesce, and parity-time ($\mathcal{PT}$) symmetry, reflecting balanced gain and loss in photonic systems, are paramount concepts in non-Hermitian systems. We here complete the topological classification of exceptional nodal degeneracies protected by $\mathcal{PT}$ symmetry in up to three dimensions and provide simple example models whose exceptional nodal topologies include previously overlooked possibilities such as second-order knotted surfaces of arbitrary genus, third-order knots and fourth-order points.
翻訳日:2023-03-27 06:27:36 公開日:2021-11-15
# 衝突熱測定のためのベイズ推定

Bayesian estimation for collisional thermometry ( http://arxiv.org/abs/2106.12072v2 )

ライセンス: Link先を確認
Gabriel O. Alves, Gabriel T. Landi(参考訳) 量子温度測定はコヒーレントデバイスにおける高レベルの制御を利用して、温度推定の精度を高める。 これは具体的な見積もり戦略を構築する必要性を強調している。 特に重要なのは衝突温度測定であり、一連のアンシラがシステム温度を調べるためにシーケンシャルに送られる。 本稿では,ベイズ推定を用いた衝突温度測定の完全な枠組みについて述べる。 このアプローチは容易に実装でき、実験的にフレンドリーです。 さらに、クラーラオを常に長時間の制限で飽和させることが保証される。 システムの温度に関する先行情報についても議論し、Van Trees と Sch\'utzenberger に関連付けられた修正クレーマーラオ境界の観点から分析する。

Quantum thermometry exploits the high level of control in coherent devices to offer enhanced precision for temperature estimation. This highlights the need for constructing concrete estimation strategies. Of particular importance is collisional thermometry, where a series of ancillas are sent sequentially to probe the system's temperature. In this paper we put forth a complete framework for analyzing collisional thermometry using Bayesian inference. The approach is easily implementable and experimentally friendly. Moreover, it is guaranteed to always saturate the Cramer-Rao bound in the long-time limit. Subtleties concerning the prior information about the system's temperature are also discussed, and analyzed in terms of a modified Cramer-Rao bound associated to Van Trees and Sch\"utzenberger.
翻訳日:2023-03-25 20:34:18 公開日:2021-11-15
# セクター保存チャネルを用いた量子プロセスの普遍制御

Universal control of quantum processes using sector-preserving channels ( http://arxiv.org/abs/2106.12463v2 )

ライセンス: Link先を確認
Augustin Vanrietvelde, Giulio Chiribella(参考訳) 完全に未知のユニタリゲートをコヒーレントに制御されたバージョンに変換する量子回路はない。 しかし、未知のゲートのコヒーレントな制御は実験で実現され、異なるタイプの初期リソースを使用している。 本稿では,これらの実験によって達成された課題を定式化し,任意の雑音チャネルの制御に拡張し,高次元制御系を含むより一般的な制御に拡張する。 コヒーレント制御の標準的な概念として、$d$次元系の任意の量子チャネルを制御するための情報理論資源を同定する:具体的には、このリソースは$(d+1)$次元系の$d$次元セクター上の元のチャネルとして作用する拡張量子チャネルである。 このリソースを使うことで、任意の制御チャネルをユニバーサル回路アーキテクチャで構築することができる。 次に、制御の標準的な概念をより一般的な概念に拡張し、異なる入力および出力システムを持つ複数のチャネルの制御を含む。 最後に,拡張チャネル上で実行される操作としてコヒーレント制御をコンパクトに表現するsupermaps on routed channelと呼ばれる理論的枠組みを開発し,異なるセクタでの操作の動作を強調する。

No quantum circuit can turn a completely unknown unitary gate into its coherently controlled version. Yet, coherent control of unknown gates has been realised in experiments, making use of a different type of initial resources. Here, we formalise the task achieved by these experiments, extending it to the control of arbitrary noisy channels, and to more general types of control involving higher dimensional control systems. For the standard notion of coherent control, we identify the information-theoretic resource for controlling an arbitrary quantum channel on a $d$-dimensional system: specifically, the resource is an extended quantum channel acting as the original channel on a $d$-dimensional sector of a $(d+1)$-dimensional system. Using this resource, arbitrary controlled channels can be built with a universal circuit architecture. We then extend the standard notion of control to more general notions, including control of multiple channels with possibly different input and output systems. Finally, we develop a theoretical framework, called supermaps on routed channels, which provides a compact representation of coherent control as an operation performed on the extended channels, and highlights the way the operation acts on different sectors.
翻訳日:2023-03-25 18:30:53 公開日:2021-11-15
# 多パラメータ量子推定における漸近不和性尺度の特性について

On the properties of the asymptotic incompatibility measure in multiparameter quantum estimation ( http://arxiv.org/abs/2107.13426v2 )

ライセンス: Link先を確認
Alessandro Candeloro, Matteo G.A. Paris and Marco G. Genoni(参考訳) 我々は、多パラメータ量子統計モデルの量子性を評価するために、漸近不整合(AI)の使用に対処する。 最近導入されたAIは、ホレボとSLDスカラー境界の違いを定量化する尺度であり、モデルの対称対数微分(SLD)演算子のみを用いて評価することができる。 まず、2レベル(量子ビット)と1モードのガウス連続変数量子系を含む最も一般的な量子統計モデルのAIを解析的に評価し、AIが状態純度の単純な単調関数であることを証明した。 そこで,2<d \leq 4$と2<d \leq 4$の2次元量子系の場合と同様の問題を数値的に検討したところ,一般にAIは純粋性の関数ではないものの,最大AI量は$\mu_{\sf min} = 1/(d-1)$より大きい純度で特徴づけられる量子統計モデルに対してのみ達成可能であるという結論に達した。 さらに、qudit状態を熱(ギブス)状態としてパラメタ化することにより、ハミルトニアンのスペクトルが固定されると、ai測度は密度作用素の族を特徴づける架空の温度パラメータ$\beta$と1対1の対応にあることを数値的に示唆する。 最後に、ai測度の定義と性質を詳細に研究することで、次のことが分かる。 一 量子統計モデルにより、漸近的に複合するパラメータの最大数を容易に特定することができること。 二 量子統計モデルのAIは、元の未知のパラメータ(またはその関数)の1つ以上の固定によって定義できる任意のサブモデルのAI上から有界であり、ノイズのある量子力学を含むモデルのAIに潜在的に有用な境界をもたらす。

We address the use of asymptotic incompatibility (AI) to assess the quantumness of a multiparameter quantum statistical model. AI is a recently introduced measure which quantifies the difference between the Holevo and the SLD scalar bounds, and can be evaluated using only the symmetric logarithmic derivative (SLD) operators of the model. At first, we evaluate analytically the AI of the most general quantum statistical models involving two-level (qubit) and single-mode Gaussian continuous-variable quantum systems, and prove that AI is a simple monotonous function of the state purity. Then, we numerically investigate the same problem for qudits ($d$-dimensional quantum systems, with $2 < d \leq 4$), showing that, while in general AI is not in general a function of purity, we have enough numerical evidence to conclude that the maximum amount of AI is attainable only for quantum statistical models characterized by a purity larger than $\mu_{\sf min} = 1/(d-1)$. In addition, by parametrizing qudit states as thermal (Gibbs) states, numerical results suggest that, once the spectrum of the Hamiltonian is fixed, the AI measure is in one-to-one correspondence with the fictitious temperature parameter $\beta$ characterizing the family of density operators. Finally, by studying in detail the definition and properties of the AI measure we find that: i) given a quantum statistical model, one can readily identify the maximum number of asymptotically compatibile parameters; ii) the AI of a quantum statistical model bounds from above the AI of any sub-model that can be defined by fixing one or more of the original unknown parameters (or functions thereof), leading to possibly useful bounds on the AI of models involving noisy quantum dynamics.
翻訳日:2023-03-20 17:01:58 公開日:2021-11-15
# 強相互作用系における非マルコフ力学に対する多体量子状態拡散

Many-body quantum state diffusion for non-Markovian dynamics in strongly interacting systems ( http://arxiv.org/abs/2108.06224v2 )

ライセンス: Link先を確認
Stuart Flannigan and Fran\c{c}ois Damanet and Andrew J. Daley(参考訳) 開量子系の非マルコフ力学を捉えることは一般に、特に強相互作用する多体系において難しい問題である。 本研究では,最近開発された非マルコフ量子状態拡散法とテンソルネットワーク法を組み合わせてこの問題に対処する。 最初の例として,1次元多体系における非マルコフ散逸の存在下での相関関係の定量的評価が可能な,散逸型フォノンモードを持つハバード・ホルシュタインモデルについて検討する。 これらの効果により相関成長が促進できるレジームを見いだし、固体および低温原子実験に関係する輸送と相関拡散を散逸的に促進するための新しい経路を提供する。

Capturing non-Markovian dynamics of open quantum systems is generally a challenging problem, especially for strongly-interacting many-body systems. In this work, we combine recently developed non-Markovian quantum state diffusion techniques with tensor network methods to address this challenge. As a first example, we explore a Hubbard-Holstein model with dissipative phonon modes, where this new approach allows us to quantitatively assess how correlations spread in the presence of non-Markovian dissipation in a 1D many-body system. We find regimes where correlation growth can be enhanced by these effects, offering new routes for dissipatively enhancing transport and correlation spreading, relevant for both solid state and cold atom experiments.
翻訳日:2023-03-18 14:56:22 公開日:2021-11-15
# 加熱境界を持つ拡張系の熱化ダイナミクスとスペクトル統計

Thermalisation Dynamics and Spectral Statistics of Extended Systems with Thermalising Boundaries ( http://arxiv.org/abs/2108.07742v2 )

ライセンス: Link先を確認
Pavel Kos, Tomaz Prosen, Bruno Bertini(参考訳) 熱処理型マルコフ浴に接続した拡張系の熱化とスペクトル特性について検討した。 具体的には,回路の有限部分(ブロック)が任意の局所的なユニタリゲートによって構成され,その補体がバスの役割を担っているような,ブリックワーク量子回路で周期的にモデル化されるシステムを考える。 局所観測器とスペクトル形成因子の進化は、系の力学とスペクトル特性を特徴づけるために用いられる同じ量子チャネルによって決定されることを示す。 特に、この制御された設定でも熱することができない微調整量子回路(強非エルゴードと呼ぶ)の族を同定し、したがってそれらのスペクトル形状因子はランダム行列理論の予測に従わない。 我々は、局所量子ゲート上に必要な条件のセットを提供し、強い非エルゴード性をもたらし、量子ビットの場合、強い非エルゴード回路の完全な分類を提供する。 また、ほぼ2元単位の回路、すなわち熱化が最速の速度で起こる回路の反対の極値についても検討する。 これらのシステムでは, 局所観測値とスペクトル形状因子のそれぞれが熱値とランダム行列理論を指数関数的に高速に予測できることが示されている。 本稿では,熱力学の摂動特性,特に熱化の時間スケールについて述べる。

We study thermalisation and spectral properties of extended systems connected, through their boundaries, to a thermalising Markovian bath. Specifically, we consider periodically driven systems modelled by brickwork quantum circuits where a finite section (block) of the circuit is constituted by arbitrary local unitary gates while its complement, which plays the role of the bath, is dual-unitary. We show that the evolution of local observables and the spectral form factor are determined by the same quantum channel, which we use to characterise the system's dynamics and spectral properties. In particular, we identify a family of fine-tuned quantum circuits -- which we call strongly non-ergodic -- that fails to thermalise even in this controlled setting, and, accordingly, their spectral form factor does not follow the random matrix theory prediction. We provide a set of necessary conditions on the local quantum gates that lead to strong non-ergodicity, and in the case of qubits, we provide a complete classification of strongly non-ergodic circuits. We also study the opposite extreme case of circuits that are almost dual-unitary, i.e., where thermalisation occurs with the fastest possible rate. We show that, in these systems, local observables and spectral form factor approach respectively thermal values and random matrix theory prediction exponentially fast. We provide a perturbative characterisation of the dynamics and, in particular, of the time-scale for thermalisation.
翻訳日:2023-03-18 05:24:37 公開日:2021-11-15
# マヨラナ星との非エルミートスタブ格子のバルク境界対応のイルミネーション

Illuminating the bulk-boundary correspondence of a non-Hermitian stub lattice with Majorana stars ( http://arxiv.org/abs/2108.12372v2 )

ライセンス: Link先を確認
James Bartlett, Haiping Hu, Erhai Zhao(参考訳) 非エルミートバンド構造の位相的特徴付けは、単純ヘルミートケースの一般化以上のものを要求する。 非相互ホッピングを持つ一次元強結合モデルであっても、点ギャップの出現と皮膚効果は通常のバルク境界対応の崩壊につながる。 幸いにも、この対応は、任意のバンド数とカイラル対称性を持つ系に対して一般化されたブリルアンゾーンに対する巻数を導入することで復活することができる。 ここでは、3つのバンドのうちの1つが平坦なスタブ格子上の非相互ホッピングモデルの位相位相を解析する。 キラル対称性の欠如により、生物直交ザック相はもはや量子化されず、曲がり角をトポロジカル指数として無効化する。 代わりに、$Z_2$不変量は、ブロッホ球面上の固有状態のマヨラナの恒星表現から定義されることを示す。 マヨラナ座全体の全方位巻線のパリティは、バルクギャップ間のエッジ状態の出現を正確に予測する。 さらに,親ハミルトニアンが対角化され,ソートゥース格子モデルと関連しているにもかかわらず,この系は正方根位相絶縁体ではないことを示す。 ここで示される解析は、複数のバンドを持つ他の非エルミート系を理解するために一般化される。

Topological characterization of non-Hermitian band structures demands more than a straightforward generalization of the Hermitian cases. Even for one-dimensional tight-binding models with nonreciprocal hopping, the appearance of point gaps and the skin effect leads to the breakdown of the usual bulk-boundary correspondence. Luckily, the correspondence can be resurrected by introducing a winding number for the generalized Brillouin zone for systems with even number of bands and chiral symmetry. Here, we analyze the topological phases of a nonreciprocal hopping model on the stub lattice, where one of the three bands remains flat. Due to the lack of chiral symmetry, the biorthogonal Zak phase is no longer quantized, invalidating the winding number as a topological index. Instead, we show that a $Z_2$ invariant can be defined from Majorana's stellar representation of the eigenstates on the Bloch sphere. The parity of the total azimuthal winding of the entire Majorana constellation correctly predicts the appearance of edge states between the bulk gaps. We further show that the system is not a square-root topological insulator, despite the fact that its parent Hamiltonian can be block diagonalized and related to a sawtooth lattice model. The analysis presented here may be generalized to understand other non-Hermitian systems with multiple bands.
翻訳日:2023-03-17 01:03:01 公開日:2021-11-15
# 散逸可能な共振型断熱量子状態伝達:絡み合い生成と量子クローニング

Dissipation-enabled resonant adiabatic quantum state transfer: Entanglement generation and quantum cloning ( http://arxiv.org/abs/2108.13524v2 )

ライセンス: Link先を確認
Marvin Gajewski, Thorsten Haase and Gernot Alber(参考訳) 単一光子波パケットと量子エミッタの偏極度の自由度間の共振散逸可能な断熱量子状態伝達過程について論じる。 これらの研究は、自然発生光子波パケットの特性と非断熱補正を考慮し、以前の研究(N. Trautmann and G. Alber, Phys. A 93, 053807 (2015))を一般化した。 これらの断熱的な1光子量子状態移動過程の光度自由度は、2つの物質量子エミッタのベル状態の受動的、隠蔽的、決定論的準備に利用でき、対称および非対称量子クローニングプロセスの大きなファミリーを実現することができる。 これらの理論的研究は導波路のシナリオに焦点を絞っているが、関連するプロセスが断熱的である限り、関連する光子波パケットのフーリエ帯域幅が関連する散逸率と比較して小さいことが期待される。

Resonant dissipation-enabled adiabatic quantum state transfer processes between the polarization degrees of freedom of a single photon wave packet and quantum emitters are discussed. These investigations generalize previous work [N. Trautmann and G. Alber, Phys. Rev. A 93, 053807 (2015)] by taking into account the properties of the spontaneously emitted photon wave packet and of non adiabatic corrections. It is demonstrated that the photonic degrees of freedoms of these adiabatic one-photon quantum state transfer processes can be used for the passive, heralded and deterministic preparation of Bell states of two material quantum emitters and for realizing a large family of symmetric and asymmetric quantum cloning processes. Although these theoretical investigations concentrate on waveguide scenarios they are expected to be relevant also for other scenarios as long as the processes involved are adiabatic so that the Fourier-limited bandwidth of the single photon wave packet involved is small in comparison with the relevant dissipative rates.
翻訳日:2023-03-16 18:54:21 公開日:2021-11-15
# 分子内振動エネルギー再分配によるキャビティ修飾一分子解離反応

Cavity-modified unimolecular dissociation reactions via intramolecular vibrational energy redistribution ( http://arxiv.org/abs/2109.06631v2 )

ライセンス: Link先を確認
Derek S Wang and Tom\'a\v{s} Neuman and Susanne F Yelin and Johannes Flick(参考訳) 振動ポラリトン化学の新たな分野は、従来の合成化学の限界を克服する可能性を秘めているが、そのメカニズムはまだよく分かっていない。 本稿では, 分子内振動エネルギー再分配(ivr)により速度制限された一分子解離反応の動力学を赤外光共振器内でどのように変化させるかを検討する。 屈曲三原子分子の古典モデルについて検討し, 2つの外原子は調和曲げモードに結合した中心原子に非調和モースポテンシャルで結合する。 特定の無調和振動モードに共鳴結合した光キャビティは、キャビティモードが振動エネルギーの貯水池として働くとき、ivrに干渉し、一分子解離反応速度を変えることができる。 キャビティと分子の初期状態に強く依存していることが分かる。 特に、空洞が空である場合、解離速度は減少するが、最初に空洞が分子よりも高温である場合、その代わりに、空洞は反応速度を加速することができる。 これらの結果は、IVRの文脈における振動分極化学の興味深い実験結果を理解するためのさらなる理論的研究の基礎となった。

While the emerging field of vibrational polariton chemistry has the potential to overcome traditional limitations of synthetic chemistry, the underlying mechanism is not yet well understood. Here, we explore how the dynamics of unimolecular dissociation reactions that are rate-limited by intramolecular vibrational energy redistribution (IVR) can be modified inside an infrared optical cavity. We study a classical model of a bent triatomic molecule, where the two outer atoms are bound by anharmonic Morse potentials to the center atom coupled to a harmonic bending mode. We show that an optical cavity resonantly coupled to particular anharmonic vibrational modes can interfere with IVR and alter unimolecular dissociation reaction rates when the cavity mode acts as a reservoir for vibrational energy. We find a strong dependence on the initial state of the cavity and molecule. In particular, when the cavity is initially empty, the dissociation rate decreases, while when the cavity is initially hotter than the molecule, the cavity can instead accelerate the reaction rate. These results lay the foundation for further theoretical work toward understanding the intriguing experimental results of vibrational polaritonic chemistry within the context of IVR.
翻訳日:2023-03-15 17:57:03 公開日:2021-11-15
# 位相マッチングによる光学系におけるデコヒーレンス低減を伴う単光子トリガースピンスクイージング

Single-photon-triggered spin squeezing with decoherence reduction in optomechanics via phase matching ( http://arxiv.org/abs/2109.05692v2 )

ライセンス: Link先を確認
Zhucheng Zhang, Lei Shao, Wangjun Lu, Yuguo Su, Yi-Ping Wang, Jing Liu, and Xiaoguang Wang(参考訳) 量子スピンスクイージングは量子情報処理の重要な資源であるが、そのスクイージング度はデコヒーレンスを持つオープンシステムでは保存が容易ではない。 本稿では,オープンシステムにおけるデコヒーレンス低減を伴う単一光子トリガースピンスクイーズの実現手法を提案する。 本システムでは,2次光学系にディックモデル(DM)を導入し,光子数によって操作される有効DMと等価であることを示す。 また、オプトメカニカルシステムのフォノンモードを、位相整合により圧縮真空貯槽に結合することにより、環境によって生じる熱雑音を完全に抑制することができる。 単一の光子によって引き起こされるフォノンモードのスクイーズがスピンアンサンブルに完全に移行できることを示し、スピンアンサンブルの対角絡みがスピンアンサンブルが存在する場合にのみ実現可能であることを示す。 重要なことは,環境の影響を考慮すると,従来のDMで実現可能な最適のスクイーズよりも,より優れたスクイーズ度が得られるということだ。 一方、我々のシステムで発生するスピンスクイーズは、熱雑音に免疫がある。 この研究は、単一光子でスピンスクイーズを生成し、量子情報処理に有望な応用が期待できるオープンシステムにおけるデコヒーレンスを低減する効果的な方法を提供する。

Quantum spin squeezing is an important resource for quantum information processing, but its squeezing degree is not easy to preserve in an open system with decoherence. Here, we propose a scheme to implement single-photon-triggered spin squeezing with decoherence reduction in an open system. In our system, a Dicke model (DM) is introduced into the quadratic optomechanics, which can be equivalent to an effective DM manipulated by the photon number. Besides, the phonon mode of the optomechanical system is coupled to a squeezed vacuum reservoir with a phase matching, resulting in that the thermal noise caused by the environment can be suppressed completely. We show that squeezing of the phonon mode triggered by a single photon can be transferred to the spin ensemble totally, and pairwise entanglement of the spin ensemble can be realized if and only if there is spin squeezing. Importantly, when considering the impact of the environment, our system can obtain a better squeezing degree than the optimal squeezing that can be achieved in the traditional DM. Meanwhile, the spin squeezing generated in our system is immune to the thermal noise. This work offers an effective way to generate spin squeezing with a single photon and to reduce decoherence in an open system, which will have promising applications in quantum information processing.
翻訳日:2023-03-15 05:28:04 公開日:2021-11-15
# 分離バルーン非アベリア界面チャネル

Isolated Ballistic Non-Abelian Interface Channel ( http://arxiv.org/abs/2109.11205v2 )

ライセンス: Link先を確認
Bivas Dutta, Vladimir Umansky, Mitali Banerjee, and Moty Heiblum(参考訳) 非アーベル異性体は、その長距離絡み合いによるフォールトトレラントトポロジカル量子計算の予測候補である。 事実、これらの準粒子は電荷ニュートラルであり、そのためほとんどの従来の測定技術に当てはまる。 そのような準粒子のホストは$\nu$=5/2量子ホール状態である。 ギャップのないエッジモードは状態の位相次数を与えることができ、それによって非可換モードのキラリティを識別できる。 $\nu$=5/2状態は、様々なエッジモード(整数、分数、中立)をホストするので、元の非アーベル文字を保持しながら分数チャネルを分離する堅牢な技術が必要である。 さらに、単一の非可換チャネルを容易に操作して干渉することができるため、デコヒーレンスに対する国家の免疫が明らかにされる。 本研究では,$\nu$=2 と $\nu$=3 (1) の整数状態とを交叉することにより,$\nu$=5/2 状態の整数モードをギャップアウトする新しい手法を利用する。 分離された界面チャネルの電気伝導度は0.5e$^2$/hであった。 さらに重要なことに、0.5$\kappa_0$t($\kappa_0$=$\pi^2k_b^2$/3h)の熱伝導性が、$\nu$=1/2界面チャネルの非可換な性質とその粒子ホールパフィアン位相秩序を曖昧に確認している。 以上の結果から,他の異種QHE状態を操作および試験するための新たな経路が開かれ,干渉により分離された分節チャネルが形成される。

Non-abelian anyons are prospective candidates for fault-tolerant topological quantum computation due to their long-range entanglement. Curiously these quasiparticles are charge-neutral, hence elusive to most conventional measurement techniques. A proposed host of such quasiparticles is the $\nu$=5/2 quantum Hall state. The gapless edge modes can provide the topological order of the state, which in turn identifies the chirality of the non-abelian mode. Since the $\nu$=5/2 state hosts a variety of edge modes (integer, fractional, neutral), a robust technique is needed to isolate the fractional channel while retaining its original non-abelian character. Moreover, a single non-abelian channel can be easily manipulated to interfere, thus revealing the state's immunity to decoherence. In this work, we exploit a novel approach to gap-out the integer modes of the $\nu$=5/2 state by interfacing the state with integer states, $\nu$=2 & $\nu$=3 (1). The electrical conductance of the isolated interface channel was 0.5e$^2$/h, as expected. More importantly, we find a thermal conductance of 0.5$\kappa_0$T (with $\kappa_0$=$\pi^2k_B^2$/3h), confirming unambiguously the non-abelian nature of the $\nu$=1/2 interface channel and its Particle-Hole Pfaffian topological order. Our result opens new avenues to manipulate and test other exotic QHE states and braid, via interference, the isolated fractional channels.
翻訳日:2023-03-13 23:11:18 公開日:2021-11-15
# 分散媒質中のオプトマノニクス:エプシロン近傍の周波数におけるマグノン-光子カップリングの増強

Optomagnonics in dispersive media: magnon-photon coupling enhancement at the epsilon-near-zero frequency ( http://arxiv.org/abs/2110.02984v2 )

ライセンス: Link先を確認
V. A. S. V. Bittencourt and I. Liberal and S. Viola Kusminskiy(参考訳) 固体系における強力な光物質結合は、スケーラブルな量子デバイスの実装のために長い間追求されてきた。 ここでは、磁気励起(マグノン)と光との強い結合をエプシロン近傍ゼロ媒質、すなわち誘電率が0に近い媒体で実現できるプラットフォームの概念を提唱する。 分散磁性体内部の電磁場を定量化する現象論的手法を採用し、光子とマグノンの相互作用と周波数依存結合を記述するハミルトン式を得る。 エプシロン-近ゼロ系では、単一マグノン光子光子結合は、小さな磁気体積に対して均一なマグノンの周波数に匹敵する可能性があると予測する。 最先端の図示的な値の場合、これは全ての崩壊率よりも結合率が大きい単マグノン強結合レジームを達成することに相当する。 最後に、このカップリングレジームに固有の非線形エネルギースペクトルは、光子パワースペクトルの特徴的な多重マグノンサイドバンドを介して観測できることを示した。

Reaching strong light-matter coupling in solid-state systems has been long pursued for the implementation of scalable quantum devices. Here, we put forward the concept of a platform capable of achieving strong coupling between magnetic excitations (magnons) and optics based in an epsilon-near-zero medium, that's it, a medium in which the permittivity is close to zero. We adopt a phenomenological approach to quantize the electromagnetic field inside a dispersive magnetic medium and obtain a Hamiltonian describing the interaction between photons and magnons and the frequency-dependent coupling. We predict that, in the epsilon-near-zero regime, the single-magnon photon optomagnonic coupling can be comparable to the uniform magnon's frequency for small magnetic volumes. For state-of-the-art illustrative values, this would correspond to achieving the single-magnon strong coupling regime, where the coupling rate is larger than all the decay rates. Finally, we show that the non-linear energy spectrum intrinsic to this coupling regime regime can be probed via the characteristic multiple magnon sidebands in the photon power spectrum.
翻訳日:2023-03-12 08:01:42 公開日:2021-11-15
# ボゾン作用素およびフェルミオン作用素に対するウィック一般定理

General Wick's Theorem for bosonic and fermionic operators ( http://arxiv.org/abs/2110.02920v2 )

ライセンス: Link先を確認
L. Ferialdi, L. Di\'osi(参考訳) ウィックの定理は、ボゾン場やフェルミオン場の時間順序積とその通常の順序積の間の接続を与える。 作用素順序の一般対を考えると、それらの関係する定理を帰納的に証明する。 これを General Wick's Theorem (GWT) と呼ぶのは、GWT を時間と通常の順序付けに適用する場合に、Wick の定理を特別な例として持つからである。 我々は、ボゾン作用素とフェルミオン作用素、すなわちそれぞれ c-数可換および反可換関係を満たす作用素に対してGWTを確立する。 GWTは、関連するオペレータのタイプとは独立して、同じであることを示す。 いくつかの例によって、GWTは必要な計算量を減らすことで、要求される問題を処理するのにどのように役立つかを示します。

Wick's theorem provides a connection between time ordered products of bosonic or fermionic fields, and their normal ordered counterparts. We consider a generic pair of operator orderings and we prove, by induction, the theorem that relates them. We name this the General Wick's Theorem (GWT) because it carries Wick's theorem as special instance, when one applies the GWT to time and normal orderings. We establish the GWT both for bosonic and fermionic operators, i.e. operators that satisfy c-number commutation and anticommutation relations respectively. We remarkably show that the GWT is the same, independently from the type of operator involved. By means of a few examples, we show how the GWT helps treating demanding problems by reducing the amount of calculations required.
翻訳日:2023-03-12 07:59:34 公開日:2021-11-15
# 量子ゲートの普遍性と会員問題について

On the Universality and Membership problems for quantum gates ( http://arxiv.org/abs/2110.04210v2 )

ライセンス: Link先を確認
Lorenzo Mattioli and Adam Sawicki(参考訳) 有限個の量子ゲートからなるゲート集合に対する普遍性と会員問題について検討する。 我々のアプローチはコンパクトリー群理論の技法に依存している。 また、サブグループ普遍性問題(Subgroup Universality Problem)という補助的問題を導入し、メンバーシップ問題の一部の解決を支援し、それ自身で関心を持つことができる。 得られた定理は、主に与えられた量子ゲートの集合の集中化子と随伴表現の観点で定式化される。

We study the Universality and Membership Problems for gate sets consisting of a finite number of quantum gates. Our approach relies on the techniques from compact Lie groups theory. We also introduce an auxiliary problem called Subgroup Universality Problem, which helps in solving some instances of the Membership Problem, and can be of interest on its own. The resulting theorems are mainly formulated in terms of centralizers and the adjoint representations of a given set of quantum gates.
翻訳日:2023-03-12 00:54:14 公開日:2021-11-15
# 9ビット誤り訂正符号の新しい構成法

New construction of nine-qubit error-correcting code ( http://arxiv.org/abs/2110.05130v4 )

ライセンス: Link先を確認
Long Huang, and Xiaohua Wu(参考訳) 2つの新しい9ビット符号と1つの新しい3ビット符号を導入する9ビット誤り訂正符号を新たに構築した。 新しい2つの9量子ビット符号は、9量子ビットショア符号とは対照的に、通常の論理演算子を持つため、3つの符号が連結量子誤り訂正に適用された場合、異なる性能が得られる。 一方、2つの9量子ビット符号のうちの1つは9量子ビットショア符号と同じ安定化器発生器を持ち、これらはハイウェイトビットフリップ雑音に対してより適しており、他方の符号はハイウェイト位相フリップ雑音に対してより適した異なる安定化器発生器を有する。 この研究は、量子誤り訂正符号の構築を啓蒙し、量子エラー訂正の性能を最適化するためのオプションを追加している。

We report new construction of nine-qubit error-correcting code, which introduces two new nine-qubit codes and one new three-qubit code. Because both the new two nine-qubit codes have the normal logical operators, as opposed to the nine-qubit Shor code, it results in different performance when the three codes are applied in concatenated quantum error-correction. On the other hand, one of the two nine-qubit codes has the same stabilizer generators as the nine-qubit Shor code, they are more suitable for the high-wight bit-flip noise, and the other code has the different stabilizer generators, which is more suitable for the high-wight phase-flip noise. This work is enlightening to the construction of quantum error-correcting codes, and adds more options for optimizing the performance of quantum error-correction.
翻訳日:2023-03-11 19:28:06 公開日:2021-11-15
# 位相推定によるKスパース純状態トモグラフィ

K-sparse Pure State Tomography with Phase Estimation ( http://arxiv.org/abs/2111.04359v2 )

ライセンス: Link先を確認
Burhan Gulbahar(参考訳) 純状態再構築のための量子状態トモグラフィ(QST)は、最先端の量子圧縮センシング(CS)法を用いて、キュービット数で資源と測定を指数関数的に増加させる必要がある。 本稿では、特定の測定セットにおける$n$ qubitsの異なる計算基底状態、すなわち$K$-sparseの重ね合わせからなる任意の純粋な状態に対するQST再構成を、特別な設計のユニタリ作用素の指数関数的に大きなパワーを実装するために多項式サイズ量子回路の存在を仮定した仮定に基づいて、初期知識やリソースの量子多項式時間複雑性なしで達成する。 このアルゴリズムは、確率$\vert c_{k}\vert^2$、重ね合わせにおける最小基底状態の確率$\vert c_{k}\vert^2$、および$\mathcal{O}(d \, K \,(log K)^c)$、定数$c$と$d$に依存しながらキュービット数に依存しない従来の量子CSアルゴリズムによる測定設定を含む。 量子位相推定アルゴリズムは、任意の純状態を固有ベクトルの重ね合わせとして表現するために設計された演算子の好適な固有構造に基づく。 ビームスプリッタと位相シフタを含む特別なユニタリ演算子を実現するために、単一光子の伝搬経路をどのパス検出器で追跡するかを示す。 量子回路の実装は、CNOT、位相シフト器、および$- \pi \, / \, 2$回転ゲートのみを用いて、ブロッホ球のX軸付近、すなわち$R_{X}(- \pi \, / \, 2)$を用いて、NISQデバイスで実現できるようにする。 ユニタリ演算子の存在とその回路実装に関するオープン問題について議論する。

Quantum state tomography (QST) for reconstructing pure states requires exponentially increasing resources and measurements with the number of qubits by using state-of-the-art quantum compressive sensing (CS) methods. In this article, QST reconstruction for any pure state composed of the superposition of $K$ different computational basis states of $n$ qubits in a specific measurement set-up, i.e., denoted as $K$-sparse, is achieved without any initial knowledge and with quantum polynomial-time complexity of resources based on the assumption of the existence of polynomial size quantum circuits for implementing exponentially large powers of a specially designed unitary operator. The algorithm includes $\mathcal{O}(2 \, / \, \vert c_{k}\vert^2)$ repetitions of conventional phase estimation algorithm depending on the probability $\vert c_{k}\vert^2$ of the least possible basis state in the superposition and $\mathcal{O}(d \, K \,(log K)^c)$ measurement settings with conventional quantum CS algorithms independent from the number of qubits while dependent on $K$ for constant $c$ and $d$. Quantum phase estimation algorithm is exploited based on the favorable eigenstructure of the designed operator to represent any pure state as a superposition of eigenvectors. Linear optical set-up is presented for realizing the special unitary operator which includes beam splitters and phase shifters where propagation paths of single photon are tracked with which-path-detectors. Quantum circuit implementation is provided by using only CNOT, phase shifter and $- \pi \, / \, 2$ rotation gates around X-axis in Bloch sphere, i.e., $R_{X}(- \pi \, / \, 2)$, allowing to be realized in NISQ devices. Open problems are discussed regarding the existence of the unitary operator and its practical circuit implementation.
翻訳日:2023-03-08 20:32:00 公開日:2021-11-15
# フォトニックグラフ状態の実験的自己テスト

Experimental self-testing for photonic graph states ( http://arxiv.org/abs/2111.07562v1 )

ライセンス: Link先を確認
Jia-Min Xu, Qing Zhou, Yu-Xiang Yang, Zi-Mo Cheng, Xin-Yu Xu, Zhi-Cheng Ren, Xi-Lin Wang, Hui-Tian Wang(参考訳) グラフ状態 -- マルチパーティの絡み合った状態の最も代表的なファミリーの1つは、マルチパーティの量子通信、量子エラー補正、量子計算のための重要なリソースである。 高度に絡み合ったグラフ状態のデバイスに依存しない認証は、量子情報処理タスクにおいて重要な役割を果たす。 本稿では,スケーラブルベル不等式に基づくロバストな自己テスト方式を採用することにより,多成分グラフ状態に対するデバイス非依存認証を実験的に実証した。 具体的には、準備されたマルチ量子ビットグリーンバーガー・ホーン・サイーリンガー(ghz)状態と線形クラスター状態は、ロバストな自己テストスキームの非自明な境界を超えた高いベル違反を達成する。 さらに、我々の研究は、複雑な多部量子状態のデバイスに依存しない認証への道を開いた。

Graph states -- one of the most representative families of multipartite entangled states, are important resources for multiparty quantum communication, quantum error correction, and quantum computation. Device-independent certification of highly entangled graph states plays a prominent role in the quantum information processing tasks. Here we have experimentally demonstrated device-independent certification for multipartite graph states, by adopting the robust self-testing scheme based on scalable Bell inequalities. Specifically, the prepared multi-qubit Greenberger-Horne-Zeilinger (GHZ) states and linear cluster states achieve a high degree of Bell violation, which are beyond the nontrivial bounds of the robust self-testing scheme. Furthermore, our work paves the way to the device-independent certification of complex multipartite quantum states.
翻訳日:2023-03-08 02:33:09 公開日:2021-11-15
# 位相空間における共役量子古典ハミルトン変分原理

Joint quantum-classical Hamilton variation principle in the phase space ( http://arxiv.org/abs/2111.07554v1 )

ライセンス: Link先を確認
Dmitry V. Zhdanov and Denys I. Bondar(参考訳) 閉量子系の力学はハミルトン変分原理に従うことを示した。 量子粒子はよく定義された軌道を持たないが、フシミ表現におけるそれらの進化は位相空間における多次元確率流体の流れとして扱うことができる。 古典的なフジミ表現をクープマン・ヴォン・ノイマン理論に類似した形で導入することにより、古典力学と量子力学の定式化を大きく統一することができる。 古典的および量子的フシミ流体の基本的なパーセルの運動がハミルトン変分原理に従うことを証明し、関連する作用函数の違いは古典的および量子純粋状態の違いに起因する。 フシミ作用函数は一意ではなく、スコーデフラックスゲージの固定 [R. T. Skodje et al. Phys. Rev. A 40, 2894 (1989)] まで定義されている。 ゲージ選択がフラックス軌跡を劇的に変化させることができることを示す。 半古典近似の構築とハイブリッド古典量子論への提示理論の適用について論じる。

We show that the dynamics of a closed quantum system obeys the Hamilton variation principle. Even though quantum particles lack well-defined trajectories, their evolution in the Husimi representation can be treated as a flow of multidimensional probability fluid in the phase space. By introducing the classical counterpart of the Husimi representation in a close analogy to the Koopman-von Neumann theory, one can largely unify the formulations of classical and quantum dynamics. We prove that the motions of elementary parcels of both classical and quantum Husimi fluid obey the Hamilton variational principle, and the differences between associated action functionals stem from the differences between classical and quantum pure states. The Husimi action functionals are not unique and defined up to the Skodje flux gauge fixing [R. T. Skodje et al. Phys. Rev. A 40, 2894 (1989)]. We demonstrate that the gauge choice can dramatically alter flux trajectories. Applications of the presented theory for constructing semiclassical approximations and hybrid classical-quantum theories are discussed.
翻訳日:2023-03-08 02:32:25 公開日:2021-11-15
# 混合状態における量子ビット対の絡み合いを超えて

Beyond the entanglement of qubit pair in a mixed state ( http://arxiv.org/abs/2111.07833v1 )

ライセンス: Link先を確認
S. Shelly Sharma and Naresh K. Sharma(参考訳) 2レベル粒子(量子ビット)からなる多部量子系が与えられると、全てのサブシステムにアクセスできるか、アクセスできない。 もし一度に2量子ビットにしかアクセスできないなら、マルチ量子ビットシステムの絡み合いと2角を超える残差相関について何が分かるだろうか? 2-量子状態の代数的解析は、N-量子状態のサブシステム間の絡み合いの分布と、状態が多部絡み合いを持つかどうかを決定するための基準に一夫一婦制の制約を与える。 モノガミー制約(英: Monogamy constraints)は、N-qubit純状態の1-tangle、2-tangle、3-tangleなどのよく知られた絡み合い尺度の間の関係である。

Given a multipartite quantum system that consists of two-level particles (qubits), one may or may not have access to all the subsystems. What can we know about the entanglement of the multiqubit system and residual correlations beyond two-tangle if we have access only to two-qubits at a time? Algebraic analysis of two-qubit states yields monogamy constraints on distribution of entanglement between sub-systems of an N-qubit state and criterion to determine if the state has multipartite entanglement. Monogamy constraints, reported in this letter, are relations between well known entanglement measures such as one-tangle, two-tangles and three-tangles of an N-qubit pure state.
翻訳日:2023-03-08 02:27:43 公開日:2021-11-15
# 横磁場における2重スピンチェーン系における位相図とポストクエンチダイナミクス

Phase diagram and post-quench dynamics in a double spin-chain system in transverse fields ( http://arxiv.org/abs/2111.07831v1 )

ライセンス: Link先を確認
Abhishek Agarwal, Michael Hughes, Jordi Mur-Petit(参考訳) 2つの異なる双極子xxzモデルを横方向の場に結合して、おもちゃのマルチフェロティックモデルの物理学を提唱し、探究する。 まず,密度行列再正規化群法を用いて,モデルのリッチな基底状態相図を決定する。 次に,時間発展型ブロックデシメーションアルゴリズムを用いて,大域的および局所的クエンチ後のシステムのダイナミクスを探索する。 大域的クエンチの後、システムは、多体相互作用量子系に対する固有熱化仮説(eth)と一致して、電気および磁気スピンの減衰結合振動を表示する。 特にスピンスピン相互作用は、鎖間結合が増加するにつれて発振周波数が2次シフトする。 局所的なクエンチは励起の光円錐状の伝播を引き起こす。 この場合、チェーン間カップリングは、'電気'スピン波の速度で'磁気'チェーンに沿って新しい高速スピン波モードを生成するチェーン間のエネルギー移動を駆動する。 これは、電気双極子を中間体として用いる電場を用いる磁気スピンチェーンにおけるより高速な情報伝達のための制限された制御機構を示唆する。

We propose and explore the physics of a toy multiferroic model by coupling two distinct dipolar XXZ models in transverse fields. We determine first the rich ground-state phase diagram of the model using density matrix renormalization group techniques. Then, we explore the dynamics of the system after global and local quenches, using the time-evolving block decimation algorithm. After a global quench, the system displays decaying coupled oscillations of the electric and magnetic spins, in agreement with the Eigenstate Thermalization Hypothesis (ETH) for many-body interacting quantum systems. Notably, the spin-spin interactions lead to a sizeable quadratic shift in the oscillation frequency as the inter-chain coupling is increased. Local quenches lead to a light-cone-like propagation of excitations. In this case, the inter-chain coupling drives a transfer of energy between the chains that generates a novel fast spin-wave mode along the 'magnetic' chain at the speed of the 'electric' spin-wave. This suggests a limited control mechanism for faster information transfer in magnetic spin chains using electric fields that harnesses the electric dipoles as intermediaries.
翻訳日:2023-03-08 02:27:25 公開日:2021-11-15
# 高エネルギー衝突時の事象トポロジー同定のための量子アニールの活用

Leveraging Quantum Annealer to identify an Event-topology at High Energy Colliders ( http://arxiv.org/abs/2111.07806v1 )

ライセンス: Link先を確認
Minho Kim, Pyungwon Ko, Jae-hyeon Park, Myeonghun Park(参考訳) 大型ハドロン衝突型加速器(LHC)で利用可能なエネルギーと光度の増加により、我々はデータのみに基づいて純粋なボトムアップアプローチをとる機会を得る。 これは、理論的な偏見に頼ることなく、自然についての我々の理解の範囲を広げる。 しかし、必要な計算リソースは、古典的なコンピュータに基づくアルゴリズムを使用すると、データサイズとイベントの複雑さによって指数関数的に増加する。 本稿では,LHCで生成した粒子の歴史を記述したダイアグラムである事象トポロジーを同定するために,量子アニールを用いた簡便でモチベーションの良い方法を提案する。 計算複雑性は多項式の順序に比例して大幅に減少し,非常に明確かつ効率的な方法で「大きな」データを復号できることを示す。 本手法は,従来の手法に比べて2倍以上の真の事象トポロジーを求める際に大きな改善が得られた。

With increasing energy and luminosity available at the Large Hadron collider (LHC), we get a chance to take a pure bottom-up approach solely based on data. This will extend the scope of our understanding about Nature without relying on theoretical prejudices. The required computing resource, however, will increase exponentially with data size and complexities of events if one uses algorithms based on a classical computer. In this letter we propose a simple and well motivated method with a quantum annealer to identify an event-topology, a diagram to describe the history of particles produced at the LHC. We show that a computing complexity can be reduced significantly to the order of polynomials which enables us to decode the "Big" data in a very clear and efficient way. Our method achieves significant improvements in finding a true event-topology, more than by a factor of two compared to a conventional method.
翻訳日:2023-03-08 02:27:08 公開日:2021-11-15
# ユビキタスな旅の効率性: ストリートネットワークが旅行速度にどう影響するか

The ubiquitous efficiency of going further: how street networks affect travel speed ( http://arxiv.org/abs/2111.07801v1 )

ライセンス: Link先を確認
Gabriel L. Maia, Caio Ponte, Carlos Caminha, Lara Furtado, Hygor P. M. Melo, Vasco Furtado(参考訳) 都市がより「人中心」の都市主義に適応するのに苦慮しているため、交通計画とエンジニアリングは、効率性を確保するだけでなく、スプロールを抑えるために、戦略的に街路網を拡大するために革新する必要がある。 本稿では,道路交通標識による道路の減速点のパターンが自動車から発生する軌跡に与える影響を理解するため,世界中の200以上の都市を対象に調査を行った。 都市内における最適軌跡の時間と距離の間には, ユビキタスな非線形関係が存在することを示す。 より正確には、特定の時間帯$\tau$のトラフィックがなければ、平均で$\left \langle D \right \rangle \sim\tau^\beta$まで移動することができる。 ほぼすべての都市で$\beta>1.0$という超線形関係が見つかった。 これは、大きな距離を移動する場合のスケール効率を示す。つまり、短い旅行に比べて、長い旅行で平均速度が高くなることを意味する。 この効率性は、減速点のない大区間の空間分布の結果であり、車両が停留所なしに大距離を横断できる経路へのアクセスを好んでいることを実証する。 これらの結果は、都市が交通速度にどのように影響するかを考慮しなければならないことを示している。

As cities struggle to adapt to more ``people-centered'' urbanism, transportation planning and engineering must innovate to expand the street network strategically in order to ensure efficiency but also to deter sprawl. Here, we conducted a study of over 200 cities around the world to understand the impact that the patterns of deceleration points in streets due to traffic signs has in trajectories done from motorized vehicles. We demonstrate that there is a ubiquitous nonlinear relationship between time and distance in the optimal trajectories within each city. More precisely, given a specific period of time $\tau$, without any traffic, one can move on average up to the distance $\left \langle D \right \rangle \sim\tau^\beta$. We found a super-linear relationship for almost all cities in which $\beta>1.0$. This points to an efficiency of scale when traveling large distances, meaning the average speed will be higher for longer trips when compared to shorter trips. We demonstrate that this efficiency is a consequence of the spatial distribution of large segments of streets without deceleration points, favoring access to routes in which a vehicle can cross large distances without stops. These findings show that cities must consider how their street morphology can affect travel speed.
翻訳日:2023-03-08 02:26:53 公開日:2021-11-15
# 協調フィルタリングのためのディープニューラルネットワークの進化

Evolving Deep Neural Networks for Collaborative Filtering ( http://arxiv.org/abs/2111.07758v1 )

ライセンス: Link先を確認
Yuhan Fang, Yuqiao Liu and Yanan Sun(参考訳) コラボレーティブ・フィルタリング(CF)は、ユーザとイテムの相互作用をモデル化するためのレコメンデータシステムで広く使われている。 様々な分野でDeep Neural Networks(DNN)が大きな成功をおさめ、最近の先進的な研究でCFのためのDNNベースのモデルが提案されている。 しかし、ニューラルネットワークはすべて手動で設計されている。 その結果、設計者はCFとDNNの両方で専門知識を開発する必要があり、CFにおけるディープラーニングメソッドの適用と推奨結果の正確性を制限する。 本稿では,DNNの設計プロセスに遺伝的アルゴリズムを導入する。 交叉、突然変異、環境選択戦略などの遺伝的操作により、DNNのアーキテクチャと接続重みの初期化は自動的に設計できる。 2つのベンチマークデータセットに対して広範な実験を行う。 その結果,提案アルゴリズムは,手動設計による最先端ニューラルネットワークよりも優れていた。

Collaborative Filtering (CF) is widely used in recommender systems to model user-item interactions. With the great success of Deep Neural Networks (DNNs) in various fields, advanced works recently have proposed several DNN-based models for CF, which have been proven effective. However, the neural networks are all designed manually. As a consequence, it requires the designers to develop expertise in both CF and DNNs, which limits the application of deep learning methods in CF and the accuracy of recommended results. In this paper, we introduce the genetic algorithm into the process of designing DNNs. By means of genetic operations like crossover, mutation, and environmental selection strategy, the architectures and the connection weights initialization of the DNNs can be designed automatically. We conduct extensive experiments on two benchmark datasets. The results demonstrate the proposed algorithm outperforms several manually designed state-of-the-art neural networks.
翻訳日:2023-03-08 02:26:03 公開日:2021-11-15
# 化学蒸着ダイヤモンドにおける窒素空孔中心の形成とセンシングへの応用

Creation of nitrogen-vacancy centers in chemical vapor deposition diamond for sensing applications ( http://arxiv.org/abs/2111.07981v1 )

ライセンス: Link先を確認
T. Luo, L. Lindner, J. Langer, V. Cimalla, F. Hahl, C. Schreyvogel, S. Onoda, S. Ishii, T. Ohshima, D.Wang, D. A. Simpson, B. C. Johnson, M. Capelli, R. Blinder, J. Jeske(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、スピンサブレベルにおける微小エネルギーシフトの光学的読み出しを示すマグネトメトリー応用のための有望な量子システムである。 NVアンサンブルの主要な材料要件は、高いNV$^-$濃度、長いスピンコヒーレンス時間、安定した電荷状態である。 しかし、これらは相互依存しており、ダイヤモンドの成長とその後のNV生成の間は最適化が難しい。 本研究では,化学気相沈着(CVD)ダイヤモンドにおけるNV中心の形成と性質を系統的に検討する。 成長中の窒素の流れは4桁以上変化し、結果として1つの置換窒素濃度が0.2~20ppmの広い範囲に分布する。 固定窒素濃度では、2つの異なる加速電子エネルギーを持つ電子照射流束を最適化し、光学的特性解析により欠陥形成を研究する。 我々は,NV濃度の増大とNV帯電状態の最適化を両立できる最適な照射条件を決定するための一般的なアプローチについて議論する。 CVDダイヤモンドのスピンスピンコヒーレンス時間T$_2$は、それぞれ1億NV$^-$中心あたり168〜1個を含む45.5から549ドルである。 本研究は,NVドープCVDダイヤモンドの高感度化のための工学的特性を示す。

The nitrogen-vacancy (NV) center in diamond is a promising quantum system for magnetometry applications exhibiting optical readout of minute energy shifts in its spin sub-levels. Key material requirements for NV ensembles are a high NV$^-$ concentration, a long spin coherence time and a stable charge state. However, these are interdependent and can be difficult to optimize during diamond growth and subsequent NV creation. In this work, we systematically investigate the NV center formation and properties in chemical vapor deposition (CVD) diamond. The nitrogen flow during growth is varied by over 4 orders of magnitude, resulting in a broad range of single substitutional nitrogen concentrations of 0.2-20 parts per million. For a fixed nitrogen concentration, we optimize electron-irradiation fluences with two different accelerated electron energies, and we study defect formation via optical characterizations. We discuss a general approach to determine the optimal irradiation conditions, for which an enhanced NV concentration and an optimum of NV charge states can both be satisfied. We achieve spin-spin coherence times T$_2$ ranging from 45.5 to 549 $\mu$s for CVD diamonds containing 168 to 1 parts per billion NV$^-$ centers, respectively. This study shows a pathway to engineer properties of NV-doped CVD diamonds for improved sensitivity.
翻訳日:2023-03-08 02:18:34 公開日:2021-11-15
# muzzle the shuttle: マルチトラップトラップイオン量子コンピュータのための効率的なコンパイル

Muzzle the Shuttle: Efficient Compilation for Multi-Trap Trapped-Ion Quantum Computers ( http://arxiv.org/abs/2111.07961v1 )

ライセンス: Link先を確認
Abdullah Ash Saki, Rasit Onur Topaloglu, Swaroop Ghosh(参考訳) 捕捉イオン系は1つのトラップに限られた数のイオン(量子ビット)を持つことができる。 有意義な量子アルゴリズムを実行するためにキュービット数を増やすには、イオンが通信するトラップ間を移動する必要がある複数のトラップが必要になる。 既存のコンパイラにはいくつかの制限があり、多くのシャトル操作と信頼性の低下をもたらす。 本稿では,このギャップを対象とし,シャトル数を削減するコンパイラ最適化を提案する。 この手法により、シャトルの最大511.17.%(平均$\approx 33\%$)を125ドル以上の回路でテストできる。 さらに、改良されたコンパイルにより、プログラムの忠実度は22.68$Xまで向上し、コンパイル時間もわずかに増加する。

Trapped-ion systems can have a limited number of ions (qubits) in a single trap. Increasing the qubit count to run meaningful quantum algorithms would require multiple traps where ions need to shuttle between traps to communicate. The existing compiler has several limitations which result in a high number of shuttle operations and degraded fidelity. In this paper, we target this gap and propose compiler optimizations to reduce the number of shuttles. Our technique achieves a maximum reduction of $51.17\%$ in shuttles (average $\approx 33\%$) tested over $125$ circuits. Furthermore, the improved compilation enhances the program fidelity up to $22.68$X with a modest increase in the compilation time.
翻訳日:2023-03-08 02:17:51 公開日:2021-11-15
# 近似関数負荷のための量子アルゴリズム

Quantum algorithms for approximate function loading ( http://arxiv.org/abs/2111.07933v1 )

ライセンス: Link先を確認
Gabriel Marin-Sanchez, Javier Gonzalez-Conde and Mikel Sanz(参考訳) 量子コンピュータに古典的なデータをロードすることは、多くの関連する量子アルゴリズム、特に量子機械学習の分野において必須の段階である。 したがって、この負荷プロセスの非効率性は、これらのアルゴリズムの適用において大きなボトルネックとなる。 本稿では,実関数のロード問題を部分的に解決するgrover-rudolphアルゴリズムに触発された近似量子状態生成法を2つ紹介する。 実際、不忠実な$\epsilon$とある滑らかな条件の下では、グロバー・ルドルフのアルゴリズムの複雑さは$\mathcal{O}(2^{n})$から$\mathcal{O}(2^{k_0(\epsilon)})$に還元され、$n$はクォービットの数と$k_0(\epsilon)$は$n$から漸近的に独立であることが証明される。 これにより、必要な2ビットゲートの数が劇的に減少する。 また, この結果により, 上記の滑らかさ条件を超えて関数をロードできる変分アルゴリズムも提案する。 我々の変分アンサッツは関数のランドスケープに合わせて明示的に調整され、準最適化されたハイパーパラメータの数に繋がる。 これにより,負荷状態における高忠実度を高速収束で実現することができる。

Loading classical data into quantum computers represents an essential stage in many relevant quantum algorithms, especially in the field of quantum machine learning. Therefore, the inefficiency of this loading process means a major bottleneck for the application of these algorithms. Here, we introduce two approximate quantum-state preparation methods inspired by the Grover-Rudolph algorithm, which partially solve the problem of loading real functions. Indeed, by allowing for an infidelity $\epsilon$ and under certain smoothness conditions, we prove that the complexity of Grover-Rudolph algorithm can be reduced from $\mathcal{O}(2^{n})$ to $\mathcal{O}(2^{k_0(\epsilon)})$, with $n$ the number of qubits and $k_0(\epsilon)$ asymptotically independent of $n$. This leads to a dramatic reduction in the number of required two-qubit gates. Aroused by this result, we also propose a variational algorithm capable of loading functions beyond the aforementioned smoothness conditions. Our variational ansatz is explicitly tailored to the landscape of the function, leading to a quasi-optimized number of hyperparameters. This allows us to achieve high fidelity in the loaded state with high speed convergence for the studied examples.
翻訳日:2023-03-08 02:17:41 公開日:2021-11-15
# ランク付けリストの識別結果テスト

An Outcome Test of Discrimination for Ranked Lists ( http://arxiv.org/abs/2111.07889v1 )

ライセンス: Link先を確認
Jonathan Roth, Guillaume Saint-Jacques, YinYin Yu(参考訳) 本稿では、becker (1957) の判別結果テストを、(人間的またはアルゴリズム的)意思決定者が候補のランク付けリストを作成する設定にまで拡張する。 ランク付けされたリストは、検索結果やフィードを生成するオンラインプラットフォームのコンテキストにおいて特に重要であり、人間の意思決定者が候補者のリストよりも規則的な選好を表現するときにも生じる。 非差別はモーメントの不平等のシステムを意味しており、これは直感的に、上位候補を持つ1つのグループから下位候補の位置を減らし、その目的を体系的に改善できないことを示す。 さらに,これらのモーメントの不等式は,監査人が成績とグループメンバーシップのみをランク別に観察する場合に,非差別の唯一の検証可能な意味であることを示す。 意味のある不等式を統計的にテストする方法を示し、linkedinのデータを使ってアプリケーション内のアプローチを検証する。

This paper extends Becker (1957)'s outcome test of discrimination to settings where a (human or algorithmic) decision-maker produces a ranked list of candidates. Ranked lists are particularly relevant in the context of online platforms that produce search results or feeds, and also arise when human decisionmakers express ordinal preferences over a list of candidates. We show that non-discrimination implies a system of moment inequalities, which intuitively impose that one cannot permute the position of a lower-ranked candidate from one group with a higher-ranked candidate from a second group and systematically improve the objective. Moreover, we show that that these moment inequalities are the only testable implications of non-discrimination when the auditor observes only outcomes and group membership by rank. We show how to statistically test the implied inequalities, and validate our approach in an application using data from LinkedIn.
翻訳日:2023-03-08 02:17:03 公開日:2021-11-15
# 正準量子粗粒化と無知表面

Canonical Quantum Coarse-Graining and Surfaces of Ignorance ( http://arxiv.org/abs/2111.07836v1 )

ライセンス: Link先を確認
Shannon Ray, Paul M. Alsing, Carlo Cafaro, and Shelton Jacinto(参考訳) 本稿では,量子粗粒化に関する量子情報エントロピーと無知によって測定された無知をネゲントロピーを用いて接続する手法を提案する。 我々の手順では、マクロ状態は純化の集合$\{|\bar{\Gamma}^{\rho}\rangle\}$と密度作用素$\rho$に関連付けられ、マイクロ状態は$\{|\bar{\Gamma}^{\rho}\rangle\}$の要素である。 他の量子粗粒化法とは異なり、我々は常に位相空間の明確な粗粒化を与える。 我々の粗粒化はまた、マクロ状態に関連する位相空間の体積が、計量成分が {\{|\bar{\gamma}^{\rho}\rangle\}$} を生成するリー群対称性から構成される微分多様体から計算されるという点で一意である。 我々はこれらの多様体を無知曲面と呼び、それらの体積は量子情報エントロピーによって測定された$\rho$ の情報の欠如を定量化する。 これらの体積が情報エントロピーのように振る舞うことを示すために、これらをフォン・ノイマンや、対称性が$SO(3)$, $SU(2)$, $SO(N)$で与えられる状態の線型エントロピーと比較する。 また,本手法はボルツマンの元々の粗粒化の特徴を再現し,相空間のほとんどが平衡に近い状態あるいは平衡状態から成り立っていることを示した。 この粗粒化の結果、固有のフラグ多様体構造が合成ヒルベルト空間の下にあることが示されている。

In this paper we introduce a canonical quantum coarse-graining and use negentropy to connect ignorance as measured by quantum information entropy and ignorance related to quantum coarse-graining. For our procedure, macro-states are the set of purifications $\{|\bar{\Gamma}^{\rho}\rangle\}$ associated with density operator $\rho$ and micro-states are elements of $\{|\bar{\Gamma}^{\rho}\rangle\}$. Unlike other quantum coarse-graining procedures, ours always gives a well-defined unique coarse-graining of phase space. Our coarse-graining is also unique in that the volumes of phase space associated with macro-states are computed from differential manifolds whose metric components are constructed from the Lie group symmetries that generate $\{|\bar{\Gamma}^{\rho}\rangle\}$. We call these manifolds surfaces of ignorance, and their volumes quantify the lack of information in $\rho$ as measured by quantum information entropies. To show that these volumes behave like information entropies, we compare them to the von Neumann and linear entropies for states whose symmetries are given by $SO(3)$, $SU(2)$, and $SO(N)$. We also show that our procedure reproduces features of Boltzmann's original coarse-graining by showing that the majority of phase space consists of states near or at equilibrium. As a consequence of this coarse-graining, it is shown that an inherent flag variety structure underlies composite Hilbert spaces.
翻訳日:2023-03-08 02:15:49 公開日:2021-11-15
# 株式市場予測のためのスパースニューラルアーキテクチャを進化させるマルチクリテリアアプローチ

A Multi-criteria Approach to Evolve Sparse Neural Architectures for Stock Market Forecasting ( http://arxiv.org/abs/2111.08060v1 )

ライセンス: Link先を確認
Faizal Hafiz, Jan Broekaert, Davide La Torre, Akshya Swain(参考訳) 本研究は, 技術指標を入力として, 市場指標の移動予測のための, 効率的かつ同相なニューラルアーキテクチャを進化させる新しい枠組みを提案する。 効率的な市場仮説の下での疎信号対雑音比を考慮し,技術指標を用いた金融市場の動きを予測する機械学習手法の開発が課題となっている。 この目的のために、ニューラルネットワーク探索は、アーキテクチャの複雑さと有効性のバランスをとるために、多重基準最適化問題として提案される。 また, 共生前の期間と共生前の期間に出現する可能性のある, 支配的な取引傾向の差異について検討した。 衝突する可能性のある前共用データの基礎となるコンコルダント情報を抽出するための修正として、$\epsilon-$制約フレームワークが提案されている。 さらに,スパルシティを粒子群に付加的な探索次元として明示的に統合するマルチクリテリアニューラルネットワーク探索に,新たな探索パラダイムである2次元スウォーム (2ds) が提案されている。 提案手法の詳細な比較評価は, 遺伝的アルゴリズムと経験的ニューラルデザインルールと, フィルタ型特徴選択法(mrmr)をベースラインとして組み合わせて行った。 本研究の結果は,提案手法がより優れた一般化能力を持つ同相ネットワークを進化させることができることを示すものである。

This study proposes a new framework to evolve efficacious yet parsimonious neural architectures for the movement prediction of stock market indices using technical indicators as inputs. In the light of a sparse signal-to-noise ratio under the Efficient Market hypothesis, developing machine learning methods to predict the movement of a financial market using technical indicators has shown to be a challenging problem. To this end, the neural architecture search is posed as a multi-criteria optimization problem to balance the efficacy with the complexity of architectures. In addition, the implications of different dominant trading tendencies which may be present in the pre-COVID and within-COVID time periods are investigated. An $\epsilon-$ constraint framework is proposed as a remedy to extract any concordant information underlying the possibly conflicting pre-COVID data. Further, a new search paradigm, Two-Dimensional Swarms (2DS) is proposed for the multi-criteria neural architecture search, which explicitly integrates sparsity as an additional search dimension in particle swarms. A detailed comparative evaluation of the proposed approach is carried out by considering genetic algorithm and several combinations of empirical neural design rules with a filter-based feature selection method (mRMR) as baseline approaches. The results of this study convincingly demonstrate that the proposed approach can evolve parsimonious networks with better generalization capabilities.
翻訳日:2023-03-08 02:09:37 公開日:2021-11-15
# 可変量子回路における測定誘起絡み合い相転移

Measurement-induced entanglement phase transitions in variational quantum circuits ( http://arxiv.org/abs/2111.08035v1 )

ライセンス: Link先を確認
Roeland Wiersema, Cunlu Zhou, Juan Felipe Carrasquilla and Yong Baek Kim(参考訳) パラメトリズド量子回路を古典的に最適化して計算課題を解決する変分量子アルゴリズム(vqas)は、量子多体系の理解を前進させ、近距離量子コンピュータを用いた機械学習アルゴリズムを改善することを約束する。 この量子-古典ハイブリッドアルゴリズムの族に関連する顕著な課題は、量子絡み合いと量子勾配の古典的な最適化に結びつく制御である。 バレンプラトー現象として知られるこれらの量子勾配は、容積法則エンタングルメント成長の存在下で急速に消滅し、VQAの実用性に深刻な障害をもたらす。 ランダム回路における測定誘起エンタングルメント遷移の最近の研究に触発され,中間射影測定による変分量子回路におけるエンタングルメント遷移について検討した。 XXZモデルとハードウェア有効アンサッツ(HEA)に対するハミルトン変分アンサッツ(HVA)を考慮し,測定率の増加とともに体積法則から面積法則への測定誘起絡み合い遷移を観察する。 さらに、遷移はランダムユニタリ回路の同じ普遍性クラスに属することを示す。 重要なことに、この遷移は古典的な最適化において「景観遷移」から「穏やか/無不毛の高原」に一致する。 我々の研究は、現在利用可能な量子ハードウェアに中間測定プロトコルを組み込むことで、量子回路のトレーサビリティを大幅に改善する道筋を拓いている。

Variational quantum algorithms (VQAs), which classically optimize a parametrized quantum circuit to solve a computational task, promise to advance our understanding of quantum many-body systems and improve machine learning algorithms using near-term quantum computers. Prominent challenges associated with this family of quantum-classical hybrid algorithms are the control of quantum entanglement and quantum gradients linked to their classical optimization. Known as the barren plateau phenomenon, these quantum gradients may rapidly vanish in the presence of volume-law entanglement growth, which poses a serious obstacle to the practical utility of VQAs. Inspired by recent studies of measurement-induced entanglement transition in random circuits, we investigate the entanglement transition in variational quantum circuits endowed with intermediate projective measurements. Considering the Hamiltonian Variational Ansatz (HVA) for the XXZ model and the Hardware Efficient Ansatz (HEA), we observe a measurement-induced entanglement transition from volume-law to area-law with increasing measurement rate. Moreover, we provide evidence that the transition belongs to the same universality class of random unitary circuits. Importantly, the transition coincides with a "landscape transition" from severe to mild/no barren plateaus in the classical optimization. Our work paves an avenue for greatly improving the trainability of quantum circuits by incorporating intermediate measurement protocols in currently available quantum hardware.
翻訳日:2023-03-08 02:08:15 公開日:2021-11-15
# デジタル量子コンピュータ上のu(1)ゲージ理論をカップリングのすべての値でシミュレートする効率的な表現

Efficient Representation for Simulating U(1) Gauge Theories on Digital Quantum Computers at All Values of the Coupling ( http://arxiv.org/abs/2111.08015v1 )

ライセンス: Link先を確認
Christian W. Bauer and Dorota M. Grabowska(参考訳) 我々は、結合のすべての値に適用可能な各格子点を表すために使用される状態の数に指数収束を持つ格子 u(1) ゲージ理論の表現を導出する。 大規模な結合では、この表現はコグト・ススキンドの電気表現と等価であり、この領域において良い記述を提供することが知られている。 この方法では、低次固有状態がゼロ磁場の周囲で強くピークとなるように、小さなカップリングでは、デジタル化で表される最大磁場を調整する。 さらに,nyquist-shannonサンプリング定理に動機づけられた低次固有状態に対する作用において,標準交換関係の最小違反を与えるハミルトニアンの電気成分の表現を選択する。 4つの格子サイトを持つ (2+1) 次元の場合、格子サイトごとのプラケット演算子の期待値は、結合定数の全ての値に対してmilleレベル精度で7つの状態で計算できる。

We derive a representation for a lattice U(1) gauge theory with exponential convergence in the number of states used to represent each lattice site that is applicable at all values of the coupling. At large coupling, this representation is equivalent to the Kogut-Susskind electric representation, which is known to provide a good description in this region. At small coupling, our approach adjusts the maximum magnetic field that is represented in the digitization as in this regime the low-lying eigenstates become strongly peaked around zero magnetic field. Additionally, we choose a representation of the electric component of the Hamiltonian that gives minimal violation of the canonical commutation relation when acting upon low-lying eigenstates, motivated by the Nyquist-Shannon sampling theorem. For (2+1) dimensions with 4 lattice sites the expectation value of the plaquette operator can be calculated with only 7 states per lattice site with per-mille level accuracy for all values of the coupling constant.
翻訳日:2023-03-08 02:07:17 公開日:2021-11-15
# 相対性理論における量子情報:qft測定の挑戦

Quantum Information in Relativity: the Challenge of QFT Measurements ( http://arxiv.org/abs/2111.07983v1 )

ライセンス: Link先を確認
Charis Anastopoulos and Ntina Savvidou(参考訳) 深宇宙における量子実験は、相対論的効果が重要であるレジームにおける量子情報問題を探索することができる。 このエッセイでは、量子情報理論を相対論的領域に適切に拡張するには、量子場理論(QFT)の概念の観点から全ての情報概念を表現する必要があると論じる。 この課題にはQFT測定の作業的で実践可能な理論が必要である。 本稿では,このような理論の構築における基礎的問題,特にqftの基礎における長期因果関係と局所性問題について述べる。 最後に、測定理論を構築するための量子時間確率プログラムについて述べる。 (i)原則として、いかなるQFTに対しても、 (二)因果関係及び局地性に関するすべての問題に関する第一原理の調査を許可し、 (iii)現在興味のある実験に直接適用することができる。

Proposed quantum experiments in deep space will be able to explore quantum information issues in regimes where relativistic effects are important. In this essay, we argue that a proper extension of Quantum Information theory into the relativistic domain requires the expression of all informational notions in terms of quantum field theoretic (QFT) concepts. This task requires a working and practicable theory of QFT measurements. We present the foundational problems in constructing such a theory, especially in relation to longstanding causality and locality issues in the foundations of QFT. Finally, we present the ongoing Quantum Temporal Probabilities program for constructing a measurement theory that (i) works, in principle, for any QFT, (ii) allows for a first-principles investigation of all relevant issues of causality and locality, and (iii) it can be directly applied to experiments of current interest.
翻訳日:2023-03-08 02:06:43 公開日:2021-11-15
# 自動エンコーダに基づく薬物発見のためのスケーラブルな可変量子回路

Scalable Variational Quantum Circuits for Autoencoder-based Drug Discovery ( http://arxiv.org/abs/2112.12563v1 )

ライセンス: Link先を確認
Junde Li and Swaroop Ghosh(参考訳) 薬物分子のde novo設計は、時間とコストのかかるプロセスとして認識され、薬物発見パイプラインの各段階で計算手法が適用されている。 変分オートエンコーダは、既存の分子データセットに基づいて化学空間を探索するコンピュータ支援設計手法の1つである。 量子機械学習は、その強い表現力のために古典的な学習タスクを高速化する非定型的な学習方法として登場した。 しかし、短期量子コンピュータは限られた数の量子ビットに苦しむため、高次元空間での表現学習が妨げられる。 本稿では,創薬分子を同時に再構成・サンプリングするためのスケーラブルな量子生成オートエンコーダ(SQ-VAE)と,それに対応するバニラ変種(SQ-AE)について述べる。 調整可能な量子層深さ、不均一学習率、パッチ量子回路などのハイブリッド量子古典ネットワークにおけるアーキテクチャ戦略は、リガンド標的薬のような高次元のデータセットを学習するために提案される。 適切なアーキテクチャ戦略を選択した後, 8x8 と 32x32 を含む異なる次元の大規模実験結果が報告された。 量子生成オートエンコーダの性能は、全ての実験を通して対応する古典的結果と比較される。 その結果、正規化低次元分子では量子コンピューティングの利点が得られ、量子生成オートエンコーダから生成される高次元分子は同じ学習期間内に優れた薬物特性を持つことが示された。

The de novo design of drug molecules is recognized as a time-consuming and costly process, and computational approaches have been applied in each stage of the drug discovery pipeline. Variational autoencoder is one of the computer-aided design methods which explores the chemical space based on existing molecular dataset. Quantum machine learning has emerged as an atypical learning method that may speed up some classical learning tasks because of its strong expressive power. However, near-term quantum computers suffer from limited number of qubits which hinders the representation learning in high dimensional spaces. We present a scalable quantum generative autoencoder (SQ-VAE) for simultaneously reconstructing and sampling drug molecules, and a corresponding vanilla variant (SQ-AE) for better reconstruction. The architectural strategies in hybrid quantum classical networks such as, adjustable quantum layer depth, heterogeneous learning rates, and patched quantum circuits are proposed to learn high dimensional dataset such as, ligand-targeted drugs. Extensive experimental results are reported for different dimensions including 8x8 and 32x32 after choosing suitable architectural strategies. The performance of quantum generative autoencoder is compared with the corresponding classical counterpart throughout all experiments. The results show that quantum computing advantages can be achieved for normalized low-dimension molecules, and that high-dimension molecules generated from quantum generative autoencoders have better drug properties within the same learning period.
翻訳日:2023-03-08 02:01:12 公開日:2021-11-15
# 新型コロナウイルスパンデミック時のマイクロコントローラクラスにおける学生のエンゲージメントに関する神経科学的アプローチ

A Neuroscience Approach regarding Student Engagement in the Classes of Microcontrollers during the COVID19 Pandemic ( http://arxiv.org/abs/2112.01240v1 )

ライセンス: Link先を確認
Iuliana Marin(参考訳) 教育の過程は新型コロナウイルスのパンデミックによって大きく変化した。 学習は、以前の世代の学生が知っているプロセスにもはや似ていない可能性がある。 現在の世代は直感を実践して学習するので、新しいプラットフォームが教育プロセスに関与する必要があります。 本報告では, マイクロコントローラの授業中に神経科学を取り入れて, 学生の学習を継続する新しい方法を提案する。 arduinoとraspberry piボードは、オンラインシミュレーション環境を用いたマイクロコントローラのコースで研究されている。 Emotiv Insightヘッドセットは、マイクロコントローラコースの理論的および実践的な時間に教授が使用する。 ヘッドセットによって生成された脳波で実行される分析は、教授の気分、焦点、ストレス、リラックス、エンゲージメント、興奮、興味レベルに関する数値を提供する。 授業で使用されるアプローチは、質問ベースの学習、ゲームベースの学習、パーソナライズされた学習である。 このようにして、教授は、技術と仮想シミュレーションプラットフォームを用いて、学生とのつながりを改善する方法を決定することができる。 テストの結果、ゲームベースの学習は、学生が問題解決をし、将来のソフトウェアエンジニアとして必要なソフトウェアスキルを使い始める必要があるため、最善のアプローチであることが判明した。 考え方をマスターするためには、自らの行動を選択し、その過程で実験する必要がある。 その成果により、学生はゲーム化された環境で経験ポイントを受け取る。 教授は、新しい時代の教育に適応し、その実践と学習哲学を洗練させる必要がある。 ニーズを判断し満足させるためには、バーチャルプラットフォームを簡単に利用したり、学生と関わることが必要です。

The process of teaching has been greatly changed by the COVID-19 pandemic. It is possible that studying will not resemble anymore the process known by the previous generations of students. As the current generations learn by doing and use their intuition, new platforms need to be involved in the teaching process. The current paper proposes a new method to keep the students engaged while learning by involving neuroscience during the classes of Microcontrollers. Arduino and Raspberry Pi boards are studied at the course of Microcontrollers using online simulation environments. The Emotiv Insight headset is used by the professor during the theoretical and practical hours of the Microcontrollers course. The analysis performed on the brainwaves generated by the headset provides numerical values for the mood, focus, stress, relaxation, engagement, excitement and interest levels of the professor. The approaches used during teaching were inquiry-based learning, game-based learning and personalized learning. In this way, professors can determine how to improve the connection with their students based on the use of technology and virtual simulation platforms. The results of the test show that the game-based learning was be best approach because students had to become problem solves and start to use the software skills which they will need as future software engineers. The emphasis is put on mastering the mindset by having to choose their actions and to experiment along the way. According to their achievement, students receive experience points in a gamified environment. Professors need to adjust to a new era of teaching and refine their practices and learning philosophy. They need to be able to use virtual platforms with ease, as well as to engage with their students in order to determine and satisfy their needs.
翻訳日:2023-03-08 02:00:48 公開日:2021-11-15
# 量子計算モーメントによるハーツリー・フォック限界を超える化学

Chemistry beyond the Hartree-Fock limit via quantum computed moments ( http://arxiv.org/abs/2111.08132v1 )

ライセンス: Link先を確認
Michael A. Jones, Harish J. Vallury, Charles D. Hill, Lloyd C. L. Hollenberg(参考訳) 量子コンピュータは、難しい分子問題に対する従来の計算の限界を回避すると約束している。 しかし、実際のデバイス上での量子論理誤差の蓄積は、特に動的効果の包含を必要とする化学的精度の追求において大きな課題である。 本研究では、水素鎖分子系に対する量子計算モーメント(QCM)アプローチをH$_6$まで実装する。 超伝導量子プロセッサでは、ハミルトニアンモーメント、$\langle \mathcal{h}^p\rangle$ がハートリー・フォック状態に対して計算され、ランチョス展開理論で用いられ、電子相関を組み込んだ基底状態エネルギーの推定が決定され、変動結果が顕著に改善される。 生のqcmデータの処理後の浄化は、hartree-fock変分限界によって、調査された最大のシステムであるh$_6$の正確な電子基底状態エネルギーの99.9%以内に推定される。 計算された解離曲線は、この系で約10mHの精度を示し、水素分子では0.1mH、結合長ではH$_2$である。 化学問題に対する厳密な精度要件の文脈において、これらの結果はQCM法の誤差抑制能力、特に後処理誤差軽減と組み合わせた場合の強い証拠となる。 ハミルトニアンおよび古典的前処理ステップのより効率的な表現をより強調すると、短期的な量子プロセッサ上のより大きなシステムの解法が可能になる。

Quantum computers hold promise to circumvent the limitations of conventional computing for difficult molecular problems. However, the accumulation of quantum logic errors on real devices represents a major challenge, particularly in the pursuit of chemical accuracy requiring the inclusion of dynamical effects. In this work we implement the quantum computed moments (QCM) approach for hydrogen chain molecular systems up to H$_6$. On a superconducting quantum processor, Hamiltonian moments, $\langle \mathcal{H}^p\rangle$ are computed with respect to the Hartree-Fock state, which are then employed in Lanczos expansion theory to determine an estimate for the ground-state energy which incorporates electronic correlations and manifestly improves on the variational result. Post-processing purification of the raw QCM data takes the estimate through the Hartree-Fock variational limit to within 99.9% of the exact electronic ground-state energy for the largest system studied, H$_6$. Calculated dissociation curves indicate precision at about 10mH for this system and as low as 0.1mH for molecular hydrogen, H$_2$, over a range of bond lengths. In the context of stringent precision requirements for chemical problems, these results provide strong evidence for the error suppression capability of the QCM method, particularly when coupled with post-processing error mitigation. Greater emphasis on more efficient representations of the Hamiltonian and classical preprocessing steps may enable the solution of larger systems on near-term quantum processors.
翻訳日:2023-03-08 02:00:24 公開日:2021-11-15
# キラルフェルミオン真空中の時間結晶長範囲秩序

Time-crystalline long-range order in chiral fermionic vacuum ( http://arxiv.org/abs/2111.08127v1 )

ライセンス: Link先を確認
Nobuyuki Okuma(参考訳) 短距離相互作用系の基底状態には巨視的時間結晶次数は存在しないと広く信じられている。 本論文では, 1次元キラルフェルミオン系において空間的に不連続な重みを持つ順序作用素に対する時間依存相関関数を考える。 ハミルトニアンと秩序パラメータは空間的に局所的な作用素から構成されるが、時間依存相関関数は等間隔で対数的に発散する。 この結果は、上界定数が無限大に設定されない限り、基底状態における時間結晶の長距離秩序の欠如を主張する不等式の分解を意味する。 この挙動は、順序作用素の不連続性と量子場理論の無限次元性の組み合わせによるものである。 ボゾン化の言語では、時空分解されたボゾン相関関数の発散とも関係がある。

It is widely believed that there is no macroscopic time-crystalline order in the ground states of short-range interacting systems. In this paper, we consider a time-dependent correlation function for an order operator with a spatially discontinuous weight in a one-dimensional chiral fermionic system. Although both the Hamiltonian and the order parameter are composed of spatially local operators, the time-dependent correlation function diverges logarithmically in equal time intervals. This result implies a breakdown of an inequality that claims the absence of time-crystalline long-range order in the ground states, unless the upper-bound constant is set to be infinity. This behavior is due to the combination of the discontinuity of the order operator and the infinite dimensionality of quantum field theory. In the language of bosonization, it can also be related to the divergence of a space-time-resolved bosonic correlation function.
翻訳日:2023-03-08 01:59:44 公開日:2021-11-15
# 近藤-ハバード三角格子模型におけるスパイラル磁性とカイラル超伝導

Spiral magnetism and chiral superconductivity in Kondo-Hubbard triangular lattice model ( http://arxiv.org/abs/2111.08071v1 )

ライセンス: Link先を確認
Oumar Ndiaye, Djicknack Dione, Alassane Traor/'e, Sadikh Ababacar Ndao, Jean Paul Latyr Faye(参考訳) Refの結果に基づいて構築する。 近藤-ハバード正方格子上の反強磁性および近藤一重項相を同定した \cite{faye2018 phase} は、変分クラスター近似 (vca) を用いて、2次元三角格子上のこれらの相間のスピン配向の競合を調べる。 局所(不純物)と伝導(不純物)電子の間の反強磁性交換相互作用$J_{\perp}$に加えて、我々のモデルは、伝導電子の局所反発$U$と不純物間のハイゼンベルク相互作用$J_H$を含む。 半充填の場合、両平面の量子位相図形は$(J_{\perp}, U J_{\perp})$と$(J_{\perp}, J_{H})$である。 我々は、小さな$J_{\perp}$と中程度の$U$の位相図で支配される長距離で3-置換的なスパイラル磁気秩序を同定する一方、Kondo一重項位相は大きな$J_{\perp}$でより安定になる。 渦巻磁場秩序から近藤一重項相への遷移は、2次相転移である。 J_{\perp}, J_{H})$平面において、$J_H$の効果はコンド一重項位相を減少させることであり、スパイラル磁気秩序位相により多くの余地を与える。 また、スパイラル磁気秩序パラメータの小さな磁気振動も導入している。 有限ドーピングとスパイラル磁気が無視されるとき、対称性の順序パラメータ$d+id$の超伝導が時間反転対称性を破る。 超伝導秩序パラメータは、約$5\%のホールドーピング中心のドームを持ち、その振幅は$j_{\perp}$の増加とともに減少する。 スパイラル磁性は$d+id$状態と共存でき、超伝導は抑制され、これらの2つの相が競合していることを示す。

Building on the results of Ref. \cite{faye2018phase}, which identified an antiferromagnetic and Kondo singlet phases on the Kondo-Hubbard square lattice, we use the variational cluster approximation (VCA) to investigate the competition between these phases on a two-dimensional triangular lattice with $120^{o}$ spin orientation. In addition to the antiferromagnetic exchange interaction $J_{\perp}$ between the localized (impurity) and conduction (itinerant) electrons, our model includes the local repulsion $U$ of the conduction electrons and the Heisenberg interaction $J_H$ between the impurities. At half-filling, we obtain the quantum phase diagrams in both planes $(J_{\perp}, U J_{\perp})$ and $(J_{\perp}, J_{H})$. We identify a long-range, three-sublattice, spiral magnetic order which dominates the phase diagrams for small $J_{\perp}$ and moderate $U$, while a Kondo singlet phase becomes more stable at large $J_{\perp}$. The transition from the spiral magnetic order to the Kondo singlet phase is a second-order phase transition. In the $(J_{\perp}, J_{H})$ plane, we observe that the effect of $J_H$ is to reduce the Kondo singlet phase, giving more room to the spiral magnetic order phase. It also introduces some small magnetic oscillations of the spiral magnetic order parameter. At finite doping and when spiral magnetism is ignored, we find superconductivity with symmetry order parameter $d+id$, which breaks time reversal symmetry. The superconducting order parameter has a dome centered at around $5\%$ hole doping, and its amplitude decreases with increasing $J_{\perp}$. We show that spiral magnetism can coexist with $d+id$ state and that superconductivity is suppressed, indicating that these two phases are in competition.
翻訳日:2023-03-08 01:57:57 公開日:2021-11-15
# NNoculation: 野生の悪いネットワークをキャッチする

NNoculation: Catching BadNets in the Wild ( http://arxiv.org/abs/2002.08313v2 )

ライセンス: Link先を確認
Akshaj Kumar Veldanda, Kang Liu, Benjamin Tan, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Brendan Dolan-Gavitt, and Siddharth Garg(参考訳) 本稿では,バックドア付きニューラルネットワーク(badnets)に対する新たな2段階防御(noculation)を提案する。 前処理の段階では、NNoculationはBadNetをランダムな乱れでトレーニングし、バックドアの対向的な影響を部分的に低減する。 NNoculationはデプロイ後、元のネットワークとデプロイ前のネットワーク間の不一致を記録することによって、バックドアテスト入力を検出し、隔離する。 次にCycleGANは、クリーンな検証と隔離された入力の間の変換を学ぶように訓練される。 バックドア付き検証画像とその正しいラベルは、デプロイ前のパッチ付きネットワークを再トレーニングするために使用されます。 包括的バックドア攻撃のスイートにおける経験的評価は、ヌクシレーションが制限的な仮定を行い、特定のバックドア攻撃でのみ機能するか、適応攻撃で失敗するすべての最先端防御よりも優れていることを示している。 対照的に、NNoculationは最小限の仮定を行い、既存の防御が有効でない設定下であっても効果的な防御を提供する。

This paper proposes a novel two-stage defense (NNoculation) against backdoored neural networks (BadNets) that, repairs a BadNet both pre-deployment and online in response to backdoored test inputs encountered in the field. In the pre-deployment stage, NNoculation retrains the BadNet with random perturbations of clean validation inputs to partially reduce the adversarial impact of a backdoor. Post-deployment, NNoculation detects and quarantines backdoored test inputs by recording disagreements between the original and pre-deployment patched networks. A CycleGAN is then trained to learn transformations between clean validation and quarantined inputs; i.e., it learns to add triggers to clean validation images. Backdoored validation images along with their correct labels are used to further retrain the pre-deployment patched network, yielding our final defense. Empirical evaluation on a comprehensive suite of backdoor attacks show that NNoculation outperforms all state-of-the-art defenses that make restrictive assumptions and only work on specific backdoor attacks, or fail on adaptive attacks. In contrast, NNoculation makes minimal assumptions and provides an effective defense, even under settings where existing defenses are ineffective due to attackers circumventing their restrictive assumptions.
翻訳日:2022-12-30 14:40:52 公開日:2021-11-15
# エントロピック勾配降下アルゴリズムと広平面ミニマ

Entropic gradient descent algorithms and wide flat minima ( http://arxiv.org/abs/2006.07897v4 )

ライセンス: Link先を確認
Fabrizio Pittorino, Carlo Lucibello, Christoph Feinauer, Gabriele Perugini, Carlo Baldassi, Elizaveta Demyanenko, Riccardo Zecchina(参考訳) ニューラルネットワークの経験的リスクランドスケープにおける平坦なミニマの性質は、しばらくの間議論されてきた。 証拠の増大は、鋭いものに対してより優れた一般化能力を持つことを示唆している。 まず,ガウス混合分類モデルについて考察し,広い平坦領域に属する最小値に対応するベイズ最適点ワイズ推定器が存在することを解析的に示す。 これらの推定器は、(標準独立である)分類器に直接、あるいは学習に使用される微分可微分損失関数に、最大平坦性アルゴリズムを適用することによって見つけることができる。 次に,広範囲な数値検証によって解析を深層学習シナリオに拡張する。 2つのアルゴリズムであるEntropy-SGDとReplicated-SGDを用いて、最適化対象に局所エントロピーとして知られる非局所平坦度尺度を明示的に含み、共通アーキテクチャ(ResNet、EfficientNetなど)の一般化誤差を一貫して改善する。 計算が容易な平坦度測定は、テスト精度と明確な相関を示す。

The properties of flat minima in the empirical risk landscape of neural networks have been debated for some time. Increasing evidence suggests they possess better generalization capabilities with respect to sharp ones. First, we discuss Gaussian mixture classification models and show analytically that there exist Bayes optimal pointwise estimators which correspond to minimizers belonging to wide flat regions. These estimators can be found by applying maximum flatness algorithms either directly on the classifier (which is norm independent) or on the differentiable loss function used in learning. Next, we extend the analysis to the deep learning scenario by extensive numerical validations. Using two algorithms, Entropy-SGD and Replicated-SGD, that explicitly include in the optimization objective a non-local flatness measure known as local entropy, we consistently improve the generalization error for common architectures (e.g. ResNet, EfficientNet). An easy to compute flatness measure shows a clear correlation with test accuracy.
翻訳日:2022-11-21 12:38:24 公開日:2021-11-15
# k$fw:より強力なサブプログレムオラクルを持つフランクウルフスタイルのアルゴリズム

$k$FW: A Frank-Wolfe style algorithm with stronger subproblem oracles ( http://arxiv.org/abs/2006.16142v2 )

ライセンス: Link先を確認
Lijun Ding, Jicong Fan, and Madeleine Udell(参考訳) 本稿では,FW(Frank-Wolfe)の新たな変種である$k$FWを提案する。 標準fwは、しばしばzig-zagを反復し、更新方向が制約集合の極端点の周りで振動する。 新しい変種である$k$FWは、各イテレーションで2つのより強いサブプロブレムオラクルを使用することでこの問題を克服する。 1つは$k$線形最適化オラクル($k$LOO)で、$k$最高の更新方向(単に1つではなく)を計算する。 2つ目は$k$の方向検索($k$DS)で、$k$の最良の更新方向と以前の繰り返しで表される制約セットに対する目的を最小化する。 問題解がスパース表現を許容すると、両オラクルは計算しやすく、$k$FWは滑らかな凸対象といくつかの興味深い制約集合に対して素早く収束する: $k$FW は有限$\frac{4L_f^3D^4}{\gamma\delta^2}$ポリトープおよび群ノルム球への収束、スペクトルと核ノルム球への線型収束。 数値実験は、$k$fwの有効性を検証し、既存のアプローチに対して桁違いのスピードアップを示す。

This paper proposes a new variant of Frank-Wolfe (FW), called $k$FW. Standard FW suffers from slow convergence: iterates often zig-zag as update directions oscillate around extreme points of the constraint set. The new variant, $k$FW, overcomes this problem by using two stronger subproblem oracles in each iteration. The first is a $k$ linear optimization oracle ($k$LOO) that computes the $k$ best update directions (rather than just one). The second is a $k$ direction search ($k$DS) that minimizes the objective over a constraint set represented by the $k$ best update directions and the previous iterate. When the problem solution admits a sparse representation, both oracles are easy to compute, and $k$FW converges quickly for smooth convex objectives and several interesting constraint sets: $k$FW achieves finite $\frac{4L_f^3D^4}{\gamma\delta^2}$ convergence on polytopes and group norm balls, and linear convergence on spectrahedra and nuclear norm balls. Numerical experiments validate the effectiveness of $k$FW and demonstrate an order-of-magnitude speedup over existing approaches.
翻訳日:2022-11-15 15:15:14 公開日:2021-11-15
# 製品配布におけるテストと学習のためのダウンサンプリング

Downsampling for Testing and Learning in Product Distributions ( http://arxiv.org/abs/2007.07449v2 )

ライセンス: Link先を確認
Nathaniel Harms, Yuichi Yoshida(参考訳) 未知確率分布が$\mathbb{r}^d$ を超える積分布である分布自由特性試験と学習問題について検討する。 半空間の交叉、多項式しきい値関数、凸集合、および $k$-アルタネート関数のような多くの重要な関数クラスにおいて、既知のアルゴリズムは、分布の支持サイズに依存する複雑さを持つか、製品分布の特定の例でのみ機能することが証明される。 我々は,これらの問題を解消する一般的な手法であるdownsamplingを提案する。 ダウンサンプリングは、製品分布に対する「回帰イソペリメトリ(rectilinear isoperimetry)」の概念を使い、イソペリメトリ、テスト、学習の関連性をさらに強化する。 この手法を用いて、製品分布下での新しい効率的な分布のないアルゴリズムを$\mathbb{R}^d$: 1. 関数の非適応的で一方的な単調性テストの簡易な証明を$[n]^d \to \{0,1\}$で達成し、未知の製品分布上で単調性をテストするためのサンプルの複雑さを$O(d^7)$ [Black, Chakrabarty, & Seshadhri, SODA 2020] から$\widetilde O(d^3)$に改善する。 2. 半空間の定数数と多項式閾値関数の関数に対する多項式時間非依存学習アルゴリズム 3.$\exp(o(d \log(dk)))$-time agnostic learningアルゴリズムと$k$凸集合の関数に対して$\exp(o(d \log(dk))$-sample tolerance testerと$^{\widetilde o(d)}$ 凸集合のサンプルベース片面テスト器。 4.$\exp(\widetilde O(k \sqrt d))$-time agnostic learning algorithm for $k$-alternating function, and a sample-based tolerant tester with the complexity。

We study distribution-free property testing and learning problems where the unknown probability distribution is a product distribution over $\mathbb{R}^d$. For many important classes of functions, such as intersections of halfspaces, polynomial threshold functions, convex sets, and $k$-alternating functions, the known algorithms either have complexity that depends on the support size of the distribution, or are proven to work only for specific examples of product distributions. We introduce a general method, which we call downsampling, that resolves these issues. Downsampling uses a notion of "rectilinear isoperimetry" for product distributions, which further strengthens the connection between isoperimetry, testing, and learning. Using this technique, we attain new efficient distribution-free algorithms under product distributions on $\mathbb{R}^d$: 1. A simpler proof for non-adaptive, one-sided monotonicity testing of functions $[n]^d \to \{0,1\}$, and improved sample complexity for testing monotonicity over unknown product distributions, from $O(d^7)$ [Black, Chakrabarty, & Seshadhri, SODA 2020] to $\widetilde O(d^3)$. 2. Polynomial-time agnostic learning algorithms for functions of a constant number of halfspaces, and constant-degree polynomial threshold functions. 3. An $\exp(O(d \log(dk)))$-time agnostic learning algorithm, and an $\exp(O(d \log(dk)))$-sample tolerant tester, for functions of $k$ convex sets; and a $2^{\widetilde O(d)}$ sample-based one-sided tester for convex sets. 4. An $\exp(\widetilde O(k \sqrt d))$-time agnostic learning algorithm for $k$-alternating functions, and a sample-based tolerant tester with the same complexity.
翻訳日:2022-11-10 06:50:33 公開日:2021-11-15
# 過パラメータ単一指数モデルにおける暗黙的正規化の理解

Understanding Implicit Regularization in Over-Parameterized Single Index Model ( http://arxiv.org/abs/2007.08322v3 )

ライセンス: Link先を確認
Jianqing Fan, Zhuoran Yang, Mengxin Yu(参考訳) 本稿では,高次元単一指数モデルに対する正規化フリーアルゴリズムの設計と,誘導的暗黙的正規化現象に対する理論的保証を提供する。 具体的には、リンク関数が非線形かつ未知であり、信号パラメータがスパースベクトルまたは低ランク対称行列のいずれかであり、応答変数が重畳できるベクトルおよび行列単一指数モデルについて検討する。 過剰な技術性を伴わずに暗黙の正規化によって果たす役割をよりよく理解するために、共変量の分布は優先順位として知られていると仮定する。 ベクトルと行列の設定の両方において、スコア関数変換と重み付きデータ専用に設計されたロバストトラクテーションステップを用いて、過パラメータ最小二乗損失関数を構築する。 正規化なし勾配降下を損失関数に適用して真のパラメータを推定する。 初期化が原点に近く、段差が十分に小さいとき、得られた解がベクトルと行列の両方の場合の収束の最小最適統計速度を達成することを証明した。 さらに, 実験結果から, 従来の手法よりも, $\ell_2$-statistical rate と変数選択一貫性の両面で, 明示的な正則化を経験的に上回っていることを示す。

In this paper, we leverage over-parameterization to design regularization-free algorithms for the high-dimensional single index model and provide theoretical guarantees for the induced implicit regularization phenomenon. Specifically, we study both vector and matrix single index models where the link function is nonlinear and unknown, the signal parameter is either a sparse vector or a low-rank symmetric matrix, and the response variable can be heavy-tailed. To gain a better understanding of the role played by implicit regularization without excess technicality, we assume that the distribution of the covariates is known a priori. For both the vector and matrix settings, we construct an over-parameterized least-squares loss function by employing the score function transform and a robust truncation step designed specifically for heavy-tailed data. We propose to estimate the true parameter by applying regularization-free gradient descent to the loss function. When the initialization is close to the origin and the stepsize is sufficiently small, we prove that the obtained solution achieves minimax optimal statistical rates of convergence in both the vector and matrix cases. In addition, our experimental results support our theoretical findings and also demonstrate that our methods empirically outperform classical methods with explicit regularization in terms of both $\ell_2$-statistical rate and variable selection consistency.
翻訳日:2022-11-09 22:49:41 公開日:2021-11-15
# モルダヴィアとルーマニアの方言識別における機械学習の有効性

The Unreasonable Effectiveness of Machine Learning in Moldavian versus Romanian Dialect Identification ( http://arxiv.org/abs/2007.15700v3 )

ライセンス: Link先を確認
Mihaela G\u{a}man, Radu Tudor Ionescu(参考訳) モルダヴィア語とルーマニア語の方言識別における機械学習モデルの一見高い正確さと、この話題に対する研究の関心の高まりに動機づけられ、モルダヴィア語対ルーマニア語クロスダイアレクトトピック識別(mrc)のフォローアップとして、vardial 2019評価キャンペーンの共有タスクを提供する。 1つはモルダヴィア方言とルーマニア方言を区別すること、もう1つはルーマニアの2つの方言をまたいでトピックごとに文書を分類することであった。 例えばモルダヴィア語とルーマニア語の方言識別のトップモデルは0.895のマクロf1スコアを得た。 我々は,人間のアノテータによる主観評価を行い,機械学習(ML)モデルと比較して,人間の精度がはるかに低いことを示す。 したがって、なぜ参加者が提案した手法がこれほど高い精度を達成するのかは明らかでない。 私たちのゴールは理解すること (i)なぜ提案手法がうまく機能するのか(識別的特徴を可視化することにより) (ii)例えば、テキストサンプルを1文に短縮したり、推論時にツィートを使用する場合など、これらの方法がどの程度高い精度を維持するか。 本研究の第二の目標は,アンサンブル学習を用いた改良mlモデルの提案である。 実験の結果,MLモデルは文レベルでも,異なる領域(ニュース記事対つぶやき)にわたって,方言を正確に識別できることがわかった。 また、最高のパフォーマンスモデルの最も差別的な特徴を分析し、これらのモデルによる決定の背後にあるいくつかの説明を提供する。 興味深いことに、以前は知られていなかった新しい方言パターンや人間の注釈に学習する。 さらに,MRC共有タスクにおける機械学習性能を,積み重ねに基づくアンサンブルにより改善できることを示す実験を行った。

Motivated by the seemingly high accuracy levels of machine learning models in Moldavian versus Romanian dialect identification and the increasing research interest on this topic, we provide a follow-up on the Moldavian versus Romanian Cross-Dialect Topic Identification (MRC) shared task of the VarDial 2019 Evaluation Campaign. The shared task included two sub-task types: one that consisted in discriminating between the Moldavian and Romanian dialects and one that consisted in classifying documents by topic across the two dialects of Romanian. Participants achieved impressive scores, e.g. the top model for Moldavian versus Romanian dialect identification obtained a macro F1 score of 0.895. We conduct a subjective evaluation by human annotators, showing that humans attain much lower accuracy rates compared to machine learning (ML) models. Hence, it remains unclear why the methods proposed by participants attain such high accuracy rates. Our goal is to understand (i) why the proposed methods work so well (by visualizing the discriminative features) and (ii) to what extent these methods can keep their high accuracy levels, e.g. when we shorten the text samples to single sentences or when we use tweets at inference time. A secondary goal of our work is to propose an improved ML model using ensemble learning. Our experiments show that ML models can accurately identify the dialects, even at the sentence level and across different domains (news articles versus tweets). We also analyze the most discriminative features of the best performing models, providing some explanations behind the decisions taken by these models. Interestingly, we learn new dialectal patterns previously unknown to us or to our human annotators. Furthermore, we conduct experiments showing that the machine learning performance on the MRC shared task can be improved through an ensemble based on stacking.
翻訳日:2022-11-05 14:09:13 公開日:2021-11-15
# TCL: トレーニング可能なクリッピング層を備えたANN-to-SNN変換

TCL: an ANN-to-SNN Conversion with Trainable Clipping Layers ( http://arxiv.org/abs/2008.04509v3 )

ライセンス: Link先を確認
Nguyen-Dong Ho, Ik-Joon Chang(参考訳) スパイクニューラルネットワーク(snn)は、snsのイベント駆動操作がアナログニューラルネットワーク(anns)よりも大幅に低い電力を提供するため、エッジデバイスにおいて有望である。 SNNを効率的に訓練することは難しいが、訓練されたANNをSNNに変換する多くの技術が開発されている。 しかし、変換後、SNNには精度とレイテンシのトレードオフ関係が存在し、ImageNetのような大規模なデータセットにかなりのレイテンシが生じる。 本稿では,SNNの250サイクルの適度なレイテンシでImageNetの73.87% (VGG-16) と70.37% (ResNet-34) の精度を実現するため,TCLと呼ばれる手法を提案する。

Spiking-neural-networks (SNNs) are promising at edge devices since the event-driven operations of SNNs provides significantly lower power compared to analog-neural-networks (ANNs). Although it is difficult to efficiently train SNNs, many techniques to convert trained ANNs to SNNs have been developed. However, after the conversion, a trade-off relation between accuracy and latency exists in SNNs, causing considerable latency in large size datasets such as ImageNet. We present a technique, named as TCL, to alleviate the trade-off problem, enabling the accuracy of 73.87% (VGG-16) and 70.37% (ResNet-34) for ImageNet with the moderate latency of 250 cycles in SNNs.
翻訳日:2022-10-31 11:45:27 公開日:2021-11-15
# RIS支援MIMOにおけるチャネル推定のためのフェデレーション学習

Federated Learning for Channel Estimation in Conventional and RIS-Assisted Massive MIMO ( http://arxiv.org/abs/2008.10846v2 )

ライセンス: Link先を確認
Ahmet M. Elbir and Sinem Coleri(参考訳) 機械学習(ML)は、その複雑さと堅牢性のために、チャネル推定などの物理層設計問題に対して大きな研究関心を集めている。 mlによるチャネル推定には、受信したパイロット信号を入力として、チャネルデータを出力として含むデータセットのモデルトレーニングが必要である。 以前の作業では、モデルトレーニングは主に中央集権学習(CL)を通じて行われ、トレーニングデータセット全体がベースステーション(BS)のユーザから収集される。 このアプローチは、データ収集に巨大な通信オーバーヘッドをもたらす。 本稿では,この課題に対処するために,チャネル推定のための統合学習(FL)フレームワークを提案する。 我々は、ユーザのローカルデータセットでトレーニングされた畳み込みニューラルネットワーク(cnn)をbsに送信せずに設計する。 我々は、従来のRIS(インテリジェント反射面)とRIS(マルチインプット多重出力)システムの両方に対して、単一CNNを2つの異なるデータセットに対してトレーニングするFLに基づくチャネル推定手法を開発した。 雑音および量子化モデル伝送の性能を評価し,提案手法はCLに近い性能を維持しつつ,CLの約16倍のオーバーヘッドを提供することを示した。 さらに、提案アーキテクチャは、最先端のMLベースのスキームよりも低い推定誤差を示す。

Machine learning (ML) has attracted a great research interest for physical layer design problems, such as channel estimation, thanks to its low complexity and robustness. Channel estimation via ML requires model training on a dataset, which usually includes the received pilot signals as input and channel data as output. In previous works, model training is mostly done via centralized learning (CL), where the whole training dataset is collected from the users at the base station (BS). This approach introduces huge communication overhead for data collection. In this paper, to address this challenge, we propose a federated learning (FL) framework for channel estimation. We design a convolutional neural network (CNN) trained on the local datasets of the users without sending them to the BS. We develop FL-based channel estimation schemes for both conventional and RIS (intelligent reflecting surface) assisted massive MIMO (multiple-input multiple-output) systems, where a single CNN is trained for two different datasets for both scenarios. We evaluate the performance for noisy and quantized model transmission and show that the proposed approach provides approximately 16 times lower overhead than CL, while maintaining satisfactory performance close to CL. Furthermore, the proposed architecture exhibits lower estimation error than the state-of-the-art ML-based schemes.
翻訳日:2022-10-25 04:42:08 公開日:2021-11-15
# 非二乗損失による低ランク行列回復:射影勾配法と正則射影オラクル

Low-rank matrix recovery with non-quadratic loss: projected gradient method and regularity projection oracle ( http://arxiv.org/abs/2008.13777v2 )

ライセンス: Link先を確認
Lijun Ding, Yuqian Zhang, Yudong Chen(参考訳) 低位行列回復の既往の結果は主に二次的損失に焦点が当てられ、これは強い凸性/平滑性(RSC/RSM)の制限や全ての低位行列に対する良質な条件付けなど、良好な性質を享受する。 しかし、多くの興味深い問題は、そのような性質を満たさないより一般的な非二次的損失を含む。 これらの問題に対して、階数制約付き射影勾配降下(すなわち、反復的硬度閾値付け)やブラー・モンテイロ分解のような標準の非凸法は経験的性能が劣る可能性があり、これらのアルゴリズムのグローバルおよび高速収束を保証する十分な理論は存在しない。 本稿では,非クアドラル損失を伴う低ランクリカバリを実現する上で重要な要素は,オラクルの正規性であることを示す。 このオラクルは、損失関数がよく振る舞われ、近似rsc/rsm条件のセットを満たす適切な有界集合内の低ランク行列に反復を制限している。 そこで我々は,そのようなオラクルを備えた(平均的な)射影勾配法を解析し,世界規模で線形に収束することを示す。 本研究は,1ビットマトリクスセンシング/コンプリート,個別化されたランクアグリゲーション,より広範なランク制約付き一般化線形モデルを含む,非二次的低ランク推定問題に適用する。

Existing results for low-rank matrix recovery largely focus on quadratic loss, which enjoys favorable properties such as restricted strong convexity/smoothness (RSC/RSM) and well conditioning over all low rank matrices. However, many interesting problems involve more general, non-quadratic losses, which do not satisfy such properties. For these problems, standard nonconvex approaches such as rank-constrained projected gradient descent (a.k.a. iterative hard thresholding) and Burer-Monteiro factorization could have poor empirical performance, and there is no satisfactory theory guaranteeing global and fast convergence for these algorithms. In this paper, we show that a critical component in provable low-rank recovery with non-quadratic loss is a regularity projection oracle. This oracle restricts iterates to low-rank matrices within an appropriate bounded set, over which the loss function is well behaved and satisfies a set of approximate RSC/RSM conditions. Accordingly, we analyze an (averaged) projected gradient method equipped with such an oracle, and prove that it converges globally and linearly. Our results apply to a wide range of non-quadratic low-rank estimation problems including one bit matrix sensing/completion, individualized rank aggregation, and more broadly generalized linear models with rank constraints.
翻訳日:2022-10-23 07:00:38 公開日:2021-11-15
# 深層アンサンブルを用いた極低騒音下での学習

Using Under-trained Deep Ensembles to Learn Under Extreme Label Noise ( http://arxiv.org/abs/2009.11128v2 )

ライセンス: Link先を確認
Konstantinos Nikolaidis, Thomas Plagemann, Stein Kristiansen, Vera Goebel, Mohan Kankanhalli(参考訳) 不適切なラベル付けや誤ったラベル付けは、教師付き学習の信頼性の高い一般化を妨げる可能性がある。 これは、特に医療などの重要な分野において、ネガティブな結果をもたらす可能性がある。 過渡ラベル雑音下での学習に有効な新しい手法を提案する。 各アンサンブルメンバーは、トレーニングデータのサブセットで訓練され、潜在的に誤った詳細に集中することなく、決定境界分離の一般的な概要を取得する。 アンサンブルの蓄積した知識が組み合わさって新しいラベルを形成し、元のラベルよりも優れたクラス分離を決定する。 新しいモデルはこれらのラベルで訓練され、ラベルノイズにもかかわらず確実に一般化される。 本研究は,睡眠時無呼吸症検出の課題に焦点をあて,我々のアプローチを広く評価する。 また,関連する作業と比較し,数字認識の課題について検討した。 本実験では,指分類のタスクは6.7\%から49.3\%,睡眠時無呼吸検出のタスクでは0.02から0.55までの精度向上が観察された。

Improper or erroneous labelling can pose a hindrance to reliable generalization for supervised learning. This can have negative consequences, especially for critical fields such as healthcare. We propose an effective new approach for learning under extreme label noise, based on under-trained deep ensembles. Each ensemble member is trained with a subset of the training data, to acquire a general overview of the decision boundary separation, without focusing on potentially erroneous details. The accumulated knowledge of the ensemble is combined to form new labels, that determine a better class separation than the original labels. A new model is trained with these labels to generalize reliably despite the label noise. We focus on a healthcare setting and extensively evaluate our approach on the task of sleep apnea detection. For comparison with related work, we additionally evaluate on the task of digit recognition. In our experiments, we observed performance improvement in accuracy from 6.7\% up-to 49.3\% for the task of digit classification and in kappa from 0.02 up-to 0.55 for the task of sleep apnea detection.
翻訳日:2022-10-15 15:36:24 公開日:2021-11-15
# 階層的運用モデルによる意図的行動・オンライン計画・学習

Deliberative Acting, Online Planning and Learning with Hierarchical Operational Models ( http://arxiv.org/abs/2010.01909v3 )

ライセンス: Link先を確認
Sunandita Patra, James Mason, Malik Ghallab, Dana Nau, Paolo Traverso(参考訳) ai研究において、行動計画の合成は通常、行動の結果として何が起こるかを抽象的に指定し、状態遷移を効率的に計算するために調整された行動の記述モデルを使用してきた。 しかし、計画されたアクションの実行には運用モデルが必要であり、リッチな計算制御構造とクローズドループオンライン意思決定を使用して、非決定論的実行コンテキストにおけるアクションの実行方法を特定し、イベントに反応し、展開する状況に適応する。 行動と計画を統合した熟考的アクターは、通常、これらのモデルの両方を一緒に使用する必要がある -- 異なるモデルの開発、一貫性の検証、行動と計画の円滑なインターリーブといった問題を引き起こします。 代替案として,計画と行動の両方が同じ運用モデルを使用する統合的な行動計画システムを定義し,実装する。 これらはリッチな制御構造を提供する階層型タスク指向リファインメントメソッドに依存している。 Reactive Acting Engine (RAE)と呼ばれるアクションコンポーネントは、よく知られたPRSシステムにインスパイアされている。 各決定ステップにおいて、RAEは実用機能に関してほぼ最適な選択をプランナーからアドバイスを得ることができる。 任意のプランナーはUCTに似たモンテカルロ木探索手順(UPOM)を使い、そのロールアウトは俳優の操作モデルのシミュレーションである。 また,rae や upom で利用するための学習戦略を提示し,オンライン行動経験やシミュレーション計画結果,意思決定コンテキストからメソッドインスタンスへのマッピング,そして upom を導くヒューリスティック関数について述べる。 我々は,upomの静的領域における最適手法への漸近収束を実証し,upomと学習戦略が動作効率とロバスト性を大幅に改善することを示す。

In AI research, synthesizing a plan of action has typically used descriptive models of the actions that abstractly specify what might happen as a result of an action, and are tailored for efficiently computing state transitions. However, executing the planned actions has needed operational models, in which rich computational control structures and closed-loop online decision-making are used to specify how to perform an action in a nondeterministic execution context, react to events and adapt to an unfolding situation. Deliberative actors, which integrate acting and planning, have typically needed to use both of these models together -- which causes problems when attempting to develop the different models, verify their consistency, and smoothly interleave acting and planning. As an alternative, we define and implement an integrated acting and planning system in which both planning and acting use the same operational models. These rely on hierarchical task-oriented refinement methods offering rich control structures. The acting component, called Reactive Acting Engine (RAE), is inspired by the well-known PRS system. At each decision step, RAE can get advice from a planner for a near-optimal choice with respect to a utility function. The anytime planner uses a UCT-like Monte Carlo Tree Search procedure, called UPOM, whose rollouts are simulations of the actor's operational models. We also present learning strategies for use with RAE and UPOM that acquire, from online acting experiences and/or simulated planning results, a mapping from decision contexts to method instances as well as a heuristic function to guide UPOM. We demonstrate the asymptotic convergence of UPOM towards optimal methods in static domains, and show experimentally that UPOM and the learning strategies significantly improve the acting efficiency and robustness.
翻訳日:2022-10-12 01:43:43 公開日:2021-11-15
# ターゲットサイド文書レベル言語モデルを用いたニューラルマシン翻訳のための文脈認識デコーダ

Context-aware Decoder for Neural Machine Translation using a Target-side Document-Level Language Model ( http://arxiv.org/abs/2010.12827v2 )

ライセンス: Link先を確認
Amane Sugiyama and Naoki Yoshinaga(参考訳) 多くの文脈対応ニューラルマシン翻訳モデルは、翻訳にコンテキストを組み込むために提案されているが、ほとんどのモデルは、文レベルで整列された並列ドキュメントでエンドツーエンドに訓練されている。 このような文書レベルの並列データを持つドメイン(と言語ペア)はごくわずかであるため、ほとんどのドメインで正確なコンテキスト認識翻訳を行うことはできない。 そこで,文書レベルの言語モデルをデコーダに組み込むことにより,文レベルの翻訳モデルを文脈認識モデルに変換する簡単な方法を提案する。 文脈認識型デコーダは文レベルの並列コーパスと単言語コーパスだけで構築されており,文書レベルの並列データを必要としない。 理論的には,本研究の核となる部分は,文脈と現在の文間の視点的相互情報を用いた文脈情報の新たな表現である。 英語対フランス語対,英語対ロシア語対日本語対英語対の3つの言語対において,文脈認識翻訳におけるコントラストテストの評価により,本手法の有効性を示す。

Although many context-aware neural machine translation models have been proposed to incorporate contexts in translation, most of those models are trained end-to-end on parallel documents aligned in sentence-level. Because only a few domains (and language pairs) have such document-level parallel data, we cannot perform accurate context-aware translation in most domains. We therefore present a simple method to turn a sentence-level translation model into a context-aware model by incorporating a document-level language model into the decoder. Our context-aware decoder is built upon only a sentence-level parallel corpora and monolingual corpora; thus no document-level parallel data is needed. In a theoretical viewpoint, the core part of this work is the novel representation of contextual information using point-wise mutual information between context and the current sentence. We show the effectiveness of our approach in three language pairs, English to French, English to Russian, and Japanese to English, by evaluation in \textsc{bleu} and contrastive tests for context-aware translation.
翻訳日:2022-10-03 13:02:09 公開日:2021-11-15
# 積極的に学ぶための学習: 堅牢なアプローチ

Learning to Actively Learn: A Robust Approach ( http://arxiv.org/abs/2010.15382v3 )

ライセンス: Link先を確認
Jifan Zhang, Lalit Jain, Kevin Jamieson(参考訳) 本研究では,アクティブラーニングや純粋探索型マルチアームバンディットなど,特定の適応データ収集タスクのためのアルゴリズム設計手法を提案する。 手順の正しさとサンプルの複雑さを正当化するために、測定値の集中と注意分析に依存する従来の適応アルゴリズムの設計とは異なり、情報理論上の下界から導かれる問題の同値クラスに対する逆訓練により、適応アルゴリズムを学習する。 特に、各同値クラスで学習した最適な適応アルゴリズムと競合する1つの適応学習アルゴリズムが学習される。 提案手法は,利用可能なクエリ,仮説のセット,損失関数,総クエリ予算のみを入力として扱う。 これは、テスト時に遭遇したインスタンスとミスマッチする可能性のある問題に対して、明示的でユーザ定義のサブセットや事前分布に対して適応アルゴリズムを学習する既存のメタ学習作業とは対照的である。 この研究は、理論的に導出されたアルゴリズムによって通常考慮される予算よりもはるかに小さい数十というような、総クエリ予算が非常に小さい体制に特に焦点を当てている。 我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,ノイズの多い20の質問ゲームやジョーク推薦タスクを含む実データから導出されるタスクについて評価する。

This work proposes a procedure for designing algorithms for specific adaptive data collection tasks like active learning and pure-exploration multi-armed bandits. Unlike the design of traditional adaptive algorithms that rely on concentration of measure and careful analysis to justify the correctness and sample complexity of the procedure, our adaptive algorithm is learned via adversarial training over equivalence classes of problems derived from information theoretic lower bounds. In particular, a single adaptive learning algorithm is learned that competes with the best adaptive algorithm learned for each equivalence class. Our procedure takes as input just the available queries, set of hypotheses, loss function, and total query budget. This is in contrast to existing meta-learning work that learns an adaptive algorithm relative to an explicit, user-defined subset or prior distribution over problems which can be challenging to define and be mismatched to the instance encountered at test time. This work is particularly focused on the regime when the total query budget is very small, such as a few dozen, which is much smaller than those budgets typically considered by theoretically derived algorithms. We perform synthetic experiments to justify the stability and effectiveness of the training procedure, and then evaluate the method on tasks derived from real data including a noisy 20 Questions game and a joke recommendation task.
翻訳日:2022-10-01 23:20:50 公開日:2021-11-15
# 汎用オブジェクト検出ネットワークにおけるゼロコスト改善

Zero Cost Improvements for General Object Detection Network ( http://arxiv.org/abs/2011.07756v2 )

ライセンス: Link先を確認
Shaohua Wang, Yaping Dai(参考訳) 現代のオブジェクト検出ネットワークは、一般的なオブジェクト検出データセットの高精度を追求すると同時に、精度の向上とともに計算負荷も増大している。 それでも、推測時間と精度はどちらも、リアルタイムである必要があるオブジェクト検出システムにとって重要である。 計算コストを増すことなく精度の向上を研究する必要がある。 本研究では,一般物体検出ネットワークにおけるfpnと検出ヘッドの改善に着目し,低コストで検出精度を向上させるための2つのモジュールを提案する。 我々は,SA-FPNモジュールと呼ばれるパラメータの少ないマルチレベル特徴写像を効率的に融合するために,スケールアテンション機構を用いる。 分類ヘッドと回帰ヘッドの相関性を考慮すると、シーケンシャルヘッドはseq-headモジュールと呼ばれる広く使われる並列ヘッドの代わりに使われる。 有効性を評価するため,両モジュールをアンカーベースやアンカーフリーを含む最新のオブジェクト検出ネットワークに適用する。 ココデータセットによる実験結果から,2つのモジュールを持つネットワークは,それぞれアンカーベースネットワークとアンカーフリーネットワークのコストをゼロに,元のネットワークを1.1 APと0.8 APで越えることができることがわかった。 コードはhttps://git.io/JTFGl.orgで入手できる。

Modern object detection networks pursuit higher precision on general object detection datasets, at the same time the computation burden is also increasing along with the improvement of precision. Nevertheless, the inference time and precision are both critical to object detection system which needs to be real-time. It is necessary to research precision improvement without extra computation cost. In this work, two modules are proposed to improve detection precision with zero cost, which are focus on FPN and detection head improvement for general object detection networks. We employ the scale attention mechanism to efficiently fuse multi-level feature maps with less parameters, which is called SA-FPN module. Considering the correlation of classification head and regression head, we use sequential head to take the place of widely-used parallel head, which is called Seq-HEAD module. To evaluate the effectiveness, we apply the two modules to some modern state-of-art object detection networks, including anchor-based and anchor-free. Experiment results on coco dataset show that the networks with the two modules can surpass original networks by 1.1 AP and 0.8 AP with zero cost for anchor-based and anchor-free networks, respectively. Code will be available at https://git.io/JTFGl.
翻訳日:2022-09-25 00:34:49 公開日:2021-11-15
# 深部単眼深度推定モデルの誤差診断

Error Diagnosis of Deep Monocular Depth Estimation Models ( http://arxiv.org/abs/2112.05533v1 )

ライセンス: Link先を確認
Jagpreet Chawla, Nikhil Thakurdesai, Anuj Godase, Md Reza, David Crandall and Soon-Heung Jung(参考訳) カメラが3dシーンを2d平面に投影すると、深度情報は本質的に永久に失われる。 しかし,近年の研究では,ディープラーニングを用いて2次元画像から3次元構造を推定する素晴らしい結果が得られている。 本稿では,イントロスペクティブ・ハットを装着し,室内シーンにおける現状のモノクル深度推定モデルを分析し,これらのモデルの限界とエラーパターンを理解する。 深度推定における誤りに対処するため,単眼深度推定モデルにおける誤深度予測を空間的に識別する新しい深度誤差検出ネットワーク(DEDN)を導入する。 本研究では,複数のデータセット上での室内深度推定モデルについて実験を行い,提案する深さ誤差検出ネットワークにより,予測された深さマップに有意な誤差を識別できることを示す。 我々のモジュールは柔軟で、どんな単眼深度予測ネットワークにも簡単に接続でき、結果の診断に役立ちます。 さらに,初期誤り診断に基づいて誤りを反復的に補正する簡易で効果的な深さ誤差補正ネットワーク(DECN)を提案する。

Estimating depth from a monocular image is an ill-posed problem: when the camera projects a 3D scene onto a 2D plane, depth information is inherently and permanently lost. Nevertheless, recent work has shown impressive results in estimating 3D structure from 2D images using deep learning. In this paper, we put on an introspective hat and analyze state-of-the-art monocular depth estimation models in indoor scenes to understand these models' limitations and error patterns. To address errors in depth estimation, we introduce a novel Depth Error Detection Network (DEDN) that spatially identifies erroneous depth predictions in the monocular depth estimation models. By experimenting with multiple state-of-the-art monocular indoor depth estimation models on multiple datasets, we show that our proposed depth error detection network can identify a significant number of errors in the predicted depth maps. Our module is flexible and can be readily plugged into any monocular depth prediction network to help diagnose its results. Additionally, we propose a simple yet effective Depth Error Correction Network (DECN) that iteratively corrects errors based on our initial error diagnosis.
翻訳日:2021-12-19 12:53:59 公開日:2021-11-15
# 都市エアモビリティ(uam)ネットワークを用いた自律空中監視のための時空間分割学習

Spatio-Temporal Split Learning for Autonomous Aerial Surveillance using Urban Air Mobility (UAM) Networks ( http://arxiv.org/abs/2111.11856v1 )

ライセンス: Link先を確認
Yoo Jeong Ha, Soyi Jung, Jae-Hyun Kim, Marco Levorato, and Joongheon Kim(参考訳) 無人無人航空機(UAV)は、疑わしい活動のために街の通りを監視するために配備される。 本稿では,街路火災の検知を目的とした監視型UAVを利用する。 大規模なデータベースはUAV監視ドローンから収集される。 人工知能(AI)の助けを借りて、消防署は近所に現れる火災の存在を素早く特定することができる。 このシナリオには時空間分割学習が適用され、プライバシーを維持し、世界規模で火災分類モデルを訓練する。 火災は危険な自然災害であり、急速に広がる。 現場に消防士を配置するには火のスウィフト識別が必要である。 そのためには、UAVとディープラーニングプロセスが発生する中央サーバとの強い通信が必要である。 コミュニケーションのレジリエンス向上は,道路上での安全なエクスペリエンス向上に不可欠である。 そこで本稿では,この uav 構成における分割学習のためのクライアント数とデータ比率,および必要なネットワーク基盤について検討する。

Autonomous surveillance unmanned aerial vehicles (UAVs) are deployed to observe the streets of the city for any suspicious activities. This paper utilizes surveillance UAVs for the purpose of detecting the presence of a fire in the streets. An extensive database is collected from UAV surveillance drones. With the aid of artificial intelligence (AI), fire stations can swiftly identify the presence of a fire emerging in the neighborhood. Spatio-temporal split learning is applied to this scenario to preserve privacy and globally train a fire classification model. Fires are hazardous natural disasters that can spread very quickly. Swift identification of fire is required to deploy firefighters to the scene. In order to do this, strong communication between the UAV and the central server where the deep learning process occurs is required. Improving communication resilience is integral to enhancing a safe experience on the roads. Therefore, this paper explores the adequate number of clients and data ratios for split learning in this UAV setting, as well as the required network infrastructure.
翻訳日:2021-11-28 18:13:23 公開日:2021-11-15
# 複合材料の熱化学的硬化のための残留フーリエニューラルオペレータ

Residual fourier neural operator for thermochemical curing of composites ( http://arxiv.org/abs/2111.10262v1 )

ライセンス: Link先を確認
Gengxiang Chen, Yingguang Li, Xu liu, Qinglu Meng, Jing Zhou, Xiaozhong Hao(参考訳) 複合材料の硬化過程において, 温度履歴は硬化度と残留応力の進化を強く決定し, 複合材料の力学特性にさらに影響を及ぼすので, 合成体の硬化過程を最適化するためには, 実温度履歴をシミュレートすることが重要である。 有限要素 (FE) シミュレーションを用いた熱化学的解析では計算負荷が重いため、データ駆動型アプローチは高次元マッピングの複雑さに悩まされる。 本稿では,任意の治療サイクルから対応する温度履歴への直接高次元マッピングを確立するために,残留フーリエニューラル演算子(resfno)を提案する。 ドメイン知識を時間分解能独立パラメータ化ニューラルネットワークに統合することにより、治療サイクルと温度履歴の間のマッピングをラベル付きデータの限られた数で学習することができる。 さらに、新しいフーリエ残差写像をモード分解に基づいて設計し、トレーニングを加速し、性能を大幅に向上させる。 提案手法の性能と一般化性を総合的に評価するために,いくつかの事例が実施された。

During the curing process of composites, the temperature history heavily determines the evolutions of the field of degree of cure as well as the residual stress, which will further influence the mechanical properties of composite, thus it is important to simulate the real temperature history to optimize the curing process of composites. Since thermochemical analysis using Finite Element (FE) simulations requires heavy computational loads and data-driven approaches suffer from the complexity of highdimensional mapping. This paper proposes a Residual Fourier Neural Operator (ResFNO) to establish the direct high-dimensional mapping from any given cure cycle to the corresponding temperature histories. By integrating domain knowledge into a time-resolution independent parameterized neural network, the mapping between cure cycles to temperature histories can be learned using limited number of labelled data. Besides, a novel Fourier residual mapping is designed based on mode decomposition to accelerate the training and boost the performance significantly. Several cases are carried out to evaluate the superior performance and generalizability of the proposed method comprehensively.
翻訳日:2021-11-28 18:12:33 公開日:2021-11-15
# 勧告モデルのスケーリング法則:汎用的ユーザ表現を目指して

Scaling Law for Recommendation Models: Towards General-purpose User Representations ( http://arxiv.org/abs/2111.11294v1 )

ライセンス: Link先を確認
Kyuyong Shin, Hanock Kwak, Kyung-Min Kim, Su Young Kim, Max Nihlen Ramstrom(参考訳) 最近の傾向は、BERT、GPT-3、CLIPなどの一般的なモデルのクラスが、大規模に広いデータで訓練されていることが、単一の学習アーキテクチャで多くの機能を示していることを示している。 本研究では,ユニバーサルユーザエンコーダを大規模にトレーニングすることで,汎用ユーザ表現学習の可能性を検討する。 学習誤差が計算量とともにパワーローとしてスケールするユーザモデリング領域において,スケーリング法則が成立することを示す。 Contrastive Learning User Encoder (CLUE) はタスクに依存しない目的を最適化し、その結果のユーザ埋め込みは、さまざまなダウンストリームタスクで何ができるかという期待を拡張します。 CLUEは、オンライン実験のパフォーマンスがClick-Through-Rate (CTR)で大幅に改善されているため、他のドメインやシステムへの大きな転送可能性も示している。 さらに,スケールアップ要因,すなわちモデル容量,シーケンス長,バッチサイズによって性能がどう変化するかについても検討した。

A recent trend shows that a general class of models, e.g., BERT, GPT-3, CLIP, trained on broad data at scale have shown a great variety of functionalities with a single learning architecture. In this work, we explore the possibility of general-purpose user representation learning by training a universal user encoder at large scales. We demonstrate that the scaling law holds in the user modeling areas, where the training error scales as a power-law with the amount of compute. Our Contrastive Learning User Encoder (CLUE), optimizes task-agnostic objectives, and the resulting user embeddings stretches our expectation of what is possible to do in various downstream tasks. CLUE also shows great transferability to other domains and systems, as performances on an online experiment shows significant improvements in online Click-Through-Rate (CTR). Furthermore, we also investigate how the performance changes according to the scale-up factors, i.e., model capacity, sequence length and batch size.
翻訳日:2021-11-28 18:11:57 公開日:2021-11-15
# パーキンソン病予測のための音声分析法の比較検討

Comparative Study of Speech Analysis Methods to Predict Parkinson's Disease ( http://arxiv.org/abs/2111.10207v1 )

ライセンス: Link先を確認
Adedolapo Aishat Toye and Suryaprakash Kompalli(参考訳) パーキンソン病(pd)の早期にみられた症状の1つは、言語障害である。 発声障害は変性する前にこの疾患を検出するために用いられる。 この研究は、PDを予測するための音声特徴と機械学習アプローチを分析する。 音声信号からシマーやジッタの変種やメル周波数ケプストラル係数(MFCC)などの音響特性を抽出する。 本研究では,MDVR-KCLとイタリアのParkinson's Voice and Speechデータベースの2つのデータセットを用いた。 pdと非pd音声信号を分離するために、k-nearest近傍、決定木、サポートベクターマシン、ナイーブベイ、ロジスティック回帰、勾配ブースティング、ランダムフォレストという7つの分類モデルが実装された。 それぞれのモデルに3つの特徴セットが使用された。 (a)音響的特徴のみ。 (b)すべての音響的特徴とmfcc (c)音響特徴とMFCCから特徴のサブセットを選択する。 全ての音響特性とMFCCを使い、SVMと共に98%、F1スコア99%の精度で最高のパフォーマンスを実現した。 先行技術と比較すると、パフォーマンスが向上します。 私たちのコードと関連するドキュメントは、パブリックドメインリポジトリから入手できます。

One of the symptoms observed in the early stages of Parkinson's Disease (PD) is speech impairment. Speech disorders can be used to detect this disease before it degenerates. This work analyzes speech features and machine learning approaches to predict PD. Acoustic features such as shimmer and jitter variants, and Mel Frequency Cepstral Coefficients (MFCC) are extracted from speech signals. We use two datasets in this work: the MDVR-KCL and the Italian Parkinson's Voice and Speech database. To separate PD and non-PD speech signals, seven classification models were implemented: K-Nearest Neighbor, Decision Trees, Support Vector Machines, Naive Bayes, Logistic Regression, Gradient Boosting, Random Forests. Three feature sets were used for each of the models: (a) Acoustic features only, (b) All the acoustic features and MFCC, (c) Selected subset of features from acoustic features and MFCC. Using all the acoustic features and MFCC, together with SVM produced the highest performance with an accuracy of 98% and F1-Score of 99%. When compared with prior art, this shows a better performance. Our code and related documentation is available in a public domain repository.
翻訳日:2021-11-28 18:11:39 公開日:2021-11-15
# ヒンディー語と英語における音声検索のための注意に基づくエンドツーエンド音声認識

Attention based end to end Speech Recognition for Voice Search in Hindi and English ( http://arxiv.org/abs/2111.10208v1 )

ライセンス: Link先を確認
Raviraj Joshi, Venkateshan Kannan(参考訳) 本稿では,Flipkart e-Commerceプラットフォームにおける音声検索機能の文脈における音声認識(ASR)について述べる。 本稿では,Learen-Attend-Spell (LAS) のディープラーニングアーキテクチャをベースとして,多目的学習,マルチパス訓練,言語モデルと音素に基づく損失を用いた外部再構成など,革新的なアプローチを取り入れたモデル設計とアテンション機構を構築し,拡張する。 本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。 全体として,音素CTCシステムよりも36.9%改善した。 この論文は、LASベースのシステムで調整できる様々なコンポーネントの概要も提供している。

We describe here our work with automatic speech recognition (ASR) in the context of voice search functionality on the Flipkart e-Commerce platform. Starting with the deep learning architecture of Listen-Attend-Spell (LAS), we build upon and expand the model design and attention mechanisms to incorporate innovative approaches including multi-objective training, multi-pass training, and external rescoring using language models and phoneme based losses. We report a relative WER improvement of 15.7% on top of state-of-the-art LAS models using these modifications. Overall, we report an improvement of 36.9% over the phoneme-CTC system. The paper also provides an overview of different components that can be tuned in a LAS-based system.
翻訳日:2021-11-28 18:11:21 公開日:2021-11-15
# (参考訳) エッジコンピューティングにおけるデータ保護のためのデータクォータモデル

A Data Quarantine Model to Secure Data in Edge Computing ( http://arxiv.org/abs/2111.07672v1 )

ライセンス: CC BY 4.0
Poornima Mahadevappa, Raja Kumar Murugesan(参考訳) エッジコンピューティングは、分散クラウドと地理的に分散したエッジノードを介して、レイテンシセンシティブで通信集約的なアプリケーションのためのアジャイルデータ処理プラットフォームを提供する。 エッジノードに対する集中管理の獲得は、セキュリティ上の問題と脅威のために難しい場合がある。 いくつかのセキュリティ問題の中で、データの整合性攻撃は一貫性のないデータにつながり、エッジデータ分析を邪魔する可能性がある。 攻撃のさらなる強化は、根本原因の緩和と特定を困難にしている。 そこで本稿では,侵入者隔離によるデータ完全性攻撃を軽減するためのデータ隔離モデルを提案する。 クラウド、アドホックネットワーク、および隔離を用いたコンピュータシステムの効率的なセキュリティソリューションは、エッジコンピューティングでそれを採用する動機となっている。 データ取得エッジノードは侵入者を識別し、次元の減少を通じて疑わしいすべてのデバイスを隔離する。 検疫中、提案された概念は評判スコアを構築し、誤った正当性を判断し、影響したデータを衛生してデータの完全性を取り戻す。 予備的な調査として,次元削減のための機械学習手法であるLDA(Linear Discriminant Analysis)を同定した。 LDAは72.83%の検疫精度と0.9秒の訓練時間を達成し、他の最先端の方法よりも効率的である。 将来、これは実装され、真理のデータで検証される。

Edge computing provides an agile data processing platform for latency-sensitive and communication-intensive applications through a decentralized cloud and geographically distributed edge nodes. Gaining centralized control over the edge nodes can be challenging due to security issues and threats. Among several security issues, data integrity attacks can lead to inconsistent data and intrude edge data analytics. Further intensification of the attack makes it challenging to mitigate and identify the root cause. Therefore, this paper proposes a new concept of data quarantine model to mitigate data integrity attacks by quarantining intruders. The efficient security solutions in cloud, ad-hoc networks, and computer systems using quarantine have motivated adopting it in edge computing. The data acquisition edge nodes identify the intruders and quarantine all the suspected devices through dimensionality reduction. During quarantine, the proposed concept builds the reputation scores to determine the falsely identified legitimate devices and sanitize their affected data to regain data integrity. As a preliminary investigation, this work identifies an appropriate machine learning method, Linear Discriminant Analysis (LDA), for dimensionality reduction. The LDA results in 72.83% quarantine accuracy and 0.9 seconds training time, which is efficient than other state-of-the-art methods. In future, this would be implemented and validated with ground truth data.
翻訳日:2021-11-20 01:59:10 公開日:2021-11-15
# simplex embedded and sampling を用いた点集合登録問題としてのキャスティンググラフ同型

Casting graph isomorphism as a point set registration problem using a simplex embedding and sampling ( http://arxiv.org/abs/2111.09696v1 )

ライセンス: Link先を確認
Yigit Oktar(参考訳) グラフ同型は、最悪の時間の複雑さがまだ完全に理解されていないため、重要な問題である。 本研究では,関連する最適化問題である点集合登録の並列化を試みる。 グラフは、単純な埋め込みとサンプリングを用いて十分な次元の点集合として表現できる。 2つのグラフが与えられたとき、それらの同型はグラフの点集合形式の間の完全登録の存在に対応する。 非同型の場合、点集合形式最適化の結果は、同じ頂点数と辺数を持つ2つのグラフ間の距離測度として使うことができる。 等値クラスの関連する考えは、グラフの正準化はグラフ同型問題に取り組む上で重要なツールであり、この高次元の点集合表現に基づく直交変換不変な特徴抽出は実数であることを示している。 与えられた概念は自己同型や部分グラフ同型問題にも拡張でき、ある種の修正のある超グラフにも適用できる。

Graph isomorphism is an important problem as its worst-case time complexity is not yet fully understood. In this study, we try to draw parallels between a related optimization problem called point set registration. A graph can be represented as a point set in enough dimensions using a simplex embedding and sampling. Given two graphs, the isomorphism of them corresponds to the existence of a perfect registration between the point set forms of the graphs. In the case of non-isomorphism, the point set form optimization result can be used as a distance measure between two graphs having the same number of vertices and edges. The related idea of equivalence classes suggests that graph canonization may be an important tool in tackling graph isomorphism problem and an orthogonal transformation invariant feature extraction based on this high dimensional point set representation may be fruitful. The concepts presented can also be extended to automorphism, and subgraph isomorphism problems and can also be applied on hypergraphs with certain modifications.
翻訳日:2021-11-19 14:41:58 公開日:2021-11-15
# (参考訳) facebookのai画像類似性チャレンジマッチングトラックの2位

2nd Place Solution to Facebook AI Image Similarity Challenge Matching Track ( http://arxiv.org/abs/2111.09113v1 )

ライセンス: CC BY 4.0
SeungKee Jeon(参考訳) 本稿では,Facebook AI Image similarity Challenge : Matching Track on DrivenDataの2番目のソリューションを提案する。 このソリューションは、自己教師型学習とビジョントランスフォーマー(ViT)に基づいている。 主なブレークトラフは、クエリと参照イメージを1つのイメージとして結合し、クエリイメージが参照イメージを使用した場合、ViTに画像から直接予測するように要求することによる。 ソリューションは、個人的なリーダーボード上で0.08291マイクロ平均精度を記録した。

This paper presents the 2nd place solution to the Facebook AI Image Similarity Challenge : Matching Track on DrivenData. The solution is based on self-supervised learning, and Vision Transformer(ViT). The main breaktrough comes from concatenating query and reference image to form as one image and asking ViT to directly predict from the image if query image used reference image. The solution scored 0.8291 Micro-average Precision on the private leaderboard.
翻訳日:2021-11-19 03:47:23 公開日:2021-11-15
# (参考訳) 無人航空機によるcovid-19パンデミック時の石油・ガスパイプラインモニタリング

Oil and Gas Pipeline Monitoring during COVID-19 Pandemic via Unmanned Aerial Vehicle ( http://arxiv.org/abs/2111.09155v1 )

ライセンス: CC BY 4.0
Myssar Jabbar Hammood Al-Battbootti, Iuliana Marin, Nicolae Goga, Ramona Popa(参考訳) 石油とガスの輸送パイプラインの広大なネットワークは、設備の故障や潜在的な事故を避けるために、定期的な監視とメンテナンスとハザード検査を必要とする。 新型コロナウイルス(covid-19)の深刻なパンデミックにより、企業はチームの規模を縮小せざるを得なくなった。 現場で直面しているリスクの1つは、可燃性油とガスの無制御放出である。 多くの検査方法のうち、無人航空機システムは柔軟性と安定性を持っている。 無人航空機は、監視作業中にデータをリアルタイムで転送することができる。 本稿では、光学センサーと人工知能を備えた無人航空機、特にパイプライン監視のためのディープラーニング技術を用いた画像認識に焦点を当てる。 無人航空機は、関心のある地域の画像やビデオを識別し、撮影するために、定期的なパトロール任務に使用できる。 到達が難しい場所は、より速く、安く、より少ないリスクでアクセスできる。 現在の論文は、ドローンによる検査の映像と画像をキャプチャするアイデアに基づいており、危険になる前にいくつかの潜在的な問題を発見することができる。 損傷は、外管絶縁におけるクラッドの弱化として生じ得る。 また、外部の腐食による配管の厚みが発生する場合もある。 本論文は, 石油・ガス産業の専門家による, 提案システムの機能的, 非機能的要件の発見に向けた調査をまとめたものである。

The vast network of oil and gas transmission pipelines requires periodic monitoring for maintenance and hazard inspection to avoid equipment failure and potential accidents. The severe COVID-19 pandemic situation forced the companies to shrink the size of their teams. One risk which is faced on-site is represented by the uncontrolled release of flammable oil and gas. Among many inspection methods, the unmanned aerial vehicle system contains flexibility and stability. Unmanned aerial vehicles can transfer data in real-time, while they are doing their monitoring tasks. The current article focuses on unmanned aerial vehicles equipped with optical sensing and artificial intelligence, especially image recognition with deep learning techniques for pipeline surveillance. Unmanned aerial vehicles can be used for regular patrolling duties to identify and capture images and videos of the area of interest. Places that are hard to reach will be accessed faster, cheaper and with less risk. The current paper is based on the idea of capturing video and images of drone-based inspections, which can discover several potential hazardous problems before they become dangerous. Damage can emerge as a weakening of the cladding on the external pipe insulation. There can also be the case when the thickness of piping through external corrosion can occur. The paper describes a survey completed by experts from the oil and gas industry done for finding the functional and non-functional requirements of the proposed system.
翻訳日:2021-11-19 03:44:48 公開日:2021-11-15
# アルツハイマー病分類における分布外磁気共鳴画像に対するロバスト性向上のための解釈可能性

Interpretability Aware Model Training to Improve Robustness against Out-of-Distribution Magnetic Resonance Images in Alzheimer's Disease Classification ( http://arxiv.org/abs/2111.08701v1 )

ライセンス: Link先を確認
Merel Kuijs, Catherine R. Jutzeler, Bastian Rieck and Sarah C. Br\"uningk(参考訳) プリスタンソフトチップコントラストと高分解能のため、構造磁気共鳴イメージング(MRI)は神経学に広く応用されており、画像ベース機械学習(ML)やディープラーニングアプリケーションに有用なデータソースとなっている。 しかし、MRIの取得と再構成の物理的性質は、画像強度、解像度、信号対雑音比の変動を引き起こす。 MLモデルはそのようなバリエーションに敏感であるため、デプロイされたヘルスケアMLアプリケーションの設定に固有の、配布外データのパフォーマンスは通常許容されるレベルを下回る。 異なるMRIハードウェアから得られる分布外サンプルに対するロバスト性を改善するために,解釈可能性を考慮した対向訓練システムを提案する。 このアプローチは、アルツハイマー病神経画像イニシアチブデータベースから得られた1.5Tと3TMRIに適用される。 本報告では, 分布外のサンプルに対して有望な性能を示す予備的な結果を示す。

Owing to its pristine soft-tissue contrast and high resolution, structural magnetic resonance imaging (MRI) is widely applied in neurology, making it a valuable data source for image-based machine learning (ML) and deep learning applications. The physical nature of MRI acquisition and reconstruction, however, causes variations in image intensity, resolution, and signal-to-noise ratio. Since ML models are sensitive to such variations, performance on out-of-distribution data, which is inherent to the setting of a deployed healthcare ML application, typically drops below acceptable levels. We propose an interpretability aware adversarial training regime to improve robustness against out-of-distribution samples originating from different MRI hardware. The approach is applied to 1.5T and 3T MRIs obtained from the Alzheimer's Disease Neuroimaging Initiative database. We present preliminary results showing promising performance on out-of-distribution samples.
翻訳日:2021-11-18 15:21:26 公開日:2021-11-15
# パラメトリック偏微分方程式を解くメタオートデコーダ

Meta-Auto-Decoder for Solving Parametric Partial Differential Equations ( http://arxiv.org/abs/2111.08823v1 )

ライセンス: Link先を確認
Xiang Huang, Zhanhong Ye, Hongsheng Liu, Beiji Shi, Zidong Wang, Kang Yang, Yang Li, Bingya Weng, Min Wang, Haotian Chu, Jing Zhou, Fan Yu, Bei Hua, Lei Chen, Bin Dong(参考訳) 部分微分方程式 (Partial Differential Equations, PDE) は、科学と工学の多くの分野においてユビキタスであり、解決が困難である。 一般に、PDEの閉形式解は利用できず、数値近似法は計算コストが高い。 PDEのパラメータは、逆問題、制御と最適化、リスク評価、不確実性定量化など、多くのアプリケーションで可変である。 これらのアプリケーションでは、1つのインスタンスではなくパラメトリックpdesを解決することが目標です。 提案手法はメタオートデコーダ (mad) と呼ばれ, パラメトリック pdes の解法をメタ学習問題として扱い, 異なるタスク/pde を扱うために \cite{park2019deepsdf} のオートデコーダ構造を利用する。 PDE支配方程式と境界条件から引き起こされる物理インフォームド損失は、異なるタスクのトレーニング損失として使用される。 MADの目標は、様々なタスクをまたいで一般化できる優れたモデル初期化を学習し、最終的に見えないタスクをより早く学習できるようにすることである。 MADのインスピレーションはパラメトリックPDE解の低次元構造から来ており、多様体学習の観点から我々のアプローチを説明する。 最後に,バーガーズ方程式,ラプラス方程式,時間領域マクスウェル方程式など,広範な数値研究を行いながら,狂気の力を示す。 MADは、他のディープラーニング手法と比較して精度を損なうことなく、より高速な収束速度を示す。

Partial Differential Equations (PDEs) are ubiquitous in many disciplines of science and engineering and notoriously difficult to solve. In general, closed-form solutions of PDEs are unavailable and numerical approximation methods are computationally expensive. The parameters of PDEs are variable in many applications, such as inverse problems, control and optimization, risk assessment, and uncertainty quantification. In these applications, our goal is to solve parametric PDEs rather than one instance of them. Our proposed approach, called Meta-Auto-Decoder (MAD), treats solving parametric PDEs as a meta-learning problem and utilizes the Auto-Decoder structure in \cite{park2019deepsdf} to deal with different tasks/PDEs. Physics-informed losses induced from the PDE governing equations and boundary conditions is used as the training losses for different tasks. The goal of MAD is to learn a good model initialization that can generalize across different tasks, and eventually enables the unseen task to be learned faster. The inspiration of MAD comes from (conjectured) low-dimensional structure of parametric PDE solutions and we explain our approach from the perspective of manifold learning. Finally, we demonstrate the power of MAD though extensive numerical studies, including Burgers' equation, Laplace's equation and time-domain Maxwell's equations. MAD exhibits faster convergence speed without losing the accuracy compared with other deep learning methods.
翻訳日:2021-11-18 14:16:20 公開日:2021-11-15
# (参考訳) 皮膚科AIの相違 : 異種臨床画像を用いた評価

Disparities in Dermatology AI: Assessments Using Diverse Clinical Images ( http://arxiv.org/abs/2111.08006v1 )

ライセンス: CC BY 4.0
Roxana Daneshjou, Kailas Vodrahalli, Weixin Liang, Roberto A Novoa, Melissa Jenkins, Veronica Rotemberg, Justin Ko, Susan M Swetter, Elizabeth E Bailey, Olivier Gevaert, Pritam Mukherjee, Michelle Phung, Kiana Yekrang, Bradley Fong, Rachna Sahasrabudhe, James Zou, Albert Chiou(参考訳) 30億人を超える人々が皮膚疾患の治療を受けられない。 AI診断ツールは早期皮膚がんの検出に役立つが、ほとんどのモデルは様々な皮膚のトーンや珍しい疾患の画像に基づいて評価されていない。 これに対処するために、私たちは、多種多様な皮膚科画像(ddi)データセットをキュレーションしました。 我々は、最先端の皮膚科AIモデルがDDIで著しく悪化していることを示し、ROC-AUCは、モデルの最初の結果と比較して29~40%低下した。 ddiデータセットでよく表される暗い肌の色とまれな疾患は、パフォーマンスの低下につながることが分かりました。 さらに,様々なトレーニングデータなしでは,最先端の堅牢なトレーニング手法ではこれらのバイアスを補正できないことを示す。 本研究は, 多様な患者やすべての疾患に対する信頼性を確保するために, 皮膚科のAIにおける重要な弱点とバイアスを明らかにした。

More than 3 billion people lack access to care for skin disease. AI diagnostic tools may aid in early skin cancer detection; however most models have not been assessed on images of diverse skin tones or uncommon diseases. To address this, we curated the Diverse Dermatology Images (DDI) dataset - the first publicly available, pathologically confirmed images featuring diverse skin tones. We show that state-of-the-art dermatology AI models perform substantially worse on DDI, with ROC-AUC dropping 29-40 percent compared to the models' original results. We find that dark skin tones and uncommon diseases, which are well represented in the DDI dataset, lead to performance drop-offs. Additionally, we show that state-of-the-art robust training methods cannot correct for these biases without diverse training data. Our findings identify important weaknesses and biases in dermatology AI that need to be addressed to ensure reliable application to diverse patients and across all disease.
翻訳日:2021-11-18 07:52:30 公開日:2021-11-15
# (参考訳) モデルに基づくマルチタスク強化学習におけるカタストロフィック干渉を防ぐモジュールネットワーク

Modular Networks Prevent Catastrophic Interference in Model-Based Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2111.08010v1 )

ライセンス: CC BY 4.0
Robin Schiewer and Laurenz Wiskott(参考訳) マルチタスク強化学習環境では、学習者はそれらの類似性を利用して複数の関連するタスクの訓練を受ける。 同時に、訓練されたエージェントは、より広い範囲の様々な問題を解決することができる。 この効果はモデルフリーなマルチタスク手法では十分に文書化されているが、複数のタスクに1つの学習力学モデルを使用する場合の有害な効果を示す。 そこで本研究では,モデルベースマルチタスク強化学習が共有ダイナミクスモデルから,モデルフリーな手法が共有ポリシネットワークから得られるのと同じような方法で得られるかどうかという根本的な問題に対処する。 単一ダイナミクスモデルを用いて、タスクの混乱と性能低下の明確な証拠を見出す。 修正として、各タスクで分離されたサブネットワークをトレーニングして学習ダイナミクスモデルの内部構造を強制することは、同じ量のパラメータを使用しながら、パフォーマンスを著しく向上させる。 本稿では,単純なgridworld とより複雑な vizdoom マルチタスク実験を用いて両手法を比較した。

In a multi-task reinforcement learning setting, the learner commonly benefits from training on multiple related tasks by exploiting similarities among them. At the same time, the trained agent is able to solve a wider range of different problems. While this effect is well documented for model-free multi-task methods, we demonstrate a detrimental effect when using a single learned dynamics model for multiple tasks. Thus, we address the fundamental question of whether model-based multi-task reinforcement learning benefits from shared dynamics models in a similar way model-free methods do from shared policy networks. Using a single dynamics model, we see clear evidence of task confusion and reduced performance. As a remedy, enforcing an internal structure for the learned dynamics model by training isolated sub-networks for each task notably improves performance while using the same amount of parameters. We illustrate our findings by comparing both methods on a simple gridworld and a more complex vizdoom multi-task experiment.
翻訳日:2021-11-18 07:41:38 公開日:2021-11-15
# (参考訳) 会員推定攻撃における難易度校正の重要性について

On the Importance of Difficulty Calibration in Membership Inference Attacks ( http://arxiv.org/abs/2111.08440v1 )

ライセンス: CC0 1.0
Lauren Watson and Chuan Guo and Graham Cormode and Alex Sablayrolles(参考訳) 近年,メンバーシップ推論攻撃に対する機械学習モデルの脆弱性が注目されている。 しかし、既存の攻撃は主に偽陽性率が高いために実行不可能であり、非メンバーのサンプルは誤ってメンバーとして予測されることが多い。 このタイプのエラーは、予測されたメンバーシップ信号の信頼性を低下させる。 本研究では,攻撃の予測メンバーシップスコアを,対象サンプルを正しく分類することの困難さに応じて調整する,‘emph{difficulty calibration}’から,メンバシップ推論攻撃が大幅に恩恵を受けることを論じる。 キャリブレーションの難易度は, 精度を損なうことなく, 既存攻撃の偽陽性率を大幅に低減できることを示す。

The vulnerability of machine learning models to membership inference attacks has received much attention in recent years. However, existing attacks mostly remain impractical due to having high false positive rates, where non-member samples are often erroneously predicted as members. This type of error makes the predicted membership signal unreliable, especially since most samples are non-members in real world applications. In this work, we argue that membership inference attacks can benefit drastically from \emph{difficulty calibration}, where an attack's predicted membership score is adjusted to the difficulty of correctly classifying the target sample. We show that difficulty calibration can significantly reduce the false positive rate of a variety of existing attacks without a loss in accuracy.
翻訳日:2021-11-18 07:27:33 公開日:2021-11-15
# (参考訳) 限度低光子x線トモグラフィにおける機械学習の有用性

Advantage of Machine Learning over Maximum Likelihood in Limited-Angle Low-Photon X-Ray Tomography ( http://arxiv.org/abs/2111.08011v1 )

ライセンス: CC BY 4.0
Zhen Guo (1), Jung Ki Song (2), George Barbastathis (2,3), Michael E. Glinsky (4), Courtenay T. Vaughan (4), Kurt W. Larson (4), Bradley K. Alpert (5), Zachary H. Levine (6) ((1) Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, Cambridge, Massachusetts, 02139, USA, (2) Department of Mechanical Engineering, Massachusetts Institute of Technology, Cambridge, Massachusetts, 02139, USA, (3) Singapore-MIT Alliance for Research and Technology (SMART) Centre, Singapore 13860, (4) Sandia National Laboratory, Albuquerque, New Mexico, 87123, USA, (5) Applied and Computational Mathematics Division, National Institute of Standards and Technology, Boulder, Colorado, 80305, USA, (6) Quantum Measurement Division, National Institute of Standards and Technology, Gaithersburg, Maryland 20899, USA)(参考訳) リミテッドアングルX線トモグラフィーは一般に不条件逆問題である。 特にプロジェクション角が制限され、光子制限条件で測定される場合、フィルタバックプロジェクションのような古典的アルゴリズムからの再構成は、欠陥コーン問題により忠実さを失い、アーティファクトを取得する可能性がある。 良好な再構成結果を得るためには、通常、全変動最小化や非局所画像類似性といった事前の仮定を再構成アルゴリズムに組み込む。 本研究では,ニューラルネットワークを用いて,復元過程における事前分布を決定・適用する。 我々のニューラルネットワークは、合成トレーニングサンプルから直接事前学習する。 したがって、ニューラルネットは、私たちが再構成に興味を持っているオブジェクトのクラスに特有の事前分布を得る。 特に,CircuitFakerと呼ばれるモデルから3次元合成集積回路(IC)データをトレーニングした3次元畳み込み層と3次元アテンション層を用いた深部生成モデルを用いた。 投影角度と光子予算が限られている場合、我々の深層生成モデルによる事前予測は、最大確率推定と比較して合成データのic再構成品質を劇的に改善できることを実証する。 CircuitFakerの合成ICデータによる深層生成モデルのトレーニングは、機械学習から学習した能力を示している。 実験データによってプロセスが再現されると、機械学習の利点が持続することを期待している。 限られた角度のX線トモグラフィにおける機械学習の利点は、低光子ナノスケールイメージングにも応用できる可能性がある。

Limited-angle X-ray tomography reconstruction is an ill-conditioned inverse problem in general. Especially when the projection angles are limited and the measurements are taken in a photon-limited condition, reconstructions from classical algorithms such as filtered backprojection may lose fidelity and acquire artifacts due to the missing-cone problem. To obtain satisfactory reconstruction results, prior assumptions, such as total variation minimization and nonlocal image similarity, are usually incorporated within the reconstruction algorithm. In this work, we introduce deep neural networks to determine and apply a prior distribution in the reconstruction process. Our neural networks learn the prior directly from synthetic training samples. The neural nets thus obtain a prior distribution that is specific to the class of objects we are interested in reconstructing. In particular, we used deep generative models with 3D convolutional layers and 3D attention layers which are trained on 3D synthetic integrated circuit (IC) data from a model dubbed CircuitFaker. We demonstrate that, when the projection angles and photon budgets are limited, the priors from our deep generative models can dramatically improve the IC reconstruction quality on synthetic data compared with maximum likelihood estimation. Training the deep generative models with synthetic IC data from CircuitFaker illustrates the capabilities of the learned prior from machine learning. We expect that if the process were reproduced with experimental data, the advantage of the machine learning would persist. The advantages of machine learning in limited angle X-ray tomography may further enable applications in low-photon nanoscale imaging.
翻訳日:2021-11-18 07:14:14 公開日:2021-11-15
# (参考訳) データの波動関数を学習するテンソルネットワーク

Tensor network to learn the wavefunction of data ( http://arxiv.org/abs/2111.08014v1 )

ライセンス: CC BY 4.0
Anatoly Dymarsky and Kirill Pavlenko(参考訳) 数字3を手書きする方法はいくつありますか? この問題を定量化するために、手書き桁MNISTのデータセットを、繰り返し始めるまで追加画像をサンプリングすることで拡張することを想像する。 我々は、桁3の得られるすべての画像の集合を「完全な集合」と呼ぶ。 完全集合の性質を研究するために,分類(識別)とサンプリングタスクの両方を同時に行うテンソルネットワークアーキテクチャを導入する。 定性的には、トレーニングされたネットワークは全集合の指標関数を表す。 したがって、データ自体を特徴付けるのに使うことができる。 ここでは、MNISTの桁に付随する全集合を研究する。 我々のネットワークの量子力学的解釈を用いて、その絡み合いのエントロピーを計算することで全集合を特徴づける。 また,ハミング距離,有効次元,サイズなどの幾何学的性質についても検討する。 後者は上記の質問に答える - MNISTスタイルで書かれた白黒の三つ組の総数は$2^{72}$である。

How many different ways are there to handwrite digit 3? To quantify this question imagine extending a dataset of handwritten digits MNIST by sampling additional images until they start repeating. We call the collection of all resulting images of digit 3 the "full set." To study the properties of the full set we introduce a tensor network architecture which simultaneously accomplishes both classification (discrimination) and sampling tasks. Qualitatively, our trained network represents the indicator function of the full set. It therefore can be used to characterize the data itself. We illustrate that by studying the full sets associated with the digits of MNIST. Using quantum mechanical interpretation of our network we characterize the full set by calculating its entanglement entropy. We also study its geometric properties such as mean Hamming distance, effective dimension, and size. The latter answers the question above -- the total number of black and white threes written MNIST style is $2^{72}$.
翻訳日:2021-11-18 07:02:52 公開日:2021-11-15
# (参考訳) mono から binaural へ - 深さとクロスモーダルを考慮した mono audio からのバイノーラルオーディオ生成

Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with Depth and Cross Modal Attention ( http://arxiv.org/abs/2111.08046v1 )

ライセンス: CC BY 4.0
Kranti Kumar Parida, Siddharth Srivastava, Gaurav Sharma(参考訳) バイノーラルオーディオは、リスナーに没入感を与え、拡張現実と仮想現実を強化する。 しかし、バイノーラルオーディオを録音するには、左耳と右耳にマイクがあるダミーな人間の頭部を専門に設定する必要がある。 このような記録設定は構築と設定が難しいため、一般的なデバイスではモノオーディオが好まれている。 バイノーラルオーディオと同等の効果を得るため,シーンからの視覚入力を条件としたモノラルオーディオをバイノーラルオーディオに引き上げる試みが近年行われている。 このようなアプローチは、マイクロホンから物体を生成する異なる音の距離という、タスクに重要な手がかりを使用していない。 本研究では,シーンの奥行きマップが,シーン内の異なる物体の距離情報を引き出すプロキシとして機能し,音声バイノーラル化のタスクに役立てることができることを論じる。 本稿では,画像,奥行き,音声を同時符号化する階層的注意機構を備えた,新しいエンコーダ・デコーダアーキテクチャを提案する。 画像と深度表現のための最先端トランスネットワーク上にネットワークを設計する。 提案手法は,FAIR-Play と MUSIC-Stereo の2つの挑戦的な公開データセットに対して,最先端の手法よりも快適に動作できることを実証的に示す。 また,本手法がタスクに必要な適切な情報に集中できることを定性的に示す。 プロジェクトの詳細は \url{https://krantiparida.github.io/projects/bmonobinaural.html} で確認できる。

Binaural audio gives the listener an immersive experience and can enhance augmented and virtual reality. However, recording binaural audio requires specialized setup with a dummy human head having microphones in left and right ears. Such a recording setup is difficult to build and setup, therefore mono audio has become the preferred choice in common devices. To obtain the same impact as binaural audio, recent efforts have been directed towards lifting mono audio to binaural audio conditioned on the visual input from the scene. Such approaches have not used an important cue for the task: the distance of different sound producing objects from the microphones. In this work, we argue that depth map of the scene can act as a proxy for inducing distance information of different objects in the scene, for the task of audio binauralization. We propose a novel encoder-decoder architecture with a hierarchical attention mechanism to encode image, depth and audio feature jointly. We design the network on top of state-of-the-art transformer networks for image and depth representation. We show empirically that the proposed method outperforms state-of-the-art methods comfortably for two challenging public datasets FAIR-Play and MUSIC-Stereo. We also demonstrate with qualitative results that the method is able to focus on the right information required for the task. The project details are available at \url{https://krantiparida.github.io/projects/bmonobinaural.html}
翻訳日:2021-11-18 06:48:26 公開日:2021-11-15
# (参考訳) C.S.ピースの実験を再考:150年後

Revisiting C.S.Peirce's Experiment: 150 Years Later ( http://arxiv.org/abs/2111.08054v1 )

ライセンス: CC BY 4.0
Deep Mukhopadhyay(参考訳) チャールズ・サンダース・パース(Charles Sanders Peirce、1837-1914)は、アメリカの哲学者、博学者。 1872年、パースは聴覚刺激に対する応答時間の分布を決定する一連の実験を行い、これは19世紀のアメリカ数学研究(stigler, 1978)の歴史における最も重要な統計調査の1つと見なされている。 この歴史的な実験の150周年に際し、現代の統計レンズによる経験的モデリングについてのパースの見解を振り返る。

An iconoclastic philosopher and polymath, Charles Sanders Peirce (1837-1914) is among the greatest of American minds. In 1872, Peirce conducted a series of experiments to determine the distribution of response times to an auditory stimulus, which is widely regarded as one of the most significant statistical investigations in the history of nineteenth-century American mathematical research (Stigler, 1978). On the 150th anniversary of this historic experiment, we look back at Peirce's view on empirical modeling through a modern statistical lens.
翻訳日:2021-11-18 06:47:25 公開日:2021-11-15
# (参考訳) ガウス混合モデルを用いた自然勾配変分推論

Natural Gradient Variational Inference with Gaussian Mixture Models ( http://arxiv.org/abs/2111.08002v1 )

ライセンス: CC BY 4.0
Farzaneh Mahdisoltani(参考訳) ベイズ法は後方分布を用いて不確実性の尺度を推定する。 これらの方法の難易度の一つは正規化定数の計算である。 正確な後方の計算は一般に難解であり、通常は近似する。 変分推論 (VI) 法は、最適化を用いて単純な家族から選択される分布と後部を近似する。 この研究の主な貢献は、ガウスの混合物と自然勾配の変分推論のための一連の更新規則であり、それぞれの混合成分に対して独立に実行でき、潜在的に並行して実行できる。

Bayesian methods estimate a measure of uncertainty by using the posterior distribution. One source of difficulty in these methods is the computation of the normalizing constant. Calculating exact posterior is generally intractable and we usually approximate it. Variational Inference (VI) methods approximate the posterior with a distribution usually chosen from a simple family using optimization. The main contribution of this work is described is a set of update rules for natural gradient variational inference with mixture of Gaussians, which can be run independently for each of the mixture components, potentially in parallel.
翻訳日:2021-11-18 06:35:02 公開日:2021-11-15
# (参考訳) 探索と注意によるロバストスケジューリングの学習

Learning Robust Scheduling with Search and Attention ( http://arxiv.org/abs/2111.08073v1 )

ライセンス: CC BY 4.0
David Sandberg, Tor Kvernvik, Francesco Davide Calabrese(参考訳) 物理層リソースをチャネル品質,バッファサイズ,要件,制約に基づいてユーザに割り当てることは,無線リソースの管理において重要な最適化問題のひとつである。 解空間は各次元の濃度と組み合わせて成長し、厳密な時間要件を条件に、徹底的な探索や古典的な最適化アルゴリズムを用いて最適解を見つけることは困難である。 MU-MIMOスケジューリングでは、スケジューラが複数のユーザを同じ時間周波数の物理リソースに割り当てることができる。 伝統的アプローチは、実行可能性を支持するために最適な取引を行うヒューリスティックを設計する。 本稿では,MU-MIMOスケジューリング問題を木構造組合せ問題として扱うとともに,最近のAlphaGo Zeroの成功を参考に,モンテカルロ木探索と強化学習を組み合わせることで,最高の実行ソリューションを探す可能性について検討する。 ユーザの内在的な順序の欠如や、ユーザの組み合わせ間の依存関係の重要性など、目の前の問題の性質に対応するため、自己着脱機構を導入することで、ニューラルネットワークアーキテクチャを根本的に修正する。 その結果,測定の不確実性と有限バッファの存在下では,結果が実現可能であるだけでなく,最先端のヒューリスティック・ベースのスケジューリング・アプローチを大きく上回ることを示した。

Allocating physical layer resources to users based on channel quality, buffer size, requirements and constraints represents one of the central optimization problems in the management of radio resources. The solution space grows combinatorially with the cardinality of each dimension making it hard to find optimal solutions using an exhaustive search or even classical optimization algorithms given the stringent time requirements. This problem is even more pronounced in MU-MIMO scheduling where the scheduler can assign multiple users to the same time-frequency physical resources. Traditional approaches thus resort to designing heuristics that trade optimality in favor of feasibility of execution. In this work we treat the MU-MIMO scheduling problem as a tree-structured combinatorial problem and, borrowing from the recent successes of AlphaGo Zero, we investigate the feasibility of searching for the best performing solutions using a combination of Monte Carlo Tree Search and Reinforcement Learning. To cater to the nature of the problem at hand, like the lack of an intrinsic ordering of the users as well as the importance of dependencies between combinations of users, we make fundamental modifications to the neural network architecture by introducing the self-attention mechanism. We then demonstrate that the resulting approach is not only feasible but vastly outperforms state-of-the-art heuristic-based scheduling approaches in the presence of measurement uncertainties and finite buffers.
翻訳日:2021-11-18 06:25:03 公開日:2021-11-15
# (参考訳) 多変量時系列異常検出のための学習グラフニューラルネットワーク

Learning Graph Neural Networks for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2111.08082v1 )

ライセンス: CC BY 4.0
Saswati Ray, Sana Lakdawala, Mononito Goswami, Chufan Gao(参考訳) 本稿では,最近提案されたグラフ偏差ネットワーク(GDN)に基づくGLUE(Graph Deviation Network with Local Uncertainty Estimation)を提案する。 GLUEは変数間の複雑な依存関係を自動的に学習し、それを使って異常な振る舞いを識別するだけでなく、その予測の不確実性を定量化することで、データの変動を考慮し、より解釈可能な異常検出しきい値を持つことを可能にします。 2つの実世界のデータセットの結果から、ガウスの対数確率の最適化はgdnと同等であり、実際、gdnが直接mse損失を最適化していることを考えると、ベクターオートレグレッセプタベースラインよりも優れているため、妥当であることがわかる。 まとめると, GLUEは異常検出においてGDNと競合し, 不確実性推定の利点が加わった。 また,glueは,同様のセンサを集積する有意義なセンサ埋め込みを学習する。

In this work, we propose GLUE (Graph Deviation Network with Local Uncertainty Estimation), building on the recently proposed Graph Deviation Network (GDN). GLUE not only automatically learns complex dependencies between variables and uses them to better identify anomalous behavior, but also quantifies its predictive uncertainty, allowing us to account for the variation in the data as well to have more interpretable anomaly detection thresholds. Results on two real world datasets tell us that optimizing the negative Gaussian log likelihood is reasonable because GLUE's forecasting results are at par with GDN and in fact better than the vector autoregressor baseline, which is significant given that GDN directly optimizes the MSE loss. In summary, our experiments demonstrate that GLUE is competitive with GDN at anomaly detection, with the added benefit of uncertainty estimations. We also show that GLUE learns meaningful sensor embeddings which clusters similar sensors together.
翻訳日:2021-11-18 06:15:56 公開日:2021-11-15
# (参考訳) StereoSetを用いた医学・科学マスキング言語モデルにおける性別バイアスの評価

Assessing gender bias in medical and scientific masked language models with StereoSet ( http://arxiv.org/abs/2111.08088v1 )

ライセンス: CC BY 4.0
Robert Robinson(参考訳) NLPシステムは、マスキード言語モデル(MLM)のような言語モデルを使用し、ウィキペディアのような大量のテキストで事前訓練された言語表現を生成する。 BERTは、ラベルなしテキストを用いて開発された強力で柔軟な汎用MLMシステムである。 大量のテキストの事前学習は、ソーステキストに見られる文化的・社会的バイアスをMLMシステムに透過的に埋め込む可能性がある。 本研究の目的は,一般目的のバイアスと医療用mlmとステレオセットバイアスアセスメントツールの比較である。 汎用mlmsは全体的なバイアスが大きく, バートは57点, ロバータは61点であった。 性別バイアスのカテゴリーは最高の成績がみられた場所であり、BERTは63、RoBERTaは73であった。 医学的なmlmsは、scibertを除いて、すべてのカテゴリーにおいて、汎用mlmよりも多くのバイアスを示し、bertのレースバイアススコア53よりも優れた55のレースバイアススコアを示した。 性差(医学54-58 vs. 一般63-73)と宗教46-54 vs. 58)は医療用MLMで認められた。 人種,性別,宗教,職業に関するステレオタイプ評価のための4つの医療用MLMの評価は,汎用MLMに劣る性能を示した。 これらの医学的な焦点を絞ったMLMは、トレーニングソースデータにおいてかなり異なるため、ステレオタイプバイアスのステレオタイプによる評価の違いの根本原因はおそらくStereoSetツールにある。

NLP systems use language models such as Masked Language Models (MLMs) that are pre-trained on large quantities of text such as Wikipedia create representations of language. BERT is a powerful and flexible general-purpose MLM system developed using unlabeled text. Pre-training on large quantities of text also has the potential to transparently embed the cultural and social biases found in the source text into the MLM system. This study aims to compare biases in general purpose and medical MLMs with the StereoSet bias assessment tool. The general purpose MLMs showed significant bias overall, with BERT scoring 57 and RoBERTa scoring 61. The category of gender bias is where the best performances were found, with 63 for BERT and 73 for RoBERTa. Performances for profession, race, and religion were similar to the overall bias scores for the general-purpose MLMs.Medical MLMs showed more bias in all categories than the general-purpose MLMs except for SciBERT, which showed a race bias score of 55, which was superior to the race bias score of 53 for BERT. More gender (Medical 54-58 vs. General 63-73) and religious (46-54 vs. 58) biases were found with medical MLMs. This evaluation of four medical MLMs for stereotyped assessments about race, gender, religion, and profession showed inferior performance to general-purpose MLMs. These medically focused MLMs differ considerably in training source data, which is likely the root cause of the differences in ratings for stereotyped biases from the StereoSet tool.
翻訳日:2021-11-18 06:07:42 公開日:2021-11-15
# (参考訳) visualenv:blenderを使ったビジュアルジム環境

VisualEnv: visual Gym environments with Blender ( http://arxiv.org/abs/2111.08096v1 )

ライセンス: CC BY-SA 4.0
Andrea Scorsoglio, Roberto Furfaro(参考訳) 本稿では,強化学習のための視覚環境構築ツールであるVisualEnvを紹介する。 オープンソースのモデリングおよびレンダリングソフトウェアであるBlenderと、シミュレーション用の環境モデルを生成するために使用されるpythonモジュールであるOpenAI Gymを統合した製品である。 VisualEnvは、フォトリアリスティックなレンダリング機能とpythonとの完全な統合を備えたカスタム環境を作成することができる。 このフレームワークは、強化学習エージェントのトレーニング機能を示す一連の例で説明され、テストされている。

In this paper VisualEnv, a new tool for creating visual environment for reinforcement learning is introduced. It is the product of an integration of an open-source modelling and rendering software, Blender, and a python module used to generate environment model for simulation, OpenAI Gym. VisualEnv allows the user to create custom environments with photorealistic rendering capabilities and full integration with python. The framework is described and tested on a series of example problems that showcase its features for training reinforcement learning agents.
翻訳日:2021-11-18 06:01:53 公開日:2021-11-15
# (参考訳) 変分オートエンコーダにおけるマルチタスク目標によるストーリー生成の検討

Exploring Story Generation with Multi-task Objectives in Variational Autoencoders ( http://arxiv.org/abs/2111.08133v1 )

ライセンス: CC BY 4.0
Zhuohan Xie, Trevor Cohn, Jey Han Lau(参考訳) GPT-2は、強力な生成能力を提供するため、ストーリー生成モデルに頻繁に採用されている。 しかし、一貫性のあるストーリーの生成に失敗し、多様性を欠いている。 現在のストーリー生成モデルは、プロットやコモンセンスなどの追加情報をGPT-2に利用して生成プロセスを導く。 これらのアプローチはストーリーの生成品質の改善に重点を置いていますが、作業は品質と多様性の両方に注目しています。 本稿では,BERT と GPT-2 を組み合わせて変分オートエンコーダ (VAE) を構築し,ストーリートピックや談話関係などのグローバルな特徴を学習するための追加目的を追加することで拡張する。 私たちの評価では、強化されたvaeはより良い品質と多様性のトレードオフを提供し、より反復的なストーリーコンテンツを生成し、より有益な潜在変数を学ぶことができます。

GPT-2 has been frequently adapted in story generation models as it provides powerful generative capability. However, it still fails to generate consistent stories and lacks diversity. Current story generation models leverage additional information such as plots or commonsense into GPT-2 to guide the generation process. These approaches focus on improving generation quality of stories while our work look at both quality and diversity. We explore combining BERT and GPT-2 to build a variational autoencoder (VAE), and extend it by adding additional objectives to learn global features such as story topic and discourse relations. Our evaluations show our enhanced VAE can provide better quality and diversity trade off, generate less repetitive story content and learn a more informative latent variable.
翻訳日:2021-11-18 05:54:03 公開日:2021-11-15
# (参考訳) クライミンググレードスケールのベイズ推定

Bayesian inference of the climbing grade scale ( http://arxiv.org/abs/2111.08140v1 )

ライセンス: CC BY 4.0
Alexei Drummond and Alex Popinga(参考訳) クライミンググレードは、その難易度に基づいて登山ルートを分類するために使用され、ロッククライミングのスポーツにおいて中心的な役割を果たすようになった。 近年,選手間の試合の動的ブラッドレー・テリーモデルに基づいて,全履歴上昇データからクライミンググレードを推定する初の統計的厳密な手法が提案されている。 本稿では,マルコフ連鎖モンテカルロを用いた全史的評価モデルに基づいて推論を行い,定期的に登頂する登山者からなるキュレートデータセットに適用する。 これらのデータを用いて、モデルの基本的なスケールパラメータmを推定し、グレードの増大に伴う困難度の比例的増加を定義する。 このデータは、登頂グレードスケールがデシベルや星等級のような難易度の対数スケールであるという仮定に従っていることを示す。 ewbank, french, uiaaのクライミンググレードシステムのインクリメントは, それぞれ2.1倍, 2.09倍, 2.13倍の難易度に相当し, 成功確率のロジスティックモデルがグレード関数であると推定した。 一方、ボルダリング(vグレードスケール)のバーミン尺度は、段階ごとの難易度が3.17増加することに対応している。 さらに,クライミンググレーティング尺度の対数的性質とウェーバーとフェックナーの心理物理学的法則との関係について考察した。

Climbing grades are used to classify a climbing route based on its perceived difficulty, and have come to play a central role in the sport of rock climbing. Recently, the first statistically rigorous method for estimating climbing grades from whole-history ascent data was described, based on the dynamic Bradley-Terry model for games between players of time-varying ability. In this paper, we implement inference under the whole-history rating model using Markov chain Monte Carlo and apply the method to a curated data set made up of climbers who climb regularly. We use these data to get an estimate of the model's fundamental scale parameter m, which defines the proportional increase in difficulty associated with an increment of grade. We show that the data conform to assumptions that the climbing grade scale is a logarithmic scale of difficulty, like decibels or stellar magnitude. We estimate that an increment in Ewbank, French and UIAA climbing grade systems corresponds to 2.1, 2.09 and 2.13 times increase in difficulty respectively, assuming a logistic model of probability of success as a function of grade. Whereas we find that the Vermin scale for bouldering (V-grade scale) corresponds to a 3.17 increase in difficulty per grade increment. In addition, we highlight potential connections between the logarithmic properties of climbing grade scales and the psychophysical laws of Weber and Fechner.
翻訳日:2021-11-18 05:39:58 公開日:2021-11-15
# 凸幾何学によるマルチクラスオンライン学習

Margin-Independent Online Multiclass Learning via Convex Geometry ( http://arxiv.org/abs/2111.08057v1 )

ライセンス: Link先を確認
Guru Guruganesh, Allen Liu, Jon Schneider, Joshua Wang(参考訳) 逆選択されたクエリのストリームが到着し,オンラインでラベルを割り当てなければならない,多クラス分類の問題を考える。 誤分類率を最小化しようとする従来の境界とは異なり、各クエリから正しいラベルに対応する領域までの距離を最小化する。 真のラベルが近隣のパーティション(すなわち、ある点のラベルがユークリッド距離に最も近い$k$のセンタによって与えられる)で決定されると、クエリの総数に依存しない損失が得られることを示す。 学習一般凸集合はクエリ毎にほぼ線形な損失を必要とすることを示すことにより,この結果を補完する。 その結果,文脈探索の幾何学的問題に対する後悔の保証が得られた。 また,多クラス分類から二進分類への新しい還元手法を開発し,独立して興味を持つことができる。

We consider the problem of multi-class classification, where a stream of adversarially chosen queries arrive and must be assigned a label online. Unlike traditional bounds which seek to minimize the misclassification rate, we minimize the total distance from each query to the region corresponding to its correct label. When the true labels are determined via a nearest neighbor partition -- i.e. the label of a point is given by which of $k$ centers it is closest to in Euclidean distance -- we show that one can achieve a loss that is independent of the total number of queries. We complement this result by showing that learning general convex sets requires an almost linear loss per query. Our results build off of regret guarantees for the geometric problem of contextual search. In addition, we develop a novel reduction technique from multiclass classification to binary classification which may be of independent interest.
翻訳日:2021-11-17 16:23:23 公開日:2021-11-15
# ModelLight:交通信号制御のためのモデルベースメタ強化学習

ModelLight: Model-Based Meta-Reinforcement Learning for Traffic Signal Control ( http://arxiv.org/abs/2111.08067v1 )

ライセンス: Link先を確認
Xingshuai Huang, Di Wu, Michael Jenkin and Benoit Boulet(参考訳) 交通信号の制御は交通インフラの有効利用において重要である。 車両交通の急速な増加と交通パターンの変化により、交通信号の制御がますます困難になる。 強化学習(RL)に基づくアルゴリズムは,交通信号制御におけるその可能性を示す。 しかし、既存のソリューションの多くは大量のトレーニングデータを必要としており、現実のシナリオでは受け入れられない。 本稿では,交通信号制御のためのモデルベースメタ強化学習フレームワーク(ModelLight)を提案する。 ModelLight内では、道路交差点のためのモデルのアンサンブルと最適化に基づくメタラーニング法を用いて、RLベースの信号制御方式のデータ効率を改善する。 実世界のデータセットの実験では、ModelLightが最先端のトラヒックライト制御アルゴリズムより優れており、実際の環境と必要なインタラクションの数を大幅に削減することができる。

Traffic signal control is of critical importance for the effective use of transportation infrastructures. The rapid increase of vehicle traffic and changes in traffic patterns make traffic signal control more and more challenging. Reinforcement Learning (RL)-based algorithms have demonstrated their potential in dealing with traffic signal control. However, most existing solutions require a large amount of training data, which is unacceptable for many real-world scenarios. This paper proposes a novel model-based meta-reinforcement learning framework (ModelLight) for traffic signal control. Within ModelLight, an ensemble of models for road intersections and the optimization-based meta-learning method are used to improve the data efficiency of an RL-based traffic light control method. Experiments on real-world datasets demonstrate that ModelLight can outperform state-of-the-art traffic light control algorithms while substantially reducing the number of required interactions with the real-world environment.
翻訳日:2021-11-17 16:23:10 公開日:2021-11-15
# ゲノムデータの機械学習

Machine Learning for Genomic Data ( http://arxiv.org/abs/2111.08507v1 )

ライセンス: Link先を確認
Akankshita Dash(参考訳) 本報告では、短時間の遺伝子発現データに対する機械学習手法の適用について検討する。 標準的な機械学習アルゴリズムは長い時系列でうまく機能するが、多くの場合、少ない時間点から有意義な洞察を得ることができない。 本稿では,モデルに基づくクラスタリング手法について検討する。 我々はK-Means, Gaussian Mixture Models, Bayesian Networks, Hidden Markov Modelsなどの教師なし学習技術とよく知られた期待最大化アルゴリズムを組み合わせた。 K-Means と Gaussian Mixture Models はかなり標準的なモデルであるが、Hidden Markov Model と Bayesian Networks clustering は時系列遺伝子発現データに適した新しいアイデアである。

This report explores the application of machine learning techniques on short timeseries gene expression data. Although standard machine learning algorithms work well on longer time-series', they often fail to find meaningful insights from fewer timepoints. In this report, we explore model-based clustering techniques. We combine popular unsupervised learning techniques like K-Means, Gaussian Mixture Models, Bayesian Networks, Hidden Markov Models with the well-known Expectation Maximization algorithm. K-Means and Gaussian Mixture Models are fairly standard, while Hidden Markov Model and Bayesian Networks clustering are more novel ideas that suit time-series gene expression data.
翻訳日:2021-11-17 16:19:58 公開日:2021-11-15
# 確率自由推論による脳灰白質モデルの反転--信頼できる細胞構造計測のためのツール

Inverting brain grey matter models with likelihood-free inference: a tool for trustable cytoarchitecture measurements ( http://arxiv.org/abs/2111.08693v1 )

ライセンス: Link先を確認
Ma\"eliss Jallais (PARIETAL), Pedro Rodrigues (PARIETAL), Alexandre Gramfort (PARIETAL), Demian Wassermann (PARIETAL)(参考訳) 拡散MRI(dMRI)では,脳の灰白質細胞構造を定量的に解析し,ソマ密度と体積に敏感に特徴付けることができる。 dMRI信号と細胞構造的特徴を関連付ける問題は、少数の生理的関連パラメータとモデルを反転させるアルゴリズムを通じて脳組織を記述する数学的モデルを定義することを要求する。 この問題に対処するために,我々は新しい前方モデル,特に,比較的スパースなb-シェルを必要とする新しい方程式系を提案する。 次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。 文献からの他のアプローチとは対照的に、このアルゴリズムは与えられた観測データ点 $x_0$ を最もよく記述するパラメータベクトル $\theta$ の推定だけでなく、パラメータ空間上の完全な後方分布 $p(\theta|x_0)$ も得る。 これにより、モデル逆転のより豊かな記述が可能になり、推定パラメータの信頼区間や、モデルが不確定性を示す可能性のあるパラメータ領域の完全な特徴づけなどの指標を提供する。 我々は, 流れの正規化として知られる深層神経密度推定器を用いて後方分布を近似し, 前方モデルからの繰り返しシミュレーションを用いて近似する。 dmipyを使ってシミュレーションのアプローチを検証し、2つの公開データセットにパイプライン全体を適用する。

Effective characterisation of the brain grey matter cytoarchitecture with quantitative sensitivity to soma density and volume remains an unsolved challenge in diffusion MRI (dMRI). Solving the problem of relating the dMRI signal with cytoarchitectural characteristics calls for the definition of a mathematical model that describes brain tissue via a handful of physiologically-relevant parameters and an algorithm for inverting the model. To address this issue, we propose a new forward model, specifically a new system of equations, requiring a few relatively sparse b-shells. We then apply modern tools from Bayesian analysis known as likelihood-free inference (LFI) to invert our proposed model. As opposed to other approaches from the literature, our algorithm yields not only an estimation of the parameter vector $\theta$ that best describes a given observed data point $x_0$, but also a full posterior distribution $p(\theta|x_0)$ over the parameter space. This enables a richer description of the model inversion, providing indicators such as credible intervals for the estimated parameters and a complete characterization of the parameter regions where the model may present indeterminacies. We approximate the posterior distribution using deep neural density estimators, known as normalizing flows, and fit them using a set of repeated simulations from the forward model. We validate our approach on simulations using dmipy and then apply the whole pipeline on two publicly available datasets.
翻訳日:2021-11-17 16:18:35 公開日:2021-11-15
# 収縮性大脳神経比推定を用いた高速・信頼性自由宇宙論

Fast and Credible Likelihood-Free Cosmology with Truncated Marginal Neural Ratio Estimation ( http://arxiv.org/abs/2111.08030v1 )

ライセンス: Link先を確認
Alex Cole, Benjamin Kurt Miller, Samuel J. Witte, Maxwell X. Cai, Meiert W. Grootes, Francesco Nattino, Christoph Weniger(参考訳) サンプリングに基づく推論技術は現代の宇宙データ分析の中心であるが、これらの手法は次元性に乏しく、典型的には近似的あるいは難解な可能性を必要とする。 本稿では,Truncated Marginal Neural Ratio Estimation (TMNRE) (いわゆるシミュレーションベース推論の新しいアプローチ) がこれらの問題を自然に回避し,$を改良した方法について述べる。 (i)$効率、$ (ii)スケーラビリティ、および$ (iii)推測された後肢の信頼性。 宇宙マイクロ波背景測定(CMB)を用いて,従来のマルコフ・チェイン・モンテカルロ法(MCMC)よりもはるかに少ないシミュレーションコールで,TMNREが収束後部を達成可能であることを示す。 驚くべきことに、必要なサンプル数は、迷惑パラメータの数に依存しない。 さらに、 \emph{local amortization} と呼ばれるプロパティは、サンプリングベースのメソッドではアクセスできない厳密な統計一貫性チェックのパフォーマンスを可能にする。 tmnreは、従来のサンプリングベースの推論手法が収束するのに要する時間スケールが$\lambda$cdmのような単純な宇宙論モデルを大幅に超えるような拡張宇宙論の文脈において、宇宙論的データ分析の強力なツールになることを約束している。 これらの計算を行うために,オープンソースコード \texttt{swyft} を通じて TMNRE の実装を利用する。

Sampling-based inference techniques are central to modern cosmological data analysis; these methods, however, scale poorly with dimensionality and typically require approximate or intractable likelihoods. In this paper we describe how Truncated Marginal Neural Ratio Estimation (TMNRE) (a new approach in so-called simulation-based inference) naturally evades these issues, improving the $(i)$ efficiency, $(ii)$ scalability, and $(iii)$ trustworthiness of the inferred posteriors. Using measurements of the Cosmic Microwave Background (CMB), we show that TMNRE can achieve converged posteriors using orders of magnitude fewer simulator calls than conventional Markov Chain Monte Carlo (MCMC) methods. Remarkably, the required number of samples is effectively independent of the number of nuisance parameters. In addition, a property called \emph{local amortization} allows the performance of rigorous statistical consistency checks that are not accessible to sampling-based methods. TMNRE promises to become a powerful tool for cosmological data analysis, particularly in the context of extended cosmologies, where the timescale required for conventional sampling-based inference methods to converge can greatly exceed that of simple cosmological models such as $\Lambda$CDM. To perform these computations, we use an implementation of TMNRE via the open-source code \texttt{swyft}.
翻訳日:2021-11-17 16:16:56 公開日:2021-11-15
# 部分的に観察可能な歴史過程

The Partially Observable History Process ( http://arxiv.org/abs/2111.08102v1 )

ライセンス: Link先を確認
Dustin Morrill, Amy R. Greenwald, Michael Bowling(参考訳) 本稿では,強化学習のための部分可観測歴史プロセス(pohp)形式を導入する。 POHPは単一のエージェントの動作と観察を中心とし、確率過程に還元することなく他のプレイヤーの存在を抽象化する。 私たちのフォーマリズムは、アルゴリズムを設計するための合理化インターフェースを提供し、これらドメインにまたがって適用される理論を開発するために、専らシングルエージェントまたはマルチエージェントとして分類する。 我々は,pohp形式主義がマルコフ決定過程,マルコフゲーム,拡張形式ゲーム,およびそれらの部分的に観察可能な拡張など,従来のモデルとどのように統合するかを,重荷のかかる技術的機械の導入や強化学習の哲学的基盤に違反することなく示す。 我々は,観測可能な逐次的合理性を簡潔に探究し,efrアルゴリズムを再導出し,efrの理論特性をより汎用的に検証することにより,形式主義の有用性を示す。

We introduce the partially observable history process (POHP) formalism for reinforcement learning. POHP centers around the actions and observations of a single agent and abstracts away the presence of other players without reducing them to stochastic processes. Our formalism provides a streamlined interface for designing algorithms that defy categorization as exclusively single or multi-agent, and for developing theory that applies across these domains. We show how the POHP formalism unifies traditional models including the Markov decision process, the Markov game, the extensive-form game, and their partially observable extensions, without introducing burdensome technical machinery or violating the philosophical underpinnings of reinforcement learning. We illustrate the utility of our formalism by concisely exploring observable sequential rationality, re-deriving the extensive-form regret minimization (EFR) algorithm, and examining EFR's theoretical properties in greater generality.
翻訳日:2021-11-17 15:26:59 公開日:2021-11-15
# ハミルトニアンダイナミクスの確率モデルによる最適制御の学習

Learning Optimal Control with Stochastic Models of Hamiltonian Dynamics ( http://arxiv.org/abs/2111.08108v1 )

ライセンス: Link先を確認
Chandrajit Bajaj and Minh Nguyen(参考訳) 最適制御問題は、まずポントリャーギンの最大原理を適用し、次に対応する非制約ハミルトン力学系の解を計算することで解決できる。 本稿では,ロバスト性と効率のバランスを達成するために,制約のないハミルトニアンの還元ハミルトニアンについて学ぶ。 この還元ハミルトニアンは時間を遡って学習し、ポントリャーギンの最大原理条件の適用による損失関数を最小化する。 学習過程のロバスト性は、縮小ハミルトンの後方分布を徐々に学習することによってさらに向上する。 これにより、位相空間の一般化された座標(位置、速度)をより効率的にサンプリングすることができる。 我々の解フレームワークは、有限次元位相(状態)空間の最適制御問題だけでなく、無限次元の場合にも適用される。

Optimal control problems can be solved by first applying the Pontryagin maximum principle, followed by computing a solution of the corresponding unconstrained Hamiltonian dynamical system. In this paper, and to achieve a balance between robustness and efficiency, we learn a reduced Hamiltonian of the unconstrained Hamiltonian. This reduced Hamiltonian is learned by going backward in time and by minimizing the loss function resulting from application of the Pontryagin maximum principle conditions. The robustness of our learning process is then further improved by progressively learning a posterior distribution of reduced Hamiltonians. This leads to a more efficient sampling of the generalized coordinates (position, velocity) of our phase space. Our solution framework applies to not only optimal control problems with finite-dimensional phase (state) spaces but also the infinite dimensional case.
翻訳日:2021-11-17 15:26:43 公開日:2021-11-15
# エンジニアリング設計のための特許データ: レビュー

Patent Data for Engineering Design: A Review ( http://arxiv.org/abs/2111.08500v1 )

ライセンス: Link先を確認
Shuo Jiang, Serhad Sarica, Binyang Song, Jie Hu, Jianxi Luo(参考訳) 特許データは、大量の設計情報を含むため、長い間エンジニアリング設計研究に利用されてきた。 人工知能とデータサイエンスの最近の進歩は、設計理論と方法論を開発するために特許データの発掘、分析、活用する前例のない機会を提示している。 本稿では, 設計理論, 方法, ツール, 戦略, 各種の特許データ, 各種手法への貢献により, 特許・意匠に関する文献を調査する。 我々のレビューは、この分野の今後の研究の方向性に光を当てている。

Patent data have been utilized for engineering design research for long because it contains massive amount of design information. Recent advances in artificial intelligence and data science present unprecedented opportunities to mine, analyse and make sense of patent data to develop design theory and methodology. Herein, we survey the patent-for-design literature by their contributions to design theories, methods, tools, and strategies, as well as different forms of patent data and various methods. Our review sheds light on promising future research directions for the field.
翻訳日:2021-11-17 15:25:53 公開日:2021-11-15
# 冬季小麦の初期収量予測のための2次元深部回帰

Two-dimensional Deep Regression for Early Yield Prediction of Winter Wheat ( http://arxiv.org/abs/2111.08069v1 )

ライセンス: Link先を確認
Giorgio Morales, John W. Sheppard(参考訳) 作物収量予測は精密農業の課題の一つであり、フィールドの多源周期観測に基づいて自動化することができる。 本研究では,衛星画像と地上情報を組み合わせたデータから学習した畳み込みニューラルネットワーク(cnn)を用いて,収率予測問題に取り組む。 本稿では,多チャンネル入力画像を取り込んで2次元ラスタを出力する,hyper3dnetregと呼ばれるcnnアーキテクチャを提案する。 我々は,Sentinel-1衛星から取得したレーダーデータを利用する一方,地上データは窒素濃度,降水量,斜面,標高,地形位置指数(TPI),アスペクトの6つのラスタ特徴に対応する。 冬の小麦栽培期(3月)の早い時期に収集したデータを用いて,収穫期(8月)の収穫量を予測する。 冬小麦の4分野を対象に実験を行い, 提案手法は, 複数線形回帰法, AdaBoostを用いたフィードフォワードネットワークのアンサンブル, 積み重ねオートエンコーダ, および他の2つのCNNアーキテクチャを含む5つの比較手法よりも優れた結果が得られることを示した。

Crop yield prediction is one of the tasks of Precision Agriculture that can be automated based on multi-source periodic observations of the fields. We tackle the yield prediction problem using a Convolutional Neural Network (CNN) trained on data that combines radar satellite imagery and on-ground information. We present a CNN architecture called Hyper3DNetReg that takes in a multi-channel input image and outputs a two-dimensional raster, where each pixel represents the predicted yield value of the corresponding input pixel. We utilize radar data acquired from the Sentinel-1 satellites, while the on-ground data correspond to a set of six raster features: nitrogen rate applied, precipitation, slope, elevation, topographic position index (TPI), and aspect. We use data collected during the early stage of the winter wheat growing season (March) to predict yield values during the harvest season (August). We present experiments over four fields of winter wheat and show that our proposed methodology yields better results than five compared methods, including multiple linear regression, an ensemble of feedforward networks using AdaBoost, a stacked autoencoder, and two other CNN architectures.
翻訳日:2021-11-17 15:24:43 公開日:2021-11-15
# SPLDExtraTrees: キナーゼ阻害剤耐性の予測のためのロバスト機械学習アプローチ

SPLDExtraTrees: Robust machine learning approach for predicting kinase inhibitor resistance ( http://arxiv.org/abs/2111.08008v1 )

ライセンス: Link先を確認
Ziyi Yang, Zhaofeng Ye, Yijia Xiao, and Changyu Hsieh(参考訳) 薬物耐性は世界の健康にとって大きな脅威であり、疾患や薬物開発に関する臨床治療において重要な関心事である。 薬物結合に関連するタンパク質の変異は、適応的な薬剤耐性の一般的な原因である。 したがって、変異が薬物と標的タンパク質の相互作用にどのように影響するかを定量的に推定することは、薬物開発と臨床実践にとって重要なことである。 分子動力学シミュレーション、ロゼッタプロトコル、および機械学習手法に依存する計算手法は、タンパク質変異によるリガンド親和性の変化を予測することができることが証明されている。 しかし, 厳密なサンプルサイズと騒音による過度適合と一般化の問題により, 薬物耐性研究に機械学習が広く採用されている。 本稿では,タンパク質変異によるリガンド結合親和性の変化を正確に予測し,耐性を有する突然変異を同定する,堅牢な機械学習手法SPLDExtraTreesを提案する。 特に,提案手法では,学習が容易なサンプルから始まり,より困難で多様なサンプルを徐々にトレーニングに組み込む特定のスキームに従ってトレーニングデータを分類し,サンプル重み再計算とモデル更新を繰り返す。 さらに、このデータ制限予測タスクのためのタンパク質に関する貴重なドメイン知識を機械学習モデルに提供するために、物理ベースの構造的特徴を算定する。 実験では,3つのシナリオでキナーゼ阻害剤耐性を予測し,分子動力学やロゼッタ法に匹敵する予測精度を計算コストで実現した。

Drug resistance is a major threat to the global health and a significant concern throughout the clinical treatment of diseases and drug development. The mutation in proteins that is related to drug binding is a common cause for adaptive drug resistance. Therefore, quantitative estimations of how mutations would affect the interaction between a drug and the target protein would be of vital significance for the drug development and the clinical practice. Computational methods that rely on molecular dynamics simulations, Rosetta protocols, as well as machine learning methods have been proven to be capable of predicting ligand affinity changes upon protein mutation. However, the severely limited sample size and heavy noise induced overfitting and generalization issues have impeded wide adoption of machine learning for studying drug resistance. In this paper, we propose a robust machine learning method, termed SPLDExtraTrees, which can accurately predict ligand binding affinity changes upon protein mutation and identify resistance-causing mutations. Especially, the proposed method ranks training data following a specific scheme that starts with easy-to-learn samples and gradually incorporates harder and diverse samples into the training, and then iterates between sample weight recalculations and model updates. In addition, we calculate additional physics-based structural features to provide the machine learning model with the valuable domain knowledge on proteins for this data-limited predictive tasks. The experiments substantiate the capability of the proposed method for predicting kinase inhibitor resistance under three scenarios, and achieves predictive accuracy comparable to that of molecular dynamics and Rosetta methods with much less computational costs.
翻訳日:2021-11-17 15:20:06 公開日:2021-11-15
# 目標指向セマンティックコミュニケーションのための共通言語:カリキュラム学習フレームワーク

Common Language for Goal-Oriented Semantic Communications: A Curriculum Learning Framework ( http://arxiv.org/abs/2111.08051v1 )

ライセンス: Link先を確認
Mohammad Karimzadeh Farshbafan, Walid Saad, and Merouane Debbah(参考訳) セマンティック通信は、次世代無線システム上でゴール指向サービスを実現する上で重要な役割を果たす。 しかし、このドメインのほとんどの先行技術は特定のアプリケーション(例えばテキストや画像)に限定されており、特定のタスクを実行するために送信された情報の有効性をセマンティクスとともに考慮しなければならないゴール指向の通信は許可されていない。 本稿では,目標指向タスク実行を実現するための包括的意味コミュニケーションフレームワークを提案する。 話者とリスナーのセマンティクスをキャプチャするために、信念の概念を用いて共通言語を定義し、話者がリスナーに環境観察を記述できるようにする。 次に、タスクの実行時間と送信コストを最小にしつつ、観察を完全に記述する信念の最小セットを選択するための最適化問題を提案する。 この問題を解決するために, カリキュラム学習(cl)と強化学習(rl)を組み合わせた新しいトップダウンフレームワークを提案する。 シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。

Semantic communications will play a critical role in enabling goal-oriented services over next-generation wireless systems. However, most prior art in this domain is restricted to specific applications (e.g., text or image), and it does not enable goal-oriented communications in which the effectiveness of the transmitted information must be considered along with the semantics so as to execute a certain task. In this paper, a comprehensive semantic communications framework is proposed for enabling goal-oriented task execution. To capture the semantics between a speaker and a listener, a common language is defined using the concept of beliefs to enable the speaker to describe the environment observations to the listener. Then, an optimization problem is posed to choose the minimum set of beliefs that perfectly describes the observation while minimizing the task execution time and transmission cost. A novel top-down framework that combines curriculum learning (CL) and reinforcement learning (RL) is proposed to solve this problem. Simulation results show that the proposed CL method outperforms traditional RL in terms of convergence time, task execution time, and transmission cost during training.
翻訳日:2021-11-17 15:19:41 公開日:2021-11-15
# 未知学習のための合成未知クラス学習

Synthetic Unknown Class Learning for Learning Unknowns ( http://arxiv.org/abs/2111.08062v1 )

ライセンス: Link先を確認
Jaeyeon Jang(参考訳) 本稿では、未知のサンプルを検知しながら、既知のクラスのサンプルを正しく分類することを目的とするオープンセット認識(OSR)問題に対処する。 OSR問題では、「未知」が無限の可能性を持つと仮定される。 直感的には、OSRシステムは未知の可能性を探るほど、未知を検知する可能性が高くなる。 そこで本稿では,生成したサンプル間の多様性を維持しつつ未知のサンプルを生成し,それらのサンプルを学習する新しい合成未知クラス学習法を提案する。 この未知のサンプル生成プロセスに加えて、知識蒸留を導入して、合成未知を学習する余地を提供する。 未知のサンプルと既知のサンプルを交互に学習することにより,多様な合成未知を経験するだけでなく,既知のクラスに対する過度な一般化を低減できる。 いくつかのベンチマークデータセットの実験により、提案手法は他の最先端手法よりも大幅に優れていることが示された。 また、MNISTデータセットのトレーニング後、提案手法を用いて、現実的な未知の数字を生成および学習できることが示されている。

This paper addresses the open set recognition (OSR) problem, where the goal is to correctly classify samples of known classes while detecting unknown samples to reject. In the OSR problem, "unknown" is assumed to have infinite possibilities because we have no knowledge about unknowns until they emerge. Intuitively, the more an OSR system explores the possibilities of unknowns, the more likely it is to detect unknowns. Thus, this paper proposes a novel synthetic unknown class learning method that generates unknown-like samples while maintaining diversity between the generated samples and learns these samples. In addition to this unknown sample generation process, knowledge distillation is introduced to provide room for learning synthetic unknowns. By learning the unknown-like samples and known samples in an alternating manner, the proposed method can not only experience diverse synthetic unknowns but also reduce overgeneralization with respect to known classes. Experiments on several benchmark datasets show that the proposed method significantly outperforms other state-of-the-art approaches. It is also shown that realistic unknown digits can be generated and learned via the proposed method after training on the MNIST dataset.
翻訳日:2021-11-17 15:07:04 公開日:2021-11-15
# オフライン強化学習におけるアクションインパクト正則性と部分的既知のモデルの利用

Exploiting Action Impact Regularity and Partially Known Models for Offline Reinforcement Learning ( http://arxiv.org/abs/2111.08066v1 )

ライセンス: Link先を確認
Vincent Liu, James Wright, Martha White(参考訳) オフライン強化学習 データバッチからのポリシの学習は難しいことが分かっています。 強い仮定がなければ、既存のアルゴリズムが失敗するような反例を簡単に構築できます。 この研究では、オフライン強化学習が効果的であるべき現実世界の問題(アクションが状態の一部に限定的な影響しか持たない場合)の特性を考える。 私たちはこのAction Impact Regularity(AIR)プロパティを形式化し紹介します。 我々はさらに,AIR特性を仮定し,活用するアルゴリズムを提案し,MDPがAIRを満たす場合の出力ポリシーの最適度を限定する。 最後に,本アルゴリズムは,正規性が保持される2つのシミュレーション環境において,異なるデータ収集ポリシーにまたがる既存のオフライン強化学習アルゴリズムよりも優れていることを示す。

Offline reinforcement learning-learning a policy from a batch of data-is known to be hard: without making strong assumptions, it is easy to construct counterexamples such that existing algorithms fail. In this work, we instead consider a property of certain real world problems where offline reinforcement learning should be effective: those where actions only have limited impact for a part of the state. We formalize and introduce this Action Impact Regularity (AIR) property. We further propose an algorithm that assumes and exploits the AIR property, and bound the suboptimality of the output policy when the MDP satisfies AIR. Finally, we demonstrate that our algorithm outperforms existing offline reinforcement learning algorithms across different data collection policies in two simulated environments where the regularity holds.
翻訳日:2021-11-17 15:01:11 公開日:2021-11-15
# TimeVAE:多変量時系列生成のための変分自動エンコーダ

TimeVAE: A Variational Auto-Encoder for Multivariate Time Series Generation ( http://arxiv.org/abs/2111.08095v1 )

ライセンス: Link先を確認
Abhyuday Desai, Cynthia Freeman, Zuhui Wang, Ian Beaver(参考訳) 時系列領域における合成データ生成の最近の研究は、ジェネレーティブ・アドバイサル・ネットワークの利用に焦点を当てている。 本稿では,変分自動エンコーダ(VAE)を用いて時系列データを合成生成する新しいアーキテクチャを提案する。 提案されたアーキテクチャには、解釈可能性、ドメイン知識をエンコードする能力、トレーニング時間の短縮など、いくつかの異なる特性がある。 4つの多変量データセットに対する類似性と予測可能性によってデータ生成品質を評価する。 我々は,vae法および最先端データ生成法において,データ可用性が生成品質に与える影響を測定するために,トレーニングデータのサイズを変化させる実験を行った。 類似性試験の結果から,VAE手法が元のデータの時間特性を正確に表現できることが示唆された。 生成データを用いた次のステップ予測タスクでは,提案するvaeアーキテクチャが最先端データ生成手法の性能を一貫して満たしているか,あるいは超えている。 ノイズ低減は、生成したデータを元のデータから逸脱させる可能性があるが、生成したデータを用いた次のステップ予測の性能を著しく向上させることができることを示す。 最後に、提案アーキテクチャは、多項式トレンドや季節性などのドメイン固有の時間パターンを組み込んで解釈可能な出力を提供する。 このような解釈性は、モデル出力の透明性を必要とするアプリケーションや、ユーザが時系列パターンの事前知識を生成モデルに注入したい場合に非常に有利である。

Recent work in synthetic data generation in the time-series domain has focused on the use of Generative Adversarial Networks. We propose a novel architecture for synthetically generating time-series data with the use of Variational Auto-Encoders (VAEs). The proposed architecture has several distinct properties: interpretability, ability to encode domain knowledge, and reduced training times. We evaluate data generation quality by similarity and predictability against four multivariate datasets. We experiment with varying sizes of training data to measure the impact of data availability on generation quality for our VAE method as well as several state-of-the-art data generation methods. Our results on similarity tests show that the VAE approach is able to accurately represent the temporal attributes of the original data. On next-step prediction tasks using generated data, the proposed VAE architecture consistently meets or exceeds performance of state-of-the-art data generation methods. While noise reduction may cause the generated data to deviate from original data, we demonstrate the resulting de-noised data can significantly improve performance for next-step prediction using generated data. Finally, the proposed architecture can incorporate domain-specific time-patterns such as polynomial trends and seasonalities to provide interpretable outputs. Such interpretability can be highly advantageous in applications requiring transparency of model outputs or where users desire to inject prior knowledge of time-series patterns into the generative model.
翻訳日:2021-11-17 14:59:19 公開日:2021-11-15
# 線形しきい値アクティベーションを持つニューラルネットワーク:構造とアルゴリズム

Neural networks with linear threshold activations: structure and algorithms ( http://arxiv.org/abs/2111.08117v1 )

ライセンス: Link先を確認
Sammy Khalife, Amitabh Basu(参考訳) 本稿では,線形しきい値アクティベーション関数を有するニューラルネットワークに関する新しい結果を示す。 このようなニューラルネットワークで表現可能な関数のクラスを正確に特徴付け、クラス内で表現可能な関数を表現するのに2つの隠蔽層が必要であることを示す。 これは、修正線形ユニット(ReLU)のような他の一般的なアクティベーション機能を用いたニューラルネットワークの最近の正確な表現可能性調査の光による驚くべき結果である。 また、クラス内の任意の関数を表現するのに必要なニューラルネットワークのサイズに関する正確な境界も与えます。 最後に,これらのニューラルネットワークのグローバル最適性に対するerm(experience risk minimization)問題を解決するアルゴリズムを設計した。 アルゴリズムの実行時間は、入力次元とネットワークアーキテクチャのサイズが固定定数である場合、データサンプルのサイズで多項式となる。 このアルゴリズムは、複数の層を持つ任意のアーキテクチャで機能するという意味ではユニークであるが、以前の多項式時間のグローバル最適アルゴリズムは、非常に制限されたアーキテクチャクラスでのみ動作する。

In this article we present new results on neural networks with linear threshold activation functions. We precisely characterize the class of functions that are representable by such neural networks and show that 2 hidden layers are necessary and sufficient to represent any function representable in the class. This is a surprising result in the light of recent exact representability investigations for neural networks using other popular activation functions like rectified linear units (ReLU). We also give precise bounds on the sizes of the neural networks required to represent any function in the class. Finally, we design an algorithm to solve the empirical risk minimization (ERM) problem to global optimality for these neural networks with a fixed architecture. The algorithm's running time is polynomial in the size of the data sample, if the input dimension and the size of the network architecture are considered fixed constants. The algorithm is unique in the sense that it works for any architecture with any number of layers, whereas previous polynomial time globally optimal algorithms work only for very restricted classes of architectures.
翻訳日:2021-11-17 14:58:59 公開日:2021-11-15
# 能動的学習による科学的エミュレーションにおけるロングテールロスの低減

Reducing the Long Tail Losses in Scientific Emulations with Active Learning ( http://arxiv.org/abs/2111.08498v1 )

ライセンス: Link先を確認
Yi Heng Lim, Muhammad Firmansyah Kasim(参考訳) ディープラーニングベースのモデルは、科学研究を加速するために科学シミュレーションをエミュレートするためにますます使われています。 しかし、正確で教師付きディープラーニングモデルには大量のラベル付きデータが必要であり、ニューラルネットワークを採用する際のボトルネックになることが多い。 本研究では,コアセット選択と呼ばれるアクティブな学習手法を用いて,事前定義された予算に基づいてデータを積極的に選択し,トレーニング用にラベル付けする。 モデルのパフォーマンスをさらに向上し、トレーニングコストを削減すべく、縮小・摂動トリックを用いたトレーニングも開始しました。 天体物理学およびプラズマ物理学におけるX線放射分光をモデル化した銀河ハロー占有分布の2つのケーススタディを検証した結果, ランダムサンプリングベースラインを用いた場合と比較して総合的な性能が向上し, さらに重要なことは, 損失分布の長い尾が, ほぼオーバーヘッドコストで, より大きな絶対損失を低減できたことだ。

Deep-learning-based models are increasingly used to emulate scientific simulations to accelerate scientific research. However, accurate, supervised deep learning models require huge amount of labelled data, and that often becomes the bottleneck in employing neural networks. In this work, we leveraged an active learning approach called core-set selection to actively select data, per a pre-defined budget, to be labelled for training. To further improve the model performance and reduce the training costs, we also warm started the training using a shrink-and-perturb trick. We tested on two case studies in different fields, namely galaxy halo occupation distribution modelling in astrophysics and x-ray emission spectroscopy in plasma physics, and the results are promising: we achieved competitive overall performance compared to using a random sampling baseline, and more importantly, successfully reduced the larger absolute losses, i.e. the long tail in the loss distribution, at virtually no overhead costs.
翻訳日:2021-11-17 14:55:23 公開日:2021-11-15
# LIMEcraft: Visual eXplanationsのための手作りスーパーピクセル選択と検査

LIMEcraft: Handcrafted superpixel selection and inspection for Visual eXplanations ( http://arxiv.org/abs/2111.08094v1 )

ライセンス: Link先を確認
Weronika Hryniewska, Adrianna Grudzie\'n, Przemys{\l}aw Biecek(参考訳) ディープラーニングアプリケーションへの関心が高まり、その検出の難しいバイアスにより、複雑なモデルの検証と説明が必要になる。 しかし、現在の説明方法は、推論過程の説明と予測結果の両方に関して限定されている。 それらは通常、モデル予測に重要な画像の場所のみを表示する。 説明と対話する可能性の欠如は、モデルがどのように機能するかを正確に検証し理解することを難しくする。 これにより、モデルを使用する場合、大きなリスクが生じる。 説明が説明対象の意味的意味を考慮しないという事実によって複合化される。 静的な説明の罠から逃れるために,ユーザが対話的に意味的に一貫した領域を選択できるlimecraftという手法を提案し,多数の画像特徴の場合には画像インスタンスの予測を徹底的に検討する。 複数のモデルを用いた実験により,モデルバイアスを示唆する画像片のフェアネスを検査することにより,モデル安全性が向上した。 コードは、http://github.com/MI2DataLab/LIMEcraftで入手できる。

The increased interest in deep learning applications, and their hard-to-detect biases result in the need to validate and explain complex models. However, current explanation methods are limited as far as both the explanation of the reasoning process and prediction results are concerned. They usually only show the location in the image that was important for model prediction. The lack of possibility to interact with explanations makes it difficult to verify and understand exactly how the model works. This creates a significant risk when using the model. It is compounded by the fact that explanations do not take into account the semantic meaning of the explained objects. To escape from the trap of static explanations, we propose an approach called LIMEcraft that allows a user to interactively select semantically consistent areas and thoroughly examine the prediction for the image instance in case of many image features. Experiments on several models showed that our method improves model safety by inspecting model fairness for image pieces that may indicate model bias. The code is available at: http://github.com/MI2DataLab/LIMEcraft
翻訳日:2021-11-17 14:08:42 公開日:2021-11-15
# 多言語ASRにおける教師なしと教師なしの併用訓練

Joint Unsupervised and Supervised Training for Multilingual ASR ( http://arxiv.org/abs/2111.08137v1 )

ライセンス: Link先を確認
Junwen Bai, Bo Li, Yu Zhang, Ankur Bapna, Nikhil Siddhartha, Khe Chai Sim, Tara N. Sainath(参考訳) 自己教師型トレーニングは、事前訓練モデルや、マルチリンガルASRのような音声認識のための下流ファインタニングの促進に有望な効果を示している。 既存のほとんどの手法では、第1の事前訓練段階で自己監督的損失が最適化され、第2の段階では標準監督的微調整が再開される2段階方式を採用している。 本稿では、教師付きRNN-T損失と自己監督型コントラスト・マスク型言語モデリング(MLM)損失を組み合わせ、エンドツーエンド(E2E)統合教師なし・監視訓練(JUST)手法を提案する。 8つの言語を含む非常に不均衡な公開データセットである多言語librispeech (mls) でその性能を検証する。 MLSでは,(1)スクラッチから訓練されたJUST,(2)予め訓練されたチェックポイントから微調整されたJUSTを探索する。 実験の結果、JUSTは既存の最先端の手法を一貫して上回り、モノリンガルのベースラインをかなりの差で上回り、マルチリンガルASRにおける低リソース言語を扱う能力を示している。 我々の言語の平均WERは平均単言語ベースラインを33.3%上回り、最先端の2段階XLSRを32%上回っている。 ポーランド語のような低リソース言語では、WERはモノリンガルベースラインの半分以下であり、外部監視を用いた教師あり移動学習手法に勝っている。

Self-supervised training has shown promising gains in pretraining models and facilitating the downstream finetuning for speech recognition, like multilingual ASR. Most existing methods adopt a 2-stage scheme where the self-supervised loss is optimized in the first pretraining stage, and the standard supervised finetuning resumes in the second stage. In this paper, we propose an end-to-end (E2E) Joint Unsupervised and Supervised Training (JUST) method to combine the supervised RNN-T loss and the self-supervised contrastive and masked language modeling (MLM) losses. We validate its performance on the public dataset Multilingual LibriSpeech (MLS), which includes 8 languages and is extremely imbalanced. On MLS, we explore (1) JUST trained from scratch, and (2) JUST finetuned from a pretrained checkpoint. Experiments show that JUST can consistently outperform other existing state-of-the-art methods, and beat the monolingual baseline by a significant margin, demonstrating JUST's capability of handling low-resource languages in multilingual ASR. Our average WER of all languages outperforms average monolingual baseline by 33.3%, and the state-of-the-art 2-stage XLSR by 32%. On low-resource languages like Polish, our WER is less than half of the monolingual baseline and even beats the supervised transfer learning method which uses external supervision.
翻訳日:2021-11-17 14:06:22 公開日:2021-11-15
# 変分オートエンコーダの潜時変数に対する適応次元削減アルゴリズム

An adaptive dimension reduction algorithm for latent variables of variational autoencoder ( http://arxiv.org/abs/2111.08493v1 )

ライセンス: Link先を確認
Yiran Dong and Chuanhou Gao(参考訳) ニューラルネットワークによって構築された変分オートエンコーダは、多すぎるニューラルネットワークユニットの設定によって引き起こされるオーバーフィッティング問題を持ち、潜在変数ベクトルの次元を自動的に学習できる適応次元縮小アルゴリズムを開発した。 このアプローチは、変分オートエンコーダだけでなく、条件付きVAE(CVAE)のような他の変種にも適用でき、このアルゴリズムの普遍性と効率を示す6つのデータセットに対して実験結果を示す。 このアルゴリズムの主な利点は、変分オートエンコーダ(VAE)の最小損失に達する次元を近似する潜在変数ベクトルの次元を収束させ、また、ニューラルユニットを小さくすることで生成速度と演算速度を高速化できることである。

Constructed by the neural network, variational autoencoder has the overfitting problem caused by setting too many neural units, we develop an adaptive dimension reduction algorithm that can automatically learn the dimension of latent variable vector, moreover, the dimension of every hidden layer. This approach not only apply to the variational autoencoder but also other variants like Conditional VAE(CVAE), and we show the empirical results on six data sets which presents the universality and efficiency of this algorithm. The key advantages of this algorithm is that it can converge the dimension of latent variable vector which approximates the dimension reaches minimum loss of variational autoencoder(VAE), also speeds up the generating and computing speed by reducing the neural units.
翻訳日:2021-11-17 13:45:47 公開日:2021-11-15
# スコアベース生成モデルを用いた医用画像の逆問題解決

Solving Inverse Problems in Medical Imaging with Score-Based Generative Models ( http://arxiv.org/abs/2111.08005v1 )

ライセンス: Link先を確認
Yang Song and Liyue Shen and Lei Xing and Stefano Ermon(参考訳) CT(Computed Tomography)とMRI(Magnetic Resonance Imaging)では,部分計測から医用画像の再構成が重要な逆問題である。 機械学習に基づく既存のソリューションは通常、測定結果を医療画像に直接マッピングするモデルをトレーニングし、ペア化された画像と測定のトレーニングデータセットを活用する。 これらの測定は通常、測定プロセスの固定された物理モデルを用いて画像から合成されるが、これは未知の測定プロセスへのモデルの一般化能力を妨げている。 本稿では,最近導入されたスコアベース生成モデルを用いて,逆問題解決のための教師なし手法を提案する。 具体的には,まず医療画像におけるスコアベース生成モデルを訓練し,その事前分布を捉える。 実験時の計測過程の物理モデルと測定結果から,先行測定と観測結果の両方に整合した画像の再構成を行うサンプリング手法を提案する。 本手法はトレーニング中に一定の測定過程を仮定せず,テスト時に異なる測定プロセスに柔軟に適用することができる。 実験的に,CTおよびMRIにおけるいくつかの医療画像タスクにおいて,教師あり学習技術と同等以上の性能を観察し,未知の測定プロセスに対して極めて優れた一般化を示した。

Reconstructing medical images from partial measurements is an important inverse problem in Computed Tomography (CT) and Magnetic Resonance Imaging (MRI). Existing solutions based on machine learning typically train a model to directly map measurements to medical images, leveraging a training dataset of paired images and measurements. These measurements are typically synthesized from images using a fixed physical model of the measurement process, which hinders the generalization capability of models to unknown measurement processes. To address this issue, we propose a fully unsupervised technique for inverse problem solving, leveraging the recently introduced score-based generative models. Specifically, we first train a score-based generative model on medical images to capture their prior distribution. Given measurements and a physical model of the measurement process at test time, we introduce a sampling method to reconstruct an image consistent with both the prior and the observed measurements. Our method does not assume a fixed measurement process during training, and can thus be flexibly adapted to different measurement processes at test time. Empirically, we observe comparable or better performance to supervised learning techniques in several medical imaging tasks in CT and MRI, while demonstrating significantly better generalization to unknown measurement processes.
翻訳日:2021-11-17 13:31:15 公開日:2021-11-15
# ウェアラブルバイオメトリックセンサを用いたヒューマンエラーポテンシャル推定

Human-error-potential Estimation based on Wearable Biometric Sensors ( http://arxiv.org/abs/2111.08502v1 )

ライセンス: Link先を確認
Hiroki Ohashi and Hiroto Nagayoshi(参考訳) 本研究は, ウェアラブルセンサを用いて, 店舗床のヒューマンエラー電位を推定する新たな課題に取り組んでいる。 生体計測技術を用いて、疲労や精神的ストレスなどの内部状態を推定する既存の研究とは異なり、センサノイズが顕著に増加するにつれて、対象者が落ち着かない状況において、人間のエラーポテンシャルを推定しようとする。 本稿では,人間の誤り・潜在的な推定問題を分類問題に還元する新しい定式化法を提案し,ノイズ検出データにおいても,分類問題の解決に使用できる新しい方法を提案する。 鍵となる考え方は、生体指標の事前知識を統合できるように確率的に生体指標を計算する過程をモデル化し、生体特徴と組み合わせて対象者の運動を表現する特徴を利用することである。 実験の結果,本手法はヒューマンエラーポテンシャルを効果的に推定できることがわかった。

This study tackles on a new problem of estimating human-error potential on a shop floor on the basis of wearable sensors. Unlike existing studies that utilize biometric sensing technology to estimate people's internal state such as fatigue and mental stress, we attempt to estimate the human-error potential in a situation where a target person does not stay calm, which is much more difficult as sensor noise significantly increases. We propose a novel formulation, in which the human-error-potential estimation problem is reduced to a classification problem, and introduce a new method that can be used for solving the classification problem even with noisy sensing data. The key ideas are to model the process of calculating biometric indices probabilistically so that the prior knowledge on the biometric indices can be integrated, and to utilize the features that represent the movement of target persons in combination with biometric features. The experimental analysis showed that our method effectively estimates the human-error potential.
翻訳日:2021-11-17 13:30:54 公開日:2021-11-15
# (参考訳) 深層学習インバージョン法によるノイズ検層-随時ドリルング比抵抗測定の解釈

Deep-Learning Inversion Method for the Interpretation of Noisy Logging-While-Drilling Resistivity Measurements ( http://arxiv.org/abs/2111.07490v1 )

ライセンス: CC BY-SA 4.0
Kyubo Noh, David Pardo, and Carlos Torres-Verdin(参考訳) 深層学習(dl)インバージョン(英語版)は、航法アプリケーションのためのlwd(lwd)比抵抗測定をリアルタイムに解析するための有望な方法である。 この文脈では、測定ノイズは反転結果に大きな影響を及ぼす可能性がある。 測定ノイズがDLインバージョン結果に与える影響を調べる既存の出版物は少ない。 本研究では,LWD比抵抗測定のノイズが存在する場合のDL反転手法の堅牢性を高めるための学習データセット生成手法を開発し,DLアーキテクチャを構築する。 2つの合成比抵抗モデルを用いて,(1)測定値にノイズを加えること,(2)再現によるトレーニングセットの強化,3)dlアーキテクチャにノイズ層を追加すること,の3つの手法を明示的に検討した。 数値的な結果から,これら3つの手法は,基本的なDLインバージョンだけでなく,従来の勾配に基づくインバージョン結果よりも,予測された地球モデルと測定の両方において良好なインバージョン結果をもたらすことが確認された。 第2と第3のアプローチを組み合わせることで、最高の結果が得られます。 提案手法は多次元DLインバージョンに容易に一般化できる。

Deep Learning (DL) inversion is a promising method for real time interpretation of logging while drilling (LWD) resistivity measurements for well navigation applications. In this context, measurement noise may significantly affect inversion results. Existing publications examining the effects of measurement noise on DL inversion results are scarce. We develop a method to generate training data sets and construct DL architectures that enhance the robustness of DL inversion methods in the presence of noisy LWD resistivity measurements. We use two synthetic resistivity models to test three approaches that explicitly consider the presence of noise: (1) adding noise to the measurements in the training set, (2) augmenting the training set by replicating it and adding varying noise realizations, and (3) adding a noise layer in the DL architecture. Numerical results confirm that the three approaches produce a denoising effect, yielding better inversion results in both predicted earth model and measurements compared not only to the basic DL inversion but also to traditional gradient based inversion results. A combination of the second and third approaches delivers the best results. The proposed methods can be readily generalized to multi dimensional DL inversion.
翻訳日:2021-11-17 04:39:43 公開日:2021-11-15
# (参考訳) モノのインターネットのための連合学習:アプリケーション、挑戦、機会

Federated Learning for Internet of Things: Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2111.07494v1 )

ライセンス: CC BY 4.0
Tuo Zhang, Lei Gao, Chaoyang He, Mi Zhang, Bhaskar Krishnamachari, Salman Avestimehr(参考訳) 数十億のIoTデバイスが近い将来デプロイされ、5G/6Gによるインターネット速度の高速化と、桁違いに多くのエンドポイントが実現される可能性がある。 IoTデバイスの普及に伴い、ユーザのプライベート情報を含む膨大な量のデータが生成される。 高い通信とストレージコストとプライバシの懸念が混ざり合わさって、IoTプラットフォームにおけるクラウド上の学習と処理の集中化という従来のエコシステムに、ますます挑戦している。 フェデレーション学習(fl)は、この問題に対する最も有望な代替アプローチとして現れています。 flでは、データ駆動機械学習モデルのトレーニングは、データを中央に持ってくる必要なしに複数のクライアント間のコラボレーションの行為であり、通信とストレージのコストを軽減し、ユーザーレベルのプライバシを提供する。 我々は、IoTプラットフォームにおけるFLの機会と課題、そして将来のIoTアプリケーションをどのように実現できるかについて議論する。

Billions of IoT devices will be deployed in the near future, taking advantage of the faster Internet speed and the possibility of orders of magnitude more endpoints brought by 5G/6G. With the blooming of IoT devices, vast quantities of data that may contain private information of users will be generated. The high communication and storage costs, mixed with privacy concerns, will increasingly be challenging the traditional ecosystem of centralized over-the-cloud learning and processing for IoT platforms. Federated Learning (FL) has emerged as the most promising alternative approach to this problem. In FL, training of data-driven machine learning models is an act of collaboration between multiple clients without requiring the data to be brought to a central point, hence alleviating communication and storage costs and providing a great degree of user-level privacy. We discuss the opportunities and challenges of FL for IoT platforms, as well as how it can enable future IoT applications.
翻訳日:2021-11-17 04:26:43 公開日:2021-11-15
# (参考訳) 人工知能を用いた医療経済学の成果測定と資源管理への応用

Measuring Outcomes in Healthcare Economics using Artificial Intelligence: with Application to Resource Management ( http://arxiv.org/abs/2111.07503v1 )

ライセンス: CC BY 4.0
Chih-Hao Huang, Feras A. Batarseh, Adel Boueiz, Ajay Kulkarni, Po-Hsuan Su, Jahan Aman(参考訳) 医療におけるサービスの質は、パンデミック(コビッド19)や自然災害(ハリケーンや地震など)といった不適切な出来事に常に挑戦されている。 多くの場合、そのような出来事は、病院における複数の医療・経済的な側面と同様に、意思決定において重大な不確実性を引き起こす。 外部(地理的)または内部的要因(医学的および管理的)は、計画と予算編成のシフトにつながりますが、最も重要なのは、従来のプロセスに対する信頼を低下させます。 場合によっては、他の病院からの援助が必要であることが証明され、計画面が悪化する。 この原稿は、医療管理者が経済を組織化し、資源配分と共有の最も最適な計画を特定するのに役立つデータ駆動指標を提供する3つのデータ駆動手法を提示する。 従来の意思決定方法は、マネージャに検証済みのポリシーを推奨するに足りません。 強化学習,遺伝的アルゴリズム,トラベルセールスマン,クラスタリングを用いて,さまざまな医療変数を実験し,医療機関に適用可能なツールと結果を提示した。 実験が行われ、結果が記録され、評価され、提示される。

The quality of service in healthcare is constantly challenged by outlier events such as pandemics (i.e. Covid-19) and natural disasters (such as hurricanes and earthquakes). In most cases, such events lead to critical uncertainties in decision making, as well as in multiple medical and economic aspects at a hospital. External (geographic) or internal factors (medical and managerial), lead to shifts in planning and budgeting, but most importantly, reduces confidence in conventional processes. In some cases, support from other hospitals proves necessary, which exacerbates the planning aspect. This manuscript presents three data-driven methods that provide data-driven indicators to help healthcare managers organize their economics and identify the most optimum plan for resources allocation and sharing. Conventional decision-making methods fall short in recommending validated policies for managers. Using reinforcement learning, genetic algorithms, traveling salesman, and clustering, we experimented with different healthcare variables and presented tools and outcomes that could be applied at health institutes. Experiments are performed; the results are recorded, evaluated, and presented.
翻訳日:2021-11-17 04:11:55 公開日:2021-11-15
# (参考訳) AI保証に関する調査

A Survey on AI Assurance ( http://arxiv.org/abs/2111.07505v1 )

ライセンス: CC BY 4.0
Feras A. Batarseh, and Laura Freeman(参考訳) 人工知能(AI)アルゴリズムは、複数のドメインにわたる意思決定と運用のサポートをますます提供しています。 AIには、さまざまな問題に対する幅広いアルゴリズムライブラリが含まれている。 AIアルゴリズムを運用決定プロセスに適用する上で重要な概念のひとつは、保証の概念である。 保証に関する文献は、残念ながら、モチベーション、仮定、直観の矛盾によって引き起こされる、対立するアプローチの絡み合った風景の中にその成果を隠している。 したがって、この写本は上昇し、新しい領域であるにもかかわらず、1985年から2021年の間にAIの保証に関連する研究成果の体系的なレビューを提供し、ランドスケープに代わる構造的な代替手段を提供することを目指している。 新しいAI保証定義を採用し、提示し、アシュアランス手法を対比し、集計する。 また,既存の手法を評価,比較するために10指標スコアリングシステムを開発した。 最後に、本原稿では、ai保証の開発と展開のための基礎的な洞察、議論、今後の方向性、ロードマップ、適用可能な推奨事項を提供します。

Artificial Intelligence (AI) algorithms are increasingly providing decision making and operational support across multiple domains. AI includes a wide library of algorithms for different problems. One important notion for the adoption of AI algorithms into operational decision process is the concept of assurance. The literature on assurance, unfortunately, conceals its outcomes within a tangled landscape of conflicting approaches, driven by contradicting motivations, assumptions, and intuitions. Accordingly, albeit a rising and novel area, this manuscript provides a systematic review of research works that are relevant to AI assurance, between years 1985 - 2021, and aims to provide a structured alternative to the landscape. A new AI assurance definition is adopted and presented and assurance methods are contrasted and tabulated. Additionally, a ten-metric scoring system is developed and introduced to evaluate and compare existing methods. Lastly, in this manuscript, we provide foundational insights, discussions, future directions, a roadmap, and applicable recommendations for the development and deployment of AI assurance.
翻訳日:2021-11-17 03:55:11 公開日:2021-11-15
# (参考訳) アソシエーションルールとアンサンブル機械学習を用いた国際農業貿易の公共政策作成

Public Policymaking for International Agricultural Trade using Association Rules and Ensemble Machine Learning ( http://arxiv.org/abs/2111.07508v1 )

ライセンス: CC BY 4.0
Feras A. Batarseh, Munisamy Gopinath, Anderson Monken, Zhengrong Gu(参考訳) 国際経済は、貿易を引き起こす要因や、国全体の商品やサービスの自由な流れの結果について理解を深めてきた長い歴史がある。 自由貿易体制への最近の衝撃、特に主要経済間の貿易紛争、そして貿易戦争やパンデミックのような黒い白鳥の出来事は、政策決定を伝えるための予測の改善の必要性を高めている。 AIの手法により、経済学者はそのような予測問題を新しい方法で解決することができる。 本稿では,食品と農産物の国際取引を予測・関連付ける新しい手法を提案する。 アソシエーション・ルール(ar)分析は、市場バスケット分析のような消費者や店舗レベルでの経済シナリオに対してうまく展開されている。 しかし,本研究では,輸入・輸出関係の分析と商品貿易フローへの影響について述べる。 さらに、農業貿易予測の改善、アウトリーチイベントの影響、政策立案者への量的ポインタを提供するために、エンサンブル機械学習手法を開発した。

International economics has a long history of improving our understanding of factors causing trade, and the consequences of free flow of goods and services across countries. The recent shocks to the free trade regime, especially trade disputes among major economies, as well as black swan events, such as trade wars and pandemics, raise the need for improved predictions to inform policy decisions. AI methods are allowing economists to solve such prediction problems in new ways. In this manuscript, we present novel methods that predict and associate food and agricultural commodities traded internationally. Association Rules (AR) analysis has been deployed successfully for economic scenarios at the consumer or store level, such as for market basket analysis. In our work however, we present analysis of imports and exports associations and their effects on commodity trade flows. Moreover, Ensemble Machine Learning methods are developed to provide improved agricultural trade predictions, outlier events' implications, and quantitative pointers to policy makers.
翻訳日:2021-11-17 03:53:29 公開日:2021-11-15
# (参考訳) 時間安定なビデオインスタンスセグメンテーションのためのフレーム間注意による物体伝搬

Object Propagation via Inter-Frame Attentions for Temporally Stable Video Instance Segmentation ( http://arxiv.org/abs/2111.07529v1 )

ライセンス: CC BY-SA 4.0
Anirudh S Chakravarthy, Won-Dong Jang, Zudi Lin, Donglai Wei, Song Bai, Hanspeter Pfister(参考訳) ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。 現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。 しかし、これは時間的に矛盾するマスクをもたらす。 本研究では,時間安定性によるマスク品質を性能ボトルネックとして同定する。 そこで本研究では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。 空間的情報だけでは解決できないため、時間的文脈をフレーム間注目を用いて活用する。 これにより、ネットワークは隣接フレームからのボックス予測を用いて、行方不明なオブジェクトに再フォーカスし、不足検出を克服できる。 提案手法は,YouTube-VISベンチマークで35.1%のmAPを達成し,Mask R-CNNバックボーンを用いた従来の最先端アルゴリズムよりも大幅に優れていた。 さらに,本手法は完全にオンラインであり,将来的な枠組みを必要としない。 私たちのコードはhttps://github.com/anirudh-chakravarthy/ObjProp.comで公開されています。

Video instance segmentation aims to detect, segment, and track objects in a video. Current approaches extend image-level segmentation algorithms to the temporal domain. However, this results in temporally inconsistent masks. In this work, we identify the mask quality due to temporal stability as a performance bottleneck. Motivated by this, we propose a video instance segmentation method that alleviates the problem due to missing detections. Since this cannot be solved simply using spatial information, we leverage temporal context using inter-frame attentions. This allows our network to refocus on missing objects using box predictions from the neighbouring frame, thereby overcoming missing detections. Our method significantly outperforms previous state-of-the-art algorithms using the Mask R-CNN backbone, by achieving 35.1% mAP on the YouTube-VIS benchmark. Additionally, our method is completely online and requires no future frames. Our code is publicly available at https://github.com/anirudh-chakravarthy/ObjProp.
翻訳日:2021-11-17 03:51:08 公開日:2021-11-15
# (参考訳) 連続観測シーンにおける確率的ハードアテンションモデル

A Probabilistic Hard Attention Model For Sequentially Observed Scenes ( http://arxiv.org/abs/2111.07534v1 )

ライセンス: CC BY 4.0
Samrudhdhi B. Rangrej, James J. Clark(参考訳) 視覚的注意モデルは、画像内のサブリージョンのシーケンスを積極的に選択し、観察し、予測する。 ハードアテンションモデルの大半は、最初に完全な画像を分析することによって、注目に値する領域を決定する。 しかし、画像全体が最初に利用可能ではなく、一連の部分的な観察を通して徐々に知覚される場合もある。 本稿では,このような逐次観察シーンを分類するための効率的なハードアテンションモデルの設計を行う。 提示されたモデルは、画像を完全に観察することはない。 部分可観測性の下で情報領域を選択するために、モデルはベイズ最適実験設計を用いる。 まず、既に観測された領域に基づいて、観測されていない領域の特徴を合成する。 そして、予測特徴を用いて、各地域への参加が期待される情報ゲイン(EIG)を推定する。 最後に、上記のEIGが最大である位置の実際のコンテンツに対応する。 モデルが使用する a) リカレントな状態を維持するためのリカレントな特徴集積器 b) クラスラベルを予測する線形分類器 c) 非観測領域の特徴を予測する部分変分オートエンコーダ 部分vae内の正規化フローを用いて,特徴合成問題におけるマルチモダリティを扱う。 差別化可能な目標を使ってモデルをトレーニングし、5つのデータセットでテストします。 私たちのモデルはベースラインモデルよりも2~10%高い精度を実現しています。

A visual hard attention model actively selects and observes a sequence of subregions in an image to make a prediction. The majority of hard attention models determine the attention-worthy regions by first analyzing a complete image. However, it may be the case that the entire image is not available initially but instead sensed gradually through a series of partial observations. In this paper, we design an efficient hard attention model for classifying such sequentially observed scenes. The presented model never observes an image completely. To select informative regions under partial observability, the model uses Bayesian Optimal Experiment Design. First, it synthesizes the features of the unobserved regions based on the already observed regions. Then, it uses the predicted features to estimate the expected information gain (EIG) attained, should various regions be attended. Finally, the model attends to the actual content on the location where the EIG mentioned above is maximum. The model uses a) a recurrent feature aggregator to maintain a recurrent state, b) a linear classifier to predict the class label, c) a Partial variational autoencoder to predict the features of unobserved regions. We use normalizing flows in Partial VAE to handle multi-modality in the feature-synthesis problem. We train our model using a differentiable objective and test it on five datasets. Our model gains 2-10% higher accuracy than the baseline models when both have seen only a couple of glimpses.
翻訳日:2021-11-17 03:46:36 公開日:2021-11-15
# (参考訳) 儒教とサイバーパンクとミスターサイエンス:中国とEUのAI倫理の比較

Confucius, Cyberpunk and Mr. Science: Comparing AI ethics between China and the EU ( http://arxiv.org/abs/2111.07555v1 )

ライセンス: CC BY 4.0
Pascale Fung and Hubert Etienne(参考訳) 人工知能の指数的発展と応用は、社会的および倫理的な問題に対する前例のない世界的な懸念を引き起こした。 異なる産業、国際財団、政府組織、標準機関の株主はすぐに即興でAIを規制しようとする様々な倫理規定を作成した。 主要な関心事は、これらの原理に関する大きな均一性と仮定された合意主義である。 有名なカンティアン・デオントロジーのような倫理的教義が普遍主義に傾倒していることは事実であるが、実際には普遍的ではない。 実際、倫理的多元論は、共通の質問に対する異なる答えよりも、関連する質問が問うべき相違についてである。 人々は異なる道徳の教義に従うとき、問題に対するアプローチについて意見が一致しない傾向がある。 異なる文化の人々が共通の原則のセットに同意したとしても、これらの概念と関連するものについて同じ理解を共有しているとは限らない。 我々は、AIにおける倫理原則の根底にある哲学的ルーツと文化的文脈をより深く理解するために、中国新世代人工知能ガバナンス専門委員会(CNNGAIGPC)が支持する倫理原則と、欧州高レベルAI専門家グループ(HLEGAI)が支持する倫理原則を分析し比較することを提案する。 中国とEUは非常に異なる政治体制を持ち、文化遺産に多様化している。 分析では、事前に類似しているように見える原則が、実際には異なる意味を持ち、異なるアプローチから派生し、異なる目標を反映している可能性があることを強調したい。

The exponential development and application of artificial intelligence triggered an unprecedented global concern for potential social and ethical issues. Stakeholders from different industries, international foundations, governmental organisations and standards institutions quickly improvised and created various codes of ethics attempting to regulate AI. A major concern is the large homogeneity and presumed consensualism around these principles. While it is true that some ethical doctrines, such as the famous Kantian deontology, aspire to universalism, they are however not universal in practice. In fact, ethical pluralism is more about differences in which relevant questions to ask rather than different answers to a common question. When people abide by different moral doctrines, they tend to disagree on the very approach to an issue. Even when people from different cultures happen to agree on a set of common principles, it does not necessarily mean that they share the same understanding of these concepts and what they entail. In order to better understand the philosophical roots and cultural context underlying ethical principles in AI, we propose to analyse and compare the ethical principles endorsed by the Chinese National New Generation Artificial Intelligence Governance Professional Committee (CNNGAIGPC) and those elaborated by the European High-level Expert Group on AI (HLEGAI). China and the EU have very different political systems and diverge in their cultural heritages. In our analysis, we wish to highlight that principles that seem similar a priori may actually have different meanings, derived from different approaches and reflect distinct goals.
翻訳日:2021-11-17 03:17:40 公開日:2021-11-15
# (参考訳) 単一カメラを用いた高品質リアルタイム顔撮影

High-Quality Real Time Facial Capture Based on Single Camera ( http://arxiv.org/abs/2111.07556v1 )

ライセンス: CC BY 4.0
Hongwei Xu and Leijia Dai and Jianxing Fu and Xiangyuan Wang and Quanwei Wang(参考訳) 映像ベースの表情キャプチャのためのリアルタイムディープラーニングフレームワークを提案する。 このプロセスでは、FACEGOODに基づくハイエンドな顔キャプチャパイプラインを使用して表情をキャプチャする。 畳み込みニューラルネットワークを訓練し,ビデオトレーニングから高品質なブレンド形状の重み付けを生成する。 この顔撮影は完全に自動化されているので、現代の物語駆動型ビデオゲームや俳優のリアルなデジタル二重化やキャラクターごとのアニメーション対話時間といった映画の開発に関わる労力を大幅に削減することができる。 我々は,目や唇などの課題領域において,魅力的なアニメーション推論を示す。

We propose a real time deep learning framework for video-based facial expression capture. Our process uses a high-end facial capture pipeline based on FACEGOOD to capture facial expression. We train a convolutional neural network to produce high-quality continuous blendshape weight output from video training. Since this facial capture is fully automated, our system can drastically reduce the amount of labor involved in the development of modern narrative-driven video games or films involving realistic digital doubles of actors and potentially hours of animated dialogue per character. We demonstrate compelling animation inference in challenging areas such as eyes and lips.
翻訳日:2021-11-17 03:00:09 公開日:2021-11-15
# (参考訳) グラフニューラルネットワークはMaxSAT問題を解決することができるか?

Can Graph Neural Networks Learn to Solve MaxSAT Problem? ( http://arxiv.org/abs/2111.07568v1 )

ライセンス: CC BY 4.0
Minghao Liu, Fuqi Jia, Pei Huang, Fan Zhang, Yuchen Sun, Shaowei Cai, Feifei Ma, Jian Zhang(参考訳) ディープラーニング技術の急速な発展に伴い、最近の様々な研究がグラフニューラルネットワーク(GNN)を用いて、学習と象徴的推論のギャップを埋める可能性を示すBoolean Satisfiability(SAT)のようなNP難問を解決しようとしている。 しかし,gnnが予測する解の質は文献ではあまり研究されていない。 本稿では,学習におけるGNNの最大満足度(MaxSAT)問題を解決する能力について,理論的・実践的両面から検討する。 我々はベンチマークからMaxSATインスタンスの解法を学ぶために2種類のGNNモデルを構築し、実験によりGNNがMaxSAT問題を解く魅力的な可能性を示す。 また,アルゴリズムアライメント理論に基づいて,GNN が MaxSAT 問題のある程度の解法を学習できるという理論的な説明も提示する。

With the rapid development of deep learning techniques, various recent work has tried to apply graph neural networks (GNNs) to solve NP-hard problems such as Boolean Satisfiability (SAT), which shows the potential in bridging the gap between machine learning and symbolic reasoning. However, the quality of solutions predicted by GNNs has not been well investigated in the literature. In this paper, we study the capability of GNNs in learning to solve Maximum Satisfiability (MaxSAT) problem, both from theoretical and practical perspectives. We build two kinds of GNN models to learn the solution of MaxSAT instances from benchmarks, and show that GNNs have attractive potential to solve MaxSAT problem through experimental evaluation. We also present a theoretical explanation of the effect that GNNs can learn to solve MaxSAT problem to some extent for the first time, based on the algorithmic alignment theory.
翻訳日:2021-11-17 02:50:43 公開日:2021-11-15
# (参考訳) DFC:ロバストポイントクラウド登録のための深い機能一貫性

DFC: Deep Feature Consistency for Robust Point Cloud Registration ( http://arxiv.org/abs/2111.07597v1 )

ライセンス: CC BY 4.0
Zhu Xu, Zhengyao Bai, Huijie Liu, Qianjie Lu, Shenglan Fan(参考訳) 重要な点雲の特徴を抽出し、それらの間のポーズを推定する方法は、その構造が固有の欠如と点雲のあいまいな順序置換のため、依然として難しい問題である。 オブジェクトの分類、オブジェクトのセグメンテーション、ポイントクラウドの登録など、ほとんどの3Dコンピュータビジョンタスクにディープラーニングベースのメソッドを適用することの大幅な改善にもかかわらず、既存の学習ベースのパイプラインでは、機能間の一貫性は魅力的ではない。 本稿では,複雑なアライメントシーンのための新たな学習ベースアライメントネットワークであるディープ特徴整合性(deep feature consistency)と,幾何対応セットを高次元特徴に変換するマルチスケールグラフ特徴マージネットワークと,複数の候補不整合部分集合を構成する対応重み付けモジュールと,相対的なポーズを推定するための閉形式解を与えるProcrustesアプローチを提案する。 深部特徴整合モジュールの最も重要なステップとして、各不整合部分集合に対する特徴整合行列を構築し、対応する部分集合の不整合確率として主ベクトルを得る。 我々は,3DMatchデータセットとKITTIオドメトリデータセットの両方に対して,アプローチの堅牢性と有効性を総合的に検証した。 大規模屋内シーンでは, 3dmatchデータセットの登録結果から, 従来型と学習型の両方の手法に勝ることを示す。 KITTIの屋外シーンでは、我々のアプローチは変換エラーを低減できる。 クロスデータセットに対する強力な一般化機能についても検討する。

How to extract significant point cloud features and estimate the pose between them remains a challenging question, due to the inherent lack of structure and ambiguous order permutation of point clouds. Despite significant improvements in applying deep learning-based methods for most 3D computer vision tasks, such as object classification, object segmentation and point cloud registration, the consistency between features is still not attractive in existing learning-based pipelines. In this paper, we present a novel learning-based alignment network for complex alignment scenes, titled deep feature consistency and consisting of three main modules: a multiscale graph feature merging network for converting the geometric correspondence set into high-dimensional features, a correspondence weighting module for constructing multiple candidate inlier subsets, and a Procrustes approach named deep feature matching for giving a closed-form solution to estimate the relative pose. As the most important step of the deep feature matching module, the feature consistency matrix for each inlier subset is constructed to obtain its principal vectors as the inlier likelihoods of the corresponding subset. We comprehensively validate the robustness and effectiveness of our approach on both the 3DMatch dataset and the KITTI odometry dataset. For large indoor scenes, registration results on the 3DMatch dataset demonstrate that our method outperforms both the state-of-the-art traditional and learning-based methods. For KITTI outdoor scenes, our approach remains quite capable of lowering the transformation errors. We also explore its strong generalization capability over cross-datasets.
翻訳日:2021-11-17 02:32:05 公開日:2021-11-15
# (参考訳) スペクトル変換によるスケーラブルトランス

Spectral Transform Forms Scalable Transformer ( http://arxiv.org/abs/2111.07602v1 )

ライセンス: CC BY 4.0
Bingxin Zhou, Xinliang Liu, Yuehua Liu, Yunying Huang, Pietro Li\`o, YuGuang Wang(参考訳) ソーシャルネットワークや生体システムのような現実世界のリレーショナルシステムは、動的相互作用を含んでいる。 動的グラフ表現を学習する場合、逐次時間情報と幾何学的構造を採用することが不可欠である。 メインストリームの作業は、メッセージパッシングネットワーク(GCN、GATなど)によるトポロジ的な埋め込みを実現する。 一方、時間的進化は、ゲート機構において便利な情報フィルタリングを持つメモリユニット(lstmやgrgなど)を介して通常表現される。 しかし、このような設計は複雑すぎるエンコーディングによる大規模な入力シーケンスを防ぐ。 本研究は自己着想の哲学から学び,情報的長距離時間相互作用を用いた効率的なスペクトルベースニューラルユニットを提案する。 開発したspectrum window unit (swinit) モデルは、スケーラブルな動的グラフを精度良く予測する。 このアーキテクチャは、ランダム化されたSVD、MLP、グラフフレームレットの畳み込みを構成する、いくつかの単純な効率的な計算ブロックで組み立てられている。 SVDとMLPモジュールは、動的グラフイベントの長期的特徴進化を符号化する。 フレームレット畳み込みにおける高速なフレームレットグラフ変換は構造力学を埋め込む。 どちらの戦略も、スケーラブルな分析におけるモデルの能力を高める。 特に、反復SVD近似は、Nエッジとdエッジ特徴を持つ動的グラフのO(Nd\log(d))に対する注意の計算複雑性を縮小し、フレームレット畳み込みのマルチスケール変換は、ネットワークトレーニングにおいて十分なスケーラビリティを実現する。 我々のSWINITは,各種オンライン連続時間動的グラフ学習タスクにおける最先端性能を実現する一方で,ベースライン法と比較して学習可能なパラメータの数が最大7倍減少する。

Many real-world relational systems, such as social networks and biological systems, contain dynamic interactions. When learning dynamic graph representation, it is essential to employ sequential temporal information and geometric structure. Mainstream work achieves topological embedding via message passing networks (e.g., GCN, GAT). The temporal evolution, on the other hand, is conventionally expressed via memory units (e.g., LSTM or GRU) that possess convenient information filtration in a gate mechanism. Though, such a design prevents large-scale input sequence due to the over-complicated encoding. This work learns from the philosophy of self-attention and proposes an efficient spectral-based neural unit that employs informative long-range temporal interaction. The developed spectral window unit (SWINIT) model predicts scalable dynamic graphs with assured efficiency. The architecture is assembled with a few simple effective computational blocks that constitute randomized SVD, MLP, and graph Framelet convolution. The SVD plus MLP module encodes the long-short-term feature evolution of the dynamic graph events. A fast framelet graph transform in the framelet convolution embeds the structural dynamics. Both strategies enhance the model's ability on scalable analysis. In particular, the iterative SVD approximation shrinks the computational complexity of attention to O(Nd\log(d)) for the dynamic graph with N edges and d edge features, and the multiscale transform of framelet convolution allows sufficient scalability in the network training. Our SWINIT achieves state-of-the-art performance on a variety of online continuous-time dynamic graph learning tasks, while compared to baseline methods, the number of its learnable parameters reduces by up to seven times.
翻訳日:2021-11-17 02:11:48 公開日:2021-11-15
# (参考訳) GANに対するプロパティ推論攻撃

Property Inference Attacks Against GANs ( http://arxiv.org/abs/2111.07608v1 )

ライセンス: CC BY 4.0
Junhao Zhou, Yufei Chen, Chao Shen, Yang Zhang(参考訳) 機械学習(ML)は過去10年間に大きく進歩してきたが、最近の研究では、MLモデルはさまざまなセキュリティやプライバシ攻撃に弱いことが示されている。 これまでのところ、この分野のほとんどの攻撃は分類器で表される識別モデルに焦点を当てている。 一方、generative adversarial networks(gans)のような生成モデルのセキュリティとプライバシーのリスクにはほとんど注意が払われていない。 本稿では,GANに対する最初のトレーニングデータセットのプロパティ推論攻撃を提案する。 具体的には、マクロレベルのトレーニングデータセット特性、すなわち、特定の属性に対してターゲットGANをトレーニングするのに使用されるサンプルの割合を推測することを目的としている。 プロパティ推測攻撃が成功すれば、相手はターゲットGANのトレーニングデータセットの余分な知識を得ることができ、それによってターゲットモデル所有者の知的財産を直接侵害することができる。 また、フェアネス監査として使用して、ターゲットのGANがバイアスデータセットでトレーニングされているかどうかを確認することもできる。 さらに、プロパティ推論は、メンバシップ推論のような他の高度な攻撃のビルディングブロックとして機能する。 我々は,全ブラックボックス設定と部分ブラックボックス設定を含む2つの攻撃シナリオに合わせた一般的な攻撃パイプラインを提案する。 後者では,攻撃効率を高めるための新しい最適化フレームワークを提案する。 5つのプロパティ推論タスクにおける4つのGANモデルに対する大規模な実験は、我々の攻撃が強い性能を発揮することを示す。 さらに,我々の攻撃は,GANに対するメンバーシップ推論の性能向上に有効であることを示す。

While machine learning (ML) has made tremendous progress during the past decade, recent research has shown that ML models are vulnerable to various security and privacy attacks. So far, most of the attacks in this field focus on discriminative models, represented by classifiers. Meanwhile, little attention has been paid to the security and privacy risks of generative models, such as generative adversarial networks (GANs). In this paper, we propose the first set of training dataset property inference attacks against GANs. Concretely, the adversary aims to infer the macro-level training dataset property, i.e., the proportion of samples used to train a target GAN with respect to a certain attribute. A successful property inference attack can allow the adversary to gain extra knowledge of the target GAN's training dataset, thereby directly violating the intellectual property of the target model owner. Also, it can be used as a fairness auditor to check whether the target GAN is trained with a biased dataset. Besides, property inference can serve as a building block for other advanced attacks, such as membership inference. We propose a general attack pipeline that can be tailored to two attack scenarios, including the full black-box setting and partial black-box setting. For the latter, we introduce a novel optimization framework to increase the attack efficacy. Extensive experiments over four representative GAN models on five property inference tasks show that our attacks achieve strong performance. In addition, we show that our attacks can be used to enhance the performance of membership inference against GANs.
翻訳日:2021-11-17 01:52:34 公開日:2021-11-15
# (参考訳) エピソード強化学習における遅延フィードバック

Delayed Feedback in Episodic Reinforcement Learning ( http://arxiv.org/abs/2111.07615v1 )

ライセンス: CC BY 4.0
Benjamin Howson, Ciara Pike-Burke, Sarah Filippi(参考訳) エピソディック強化学習には, 十分効率的なアルゴリズムが多数存在する。 しかしながら、これらのアルゴリズムは、各エピソードに関連する状態、行動、報酬のシーケンスが即座に到着し、環境との相互作用のたびにポリシー更新が可能であるという仮定のもとに構築されている。 この仮定は実際、特に医療やオンラインレコメンデーションのような分野では非現実的であることが多い。 本稿では,エピソディック強化学習における後悔を最小限に抑えるために,複数の効果的なアルゴリズムに対する遅延フィードバックの影響について検討する。 まず、新たなフィードバックが得られ次第、ポリシーの更新を検討します。 この更新手法を用いることで,状態数,動作数,エピソード長,予測遅延を含む追加用語によって後悔が増加することを示す。 この加法項は楽観的な選択アルゴリズムによって変化する。 また、ポリシーの更新頻度が低くなると、遅延に対する後悔の依存性が改善されることも示します。

There are many provably efficient algorithms for episodic reinforcement learning. However, these algorithms are built under the assumption that the sequences of states, actions and rewards associated with each episode arrive immediately, allowing policy updates after every interaction with the environment. This assumption is often unrealistic in practice, particularly in areas such as healthcare and online recommendation. In this paper, we study the impact of delayed feedback on several provably efficient algorithms for regret minimisation in episodic reinforcement learning. Firstly, we consider updating the policy as soon as new feedback becomes available. Using this updating scheme, we show that the regret increases by an additive term involving the number of states, actions, episode length and the expected delay. This additive term changes depending on the optimistic algorithm of choice. We also show that updating the policy less frequently can lead to an improved dependency of the regret on the delays.
翻訳日:2021-11-17 01:19:40 公開日:2021-11-15
# (参考訳) パンシャープ化法の検証について

On the validation of pansharpening methods ( http://arxiv.org/abs/2111.07625v1 )

ライセンス: CC BY 4.0
Gintautas Palubinskas(参考訳) パンシャープニング法の品質の検証は、参照が直接利用できないため難しい作業である。 その間に、2つの主要なアプローチが確立された。 前者のアプローチでは、データが低解像度にどのように処理されるかはまだ明らかになっていない。 他のオープンな問題は、どの解決と対策を使うべきかという問題に関連している。 後者のアプローチでは、適切な方法を選択する方法が主な問題である。 最も比較研究では、両方のアプローチの結果は一致せず、それぞれの場合において、他の方法が最良の方法として選択されることを意味する。 したがって、新しいパンシャーペニング手法の開発者は依然としてジレンマの前面に立ち、正しい、あるいは適切な比較/評価/検証を行う方法である。 注意すべき点は、3つ目のアプローチは、特定のアプリケーションにおけるメソッドとそれらの基礎となる真理の使い方の比較を行うことである。 しかし、これは必ずしも可能ではない。通常、開発者はアプリケーションを使っていないからだ。 さらに、特定の応用において研究者にさらなる計算負荷を与えることもできる。 この論文では、上記の疑問/問題をいくつか取り上げる。 加法および乗法モデルを用いた次の成分置換(CS)および高域通過フィルタ(HPF)パンシャーペン法と,その拡張であるヘイズ補正,ヒストグラムマッチング,スペクトル応答関数(SRF)の使用,MTFに基づく低域通過フィルタについて,WorldView-2およびWorldView-4センサーのリモートセンシングデータを用いて検討した。

Validation of the quality of pansharpening methods is a difficult task because the reference is not directly available. In the meantime, two main approaches have been established: validation in reduced resolution and original resolution. In the former approach it is still not clear how the data are to be processed to a lower resolution. Other open issues are related to the question which resolution and measures should be used. In the latter approach the main problem is how the appropriate measure should be selected. In the most comparison studies the results of both approaches do not correspond, that means in each case other methods are selected as the best ones. Thus, the developers of the new pansharpening methods still stand in the front of dilemma: how to perform a correct or appropriate comparison/evaluation/validation. It should be noted, that the third approach is possible, that is to perform the comparison of methods in a particular application with the usage of their ground truth. But this is not always possible, because usually developers are not working with applications. Moreover, it can be an additional computational load for a researcher in a particular application. In this paper some of the questions/problems raised above are approached/discussed. The following component substitution (CS) and high pass filtering (HPF) pansharpening methods with additive and multiplicative models and their enhancements such as haze correction, histogram matching, usage of spectral response functions (SRF), modulation transfer function (MTF) based lowpass filtering are investigated on remote sensing data of WorldView-2 and WorldView-4 sensors.
翻訳日:2021-11-17 00:59:09 公開日:2021-11-15
# (参考訳) 自己監督学習を用いたグリーソングレーディングのためのマルチモーダル一般化ゼロショット学習

Multimodal Generalized Zero Shot Learning for Gleason Grading using Self-Supervised Learning ( http://arxiv.org/abs/2111.07646v1 )

ライセンス: CC BY 4.0
Dwarikanath Mahapatra(参考訳) 病理組織像からのグリーソンの診断は, 前立腺癌 (pca) の診断に必須である。 このような画像は浸潤組織切除後に得られるため,既存のパラダイムでは迅速な診断が困難である。 本稿では,非干渉的かつ容易に取得可能なMR画像からGleasonグレードを予測する手法を提案する。 一般的なゼロショット学習(GZSL)では,すべての疾患の訓練画像にアクセスできないため,この問題を解決している。 自己教師型学習を取り入れた条件付き変分オートエンコーダ(CVAE)を用いて、Gleasonグレードの順序性を利用して、未確認グレード(クラス)の合成MRI特徴ベクトルを生成する。 対応する病理組織学的特徴をサイクルganを用いて生成し、mr特徴と組み合わせてテスト画像のグリーソングレードを予測する。 実験の結果,提案手法はGZSLの競合する特徴生成手法よりも優れており,完全教師付き手法の性能に近づいた。

Gleason grading from histopathology images is essential for accurate prostate cancer (PCa) diagnosis. Since such images are obtained after invasive tissue resection quick diagnosis is challenging under the existing paradigm. We propose a method to predict Gleason grades from magnetic resonance (MR) images which are non-interventional and easily acquired. We solve the problem in a generalized zero-shot learning (GZSL) setting since we may not access training images of every disease grade. Synthetic MRI feature vectors of unseen grades (classes) are generated by exploiting Gleason grades' ordered nature through a conditional variational autoencoder (CVAE) incorporating self-supervised learning. Corresponding histopathology features are generated using cycle GANs, and combined with MR features to predict Gleason grades of test images. Experimental results show our method outperforms competing feature generating approaches for GZSL, and comes close to performance of fully supervised methods.
翻訳日:2021-11-17 00:45:07 公開日:2021-11-15
# (参考訳) 確率的ホーン非文法的知識基盤

The Possibilistic Horn Non-Clausal Knowledge Bases ( http://arxiv.org/abs/2111.07648v1 )

ライセンス: CC BY 4.0
Gonzalo E. Imaz(参考訳) 確率論理は不確実かつ部分的に矛盾した情報を扱うための最も拡張されたアプローチである。 通常の形式に関しては、確率論的推論の進歩は、主にクラス形式に焦点を当てている。 しかし、現実世界の問題のエンコーディングは、通常、非クラスル(nc)公式と、ncからクラスルへの翻訳者は、クラスル推論の実用的性能を著しく制限する深刻な欠点を生み出す。 したがって、元のnc形式で公式を計算することによって、ポシビリスティックな非クラウス的推論において注目すべき進歩も可能であることを示すいくつかの貢献を提案する。 第一に、確率的ホーン非クラウサル知識基底のクラスを定義するか、あるいはクラスを仮定する$\mathcal{\overline{H}}_\Sigma$を定義する: 確率的ホーンと命題的ホーン-NC。 $\mathcal{\overline{H}}_\Sigma $ は標準ホーン類に類似した NC の一種であることが示されている。 第二に、我々はpossibilistic non-clausal unit- resolution,} または $ \mathcal{ur}_\sigma $ を定義し、$ \mathcal{ur}_\sigma $ が $\mathcal{\overline{h}}_\sigma $members の矛盾度を正確に計算できることを証明する。 $\mathcal{ur}_\sigma $はこれまで提案されていなかったが、クローサル的な方法で定式化されており、理解や形式的な証明、非クローサル解決への将来の拡張が容易になっている。 第3に、$\mathcal{\overline{h}}_\sigma $ メンバの不整合度を計算するのに多項式時間を要することを証明します。 可算論理学には既に有理級数が存在するが、これらは全て有理数であり、従って $\mathcal{\overline{H}}_\Sigma $ は可算理数論の中で最初に特徴づけられる多項式非有理数類である。

Posibilistic logic is the most extended approach to handle uncertain and partially inconsistent information. Regarding normal forms, advances in possibilistic reasoning are mostly focused on clausal form. Yet, the encoding of real-world problems usually results in a non-clausal (NC) formula and NC-to-clausal translators produce severe drawbacks that heavily limit the practical performance of clausal reasoning. Thus, by computing formulas in its original NC form, we propose several contributions showing that notable advances are also possible in possibilistic non-clausal reasoning. {\em Firstly,} we define the class of {\em Possibilistic Horn Non-Clausal Knowledge Bases,} or $\mathcal{\overline{H}}_\Sigma$, which subsumes the classes: possibilistic Horn and propositional Horn-NC. $\mathcal{\overline{H}}_\Sigma $ is shown to be a kind of NC analogous of the standard Horn class. {\em Secondly}, we define {\em Possibilistic Non-Clausal Unit-Resolution,} or $ \mathcal{UR}_\Sigma $, and prove that $ \mathcal{UR}_\Sigma $ correctly computes the inconsistency degree of $\mathcal{\overline{H}}_\Sigma $members. $\mathcal{UR}_\Sigma $ had not been proposed before and is formulated in a clausal-like manner, which eases its understanding, formal proofs and future extension towards non-clausal resolution. {\em Thirdly}, we prove that computing the inconsistency degree of $\mathcal{\overline{H}}_\Sigma $ members takes polynomial time. Although there already exist tractable classes in possibilistic logic, all of them are clausal, and thus, $\mathcal{\overline{H}}_\Sigma $ turns out to be the first characterized polynomial non-clausal class within possibilistic reasoning.
翻訳日:2021-11-17 00:26:25 公開日:2021-11-15
# (参考訳) 累積報酬による多用途逆強化学習

Versatile Inverse Reinforcement Learning via Cumulative Rewards ( http://arxiv.org/abs/2111.07667v1 )

ライセンス: CC BY 4.0
Niklas Freymuth and Philipp Becker and Gerhard Neumann(参考訳) 逆強化学習は、専門家の行動と意図をエンコードすることを目的として、専門家のデモンストレーションから報酬関数を推論する。 現在のアプローチでは、通常、生成モデルとユニモーダルモデルを使ってこれを行います。 共通環境では、問題に対する様々な解決策があり、専門家が多用途な振る舞いを示す場合、これらの方法の一般化能力は厳しく制限される。 本稿では,得られた報酬を反復訓練された識別器の和として定式化し,これらの問題を克服する逆強化学習法を提案する。 提案手法は, 汎用的, 高品質な報酬関数を復元し, 多様な行動に配慮した行動クローニング手法と同じ品質のポリシーを実現できることを示す。

Inverse Reinforcement Learning infers a reward function from expert demonstrations, aiming to encode the behavior and intentions of the expert. Current approaches usually do this with generative and uni-modal models, meaning that they encode a single behavior. In the common setting, where there are various solutions to a problem and the experts show versatile behavior this severely limits the generalization capabilities of these methods. We propose a novel method for Inverse Reinforcement Learning that overcomes these problems by formulating the recovered reward as a sum of iteratively trained discriminators. We show on simulated tasks that our approach is able to recover general, high-quality reward functions and produces policies of the same quality as behavioral cloning approaches designed for versatile behavior.
翻訳日:2021-11-17 00:25:00 公開日:2021-11-15
# (参考訳) 学習支援チャネルを用いたコントラスト表現学習

Contrastive Representation Learning with Trainable Augmentation Channel ( http://arxiv.org/abs/2111.07679v1 )

ライセンス: CC BY 4.0
Masanori Koyama and Kentaro Minami and Takeru Miyato and Yarin Gal(参考訳) 対照的な表現学習では、拡張によって画像が変更された場合でも、画像インスタンスを分類できるようにデータ表現を訓練する。 しかし、データセットによっては、いくつかの拡張は認識を超えた画像の情報を損なう可能性があり、そのような拡張は崩壊した表現をもたらす可能性がある。 本稿では,拡張によって導入されたデータ破損とエンコーダが保持する情報との間に綱引きが存在する確率的符号化過程を形式化し,この問題に対する部分解を提案する。 このフレームワークをベースとしたinfoMaxの目的により,データに依存した拡張分布を学習し,表現の崩壊を回避することができることを示す。

In contrastive representation learning, data representation is trained so that it can classify the image instances even when the images are altered by augmentations. However, depending on the datasets, some augmentations can damage the information of the images beyond recognition, and such augmentations can result in collapsed representations. We present a partial solution to this problem by formalizing a stochastic encoding process in which there exist a tug-of-war between the data corruption introduced by the augmentations and the information preserved by the encoder. We show that, with the infoMax objective based on this framework, we can learn a data-dependent distribution of augmentations to avoid the collapse of the representation.
翻訳日:2021-11-17 00:12:39 公開日:2021-11-15
# (参考訳) 時変制約付きオンライン凸最適化のための部分線形後悔と制約違反の同時達成

Simultaneously Achieving Sublinear Regret and Constraint Violations for Online Convex Optimization with Time-varying Constraints ( http://arxiv.org/abs/2111.07707v1 )

ライセンス: CC0 1.0
Qingsong Liu, Wenfei Wu, Longbo Huang, Zhixuan Fang(参考訳) 本稿では,オンライン凸最適化(oco)問題に対する長期的および時間的制約のある仮想キュー型オンラインアルゴリズムを開発し,動的後悔と制約違反に関して性能解析を行う。 我々は、双対変数の新しい更新規則と、時間変化制約関数を双対変数に組み込む新しい方法を設計する。 我々の知る限り、我々のアルゴリズムはサブ線形動的後悔と制約違反を同時に達成する最初のパラメータフリーアルゴリズムである。 また,提案アルゴリズムは,Slater条件を必要としないなど,多くの面で最先端のアルゴリズムよりも優れている。 一方,逐次制約の変動が時間にわたって十分に滑らかである実用的で広く研究されている制約付きoco問題に対して,本アルゴリズムは$o(1)$制約違反を実現する。 さらに、時間的地平線$T$が未知の場合までアルゴリズムと解析を拡張します。 最後に,提案手法の理論的保証を検証するために数値実験を行い,提案手法の応用について概説する。

In this paper, we develop a novel virtual-queue-based online algorithm for online convex optimization (OCO) problems with long-term and time-varying constraints and conduct a performance analysis with respect to the dynamic regret and constraint violations. We design a new update rule of dual variables and a new way of incorporating time-varying constraint functions into the dual variables. To the best of our knowledge, our algorithm is the first parameter-free algorithm to simultaneously achieve sublinear dynamic regret and constraint violations. Our proposed algorithm also outperforms the state-of-the-art results in many aspects, e.g., our algorithm does not require the Slater condition. Meanwhile, for a group of practical and widely-studied constrained OCO problems in which the variation of consecutive constraints is smooth enough across time, our algorithm achieves $O(1)$ constraint violations. Furthermore, we extend our algorithm and analysis to the case when the time horizon $T$ is unknown. Finally, numerical experiments are conducted to validate the theoretical guarantees of our algorithm, and some applications of our proposed framework will be outlined.
翻訳日:2021-11-16 23:59:57 公開日:2021-11-15
# (参考訳) 外部知識を用いた名前付きエンティティ認識におけるゼロショット学習

Zero-Shot Learning in Named-Entity Recognition with External Knowledge ( http://arxiv.org/abs/2111.07734v1 )

ライセンス: CC BY 4.0
Nguyen Van Hoang and Soeren Hougaard Mulvad and Dexter Neo Yuan Rong and Yang Yue(参考訳) 現在のSOTA(State-of-the-art Name-entity Recognition)システムの重大な欠点は、未確認領域への一般化の欠如である。 我々は,既存の知識を意味的単語の埋め込み形式に組み込むことで,未知の領域に一般化するために,NERでゼロショットと少数ショット学習を行うモデルZEROを提案する。 ZEROはまず、モデルLUKEを用いて入力文の文脈化された単語表現を取得し、その次元を減少させ、それらを外部知識の埋め込みと直接比較し、ZEROが未知の出力エンティティを認識できるように訓練する。 平均的なマクロ f1 スコア 0.23 の ner ドメインでは zero がうまく動作し,少人数学習では luke を上回り,ドメイン内比較では競合スコアも達成している。 ソース・ターゲット領域のペア間の性能は、ペアのKL分散と逆相関を示す。

A significant shortcoming of current state-of-the-art (SOTA) named-entity recognition (NER) systems is their lack of generalization to unseen domains, which poses a major problem since obtaining labeled data for NER in a new domain is expensive and time-consuming. We propose ZERO, a model that performs zero-shot and few-shot learning in NER to generalize to unseen domains by incorporating pre-existing knowledge in the form of semantic word embeddings. ZERO first obtains contextualized word representations of input sentences using the model LUKE, reduces their dimensionality, and compares them directly with the embeddings of the external knowledge, allowing ZERO to be trained to recognize unseen output entities. We find that ZERO performs well on unseen NER domains with an average macro F1 score of 0.23, outperforms LUKE in few-shot learning, and even achieves competitive scores on an in-domain comparison. The performance across source-target domain pairs is shown to be inversely correlated with the pairs' KL divergence.
翻訳日:2021-11-16 23:58:51 公開日:2021-11-15
# (参考訳) 自己認証ニューラルネットワークの進歩

Progress in Self-Certified Neural Networks ( http://arxiv.org/abs/2111.07737v1 )

ライセンス: CC BY 4.0
Maria Perez-Ortiz, Omar Rivasplata, Emilio Parrado-Hernandez, Benjamin Guedj, John Shawe-Taylor(参考訳) 学習方法は、すべての利用可能なデータを使用して同時に予測器を学習し、その品質を未知のデータで有効な統計証明書で証明する場合、自己認証される。 近年の研究では、PAC-Bayes境界の最適化によってトレーニングされたニューラルネットワークモデルが、正確な予測者だけでなく、リスク証明書の厳格化にもつながり、自己証明学習の実現への期待が示されている。 この文脈では、PAC-Bayes境界に基づく学習と認定戦略が特に魅力的である。 本稿では,pac-bayesインスパイアされた目標によって学習される確率的ニューラルネットワークの自己認証に向けた進歩を評価する。 決定論的予測のための古典的なテストセット境界と、ランダム化された自己認証予測者に対するpac-bayesバウンドを実証的に比較する。 まず、これらの一般化境界が、サンプル外テストセットエラーからそれほど遠くないことを示す。 次に,データ飢餓体制において,テストセット境界のデータを保持することは一般化性能に悪影響を及ぼすが,pac-bayes境界に基づく自己認証戦略は,この欠点に苦しめられず,小規模データ体制に適した選択である可能性が証明される。 また、PAC-Bayesにインスパイアされた目的によって学習された確率論的ニューラルネットワークが、一般的に使用されるテストセット境界と驚くほど競合する証明につながることもわかりました。

A learning method is self-certified if it uses all available data to simultaneously learn a predictor and certify its quality with a statistical certificate that is valid on unseen data. Recent work has shown that neural network models trained by optimising PAC-Bayes bounds lead not only to accurate predictors, but also to tight risk certificates, bearing promise towards achieving self-certified learning. In this context, learning and certification strategies based on PAC-Bayes bounds are especially attractive due to their ability to leverage all data to learn a posterior and simultaneously certify its risk. In this paper, we assess the progress towards self-certification in probabilistic neural networks learnt by PAC-Bayes inspired objectives. We empirically compare (on 4 classification datasets) classical test set bounds for deterministic predictors and a PAC-Bayes bound for randomised self-certified predictors. We first show that both of these generalisation bounds are not too far from out-of-sample test set errors. We then show that in data starvation regimes, holding out data for the test set bounds adversely affects generalisation performance, while self-certified strategies based on PAC-Bayes bounds do not suffer from this drawback, proving that they might be a suitable choice for the small data regime. We also find that probabilistic neural networks learnt by PAC-Bayes inspired objectives lead to certificates that can be surprisingly competitive with commonly used test set bounds.
翻訳日:2021-11-16 23:52:23 公開日:2021-11-15
# (参考訳) Pixelベースの制御のための学習表現:何が重要でなぜか?

Learning Representations for Pixel-based Control: What Matters and Why? ( http://arxiv.org/abs/2111.07775v1 )

ライセンス: CC BY 4.0
Manan Tomar, Utkarsh A. Mishra, Amy Zhang, Matthew E. Taylor(参考訳) 画素ベース制御のための学習表現は近年,強化学習において大きな注目を集めている。 効率的な学習を可能にするための幅広い手法が提案され、完全な状態設定の手法と同様の複雑なサンプルが得られる。 しかし、慎重にキュレートされたピクセルデータセット(中央の作物、適切な照明、背景の鮮明さなど)を超えて移動することはまだ難しい。 本稿では,この課題に取り組むための第一歩として,背景の気晴らしを取り入れ,より難しい設定を採用する。 本稿では,メトリックベースの学習,データ拡張,ワールドモデル学習,コントラスト学習のない,意味のある表現を学習できるシンプルなベースラインアプローチを提案する。 そして、これまで提案されていた手法が、この厳しい環境でベースラインと同等の性能に失敗したり、低下する可能性がある理由と、そのような手法を十分にキュレートされた環境を超えて拡張することを慎重に考えるべき理由を分析します。 この結果から,報酬の密度,課題の計画的地平,課題関連コンポーネントの存在などに基づくベンチマークのより詳細な分類が,アルゴリズムの評価に不可欠であることが示唆された。 これらの結果に基づき,ベンチマークタスクでアルゴリズムを評価する際に考慮すべき異なる指標を提案する。 このようなデータ中心の視点が、RLを現実世界のタスクに最適な適用方法を研究する際に、表現学習を再考する動機になることを期待しています。

Learning representations for pixel-based control has garnered significant attention recently in reinforcement learning. A wide range of methods have been proposed to enable efficient learning, leading to sample complexities similar to those in the full state setting. However, moving beyond carefully curated pixel data sets (centered crop, appropriate lighting, clear background, etc.) remains challenging. In this paper, we adopt a more difficult setting, incorporating background distractors, as a first step towards addressing this challenge. We present a simple baseline approach that can learn meaningful representations with no metric-based learning, no data augmentations, no world-model learning, and no contrastive learning. We then analyze when and why previously proposed methods are likely to fail or reduce to the same performance as the baseline in this harder setting and why we should think carefully about extending such methods beyond the well curated environments. Our results show that finer categorization of benchmarks on the basis of characteristics like density of reward, planning horizon of the problem, presence of task-irrelevant components, etc., is crucial in evaluating algorithms. Based on these observations, we propose different metrics to consider when evaluating an algorithm on benchmark tasks. We hope such a data-centric view can motivate researchers to rethink representation learning when investigating how to best apply RL to real-world tasks.
翻訳日:2021-11-16 23:43:47 公開日:2021-11-15
# (参考訳) spiking capsnet: カプセル間のルーティングルールを生物学的に許容するスパイキングニューラルネットワーク

Spiking CapsNet: A Spiking Neural Network With A Biologically Plausible Routing Rule Between Capsules ( http://arxiv.org/abs/2111.07785v1 )

ライセンス: CC BY 4.0
Dongcheng Zhao, Yang Li, Yi Zeng, Jihang Wang, Qian Zhang(参考訳) spiking neural network (snn) は、その時空間的情報表現能力により、多くの注目を集めている。 Capsule Neural Network(CapsNet)は,さまざまなレベルでの組み立てと結合機能を備えている。 本稿では,スパイキングニューラルネットワークのモデル化にカプセルを導入することによりスパイキングキャップネットを提案する。 さらに,より生物学的に有効なスパイクタイミング依存塑性ルーティング機構を提案する。 低レベルスパイクカプセルと高レベルスパイクカプセルとの時空間関係を十分に考慮することで、それらの結合能力をさらに向上させる。 我々はMNISTデータセットとFashionMNISTデータセットについて検証を行った。 他の優れたSNNモデルと比較して、我々のアルゴリズムは依然として高性能である。 我々のSpking CapsNetはSNNとCapsNetの強化を完全に組み合わせており、ノイズやアフィン変換に対する強い堅牢性を示している。 テストデータセットに異なるSalt-PepperとGaussianノイズを加えることで、実験結果は、よりノイズが多い場合にはSpike CapsNetがより堅牢なパフォーマンスを示す一方で、人工ニューラルネットワークは正しく解明できないことを示した。 同様に、Spking CapsNetはAffNISTデータセット上でアフィン変換を強く一般化している。

Spiking neural network (SNN) has attracted much attention due to their powerful spatio-temporal information representation ability. Capsule Neural Network (CapsNet) does well in assembling and coupling features at different levels. Here, we propose Spiking CapsNet by introducing the capsules into the modelling of spiking neural networks. In addition, we propose a more biologically plausible Spike Timing Dependent Plasticity routing mechanism. By fully considering the spatio-temporal relationship between the low-level spiking capsules and the high-level spiking capsules, the coupling ability between them is further improved. We have verified experiments on the MNIST and FashionMNIST datasets. Compared with other excellent SNN models, our algorithm still achieves high performance. Our Spiking CapsNet fully combines the strengthens of SNN and CapsNet, and shows strong robustness to noise and affine transformation. By adding different Salt-Pepper and Gaussian noise to the test dataset, the experimental results demonstrate that our Spiking CapsNet shows a more robust performance when there is more noise, while the artificial neural network can not correctly clarify. As well, our Spiking CapsNet shows strong generalization to affine transformation on the AffNIST dataset.
翻訳日:2021-11-16 23:10:20 公開日:2021-11-15
# (参考訳) マルタにおける音声認識のためのデータ拡張:低リソース視点

Data Augmentation for Speech Recognition in Maltese: A Low-Resource Perspective ( http://arxiv.org/abs/2111.07793v1 )

ライセンス: CC BY 4.0
Carlos Mena and Andrea DeMarco and Claudia Borg and Lonneke van der Plas and Albert Gatt(参考訳) 音声技術の開発は、アノテートと生の音声データの両方が不足している低リソース言語にとって課題である。 マルタ語はそのような言語である。 近年、音声技術を含むマルタの計算処理への関心が高まっているが、後者の資源は依然として希薄である。 本稿では,これらの言語における音声認識向上のためのデータ拡張手法について考察する。 教師なし学習,多言語訓練,合成音声の訓練データとしての利用の3種類のデータ拡張について検討した。 目的は、どの手法、またはそれらの組み合わせが、出発点が約7時間の書き起こし音声の小さなコーパスである言語における音声認識を改善するのに最も効果的かを決定することである。 その結果,ここで研究した3つのデータ拡張手法を組み合わせると,言語モデルを用いずに15%の絶対的改善が得られた。

Developing speech technologies is a challenge for low-resource languages for which both annotated and raw speech data is sparse. Maltese is one such language. Recent years have seen an increased interest in the computational processing of Maltese, including speech technologies, but resources for the latter remain sparse. In this paper, we consider data augmentation techniques for improving speech recognition for such languages, focusing on Maltese as a test case. We consider three different types of data augmentation: unsupervised training, multilingual training and the use of synthesized speech as training data. The goal is to determine which of these techniques, or combination of them, is the most effective to improve speech recognition for languages where the starting point is a small corpus of approximately 7 hours of transcribed speech. Our results show that combining the three data augmentation techniques studied here lead us to an absolute WER improvement of 15% without the use of a language model.
翻訳日:2021-11-16 22:56:00 公開日:2021-11-15
# (参考訳) 自動クレームチェックにおける知識ベースの選択

The Choice of Knowledge Base in Automated Claim Checking ( http://arxiv.org/abs/2111.07795v1 )

ライセンス: CC BY 4.0
Dominik Stammbach, Boya Zhang, Elliott Ash(参考訳) 自動クレームチェック(Automated claim check)は、信頼できる事実の知識ベースで発見された証拠のクレームの正確性を決定するタスクである。 これまでの作業では、クレームチェックパイプラインを与えられたように知識ベースを取り、最適化していましたが、反対のアプローチを採用しています。 最初の洞察は、クレームチェックパイプラインは、新しいドメインから知識ベースにアクセスすることで、クレームの新たなドメインに転送できるということです。 第2に、"普遍的に最良の"知識ベースは見つからず、タスクデータセットのドメイン重複度が高く、知識ベースはラベル精度が向上する傾向にあります。 第三に、複数の知識ベースを組み合わせることで、最も近いドメイン知識ベース以上のパフォーマンスが向上することはない。 最後に,証拠の選択におけるクレームチェックパイプラインの信頼度スコアを用いて,新たなクレームに対して知識ベースがうまく機能するかどうかを評価できることを示す。

Automated claim checking is the task of determining the veracity of a claim given evidence found in a knowledge base of trustworthy facts. While previous work has taken the knowledge base as given and optimized the claim-checking pipeline, we take the opposite approach - taking the pipeline as given, we explore the choice of knowledge base. Our first insight is that a claim-checking pipeline can be transferred to a new domain of claims with access to a knowledge base from the new domain. Second, we do not find a "universally best" knowledge base - higher domain overlap of a task dataset and a knowledge base tends to produce better label accuracy. Third, combining multiple knowledge bases does not tend to improve performance beyond using the closest-domain knowledge base. Finally, we show that the claim-checking pipeline's confidence score for selecting evidence can be used to assess whether a knowledge base will perform well for a new set of claims, even in the absence of ground-truth labels.
翻訳日:2021-11-16 22:33:06 公開日:2021-11-15
# (参考訳) 多変量極端のスペクトル学習

Spectral learning of multivariate extremes ( http://arxiv.org/abs/2111.07799v1 )

ライセンス: CC BY 4.0
Marco Avella Medina, Richard A. Davis and Gennady Samorodnitsky(参考訳) 多変量極度の依存構造を解析するためのスペクトルクラスタリングアルゴリズムを提案する。 より具体的には、極値理論における角測度やスペクトル測度によって特徴づけられる多変量極値の漸近依存に焦点をあてる。 本研究は, 極端サンプルから構築したランダムな$k$-nearest近傍グラフ, すなわち, 半径が大きなしきい値を超えるランダムベクトルの角部に基づいて, スペクトルクラスタリングの理論的性能について検討する。 特に、線形因子モデルから生じる極度の漸近分布を導出し、ある条件下では、スペクトルクラスタリングが、このモデルで生じる極度のクラスターを一貫して識別できることを証明する。 この結果を利用して,角測度の学習のための簡易な一貫した推定手法を提案する。 本手法の有限サンプル性能を実証する数値実験により, 理論的知見を補完する。

We propose a spectral clustering algorithm for analyzing the dependence structure of multivariate extremes. More specifically, we focus on the asymptotic dependence of multivariate extremes characterized by the angular or spectral measure in extreme value theory. Our work studies the theoretical performance of spectral clustering based on a random $k$-nearest neighbor graph constructed from an extremal sample, i.e., the angular part of random vectors for which the radius exceeds a large threshold. In particular, we derive the asymptotic distribution of extremes arising from a linear factor model and prove that, under certain conditions, spectral clustering can consistently identify the clusters of extremes arising in this model. Leveraging this result we propose a simple consistent estimation strategy for learning the angular measure. Our theoretical findings are complemented with numerical experiments illustrating the finite sample performance of our methods.
翻訳日:2021-11-16 22:10:57 公開日:2021-11-15
# (参考訳) iBOT: Image BERT、オンライントケナイザーで事前トレーニング中

iBOT: Image BERT Pre-Training with Online Tokenizer ( http://arxiv.org/abs/2111.07832v1 )

ライセンス: CC BY 4.0
Jinghao Zhou, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Yuille, Tao Kong(参考訳) 言語トランスフォーマーの成功は主に、テキストが意味のある部分にトークン化されるマスキング言語モデリング(MLM)のプレテキストタスクに起因している。 本研究では,マスク画像モデリング(mim)について検討し,意味的に意味のある視覚トークン化器の使用の利点と課題について述べる。 オンライントークン化装置を用いてマスキング予測を行うことができる自己教師型フレームワークiBOTを提案する。 具体的には,マスクされたパッチトークンに対して自己蒸留を行い,教師ネットワークをオンライントークンとして,クラストークンを自己蒸留して視覚意味論を取得する。 オンライントークン化装置はMIMの目標と共同で学習可能であり、事前にトークン化装置を事前訓練する必要があるマルチステージトレーニングパイプラインを不要にする。 81.6%の線形探索精度と86.3%の微調整精度をImageNet-1Kで評価することにより,iBOTの優位性を示す。 最新の画像分類結果の他に、局所的なセマンティックパターンが出現し、モデルが一般的な汚職に対して強い堅牢性を獲得し、下流の密集したタスクにおいてリードする結果を得るのに役立つ。 オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどです。

The success of language Transformers is primarily attributed to the pretext task of masked language modeling (MLM), where texts are first tokenized into semantically meaningful pieces. In this work, we study masked image modeling (MIM) and indicate the advantages and challenges of using a semantically meaningful visual tokenizer. We present a self-supervised framework iBOT that can perform masked prediction with an online tokenizer. Specifically, we perform self-distillation on masked patch tokens and take the teacher network as the online tokenizer, along with self-distillation on the class token to acquire visual semantics. The online tokenizer is jointly learnable with the MIM objective and dispenses with a multi-stage training pipeline where the tokenizer needs to be pre-trained beforehand. We show the prominence of iBOT by achieving an 81.6% linear probing accuracy and an 86.3% fine-tuning accuracy evaluated on ImageNet-1K. Beyond the state-of-the-art image classification results, we underline emerging local semantic patterns, which helps the models to obtain strong robustness against common corruptions and achieve leading results on dense downstream tasks, eg., object detection, instance segmentation, and semantic segmentation.
翻訳日:2021-11-16 22:08:14 公開日:2021-11-15
# (参考訳) 単語埋め込みにおけるバイアスの指標評価

Evaluating Metrics for Bias in Word Embeddings ( http://arxiv.org/abs/2111.07864v1 )

ライセンス: CC BY 4.0
Sarah Schr\"oder, Alexander Schulz, Philip Kenneweg, Robert Feldhans, Fabian Hinder and Barbara Hammer(参考訳) 近年,全てのNLPタスクのテキスト前処理として単語と文の埋め込みが確立され,性能が大幅に向上した。 残念ながら、これらの埋め込みはトレーニングデータから様々な種類のバイアスを継承し、社会に存在するバイアスをNLPソリューションに渡すことも示されている。 多くの論文は、単語や文の埋め込みにおけるバイアスを定量化し、デバイアス法を評価したり、コサインベースのメトリクスと異なる埋め込みモデルを比較しようとした。 しかし、最近はこれらの指標に疑問を呈する研究があるが、そのような指標はバイアスが少ないと報告しているが、他のテストはバイアスを示さない。 実際、最適解に関するコンセンサスなしに、文献に提案されているバイアスメトリクスやテストは多種多様である。 しかし、理論的レベルでバイアスメトリクスを評価する作業や、異なるバイアスメトリクスの利点とデメリットを精査する作業は欠如しています。 本研究では,様々なコサインに基づくバイアスメトリクスについて検討する。 先行研究のアイデアに基づいてバイアス定義を定式化し,バイアスメトリクスの条件を導出する。 さらに,既存のcosineベースのメトリクスとその制限を徹底的に調査し,これらのメトリクスがバイアスを報告できない理由を示す。 最後に,既存の指標の欠点に対処し,数学的にオッズが適切に振る舞うことを証明するため,新しい計量であるテッズを提案する。

Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved the performances significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, usually with cosine-based metrics. However, lately some works have raised doubts about these metrics showing that even though such metrics report low biases, other tests still show biases. In fact, there is a great variety of bias metrics or tests proposed in the literature without any consensus on the optimal solutions. Yet we lack works that evaluate bias metrics on a theoretical level or elaborate the advantages and disadvantages of different bias metrics. In this work, we will explore different cosine based bias metrics. We formalize a bias definition based on the ideas from previous works and derive conditions for bias metrics. Furthermore, we thoroughly investigate the existing cosine-based metrics and their limitations to show why these metrics can fail to report biases in some cases. Finally, we propose a new metric, SAME, to address the shortcomings of existing metrics and mathematically prove that SAME behaves appropriately.
翻訳日:2021-11-16 21:36:16 公開日:2021-11-15
# (参考訳) 低レイテンシ事象予測モデルのための二重上昇による潜在因子の拡散緩和

Mitigating Divergence of Latent Factors via Dual Ascent for Low Latency Event Prediction Models ( http://arxiv.org/abs/2111.07866v1 )

ライセンス: CC BY 4.0
Alex Shtoff, Yair Koren(参考訳) 現実世界のコンテンツレコメンデーションマーケットプレイスは、特定の振る舞いを示し、一般的な静的オフラインデータセットでは必ずしも明らかでない制約によって課される。 広告マーケットプレースで一般的な例として、swift ad turnoverがある。 新しい広告が導入され、古い広告は毎日高いレートで消える。 別の例として広告不連続(ad discontinuity)があり、様々な理由(例えば、予算の枯渇、広告主による手入れ、システムによるフラグ付けなど)により、既存の広告が市場から無意味な時間だけ姿を消す可能性がある。 これらの挙動は、短時間でモデル損失面が劇的に変化することがある。 これらの行動に対処するために、新鮮なモデルは極めて重要であり、これを達成するために(そして他のいくつかの理由により)、過去のイベントの小さなチャンクでインクリメンタルなトレーニングがしばしば用いられる。 これらの挙動とアルゴリズムの最適化は、しばしばモデルパラメータを制御不能に大きく成長させる。 本研究では,モデルの潜在ベクトルに注意深く選択された制約セットを課すことで,モデルパラメータの発散を防止する体系的手法を提案する。 次に,これらの制約を満たすために,素因果的最適化アルゴリズムに触発された手法を,漸進的モデルトレーニングに適合し,基礎となるモデルトレーニングアルゴリズムに大きな修正を必要としない方法で考案する。 我々は、VZMの最大かつ急速に成長するビジネスの一つであるYahooネイティブ広告を駆動する協調フィルタリングアルゴリズムであるOFFSETを分析、実証、モチベーションし、年間数億ドルのランレートに達する。 最後に,分散インスタンス数を大幅に削減し,ユーザエクスペリエンスと収益の両方において大幅な改善を示すオンライン実験を行った。

Real-world content recommendation marketplaces exhibit certain behaviors and are imposed by constraints that are not always apparent in common static offline data sets. One example that is common in ad marketplaces is swift ad turnover. New ads are introduced and old ads disappear at high rates every day. Another example is ad discontinuity, where existing ads may appear and disappear from the market for non negligible amounts of time due to a variety of reasons (e.g., depletion of budget, pausing by the advertiser, flagging by the system, and more). These behaviors sometimes cause the model's loss surface to change dramatically over short periods of time. To address these behaviors, fresh models are highly important, and to achieve this (and for several other reasons) incremental training on small chunks of past events is often employed. These behaviors and algorithmic optimizations occasionally cause model parameters to grow uncontrollably large, or \emph{diverge}. In this work present a systematic method to prevent model parameters from diverging by imposing a carefully chosen set of constraints on the model's latent vectors. We then devise a method inspired by primal-dual optimization algorithms to fulfill these constraints in a manner which both aligns well with incremental model training, and does not require any major modifications to the underlying model training algorithm. We analyze, demonstrate, and motivate our method on OFFSET, a collaborative filtering algorithm which drives Yahoo native advertising, which is one of VZM's largest and faster growing businesses, reaching a run-rate of many hundreds of millions USD per year. Finally, we conduct an online experiment which shows a substantial reduction in the number of diverging instances, and a significant improvement to both user experience and revenue.
翻訳日:2021-11-16 21:02:42 公開日:2021-11-15
# (参考訳) 3D表現で人を追跡する

Tracking People with 3D Representations ( http://arxiv.org/abs/2111.07868v1 )

ライセンス: CC BY 4.0
Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Jitendra Malik(参考訳) ビデオ中の複数の人物を追跡する新しい手法を提案する。 2次元表現を用いた過去のアプローチとは異なり、3次元空間に位置する人々の3次元表現を使うことに重点を置いている。 この目的のために,人間の3次元形状をSMPLメッシュとして抽出すると同時に,メッシュの三角形上のテクスチャマップとして外観を抽出するHuman Mesh and Appearance Recovery (HMAR) 法を開発した。 これは、視点に頑丈な外観の3D表現として機能し、変化を起こす。 ビデオクリップが与えられたら、まず人に対応するバウンディングボックスを検出し、それぞれに3Dの外観、ポーズ、位置情報をHMARを用いて抽出する。 これらの埋め込みベクトルはトランスフォーマーに送信され、シーケンスの持続時間にわたって表現を時空間的に集約する。 結果の表現の類似性は、各人物をトラックレットに割り当てるアソシエーションの解決に使用される。 我々はPosetrack, MuPoTs, AVAデータセットに対するアプローチを評価する。 その結果,3次元表現は2次元表現よりも精度が高く,最先端のパフォーマンスが得られることがわかった。 コードと結果は、https://brjathu.github.io/T3DP.com/で公開されている。

We present a novel approach for tracking multiple people in video. Unlike past approaches which employ 2D representations, we focus on using 3D representations of people, located in three-dimensional space. To this end, we develop a method, Human Mesh and Appearance Recovery (HMAR) which in addition to extracting the 3D geometry of the person as a SMPL mesh, also extracts appearance as a texture map on the triangles of the mesh. This serves as a 3D representation for appearance that is robust to viewpoint and pose changes. Given a video clip, we first detect bounding boxes corresponding to people, and for each one, we extract 3D appearance, pose, and location information using HMAR. These embedding vectors are then sent to a transformer, which performs spatio-temporal aggregation of the representations over the duration of the sequence. The similarity of the resulting representations is used to solve for associations that assigns each person to a tracklet. We evaluate our approach on the Posetrack, MuPoTs and AVA datasets. We find that 3D representations are more effective than 2D representations for tracking in these settings, and we obtain state-of-the-art performance. Code and results are available at: https://brjathu.github.io/T3DP.
翻訳日:2021-11-16 20:45:47 公開日:2021-11-15
# (参考訳) プログラミングコパイロットを選択する: GitHubコパイロットのプログラム合成性能と遺伝的プログラミングの比較

Choose Your Programming Copilot: A Comparison of the Program Synthesis Performance of GitHub Copilot and Genetic Programming ( http://arxiv.org/abs/2111.07875v1 )

ライセンス: CC BY 4.0
Dominik Sobania, Martin Briesch, Franz Rothlauf(参考訳) github copilotは、大規模な言語モデルcodexを動力とするvisual studio code開発環境の拡張であり、ソフトウェア開発者に自動プログラム合成を提供する。 このモデルはディープラーニングの分野で広く研究されているが、自動プログラム合成の性能でも知られている遺伝的プログラミングとの比較はまだ実施されていない。 本稿では,標準プログラム合成ベンチマーク問題に関するgithub copilotを評価し,得られた結果と遺伝的プログラミング文献の比較を行う。 さらに,両手法の性能についても論じる。 ベンチマーク問題に対する2つのアプローチのパフォーマンスはよく似ているが、GitHub Copilotと比較すると、遺伝的プログラミングに基づくプログラム合成アプローチは、実用的なソフトウェア開発においてプログラマをサポートするのに十分ではない。 遺伝的プログラミングは通常、大量の手書きのトレーニングケースを必要とし、ソリューションを生成するのに時間がかかりすぎる。 さらに、遺伝的プログラミングアプローチによって生成されたソースコードはしばしば膨れ上がり、理解しづらい。 遺伝的プログラミングによるプログラム合成の今後の取り組みとして,実行時間,可読性,ユーザビリティの向上に重点を置くことを提案する。

GitHub Copilot, an extension for the Visual Studio Code development environment powered by the large-scale language model Codex, makes automatic program synthesis available for software developers. This model has been extensively studied in the field of deep learning, however, a comparison to genetic programming, which is also known for its performance in automatic program synthesis, has not yet been carried out. In this paper, we evaluate GitHub Copilot on standard program synthesis benchmark problems and compare the achieved results with those from the genetic programming literature. In addition, we discuss the performance of both approaches. We find that the performance of the two approaches on the benchmark problems is quite similar, however, in comparison to GitHub Copilot, the program synthesis approaches based on genetic programming are not yet mature enough to support programmers in practical software development. Genetic programming usually needs a huge amount of expensive hand-labeled training cases and takes too much time to generate solutions. Furthermore, source code generated by genetic programming approaches is often bloated and difficult to understand. For future work on program synthesis with genetic programming, we suggest researchers to focus on improving the execution time, readability, and usability.
翻訳日:2021-11-16 20:30:46 公開日:2021-11-15
# (参考訳) 依存時系列のスパース高次元グラフィカルモデル学習について

On Sparse High-Dimensional Graphical Model Learning For Dependent Time Series ( http://arxiv.org/abs/2111.07897v1 )

ライセンス: CC BY 4.0
Jitendra K. Tugnait(参考訳) 本研究では, 疎で高次元の定常なガウス時間系列の条件独立グラフ(CIG)を推定する問題を考える。 観測された時系列に対して十分な周波数領域統計量に基づくスパース群ラスソに基づく周波数領域の定式化について述べる。 分散群lassoペナライズドログの最適化のための乗算器の交互方向法(admm)について検討した。 逆psd推定器のフロベニウスノルムを真の値に収束させるための十分な条件を、サンプルサイズに応じて周波数数の増加を許容する全ての周波数で共同で与える。 この結果は収束率ももたらします。 また,ベイズ情報基準に基づくチューニングパラメータの選択を実験的に検討し,合成データと実データの両方を用いた数値例を用いてその手法を示す。

We consider the problem of inferring the conditional independence graph (CIG) of a sparse, high-dimensional stationary multivariate Gaussian time series. A sparse-group lasso-based frequency-domain formulation of the problem based on frequency-domain sufficient statistic for the observed time series is presented. We investigate an alternating direction method of multipliers (ADMM) approach for optimization of the sparse-group lasso penalized log-likelihood. We provide sufficient conditions for convergence in the Frobenius norm of the inverse PSD estimators to the true value, jointly across all frequencies, where the number of frequencies are allowed to increase with sample size. This results also yields a rate of convergence. We also empirically investigate selection of the tuning parameters based on Bayesian information criterion, and illustrate our approach using numerical examples utilizing both synthetic and real data.
翻訳日:2021-11-16 20:16:07 公開日:2021-11-15
# (参考訳) 平板型テンプレートへのプラセンタの体積パラメータ化

Volumetric Parameterization of the Placenta to a Flattened Template ( http://arxiv.org/abs/2111.07900v1 )

ライセンス: CC BY 4.0
S. Mazdak Abulnaga, Esra Abaci Turk, Mikhail Bessmeltsev, P. Ellen Grant, Justin Solomon, Polina Golland(参考訳) 本稿では,局所解剖学と関数を効果的に可視化するために,プラセンタをフラットテンプレートにパラメータ化するボリュームメッシュベースのアルゴリズムを提案する。 MRIは胎盤機能に直接関連した信号を提供する研究ツールとしての可能性を示している。 しかし, 胎盤形状が湾曲し, 高度に変化するため, これらの画像の解釈と可視化は困難である。 胎盤を生体外形状とよく似た形状にマッピングすることで解釈課題に対処する。 パラメータ化を,容積メッシュで表される胎盤形状をフラットテンプレートにマッピングする最適化問題として定式化する。 我々は、体積全体の局所歪みを制御するために対称ディリクレエネルギーを用いる。 写像の局所射影率は勾配降下最適化中に制約線探索によって強制される。 BOLD MRI画像から抽出した111個の胎盤形状について検討し,本手法の有効性を検証した。 本手法は,テンプレートの整合におけるサブボクセル精度を実現し,体積の歪みを抑える。 胎盤の平坦化が解剖学と機能の可視化をいかに改善するかを示す。 私たちのコードはhttps://github.com/mabulnaga/placenta-flatteningで無料で利用できます。

We present a volumetric mesh-based algorithm for parameterizing the placenta to a flattened template to enable effective visualization of local anatomy and function. MRI shows potential as a research tool as it provides signals directly related to placental function. However, due to the curved and highly variable in vivo shape of the placenta, interpreting and visualizing these images is difficult. We address interpretation challenges by mapping the placenta so that it resembles the familiar ex vivo shape. We formulate the parameterization as an optimization problem for mapping the placental shape represented by a volumetric mesh to a flattened template. We employ the symmetric Dirichlet energy to control local distortion throughout the volume. Local injectivity in the mapping is enforced by a constrained line search during the gradient descent optimization. We validate our method using a research study of 111 placental shapes extracted from BOLD MRI images. Our mapping achieves sub-voxel accuracy in matching the template while maintaining low distortion throughout the volume. We demonstrate how the resulting flattening of the placenta improves visualization of anatomy and function. Our code is freely available at https://github.com/mabulnaga/placenta-flattening .
翻訳日:2021-11-16 19:37:22 公開日:2021-11-15
# (参考訳) iiitt@dravidian-codemix-fire2021: transliterate or translate? Dravidian言語におけるコード混合テキストの知覚分析

IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment analysis of code-mixed text in Dravidian languages ( http://arxiv.org/abs/2111.07906v1 )

ライセンス: CC BY 4.0
Karthik Puranik, Bharathi B, Senthil Kumar B(参考訳) 様々なマーケティングや感情的目的のためのソーシャルメディア投稿やコメントの感情分析が認識されている。 様々なネイティブ言語におけるコードミックスコンテンツの存在の増加に伴い、有望な結果を生み出すために熱心な研究が必要である。 本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。 FIRE 2021でDravidian-CodeMixが行った共有タスクの作業について、ULMFiTや多言語BERTのような訓練済みのモデルを用いて、コードミックスデータセットに微調整、同一のTRAI(TRAI)、TRAIデータの英訳(TRAA)、およびこれら3つの組み合わせを用いて記述する。 本研究報告では,タミル,カンナダ,マラヤラムの各タスクにおいて,ベストモデルがそれぞれ4位,5位,10位であった。

Sentiment analysis of social media posts and comments for various marketing and emotional purposes is gaining recognition. With the increasing presence of code-mixed content in various native languages, there is a need for ardent research to produce promising results. This research paper bestows a tiny contribution to this research in the form of sentiment analysis of code-mixed social media comments in the popular Dravidian languages Kannada, Tamil and Malayalam. It describes the work for the shared task conducted by Dravidian-CodeMix at FIRE 2021 by employing pre-trained models like ULMFiT and multilingual BERT fine-tuned on the code-mixed dataset, transliteration (TRAI) of the same, English translations (TRAA) of the TRAI data and the combination of all the three. The results are recorded in this research paper where the best models stood 4th, 5th and 10th ranks in the Tamil, Kannada and Malayalam tasks respectively.
翻訳日:2021-11-16 19:09:30 公開日:2021-11-15
# (参考訳) ロボットにおける普遍的計画決定政策の効率的な学習

Learning to Execute: Efficient Learning of Universal Plan-Conditioned Policies in Robotics ( http://arxiv.org/abs/2111.07908v1 )

ライセンス: CC BY 4.0
Ingmar Schubert and Danny Driess and Ozgur S. Oguz and Marc Toussaint(参考訳) ロボット工学における強化学習(RL)の応用は、しばしば高いデータ要求によって制限される。 一方、近似モデルは、多くのロボティクスシナリオで容易に利用でき、データ効率の代替案を計画するなど、モデルベースのアプローチを作ることができる。 それでも、モデルが不正確か間違っているかによって、これらのメソッドのパフォーマンスは低下する。 この意味では、rlとモデルベースのプランナーのそれぞれの強みと弱みは、そうである。 本研究は,両アプローチをそれぞれの強みを組み合わせた一つのフレームワークに統合する方法について検討する。 概略計画に含まれる情報を活用して,計画に基づく普遍的な政策を学ぶl2e(learning to execution)を提案する。 我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。

Applications of Reinforcement Learning (RL) in robotics are often limited by high data demand. On the other hand, approximate models are readily available in many robotics scenarios, making model-based approaches like planning a data-efficient alternative. Still, the performance of these methods suffers if the model is imprecise or wrong. In this sense, the respective strengths and weaknesses of RL and model-based planners are. In the present work, we investigate how both approaches can be integrated into one framework that combines their strengths. We introduce Learning to Execute (L2E), which leverages information contained in approximate plans to learn universal policies that are conditioned on plans. In our robotic manipulation experiments, L2E exhibits increased performance when compared to pure RL, pure planning, or baseline methods combining learning and planning.
翻訳日:2021-11-16 18:49:37 公開日:2021-11-15
# (参考訳) フェデレーション量子化ニューラルネットワークにおけるエネルギー・精度・精度のトレードオフについて

On the Tradeoff between Energy, Precision, and Accuracy in Federated Quantized Neural Networks ( http://arxiv.org/abs/2111.07911v1 )

ライセンス: CC BY 4.0
Minsu Kim, Walid Saad, Mohammad Mozaffari, and Merouane Debbah(参考訳) リソース制約のあるデバイスで無線ネットワークにフェデレーション学習(FL)をデプロイするには、精度、エネルギー効率、精度のバランスをとる必要がある。 FLの先行技術は、データ表現の精度を向上させるために32ビットの精度レベルを使用してディープニューラルネットワーク(DNN)をトレーニングするデバイスを必要とすることが多い。 しかし、DNNは数百万の操作を実行する必要があるため、リソース制約のあるデバイスではそのようなアルゴリズムは実用的ではない。 したがって、DNNを高精度に訓練すると、FLの高エネルギーコストが発生する。 本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現する量子化FLフレームワークを提案する。 ここでは、有限レベルの精度が、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。 検討されたFLモデルでは、各デバイスがQNNを訓練し、量子化されたトレーニング結果を基地局に送信する。 局所訓練のためのエネルギーモデルと量子化を伴う伝達は厳格に導出される。 収束を確保しつつ、精度のレベルに対してエネルギー最小化問題を定式化する。 この問題を解決するために,まずfl収束率を解析的に導出し,線探索法を用いる。 シミュレーションの結果,我々のFLフレームワークは標準FLモデルと比較して最大53%のエネルギー消費を削減できることがわかった。 結果は、無線ネットワーク上でのFLの精度、エネルギー、精度のトレードオフにも光を当てた。

Deploying federated learning (FL) over wireless networks with resource-constrained devices requires balancing between accuracy, energy efficiency, and precision. Prior art on FL often requires devices to train deep neural networks (DNNs) using a 32-bit precision level for data representation to improve accuracy. However, such algorithms are impractical for resource-constrained devices since DNNs could require execution of millions of operations. Thus, training DNNs with a high precision level incurs a high energy cost for FL. In this paper, a quantized FL framework, that represents data with a finite level of precision in both local training and uplink transmission, is proposed. Here, the finite level of precision is captured through the use of quantized neural networks (QNNs) that quantize weights and activations in fixed-precision format. In the considered FL model, each device trains its QNN and transmits a quantized training result to the base station. Energy models for the local training and the transmission with the quantization are rigorously derived. An energy minimization problem is formulated with respect to the level of precision while ensuring convergence. To solve the problem, we first analytically derive the FL convergence rate and use a line search method. Simulation results show that our FL framework can reduce energy consumption by up to 53% compared to a standard FL model. The results also shed light on the tradeoff between precision, energy, and accuracy in FL over wireless networks.
翻訳日:2021-11-16 18:26:04 公開日:2021-11-15
# (参考訳) ロバストなロボットシーン再構成のための意味的グラウンドオブジェクトマッチング

Semantically Grounded Object Matching for Robust Robotic Scene Rearrangement ( http://arxiv.org/abs/2111.07975v1 )

ライセンス: CC BY-SA 4.0
Walter Goodwin, Sagar Vaze, Ioannis Havoutis, Ingmar Posner(参考訳) オブジェクトの再配置は、ロボット操作における重要な能力として最近登場し、一般的にはオブジェクトの検出、認識、把握、高レベルの計画を含む実用的なソリューションである。 所望のシーン構成を記述するゴールイメージは、有望でますます使われている命令モードである。 重要な課題は、ロボットの前にあるオブジェクトと、オブジェクト固有のトレーニングデータがないという最近の研究で苦労している、提供された目標画像に見られるオブジェクトの一致の正確な推測である。 本研究では,観測シーンとゴールシーンの視覚的シフトが増加するにつれて,オブジェクト間のマッチングを推測する既存手法の劣化について検討する。 現在の設定の基本的な制限は、ソースとターゲットイメージがすべてのオブジェクトに対して同じ$\textit{instance}$でなければならないことである。 本稿では,視覚的特徴とセマンティクスを併用して,より堅牢で汎用的な類似度尺度として活用することにより,大規模学習済みの視覚言語モデルを用いたオブジェクトマッチング手法を提案する。 これは、クロスインスタンス設定でのマッチング性能が大幅に向上することを示し、ロボットマニピュレータによるマルチオブジェクトの再構成をロボットのシーンと共有しない画像から導くために使用できる。

Object rearrangement has recently emerged as a key competency in robot manipulation, with practical solutions generally involving object detection, recognition, grasping and high-level planning. Goal-images describing a desired scene configuration are a promising and increasingly used mode of instruction. A key outstanding challenge is the accurate inference of matches between objects in front of a robot, and those seen in a provided goal image, where recent works have struggled in the absence of object-specific training data. In this work, we explore the deterioration of existing methods' ability to infer matches between objects as the visual shift between observed and goal scenes increases. We find that a fundamental limitation of the current setting is that source and target images must contain the same $\textit{instance}$ of every object, which restricts practical deployment. We present a novel approach to object matching that uses a large pre-trained vision-language model to match objects in a cross-instance setting by leveraging semantics together with visual features as a more robust, and much more general, measure of similarity. We demonstrate that this provides considerably improved matching performance in cross-instance settings, and can be used to guide multi-object rearrangement with a robot manipulator from an image that shares no object $\textit{instances}$ with the robot's scene.
翻訳日:2021-11-16 18:15:16 公開日:2021-11-15
# 深層学習に基づく都市車両軌道解析

Deep Learning based Urban Vehicle Trajectory Analytics ( http://arxiv.org/abs/2111.07489v1 )

ライセンス: Link先を確認
Seongjin Choi(参考訳) 軌跡 (trajectory) とは、地理的空間における移動物体が生成する痕跡のことであり、通常は時系列的に順序付けられた一連の点によって表され、各点が地理空間座標集合とタイムスタンプからなる。 位置センシングと無線通信技術の急速な進歩により、大量の軌道データの収集と保存が可能となった。 その結果、多くの研究者が軌跡データを用いて様々な移動物体の移動を解析した。 本稿では,都市交通ネットワークにおける車両の軌跡を指す「都市自動車軌跡」に着目し,都市交通網における「都市車両軌跡分析」に焦点を当てた。 '都市車両軌道分析は、利用者中心の旅行体験とシステム全体の時空間パターンの両方を含む都市交通ネットワークにおける車両移動パターンを理解する前例のない機会を提供する。 都市車両軌道データの時空間的特徴は構造的に相互に相関しており、その結果、多くの研究者がこの構造を理解するために様々な方法を用いた。 特にディープラーニングモデルは、その強力な関数近似と特徴表現能力により、多くの研究者から注目を集めている。 この論文の目的は,都市交通ネットワークの移動パターンをよりよく理解するために,都市交通軌跡分析のためのディープラーニングモデルを開発することである。 特にこの論文は,次の位置予測と合成軌道生成という,高い必要性,重要性,適用性を有する2つの研究トピックに焦点を当てている。 本研究では,深層学習を用いた都市車両軌道解析のための様々なモデルを提案する。

A `trajectory' refers to a trace generated by a moving object in geographical spaces, usually represented by of a series of chronologically ordered points, where each point consists of a geo-spatial coordinate set and a timestamp. Rapid advancements in location sensing and wireless communication technology enabled us to collect and store a massive amount of trajectory data. As a result, many researchers use trajectory data to analyze mobility of various moving objects. In this dissertation, we focus on the `urban vehicle trajectory,' which refers to trajectories of vehicles in urban traffic networks, and we focus on `urban vehicle trajectory analytics.' The urban vehicle trajectory analytics offers unprecedented opportunities to understand vehicle movement patterns in urban traffic networks including both user-centric travel experiences and system-wide spatiotemporal patterns. The spatiotemporal features of urban vehicle trajectory data are structurally correlated with each other, and consequently, many previous researchers used various methods to understand this structure. Especially, deep-learning models are getting attentions of many researchers due to its powerful function approximation and feature representation abilities. As a result, the objective of this dissertation is to develop deep-learning based models for urban vehicle trajectory analytics to better understand the mobility patterns of urban traffic networks. Particularly, this dissertation focuses on two research topics, which has high necessity, importance and applicability: Next Location Prediction, and Synthetic Trajectory Generation. In this study, we propose various novel models for urban vehicle trajectory analytics using deep learning.
翻訳日:2021-11-16 17:55:51 公開日:2021-11-15
# dnngradient lossless compression: gennormが答えになるのか?

DNN gradient lossless compression: Can GenNorm be the answer? ( http://arxiv.org/abs/2111.07599v1 )

ライセンス: Link先を確認
Zhong-Jing Chen, Eduin E. Hernandez, Yu-Chih Huang, Stefano Rini(参考訳) 本稿では,Deep Neural Network(DNN)トレーニングにおける最適勾配損失圧縮の問題について考察する。 勾配圧縮は、多くの分散dnnトレーニングシナリオに関係しており、例えば、最近普及したfederated learning(fl)シナリオでは、各リモートユーザがノイズの少ないレート制限チャンネルを介してパラメータサーバ(ps)に接続されている。 分散DNNトレーニングでは、基礎となる勾配分布が利用可能であれば、古典的なロスレス圧縮手法を用いて勾配エントリの通信に必要なビット数を削減できる。 平均場解析は勾配更新を独立確率変数とみなすことができ、ラプラス近似は勾配が正規分布(Norm)を近似する分布を持つと主張するために用いられる。 本稿では, 実用的関心のあるネットワークにおいて, 勾配項目を一般化正規分布(gennorm)分布としてよくモデル化することができることを論じる。 我々は,仮説GenNormモデリングがDNN勾配尾部分布をより正確に予測できることを示す数値評価を行う。 さらに、このモデリングの選択は、量子化された勾配更新にハフマン符号のような古典的な固定から可変のロスレス符号化アルゴリズムを適用する際の勾配のロスレス圧縮という観点で具体的な改善をもたらす。 後者の結果は、分散DNNトレーニングシナリオにおいて非常に実践的な関連性を持つ、メモリと計算の複雑さの少ない効果的な圧縮戦略を提供する。

In this paper, the problem of optimal gradient lossless compression in Deep Neural Network (DNN) training is considered. Gradient compression is relevant in many distributed DNN training scenarios, including the recently popular federated learning (FL) scenario in which each remote users are connected to the parameter server (PS) through a noiseless but rate limited channel. In distributed DNN training, if the underlying gradient distribution is available, classical lossless compression approaches can be used to reduce the number of bits required for communicating the gradient entries. Mean field analysis has suggested that gradient updates can be considered as independent random variables, while Laplace approximation can be used to argue that gradient has a distribution approximating the normal (Norm) distribution in some regimes. In this paper we argue that, for some networks of practical interest, the gradient entries can be well modelled as having a generalized normal (GenNorm) distribution. We provide numerical evaluations to validate that the hypothesis GenNorm modelling provides a more accurate prediction of the DNN gradient tail distribution. Additionally, this modeling choice provides concrete improvement in terms of lossless compression of the gradients when applying classical fix-to-variable lossless coding algorithms, such as Huffman coding, to the quantized gradient updates. This latter results indeed provides an effective compression strategy with low memory and computational complexity that has great practical relevance in distributed DNN training scenarios.
翻訳日:2021-11-16 17:55:30 公開日:2021-11-15
# neuralpde: データからの動的システムのモデリング

NeuralPDE: Modelling Dynamical Systems from Data ( http://arxiv.org/abs/2111.07671v1 )

ライセンス: Link先を確認
Andrzej Dulny and Andreas Hotho and Anna Krause(参考訳) 気象現象や流体力学のような多くの物理過程は偏微分方程式(PDE)によって制御される。 ニューラルネットワークを用いたそのような動的システムのモデリングは、新たな研究分野である。 しかし、現在の手法は様々な方法で制限されており、それらは支配方程式に関する事前知識を必要とし、線形あるいは一階方程式に限定されている。 本研究では、畳み込みニューラルネットワーク(CNN)と微分可能なODEソルバを組み合わせて動的システムをモデル化するモデルであるNeuralPDEを提案する。 標準PDEソルバで使用されるラインの手法は、CNNが任意のPDEダイナミクスをパラメトリズする自然な選択となる畳み込みを用いて表現できることを示す。 我々のモデルは、PDEに関する事前の知識を必要とせずに、あらゆるデータに適用することができる。 我々は,多種多様なPDEを解くことで生成されたデータセット上でNeuralPDEを評価し,高次数,非線形方程式,複数空間次元を網羅した。

Many physical processes such as weather phenomena or fluid mechanics are governed by partial differential equations (PDEs). Modelling such dynamical systems using Neural Networks is an emerging research field. However, current methods are restricted in various ways: they require prior knowledge about the governing equations, and are limited to linear or first-order equations. In this work we propose NeuralPDE, a model which combines convolutional neural networks (CNNs) with differentiable ODE solvers to model dynamical systems. We show that the Method of Lines used in standard PDE solvers can be represented using convolutions which makes CNNs the natural choice to parametrize arbitrary PDE dynamics. Our model can be applied to any data without requiring any prior knowledge about the governing PDE. We evaluate NeuralPDE on datasets generated by solving a wide variety of PDEs, covering higher orders, non-linear equations and multiple spatial dimensions.
翻訳日:2021-11-16 17:55:04 公開日:2021-11-15
# 2つの良い解のバイアス付きクロスオーバーを用いたグローバルサーチの2次高速化

Quadratic speedup of global search using a biased crossover of two good solutions ( http://arxiv.org/abs/2111.07680v1 )

ライセンス: Link先を確認
Takuya Isomura(参考訳) コスト関数の最小化は様々な最適化分野において不可欠である。 しかし、計算コストが膨大であるため、グローバルな最小値の特定は依然として困難である。 この研究は、高次元離散状態空間の下で定義されるコスト関数のクラスに対して、近似大域最小値を特定するための計算コストを解析的に表現する。 そこで,計算コストを最小限に抑える最適なグローバル検索手法を提案する。 数学的解析により、勾配降下アルゴリズムと選択とクロスオーバーアルゴリズムの組み合わせが、偏りのあるクロスオーバー重みによって探索効率を最大化することを示した。 驚くべきことに、計算コストは従来の勾配降下アルゴリズムとは対照的に平方根次であり、大域探索の二次的な高速化を示している。 我々は,旅行セールスマン問題の数値解析を用いて,この提案を裏付ける。 提案手法の単純な計算アーキテクチャと最小計算コストは生物や神経形態学のハードウェアにとって非常に望ましい。

The minimisation of cost functions is crucial in various optimisation fields. However, identifying their global minimum remains challenging owing to the huge computational cost incurred. This work analytically expresses the computational cost to identify an approximate global minimum for a class of cost functions defined under a high-dimensional discrete state space. Then, we derive an optimal global search scheme that minimises the computational cost. Mathematical analyses demonstrate that a combination of the gradient descent algorithm and the selection and crossover algorithm--with a biased crossover weight--maximises the search efficacy. Remarkably, its computational cost is of the square root order in contrast to that of the conventional gradient descent algorithms, indicating a quadratic speedup of global search. We corroborate this proposition using numerical analyses of the travelling salesman problem. The simple computational architecture and minimal computational cost of the proposed scheme are highly desirable for biological organisms and neuromorphic hardware.
翻訳日:2021-11-16 17:50:22 公開日:2021-11-15
# ディープヘッジ:最小等価近傍マーチンゲール対策によるトレーディング摩擦下でのドリフト除去学習

Deep Hedging: Learning to Remove the Drift under Trading Frictions with Minimal Equivalent Near-Martingale Measures ( http://arxiv.org/abs/2111.07844v1 )

ライセンス: Link先を確認
Hans Buehler, Phillip Murray, Mikko S. Pakkanen, Ben Wood(参考訳) 取引可能な機器の市場シミュレーター(スポット価格やオプションなど)について,最小限の等価なマーチンゲール尺度を学習するための数値的に効率的な手法を提案する。 取引コストと取引制限の存在下では、予測されたリターンが既定の入札/リスク拡散内にとどまる最小の等価な「近辺マーチンゲール措置」を学習する結果を緩和する。 したがって、高次元複素空間における「ドリフトの除去」に対する我々のアプローチは完全にモデルフリーであり、古典的な仲裁を示さない任意の市場シミュレータに適用できる。 結果として得られるモデルは、リスク中立的な価格、あるいは“ディープヘッジ”のトランザクションコストやトレーディング制約に使用することができる。 本稿では,2つの市場シミュレータ,自動回帰的離散時間確率的暗黙的変動モデル,GAN(Generative Adversarial Network)ベースのシミュレータに適用し,統計量に基づくオプション価格の履歴データに基づいて,スポットとオプション価格の現実的なサンプルを生成する手法を提案する。 当初の市場シミュレータの推定誤差に関して,ロバスト性についてコメントする。

We present a numerically efficient approach for learning minimal equivalent martingale measures for market simulators of tradable instruments, e.g. for a spot price and options written on the same underlying. In the presence of transaction cost and trading restrictions, we relax the results to learning minimal equivalent "near-martingale measures" under which expected returns remain within prevailing bid/ask spreads. Our approach to thus "removing the drift" in a high dimensional complex space is entirely model-free and can be applied to any market simulator which does not exhibit classic arbitrage. The resulting model can be used for risk neutral pricing, or, in the case of transaction costs or trading constraints, for "Deep Hedging". We demonstrate our approach by applying it to two market simulators, an auto-regressive discrete-time stochastic implied volatility model, and a Generative Adversarial Network (GAN) based simulator, both of which trained on historical data of option prices under the statistical measure to produce realistic samples of spot and option prices. We comment on robustness with respect to estimation error of the original market simulator.
翻訳日:2021-11-16 17:50:10 公開日:2021-11-15
# ランク付け平均治療効果による治療優先順位付けルールの評価

Evaluating Treatment Prioritization Rules via Rank-Weighted Average Treatment Effects ( http://arxiv.org/abs/2111.07966v1 )

ライセンス: Link先を確認
Steve Yadlowsky, Scott Fleming, Nigam Shah, Emma Brunskill, Stefan Wager(参考訳) 治療効果の推定、リスクスコア、手作りのルールに基づくものなど、誰が治療を優先するかを選択するために使用できる方法が数多く存在する。 レベルプレイフィールドにおける治療優先順位付けルールを比較するための,簡易かつ一般的な指標として,ランク重み付き平均治療効果(RATE)指標を提案する。 優先順位付けの規則がいかに導かれたかは定かではなく、治療から最も利益を得られるユニットを特定することに成功するかに基づいてのみ評価する。 我々は、RATE推定器の族を定義し、多種多様なランダム化および観察研究環境における漸近的正確な推論を可能にする中心極限定理を証明した。 ブートストラップされた信頼区間の使用の正当化と,治療効果の異質性に関する仮説を優先順位付け規則に関連づけて検証するための枠組みを提供する。 我々のレートの定義は、qini係数を含む多くの既存のメトリクスをネストし、分析はこれらのメトリクスの推論メソッドを直接生み出します。 我々は、パーソナライズされた医療とマーケティングの両方から引き出された例で、我々のアプローチを実証する。 医療現場では,SPRINTとACCORD-BPによるランダム化制御試験のデータを用いて,異種治療効果の有意な証拠は得られなかった。 一方,大規模なマーケティング実験では,デジタル広告キャンペーンにおける治療効果が不均一であることを示す強固な証拠を見いだし,推定リスクを優先するターゲティングルールと、推定された治療効果を優先するルールを比較するためのレートの使用方法を示す。

There are a number of available methods that can be used for choosing whom to prioritize treatment, including ones based on treatment effect estimation, risk scoring, and hand-crafted rules. We propose rank-weighted average treatment effect (RATE) metrics as a simple and general family of metrics for comparing treatment prioritization rules on a level playing field. RATEs are agnostic as to how the prioritization rules were derived, and only assesses them based on how well they succeed in identifying units that benefit the most from treatment. We define a family of RATE estimators and prove a central limit theorem that enables asymptotically exact inference in a wide variety of randomized and observational study settings. We provide justification for the use of bootstrapped confidence intervals and a framework for testing hypotheses about heterogeneity in treatment effectiveness correlated with the prioritization rule. Our definition of the RATE nests a number of existing metrics, including the Qini coefficient, and our analysis directly yields inference methods for these metrics. We demonstrate our approach in examples drawn from both personalized medicine and marketing. In the medical setting, using data from the SPRINT and ACCORD-BP randomized control trials, we find no significant evidence of heterogeneous treatment effects. On the other hand, in a large marketing trial, we find robust evidence of heterogeneity in the treatment effects of some digital advertising campaigns and demonstrate how RATEs can be used to compare targeting rules that prioritize estimated risk vs. those that prioritize estimated treatment benefit.
翻訳日:2021-11-16 17:49:47 公開日:2021-11-15
# 言語情報と雑音データを利用した音声合成における未知テキストの韻律改善

Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data ( http://arxiv.org/abs/2111.07549v1 )

ライセンス: Link先を確認
Zhu Li, Yuqing Zhang, Mengxi Nie, Ming Yan, Mengnan He, Ruixiong Zhang, Caixia Gong(参考訳) 近年の音声合成の進歩により、高度に自然な音声を生成することができるようになった。 しかし、これらのモデルの訓練は通常、大量の高忠実度音声データを必要とするが、見知らぬテキストの場合、合成された音声の韻律は比較的不自然なものである。 これらの問題に対処するため,我々は,事前学習されたfastspeech2ベースの音響モデルとbertベースのフロントエンドを組み合わせることで,韻律モデリングを改善することを提案する。 事前学習されたBERTは、多タスク学習フレームワークにおける多音不明瞭タスク、中国語単語分割(CWS)と音声タグ付けタスク、韻律構造予測(PSP)タスクに微調整される。 FastSpeech 2は、ノイズが多いが入手しやすい大規模な外部データに対して事前訓練される。 実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2は,特に構造的に複雑な文において韻律を改善できることがわかった。

Recent advancements in end-to-end speech synthesis have made it possible to generate highly natural speech. However, training these models typically requires a large amount of high-fidelity speech data, and for unseen texts, the prosody of synthesized speech is relatively unnatural. To address these issues, we propose to combine a fine-tuned BERT-based front-end with a pre-trained FastSpeech2-based acoustic model to improve prosody modeling. The pre-trained BERT is fine-tuned on the polyphone disambiguation task, the joint Chinese word segmentation (CWS) and part-of-speech (POS) tagging task, and the prosody structure prediction (PSP) task in a multi-task learning framework. FastSpeech 2 is pre-trained on large-scale external data that are noisy but easier to obtain. Experimental results show that both the fine-tuned BERT model and the pre-trained FastSpeech 2 can improve prosody, especially for those structurally complex sentences.
翻訳日:2021-11-16 17:48:59 公開日:2021-11-15
# 翻訳品質評価(TQE)における不確かさの測定

Measuring Uncertainty in Translation Quality Evaluation (TQE) ( http://arxiv.org/abs/2111.07699v1 )

ライセンス: Link先を確認
Serge Gladkoff, Irina Sorokina, Lifeng Han, Alexandra Alekseeva(参考訳) ヒト翻訳者(HT)と機械翻訳者(MT)の両方の観点から、翻訳品質評価(TQE)が不可欠である。 翻訳サービスプロバイダ(TSP)は、厳しい時間枠とコストで要求される品質レベルの厳しい制約で、顧客仕様を満たす大量の翻訳を提供する必要があります。 MTの研究者たちはモデルの改善に努め、信頼性の高い品質評価も必要としている。 自動機械翻訳評価(mte)のメトリクスと品質推定(qe)ツールは広く利用可能であり、アクセスが容易であるが、既存の自動化ツールは不十分であり、プロの翻訳者(hap)によるヒューマンアセスメントは、しばしば金の標準である \cite{han-etal-2021-tqa} として選択される。 しかし、人間の評価は信頼性と同意度が低いとしばしば非難される。 これは主観性や統計が原因か? 原価と効率の観点から、また翻訳テキストの最適なサンプルサイズは、資料全体の翻訳品質を確実に推定するために、テキスト全体のチェックやtqeによる効率的化を避けるには、どうすればよいのか? この研究は、翻訳されたテキストのサンプルサイズ、例えばTQEワークフローステップで処理する必要がある単語や文の量に応じて、信頼区間 \cite{Brown_etal 2001Interval} を正確に推定し、全体的な翻訳品質の信頼性と信頼性を評価する。 本研究に応用した手法はbernoulli statistical distribution modelling (bsdm) と monte carlo sampling analysis (mcsa) によるものである。

From both human translators (HT) and machine translation (MT) researchers' point of view, translation quality evaluation (TQE) is an essential task. Translation service providers (TSPs) have to deliver large volumes of translations which meet customer specifications with harsh constraints of required quality level in tight time-frames and costs. MT researchers strive to make their models better, which also requires reliable quality evaluation. While automatic machine translation evaluation (MTE) metrics and quality estimation (QE) tools are widely available and easy to access, existing automated tools are not good enough, and human assessment from professional translators (HAP) are often chosen as the golden standard \cite{han-etal-2021-TQA}. Human evaluations, however, are often accused of having low reliability and agreement. Is this caused by subjectivity or statistics is at play? How to avoid the entire text to be checked and be more efficient with TQE from cost and efficiency perspectives, and what is the optimal sample size of the translated text, so as to reliably estimate the translation quality of the entire material? This work carries out such motivated research to correctly estimate the confidence intervals \cite{Brown_etal2001Interval} depending on the sample size of the translated text, e.g. the amount of words or sentences, that needs to be processed on TQE workflow step for confident and reliable evaluation of overall translation quality. The methodology we applied for this work is from Bernoulli Statistical Distribution Modelling (BSDM) and Monte Carlo Sampling Analysis (MCSA).
翻訳日:2021-11-16 17:48:40 公開日:2021-11-15
# ハードラベル攻撃の歪み低減のための最適タンジェント点の探索

Finding Optimal Tangent Points for Reducing Distortions of Hard-label Attacks ( http://arxiv.org/abs/2111.07492v1 )

ライセンス: Link先を確認
Chen Ma, Xiangyu Guo, Li Chen, Jun-Hai Yong, Yisen Wang(参考訳) ブラックボックスの敵攻撃の大きな問題は、上位1つのラベルしか使用できないハードラベル攻撃設定におけるクエリの複雑さである。 本稿では,決定境界上に位置する仮想半球の最適接点を同定し,攻撃の歪みを低減させる,タンジェント攻撃(ta)と呼ばれる新しい幾何学的アプローチを提案する。 決定境界が局所平坦であると仮定すると、各反復においてそのような接点を通る接線に沿って決定境界に達することにより、最小$\ell_2$歪みが得られることが理論的に証明される。 さらに,本手法のロバスト性を向上させるため,半楕円形で半球を置き換え,曲線決定境界に適応する一般化手法を提案する。 我々のアプローチはハイパーパラメータと事前トレーニングがない。 ImageNet と CIFAR-10 データセットで行った大規模な実験により,我々の手法は少数のクエリしか消費できず,低マグニチュード歪みを実現することができた。 実装ソースコードはhttps://github.com/machanic/TangentAttack.comで公開されている。

One major problem in black-box adversarial attacks is the high query complexity in the hard-label attack setting, where only the top-1 predicted label is available. In this paper, we propose a novel geometric-based approach called Tangent Attack (TA), which identifies an optimal tangent point of a virtual hemisphere located on the decision boundary to reduce the distortion of the attack. Assuming the decision boundary is locally flat, we theoretically prove that the minimum $\ell_2$ distortion can be obtained by reaching the decision boundary along the tangent line passing through such tangent point in each iteration. To improve the robustness of our method, we further propose a generalized method which replaces the hemisphere with a semi-ellipsoid to adapt to curved decision boundaries. Our approach is free of hyperparameters and pre-training. Extensive experiments conducted on the ImageNet and CIFAR-10 datasets demonstrate that our approach can consume only a small number of queries to achieve the low-magnitude distortion. The implementation source code is released online at https://github.com/machanic/TangentAttack.
翻訳日:2021-11-16 17:46:06 公開日:2021-11-15
# ハイパースペクトル画像再構成のためのマスク誘導分光変換器

Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2111.07910v1 )

ライセンス: Link先を確認
Yuanhao Cai, Jing Lin, Xiaowan Hu, Haoqian Wang, Xin Yuan, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) ハイパースペクトル画像(HSI)再構成は,符号化開口分光画像(CASSI)システムにおける2次元計測から3次元空間スペクトル信号を復元することを目的としている。 HSI表現は非常に類似しており、スペクトル次元にわたって相関している。 スペクトル間相互作用のモデル化はhsi再構成に有用である。 しかし、既存のCNNベースの手法はスペクトル的類似性と長距離依存を捉える際の限界を示す。 さらに、HSI情報はCASSIの符号化開口(物理マスク)によって変調される。 それにもかかわらず、現在のアルゴリズムはHSI修復のためのマスクの誘導効果を十分に調べていない。 本稿では, マスク誘導型スペクトル変換器(mst)のhsi再構成のための新しい枠組みを提案する。 具体的には、各スペクトル特徴をトークンとして扱い、スペクトル次元に沿って自己アテンションを算出するスペクトルワイドマルチヘッド自己アテンション(S-MSA)を提案する。 また,マスク誘導機構(mm)をカスタマイズし,s-msaを高忠実なスペクトル表現を持つ空間領域に注意を向ける。 大規模実験の結果,mstはシミュレーションや実際のhsiデータセットに対する最先端(sota)手法を大幅に上回っており,計算コストやメモリコストは劇的に削減できることがわかった。

Hyperspectral image (HSI) reconstruction aims to recover the 3D spatial-spectral signal from a 2D measurement in the coded aperture snapshot spectral imaging (CASSI) system. The HSI representations are highly similar and correlated across the spectral dimension. Modeling the inter-spectra interactions is beneficial for HSI reconstruction. However, existing CNN-based methods show limitations in capturing spectral-wise similarity and long-range dependencies. Besides, the HSI information is modulated by a coded aperture (physical mask) in CASSI. Nonetheless, current algorithms have not fully explored the guidance effect of the mask for HSI restoration. In this paper, we propose a novel framework, Mask-guided Spectral-wise Transformer (MST), for HSI reconstruction. Specifically, we present a Spectral-wise Multi-head Self-Attention (S-MSA) that treats each spectral feature as a token and calculates self-attention along the spectral dimension. In addition, we customize a Mask-guided Mechanism (MM) that directs S-MSA to pay attention to spatial regions with high-fidelity spectral representations. Extensive experiments show that our MST significantly outperforms state-of-the-art (SOTA) methods on simulation and real HSI datasets while requiring dramatically cheaper computational and memory costs.
翻訳日:2021-11-16 17:45:47 公開日:2021-11-15
# 機械の物理:自律的位相マッピングにおける物理知識の統合

Physics in the Machine: Integrating Physical Knowledge in Autonomous Phase-Mapping ( http://arxiv.org/abs/2111.07478v1 )

ライセンス: Link先を確認
A. Gilad Kusne, Austin McDannald, Brian DeCost, Corey Oses, Cormac Toher, Stefano Curtarolo, Apurva Mehta, Ichiro Takeuchi(参考訳) 人工知能(AI)、特に機械学習の物理科学への応用は、過去数十年で大幅に拡大してきた。 特に、科学インフォームドAIや科学AIは、データ分析から、クローズドループ自律システムにおける実験設計、シミュレーション、実行、分析まで、成長してきた。 cameo(closed-loop autonomous materials exploration and optimization)アルゴリズムは、材料システムの構成構造関係の学習と最適な機能特性を持つ材料組成の同定という2つのタスクに科学的aiを用いる。 これらを統合することで, 合成相図を走査する加速材料が示され, 最高の位相変化記憶材料が発見された。 この成功の鍵は、構成-構造関係の知識を最大化するために、その後の測定を導く能力である。 本研究では,キャメオの自律的位相マッピングに先行する物理知識の様々なレベルを組み込むことの利点について検討する。 これには、AFLOWリポジトリからのab-initioフェーズ境界データの使用が含まれる。

Application of artificial intelligence (AI), and more specifically machine learning, to the physical sciences has expanded significantly over the past decades. In particular, science-informed AI or scientific AI has grown from a focus on data analysis to now controlling experiment design, simulation, execution and analysis in closed-loop autonomous systems. The CAMEO (closed-loop autonomous materials exploration and optimization) algorithm employs scientific AI to address two tasks: learning a material system's composition-structure relationship and identifying materials compositions with optimal functional properties. By integrating these, accelerated materials screening across compositional phase diagrams was demonstrated, resulting in the discovery of a best-in-class phase change memory material. Key to this success is the ability to guide subsequent measurements to maximize knowledge of the composition-structure relationship, or phase map. In this work we investigate the benefits of incorporating varying levels of prior physical knowledge into CAMEO's autonomous phase-mapping. This includes the use of ab-initio phase boundary data from the AFLOW repositories, which has been shown to optimize CAMEO's search when used as a prior.
翻訳日:2021-11-16 17:38:54 公開日:2021-11-15
# データ学習による無許可共存ネットワーク性能の最適化

Optimizing Unlicensed Coexistence Network Performance Through Data Learning ( http://arxiv.org/abs/2111.07583v1 )

ライセンス: Link先を確認
Srikant Manas Kala, Vanlin Sathya, Kunal Dahiya, Teruo Higashino, and Hirozumi Yamaguchi(参考訳) 未ライセンスのLTE-WiFi共存ネットワークは、モバイルデータ需要の増加に対応するために、一貫したデザイナ化が進んでいる。 共存ネットワークの複雑性の増大に伴い、ネットワーク特徴関係(NFR)を研究し、その利用により、密接な共存ネットワーク性能を最適化することが重要である。 本研究は,実世界の実験から収集したネットワークデータの教師あり学習を通じて,未ライセンスLTE-WiFi(LTE-UおよびLTE-LAA)ネットワークにおけるNFRを研究する。 実験では異なる802.11標準と異なるチャネル帯域幅が考慮され、学習モデル選択ポリシーが明確に概説されている。 その後、R-sq、残留誤差、外れ値、予測器の選択などのモデルパラメータを学習することで、LTE-WiFiネットワーク構成の比較分析を行う。 さらに,ネットワーク特徴関係に基づく最適化(NeFRO)フレームワークを提案する。 NeFROは,ネットワークデータから得られた特徴相関式を利用して,従来の最適化式を改善する。 本手法は,ネットワーク容量と信号強度の2つの最適化目標により,時間クリティカルな密集した共存ネットワークに高い適合性を示す。 NeFROはネットワーク最適化に関する最近の4つの研究に対して検証されている。 NeFROは、平均して97.16%の精度を維持しながら、最適化収束時間を最大24%減らすことに成功した。

Unlicensed LTE-WiFi coexistence networks are undergoing consistent densification to meet the rising mobile data demands. With the increase in coexistence network complexity, it is important to study network feature relationships (NFRs) and utilize them to optimize dense coexistence network performance. This work studies NFRs in unlicensed LTE-WiFi (LTE-U and LTE-LAA) networks through supervised learning of network data collected from real-world experiments. Different 802.11 standards and varying channel bandwidths are considered in the experiments and the learning model selection policy is precisely outlined. Thereafter, a comparative analysis of different LTE-WiFi network configurations is performed through learning model parameters such as R-sq, residual error, outliers, choice of predictor, etc. Further, a Network Feature Relationship based Optimization (NeFRO) framework is proposed. NeFRO improves upon the conventional optimization formulations by utilizing the feature-relationship equations learned from network data. It is demonstrated to be highly suitable for time-critical dense coexistence networks through two optimization objectives, viz., network capacity and signal strength. NeFRO is validated against four recent works on network optimization. NeFRO is successfully able to reduce optimization convergence time by as much as 24% while maintaining accuracy as high as 97.16%, on average.
翻訳日:2021-11-16 17:38:34 公開日:2021-11-15
# autogmap: memristive crossbars上で大規模スパースグラフをマッピングする学習

AutoGMap: Learning to Map Large-scale Sparse Graphs on Memristive Crossbars ( http://arxiv.org/abs/2111.07684v1 )

ライセンス: Link先を確認
Bo Lyu, Shengbo Wang, Shiping Wen, Kaibo Shi, Yin Yang, and Tingwen Huang(参考訳) グラフのスパース表現は、従来の計算アーキテクチャ(CPU、GPU、TPU)におけるグラフアプリケーション(例えば、ソーシャルネットワーク、知識グラフ)の計算を高速化する大きな可能性を示している。 しかし、プロセッシング・イン・メモリ(PIM)プラットフォーム上の大規模スパースグラフコンピューティング(典型的にはメムリシブ・クロスバー)の探索はまだ初期段階である。 大規模なグラフやバッチグラフの計算や格納をmemristive crossbarsに実装しようとするとき、自然な仮定として、大規模なクロスバーが必要だが、利用頻度は低い。 近年の研究では、固定サイズ、漸進的スケジュール、粗粒度である「ブロックパーティション」によってストレージと計算資源の無駄を避けるという仮定に疑問が持たれている。 本研究は、強化学習(rl)アルゴリズム(reinforce)によって解かれる逐次意思決定問題として問題をモデル化する動的スパーシティ・アウェアマッピングスキーム生成手法を提案する。 我々の生成モデル(LSTM, 動的充填機構)は, 小型の典型的なグラフ/行列データ(全写像を持つ元の行列の43%の領域)と2つの大規模行列データ(qh882の22.5%, qh1484の17.1%の領域)で顕著なマッピング性能を生成する。 さらに,このスキームのコーディングフレームワークは直感的であり,デプロイやコンパイルシステムへの適応性が期待できる。

The sparse representation of graphs has shown its great potential for accelerating the computation of the graph applications (e.g. Social Networks, Knowledge Graphs) on traditional computing architectures (CPU, GPU, or TPU). But the exploration of the large-scale sparse graph computing on processing-in-memory (PIM) platforms (typically with memristive crossbars) is still in its infancy. As we look to implement the computation or storage of large-scale or batch graphs on memristive crossbars, a natural assumption would be that we need a large-scale crossbar, but with low utilization. Some recent works have questioned this assumption to avoid the waste of the storage and computational resource by "block partition", which is fixed-size, progressively scheduled, or coarse-grained, thus is not effectively sparsity-aware in our view. This work proposes the dynamic sparsity-aware mapping scheme generating method that models the problem as a sequential decision-making problem which is solved by reinforcement learning (RL) algorithm (REINFORCE). Our generating model (LSTM, combined with our dynamic-fill mechanism) generates remarkable mapping performance on a small-scale typical graph/matrix data (43% area of the original matrix with fully mapping), and two large-scale matrix data (22.5% area on qh882, and 17.1% area on qh1484). Moreover, our coding framework of the scheme is intuitive and has promising adaptability with the deployment or compilation system.
翻訳日:2021-11-16 17:38:11 公開日:2021-11-15
# MIMO CSI再生のための未学習ニューラルネットワークの伝達学習能力

Transfer Learning Capabilities of Untrained Neural Networks for MIMO CSI Recreation ( http://arxiv.org/abs/2111.07858v1 )

ライセンス: Link先を確認
Brenda Vilas Boas and Wolfgang Zirwas and Martin Haardt(参考訳) 無線通信のための機械学習(ML)アプリケーションは、5G以降の標準化議論で勢いを増している。 実世界のMLデプロイメントにおける最大の課題の1つは、ラベル付き信号と大きな計測キャンペーンの必要性である。 そこで本研究では,未学習ニューラルネットワーク(unns)を用いたmimoチャネルのレクリエーション/推定と低オーバーヘッド報告を提案する。 unnはいくつかのチャネル計測を適合させることで伝搬環境を学習し,その学習を活用し,高いチャネル推定率を提供する。 さらに,複数のユーザを対象とした同時チャネルレクリエーションのためのUNNや,推定チャネルゲインとパラメータ数との間にトレードオフがある複数ユーザ機器(UE)の配置を提案する。 その結果, 移動学習技術は, 近隣のユーザに対して高いチャネルゲインを提供するため, 学習前の環境構造へのアクセスに有効であることが示唆された。 さらに,UNNのアンダーパラメータ化により,低オーバヘッドチャネル状態情報(CSI)の報告が可能となることを示す。

Machine learning (ML) applications for wireless communications have gained momentum on the standardization discussions for 5G advanced and beyond. One of the biggest challenges for real world ML deployment is the need for labeled signals and big measurement campaigns. To overcome those problems, we propose the use of untrained neural networks (UNNs) for MIMO channel recreation/estimation and low overhead reporting. The UNNs learn the propagation environment by fitting a few channel measurements and we exploit their learned prior to provide higher channel estimation gains. Moreover, we present a UNN for simultaneous channel recreation for multiple users, or multiple user equipment (UE) positions, in which we have a trade-off between the estimated channel gain and the number of parameters. Our results show that transfer learning techniques are effective in accessing the learned prior on the environment structure as they provide higher channel gain for neighbouring users. Moreover, we indicate how the under-parameterization of UNNs can further enable low-overhead channel state information (CSI) reporting.
翻訳日:2021-11-16 17:36:21 公開日:2021-11-15
# 両世界のベスト:実用的かつ理論的に最適なパラレル部分モジュラー極大化

Best of Both Worlds: Practical and Theoretically Optimal Submodular Maximization in Parallel ( http://arxiv.org/abs/2111.07917v1 )

ライセンス: Link先を確認
Yixin Chen, Tonmoy Dey, Alan Kuhnle(参考訳) 単調で部分モジュラーな関数を大きさの基底集合上の濃度制約$k$で最大化する問題に対して、我々は、その経験的性能と理論的性質の両方において、適応的複雑性、クエリの複雑性、近似比の両面において最先端を達成するアルゴリズムを提供し、高い確率で、クエリの複雑さが$O(n)$の期待値、$O(\log(n))$の適応率、および近似比が$1-1/e$である。 主アルゴリズムは、独立した関心を持つ2つのコンポーネントから組み立てられる。 このアルゴリズムの最初のコンポーネントである linearseq は、多くのアルゴリズムのクエリの複雑さを改善する前処理アルゴリズムとして有用である。 さらに、LINEARSEQの変種は、文献のいかなる以前のアルゴリズムよりも小さい$O( \log (n / k) )$の適応的な複雑性を持つことが示されている。 第2のコンポーネントは、ゲインが一定の閾値を超える要素を追加する並列化可能なしきい値処理しきい値seqである。 最後に,本アルゴリズムは実行時,適応ラウンド,全問合せ,目的値において,従来の最先端アルゴリズムであるFASTを6つのサブモジュラー目的関数で総合的に評価した場合に,経験的に優れていることを示す。

For the problem of maximizing a monotone, submodular function with respect to a cardinality constraint $k$ on a ground set of size $n$, we provide an algorithm that achieves the state-of-the-art in both its empirical performance and its theoretical properties, in terms of adaptive complexity, query complexity, and approximation ratio; that is, it obtains, with high probability, query complexity of $O(n)$ in expectation, adaptivity of $O(\log(n))$, and approximation ratio of nearly $1-1/e$. The main algorithm is assembled from two components which may be of independent interest. The first component of our algorithm, LINEARSEQ, is useful as a preprocessing algorithm to improve the query complexity of many algorithms. Moreover, a variant of LINEARSEQ is shown to have adaptive complexity of $O( \log (n / k) )$ which is smaller than that of any previous algorithm in the literature. The second component is a parallelizable thresholding procedure THRESHOLDSEQ for adding elements with gain above a constant threshold. Finally, we demonstrate that our main algorithm empirically outperforms, in terms of runtime, adaptive rounds, total queries, and objective values, the previous state-of-the-art algorithm FAST in a comprehensive evaluation with six submodular objective functions.
翻訳日:2021-11-16 17:36:05 公開日:2021-11-15
# グラフニューラルネットワークを用いた無線フェデレーション学習のための電力割当

Power Allocation for Wireless Federated Learning using Graph Neural Networks ( http://arxiv.org/abs/2111.07480v1 )

ライセンス: Link先を確認
Boning Li, Ananthram Swami, Santiago Segarra(参考訳) 干渉制限無線ネットワーク上でのフェデレーション学習(FL)の文脈における電力配分のためのデータ駆動方式を提案する。 電力政策は、通信制約下でのflプロセス中に送信される情報を最大化し、訓練中のグローバルflモデルの正確性と効率を向上させることを最終的な目的としている。 提案手法はグラフ畳み込みネットワークを用いてパラメータ化され、関連する制約付き最適化問題は原始双対アルゴリズムによって解決される。 数値実験により,提案手法は伝送成功率とflグローバル性能の両方において3つのベースライン法を上回った。

We propose a data-driven approach for power allocation in the context of federated learning (FL) over interference-limited wireless networks. The power policy is designed to maximize the transmitted information during the FL process under communication constraints, with the ultimate objective of improving the accuracy and efficiency of the global FL model being trained. The proposed power allocation policy is parameterized using a graph convolutional network and the associated constrained optimization problem is solved through a primal-dual algorithm. Numerical experiments show that the proposed method outperforms three baseline methods in both transmission success rate and FL global performance.
翻訳日:2021-11-16 17:30:36 公開日:2021-11-15
# 混合単調性を用いたニューラルネットワークの到達可能性解析

Reachability analysis of neural networks using mixed monotonicity ( http://arxiv.org/abs/2111.07683v1 )

ライセンス: Link先を確認
Pierre-Jean Meyer(参考訳) 本稿では,入力不確実性条件下でのフィードフォワードニューラルネットワークの出力集合の過度近似を計算するための新しい到達可能性解析ツールを提案する。 提案手法は,既存の混合単調法をニューラルネットワークに適用して動的システムの到達可能性解析を行い,与えられたニューラルネットワーク内の任意の部分ネットワークに適用する。 これにより、得られた結果の交叉が混合単調性を用いて得られる各層の出力の最も狭い間隔オーバー近似であることが保証される。 リプシッツ連続活性化関数でニューラルネットワークを処理できるという意味では,本手法の主な強みは,小片方向アフィンあるいはモノトン活性化関数の小さなクラスに焦点を当てた他の文献のツールと異なり,その一般化である。 さらに,提案フレームワークのシンプルさにより,関数,その微分,大域的極限,およびそれに対応する引数を提供することで,実装されていないアクティベーション関数をユーザが簡単に追加することができる。 このアルゴリズムは4つのアクティベーション関数(relu, tanh, elu, silu)のための1000個のランダム生成ニューラルネットワーク上で,他の5つのインターバルベースツールと比較した。 我々のツールは、常にインターバルバウンド伝搬法より優れており、ReluVal、Neurify、VeriNet、CROWN(適用可能な場合)よりも、15%から60%のケースで出力バウンダリが得られることを示す。

This paper presents a new reachability analysis tool to compute an interval over-approximation of the output set of a feedforward neural network under given input uncertainty. The proposed approach adapts to neural networks an existing mixed-monotonicity method for the reachability analysis of dynamical systems and applies it to all possible partial networks within the given neural network. This ensures that the intersection of the obtained results is the tightest interval over-approximation of the output of each layer that can be obtained using mixed-monotonicity. Unlike other tools in the literature that focus on small classes of piecewise-affine or monotone activation functions, the main strength of our approach is its generality in the sense that it can handle neural networks with any Lipschitz-continuous activation function. In addition, the simplicity of the proposed framework allows users to very easily add unimplemented activation functions, by simply providing the function, its derivative and the global extrema and corresponding arguments of the derivative. Our algorithm is tested and compared to five other interval-based tools on 1000 randomly generated neural networks for four activation functions (ReLU, TanH, ELU, SiLU). We show that our tool always outperforms the Interval Bound Propagation method and that we obtain tighter output bounds than ReluVal, Neurify, VeriNet and CROWN (when they are applicable) in 15 to 60 percent of cases.
翻訳日:2021-11-16 17:30:25 公開日:2021-11-15
# オンライン校正学習のための教師支援フレームワーク

A teacher-student framework for online correctional learning ( http://arxiv.org/abs/2111.07818v1 )

ライセンス: Link先を確認
In\^es Louren\c{c}o, Rebecka Winqvist, Cristian R. Rojas, Bo Wahlberg(参考訳) 古典的な学習環境とは、学生がシステムに関するデータや観察を収集し、それに関する一定の量の関心を見積もるものである。 矯正学習(英: correctional learning)とは、システムに関する知識を有する教師が、生徒が受ける観察を観察し、変更(修正)し、その推定を改善することのできる、協調的な教師・学生の枠組みである。 本稿では,教師の助けを借りて,学生の推定値のばらつきを低減できることを示す。 さらに、教師が観察を変更するかどうかを瞬時に判断しなければならないオンライン問題を、動的プログラミングを用いて最適なポリシーが導出されるマルコフ決定プロセスとして定式化する。 提案手法を数値実験で検証し,最適なオンラインポリシーとバッチ設定の手法を比較した。

A classical learning setting is one in which a student collects data, or observations, about a system, and estimates a certain quantity of interest about it. Correctional learning is a type of cooperative teacher-student framework where a teacher, who has knowledge about the system, has the possibility to observe and alter (correct) the observations received by the student in order to improve its estimation. In this paper, we show that the variance of the estimate of the student is reduced with the help of the teacher. We further formulate the online problem - where the teacher has to decide at each time instant whether or not to change the observations - as a Markov decision process, from which the optimal policy is derived using dynamic programming. We validate the framework in numerical experiments, and compare the optimal online policy with the one from the batch setting.
翻訳日:2021-11-16 17:28:46 公開日:2021-11-15
# 教師なし特徴学習に基づく3体再正規化群制限サイクル

Three-body renormalization group limit cycles based on unsupervised feature learning ( http://arxiv.org/abs/2111.07820v1 )

ライセンス: Link先を確認
Bastian Kaspschak and Ulf-G. Mei{\ss}ner(参考訳) 3体系と逆2乗ポテンシャルの両方が、再正規化群極限サイクルの研究において特に重要である。 本研究では, 探索的アプローチを追求し, 低エネルギーの3体系において, 散乱長に制限を課すことなく, 2体相互作用が限界サイクルに導くか, という問題に対処した。 そこで,我々は,低次元の潜在空間における極限サイクルを効率的に探索するために重要な前提条件である,高次元化だけでなく,さらなる合成ポテンシャルも生み出すように,可変オートエンコーダを訓練する。 我々は、特殊に定義されたリミットサイクル損失を最小限に抑えるために、エリート的遺伝的アルゴリズムを合成ポテンシャルの集団に適用する。 その結果、最も適した個人は、逆正方ポテンシャルが、超角に依存しないこの極限サイクル損失を最小限に抑える唯一の2体ポテンシャルであることを示唆している。

Both the three-body system and the inverse square potential carry a special significance in the study of renormalization group limit cycles. In this work, we pursue an exploratory approach and address the question which two-body interactions lead to limit cycles in the three-body system at low energies, without imposing any restrictions upon the scattering length. For this, we train a boosted ensemble of variational autoencoders, that not only provide a severe dimensionality reduction, but also allow to generate further synthetic potentials, which is an important prerequisite in order to efficiently search for limit cycles in low-dimensional latent space. We do so by applying an elitist genetic algorithm to a population of synthetic potentials that minimizes a specially defined limit-cycle-loss. The resulting fittest individuals suggest that the inverse square potential is the only two-body potential that minimizes this limit cycle loss independent of the hyperangle.
翻訳日:2021-11-16 17:28:32 公開日:2021-11-15
# 事前知識に基づくCSIレクリエーションのための機械学習

Machine Learning for CSI Recreation Based on Prior Knowledge ( http://arxiv.org/abs/2111.07854v1 )

ライセンス: Link先を確認
Brenda Vilas Boas and Wolfgang Zirwas and Martin Haardt(参考訳) チャネル状態情報(csi)の知識は、モバイル無線通信システムにおける多くの機能の基本である。 機械学習(ML)とデジタルマップ(デジタルツイン)の進歩により、我々は伝播環境を学習し、CSIを導出し報告する新しい手法を設計する大きな機会を得る。 本研究では、未学習ニューラルネットワーク(UNN)と条件付き生成対向ネットワーク(cGAN)を組み合わせたMIMOチャネルレクリエーション手法を提案する。 UNNは、cGANへの入力を構築するために使用されるいくつかの場所の事前CSIを学ぶ。 事前のCSI、その位置、所望のチャネルの位置に基づいて、cGANは、所望の場所に期待されるチャネルを出力するように訓練される。 この組み合わせアプローチは、トレーニング後、必要な場所のみを報告する必要があるため、低いオーバーヘッドcsiレポートに使用できる。 提案手法は, 無線チャネルのモデル化に成功し, 視線条件下での位置量子化誤差に頑健であることを示す。

Knowledge of channel state information (CSI) is fundamental to many functionalities within the mobile wireless communications systems. With the advance of machine learning (ML) and digital maps, i.e., digital twins, we have a big opportunity to learn the propagation environment and design novel methods to derive and report CSI. In this work, we propose to combine untrained neural networks (UNNs) and conditional generative adversarial networks (cGANs) for MIMO channel recreation based on prior knowledge. The UNNs learn the prior-CSI for some locations which are used to build the input to a cGAN. Based on the prior-CSIs, their locations and the location of the desired channel, the cGAN is trained to output the channel expected at the desired location. This combined approach can be used for low overhead CSI reporting as, after training, we only need to report the desired location. Our results show that our method is successful in modelling the wireless channel and robust to location quantization errors in line of sight conditions.
翻訳日:2021-11-16 17:28:16 公開日:2021-11-15
# ハイブリッドグラフ畳み込みネットワークと長期記憶を用いた再生可能エネルギーの短期電力予測

Short-Term Power Prediction for Renewable Energy Using Hybrid Graph Convolutional Network and Long Short-Term Memory Approach ( http://arxiv.org/abs/2111.07958v1 )

ライセンス: Link先を確認
Wenlong Liao, Birgitte Bak-Jensen, Jayakrishnan Radhakrishna Pillai, Zhe Yang, and Kuangpu Liu(参考訳) 電力システムの計画と運用において、太陽と風力の正確な短期予測は重要な役割を担っている。 しかしながら、再生可能エネルギーの短期的な電力予測は、出力パワーの変動と断続性、局所的な気象条件、すなわち時空間相関による時間変化の法則により、常に複雑な回帰問題とみなされてきた。 本稿では,グラフ畳み込みネットワーク(GCN)と長短短期メモリ(LSTM)を組み合わせたグラフニューラルネットワークを用いた短期電力予測手法を提案する。 特に、GCNは隣接する再生エネルギー間の複雑な空間相関を学習するために使用され、LSTMはパワーカーブの動的変化を学習するために使用される。 シミュレーションの結果,提案手法は再生可能エネルギーの時空間相関をモデル化し,その性能は実世界のデータセットのベースラインよりも優れていた。

Accurate short-term solar and wind power predictions play an important role in the planning and operation of power systems. However, the short-term power prediction of renewable energy has always been considered a complex regression problem, owing to the fluctuation and intermittence of output powers and the law of dynamic change with time due to local weather conditions, i.e. spatio-temporal correlation. To capture the spatio-temporal features simultaneously, this paper proposes a new graph neural network-based short-term power forecasting approach, which combines the graph convolutional network (GCN) and long short-term memory (LSTM). Specifically, the GCN is employed to learn complex spatial correlations between adjacent renewable energies, and the LSTM is used to learn dynamic changes of power curves. The simulation results show that the proposed hybrid approach can model the spatio-temporal correlation of renewable energies, and its performance outperforms popular baselines on real-world datasets.
翻訳日:2021-11-16 17:27:57 公開日:2021-11-15
# 非従属リーマン運動予測制御

Nonprehensile Riemannian Motion Predictive Control ( http://arxiv.org/abs/2111.07986v1 )

ライセンス: Link先を確認
Hamid Izadinia, Byron Boots, Steven M. Seitz(参考訳) 非包括的操作は、長い水平不動物体相互作用と、本質的に高い不確実性をもたらす可能性のある異なる物体との物理的接触を含む。 本研究では,リアル・ツー・シムの報酬分析技術であるRiemannian Motion Predictive Control (RMPC)を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。 提案するrmpcは, リーマン運動ポリシーと2次動的モデルにより, 加速度指令を計算し, ロボットを表面上のあらゆる場所で制御できる。 提案手法は実シーンの3次元オブジェクトレベル再構成モデルを作成し,異なる軌道の効果をシミュレートする。 連続したアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成する。 我々は,実際のロボットプラットフォーム上で実験を行い,シミュレーションを行い,複数のベースラインと比較することで,rmpc手法の性能を評価する。 rmpcは乱雑な環境と混ざり合った環境において頑健であり、ベースラインよりも優れています。

Nonprehensile manipulation involves long horizon underactuated object interactions and physical contact with different objects that can inherently introduce a high degree of uncertainty. In this work, we introduce a novel Real-to-Sim reward analysis technique, called Riemannian Motion Predictive Control (RMPC), to reliably imagine and predict the outcome of taking possible actions for a real robotic platform. Our proposed RMPC benefits from Riemannian motion policy and second order dynamic model to compute the acceleration command and control the robot at every location on the surface. Our approach creates a 3D object-level recomposed model of the real scene where we can simulate the effect of different trajectories. We produce a closed-loop controller to reactively push objects in a continuous action space. We evaluate the performance of our RMPC approach by conducting experiments on a real robot platform as well as simulation and compare against several baselines. We observe that RMPC is robust in cluttered as well as occluded environments and outperforms the baselines.
翻訳日:2021-11-16 17:27:40 公開日:2021-11-15
# (参考訳) Annotator with Attitudes: Annotator Beliefs and Identities Bias Toxic Language Detection

Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection ( http://arxiv.org/abs/2111.07997v1 )

ライセンス: CC BY 4.0
Maarten Sap, Swabha Swayamdipta, Laura Vianna, Xuhui Zhou, Yejin Choi, Noah A. Smith(参考訳) 言語の毒性は、誰かのアイデンティティや信念によって異なるが、有害な言語データセットを収集する場合、この変異はしばしば無視され、結果としてデータセットとモデルのバイアスが生じる。 毒性アノテーションのバイアスの背景にある人、理由、何を理解しようとします。 人口統計学的および政治的に多様である2つのオンライン研究において、ヘイトスピーチ、言論の自由、人種差別的信念、政治的傾倒などに関する社会心理学的な研究から、アノテータのアイデンティティ(誰)と信念(なぜ)の効果を考察した。 我々は、アンチブラック言語、アフリカ・アメリカン・イングリッシュ(AAE)方言、および下品性という3つの特徴を持つポストを考慮し、有毒であると注釈されたものを切り離す。 以上より,アノテータのアイデンティティと信念と毒性評価との間に強い相関がみられた。 特に、より保守的な注釈家や人種差別的信念を高く評価した人々は、反黒人言語を有毒と評する傾向は低いが、aaeを有毒と評する傾向が強かった。 また,一般的な毒性検出システムの評価が,特定の信念と視点のみを本質的に反映していることを示すケーススタディを提示する。 社会変数における毒性ラベルの文脈化は有害な言語アノテーションや検出に多大な影響を及ぼすと考えられる。

The perceived toxicity of language can vary based on someone's identity and beliefs, but this variation is often ignored when collecting toxic language datasets, resulting in dataset and model biases. We seek to understand the who, why, and what behind biases in toxicity annotations. In two online studies with demographically and politically diverse participants, we investigate the effect of annotator identities (who) and beliefs (why), drawing from social psychology research about hate speech, free speech, racist beliefs, political leaning, and more. We disentangle what is annotated as toxic by considering posts with three characteristics: anti-Black language, African American English (AAE) dialect, and vulgarity. Our results show strong associations between annotator identity and beliefs and their ratings of toxicity. Notably, more conservative annotators and those who scored highly on our scale for racist beliefs were less likely to rate anti-Black language as toxic, but more likely to rate AAE as toxic. We additionally present a case study illustrating how a popular toxicity detection system's ratings inherently reflect only specific beliefs and perspectives. Our findings call for contextualizing toxicity labels in social variables, which raises immense implications for toxic language annotation and detection.
翻訳日:2021-11-16 17:26:39 公開日:2021-11-15
# カメラ画像と信号処理パイプラインに対する再帰的自己改善

Recursive Self-Improvement for Camera Image and Signal Processing Pipeline ( http://arxiv.org/abs/2111.07499v1 )

ライセンス: Link先を確認
Chandrajit Bajaj and Yi Wang and Yunhao Yang and Yuhan Zheng(参考訳) 現在のカメラ画像および信号処理パイプライン(isp)は、深く訓練されたバージョンを含むが、画像全体に均一に適用される単一のフィルタを適用する傾向がある。 これは、ほとんどのカメラ画像が空間的に異質なアーティファクトを持っているにもかかわらずである。 この空間的不均一性は、様々なモアレリング、動きブレア、カラーブレッシング、レンズベースの投影歪みとして画像空間全体に現れる。 さらに、これらの画像アーティファクトの組み合わせは、取得した画像内の小さなピクセルまたは大きなピクセル近傍に存在することができる。 本稿では,学習可能な潜在部分空間で動作する深層強化学習モデルを提案し,パッチに基づく空間適応型アーティファクトフィルタリングと画像強調により,カメラの画質を再帰的に改善する。 我々のRSE-RLモデルは、アーティファクトの同定と修正を再帰的な自己学習と自己改善のエクササイズと見なしており、2つの主要なサブモジュールから構成されている。 i)同変変分自動エンコーダを用いて、ノイズとクリーンな画像パッチ間の対応と不一致を迅速に識別できる潜在特徴サブスペースクラスタリング/グループ化。 (ii)クリーンパッチの最も近い特徴距離の近傍を用いて、徐々にノイズパッチをフィルタリングし、強化する信頼区間ソフトアクタ-クリティックエージェントによって制御される適応学習変換。 パッチベースのISPで導入される人工的なアーティファクトは、報酬ベースのデブロッキングリカバリとイメージ拡張によって取り除かれる。 本稿では,RSE-RLトレーニングフィルタリングパイプラインに対して,各エポックから得られた強調画像が自然なデータ拡張とロバスト性を提供する,画像の再帰的トレーニングとテストによる自己改善機能を示す。

Current camera image and signal processing pipelines (ISPs), including deep trained versions, tend to apply a single filter that is uniformly applied to the entire image. This despite the fact that most acquired camera images have spatially heterogeneous artifacts. This spatial heterogeneity manifests itself across the image space as varied Moire ringing, motion-blur, color-bleaching or lens based projection distortions. Moreover, combinations of these image artifacts can be present in small or large pixel neighborhoods, within an acquired image. Here, we present a deep reinforcement learning model that works in learned latent subspaces, recursively improves camera image quality through a patch-based spatially adaptive artifact filtering and image enhancement. Our RSE-RL model views the identification and correction of artifacts as a recursive self-learning and self-improvement exercise and consists of two major sub-modules: (i) The latent feature sub-space clustering/grouping obtained through an equivariant variational auto-encoder enabling rapid identification of the correspondence and discrepancy between noisy and clean image patches. (ii) The adaptive learned transformation controlled by a trust-region soft actor-critic agent that progressively filters and enhances the noisy patches using its closest feature distance neighbors of clean patches. Artificial artifacts that may be introduced in a patch-based ISP, are also removed through a reward based de-blocking recovery and image enhancement. We demonstrate the self-improvement feature of our model by recursively training and testing on images, wherein the enhanced images resulting from each epoch provide a natural data augmentation and robustness to the RSE-RL training-filtering pipeline.
翻訳日:2021-11-16 16:17:13 公開日:2021-11-15
# TrioNetの検索: 畳み込みと局所的・グローバル的自己意識の組み合わせ

Searching for TrioNet: Combining Convolution with Local and Global Self-Attention ( http://arxiv.org/abs/2111.07547v1 )

ライセンス: Link先を確認
Huaijin Pi, Huiyu Wang, Yingwei Li, Zizhang Li, Alan Yuille(参考訳) 近年,視覚モデルのためのスタンドアロンビルディングブロックとして,自己注意演算子の性能が向上している。 しかし、既存のセルフアテンションモデルはしばしば手動で設計され、cnnから修正され、1つの演算子のみを積み重ねることで得られる。 異なる自己アテンション演算子と畳み込みを組み合わせたより広い範囲のアーキテクチャ空間を探索することは稀である。 本稿では,重み付きニューラルアーキテクチャサーチ(NAS)アルゴリズムを用いて,この新しいアーキテクチャ空間を探索する。 結果アーキテクチャは、畳み込み、局所自己アテンション、グローバル(軸)自己アテンション演算子を組み合わせたTrioNetと名付けられた。 この巨大なアーキテクチャ空間を効果的に探索するために、スーパーネットのトレーニングを改善するために階層サンプリングを提案する。 さらに,新しい重み共有戦略であるマルチヘッドシェアリング,特にマルチヘッドセルフアテンション演算子を提案する。 自己アテンションと畳み込みを組み合わせた検索トリオネットは,イメージネット分類において,畳み込みよりも自己アテンションが優れたフラップが少なく,すべてのスタンドアロンモデルを上回る。 さらに,様々な小規模データセットにおいて,自己着脱モデルの劣る性能を観測するが,この場合の畳み込みにより,我々のトライオネットはいまだに最良の演算子にマッチする。 私たちのコードはhttps://github.com/phj128/trionetで利用可能です。

Recently, self-attention operators have shown superior performance as a stand-alone building block for vision models. However, existing self-attention models are often hand-designed, modified from CNNs, and obtained by stacking one operator only. A wider range of architecture space which combines different self-attention operators and convolution is rarely explored. In this paper, we explore this novel architecture space with weight-sharing Neural Architecture Search (NAS) algorithms. The result architecture is named TrioNet for combining convolution, local self-attention, and global (axial) self-attention operators. In order to effectively search in this huge architecture space, we propose Hierarchical Sampling for better training of the supernet. In addition, we propose a novel weight-sharing strategy, Multi-head Sharing, specifically for multi-head self-attention operators. Our searched TrioNet that combines self-attention and convolution outperforms all stand-alone models with fewer FLOPs on ImageNet classification where self-attention performs better than convolution. Furthermore, on various small datasets, we observe inferior performance for self-attention models, but our TrioNet is still able to match the best operator, convolution in this case. Our code is available at https://github.com/phj128/TrioNet.
翻訳日:2021-11-16 16:15:04 公開日:2021-11-15
# UHP-SOT++による教師なし軽量物体追跡

Unsupervised Lightweight Single Object Tracking with UHP-SOT++ ( http://arxiv.org/abs/2111.07548v1 )

ライセンス: Link先を確認
Zhiruo Zhou, Hongyu Fu, Suya You, and C.-C. Jay Kuo(参考訳) UHP-SOTと呼ばれる、教師なし、軽量で高性能なシングルオブジェクトトラッカーが、Zhouらによって最近提案された。 拡張として、拡張バージョンを提示し、UHP-SOT++と命名する。 UHP-SOT と UHP-SOT++ では、識別相関フィルタ(DCF-based)トラッカーの基盤として2つの新しい材料が導入されている。 1【背景動きのモデリング】 2)オブジェクトボックス軌道モデリング。 UHP-SOTとUHP-SOT++の主な違いは、3つのモデル(DCF、バックグラウンドモーション、オブジェクトボックス軌道モデル)の提案の融合戦略である。 大規模なトラッキングデータセットに対して、より堅牢なトラッキングパフォーマンスを実現するため、UHP-SOT++によって改善された融合戦略が採用されている。 第2のコントリビューションは、4つのSOTベンチマークデータセットSOTB2015, TC128, UAV123, LaSOTでテストすることで、最先端の教師付きおよび教師なしメソッドのパフォーマンスを広範囲に評価することにあります。 実験の結果,UHP-SOT++は従来の教師なし手法といくつかのディープラーニング(DL)手法よりも精度が高いことがわかった。 UHP-SOT++は、非常に小さなモデルサイズ、高いトラッキング性能、低計算量(コード最適化なしでは20FPSで動作する)を持つため、リソース制限されたプラットフォーム上でのリアルタイムオブジェクト追跡には理想的なソリューションである。 実験結果に基づき,教師付きトラッカと教師付きトラッカの長所と短所を比較し,教師付きトラッカと教師なしトラッカのパフォーマンスギャップを理解するための新しい視点を提供する。

An unsupervised, lightweight and high-performance single object tracker, called UHP-SOT, was proposed by Zhou et al. recently. As an extension, we present an enhanced version and name it UHP-SOT++ in this work. Built upon the foundation of the discriminative-correlation-filters-based (DCF-based) tracker, two new ingredients are introduced in UHP-SOT and UHP-SOT++: 1) background motion modeling and 2) object box trajectory modeling. The main difference between UHP-SOT and UHP-SOT++ is the fusion strategy of proposals from three models (i.e., DCF, background motion and object box trajectory models). An improved fusion strategy is adopted by UHP-SOT++ for more robust tracking performance against large-scale tracking datasets. Our second contribution lies in an extensive evaluation of the performance of state-of-the-art supervised and unsupervised methods by testing them on four SOT benchmark datasets - OTB2015, TC128, UAV123 and LaSOT. Experiments show that UHP-SOT++ outperforms all previous unsupervised methods and several deep-learning (DL) methods in tracking accuracy. Since UHP-SOT++ has extremely small model size, high tracking performance, and low computational complexity (operating at a rate of 20 FPS on an i5 CPU even without code optimization), it is an ideal solution in real-time object tracking on resource-limited platforms. Based on the experimental results, we compare pros and cons of supervised and unsupervised trackers and provide a new perspective to understand the performance gap between supervised and unsupervised methods, which is the third contribution of this work.
翻訳日:2021-11-16 16:14:41 公開日:2021-11-15
# 弱めに監督されたDense Action Precipation

Weakly-Supervised Dense Action Anticipation ( http://arxiv.org/abs/2111.07593v1 )

ライセンス: Link先を確認
Haotong Zhang, Fuhai Chen, Angela Yao(参考訳) デンス予測は、将来の行動とその期間を長い地平線のために予測することを目的としている。 既存のアプローチは、完全なラベル付きデータ、すなわち全ての将来の行動とその期間をラベル付けしたシーケンスに依存している。 本稿では,少数の完全ラベル付きシーケンスのみを用いて (半) 弱教師付き手法を提案し, (1) 来るアクションのみをラベル付けする。 そこで本研究では,将来の動作とその継続時間に対して擬似ラベルを生成し,改良モジュールを通じて適応的に改良するフレームワークを提案する。 今後のアクションラベルのみを入力として、これらの擬似ラベルは将来のアクション/デュレーション予測を導く。 さらに、コンテキスト認識期間を予測するための注意機構を設計する。 朝食と50saladsベンチマークによる実験により,本手法の有効性が検証された。 コードはhttps://github.com/zhanghaotong1/wslvideodenseanticipationで利用可能になります。

Dense anticipation aims to forecast future actions and their durations for long horizons. Existing approaches rely on fully-labelled data, i.e. sequences labelled with all future actions and their durations. We present a (semi-) weakly supervised method using only a small number of fully-labelled sequences and predominantly sequences in which only the (one) upcoming action is labelled. To this end, we propose a framework that generates pseudo-labels for future actions and their durations and adaptively refines them through a refinement module. Given only the upcoming action label as input, these pseudo-labels guide action/duration prediction for the future. We further design an attention mechanism to predict context-aware durations. Experiments on the Breakfast and 50Salads benchmarks verify our method's effectiveness; we are competitive even when compared to fully supervised state-of-the-art models. We will make our code available at: https://github.com/zhanghaotong1/WSLVideoDenseAnticipation.
翻訳日:2021-11-16 16:14:10 公開日:2021-11-15
# Fake Transformer: 顔画像の変動をモデルとした空間時間表現からの顔偽造

FakeTransformer: Exposing Face Forgery From Spatial-Temporal Representation Modeled By Facial Pixel Variations ( http://arxiv.org/abs/2111.07601v1 )

ライセンス: Link先を確認
Yuyang Sun, Zhiyong Zhang, Changzhen Qiu, Liang Wang and Zekai Wang(参考訳) 生成モデルの急速な発展に伴い、DeepFakesと呼ばれるAIベースの顔操作技術はますます現実的になっている。 この偽造行為はあらゆるターゲットを攻撃できるため、個人のプライバシーと財産のセキュリティに新たな脅威をもたらす。 さらに、合成ビデオの誤用は、アイデンティティハラスメント、ポルノグラフィー、ニュースの噂など、多くの分野で潜在的な危険性を示している。 生理的信号の空間的コヒーレンスと時間的一貫性が生成された内容で破壊されるという事実に着想を得て,実映像と合成映像を生理的情報に強く関連する顔画像のバリエーションとを区別する不整合パターンを見つけ出そうとする。 提案手法はまず,複数のガウススケールでユーレリアビデオ拡大(EVM)を適用し,顔の血流量の変化による生理的変動を増大させるとともに,元の動画と拡大した動画を多スケールユーレリア拡大空間時間マップ(MEMSTmap)に変換し,異なるオクターブ上での生理的拡張シーケンスの時間変化を表現する。 次に、これらのマップをコラム単位のフレームパッチに再構成し、ビジョントランスフォーマーに送信してフレームレベルの時空間記述子を学ぶ。 最後に、ビデオが本物か偽物かを判断する確率を推定し、その機能を埋め込んで出力する。 提案手法はFaceForensics++とDeepFake検出データセットで検証する。 その結果,本モデルは偽造検出において優れた性能を示し,クロスデータ領域における優れた一般化能力を示した。

With the rapid development of generation model, AI-based face manipulation technology, which called DeepFakes, has become more and more realistic. This means of face forgery can attack any target, which poses a new threat to personal privacy and property security. Moreover, the misuse of synthetic video shows potential dangers in many areas, such as identity harassment, pornography and news rumors. Inspired by the fact that the spatial coherence and temporal consistency of physiological signal are destroyed in the generated content, we attempt to find inconsistent patterns that can distinguish between real videos and synthetic videos from the variations of facial pixels, which are highly related to physiological information. Our approach first applies Eulerian Video Magnification (EVM) at multiple Gaussian scales to the original video to enlarge the physiological variations caused by the change of facial blood volume, and then transform the original video and magnified videos into a Multi-Scale Eulerian Magnified Spatial-Temporal map (MEMSTmap), which can represent time-varying physiological enhancement sequences on different octaves. Then, these maps are reshaped into frame patches in column units and sent to the vision Transformer to learn the spatio-time descriptors of frame levels. Finally, we sort out the feature embedding and output the probability of judging whether the video is real or fake. We validate our method on the FaceForensics++ and DeepFake Detection datasets. The results show that our model achieves excellent performance in forgery detection, and also show outstanding generalization capability in cross-data domain.
翻訳日:2021-11-16 16:13:52 公開日:2021-11-15
# チャネルワイズ特徴量による指紋提示攻撃検出

Fingerprint Presentation Attack Detection by Channel-wise Feature Denoising ( http://arxiv.org/abs/2111.07620v1 )

ライセンス: Link先を確認
Feng Liu, Zhe Kong, Haozhe Liu, Wentian Zhang, Linlin Shen(参考訳) 攻撃素材の多様性のため、指紋認識システム(AFRS)は悪意のある攻撃に対して脆弱である。 AFRSの安全性と信頼性のための効果的な指紋提示検出(PAD)手法を提案することが重要である。 しかしながら、現在のPAD法は、新しい攻撃材料やセンサー設定下では、しばしばロバスト性に欠ける。 本稿では,従来無視されていた冗長な「ノイズ」情報を扱うことを考慮した,チャネルワイズ・フィーチャー・デノージング指紋PAD(CFD-PAD)手法を提案する。 提案手法は,各チャンネルの重要度を重み付け,識別チャネルと「ノイズ」チャネルを見つけることによって,指紋画像の重要な特徴を学習した。 そして、特徴マップにおいて「ノイズ」チャネルの伝搬を抑制し、干渉を低減する。 具体的には、PA適応損失が特徴分布を制限し、ライブ指紋の特徴分布をより集約し、スプーフ指紋をより分散させるように設計されている。 提案したCFD-PADは,False Detection rateが1.0%(TDR@FDR=1%)である場合に,2.53%のACEと93.83%のTrue Detection Rateを達成でき,ACE(2.53% vs. 4.56%)とTDR@FDR=1%(93.83% vs. 73.32\%)で最高の単一モデルベース手法を著しく上回り,提案手法の有効性を証明した。 我々は、最先端のマルチモデルベース手法と同等の結果を得たが、TDR@FDR=1%が91.19%から93.83%に増加している。 さらに,本モデルはよりシンプルで,より効率的であり,最先端のマルチモデルベース手法と比較して74.76%の時間消費削減を実現している。 コードは公開されます。

Due to the diversity of attack materials, fingerprint recognition systems (AFRSs) are vulnerable to malicious attacks. It is of great importance to propose effective Fingerprint Presentation Attack Detection (PAD) methods for the safety and reliability of AFRSs. However, current PAD methods often have poor robustness under new attack materials or sensor settings. This paper thus proposes a novel Channel-wise Feature Denoising fingerprint PAD (CFD-PAD) method by considering handling the redundant "noise" information which ignored in previous works. The proposed method learned important features of fingerprint images by weighting the importance of each channel and finding those discriminative channels and "noise" channels. Then, the propagation of "noise" channels is suppressed in the feature map to reduce interference. Specifically, a PA-Adaption loss is designed to constrain the feature distribution so as to make the feature distribution of live fingerprints more aggregate and spoof fingerprints more disperse. Our experimental results evaluated on LivDet 2017 showed that our proposed CFD-PAD can achieve 2.53% ACE and 93.83% True Detection Rate when the False Detection Rate equals to 1.0% (TDR@FDR=1%) and it outperforms the best single model based methods in terms of ACE (2.53% vs. 4.56%) and TDR@FDR=1%(93.83% vs. 73.32\%) significantly, which proves the effectiveness of the proposed method. Although we have achieved a comparable result compared with the state-of-the-art multiple model based method, there still achieves an increase of TDR@FDR=1% from 91.19% to 93.83% by our method. Besides, our model is simpler, lighter and, more efficient and has achieved a 74.76% reduction in time-consuming compared with the state-of-the-art multiple model based method. Code will be publicly available.
翻訳日:2021-11-16 16:13:22 公開日:2021-11-15
# コンピュータビジョンにおける注意メカニズム:調査

Attention Mechanisms in Computer Vision: A Survey ( http://arxiv.org/abs/2111.07624v1 )

ライセンス: Link先を確認
Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu(参考訳) 人間は複雑な場面で自然かつ効果的に健全な領域を見つけることができる。 この観察により、人間の視覚システムのこの側面を模倣する目的で、注意機構がコンピュータビジョンに導入された。 このような注意機構は、入力画像の特徴に基づく動的重み調整処理と見なすことができる。 画像分類、オブジェクト検出、意味セグメンテーション、ビデオ理解、画像生成、3dビジョン、マルチモーダルタスク、自己教師付き学習など、多くの視覚タスクで注目のメカニズムが大きな成功を収めている。 本稿では,コンピュータビジョンにおける様々な注意機構の包括的レビューを行い,チャネルの注意,空間的注意,時間的注意,分岐的注意といったアプローチに基づいて分類する。 また,注意メカニズム研究の今後の方向性についても提案する。

Humans can naturally and effectively find salient regions in complex scenes. Motivated by this observation, attention mechanisms were introduced into computer vision with the aim of imitating this aspect of the human visual system. Such an attention mechanism can be regarded as a dynamic weight adjustment process based on features of the input image. Attention mechanisms have achieved great success in many visual tasks, including image classification, object detection, semantic segmentation, video understanding, image generation, 3D vision, multi-modal tasks and self-supervised learning. In this survey, we provide a comprehensive review of various attention mechanisms in computer vision and categorize them according to approach, such as channel attention, spatial attention, temporal attention and branch attention; a related repository https://github.com/MenghaoGuo/Awesome-Vision-Attentions is dedicated to collecting related work. We also suggest future directions for attention mechanism research.
翻訳日:2021-11-16 16:12:44 公開日:2021-11-15
# FastFlow: 2次元正規化フローによる教師なし異常検出と位置決め

FastFlow: Unsupervised Anomaly Detection and Localization via 2D Normalizing Flows ( http://arxiv.org/abs/2111.07677v1 )

ライセンス: Link先を確認
Jiawei Yu1, Ye Zheng, Xiang Wang, Wei Li, Yushuang Wu, Rui Zhao, Liwei Wu1(参考訳) 十分な異常データの収集とラベル付けを行う場合には,教師なし異常検出と局在化が不可欠である。 既存の表現に基づくアプローチは、ディープ畳み込みニューラルネットワークを用いて通常の画像特徴を抽出し、非パラメトリック分布推定法により対応する分布を特徴付ける。 テスト画像の特徴と推定分布との間の距離を測定して異常スコアを算出する。 しかし,現在の手法では,画像特徴を抽出可能なベース分布に効果的にマッピングすることはできず,局所的特徴とグローバル的特徴の関係は無視できない。 そこで本研究では,FastFlowを2次元正規化フローで実装し,確率分布推定器として利用する。 当社のfastflowは,resnetやvision transformerなど,任意の深い特徴抽出器を備えたプラグインモジュールとして,教師なし異常検出とローカライズに使用することができる。 トレーニングフェーズでは、fastflowは入力された視覚特徴を扱いやすい分布に変換することを学び、推論フェーズで異常を認識する可能性を得る。 MVTec ADデータセットの大規模な実験結果から、FastFlowは様々なバックボーンネットワークによる精度と推論効率の観点から、従来の最先端手法を超越していることがわかった。 提案手法は推論効率の高い異常検出において99.4\%のAUCを実現する。

Unsupervised anomaly detection and localization is crucial to the practical application when collecting and labeling sufficient anomaly data is infeasible. Most existing representation-based approaches extract normal image features with a deep convolutional neural network and characterize the corresponding distribution through non-parametric distribution estimation methods. The anomaly score is calculated by measuring the distance between the feature of the test image and the estimated distribution. However, current methods can not effectively map image features to a tractable base distribution and ignore the relationship between local and global features which are important to identify anomalies. To this end, we propose FastFlow implemented with 2D normalizing flows and use it as the probability distribution estimator. Our FastFlow can be used as a plug-in module with arbitrary deep feature extractors such as ResNet and vision transformer for unsupervised anomaly detection and localization. In training phase, FastFlow learns to transform the input visual feature into a tractable distribution and obtains the likelihood to recognize anomalies in inference phase. Extensive experimental results on the MVTec AD dataset show that FastFlow surpasses previous state-of-the-art methods in terms of accuracy and inference efficiency with various backbone networks. Our approach achieves 99.4\% AUC in anomaly detection with high inference efficiency.
翻訳日:2021-11-16 16:12:29 公開日:2021-11-15
# stacked bnas: ニューラルアーキテクチャ探索のための広義畳み込みニューラルネットワークの再検討

Stacked BNAS: Rethinking Broad Convolutional Neural Network for Neural Architecture Search ( http://arxiv.org/abs/2111.07722v1 )

ライセンス: Link先を確認
Zixiang Ding, Yaran Chen, Nannan Li, Dongbin Zhao(参考訳) 他の拡張性のあるアーキテクチャに基づくNASアプローチとは異なり、BNAS(Broad Neural Architecture Search)は、BCNN(Broad Convolutional Neural Network)と呼ばれる畳み込みブロックと拡張ブロックからなる広義のアーキテクチャを提案する。 BCNNは畳み込みブロック中の細胞のトポロジを再利用し、BNASは効率的に探索するために少数の細胞を使うことができる。 さらに, 浅部トポロジを用いたBCNNの性能向上のために, マルチスケール機能融合と知識埋め込みを提案する。 しかしBNASにはいくつかの欠点がある。 1)特徴融合・強化のための表現多様性の不足 2)人間専門家による知識の埋め込み設計に要する時間 本稿では,検索空間が拡張性のあるアーキテクチャである Stacked BCNN を提案し,BNAS よりも優れた性能を示す。 一方、Stacked BCNNは、Mini-BCNNを包括的表現を保存し、強力な特徴抽出機能を提供する基本ブロックとして扱う。 一方,適切な知識埋め込みを学習するための知識埋め込み探索(KES)を提案する。 実験の結果 1)積み重ねBNASはBNASよりも優れた性能を得る。 2) KESは、学習したアーキテクチャのパラメータを良好な性能で減少させるのに寄与する。 3)重ねられたBNASは、0.02GPU日の最先端効率を提供する。

Different from other deep scalable architecture based NAS approaches, Broad Neural Architecture Search (BNAS) proposes a broad one which consists of convolution and enhancement blocks, dubbed Broad Convolutional Neural Network (BCNN) as search space for amazing efficiency improvement. BCNN reuses the topologies of cells in convolution block, so that BNAS can employ few cells for efficient search. Moreover, multi-scale feature fusion and knowledge embedding are proposed to improve the performance of BCNN with shallow topology. However, BNAS suffers some drawbacks: 1) insufficient representation diversity for feature fusion and enhancement, and 2) time consuming of knowledge embedding design by human expert. In this paper, we propose Stacked BNAS whose search space is a developed broad scalable architecture named Stacked BCNN, with better performance than BNAS. On the one hand, Stacked BCNN treats mini-BCNN as the basic block to preserve comprehensive representation and deliver powerful feature extraction ability. On the other hand, we propose Knowledge Embedding Search (KES) to learn appropriate knowledge embeddings. Experimental results show that 1) Stacked BNAS obtains better performance than BNAS, 2) KES contributes to reduce the parameters of learned architecture with satisfactory performance, and 3) Stacked BNAS delivers state-of-the-art efficiency of 0.02 GPU days.
翻訳日:2021-11-16 16:12:10 公開日:2021-11-15
# Ensemble CNNを用いたリアルタイム感情とジェンダーの分類

Real-time Emotion and Gender Classification using Ensemble CNN ( http://arxiv.org/abs/2111.07746v1 )

ライセンス: Link先を確認
Abhinav Lahariya, Varsha Singh, Uma Shanker Tiwary(参考訳) 顔の表情を分析することは、人の感情や行動を特定する上で非常に重要な役割を果たす。 これらの表現を認識すれば、自然のヒューマンマシンインタフェースの重要なコンポーネントが自動的に生成される。 この分野での研究は、様々なソーシャルメディアプラットフォームにおけるバイオメトリック認証、監視システム、感情からエモティコンへの幅広い応用がある。 その他、顧客満足度調査を行うアプリケーションもある。 大企業はフィードバックと調査のために巨額の投資を行ったが、公平な回答は得られなかった。 顔のジェスチャーによる感情とジェンダーの認識は、特定の製品やサービススタッフに対する顧客の振る舞いを評価によって監視することで、製品やサービスのパフォーマンスを向上させる技術である。 近年, 特徴抽出機構, 顔の検出, 表現分類技術など, 様々な進歩がなされている。 本稿では,人物の感情や性別をリアルタイムに検出できるシステムを構築するためのEnsemble CNNの実装について述べる。 実験の結果、fer-2013データセット上の感情分類(angry, fear , sad , happy , surprise , neutral , disgust)の68%、imdbデータセットの性別分類(男性または女性)の95%の精度を示した。 私たちの研究は、複数の顔画像だけでなく、単一の顔画像上で感情や性別を予測できる。 また、Webカメラを通じて入力が与えられると、このリアルタイムシステムの完全なパイプラインは0.5秒未満で結果を生成することができます。

Analysing expressions on the person's face plays a very vital role in identifying emotions and behavior of a person. Recognizing these expressions automatically results in a crucial component of natural human-machine interfaces. Therefore research in this field has a wide range of applications in bio-metric authentication, surveillance systems , emotion to emoticons in various social media platforms. Another application includes conducting customer satisfaction surveys. As we know that the large corporations made huge investments to get feedback and do surveys but fail to get equitable responses. Emotion & Gender recognition through facial gestures is a technology that aims to improve product and services performance by monitoring customer behavior to specific products or service staff by their evaluation. In the past few years there have been a wide variety of advances performed in terms of feature extraction mechanisms , detection of face and also expression classification techniques. This paper is the implementation of an Ensemble CNN for building a real-time system that can detect emotion and gender of the person. The experimental results shows accuracy of 68% for Emotion classification into 7 classes (angry, fear , sad , happy , surprise , neutral , disgust) on FER-2013 dataset and 95% for Gender classification (Male or Female) on IMDB dataset. Our work can predict emotion and gender on single face images as well as multiple face images. Also when input is given through webcam our complete pipeline of this real-time system can take less than 0.5 seconds to generate results.
翻訳日:2021-11-16 16:11:00 公開日:2021-11-15
# D^2Conv3D:ビデオにおけるオブジェクトセグメンテーションのための動的拡張畳み込み

D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in Videos ( http://arxiv.org/abs/2111.07774v1 )

ライセンス: Link先を確認
Christian Schmidt, Ali Athar, Sabarinath Mahadevan, Bastian Leibe(参考訳) 研究コミュニティから大きな注目を集めたにもかかわらず、モノクロビデオにおけるオブジェクトのセグメンテーションと追跡のタスクには、まだ改善の余地がたくさんある。 既存の作業は、様々な画像レベルのセグメンテーションタスクに対する拡張および変形可能な畳み込みの有効性を同時に正当化している。 これは、このような畳み込みの3D拡張が、ビデオレベルのセグメンテーションタスクのパフォーマンス改善をもたらすと信じる理由である。 しかし、この側面は現存する文献ではまだ徹底的に研究されていない。 本稿では,動的拡張畳み込み(d^2conv3d):拡張および変形可能な畳み込みからインスピレーションを得て,それらを3次元(spatio-temporal)領域に拡張する新しい畳み込み方式を提案する。 d^2conv3dを標準畳み込みの代替として用いることにより,複数のビデオセグメンテーション関連ベンチマークにおいて,複数の3d cnnアーキテクチャの性能向上にd^2conv3dが有効であることを示す。 さらに、D^2Conv3Dは既存の拡張型および変形可能な3D畳み込みの自明な拡張を出力することを示した。 最後に、DAVIS 2016 Unsupervised Video Object Segmentationベンチマークに新しい最先端技術を設定した。 コードはhttps://github.com/Schmiddo/d2conv3dで公開されている。

Despite receiving significant attention from the research community, the task of segmenting and tracking objects in monocular videos still has much room for improvement. Existing works have simultaneously justified the efficacy of dilated and deformable convolutions for various image-level segmentation tasks. This gives reason to believe that 3D extensions of such convolutions should also yield performance improvements for video-level segmentation tasks. However, this aspect has not yet been explored thoroughly in existing literature. In this paper, we propose Dynamic Dilated Convolutions (D^2Conv3D): a novel type of convolution which draws inspiration from dilated and deformable convolutions and extends them to the 3D (spatio-temporal) domain. We experimentally show that D^2Conv3D can be used to improve the performance of multiple 3D CNN architectures across multiple video segmentation related benchmarks by simply employing D^2Conv3D as a drop-in replacement for standard convolutions. We further show that D^2Conv3D out-performs trivial extensions of existing dilated and deformable convolutions to 3D. Lastly, we set a new state-of-the-art on the DAVIS 2016 Unsupervised Video Object Segmentation benchmark. Code is made publicly available at https://github.com/Schmiddo/d2conv3d .
翻訳日:2021-11-16 16:10:35 公開日:2021-11-15
# 回転2画素ボケカーネルによる多視点動画像合成

Multi-View Motion Synthesis via Applying Rotated Dual-Pixel Blur Kernels ( http://arxiv.org/abs/2111.07837v1 )

ライセンス: Link先を確認
Abdullah Abuolaim and Mahmoud Afifi and Michael S. Brown(参考訳) ポートレートモードは、写真体験を向上させるためにスマートフォンカメラで広く利用することができる。 ポートレートモードで撮影された画像に適用される主な効果の1つは、合成浅層深度(dof)である。 合成dof(またはボケ効果)は、画像内の領域を選択的にぼかし、広開口の大きなレンズを使用する効果をエミュレートする。 さらに、多くのアプリケーションでは、背景の動きをエミュレートするために新しい画像モーション属性(nimat)が組み込まれている。 本研究は, ポートレートモードにおけるぼやけた合成手順の変更を導入することで, NIMAT効果のレンダリングの傾向に従う。 特に,回転するぼやけたカーネルを印加することにより,単一画像からの多視点ボケの高品質な合成を可能にする。 合成された複数のビューから、NIMAT効果と同様の美的リアルなイメージモーションを生成することができる。 NIMAT効果やFacebook 3D画像などの類似画像の動きと比較して,我々のアプローチを質的に検証する。 画像の動きは、オブジェクト境界付近のアーティファクトが少なく、スムーズな画像ビュー遷移を示す。

Portrait mode is widely available on smartphone cameras to provide an enhanced photographic experience. One of the primary effects applied to images captured in portrait mode is a synthetic shallow depth of field (DoF). The synthetic DoF (or bokeh effect) selectively blurs regions in the image to emulate the effect of using a large lens with a wide aperture. In addition, many applications now incorporate a new image motion attribute (NIMAT) to emulate background motion, where the motion is correlated with estimated depth at each pixel. In this work, we follow the trend of rendering the NIMAT effect by introducing a modification on the blur synthesis procedure in portrait mode. In particular, our modification enables a high-quality synthesis of multi-view bokeh from a single image by applying rotated blurring kernels. Given the synthesized multiple views, we can generate aesthetically realistic image motion similar to the NIMAT effect. We validate our approach qualitatively compared to the original NIMAT effect and other similar image motions, like Facebook 3D image. Our image motion demonstrates a smooth image view transition with fewer artifacts around the object boundary.
翻訳日:2021-11-16 16:10:16 公開日:2021-11-15
# ビデオ異常検出のための学習可能な局所感性ハッシュ

Learnable Locality-Sensitive Hashing for Video Anomaly Detection ( http://arxiv.org/abs/2111.07839v1 )

ライセンス: Link先を確認
Yue Lu, Congqi Cao and Yanning Zhang(参考訳) ビデオ異常検出(英: video anomaly detection、vad)とは、通常サンプルのみが利用可能なトレーニングセットで発生していない異常事象を識別することを指す。 既存の作品は通常、vadを再構成や予測問題として定式化する。 しかし、これらの手法の適応性とスケーラビリティは限られている。 本稿では,利用可能なすべての正規データを効率的に柔軟に活用するための距離ベースvad法を提案する。 本手法では, 試験試料と正常試料との間の距離が小さくなるほど, 試験試料が正常である確率が高くなる。 具体的には、局所性に敏感なハッシュ(LSH)を用いて、類似度が一定の閾値を超えるサンプルを予め同じバケットにマッピングすることを提案する。 このように、近傍探索の複雑さは大幅に削減される。 セマンティックに類似したサンプルがより接近し、類似しないサンプルがさらに分離されるように、LSHの学習可能な新しいバージョンを提案し、LSHをニューラルネットワークに埋め込み、対照的な学習戦略でハッシュ関数を最適化する。 提案手法はデータ不均衡に対して頑健であり,通常のデータの大きなクラス内変動を柔軟に扱える。 さらに、スケーラビリティにも優れています。 広範な実験により,vadベンチマークで新たな最先端結果を得る手法の優位性が実証された。

Video anomaly detection (VAD) mainly refers to identifying anomalous events that have not occurred in the training set where only normal samples are available. Existing works usually formulate VAD as a reconstruction or prediction problem. However, the adaptability and scalability of these methods are limited. In this paper, we propose a novel distance-based VAD method to take advantage of all the available normal data efficiently and flexibly. In our method, the smaller the distance between a testing sample and normal samples, the higher the probability that the testing sample is normal. Specifically, we propose to use locality-sensitive hashing (LSH) to map samples whose similarity exceeds a certain threshold into the same bucket in advance. In this manner, the complexity of near neighbor search is cut down significantly. To make the samples that are semantically similar get closer and samples not similar get further apart, we propose a novel learnable version of LSH that embeds LSH into a neural network and optimizes the hash functions with contrastive learning strategy. The proposed method is robust to data imbalance and can handle the large intra-class variations in normal data flexibly. Besides, it has a good ability of scalability. Extensive experiments demonstrate the superiority of our method, which achieves new state-of-the-art results on VAD benchmarks.
翻訳日:2021-11-16 16:09:59 公開日:2021-11-15
# クロスタスクグラフニューラルネットワークデコーダを用いた下水道管欠陥と特性のマルチタスク分類

Multi-Task Classification of Sewer Pipe Defects and Properties using a Cross-Task Graph Neural Network Decoder ( http://arxiv.org/abs/2111.07846v1 )

ライセンス: Link先を確認
Joakim Bruslund Haurum, Meysam Madadi, Sergio Escalera, Thomas B. Moeslund(参考訳) 下水道インフラは現代社会で最も重要で高価なインフラの1つである。 下水道インフラを効率的に管理するためには, 自動下水道検査を活用しなければならない。 しかし, 数十年にわたって下水道の欠陥分類が検討されてきたが, 下水道管の劣化レベルを評価するために必要な水位, 管材, 管形状などの下水道管特性の分類には注目されていない。 本稿では,下水道管の欠陥と特性を同時に分類し,新しいデコーダ指向マルチタスク分類アーキテクチャであるクロスタスクグラフニューラルネットワーク(ct-gnn)を提案する。 ct-gnnアーキテクチャは、クロスタスクグラフとユニークなクラスノード埋め込みを利用することで、従来のタスクヘッドデコーダを拡張する。 クロスタスクグラフは、タスククラス間の条件付き確率に基づいて事前決定するか、セルフアテンションを用いて動的に決定できる。 CT-GNNは任意のバックボーンとトレーニングされたエンドツーエンドにパラメータカウントを少量増やすことができる。 下水道mlデータセットの4つの分類タスクすべてにおいて最先端の性能を達成し,欠陥分類と水位分類をそれぞれ5.3ポイント,8.0ポイント改善した。 また,従来のモデルに着目した手法の50倍のパラメータを導入しながら,単一タスク手法と他のマルチタスク分類手法よりも優れていた。 コードとモデルはプロジェクトページ http://vap.aau.dk/ctgnn

The sewerage infrastructure is one of the most important and expensive infrastructures in modern society. In order to efficiently manage the sewerage infrastructure, automated sewer inspection has to be utilized. However, while sewer defect classification has been investigated for decades, little attention has been given to classifying sewer pipe properties such as water level, pipe material, and pipe shape, which are needed to evaluate the level of sewer pipe deterioration. In this work we classify sewer pipe defects and properties concurrently and present a novel decoder-focused multi-task classification architecture Cross-Task Graph Neural Network (CT-GNN), which refines the disjointed per-task predictions using cross-task information. The CT-GNN architecture extends the traditional disjointed task-heads decoder, by utilizing a cross-task graph and unique class node embeddings. The cross-task graph can either be determined a priori based on the conditional probability between the task classes or determined dynamically using self-attention. CT-GNN can be added to any backbone and trained end-to-end at a small increase in the parameter count. We achieve state-of-the-art performance on all four classification tasks in the Sewer-ML dataset, improving defect classification and water level classification by 5.3 and 8.0 percentage points, respectively. We also outperform the single task methods as well as other multi-task classification approaches while introducing 50 times fewer parameters than previous model-focused approaches. The code and models are available at the project page http://vap.aau.dk/ctgnn
翻訳日:2021-11-16 16:09:39 公開日:2021-11-15
# Occluded Video Instance Segmentation: DatasetとICCV 2021 Challenge

Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge ( http://arxiv.org/abs/2111.07950v1 )

ライセンス: Link先を確認
Jiyang Qi, Yan Gao, Yao Hu, Xinggang Wang, Xiaoyu Liu, Xiang Bai, Serge Belongie, Alan Yuille, Philip H.S. Torr, Song Bai(参考訳) 近年、深層学習技術は高度なビデオオブジェクト認識性能を達成しているが、ビデオに隠されたオブジェクトを認識することは依然として非常に難しい課題である。 咬合理解の発達を促進するため,OVISと呼ばれる大規模データセットを収集し,隠蔽シナリオにおけるビデオインスタンスのセグメンテーションを行う。 OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。 人間の視覚システムは文脈的推論と連想によってこれらの物体を知覚することができるが、実験は現在の映像理解システムでは理解できないことを示唆する。 OVISデータセットでは、すべてのベースラインメソッドが、密集したオブジェクトグループの約80%の大幅なパフォーマンス劣化に直面しており、複雑な現実世界のシナリオにおいて、隠蔽されたオブジェクトやビデオを理解するにはまだまだ長い道のりがあることを示している。 ビデオ理解システムのための新しいパラダイムの研究を容易にするため,OVISデータセットに基づいた課題を提起した。 提案したトップパフォーマンスアルゴリズムは,ベースラインよりもはるかに高いパフォーマンスを実現しています。 本稿では、OVISデータセットを導入し、ベースラインの結果を分析し、提案手法を解析して、さらに分析する。 OVISデータセットとチャレンジ情報はhttp://songbai.site/ovis にある。

Although deep learning methods have achieved advanced video object recognition performance in recent years, perceiving heavily occluded objects in a video is still a very challenging task. To promote the development of occlusion understanding, we collect a large-scale dataset called OVIS for video instance segmentation in the occluded scenario. OVIS consists of 296k high-quality instance masks and 901 occluded scenes. While our human vision systems can perceive those occluded objects by contextual reasoning and association, our experiments suggest that current video understanding systems cannot. On the OVIS dataset, all baseline methods encounter a significant performance degradation of about 80% in the heavily occluded object group, which demonstrates that there is still a long way to go in understanding obscured objects and videos in a complex real-world scenario. To facilitate the research on new paradigms for video understanding systems, we launched a challenge based on the OVIS dataset. The submitted top-performing algorithms have achieved much higher performance than our baselines. In this paper, we will introduce the OVIS dataset and further dissect it by analyzing the results of baselines and submitted methods. The OVIS dataset and challenge information can be found at http://songbai.site/ovis .
翻訳日:2021-11-16 16:09:13 公開日:2021-11-15
# QKイテレーション:画像類似性のための自己教師付き表現学習アルゴリズム

QK Iteration: A Self-Supervised Representation Learning Algorithm for Image Similarity ( http://arxiv.org/abs/2111.07954v1 )

ライセンス: Link先を確認
David Wu and Yunnan Wu(参考訳) 自己教師あり表現学習は多くの有用な応用(画像検索、インスタンスレベル認識、コピー検出など)を持つコンピュータビジョンにおける根本的な問題である。 本稿では,facebook ai researchが主催する2021 image similarity challengeにおいて,コピー検出の文脈において,コントラスト的自己教師付き表現学習アルゴリズムを提案する。 対照的な自己教師付き学習における以前の研究は、多くの否定的な例に対して `pushing'' をしながら表現を最適化できる重要性を見出した。 従来のソリューションでは、現代的な分散トレーニングシステムで使用可能な大規模なバッチを使用するか、キューやメモリバンクを保持しながら、最近の評価された表現を保持しながら一貫性特性を緩和する。 私たちはクエリモデルとキーモデルを直接学習し、sgdステップ毎に非常に大きな数の負の表現(例えば100万)に対して表現をプッシュします。 本研究では,一方のバックボーンを凍結し,一方のQ最適化ステップとK最適化ステップとを交互に交互に行う。 コンペの期間に、我々のアルゴリズムはフェーズ1のリーダーボードで0.3401のマイクロAPスコアを達成し、ベースラインの$\mu$APの0.1556よりも大幅に改善した。 最終フェーズ2では、私たちのモデルは0.1919、ベースラインは0.0526だった。 訓練はさらなる改善をもたらした。 提案手法を,バッチのみから否定的な例を取り出すsimclrスタイル戦略と比較する実験を行った。 その結果,本手法はSimCLRスタイルのベースライン(0.2001の\mu$AP)を著しく上回っていることがわかった。

Self-supervised representation learning is a fundamental problem in computer vision with many useful applications (e.g., image search, instance level recognition, copy detection). In this paper we present a new contrastive self-supervised representation learning algorithm in the context of Copy Detection in the 2021 Image Similarity Challenge hosted by Facebook AI Research. Previous work in contrastive self-supervised learning has identified the importance of being able to optimize representations while ``pushing'' against a large number of negative examples. Representative previous solutions either use large batches enabled by modern distributed training systems or maintain queues or memory banks holding recently evaluated representations while relaxing some consistency properties. We approach this problem from a new angle: We directly learn a query model and a key model jointly and push representations against a very large number (e.g., 1 million) of negative representations in each SGD step. We achieve this by freezing the backbone on one side and by alternating between a Q-optimization step and a K-optimization step. During the competition timeframe, our algorithms achieved a micro-AP score of 0.3401 on the Phase 1 leaderboard, significantly improving over the baseline $\mu$AP of 0.1556. On the final Phase 2 leaderboard, our model scored 0.1919, while the baseline scored 0.0526. Continued training yielded further improvement. We conducted an empirical study to compare the proposed approach with a SimCLR style strategy where the negative examples are taken from the batch only. We found that our method ($\mu$AP of 0.3403) significantly outperforms this SimCLR-style baseline ($\mu$AP of 0.2001).
翻訳日:2021-11-16 16:08:53 公開日:2021-11-15
# ソーシャルメディアにおけるファッション関連投稿の感性分析

Sentiment Analysis of Fashion Related Posts in Social Media ( http://arxiv.org/abs/2111.07815v1 )

ライセンス: Link先を確認
Yifei Yuan and Wai Lam(参考訳) ファッション業界におけるソーシャルメディアの役割は、年月が経つにつれて花開いた。 本研究では,ソーシャルメディアプラットフォームにおけるファッション関連投稿に対する感情分析について検討する。 この課題には2つの大きな課題がある。 第一に、異なるモダリティの情報は、最終的な予測を行うために共同で考慮されなければならない。 第2に、いくつかのユニークなファッション関連属性を考慮すべきである。 既存の作品の多くは伝統的なマルチモーダル感情分析に焦点を当てているが、彼らは常にこのタスクのファッション関連属性を活用できていない。 本稿では,イメージビジョン,ポストテキスト,ファッション属性モダリティを共同で活用し,感情カテゴリーを決定する新しい枠組みを提案する。 モデルの特徴の1つは、ファッション属性を抽出し、画像視覚情報と統合して効果的な表現を行うことである。 さらに,ファッション属性とポストテキストの相互関係を,相互注意機構を通じて活用する。 この課題に適した既存のデータセットがないため、1万以上のファッション関連ソーシャルメディア投稿の大規模な感情分析データセットを作成する。 本モデルの有効性を示すために広範な実験を行った。

The role of social media in fashion industry has been blooming as the years have continued on. In this work, we investigate sentiment analysis for fashion related posts in social media platforms. There are two main challenges of this task. On the first place, information of different modalities must be jointly considered to make the final predictions. On the second place, some unique fashion related attributes should be taken into account. While most existing works focus on traditional multimodal sentiment analysis, they always fail to exploit the fashion related attributes in this task. We propose a novel framework that jointly leverages the image vision, post text, as well as fashion attribute modality to determine the sentiment category. One characteristic of our model is that it extracts fashion attributes and integrates them with the image vision information for effective representation. Furthermore, it exploits the mutual relationship between the fashion attributes and the post texts via a mutual attention mechanism. Since there is no existing dataset suitable for this task, we prepare a large-scale sentiment analysis dataset of over 12k fashion related social media posts. Extensive experiments are conducted to demonstrate the effectiveness of our model.
翻訳日:2021-11-16 16:07:26 公開日:2021-11-15
# (参考訳) 近線形時間における分布圧縮

Distribution Compression in Near-Linear Time ( http://arxiv.org/abs/2111.07941v1 )

ライセンス: CC BY 4.0
Abhishek Shetty, Raaz Dwivedi, Lester Mackey(参考訳) 分布圧縮では、少数の代表点を用いて確率分布$\mathbb{P}$を正確に要約することを目的とする。 準最適シンニング手順は、マルコフ連鎖から$n$ポイントをサンプリングし、$\widetilde{\mathcal{O}}(1/\sqrt{n})$離散性を$\mathbb{P}$とすることで、この目標を達成する。 残念ながら、これらのアルゴリズムはサンプルサイズ$n$で二次的または超二次的な実行に苦しむ。 この欠陥に対処するために、私たちはCompress++を紹介します。これは、任意のスライニングアルゴリズムを高速化するシンプルなメタプロデューサで、エラーの最大4ドルの要因に悩まされています。 Dwivedi と Mackey (2021) の二次時間カーネル半減算アルゴリズムと組み合わせると、Compress++ は $\sqrt{n}$point with $\mathcal{O}(\sqrt{\log n/n})$ Integration error and better-than-Monte-Carlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space を提供する。 さらに、Compress++は2次時間入力が与えられた場合、同じニアリニアランタイムを楽しみ、平方根係数で超2次アルゴリズムの実行時間を短縮する。 高次元モンテカルロサンプルとマルコフ連鎖を用いたベンチマークでは、コンプレックス++はその入力アルゴリズムの精度を桁違いの時間で一致させるか、ほぼ一致させる。

In distribution compression, one aims to accurately summarize a probability distribution $\mathbb{P}$ using a small number of representative points. Near-optimal thinning procedures achieve this goal by sampling $n$ points from a Markov chain and identifying $\sqrt{n}$ points with $\widetilde{\mathcal{O}}(1/\sqrt{n})$ discrepancy to $\mathbb{P}$. Unfortunately, these algorithms suffer from quadratic or super-quadratic runtime in the sample size $n$. To address this deficiency, we introduce Compress++, a simple meta-procedure for speeding up any thinning algorithm while suffering at most a factor of $4$ in error. When combined with the quadratic-time kernel halving and kernel thinning algorithms of Dwivedi and Mackey (2021), Compress++ delivers $\sqrt{n}$ points with $\mathcal{O}(\sqrt{\log n/n})$ integration error and better-than-Monte-Carlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space. Moreover, Compress++ enjoys the same near-linear runtime given any quadratic-time input and reduces the runtime of super-quadratic algorithms by a square-root factor. In our benchmarks with high-dimensional Monte Carlo samples and Markov chains targeting challenging differential equation posteriors, Compress++ matches or nearly matches the accuracy of its input algorithm in orders of magnitude less time.
翻訳日:2021-11-16 16:03:35 公開日:2021-11-15
# 特徴工学的手法による学術的影響の異なるジャーナル記事における言語的特徴の自動分析

Automatic Analysis of Linguistic Features in Journal Articles of Different Academic Impacts with Feature Engineering Techniques ( http://arxiv.org/abs/2111.07525v1 )

ライセンス: Link先を確認
Siyu Lei, Ruiying Yang, Chu-Ren Huang(参考訳) 英語の研究論文(RAs)は学術において不可欠なジャンルであり、学術書記能力の発展を支援するためにNLPを採用する試みは、過去20年でかなりの注目を集めている。 しかし、異なる学術的影響のRAの言語的特徴を調査するための特徴工学的手法を用いた研究は行われていない(高・モデレートな影響要因のジャーナルに掲載された高・モデレートな引用時間に関する論文)。 本研究では, 特徴工学的手法を用いて, 高次・中等度な学術誌RAのマイクロレベル言語的特徴の抽出を試みた。 英語雑誌記事のコーパスから, 特徴選択手法を用いて25項目の重要特徴を抽出した。 コーパスのすべての論文は、新型コロナウイルスの医療実験研究を扱う。 選択した特徴は、教師付き機械学習手法により、一貫性と精度の観点から分類性能を検証した。 その結果, 隣接文間の内容語重複, 第三者代名詞の使用, 助動詞, 時制, 感情語など24種類の言語的特徴が, 学術的影響の異なる雑誌記事に対して一貫した, 正確な予測を提供することがわかった。 最後に、ランダムな森林モデルが、これらの24の特徴とジャーナル記事の高次かつ適度な影響に適合する最良のモデルであることが示されている。 これらの知見は,l2大学院生のための自動評価システム開発の基礎を築いており,学術論文の執筆指導に活用できる。

English research articles (RAs) are an essential genre in academia, so the attempts to employ NLP to assist the development of academic writing ability have received considerable attention in the last two decades. However, there has been no study employing feature engineering techniques to investigate the linguistic features of RAs of different academic impacts (i.e., the papers of high/moderate citation times published in the journals of high/moderate impact factors). This study attempts to extract micro-level linguistic features in high- and moderate-impact journal RAs, using feature engineering methods. We extracted 25 highly relevant features from the Corpus of English Journal Articles through feature selection methods. All papers in the corpus deal with COVID-19 medical empirical studies. The selected features were then validated of the classification performance in terms of consistency and accuracy through supervised machine learning methods. Results showed that 24 linguistic features such as the overlapping of content words between adjacent sentences, the use of third-person pronouns, auxiliary verbs, tense, emotional words provide consistent and accurate predictions for journal articles with different academic impacts. Lastly, the random forest model is shown to be the best model to fit the relationship between these 24 features and journal articles with high and moderate impacts. These findings can be used to inform academic writing courses and lay the foundation for developing automatic evaluation systems for L2 graduate students.
翻訳日:2021-11-16 15:22:22 公開日:2021-11-15
# より制御可能なテキスト要約のための質問ベースサルエントスパン選択

Question-Based Salient Span Selection for More Controllable Text Summarization ( http://arxiv.org/abs/2111.07935v1 )

ライセンス: Link先を確認
Daniel Deutsch and Dan Roth(参考訳) 本研究では,質問応答(QA)信号を要約モデルに組み込む手法を提案する。 提案手法は,入力文書中の有声名詞句(NP)を識別し,NPが回答した質問を自動生成し,それらの質問がゴールドサマリーで回答されたかどうかを自動的に判定する。 このQAベースの信号は、2段階の要約モデルに組み込まれ、まず分類モデルを用いて入力文書中の有能なNPをマークし、その後、条件付きで要約を生成する。 本実験は,QAに基づく監視を用いてトレーニングしたモデルが,ベンチマーク要約データセット上での有意なスパンを同定するベースライン法よりも高品質な要約を生成することを示す。 さらに,生成した要約の内容は,どのNPが入力文書にマークされているかに基づいて制御可能であることを示す。 最後に、トレーニング中に使用したマークされた入力スパンとゴールドサマリーがより一貫性のあるようにトレーニングデータを拡張する方法を提案し、この結果がどのようにして無マークの文書コンテンツをより適切に排除するかを示す。

In this work, we propose a method for incorporating question-answering (QA) signals into a summarization model. Our method identifies salient noun phrases (NPs) in the input document by automatically generating wh-questions that are answered by the NPs and automatically determining whether those questions are answered in the gold summaries. This QA-based signal is incorporated into a two-stage summarization model which first marks salient NPs in the input document using a classification model, then conditionally generates a summary. Our experiments demonstrate that the models trained using QA-based supervision generate higher-quality summaries than baseline methods of identifying salient spans on benchmark summarization datasets. Further, we show that the content of the generated summaries can be controlled based on which NPs are marked in the input document. Finally, we propose a method of augmenting the training data so the gold summaries are more consistent with the marked input spans used during training and show how this results in models which learn to better exclude unmarked document content.
翻訳日:2021-11-16 15:19:49 公開日:2021-11-15
# collie: 画像埋め込みによる言語基盤の継続的学習

CoLLIE: Continual Learning of Language Grounding from Language-Image Embeddings ( http://arxiv.org/abs/2111.07993v1 )

ライセンス: Link先を確認
Gabriel Skantze and Bram Willemsen(参考訳) 本稿では,言語が視覚にどのように接するかを連続的に学習するための,単純かつ効果的なモデルであるcolieを提案する。 事前学習されたマルチモーダル埋め込みモデルによって、言語とイメージは同じ意味空間(この場合はopenaiによるクリップ)に投影される。 従来の少数ショット学習とは異なり、モデルは新しいクラスやラベルを学ぶだけでなく、同様の言語の使用を一般化することもできる。 モデルの性能を連続学習の2つの異なるタスクで検証し、モデル本来のゼロショット性能にほとんど干渉することなく、少数の例から効率的に学習し、一般化できることを示す。

This paper presents CoLLIE: a simple, yet effective model for continual learning of how language is grounded in vision. Given a pre-trained multimodal embedding model, where language and images are projected in the same semantic space (in this case CLIP by OpenAI), CoLLIE learns a transformation function that adjusts the language embeddings when needed to accommodate new language use. Unlike traditional few-shot learning, the model does not just learn new classes and labels, but can also generalize to similar language use. We verify the model's performance on two different tasks of continual learning and show that it can efficiently learn and generalize from only a few examples, with little interference with the model's original zero-shot performance.
翻訳日:2021-11-16 15:19:31 公開日:2021-11-15
# ゲームにおけるai: 技術、挑戦、機会

AI in Games: Techniques, Challenges and Opportunities ( http://arxiv.org/abs/2111.07631v1 )

ライセンス: Link先を確認
Qiyue Yin, Jun Yang, Wancheng Ni, Bin Liang, Kaiqi Huang(参考訳) AlphaGoのブレークスルーによって、人間のコンピュータゲームにおけるAIは、世界中の研究者を惹きつける非常にホットなトピックとなった。 Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。 本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。 この調査を通じて、我々は 1)知的意思決定分野における各種ゲームの主な難しさの比較 ; 2) プロレベルのAIを開発するための主流のフレームワークとテクニックを例示する。 3)知的意思決定のための現在のAIにおける課題や欠点を提起すること。 4) ゲームにおける今後のトレンドと知的意思決定技術を提案すること。 最後に、この短いレビューが初心者に紹介を提供し、ゲームでAIを申請した研究者に洞察を与えてくれることを願っている。

With breakthrough of AlphaGo, AI in human-computer game has become a very hot topic attracting researchers all around the world, which usually serves as an effective standard for testing artificial intelligence. Various game AI systems (AIs) have been developed such as Libratus, OpenAI Five and AlphaStar, beating professional human players. In this paper, we survey recent successful game AIs, covering board game AIs, card game AIs, first-person shooting game AIs and real time strategy game AIs. Through this survey, we 1) compare the main difficulties among different kinds of games for the intelligent decision making field ; 2) illustrate the mainstream frameworks and techniques for developing professional level AIs; 3) raise the challenges or drawbacks in the current AIs for intelligent decision making; and 4) try to propose future trends in the games and intelligent decision making techniques. Finally, we hope this brief review can provide an introduction for beginners, inspire insights for researchers in the filed of AI in games.
翻訳日:2021-11-16 15:18:56 公開日:2021-11-15
# (参考訳) 端末状態規則化による長軸ロボットマニピュレーションの逆スキルチェイン

Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization ( http://arxiv.org/abs/2111.07999v1 )

ライセンス: CC BY 4.0
Youngwoon Lee and Joseph J. Lim and Anima Anandkumar and Yuke Zhu(参考訳) スキル連鎖は、事前学習されたスキルを順次組み合わせて複雑な振る舞いを合成する有望なアプローチである。 しかし、スキルの素直な構成は、トレーニング中に見つからない開始状態にポリシーが遭遇した場合に失敗する。 スキルチェーンの成功のために、事前のアプローチはポリシーの開始状態の分布を拡大しようとする。 しかしながら、これらのアプローチでは、より多くのポリシーがシーケンスされるにつれて、より大きな状態分布をカバーする必要があるため、短いスキルシーケンスに制限される。 本稿では,逆学習フレームワークにおける端末状態分布を正規化することにより,過大な初期状態分布を伴わない複数のポリシーの連鎖を提案する。 家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。 提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを最初に確立するが,先行技術連鎖手法は失敗する。 コードとビデオはhttps://clvrai.com/skill-chainingで入手できる。

Skill chaining is a promising approach for synthesizing complex behaviors by sequentially combining previously learned skills. Yet, a naive composition of skills fails when a policy encounters a starting state never seen during its training. For successful skill chaining, prior approaches attempt to widen the policy's starting state distribution. However, these approaches require larger state distributions to be covered as more policies are sequenced, and thus are limited to short skill sequences. In this paper, we propose to chain multiple policies without excessively large initial state distributions by regularizing the terminal state distributions in an adversarial learning framework. We evaluate our approach on two complex long-horizon manipulation tasks of furniture assembly. Our results have shown that our method establishes the first model-free reinforcement learning algorithm to solve these tasks; whereas prior skill chaining approaches fail. The code and videos are available at https://clvrai.com/skill-chaining
翻訳日:2021-11-16 15:16:01 公開日:2021-11-15
# コミュニティ検出のための分布自由モデル

Distribution-Free Models for Community Detection ( http://arxiv.org/abs/2111.07495v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) 非重み付きネットワークのコミュニティ検出はネットワーク解析において広く研究されてきたが、重み付きネットワークの場合はまだ課題である。 本稿では,ノードを異なるコミュニティに分割するネットワークに対して,分散自由モデル(DFM)を提案する。 DFMは、非重み付きネットワークと重み付きネットワークの両方の一般的な、解釈可能な、識別可能なモデルである。 提案モデルは、隣接行列の要素に対する特定の分布に関する事前知識を必要とせず、期待値のみを求める。 DFMの分布自由性は、隣接行列が負の要素を持つことも許す。 DFMに適合する効率的なスペクトルアルゴリズムを開発した。 雑音行列を導入することにより、摂動解析の理論的枠組みを構築し、提案アルゴリズムがDFMの下で安定に一貫したコミュニティ検出を行うことを示す。 論文から得られた合成ネットワークと2つのソーシャルネットワークの数値実験をアルゴリズムの具体化に用いた。

Community detection for un-weighted networks has been widely studied in network analysis, but the case of weighted networks remains a challenge. In this paper, a Distribution-Free Models (DFM) is proposed for networks in which nodes are partitioned into different communities. DFM is a general, interpretable and identifiable model for both un-weighted networks and weighted networks. The proposed model does not require prior knowledge on a specific distribution for elements of adjacency matrix but only the expected value. The distribution-free property of DFM even allows adjacency matrix to have negative elements. We develop an efficient spectral algorithm to fit DFM. By introducing a noise matrix, we build a theoretic framework on perturbation analysis to show that the proposed algorithm stably yields consistent community detection under DFM. Numerical experiments on both synthetic networks and two social networks from literature are used to illustrate the algorithm.
翻訳日:2021-11-16 14:58:54 公開日:2021-11-15
# 線形モデルにおけるスケーラブル干渉目標推定

Scalable Intervention Target Estimation in Linear Models ( http://arxiv.org/abs/2111.07512v1 )

ライセンス: Link先を確認
Burak Varici, Karthikeyan Shanmugam, Prasanna Sattigeri, Ali Tajer(参考訳) 本稿では,観察的および介入的データから未知の介入対象を因果有向非循環グラフで推定する問題を考察する。 焦点は線形構造方程式モデル(SEM)におけるソフト介入である。 因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを用いて線形SEMであっても未知の介入目標を発見する。 これはスケーラビリティとサンプルの複雑さを著しく制限します。 本稿では,すべての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。 重要な考え方は、観察データセットと介入データセットに関連する精度行列の違いから介入部位を推定することである。 そのようなサイトを変数の異なる部分集合で繰り返し推定する。 提案アルゴリズムは、与えられた観察的マルコフ同値クラスを介入的マルコフ同値クラスに更新するためにも使用できる。 一貫性、マルコフ等価性、およびサンプル複雑性は分析的に確立される。 最後に,実データと合成データの両方におけるシミュレーション結果から,スケーラブルな因果構造復元のための提案手法が得られた。 アルゴリズムの実装とシミュレーション結果を再現するコードは \url{https://github.com/bvarici/intervention-estimation} で入手できる。

This paper considers the problem of estimating the unknown intervention targets in a causal directed acyclic graph from observational and interventional data. The focus is on soft interventions in linear structural equation models (SEMs). Current approaches to causal structure learning either work with known intervention targets or use hypothesis testing to discover the unknown intervention targets even for linear SEMs. This severely limits their scalability and sample complexity. This paper proposes a scalable and efficient algorithm that consistently identifies all intervention targets. The pivotal idea is to estimate the intervention sites from the difference between the precision matrices associated with the observational and interventional datasets. It involves repeatedly estimating such sites in different subsets of variables. The proposed algorithm can be used to also update a given observational Markov equivalence class into the interventional Markov equivalence class. Consistency, Markov equivalency, and sample complexity are established analytically. Finally, simulation results on both real and synthetic data demonstrate the gains of the proposed approach for scalable causal structure recovery. Implementation of the algorithm and the code to reproduce the simulation results are available at \url{https://github.com/bvarici/intervention-estimation}.
翻訳日:2021-11-16 14:58:43 公開日:2021-11-15
# 不均一な共分散に対する条件線形回帰

Conditional Linear Regression for Heterogeneous Covariances ( http://arxiv.org/abs/2111.07834v1 )

ライセンス: Link先を確認
Brendan Juba, Leda Liang(参考訳) 多くの場合、機械学習と統計モデルはデータの大半を記述しようとする。 しかし、データの一部だけが線形回帰モデルによってうまく適合できる状況があるかもしれない。 ここでは、そのような不等式をDNF(Disjunctive Normal Form)公式で特定できる場合に関心がある。 本稿では,条件付き線形回帰タスクの多項式時間アルゴリズムを提案し,それに対応する部分について線形予測器と共にdnf条件を同定する。 本研究では,各条件を満たすデータの共分散が,全条件の共分散とスペクトルノルムにおいて非常によく似ていることの要件を除去することにより,従来のアルゴリズムの改善を行う。

Often machine learning and statistical models will attempt to describe the majority of the data. However, there may be situations where only a fraction of the data can be fit well by a linear regression model. Here, we are interested in a case where such inliers can be identified by a Disjunctive Normal Form (DNF) formula. We give a polynomial time algorithm for the conditional linear regression task, which identifies a DNF condition together with the linear predictor on the corresponding portion of the data. In this work, we improve on previous algorithms by removing a requirement that the covariances of the data satisfying each of the terms of the condition have to all be very similar in spectral norm to the covariance of the overall condition.
翻訳日:2021-11-16 14:58:27 公開日:2021-11-15
# 確率勾配線ベイズ最適化:パラメータ化量子回路における計測ショットの削減

Stochastic Gradient Line Bayesian Optimization: Reducing Measurement Shots in Optimizing Parameterized Quantum Circuits ( http://arxiv.org/abs/2111.07952v1 )

ライセンス: Link先を確認
Shiro Tamiya, Hayata Yamasaki(参考訳) パラメータ化量子回路の最適化は、変動量子アルゴリズム(VQA)を用いた計算タスクへの短期量子デバイスの適用には不可欠である。 しかしながら、既存のVQAsの最適化アルゴリズムでは、観測可能な変数の期待値を推定したり、回路パラメータの更新を繰り返すために、過剰な数の量子測定ショットを必要とする。 この問題に対処するため,計測ショットが少ない回路最適化のための効率的なフレームワークである「textit{stochastic gradient line Bayesian optimization} (SGLBO)」を開発した。 SGLBOは、確率勾配降下(SGD)に基づいてパラメータを適切に更新する方向を推定し、さらにベイズ最適化(BO)を利用して、SGDの各イテレーションにおける最適なステップサイズを推定することにより、測定ショットのコストを低減する。 精度の高い期待値推定と多くのイテレーションを頼らずに最適化を実現するための適応的計測ショット戦略を定式化し,vqaの最適化において,接尾辞平均化手法が統計的・ハードウェア的ノイズの影響を著しく低減できることを示した。 数値シミュレーションにより,これらの手法を付加したsglboは,vqaの代表課題における他の最先端オプティマイザと比較して,必要な計測ショット数を大幅に削減し,最適化精度を高め,雑音に対するロバスト性を高めることができることを示した。 これらの結果は、2つの異なる最適化手法であるSGDとBOを統合する量子回路オプティマイザの枠組みを確立し、測定ショットのコストを大幅に削減する。

Optimization of parameterized quantum circuits is indispensable for applications of near-term quantum devices to computational tasks with variational quantum algorithms (VQAs). However, the existing optimization algorithms for VQAs require an excessive number of quantum-measurement shots in estimating expectation values of observables or iterating updates of circuit parameters, whose cost has been a crucial obstacle for practical use. To address this problem, we develop an efficient framework, \textit{stochastic gradient line Bayesian optimization} (SGLBO), for the circuit optimization with fewer measurement shots. The SGLBO reduces the cost of measurement shots by estimating an appropriate direction of updating the parameters based on stochastic gradient descent (SGD) and further by utilizing Bayesian optimization (BO) to estimate the optimal step size in each iteration of the SGD. We formulate an adaptive measurement-shot strategy to achieve the optimization feasibly without relying on precise expectation-value estimation and many iterations; moreover, we show that a technique of suffix averaging can significantly reduce the effect of statistical and hardware noise in the optimization for the VQAs. Our numerical simulation demonstrates that the SGLBO augmented with these techniques can drastically reduce the required number of measurement shots, improve the accuracy in the optimization, and enhance the robustness against the noise compared to other state-of-art optimizers in representative tasks for the VQAs. These results establish a framework of quantum-circuit optimizers integrating two different optimization approaches, SGD and BO, to reduce the cost of measurement shots significantly.
翻訳日:2021-11-16 14:56:36 公開日:2021-11-15
# 単調DR-サブモジュラー最大化のための高速1次アルゴリズム

Faster First-Order Algorithms for Monotone Strongly DR-Submodular Maximization ( http://arxiv.org/abs/2111.07990v1 )

ライセンス: Link先を確認
Omid Sadeghi, Maryam Fazel(参考訳) 連続DR-部分モジュラ函数は、一般に非凸/非凹関数のクラスであり、Dimishing Returns (DR) の性質を満たす。 既存の研究は、凸制約を受ける単調連続DR-部分モジュラー最大化を研究し、近似保証付き効率的なアルゴリズムを提供した。 グラフの安定性数を計算するような多くの応用において、単調DR-部分モジュラー目的関数は非負方向(すなわち強DR-部分モジュラー)に沿って強く凹むという付加的性質を持つ。 本稿では、DR-部分モジュラー関数が強く、有界曲率を持つ$L$-smooth monotone DR-submodular関数のサブクラスを考察し、そのような付加構造を利用して、最大化問題に対するより強力な保証付き高速なアルゴリズムを得る方法を示す。 証明可能な最適な1-\frac{c}{e}$近似比を,$c\in[0,1]$および$\mu\geq 0$が曲率であり,DR-部分モジュラリティパラメータが強い場合,$\lceil\frac{L}{\mu}\rceil$ iterationsのみに一致する新しいアルゴリズムを提案する。 さらに,この問題に対するpga法の検討を行い,改良された$\frac{1}{1+c}$近似比(先行研究では$\frac{1}{2}$)と線形収束率(線形収束率)を用いて,アルゴリズムの精巧な解析を行う。 実験結果は,提案アルゴリズムの有効性と有効性を示すものである。

Continuous DR-submodular functions are a class of generally non-convex/non-concave functions that satisfy the Diminishing Returns (DR) property, which implies that they are concave along non-negative directions. Existing work has studied monotone continuous DR-submodular maximization subject to a convex constraint and provided efficient algorithms with approximation guarantees. In many applications, such as computing the stability number of a graph, the monotone DR-submodular objective function has the additional property of being strongly concave along non-negative directions (i.e., strongly DR-submodular). In this paper, we consider a subclass of $L$-smooth monotone DR-submodular functions that are strongly DR-submodular and have a bounded curvature, and we show how to exploit such additional structure to obtain faster algorithms with stronger guarantees for the maximization problem. We propose a new algorithm that matches the provably optimal $1-\frac{c}{e}$ approximation ratio after only $\lceil\frac{L}{\mu}\rceil$ iterations, where $c\in[0,1]$ and $\mu\geq 0$ are the curvature and the strong DR-submodularity parameter. Furthermore, we study the Projected Gradient Ascent (PGA) method for this problem, and provide a refined analysis of the algorithm with an improved $\frac{1}{1+c}$ approximation ratio (compared to $\frac{1}{2}$ in prior works) and a linear convergence rate. Experimental results illustrate and validate the efficiency and effectiveness of our proposed algorithms.
翻訳日:2021-11-16 14:56:08 公開日:2021-11-15
# t-automl:3次元医用イメージングにおけるトランスフォーマーを用いた病変分割の自動機械学習

T-AutoML: Automated Machine Learning for Lesion Segmentation using Transformers in 3D Medical Imaging ( http://arxiv.org/abs/2111.07535v1 )

ライセンス: Link先を確認
Dong Yang, Andriy Myronenko, Xiaosong Wang, Ziyue Xu, Holger R. Roth, Daguang Xu(参考訳) 画像診断における病変分割は臨床研究において重要な課題である。 この課題に対処するために、研究者は様々な検出アルゴリズムとセグメンテーションアルゴリズムを提案した。 近年,ディープラーニングに基づくアプローチにより,従来の手法よりも性能が大幅に向上している。 しかし、最先端のディープラーニング手法の多くは、複数のネットワークコンポーネントとトレーニング戦略の手動設計を必要とする。 本稿では,機械学習アルゴリズムT-AutoMLを提案する。このアルゴリズムは,最高のニューラルネットワークを探索するだけでなく,ハイパーパラメータとデータ拡張戦略を同時に組み合わせることで,最適な組み合わせを見つけることができる。 提案手法は,探索空間埋め込みの動的長さに適応し,探索能力を大幅に向上させるため,現代の変圧器モデルを用いている。 我々は,T-AutoMLを複数の大規模公共病変セグメントデータセットで検証し,最先端の性能を実現する。

Lesion segmentation in medical imaging has been an important topic in clinical research. Researchers have proposed various detection and segmentation algorithms to address this task. Recently, deep learning-based approaches have significantly improved the performance over conventional methods. However, most state-of-the-art deep learning methods require the manual design of multiple network components and training strategies. In this paper, we propose a new automated machine learning algorithm, T-AutoML, which not only searches for the best neural architecture, but also finds the best combination of hyper-parameters and data augmentation strategies simultaneously. The proposed method utilizes the modern transformer model, which is introduced to adapt to the dynamic length of the search space embedding and can significantly improve the ability of the search. We validate T-AutoML on several large-scale public lesion segmentation data-sets and achieve state-of-the-art performance.
翻訳日:2021-11-16 14:52:51 公開日:2021-11-15
# 画像データの擬似ドメインは、多施設研究における将来の疾患の予測を改善する

Pseudo-domains in imaging data improve prediction of future disease status in multi-center studies ( http://arxiv.org/abs/2111.07634v1 )

ライセンス: Link先を確認
Matthias Perkonigg, Peter Mesenbrink, Alexander Goehler, Miljen Martic, Ahmed Ba-Ssalamah, Georg Langs(参考訳) 多施設のランダム化臨床試験では、取得技術やスキャンプロトコルによって画像データが多様である。 このデータの不均一性により、患者の将来の予後を予測するモデルが障害となる。 そこで本研究では,多数の異なるスキャンサイトと,各サイト毎のサンプル数に対処可能な予測手法を提案する。 サイトをスキャンの視覚的外観に基づいて擬似ドメインにクラスタリングし、擬似ドメイン固有モデルを訓練する。 初診時の画像データと12週間の肝疾患追跡データから,48週後の脂肪症予測精度の改善が示唆された。

In multi-center randomized clinical trials imaging data can be diverse due to acquisition technology or scanning protocols. Models predicting future outcome of patients are impaired by this data heterogeneity. Here, we propose a prediction method that can cope with a high number of different scanning sites and a low number of samples per site. We cluster sites into pseudo-domains based on visual appearance of scans, and train pseudo-domain specific models. Results show that they improve the prediction accuracy for steatosis after 48 weeks from imaging data acquired at an initial visit and 12-weeks follow-up in liver disease
翻訳日:2021-11-16 14:52:39 公開日:2021-11-15
# 足跡認識によるヒト運動識別のためのメトリックベースマルチモーダルメタラーニング

Metric-based multimodal meta-learning for human movement identification via footstep recognition ( http://arxiv.org/abs/2111.07979v1 )

ライセンス: Link先を確認
Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai(参考訳) 本稿では,マルチモーダルフレームワークを導入し,シアム構成のディープオーディオおよびジオホンエンコーダを用いて適応的で軽量な教師付きモデルの設計を行う。 このフレームワークは、高価なデータラベリング手順を不要とし、全表示センシングシステムから得られた低マルチセンサーデータから汎用表現を学習する。 これらのセンシングシステムは、アクティビティ認識タスクに多くの応用と様々なユースケースを提供する。 ここでは,室内環境からの人間の歩みを探索し,音響・振動センサを用いた小さな自己収集データセットから表現を分析する。 中心となるアイデアは、2つの感覚特性の正確な類似性を学習し、オーディオとジオフォン信号からの表現を組み合わせることである。 音声やジオフォン信号から抽出した時間的特徴と空間的特徴から埋め込みを学習するための一般化されたフレームワークを提案する。 次に,共有空間における表現を抽出し,音響的特徴とジオフォン的特徴との整合性の学習を最大化する。 これにより、学習モデルからの分類タスクを効果的に行うことができ、例えば、人間の足歩運動と高い類似性をペアに割り当て、足歩運動のないペアに低い類似性を割り当てることによって示される。 性能分析の結果,提案するマルチモーダルフレームワークは(絶対的に)19.99\%の精度向上を達成し,学習サンプルを200対から500対に増やしながら,音声とジオフォンの表現を十分に学習しながら,評価セットへの過剰フィットを回避できた。 本研究は,データ不足の影響を緩和し,限られたデータサイズで人体の動きの識別を行うため,マルチセンサデータに対するメトリックベースのコントラスト学習手法を用いた。

We describe a novel metric-based learning approach that introduces a multimodal framework and uses deep audio and geophone encoders in siamese configuration to design an adaptable and lightweight supervised model. This framework eliminates the need for expensive data labeling procedures and learns general-purpose representations from low multisensory data obtained from omnipresent sensing systems. These sensing systems provide numerous applications and various use cases in activity recognition tasks. Here, we intend to explore the human footstep movements from indoor environments and analyze representations from a small self-collected dataset of acoustic and vibration-based sensors. The core idea is to learn plausible similarities between two sensory traits and combining representations from audio and geophone signals. We present a generalized framework to learn embeddings from temporal and spatial features extracted from audio and geophone signals. We then extract the representations in a shared space to maximize the learning of a compatibility function between acoustic and geophone features. This, in turn, can be used effectively to carry out a classification task from the learned model, as demonstrated by assigning high similarity to the pairs with a human footstep movement and lower similarity to pairs containing no footstep movement. Performance analyses show that our proposed multimodal framework achieves a 19.99\% accuracy increase (in absolute terms) and avoided overfitting on the evaluation set when the training samples were increased from 200 pairs to just 500 pairs while satisfactorily learning the audio and geophone representations. Our results employ a metric-based contrastive learning approach for multi-sensor data to mitigate the impact of data scarcity and perform human movement identification with limited data size.
翻訳日:2021-11-16 14:52:04 公開日:2021-11-15
# (参考訳) 新型コロナウイルスの誤情報検出のためのニューラルネットワークモデルの一般化試験

Testing the Generalization of Neural Language Models for COVID-19 Misinformation Detection ( http://arxiv.org/abs/2111.07819v1 )

ライセンス: CC BY-SA 4.0
Jan Philip Wahle and Nischal Ashok and Terry Ruas and Norman Meuschke and Tirthankar Ghosal and Bela Gipp(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの副産物となっている。 このトピックに関する大量のデータ内の偽情報を特定するための計算支援は、害を防ぐために不可欠である。 研究者は、covid-19に関連するオンライン誤情報にフラグを付ける多くの方法を提案した。 しかし、これらの手法は主に特定のコンテンツタイプ(ニュースなど)やプラットフォーム(twitterなど)をターゲットにしている。 これまでの方法の一般化能力はほとんど不明であった。 このギャップを埋めるために,ソーシャルメディア投稿やニュース記事,科学論文などを含む5つの誤情報データセットについて,トランスフォーマティブに基づく15のモデルを評価した。 COVID-19データに合わせたトークンやモデルは、汎用データに対して大きな優位性を提供していない。 本研究は、新型コロナウイルスの誤情報を検出するためのモデルの現実的な評価を提供する。 幅広いデータセットやモデルを評価することは、誤情報検出システムの開発における将来の研究に役立つと期待している。

A drastic rise in potentially life-threatening misinformation has been a by-product of the COVID-19 pandemic. Computational support to identify false information within the massive body of data on the topic is crucial to prevent harm. Researchers proposed many methods for flagging online misinformation related to COVID-19. However, these methods predominantly target specific content types (e.g., news) or platforms (e.g., Twitter). The methods' capabilities to generalize were largely unclear so far. We evaluate fifteen Transformer-based models on five COVID-19 misinformation datasets that include social media posts, news articles, and scientific papers to fill this gap. We show tokenizers and models tailored to COVID-19 data do not provide a significant advantage over general-purpose ones. Our study provides a realistic assessment of models for detecting COVID-19 misinformation. We expect that evaluating a broad spectrum of datasets and models will benefit future research in developing misinformation detection systems.
翻訳日:2021-11-16 14:50:39 公開日:2021-11-15
# 空間-時間交通予測のための深層学習モデルの基本要素の比較研究

A Comparative Study on Basic Elements of Deep Learning Models for Spatial-Temporal Traffic Forecasting ( http://arxiv.org/abs/2111.07513v1 )

ライセンス: Link先を確認
Yuyol Shin and Yoonjin Yoon(参考訳) 交通予測はインテリジェント交通システムにおいて重要な役割を果たす。 交通ネットワークにおける時空間の複雑さは、この問題を特に困難にしている。 最近提案されたディープラーニングモデルは、グラフ畳み込み、グラフ注目、リカレントユニット、および/またはアテンションメカニズムといった基本的な要素を共有している。 本研究では,異なる基本要素を用いた4つの深層ニューラルネットワークモデルについて,詳細な比較研究を行った。 ベースモデルについては,従来の文献から,rnnモデルと注意モデルが1つ選択された。 次に,モデル内の空間的特徴抽出層をグラフ畳み込みとグラフ注意で置き換えた。 様々な環境における各要素の性能を分析するために, 道路速度, 高速道路流速, 等質道路網からの都市速度, 異種道路網からの都市速度の4つの実世界のデータセットについて実験を行った。 その結果、RNNモデルとアテンションベースモデルは短期予測に類似した性能を示し、アテンションベースモデルは長期予測においてRNNを上回る性能を示した。 グラフ畳み込みとグラフアテンションの選択は、RNNベースのモデルに大きな違いをもたらす。 また、GMANの修正版は、メモリ消費の少ないオリジナルと同等の性能を示している。

Traffic forecasting plays a crucial role in intelligent transportation systems. The spatial-temporal complexities in transportation networks make the problem especially challenging. The recently suggested deep learning models share basic elements such as graph convolution, graph attention, recurrent units, and/or attention mechanism. In this study, we designed an in-depth comparative study for four deep neural network models utilizing different basic elements. For base models, one RNN-based model and one attention-based model were chosen from previous literature. Then, the spatial feature extraction layers in the models were substituted with graph convolution and graph attention. To analyze the performance of each element in various environments, we conducted experiments on four real-world datasets - highway speed, highway flow, urban speed from a homogeneous road link network, and urban speed from a heterogeneous road link network. The results demonstrate that the RNN-based model and the attention-based model show a similar level of performance for short-term prediction, and the attention-based model outperforms the RNN in longer-term predictions. The choice of graph convolution and graph attention makes a larger difference in the RNN-based models. Also, our modified version of GMAN shows comparable performance with the original with less memory consumption.
翻訳日:2021-11-16 14:36:09 公開日:2021-11-15
# 固有パラメータを用いたReLUネットワーク近似

ReLU Network Approximation in Terms of Intrinsic Parameters ( http://arxiv.org/abs/2111.07964v1 )

ライセンス: Link先を確認
Zuowei Shen and Haizhao Yang and Shijun Zhang(参考訳) 本稿では,ReLUネットワークの固有パラメータ数(すなわち,対象関数の$f$に依存するパラメータ)の近似誤差について検討する。 まず、リプシッツ定数 $\lambda>0$ を持つ任意のリプシッツ連続関数 $f$ on $[0,1]^d$ に対して、n+2$ 固有パラメータを持つ relu ネットワークは、指数関数的に小さい誤差 5\lambda \sqrt{d}\,2^{-n}$ で$l^p$-norm で$p\in [1,\infty)$ で測定できる。 より一般に、任意の連続函数 $f$ on $[0,1]^d$ と連続性 $\omega_f(\cdot)$ に対して、近似誤差は$\omega_f(\sqrt{d}\, 2^{-n})+2^{-n+2}\omega_f(\sqrt{d})$である。 次に、これら2つの結果を$L^p$-normから$L^\infty$-normに3^d n+2$固有のパラメータで拡張する。 最後に、目標関数とは独立な固定reluネットワークによる高精度バイナリ表現とビット抽出技術を用いて、理論的には3つの固有パラメータしか持たないreluネットワークを任意に小さい誤差でh\"older連続関数を近似するように設計する。

This paper studies the approximation error of ReLU networks in terms of the number of intrinsic parameters (i.e., those depending on the target function $f$). First, we prove by construction that, for any Lipschitz continuous function $f$ on $[0,1]^d$ with a Lipschitz constant $\lambda>0$, a ReLU network with $n+2$ intrinsic parameters can approximate $f$ with an exponentially small error $5\lambda \sqrt{d}\,2^{-n}$ measured in the $L^p$-norm for $p\in [1,\infty)$. More generally for an arbitrary continuous function $f$ on $[0,1]^d$ with a modulus of continuity $\omega_f(\cdot)$, the approximation error is $\omega_f(\sqrt{d}\, 2^{-n})+2^{-n+2}\omega_f(\sqrt{d})$. Next, we extend these two results from the $L^p$-norm to the $L^\infty$-norm at a price of $3^d n+2$ intrinsic parameters. Finally, by using a high-precision binary representation and the bit extraction technique via a fixed ReLU network independent of the target function, we design, theoretically, a ReLU network with only three intrinsic parameters to approximate H\"older continuous functions with an arbitrarily small error.
翻訳日:2021-11-16 14:35:53 公開日:2021-11-15
# cores: stationarity による互換表現

CoReS: Compatible Representations via Stationarity ( http://arxiv.org/abs/2111.07632v1 )

ライセンス: Link先を確認
Niccolo Biondi and Federico Pernici and Matteo Bruni and Alberto Del Bimbo(参考訳) 本稿では,従来学習されていた特徴表現モデルに適合する内部特徴表現モデルを学習するための新しい手法を提案する。 互換性のある機能は、古い機能と新しい機能を直接比較することができ、時間とともに相互に使用することができる。 これにより、表現モデルを逐次アップグレードする際、ギャラリーセット内のすべての画像に対して、視覚検索システムが新機能を抽出する必要がなくなる。 新しい機能の抽出は、非常に大きなギャラリーセットやリアルタイムシステム(顔認識システム、ソーシャルネットワーク、生涯学習システム、ロボティクス、監視システムなど)の場合、通常非常に高価または不可能である。 本手法は,従来学習したモデルに頼らずに,学習表現モデルに定常性を付与することで,互換性を実現する。 stationarityは、時間のシフトによって特徴の統計特性が変化しないようにし、現在の学習された特徴が古い特徴と相互運用できるようにします。 大規模トレーニングデータセットの増大に伴う単一およびシーケンシャルなマルチモデルアップグレードを評価し,本手法が互換性のある機能を実現する上での最先端性の向上を大きなマージンで示す。 特にcasia-webfaceから取得したトレーニングデータを用いて10回アップグレードし,野生のラベル付き顔(lfw)で評価することで,従来よりも544.%の相対的改善である平均互換回数を49.%向上させることができた。

In this paper, we propose a novel method to learn internal feature representation models that are \textit{compatible} with previously learned ones. Compatible features enable for direct comparison of old and new learned features, allowing them to be used interchangeably over time. This eliminates the need for visual search systems to extract new features for all previously seen images in the gallery-set when sequentially upgrading the representation model. Extracting new features is typically quite expensive or infeasible in the case of very large gallery-sets and/or real time systems (i.e., face-recognition systems, social networks, life-long learning systems, robotics and surveillance systems). Our approach, called Compatible Representations via Stationarity (CoReS), achieves compatibility by encouraging stationarity to the learned representation model without relying on previously learned models. Stationarity allows features' statistical properties not to change under time shift so that the current learned features are inter-operable with the old ones. We evaluate single and sequential multi-model upgrading in growing large-scale training datasets and we show that our method improves the state-of-the-art in achieving compatible features by a large margin. In particular, upgrading ten times with training data taken from CASIA-WebFace and evaluating in Labeled Face in the Wild (LFW), we obtain a 49\% increase in measuring the average number of times compatibility is achieved, which is a 544\% relative improvement over previous state-of-the-art.
翻訳日:2021-11-16 14:33:00 公開日:2021-11-15
# ニューラルネットワークの高速軸方向属性

Fast Axiomatic Attribution for Neural Networks ( http://arxiv.org/abs/2111.07668v1 )

ライセンス: Link先を確認
Robin Hesse, Simone Schaub-Meyer, Stefan Roth(参考訳) トレーニングデータセットに存在するスプリアス相関への依存の緩和は、ディープラーニングの迅速かつ重要なトピックである。 最近のアプローチでは、不必要な特徴への依存を減らすために、トレーニングプロセスにディープニューラルネットワーク(dnn)の機能帰属を優先する。 しかし、それまでは、それらの計算に要する時間に対して、望ましい公理を満たす高品質な帰属をトレードオフする必要があった。 この結果、長い訓練時間か非効果的な帰属先へと導かれた。 本研究では,1つの前方/後方パスのみで公理的特徴属性を計算できるDNNを効率よく公理的に帰属させる特別なクラスを考えることで,このトレードオフを解消する。 非負に同質なDNN(ここでは$\mathcal{X}$-DNN)が効率よく公理的に帰属可能であることを正式に証明し、各層のバイアス項を単純に除去することで、幅広い正規DNNから強制的に構築可能であることを示す。 様々な実験により、$\mathcal{X}$-DNNsの利点が示され、通常のDNNに対する最先端の一般的な帰属法を破り、帰属前の訓練を行う。

Mitigating the dependence on spurious correlations present in the training dataset is a quickly emerging and important topic of deep learning. Recent approaches include priors on the feature attribution of a deep neural network (DNN) into the training process to reduce the dependence on unwanted features. However, until now one needed to trade off high-quality attributions, satisfying desirable axioms, against the time required to compute them. This in turn either led to long training times or ineffective attribution priors. In this work, we break this trade-off by considering a special class of efficiently axiomatically attributable DNNs for which an axiomatic feature attribution can be computed with only a single forward/backward pass. We formally prove that nonnegatively homogeneous DNNs, here termed $\mathcal{X}$-DNNs, are efficiently axiomatically attributable and show that they can be effortlessly constructed from a wide range of regular DNNs by simply removing the bias term of each layer. Various experiments demonstrate the advantages of $\mathcal{X}$-DNNs, beating state-of-the-art generic attribution methods on regular DNNs for training with attribution priors.
翻訳日:2021-11-16 14:32:34 公開日:2021-11-15
# 自己適応的信頼度校正による医用画像の相互分離

Interactive Medical Image Segmentation with Self-Adaptive Confidence Calibration ( http://arxiv.org/abs/2111.07716v1 )

ライセンス: Link先を確認
Wenhao Li and Qisen Xu and Chuyun Shen and Bin Hu and Fengping Zhu and Yuxin Li and Bo Jin and Xiangfeng Wang(参考訳) 医用画像のセグメンテーションは、人工知能に基づく臨床決定システムの基本的問題の一つである。 現在の自動医療画像分割法は、しばしば臨床要件を満たさない。 そこで,専門家の補正情報を活用するために,対話型セグメンテーションアルゴリズムを提案する。 しかし, 既存の手法では, 長期的相互作用後の故障問題の分節化や, 専門家のアノテーションによるコスト問題に苦しめられており, 臨床応用が妨げられている。 本稿では,行動に基づく信頼度学習とマルチエージェント強化学習(MARL)を組み合わせることで,自己適応的信頼度校正(MECCA)と対話的メディカルセグメンテーションという対話的セグメンテーションフレームワークを提案する。 新規な行動に基づく信頼ネットワークを通じて評価を確立し、MARLから補正動作を得る。 機密情報に基づいて、より詳細なフィードバックを提供するように自己適応報酬機能を設計し、教師なしデータに対してシミュレーションラベル生成機構を提案し、ラベル付きデータへの過度な依存を減らす。 種々の医用画像データセットに対する実験結果から,提案アルゴリズムの有効性が示された。

Medical image segmentation is one of the fundamental problems for artificial intelligence-based clinical decision systems. Current automatic medical image segmentation methods are often failed to meet clinical requirements. As such, a series of interactive segmentation algorithms are proposed to utilize expert correction information. However, existing methods suffer from some segmentation refining failure problems after long-term interactions and some cost problems from expert annotation, which hinder clinical applications. This paper proposes an interactive segmentation framework, called interactive MEdical segmentation with self-adaptive Confidence CAlibration (MECCA), by introducing the corrective action evaluation, which combines the action-based confidence learning and multi-agent reinforcement learning (MARL). The evaluation is established through a novel action-based confidence network, and the corrective actions are obtained from MARL. Based on the confidential information, a self-adaptive reward function is designed to provide more detailed feedback, and a simulated label generation mechanism is proposed on unsupervised data to reduce over-reliance on labeled data. Experimental results on various medical image datasets have shown the significant performance of the proposed algorithm.
翻訳日:2021-11-16 14:32:11 公開日:2021-11-15
# 半教師付き学習とクラスタリングのための完全線形グラフ畳み込みネットワーク

Fully Linear Graph Convolutional Networks for Semi-Supervised Learning and Clustering ( http://arxiv.org/abs/2111.07942v1 )

ライセンス: Link先を確認
Yaoming Cai, Zijia Zhang, Zhihua Cai, Xiaobo Liu, Yao Ding, Pedram Ghamisi(参考訳) 本稿では,半教師なし学習と教師なし学習のための完全線形グラフ畳み込みネットワークflgcを提案する。 勾配降下を用いる代わりに、デカップリング手順によるグローバル最適閉形式解の計算に基づいてflgcを訓練し、一般化線形フレームワークを作成し、実装、訓練、適用を容易にする。 1) FLGCはグラフ構造化データと正規データの両方を扱うのに強力であり,(2) 閉形式解を用いた学習グラフ畳み込みモデルは性能を劣化させることなく計算効率を向上し,(3) FLGC は非ユークリッド領域における古典線形モデルの自然な一般化として機能し,例えばリッジ回帰や部分空間クラスタリングを行う。 さらに,半教師付きFLGCと非教師付きFLGCを初期残留戦略を導入し,FLGCが長距離地区を集約し,過度な平滑化を緩和できるようにする。 提案するFLGCモデルは, 精度, 堅牢性, 学習効率の面で, 従来手法より一貫して優れていることを示す。 FLGCのコアコードはhttps://github.com/AngryCai/FLGCで公開されている。

This paper presents FLGC, a simple yet effective fully linear graph convolutional network for semi-supervised and unsupervised learning. Instead of using gradient descent, we train FLGC based on computing a global optimal closed-form solution with a decoupled procedure, resulting in a generalized linear framework and making it easier to implement, train, and apply. We show that (1) FLGC is powerful to deal with both graph-structured data and regular data, (2) training graph convolutional models with closed-form solutions improve computational efficiency without degrading performance, and (3) FLGC acts as a natural generalization of classic linear models in the non-Euclidean domain, e.g., ridge regression and subspace clustering. Furthermore, we implement a semi-supervised FLGC and an unsupervised FLGC by introducing an initial residual strategy, enabling FLGC to aggregate long-range neighborhoods and alleviate over-smoothing. We compare our semi-supervised and unsupervised FLGCs against many state-of-the-art methods on a variety of classification and clustering benchmarks, demonstrating that the proposed FLGC models consistently outperform previous methods in terms of accuracy, robustness, and learning efficiency. The core code of our FLGC is released at https://github.com/AngryCai/FLGC.
翻訳日:2021-11-16 14:31:52 公開日:2021-11-15
# コントラスト学習を用いた大規模ハイパースペクトル画像クラスタリング

Large-Scale Hyperspectral Image Clustering Using Contrastive Learning ( http://arxiv.org/abs/2111.07945v1 )

ライセンス: Link先を確認
Yaoming Cai, Zijia Zhang, Yan Liu, Pedram Ghamisi, Kun Li, Xiaobo Liu, Zhihua Cai(参考訳) ハイパースペクトル画像のクラスタリングは基本的だが難しい課題である。 ハイパースペクトル画像クラスタリングの最近の開発は、浅いモデルから深いモデルへと進化し、多くのベンチマークデータセットで有望な結果を達成している。 しかし、そのスケーラビリティ、堅牢性、一般化能力は、主にオフラインクラスタリングのシナリオから生まれ、大規模なハイパースペクトルデータにアプリケーションを大幅に制限している。 これらの問題を回避するため,自己教師型学習に基づくスペクトル空間コントラストクラスタリング(SSCC)という,スケーラブルなオンラインクラスタリングモデルを提案する。 具体的には、クラスタ番号の次元を持つ投影ヘッドからなる対称双対ニューラルネットワークを用いて、スペクトル空間拡張プールから二重コントラスト学習を行う。 我々は,クラスタ内類似性を暗黙的に奨励し,クラスタ間冗長性を低減し,目的関数を定義する。 結果として得られたアプローチは、バッチ毎の最適化によってエンドツーエンドの方法でトレーニングされ、大規模データでは堅牢になり、見えないデータの一般化能力が向上する。 3つのハイパースペクトル画像ベンチマークの大規模な実験は、我々のアプローチの有効性を実証し、最先端のアプローチを大きなマージンで進めることを示す。

Clustering of hyperspectral images is a fundamental but challenging task. The recent development of hyperspectral image clustering has evolved from shallow models to deep and achieved promising results in many benchmark datasets. However, their poor scalability, robustness, and generalization ability, mainly resulting from their offline clustering scenarios, greatly limit their application to large-scale hyperspectral data. To circumvent these problems, we present a scalable deep online clustering model, named Spectral-Spatial Contrastive Clustering (SSCC), based on self-supervised learning. Specifically, we exploit a symmetric twin neural network comprised of a projection head with a dimensionality of the cluster number to conduct dual contrastive learning from a spectral-spatial augmentation pool. We define the objective function by implicitly encouraging within-cluster similarity and reducing between-cluster redundancy. The resulting approach is trained in an end-to-end fashion by batch-wise optimization, making it robust in large-scale data and resulting in good generalization ability for unseen data. Extensive experiments on three hyperspectral image benchmarks demonstrate the effectiveness of our approach and show that we advance the state-of-the-art approaches by large margins.
翻訳日:2021-11-16 14:31:26 公開日:2021-11-15
# 何だって? マルチタスク転送学習を用いた協調的pop歌詞生成

Say What? Collaborative Pop Lyric Generation Using Multitask Transfer Learning ( http://arxiv.org/abs/2111.07592v1 )

ライセンス: Link先を確認
Naveen Ram, Tanay Gummadi, Rahul Bhethanabotla, Richard J. Savery, Gil Weinberg(参考訳) lyric generationは自然言語生成の人気のあるサブ分野であり、近年は成長を遂げている。 ポップ歌詞は、プロのポップ・ソングライティング・プロセスの舞台裏にある高いレベルのコラボレーションに加えて、ジャンルの独特なスタイルとコンテンツのためにユニークな関心を持っている。 本稿では,t5トランスフォーマーモデルによるトランスファーラーニングを活用し,現在までポップ歌詞生成に使われていない線レベルの歌詞生成システムを提案する。 プロのソングライターと直接コミュニケーションすることで、リズムやラインビート要件のマッチング、特定のターゲット単語による行末といった、歌詞やスタイルを学習できるモデルを開発します。 提案手法は,複数データセットの既存手法と比較し,オンライン研究と業界ソングライターへのインタビューから肯定的な結果を得た。

Lyric generation is a popular sub-field of natural language generation that has seen growth in recent years. Pop lyrics are of unique interest due to the genre's unique style and content, in addition to the high level of collaboration that goes on behind the scenes in the professional pop songwriting process. In this paper, we present a collaborative line-level lyric generation system that utilizes transfer-learning via the T5 transformer model, which, till date, has not been used to generate pop lyrics. By working and communicating directly with professional songwriters, we develop a model that is able to learn lyrical and stylistic tasks like rhyming, matching line beat requirements, and ending lines with specific target words. Our approach compares favorably to existing methods for multiple datasets and yields positive results from our online studies and interviews with industry songwriters.
翻訳日:2021-11-16 14:30:08 公開日:2021-11-15
# ランダムな分類と人間の意思決定 - 信頼できるAIはランダムに行動しなければならないかもしれない

Randomized Classifiers vs Human Decision-Makers: Trustworthy AI May Have to Act Randomly and Society Seems to Accept This ( http://arxiv.org/abs/2111.07545v1 )

ライセンス: Link先を確認
G\'abor Erd\'elyi, Olivia J. Erd\'elyi, and Vladimir Estivill-Castro(参考訳) emph{artificial intelligence} (ai) システムは,私たちの生活に影響を与える意思決定にますます関与しているため,意思決定の自動化が公正であり,倫理が最優先事項となっている。 直感的には、人間の決定に似て、人工エージェントの判断は必然的に道徳的な原則に根ざすべきであると感じている。 しかし、意思決定者(人間であれ人であれ)が真に倫理的な(いかなる倫理理論に基づいても)決定を下すことができるのは、意思決定時にその決定が下されるすべての関連する要因についての完全な情報が得られる場合のみである。 1) 教師付き学習で得られた分類器を利用するAIシステムを利用する場合、帰納的/一般化がいくつか存在し、学習中にも関連する属性が存在しない場合がある。 2) ゲームのような決定をモデル化すると、倫理的ではあるが純粋な戦略は必然的に搾取に影響を受けやすいことが明らかになる。 さらに、多くのゲームでは、ナッシュ均衡は混合戦略、すなわち数学的に最適な結果を達成するために、決定をランダム化することによってのみ得られる。 本稿では、教師付き学習環境において、少なくとも決定論的分類器と同様にランダムな分類器が存在するため、多くの状況において最適な選択である可能性があると論じる。 我々は、ランダム化された人工意思決定者に対する肯定的な社会的態度を示す実証研究を行い、現在のai政策および標準化イニシアチブに関連し関連するランダム分類器の使用に関連する政策および実施問題について論じる。

As \emph{artificial intelligence} (AI) systems are increasingly involved in decisions affecting our lives, ensuring that automated decision-making is fair and ethical has become a top priority. Intuitively, we feel that akin to human decisions, judgments of artificial agents should necessarily be grounded in some moral principles. Yet a decision-maker (whether human or artificial) can only make truly ethical (based on any ethical theory) and fair (according to any notion of fairness) decisions if full information on all the relevant factors on which the decision is based are available at the time of decision-making. This raises two problems: (1) In settings, where we rely on AI systems that are using classifiers obtained with supervised learning, some induction/generalization is present and some relevant attributes may not be present even during learning. (2) Modeling such decisions as games reveals that any -- however ethical -- pure strategy is inevitably susceptible to exploitation. Moreover, in many games, a Nash Equilibrium can only be obtained by using mixed strategies, i.e., to achieve mathematically optimal outcomes, decisions must be randomized. In this paper, we argue that in supervised learning settings, there exist random classifiers that perform at least as well as deterministic classifiers, and may hence be the optimal choice in many circumstances. We support our theoretical results with an empirical study indicating a positive societal attitude towards randomized artificial decision-makers, and discuss some policy and implementation issues related to the use of random classifiers that relate to and are relevant for current AI policy and standardization initiatives.
翻訳日:2021-11-16 14:28:06 公開日:2021-11-15
# ニューラルネットワークと木探索による平面クワッドメッシュの生成

Generate plane quad mesh with neural networks and tree search ( http://arxiv.org/abs/2111.07613v1 )

ライセンス: Link先を確認
Hua Tong and Yong Ni(参考訳) メッシュ生成の品質は、FEM(Finite Element Method)の歴史を通じて、エンジニアに信頼性の高いシミュレーション結果を提供する上で、長い間重要な側面と考えられてきた。 現在最も堅牢な手法である要素抽出法は、ビジネスソフトウェアで使用されている。 しかし、抽出を高速化するために、ターゲット関数を最適化する次の要素を見つけることで、多くの時間ステップの後、ローカルメッシュの品質が低下する可能性がある。 強化学習(教師付き学習も可能)と、新しいモンテカルロ木探索(mcts)(coulom(2006), kocsis and szepesv\'ari(2006), browne et~al)と連携して、この手法を使用する手法であるtreemeshを提供する。 (2012)). このアルゴリズムは以前に提案されたアプローチ(Pan et~al)に基づいている。 (2021)). DRL (algorithm, state-action-reward set) に多くの改良を加え、MCTSを追加した後、同じ境界における前の作業よりも優れている。 さらに,本プログラムでは,薄膜材料に共通する種子密度変化境界を,木探索を用いて予測する。

The quality of mesh generation has long been considered a vital aspect in providing engineers with reliable simulation results throughout the history of the Finite Element Method (FEM). The element extraction method, which is currently the most robust method, is used in business software. However, in order to speed up extraction, the approach is done by finding the next element that optimizes a target function, which can result in local mesh of bad quality after many time steps. We provide TreeMesh, a method that uses this method in conjunction with reinforcement learning (also possible with supervised learning) and a novel Monte-Carlo tree search (MCTS) (Coulom(2006), Kocsis and Szepesv\'ari(2006), Browne et~al.(2012)). The algorithm is based on a previously proposed approach (Pan et~al.(2021)). After making many improvements on DRL (algorithm, state-action-reward setting) and adding a MCTS, it outperforms the former work on the same boundary. Furthermore, using tree search, our program reveals much preponderance on seed-density-changing boundaries, which is common on thin-film materials.
翻訳日:2021-11-16 14:27:36 公開日:2021-11-15
# (参考訳) 顔映像の深い意味的操作

Deep Semantic Manipulation of Facial Videos ( http://arxiv.org/abs/2111.07902v1 )

ライセンス: CC BY 4.0
Girish Kumar Solanki, Anastasios Roussos(参考訳) ビデオの顔の特徴の編集と操作は、映画のポストプロダクションや視覚効果から、ビデオゲームやバーチャルアシスタントのリアルなアバターまで、多くのアプリケーションで興味深い重要な研究分野となっている。 そこで本研究では,映像における表情の写実的操作を初めて行う方法を提案する。 本手法は,ニューラルレンダリングと3次元表情モデリングに基づくセマンティックビデオ操作を支援する。 我々は,映像の対話的操作に焦点をあて,表情を変更・制御し,有望なフォトリアリスティックな結果を実現する。 提案手法は,3次元顔の形状と活動の非交叉表現と推定に基づいて,入力ビデオにおける表情の直感的かつ使いやすい制御を実現する。 また、ユーザフレンドリでインタラクティブなAIツールを導入し、入力ビデオの特定の部分における所望の感情操作に関する人間可読なセマンティックラベルを処理し、フォトリアリスティックな動画を合成する。 感情ラベルをvalence-arousal(VA)値にマッピングすることで、特に設計され、訓練された表現デコーダネットワークを介して、不整合3次元表情にマッピングする。 本稿では,本システムの有効性と有望な結果を示す,詳細な定性的・定量的実験について述べる。 追加の結果とビデオは補足資料(https://github.com/Girish-03/DeepSemManipulation)で見ることができる。

Editing and manipulating facial features in videos is an interesting and important field of research with a plethora of applications, ranging from movie post-production and visual effects to realistic avatars for video games and virtual assistants. To the best of our knowledge, this paper proposes the first method to perform photorealistic manipulation of facial expressions in videos. Our method supports semantic video manipulation based on neural rendering and 3D-based facial expression modelling. We focus on interactive manipulation of the videos by altering and controlling the facial expressions, achieving promising photorealistic results. The proposed method is based on a disentangled representation and estimation of the 3D facial shape and activity, providing the user with intuitive and easy-to-use control of the facial expressions in the input video. We also introduce a user-friendly, interactive AI tool that processes human-readable semantic labels about the desired emotion manipulations in specific parts of the input video and synthesizes photorealistic manipulated videos. We achieve that by mapping the emotion labels to valence-arousal (VA) values, which in turn are mapped to disentangled 3D facial expressions through an especially designed and trained expression decoder network. The paper presents detailed qualitative and quantitative experiments, which demonstrate the effectiveness of our system and the promising results it achieves. Additional results and videos can be found at the supplementary material (https://github.com/Girish-03/DeepSemManipulation).
翻訳日:2021-11-16 14:25:49 公開日:2021-11-15
# AnimeCeleb:制御可能な3D合成モデルによる大規模アニメーションCelebFacesデータセット

AnimeCeleb: Large-Scale Animation CelebFaces Dataset via Controllable 3D Synthetic Models ( http://arxiv.org/abs/2111.07640v1 )

ライセンス: Link先を確認
Kangyeol Kim, Sunghyun Park, Jaeseong Lee, Sunghyo Chung, Junsoo Lee, Jaegul Choo(参考訳) ディープラーニングによる顔関連モデルの成功にもかかわらず、これらのモデルはまだ実際の人間の顔の領域に限定されている。 一方で、よく整理されたデータセットがないため、アニメーションフェイスの領域はより集中的に研究されていない。 本稿では,アニメーション・フェース・ドメインの研究を促進するために,制御可能な合成アニメーション・モデルを用いて大規模なアニメーション・セレブフェイス・データセット(AnimeCeleb)を提案する。 データ生成プロセスを容易にするため,オープンな3Dソフトウェアと開発したアノテーションシステムに基づくセミオートマチックパイプラインを構築した。 これにより、多目的および多スタイルのアニメーション顔とリッチアノテーションを備えた大規模なアニメーション顔データセットを構築することができる。 実験の結果,本データセットは頭部再現や着色など,様々なアニメーション関連タスクに適用可能であることが示唆された。

Despite remarkable success in deep learning-based face-related models, these models are still limited to the domain of real human faces. On the other hand, the domain of animation faces has been studied less intensively due to the absence of a well-organized dataset. In this paper, we present a large-scale animation celebfaces dataset (AnimeCeleb) via controllable synthetic animation models to boost research on the animation face domain. To facilitate the data generation process, we build a semi-automatic pipeline based on an open 3D software and a developed annotation system. This leads to constructing a large-scale animation face dataset that includes multi-pose and multi-style animation faces with rich annotations. Experiments suggest that our dataset is applicable to various animation-related tasks such as head reenactment and colorization.
翻訳日:2021-11-16 14:09:15 公開日:2021-11-15
# 自動学術論文レビュー:可能性と課題

Automated scholarly paper review: Possibility and challenges ( http://arxiv.org/abs/2111.07533v1 )

ライセンス: Link先を確認
Jialiang Lin, Jiaxin Song, Zhangping Zhou, Xiaodong Shi(参考訳) ピアレビューは広く受け入れられている研究評価のメカニズムであり、学術出版において重要な役割を果たしている。 しかし、その非効率性と主観性が原因で、このメカニズムに対する批判が長く続いてきた。 近年、ピアレビュープロセスを支援するために人工知能(AI)が応用されている。 それでも人間の関与により、このような制限は避けられないままである。 本稿では,aspr(automated scholarly paper review)の概念を提案し,関連する文献や技術について検討し,本格的コンピュータ化レビュープロセスの実現可能性について考察する。 我々は、既存の技術でasprの課題をさらに調査する。 レビューと議論に基づいて,ASPRの各段階には,すでに対応する研究と技術が存在すると結論づける。 これは、関連する技術が発展し続けるにつれて、asprが長期的に実現可能であることを検証します。 その実現における大きな困難は、不完全な文書解析と表現、不適切なデータ、人間とコンピュータの相互作用の欠陥、そして深い論理的推論である。 近い将来、 aspr と peer review は、 aspr が人間からのレビュー作業を完全に引き受ける前に、強化的な方法で共存していくだろう。

Peer review is a widely accepted mechanism for research evaluation, playing a pivotal role in scholarly publishing. However, criticisms have long been leveled on this mechanism, mostly because of its inefficiency and subjectivity. Recent years have seen the application of artificial intelligence (AI) in assisting the peer review process. Nonetheless, with the involvement of humans, such limitations remain inevitable. In this review paper, we propose the concept of automated scholarly paper review (ASPR) and review the relevant literature and technologies to discuss the possibility of achieving a full-scale computerized review process. We further look into the challenges in ASPR with the existing technologies. On the basis of the review and discussion, we conclude that there are already corresponding research and technologies at each stage of ASPR. This verifies that ASPR can be realized in the long term as the relevant technologies continue to develop. The major difficulties in its realization lie in imperfect document parsing and representation, inadequate data, defected human-computer interaction and flawed deep logical reasoning. In the foreseeable future, ASPR and peer review will coexist in a reinforcing manner before ASPR is able to fully undertake the reviewing workload from humans.
翻訳日:2021-11-16 14:09:03 公開日:2021-11-15
# 制約付き強化学習を用いた安全証明と安全制御政策の合同合成

Joint Synthesis of Safety Certificate and Safe Control Policy using Constrained Reinforcement Learning ( http://arxiv.org/abs/2111.07695v1 )

ライセンス: Link先を確認
Haitong Ma, Changliu Liu, Shengbo Eben Li, Sifa Zheng, Jianyu Chen(参考訳) 安全は、安全証明が証明可能な安全保証を提供する強化学習(RL)を用いた複雑な力学系の制御において、主要な考慮事項である。 有効な安全証明書は、安全状態が低エネルギーであることを示すエネルギー関数であり、エネルギー関数が常に散逸することを許容する、対応する安全制御ポリシーが存在する。 安全証明書と安全管理ポリシーは互いに密接に関連しており、どちらも合成が困難である。 したがって、既存の学習に基づく研究は、どちらかを学習する事前知識として扱い、一般の未知のダイナミクスによる適用性を制限している。 本稿では、エネルギー機能に基づく安全証明書を同時に合成し、CRLによる安全制御ポリシーを学習する新しいアプローチを提案する。 利用可能なモデルベースのコントローラや完全な安全証明書に関する事前知識は依存していません。 特に、エネルギー増加の発生を最小限に抑え、安全証明書パラメータを最適化するために損失関数を定式化する。 この最適化手順をラグランジアン系制約強化学習(CRL)の外部ループとして追加することにより、ポリシと安全証明書パラメータを共同で更新し、各ローカル最適化、最適な安全ポリシー、有効な安全証明書に収束することを証明する。 我々は,複数の安全クリティカルベンチマーク環境でアルゴリズムを評価する。 その結果,提案アルゴリズムは制約違反のない安全なポリシを確実に学習することがわかった。 また、合成安全証明書の有効性や妥当性を数値的に検証する。

Safety is the major consideration in controlling complex dynamical systems using reinforcement learning (RL), where the safety certificate can provide provable safety guarantee. A valid safety certificate is an energy function indicating that safe states are with low energy, and there exists a corresponding safe control policy that allows the energy function to always dissipate. The safety certificate and the safe control policy are closely related to each other and both challenging to synthesize. Therefore, existing learning-based studies treat either of them as prior knowledge to learn the other, which limits their applicability with general unknown dynamics. This paper proposes a novel approach that simultaneously synthesizes the energy-function-based safety certificate and learns the safe control policy with CRL. We do not rely on prior knowledge about either an available model-based controller or a perfect safety certificate. In particular, we formulate a loss function to optimize the safety certificate parameters by minimizing the occurrence of energy increases. By adding this optimization procedure as an outer loop to the Lagrangian-based constrained reinforcement learning (CRL), we jointly update the policy and safety certificate parameters and prove that they will converge to their respective local optima, the optimal safe policy and a valid safety certificate. We evaluate our algorithms on multiple safety-critical benchmark environments. The results show that the proposed algorithm learns provably safe policies with no constraint violation. The validity or feasibility of synthesized safety certificate is also verified numerically.
翻訳日:2021-11-16 14:06:17 公開日:2021-11-15
# 局所モジュール構成による連続学習

Continual Learning via Local Module Composition ( http://arxiv.org/abs/2111.07736v1 )

ライセンス: Link先を確認
Oleksiy Ostapenko, Pau Rodriguez, Massimo Caccia, Laurent Charlin(参考訳) モジュール性は、関連するタスクのシーケンスをモデル化する問題である継続学習(CL)の魅力的なソリューションである。 異なるタスクを解くためのモジュールの学習と構成は、破滅的な忘れ込み、タスク間の後方および前方移動、サブ線形モデルの成長など、CLの主要な課題に対処するための抽象化を提供する。 我々は,各モジュールが入力に対するモジュールの関連性を推定する局所構造コンポーネントを提供するモジュール化clへのアプローチであるlocal module composition (lmc)を導入する。 動的モジュール構成は、局所的関連性スコアに基づいて階層的に行われる。 タスクid(task identity, ids)に対する不可知性は,従来の作業と異なりモジュール固有である(ローカルな)構造学習から生じていることを実証し,lmcを以前の作業よりもcl設定に適応させる。 さらに、LCCは入力分布に関する統計も追跡し、外れ値サンプルが検出されたときに新しいモジュールを追加する。 最初の実験では、lmcはタスクのアイデンティティを必要とせず、最近の連続的トランスファーラーニングベンチマークの既存の手法と比較した。 別の研究では、構造学習の局所性により、LCCは関連するが目に見えないタスク(OOD)に補間できるだけでなく、異なるタスクシーケンスで独立に訓練されたモジュールネットワークを微調整なしで第3のモジュールネットワークに構成できることを示した。 最後に, LMC の限界探索において, 30 タスクと 100 タスクのより困難なシーケンスについて検討し, 多数の候補モジュールが存在する場合, 局所的なモジュール選択がより困難になることを示す。 この設定で最高のパフォーマンスのlmcは、oracleベースのベースラインよりもはるかに少ないモジュールを生み出すが、全体的な精度は低い。 コードベースはhttps://github.com/oleksost/LMCで公開されている。

Modularity is a compelling solution to continual learning (CL), the problem of modeling sequences of related tasks. Learning and then composing modules to solve different tasks provides an abstraction to address the principal challenges of CL including catastrophic forgetting, backward and forward transfer across tasks, and sub-linear model growth. We introduce local module composition (LMC), an approach to modular CL where each module is provided a local structural component that estimates a module's relevance to the input. Dynamic module composition is performed layer-wise based on local relevance scores. We demonstrate that agnosticity to task identities (IDs) arises from (local) structural learning that is module-specific as opposed to the task- and/or model-specific as in previous works, making LMC applicable to more CL settings compared to previous works. In addition, LMC also tracks statistics about the input distribution and adds new modules when outlier samples are detected. In the first set of experiments, LMC performs favorably compared to existing methods on the recent Continual Transfer-learning Benchmark without requiring task identities. In another study, we show that the locality of structural learning allows LMC to interpolate to related but unseen tasks (OOD), as well as to compose modular networks trained independently on different task sequences into a third modular network without any fine-tuning. Finally, in search for limitations of LMC we study it on more challenging sequences of 30 and 100 tasks, demonstrating that local module selection becomes much more challenging in presence of a large number of candidate modules. In this setting best performing LMC spawns much fewer modules compared to an oracle based baseline, however, it reaches a lower overall accuracy. The codebase is available under https://github.com/oleksost/LMC.
翻訳日:2021-11-16 14:05:51 公開日:2021-11-15
# エンド・ツー・エンド剛性タンパク質ドッキングの独立se(3)同変モデル

Independent SE(3)-Equivariant Models for End-to-End Rigid Protein Docking ( http://arxiv.org/abs/2111.07786v1 )

ライセンス: Link先を確認
Octavian-Eugen Ganea, Xinyuan Huang, Charlotte Bunne, Yatao Bian, Regina Barzilay, Tommi Jaakkola, Andreas Krause(参考訳) タンパク質複合体の形成は生物学の中心的な問題であり、細胞の過程の大部分に関与し、薬物設計やタンパク質工学などの応用に必須である。 我々は剛体タンパク質ドッキング、すなわちタンパク質-タンパク質複合体の3次元構造を個々の非有界構造から計算的に予測し、結合中にタンパク質のコンフォメーション変化が起こらないと仮定する。 本研究では, タンパク質の回転と翻訳を予測し, タンパク質の一方を第2のタンパク質に対してドッキングした位置に配置するために, ペアワイズ非独立なSE(3)-等変グラフマッチングネットワークを設計する。 予測された複素数は、2つの構造の初期位置や配向に関係なく常に同一である。 我々のモデルはequidockと呼ばれ,結合ポケットを近似し,最適な移動と微分可能なkabschアルゴリズムによって達成されたキーポイントマッチングとアライメントを用いてドッキングポーズを予測する。 経験上、私たちは実行時間を大幅に改善し、ヘビーなサンプリングや構造の改良、テンプレートに依存することなく、既存のドッキングソフトウェアを上回っています。

Protein complex formation is a central problem in biology, being involved in most of the cell's processes, and essential for applications, e.g. drug design or protein engineering. We tackle rigid body protein-protein docking, i.e., computationally predicting the 3D structure of a protein-protein complex from the individual unbound structures, assuming no conformational change within the proteins happens during binding. We design a novel pairwise-independent SE(3)-equivariant graph matching network to predict the rotation and translation to place one of the proteins at the right docked position relative to the second protein. We mathematically guarantee a basic principle: the predicted complex is always identical regardless of the initial locations and orientations of the two structures. Our model, named EquiDock, approximates the binding pockets and predicts the docking poses using keypoint matching and alignment, achieved through optimal transport and a differentiable Kabsch algorithm. Empirically, we achieve significant running time improvements and often outperform existing docking software despite not relying on heavy candidate sampling, structure refinement, or templates.
翻訳日:2021-11-16 14:05:20 公開日:2021-11-15
# (参考訳) オブジェクト分類を訓練したリカレントニューラルネットワークにおけるカテゴリ・orthogonal object features guide information processing

Category-orthogonal object features guide information processing in recurrent neural networks trained for object categorization ( http://arxiv.org/abs/2111.07898v1 )

ライセンス: CC BY 4.0
Sushrut Thorat, Giacomo Aldegheri, Tim C. Kietzmann(参考訳) リカレントニューラルネットワーク(recurrent neural network、rnn)は、視覚オブジェクトの分類タスクにおいてフィードフォワードアーキテクチャよりも優れたパフォーマンスを示すことが示されている。 しかし、これらの条件における再帰的情報フローの正確な計算的役割についてはほとんど知られていない。 ここでは,反復を繰り返して対象の分類を補助変数(対象の位置,向き,スケール)の通信を通じて支援する仮説について,対象の分類を訓練したrnnをテストする。 診断に線形読み出しを用いると、次のようなことが分かる。 (a)全てのネットワーク層において、補助変数に関する情報は時間とともに増加する。 (b)この情報は、再生情報フローに実際に存在すること、及び (c)その操作はタスクパフォーマンスに大きな影響を及ぼす。 これらの観測により, カテゴリー-直交補助変数情報が繰り返し接続によって伝達されるという仮説が立証され, 散在環境におけるカテゴリ推論の最適化に利用されている。

Recurrent neural networks (RNNs) have been shown to perform better than feedforward architectures in visual object categorization tasks, especially in challenging conditions such as cluttered images. However, little is known about the exact computational role of recurrent information flow in these conditions. Here we test RNNs trained for object categorization on the hypothesis that recurrence iteratively aids object categorization via the communication of category-orthogonal auxiliary variables (the location, orientation, and scale of the object). Using diagnostic linear readouts, we find that: (a) information about auxiliary variables increases across time in all network layers, (b) this information is indeed present in the recurrent information flow, and (c) its manipulation significantly affects task performance. These observations confirm the hypothesis that category-orthogonal auxiliary variable information is conveyed through recurrent connectivity and is used to optimize category inference in cluttered environments.
翻訳日:2021-11-16 14:03:18 公開日:2021-11-15
# 臨床意思決定を支援するランタリー生産

Rationale production to support clinical decision-making ( http://arxiv.org/abs/2111.07611v1 )

ライセンス: Link先を確認
Niall Taylor, Lei Sha, Dan W Joyce, Thomas Lukasiewicz, Alejo Nevado-Holgado, Andrey Kormilitzin(参考訳) 臨床人工知能(AI)のためのニューラルネットワークの開発は、解釈可能性、透明性、パフォーマンスに依存している。 ブラックボックスニューラルネットワークを探索し、モデル出力の解釈可能な説明を導出する必要がある。 臨床的に重要な課題は、患者が近い将来入院し、効率的なトリアージを可能にする可能性を予測することである。 電子健康記録(EHR)の普及に伴い、自然言語処理(NLP)をEHRに含まれる臨床自由テキストに適用することに大きな関心が寄せられている。 本研究は,院内退院ノートを用いた院内退院予測のタスクに,その予測の抽出的根拠を生み出す現在の最先端モデルであるinfocalを適用する。 本稿では,InfoCal が生成する抽出合理性を,臨床テキストデータに基づいて事前学習した競合トランスフォーマーベースモデルと比較する。 臨床言語領域の専門知識と、パフォーマンスおよびその後の解釈性に重要な事前訓練を伴って、選択した解釈可能性または特徴重要度を持つモデルが、様々な結果をもたらすことがわかった。

The development of neural networks for clinical artificial intelligence (AI) is reliant on interpretability, transparency, and performance. The need to delve into the black-box neural network and derive interpretable explanations of model output is paramount. A task of high clinical importance is predicting the likelihood of a patient being readmitted to hospital in the near future to enable efficient triage. With the increasing adoption of electronic health records (EHRs), there is great interest in applications of natural language processing (NLP) to clinical free-text contained within EHRs. In this work, we apply InfoCal, the current state-of-the-art model that produces extractive rationales for its predictions, to the task of predicting hospital readmission using hospital discharge notes. We compare extractive rationales produced by InfoCal to competitive transformer-based models pretrained on clinical text data and for which the attention mechanism can be used for interpretation. We find each presented model with selected interpretability or feature importance methods yield varying results, with clinical language domain expertise and pretraining critical to performance and subsequent interpretability.
翻訳日:2021-11-16 13:51:44 公開日:2021-11-15
# 質問の類似性を計算するには:KBQAタスクの新しい方法

Calculating Question Similarity is Enough:A New Method for KBQA Tasks ( http://arxiv.org/abs/2111.07658v1 )

ライセンス: Link先を確認
Hanyu Zhao, Sha Yuan, Jiahong Leng, Xiang Pan and Guoqiang Wang(参考訳) Knowledge Base Question Answering (KBQA) は、自然言語の質問に外部知識ベースの助けを借りて答えることを目的としている。 中心となる考え方は、質問の背後にある内部知識と知識基盤の既知の3倍の関係を見つけることである。 KBQAタスクパイプラインには、エンティティ認識、関係抽出、エンティティリンクなど、いくつかのステップが含まれている。 このようなパイプライン方式は、任意の手順におけるエラーが必然的に最終予測に伝播することを意味する。 そこで本研究では,事前学習言語モデル (PLM) と知識グラフ (KG) を用いたコーパス生成-検索手法 (CGRM) を提案する。 まず,mT5モデルに基づいて,知識マスキング言語モデリングと質問生成という2つの新しい事前学習タスクを設計し,知識強化T5(kT5)モデルを得た。 第二に、知識グラフを一連のヒューリスティックな規則で前処理した後、kT5モデルは処理された三重項に基づいて自然言語QAペアを生成する。 最後に、合成データセットを検索することで、QAを直接解決する。 NLPCC-ICCPOL 2016 KBQAデータセット上で本手法を検証した結果,KBQAの性能は向上し,アウトストレートフォワード法は最先端技術と競合することがわかった。

Knowledge Base Question Answering (KBQA) aims to answer natural language questions with the help of an external knowledge base. The core idea is to find the link between the internal knowledge behind questions and known triples of the knowledge base. The KBQA task pipeline contains several steps, including entity recognition, relationship extraction, and entity linking. This kind of pipeline method means that errors in any procedure will inevitably propagate to the final prediction. In order to solve the above problem, this paper proposes a Corpus Generation - Retrieve Method (CGRM) with Pre-training Language Model (PLM) and Knowledge Graph (KG). Firstly, based on the mT5 model, we designed two new pre-training tasks: knowledge masked language modeling and question generation based on the paragraph to obtain the knowledge enhanced T5 (kT5) model. Secondly, after preprocessing triples of knowledge graph with a series of heuristic rules, the kT5 model generates natural language QA pairs based on processed triples. Finally, we directly solve the QA by retrieving the synthetic dataset. We test our method on NLPCC-ICCPOL 2016 KBQA dataset, and the results show that our framework improves the performance of KBQA and the out straight-forward method is competitive with the state-of-the-art.
翻訳日:2021-11-16 13:51:23 公開日:2021-11-15
# クリーンラベルを用いたNLPタスクのトリガーレスバックドアアタック

Triggerless Backdoor Attack for NLP Tasks with Clean Labels ( http://arxiv.org/abs/2111.07970v1 )

ライセンス: Link先を確認
Leilei Gan, Jiwei Li, Tianwei Zhang, Xiaoya Li, Yuxian Meng, Fei Wu, Shangwei Guo, Chun Fan(参考訳) バックドア攻撃はNLPモデルに新たな脅威をもたらす。 バックドア攻撃で有毒データを構築する標準的な戦略は、選択された文にトリガー(例:レアワード)を挿入し、元のラベルをターゲットラベルに変更することである。 この戦略は、トリガーとラベルの両方から容易に検出できる重大な欠陥を伴い、通常稀な単語であるトリガーインジェクションは、異常な自然言語表現をもたらすため、防衛モデルにより容易に検出でき、変更対象ラベルは、誤ってラベル付けされ、手動検査により容易に検出できる。 この問題に対処するため,本稿では,外部トリガを必要としないテキストバックドア攻撃を行うための新しい戦略を提案する。 提案された戦略の核となる考え方は、ラベルが正しいが、トレーニングセットと融合した場合にラベルの変更をテストできるクリーンラベルの例を構築することである。 そこで本研究では, 遺伝アルゴリズムに基づく文生成モデルを提案し, テキストデータの識別不能な特性に適応する。 大規模な実験では、提案された攻撃戦略は効果があるだけでなく、トリガーレスでクリーンなラベルが付けられた性質のために防御が難しいことが示されている。 我々の研究は、NLPでトリガーレス攻撃戦略を開発するための第一歩です。

Backdoor attacks pose a new threat to NLP models. A standard strategy to construct poisoned data in backdoor attacks is to insert triggers (e.g., rare words) into selected sentences and alter the original label to a target label. This strategy comes with a severe flaw of being easily detected from both the trigger and the label perspectives: the trigger injected, which is usually a rare word, leads to an abnormal natural language expression, and thus can be easily detected by a defense model; the changed target label leads the example to be mistakenly labeled and thus can be easily detected by manual inspections. To deal with this issue, in this paper, we propose a new strategy to perform textual backdoor attacks which do not require an external trigger, and the poisoned samples are correctly labeled. The core idea of the proposed strategy is to construct clean-labeled examples, whose labels are correct but can lead to test label changes when fused with the training set. To generate poisoned clean-labeled examples, we propose a sentence generation model based on the genetic algorithm to cater to the non-differentiable characteristic of text data. Extensive experiments demonstrate that the proposed attacking strategy is not only effective, but more importantly, hard to defend due to its triggerless and clean-labeled nature. Our work marks the first step towards developing triggerless attacking strategies in NLP.
翻訳日:2021-11-16 13:51:00 公開日:2021-11-15
# (参考訳) cramer-wold generatorを用いた連続学習のための目標層正規化

Target Layer Regularization for Continual Learning Using Cramer-Wold Generator ( http://arxiv.org/abs/2111.07928v1 )

ライセンス: CC BY 4.0
Marcin Mazur, {\L}ukasz Pustelnik, Szymon Knop, Patryk Pagacz, Przemys{\l}aw Spurek(参考訳) 本稿では,連続学習問題を解決するための効果的な正規化戦略(cw-talar)を提案する。 全タスクで共有されるニューラルネットワークのターゲット層上で定義される2つの確率分布と、出力データ表現をモデル化するcracker-woldジェネレータの単純なアーキテクチャとの間に、cracker-wold距離で表現されるペナライズ項を用いる。 我々の戦略は、新しいタスクを学習しながらターゲット層分布を保存するが、以前のタスクのデータセットを覚える必要はない。 我々は,CW-TaLaR法の競争性を実証する,いくつかの共通教師付きフレームワークを用いた実験を行った。

We propose an effective regularization strategy (CW-TaLaR) for solving continual learning problems. It uses a penalizing term expressed by the Cramer-Wold distance between two probability distributions defined on a target layer of an underlying neural network that is shared by all tasks, and the simple architecture of the Cramer-Wold generator for modeling output data representation. Our strategy preserves target layer distribution while learning a new task but does not require remembering previous tasks' datasets. We perform experiments involving several common supervised frameworks, which prove the competitiveness of the CW-TaLaR method in comparison to a few existing state-of-the-art continual learning models.
翻訳日:2021-11-16 13:48:48 公開日:2021-11-15
# シミュレーションにおける自己認識モデル学習のための最適戦略

Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation ( http://arxiv.org/abs/2111.07971v1 )

ライセンス: Link先を確認
David Acuna, Jonah Philion, Sanja Fidler(参考訳) 自動運転は、大量の現実世界のデータを高精度にラベル付けする。 代替ソリューションは、大量のラベル付きデータを大量のコンテンツバリエーションで生成できる運転シミュレータを活用することを目指している。 しかし、合成データと実際のデータのドメインギャップは依然として残っており、以下の重要な疑問を提起している。 本稿では、ドメイン適応理論の最近の進歩の上に構築し、この観点から現実のギャップを最小化する手法を提案する。 主に、合成ドメインのみにおけるラベルの使用に焦点を当てます。 提案手法では,ニューラル不変表現を学習するための原則的手法と,シミュレータからデータをサンプリングする方法に関する理論的にインスパイアされた視点を導入する。 本手法は,ネットワークアーキテクチャやシミュレータの選択に依存しないため,実装が容易である。 我々は,オープンソースシミュレータ(carla)を用いたマルチセンサデータ(カメラ,lidar)を用いた鳥眼視車両セグメンテーションタスクのアプローチを紹介し,フレームワーク全体を実世界データセット(nuscenes)上で評価する。 最後に、運転シミュレータで訓練した場合、知覚ネットワークにどのような種類のバリエーション(例えば、気象条件、資産数、地図設計、色多様性)が重要かを示し、どのバリエーションをドメイン適応技術で補うことができるかを示す。

Autonomous driving relies on a huge volume of real-world data to be labeled to high precision. Alternative solutions seek to exploit driving simulators that can generate large amounts of labeled data with a plethora of content variations. However, the domain gap between the synthetic and real data remains, raising the following important question: What are the best ways to utilize a self-driving simulator for perception tasks? In this work, we build on top of recent advances in domain-adaptation theory, and from this perspective, propose ways to minimize the reality gap. We primarily focus on the use of labels in the synthetic domain alone. Our approach introduces both a principled way to learn neural-invariant representations and a theoretically inspired view on how to sample the data from the simulator. Our method is easy to implement in practice as it is agnostic of the network architecture and the choice of the simulator. We showcase our approach on the bird's-eye-view vehicle segmentation task with multi-sensor data (cameras, lidar) using an open-source simulator (CARLA), and evaluate the entire framework on a real-world dataset (nuScenes). Last but not least, we show what types of variations (e.g. weather conditions, number of assets, map design, and color diversity) matter to perception networks when trained with driving simulators, and which ones can be compensated for with our domain adaptation technique.
翻訳日:2021-11-16 13:37:05 公開日:2021-11-15
# (参考訳) より多くのデータを追加することは必ずしも役に立たない: PEGASUSとの医療会話要約に関する研究

Adding more data does not always help: A study in medical conversation summarization with PEGASUS ( http://arxiv.org/abs/2111.07564v1 )

ライセンス: CC BY 4.0
Varun Nair, Namit Katariya, Xavier Amatriain, Ilya Valmianski, Anitha Kannan(参考訳) 医療会話の要約は、患者と医師の相互作用中に収集された情報の収集に不可欠である。 要約された会話は、医師間の患者のハンドオフを促進し、将来のケアの一部として使用される。 しかし要約は、ドメインの専門知識を生み出すのに時間がかかります。 PEGASUSのような現代の訓練済みのNLPモデルは、人間の要約に代わる有効な代替品として登場し、多くの要約ベンチマークで最先端のパフォーマンスに達した。 しかし、多くのダウンストリームタスクは、十分なパフォーマンスを達成するために少なくとも中程度のサイズのデータセットを必要とする。 本研究は,(1)PEGASUSを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討し,(2)低データ体制における様々な反復的ラベリング戦略の評価を行った。 モデル性能はデータセットサイズの増加とともに飽和し,様々なアクティブラーニング戦略が評価した結果,単純なデータセットサイズの増加と同等のパフォーマンスを示すことがわかった。 また, 反復的擬似ラベル法は疑似ラベル法よりもわずかに劣っている。 私たちの研究は、低データレジーム技術を分類から医学的会話要約に翻訳する成功と課題を浮き彫りにし、この分野における今後の作業のガイドに役立てます。 関連コードは \url{https://github.com/curai/curai-research/tree/main/medical-summarization-ml4h-2021}。

Medical conversation summarization is integral in capturing information gathered during interactions between patients and physicians. Summarized conversations are used to facilitate patient hand-offs between physicians, and as part of providing care in the future. Summaries, however, can be time-consuming to produce and require domain expertise. Modern pre-trained NLP models such as PEGASUS have emerged as capable alternatives to human summarization, reaching state-of-the-art performance on many summarization benchmarks. However, many downstream tasks still require at least moderately sized datasets to achieve satisfactory performance. In this work we (1) explore the effect of dataset size on transfer learning medical conversation summarization using PEGASUS and (2) evaluate various iterative labeling strategies in the low-data regime, following their success in the classification setting. We find that model performance saturates with increase in dataset size and that the various active-learning strategies evaluated all show equivalent performance consistent with simple dataset size increase. We also find that naive iterative pseudo-labeling is on-par or slightly worse than no pseudo-labeling. Our work sheds light on the successes and challenges of translating low-data regime techniques in classification to medical conversation summarization and helps guides future work in this space. Relevant code available at \url{https://github.com/curai/curai-research/tree/main/medical-summarization-ML4H-2021}.
翻訳日:2021-11-16 13:33:41 公開日:2021-11-15
# LiT: Locked-image Text Tuningによるゼロショット転送

LiT: Zero-Shot Transfer with Locked-image Text Tuning ( http://arxiv.org/abs/2111.07991v1 )

ライセンス: Link先を確認
Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, Lucas Beyer(参考訳) 本稿では,画像モデルとテキストモデルの整合を,事前学習の利点を生かしながら,コントラストトレーニングを用いた簡易なコントラストチューニング手法を提案する。 実験的な研究で、アンロックされたテキストモデルによる予め訓練された画像モデルが最もうまくいくことがわかった。 これは、新しいタスクのために、事前学習された画像モデルから良い表現を読み出すようにテキストモデルに教えるだけである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。 提案したLiTチューニングは,複数の事前トレーニング手法(教師付きおよび教師なし)と,3つの異なる画像テキストデータセットを使用したさまざまなアーキテクチャ(ResNet, Vision Transformer, MLP-Mixer)で確実に動作する。 トランスフォーマーベースのViT-g/14モデルでは、LiTで調整されたモデルは、ImageNetテストセットで84.5%のゼロショット転送精度、挑戦的な配布外ObjectNetテストセットで81.1%を達成する。

This paper presents contrastive-tuning, a simple method employing contrastive training to align image and text models while still taking advantage of their pre-training. In our empirical study we find that locked pre-trained image models with unlocked text models work best. We call this instance of contrastive-tuning "Locked-image Text tuning" (LiT-tuning), which just teaches a text model to read out good representations from a pre-trained image model for new tasks. A LiT-tuned model gains the capability of zero-shot transfer to new vision tasks, such as image classification or retrieval. The proposed LiT-tuning is widely applicable; it works reliably with multiple pre-training methods (supervised and unsupervised) and across diverse architectures (ResNet, Vision Transformers and MLP-Mixer) using three different image-text datasets. With the transformer-based pre-trained ViT-g/14 model, the LiT-tuned model achieves 84.5% zero-shot transfer accuracy on the ImageNet test set, and 81.1% on the challenging out-of-distribution ObjectNet test set.
翻訳日:2021-11-16 13:23:23 公開日:2021-11-15
# 擬似時間点過程

Counterfactual Temporal Point Processes ( http://arxiv.org/abs/2111.07603v1 )

ライセンス: Link先を確認
Kimia Noorbakhsh and Manuel Gomez Rodriguez(参考訳) 時間的ポイントプロセスに基づく機械学習モデルは、連続した時間内の離散イベントを含む幅広いアプリケーションにおける最先端技術である。 しかし、これらのモデルには、対象とする介入を知らせるために使用されているため、反現実的な疑問に答える能力がない。 この作業では、このギャップを埋めることが目標です。 この目的のために,まずガムベル・マックス構造因果モデルに基づく時間的点過程の薄化因果モデルを開発した。 このモデルは望ましい反ファクト的単調性条件を満たすが、これはシンニング過程における反ファクト的力学を特定するのに十分である。 次に,与えられた強度関数を持つ時相点過程の観測実現を仮定し,上記の薄化因果モデルと重ね合わせ定理を用いて,与えられた代替強度関数の下での時相点過程の反実実現をシミュレートするサンプリングアルゴリズムを開発した。 人工的および実疫学的データを用いたシミュレーション実験により,本アルゴリズムが提案する対実的実現は,標的介入の促進に有用な洞察を与える可能性が示唆された。

Machine learning models based on temporal point processes are the state of the art in a wide variety of applications involving discrete events in continuous time. However, these models lack the ability to answer counterfactual questions, which are increasingly relevant as these models are being used to inform targeted interventions. In this work, our goal is to fill this gap. To this end, we first develop a causal model of thinning for temporal point processes that builds upon the Gumbel-Max structural causal model. This model satisfies a desirable counterfactual monotonicity condition, which is sufficient to identify counterfactual dynamics in the process of thinning. Then, given an observed realization of a temporal point process with a given intensity function, we develop a sampling algorithm that uses the above causal model of thinning and the superposition theorem to simulate counterfactual realizations of the temporal point process under a given alternative intensity function. Simulation experiments using synthetic and real epidemiological data show that the counterfactual realizations provided by our algorithm may give valuable insights to enhance targeted interventions.
翻訳日:2021-11-16 13:21:57 公開日:2021-11-15
# Entmaxの高速化

Speeding Up Entmax ( http://arxiv.org/abs/2111.06832v2 )

ライセンス: Link先を確認
Maxat Tezekbayev, Vassilina Nikoulina, Matthias Gall\'e, Zhenisbek Assylbekov(参考訳) Softmaxは、ロジットの正規化に関して、現代のニューラルネットワークにおける言語処理のデファクトスタンダードである。 しかし、単語内の各トークンが生成ステップ毎に選択される確率がゼロではない確率分布を生成することにより、テキスト生成における様々な問題が発生する。 $\alpha$-entmax of Peters et al. (2019, arXiv: 1905.05702) はこの問題を解くが、ソフトマックスよりもかなり遅い。 本稿では,ソフトマックスを最適化し,機械翻訳タスクにおいて同等以上の性能を達成し,その頑健な特性を保った$\alpha$-entmaxの代替案を提案する。

Softmax is the de facto standard in modern neural networks for language processing when it comes to normalizing logits. However, by producing a dense probability distribution each token in the vocabulary has a nonzero chance of being selected at each generation step, leading to a variety of reported problems in text generation. $\alpha$-entmax of Peters et al. (2019, arXiv:1905.05702) solves this problem, but is considerably slower than softmax. In this paper, we propose an alternative to $\alpha$-entmax, which keeps its virtuous characteristics, but is as fast as optimized softmax and achieves on par or better performance in machine translation task.
翻訳日:2021-11-16 11:44:36 公開日:2021-11-15