このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210226となっている論文です。

PDF登録状況(公開日: 20210226)

TitleAuthorsAbstract論文公表日・翻訳日
# HartreeとHartree-FockからVlasov-Poisson方程式への強い半古典的極限

Strong semiclassical limit from Hartree and Hartree-Fock to Vlasov-Poisson equation ( http://arxiv.org/abs/2003.02926v2 )

ライセンス: Link先を確認
Laurent Lafleche, Chiara Saffirio(参考訳) ハーツリーからヴラソフ方程式への半古典的極限をクーロンと重力相互作用を含む一般特異相互作用ポテンシャルと考えて、シャッテンノルムの強い位相における明示的な境界を証明する。 さらにフェルミオンの場合、ハートリー=フォック方程式における交換項の大きさを推定し、ハートリー=フォックからシャッテンノルムのヴラソフ方程式への半古典的極限の収束率を求める。 我々の結果は、ソボレフ空間と任意の固定時間間隔における一般的な初期データを保持する。

We consider the semiclassical limit from the Hartree to the Vlasov equation with general singular interaction potential including the Coulomb and gravitational interactions, and we prove explicit bounds in the strong topologies of Schatten norms. Moreover, in the case of fermions, we provide estimates on the size of the exchange term in the Hartree-Fock equation and also obtain a rate of convergence for the semiclassical limit from the Hartree-Fock to the Vlasov equation in Schatten norms. Our results hold for general initial data in some Sobolev space and any fixed time interval.
翻訳日:2023-05-30 11:27:19 公開日:2021-02-26
# 重力量子スパイクの探索

Hunting for gravitational quantum spikes ( http://arxiv.org/abs/2003.03990v2 )

ライセンス: Link先を確認
Andrzej G\'o\'zd\'z, W{\l}odzimierz Piechocki, Grzegorz Plewa, and Tomasz Trze\'sniewski(参考訳) 量子スパイクと呼ばれる量子構造を調べた結果について述べる。 古典的スパイクは、重力系で知られているが、不均質な時空の進化において起こる。 ストレンジスパイクと呼ばれる異なる種類のスパイクは、ベリンスキー-ハラトニコフ-リフシッツの等質セクタの力学で見ることができる。 いわゆる不均質な初期データを使用すると見えるようになる。 探究すべき問題は、奇妙なスパイクが量子化に耐えられるかどうかである。 その答えは肯定的だ。 しかし、これはむしろ微妙な効果であり、高度な分析ツールや数値ツールを使ってさらなる検証が必要となる。 スパイクは、宇宙の実際の構造の種として働くため、古典レベルと量子レベルの両方において、基本的な重要性があるように見える。

We present the result of our examination of quantum structures called quantum spikes. The classical spikes, that are known in gravitational systems, occur in the evolution of the inhomogeneous spacetimes. Different kind of spikes, which we name strange spikes, can be seen in the dynamics of the homogeneous sector of the Belinski-Khalatnikov-Lifshitz scenario. They can be made visible if the so-called inhomogeneous initial data are used. The question to be explored is whether the strange spikes may survive quantization. The answer is in the affirmative. However, this is rather a subtle effect that needs further examination using sophisticated analytical and numerical tools. The spikes seem to be of fundamental importance, both at classical and quantum levels, as they may serve as seeds of real structures in the universe.
翻訳日:2023-05-30 03:14:32 公開日:2021-02-26
# 共同匿名化

Collaborative Deanonymization ( http://arxiv.org/abs/2005.03535v2 )

ライセンス: Link先を確認
Patrik Keller, Martin Florian, Rainer B\"ohme(参考訳) プライバシーを求める暗号通貨のユーザは、CoinJoinやリングトランザクションのような匿名化技術に頼っている。 このような技術を使用することで、ユーザは悪いアクターに匿名性を提供する可能性がある。 本稿では,匿名性と説明責任の緊張をピアツーピアで解消するオーバーレイプロトコルを提案する。 暗号通貨は、公に認められた犯罪の告発を可能にするためにこのアプローチを採用することができる。 このプロトコルがBitcoinのMoneroリングやCoinJoinトランザクションにどのように適用できるかを説明する。

Privacy-seeking cryptocurrency users rely on anonymization techniques like CoinJoin and ring transactions. By using such technologies benign users potentially provide anonymity to bad actors. We propose overlay protocols to resolve the tension between anonymity and accountability in a peer-to-peer manner. Cryptocurrencies can adopt this approach to enable prosecution of publicly recognized crimes. We illustrate how the protocols could apply to Monero rings and CoinJoin transactions in Bitcoin.
翻訳日:2023-05-20 22:37:25 公開日:2021-02-26
# トポロジカル秩序の操作的定義

An Operational Definition of Topological Order ( http://arxiv.org/abs/2005.06501v3 )

ライセンス: Link先を確認
Amit Jamadagni and Hendrik Weimer(参考訳) トポロジカルに秩序づけられた物質状態の摂動に対する堅牢性は、量子コンピューティングや量子力学にすぐに応用できるが、その存在は相転移の理解に挑戦している。 しかし、トポロジカル秩序を構成するものについての包括的理解はいまだに欠如している。 ここでは、トポロジカルな順序を、トポロジカルな誤り訂正を行うシステムの能力として解釈できることを示す。 この操作的アプローチは、位相次数の以前の分類の概念的基礎をもたせると同時に、オープン量子システムにおける位相次数のヒッヘルト到達不能な場合においても、その分類の成功に繋がる。 開系における位相秩序の存在と位相遷移を位相的に自明な状態に示す。 以上より,非平衡量子システムにおける位相次数の実現可能性を示し,可能な技術の適用範囲を大きく広げた。

The unrivaled robustness of topologically ordered states of matter against perturbations has immediate applications in quantum computing and quantum metrology, yet their very existence poses a challenge to our understanding of phase transitions. However, a comprehensive understanding of what actually constitutes topological order is still lacking. Here we show that one can interpret topological order as the ability of a system to perform topological error correction. We find that this operational approach corresponding to a measurable both lays the conceptual foundations for previous classifications of topological order and also leads to a successful classification in the hitherto inaccessible case of topological order in open quantum systems. We demonstrate the existence of topological order in open systems and their phase transitions to topologically trivial states. Our results demonstrate the viability of topological order in nonequilibrium quantum systems and thus substantially broaden the scope of possible technological applications.
翻訳日:2023-05-20 07:42:36 公開日:2021-02-26
# 最大独立集合近似のための量子アルゴリズム

Quantum Algorithm for Approximating Maximum Independent Sets ( http://arxiv.org/abs/2005.13089v2 )

ライセンス: Link先を確認
Hongye Yu, Frank Wilczek, Biao Wu(参考訳) 本稿では,2次ハミルトニアンの量子アニーリングを生成する縮退基底状態のサブヒルベルト空間における非可換な量子混合に基づくグラフの最大独立集合を近似する量子アルゴリズムを提案する。 疎グラフと密グラフの両方に対して、平均的な量子アルゴリズムは、与えられたグラフ$g$の最大独立集合の大きさである$\alpha(g)$に近い大きさの独立集合を見つけることができる。 数値的な結果から、$O(n^2)$時間複雑性量子アルゴリズムは、1-\epsilon)\alpha(G)$の独立したサイズの集合を見つけるのに十分である。 最高の古典近似アルゴリズムは多項式時間で$\alpha(G)$の約半分の大きさの独立な集合を生成できる。

We present a quantum algorithm for approximating maximum independent sets of a graph based on quantum non-Abelian adiabatic mixing in the sub-Hilbert space of degenerate ground states, which generates quantum annealing in a secondary Hamiltonian. For both sparse and dense graphs, our quantum algorithm on average can find an independent set of size very close to $\alpha(G)$, which is the size of the maximum independent set of a given graph $G$. Numerical results indicate that an $O(n^2)$ time complexity quantum algorithm is sufficient for finding an independent set of size $(1-\epsilon)\alpha(G)$. The best classical approximation algorithm can produce in polynomial time an independent set of size about half of $\alpha(G)$.
翻訳日:2023-05-18 07:14:31 公開日:2021-02-26
# 準対称性群と多体スカーダイナミクス

Quasi-symmetry groups and many-body scar dynamics ( http://arxiv.org/abs/2007.10380v3 )

ライセンス: Link先を確認
Jie Ren, Chenguang Liang, Chen Fang(参考訳) 量子系において、ハミルトニアンの退化固有ベクトルによって広がる部分空間は、ハミルトニアン自身よりも高い対称性を持つ。 この拡張対称性群が局所作用素から生成できるとき、これを準対称性群と呼ぶ。 群がリー群であるとき、準対称性群のある生成元に結合された外部場は退化を持ち上げ、退化部分空間内のちょうど周期的なダイナミクス、すなわち多体スカル力学(ハミルトニアンが非可積分である)をもたらす。 所望の準対称群を持つ一次元スピンモデルを構築するための2つの関連するスキームを、プレコセン積や行列-積状態の正確な周期的進化によって構成する。

In quantum systems, a subspace spanned by degenerate eigenvectors of the Hamiltonian may have higher symmetries than those of the Hamiltonian itself. When this enhanced-symmetry group can be generated from local operators, we call it a quasi-symmetry group. When the group is a Lie group, an external field coupled to certain generators of the quasi-symmetry group lifts the degeneracy, and results in exactly periodic dynamics within the degenerate subspace, namely the many-body-scar dynamics (given that Hamiltonian is non-integrable). We provide two related schemes for constructing one-dimensional spin models having on-demand quasi-symmetry groups, with exact periodic evolution of a pre-chosen product or matrix-product state under certain external fields.
翻訳日:2023-05-08 23:09:23 公開日:2021-02-26
# 合成スピン軌道場におけるスピンデコヒーレンスと制御に対する$\mathcal{t}$-symmetryの影響

Impact of $\mathcal{T}$-symmetry on spin decoherence and control in a synthetic spin-orbit field ( http://arxiv.org/abs/2008.04671v2 )

ライセンス: Link先を確認
Peihao Huang and Xuedong Hu(参考訳) 量子ドット内のスピン量子ビットの電気的制御は、基礎となる結晶格子やヘテロ構造に固有のスピン軌道結合(SOC)や、例えばマイクロマグネットを経由した外在性に依存する。 ここでは、固有SOCとマイクロマグネットによって導入された合成SOCの主な違いが、時間反転下での対称性であることを示す。 具体的には、内在的 SOC の時間反転対称性 ("\mathcal{T}$-対称性) は、スピン緩和で知られている伝統的なファン・ヴレックのキャンセルだけでなく、SOC の最低次へのスピンデファス(英語版)を消滅させる。 一方、マイクロマグネットからの合成socは、$\mathcal{t}$-対称性を破るので、"van vleck cancel" と "longitudinal spin-orbit field cancel" の両方を取り除く。 言い換えれば、スピン量子ビットによって経験される実効体 $\vec\Omega$ は、もはや量子化磁場に依存しず、SOC の第1次オーダーに対して$\vec\Omega$ の長手成分が許される。 その結果, スピン緩和や脱落は, 内在性SOCと比較して質的に変化した。 さらに、$\vec\Omega$に基づく電気双極子スピン共鳴の忠実さを最適化することができ、スピンベースの量子コンピューティングにも応用できる。

The electrical control of a spin qubit in a quantum dot relies on spin-orbit coupling (SOC), which could be either intrinsic to the underlying crystal lattice or heterostructure, or extrinsic via, for example, a micro-magnet. Here we show that a key difference between the intrinsic SOC and the synthetic SOC introduced by a micro-magnet is their symmetry under time reversal. Specifically, the time-reversal symmetry ($\mathcal{T}$-symmetry) of the intrinsic SOC leads to not only the traditional van Vleck cancellation known for spin relaxation, but also vanishing spin dephasing to the lowest order of SOC, which we term as "longitudinal spin-orbit field cancellation". On the other hand, the synthetic SOC from a micro-magnet breaks the $\mathcal{T}$-symmetry, therefore eliminates both the "van Vleck cancellation" and the "longitudinal spin-orbit field cancellation". In other words, the effective field $\vec\Omega$ experienced by the spin qubit does not depend on the quantization magnetic field anymore, and a longitudinal component is allowed for $\vec\Omega$ to the first order of SOC. Consequently, spin relaxation and dephasing are qualitatively modified compared with the case of the intrinsic SOC. Furthermore, the fidelity of electric-dipole spin resonance based on $\vec\Omega$ could be optimized, with potential applications in spin-based quantum computing.
翻訳日:2023-05-06 14:00:10 公開日:2021-02-26
# ウィグナーバブルからの眺め

The view from a Wigner bubble ( http://arxiv.org/abs/2008.05100v2 )

ライセンス: Link先を確認
Eric G. Cavalcanti(参考訳) 最近のno-go定理 [bong et al, nature physics (2020)] において、拡張ウィグナーの友人シナリオに対するユニタリ量子力学の予測は、観測された事象の絶対性、局所性、非超決定性(no-super determinism)の3つの準物理学的仮定を満たす任意の理論と相容れないことを証明した。 この論文(2019 vaxjo conference の qbism jubilee 氏の講演を参考に)では、実験的メタフィジカルの観点から見た、qbism に対するこの定理の意義について論じる。 私はQB主義と量子力学の現実主義解釈の主な区別は、異なる真理理論(プラグマティスト対対応理論)への固執の観点から最もよく理解されていると論じる。 プラグマティズムの観点で測定問題を解決するための生産的な経路は、私が"Wigner bubble"と呼ぶものでさえも、量子賭けエージェントの視点を真剣に考えることであると私は論じます。 私が提案するQBismによる現実の概念は、すべての有理エージェントに実用的価値を持つ理論の不変要素、すなわちエージェントの視点の変化に不変な要素に対応する。 古典的な「イベント」の概念は、あるエージェントによって観測されたとしても、そのような不変量には含まれない。 どちらも量子状態ではない。 それでも私は、ソリプシズムとはかけ離れた、量子状態のパーソナリスト的な見方は、その正反対であるコペルニクス主義の表現であると主張する。

In a recent no-go theorem [Bong et al, Nature Physics (2020)], we proved that the predictions of unitary quantum mechanics for an extended Wigner's friend scenario are incompatible with any theory satisfying three metaphysical assumptions, the conjunction of which we call "Local Friendliness": Absoluteness of Observed Events, Locality and No-Superdeterminism. In this paper (based on an invited talk for the QBism jubilee at the 2019 Vaxjo conference) I discuss the implications of this theorem for QBism, as seen from the perspective of experimental metaphysics. I argue that the key distinction between QBism and realist interpretations of quantum mechanics is best understood in terms of their adherence to different theories of truth: the pragmatist versus the correspondence theories. I argue that a productive pathway to resolve the measurement problem within a pragmatist view involves taking seriously the perspective of quantum betting agents, even those in what I call a "Wigner bubble". The notion of reality afforded by QBism, I propose, will correspond to the invariant elements of any theory that has pragmatic value to all rational agents -- that is, the elements that are invariant upon changes of agent perspectives. The classical notion of `event' is not among those invariants, even when those events are observed by some agent. Neither are quantum states. Nevertheless, I argue that far from solipsism, a personalist view of quantum states is an expression of its precise opposite: Copernicanism.
翻訳日:2023-05-06 11:53:58 公開日:2021-02-26
# 量子ハードウェア上の勾配および高次導関数の推定

Estimating the gradient and higher-order derivatives on quantum hardware ( http://arxiv.org/abs/2008.06517v2 )

ライセンス: Link先を確認
Andrea Mari, Thomas R. Bromley, Nathan Killoran(参考訳) 変分量子回路の広いクラスに対して,パラメータの異なるシフトで同じ回路を動作させることで,単純なパラメータシフト規則を用いて任意の次導関数を解析的に評価する方法を示す。 特に、期待値のヘッシアンと変分状態の計量テンソルのパラメータシフト規則を、量子コンピュータ上で二階最適化アルゴリズムを解析的に実装するために効率的に使用できる。 また,異なる微分推定器の平均二乗誤差を調べることにより,統計ノイズの影響を考察する。 この研究の第2部では、量子導関数を評価する理論的手法のいくつかが、典型的なユースケースである量子オプティマイザの実装に適用されている。 異なる推定器と最適化器の性能は、ステップサイズや複数のショットなど、異なるハイパーパラメータの値と連動していることがわかった。 本研究は,単純な変分回路のヘッシアンの実験的推定とニュートンオプティマイザの実装を含む,いくつかの数値およびハードウェア実験によって裏付けられている。

For a large class of variational quantum circuits, we show how arbitrary-order derivatives can be analytically evaluated in terms of simple parameter-shift rules, i.e., by running the same circuit with different shifts of the parameters. As particular cases, we obtain parameter-shift rules for the Hessian of an expectation value and for the metric tensor of a variational state, both of which can be efficiently used to analytically implement second-order optimization algorithms on a quantum computer. We also consider the impact of statistical noise by studying the mean squared error of different derivative estimators. In the second part of this work, some of the theoretical techniques for evaluating quantum derivatives are applied to their typical use case: the implementation of quantum optimizers. We find that the performance of different estimators and optimizers is intertwined with the values of different hyperparameters, such as a step size or a number of shots. Our findings are supported by several numerical and hardware experiments, including an experimental estimation of the Hessian of a simple variational circuit and an implementation of the Newton optimizer.
翻訳日:2023-05-06 06:50:56 公開日:2021-02-26
# 超伝導量子ビットを用いた暗黒物質の探索

Searching for Dark Matter with a Superconducting Qubit ( http://arxiv.org/abs/2008.12231v3 )

ライセンス: Link先を確認
Akash V. Dixit, Srivatsan Chakram, Kevin He, Ankur Agrawal, Ravi K. Naik, David I. Schuster, and Aaron Chou(参考訳) axionやhidden photonのような低質量ボソニック暗黒物質候補の検出機構は、電磁場との潜在的な相互作用を利用して、稀にダークマター(未知質量)が1つの光子に変換される。 マイクロ波周波数で動作する現在のダークマターサーチでは、共鳴キャビティを用いてダークマターによって引き起こされる磁場をコヒーレントに蓄積し、ほぼ標準量子制限(SQL)線形増幅器でキャビティ信号を読み取る。 ダークマター信号に対する感度をさらに高めるためには、サブsql検出技術が必要である。 本稿では,新しいマイクロ波光子計数法と隠れ光子暗黒物質に対する新たな排除限界について述べる。 超伝導量子ビットを運用し、キャビティ光子の繰り返し量子非退化測定を行い、ノイズを量子限界より15.7db低くするために隠れマルコフモデル解析を適用し、全体的な検出器性能は実光子の残差によって制限される。 本装置では,隠れた光子探索を行い,8.33秒の積分時間を持つ約6.011ghz (24.86$\mu$ev)のバンドにおいて,運動混合角を$\epsilon \leq 1.68 \times 10^{-15}$に制限する。 このノイズ低減技術により、将来の暗黒物質探索を1300倍に高速化することができる。 量子ビットを任意の量子センサに結合することにより、この研究で提示された技術によりより一般的なSQLサブSQLメトロジーが可能になる。

Detection mechanisms for low mass bosonic dark matter candidates, such the axion or hidden photon, leverage potential interactions with electromagnetic fields, whereby the dark matter (of unknown mass) on rare occasion converts into a single photon. Current dark matter searches operating at microwave frequencies use a resonant cavity to coherently accumulate the field sourced by the dark matter and a near standard quantum limited (SQL) linear amplifier to read out the cavity signal. To further increase sensitivity to the dark matter signal, sub-SQL detection techniques are required. Here we report the development of a novel microwave photon counting technique and a new exclusion limit on hidden photon dark matter. We operate a superconducting qubit to make repeated quantum non-demolition measurements of cavity photons and apply a hidden Markov model analysis to reduce the noise to 15.7 dB below the quantum limit, with overall detector performance limited by a residual background of real photons. With the present device, we perform a hidden photon search and constrain the kinetic mixing angle to $\epsilon \leq 1.68 \times 10^{-15}$ in a band around 6.011 GHz (24.86 $\mu$eV) with an integration time of 8.33 s. This demonstrated noise reduction technique enables future dark matter searches to be sped up by a factor of 1300. By coupling a qubit to an arbitrary quantum sensor, more general sub-SQL metrology is possible with the techniques presented in this work.
翻訳日:2023-05-04 19:39:45 公開日:2021-02-26
# 部分空間における量子測定の不整合

Quantum measurement incompatibility in subspaces ( http://arxiv.org/abs/2010.04048v2 )

ライセンス: Link先を確認
Roope Uola, Tristan Kraft, S\'ebastien Designolle, Nikolai Miklin, Armin Tavakoli, Juha-Pekka Pellonp\"a\"a, Otfried G\"uhne, and Nicolas Brunner(参考訳) 我々は,高次元量子計測集合の非互換性を特徴付ける問題を考える。 本稿では,部分空間における測定不整合性の概念を紹介する。 すなわち、不互換な測定の集合から始めて、固定次元の任意の厳密な部分空間への射影によって得られる測定の集合を考える。 部分空間における不整合の可能な3つの形式を識別する。 (i)非圧縮性不和合性:すべての部分空間で互換となる測定 (ii)完全圧縮性非可逆性:各部分空間において相容れない測定値、及び (iii)部分圧縮性非互換性:ある部分空間で互換性があり、他の部分では非互換である測定。 各クラスについて明示的な例を議論する。 最後に,これらの概念の応用について述べる。 まず、結合可測性と共存性は、最も単純なキュービット系の場合において相容れない2つの概念であることを示す。 次に,量子ステアリングテストにおける結果の意義について述べる。

We consider the question of characterising the incompatibility of sets of high-dimensional quantum measurements. We introduce the concept of measurement incompatibility in subspaces. That is, starting from a set of measurements that is incompatible, one considers the set of measurements obtained by projection onto any strict subspace of fixed dimension. We identify three possible forms of incompatibility in subspaces: (i) incompressible incompatibility: measurements that become compatible in every subspace, (ii) fully compressible incompatibility: measurements that remain incompatible in every subspace, and (iii) partly compressible incompatibility: measurements that are compatible in some subspace and incompatible in another. For each class we discuss explicit examples. Finally, we present some applications of these ideas. First we show that joint measurability and coexistence are two inequivalent notions of incompatibility in the simplest case of qubit systems. Second we highlight the implications of our results for tests of quantum steering.
翻訳日:2023-04-29 15:35:37 公開日:2021-02-26
# Si/SiGe量子ドットにおけるバレー軌道状態の偏向軸パルス分光

Detuning Axis Pulsed Spectroscopy of Valley-Orbital States in Si/SiGe Quantum Dots ( http://arxiv.org/abs/2010.04818v2 )

ライセンス: Link先を確認
Edward H. Chen, Kate Raach, Andrew Pan, Andrey A. Kiselev, Edwin Acuna, Jacob Z. Blumoff, Teresa Brecht, Maxwell Choi, Wonill Ha, Daniel Hulbert, Michael P. Jura, Tyler Keating, Ramsey Noah, Bo Sun, Bryan J. Thomas, Matthew Borselli, C.A.C. Jackson, Matthew T. Rakher, Richard S. Ross(参考訳) シリコン量子ドット量子ビットは、量子井戸のヘテロ構造と無秩序の敏感な関数である低次バレー励起状態と競合する必要があり、これらの状態のエネルギーを定量化し最大化することがデバイス性能を改善する上で重要である。 標準ベースバンドパルス法を用いて、孤立si/sige二重量子ドットの励起状態を検出する分光学的手法を提案し、マルチドットデバイスにおけるエネルギースペクトルの抽出を容易にする。 この方法を用いて、複数のウェハ、量子ドット、軌道状態にまたがる数十の谷励起状態エネルギーを測定し、量子井戸幅や他のエピタキシャル条件に対する谷分割の依存性を評価する。 以上の結果から,谷の裂け目の改善には井戸の狭さが有効であることが示唆されたが,この効果は生育条件や造成条件の変動によって両立できる。 これらの結果は,Si量子ビットの開発を導くために谷分割測定の重要性を浮き彫りにした。

Silicon quantum dot qubits must contend with low-lying valley excited states which are sensitive functions of the quantum well heterostructure and disorder; quantifying and maximizing the energies of these states are critical to improving device performance. We describe a spectroscopic method for probing excited states in isolated Si/SiGe double quantum dots using standard baseband pulsing techniques, easing the extraction of energy spectra in multiple-dot devices. We use this method to measure dozens of valley excited state energies spanning multiple wafers, quantum dots, and orbital states, crucial for evaluating the dependence of valley splitting on quantum well width and other epitaxial conditions. Our results suggest that narrower wells can be beneficial for improving valley splittings, but this effect can be confounded by variations in growth and fabrication conditions. These results underscore the importance of valley splitting measurements for guiding the development of Si qubits.
翻訳日:2023-04-29 13:10:47 公開日:2021-02-26
# robust in practice: 量子機械学習に対する敵対的攻撃

Robust in Practice: Adversarial Attacks on Quantum Machine Learning ( http://arxiv.org/abs/2010.08544v2 )

ライセンス: Link先を確認
Haoran Liao, Ian Convy, William J. Huggins, and K. Birgitta Whaley(参考訳) 最先端の古典的ニューラルネットワークは、小さな敵対的摂動に対して脆弱である。 量子機械学習(QML)モデルでは、より深刻な脆弱性が指摘されている。 これは、計量空間が確率的にサンプリングされるときの特性である測度現象の集中に由来し、分類プロトコルとは独立である。 実世界の分類タスクにおける量子分類器の逆ロバスト性に関する知見を提供するため、ガウス的潜在空間からスムーズに生成される符号化状態のサブセットを分類する逆ロバスト性に着目した。 このタスクの脆弱性は、Haar-random純状態の分類よりもかなり弱いことを示す。 特に,haar-random pure状態の分類において指数関数的にロバスト性が減少するのに対し,量子ビット数のロバスト性は軽度に多項式的に減少し,qmlモデルが実世界の分類タスクに有用であることが示唆された。

State-of-the-art classical neural networks are observed to be vulnerable to small crafted adversarial perturbations. A more severe vulnerability has been noted for quantum machine learning (QML) models classifying Haar-random pure states. This stems from the concentration of measure phenomenon, a property of the metric space when sampled probabilistically, and is independent of the classification protocol. In order to provide insights into the adversarial robustness of a quantum classifier on real-world classification tasks, we focus on the adversarial robustness in classifying a subset of encoded states that are smoothly generated from a Gaussian latent space. We show that the vulnerability of this task is considerably weaker than that of classifying Haar-random pure states. In particular, we find only mildly polynomially decreasing robustness in the number of qubits, in contrast to the exponentially decreasing robustness when classifying Haar-random pure states and suggesting that QML models can be useful for real-world classification tasks.
翻訳日:2023-04-28 22:03:43 公開日:2021-02-26
# 学習支援最適制御によるスピンスクイーズの生成と保存

Generation and storage of spin squeezing via learning-assisted optimal control ( http://arxiv.org/abs/2010.13444v3 )

ライセンス: Link先を確認
Qing-Shou Tan, Mao Zhang, Yu Chen, Jie-Qiao Liao, and Jing Liu(参考訳) スピンスクイージングの生成と保存は、量子論と量子力学の基礎において魅力的な話題である。 スピンスクイーズを実現する主要なモデルは、1軸と2軸のねじれモデルである。 ここでは、ボゾン場に結合した集合スピン系を考察し、このモデルにおける適切な定数制御がこれらの2つのモデルの動的挙動をシミュレートできることを示す。 より興味深いことに、強化学習アルゴリズムによって生成される制御の時間変化時に、より優れたスクイーズ性能が得られる。 しかし、この利点は集合ノイズが関与する場合に限定される。 そこで本研究では, 定値制御と時変制御の両方を含むが, 異なる時間間隔で実行する新しいタイプのコンバインド制御の構成のための4段階戦略を提案する。 完全な時間変動制御と比較して、組み合わせた制御は、時間とともにスクイーズパラメータの最小値を与えるだけでなく、寿命が改善され、クイーズ量がより多くなる。 さらに、複合制御の振幅形式は完全な時間変動制御よりもシンプルで安定である。 そこで本手法は,スケザリングの生成と貯蔵性能を向上させるために,実際に適用されることを非常に約束している。

The generation and storage of spin squeezing is an attracting topic in quantum metrology and the foundations of quantum mechanics. The major models to realize the spin squeezing are the one- and two-axis twisting models. Here, we consider a collective spin system coupled to a bosonic field, and show that proper constant-value controls in this model can simulate the dynamical behaviors of these two models. More interestingly, a better performance of squeezing can be obtained when the control is time-varying, which is generated via a reinforcement learning algorithm. However, this advantage becomes limited if the collective noise is involved. To deal with it, we propose a four-step strategy for the construction of a new type of combined controls, which include both constant-value and time-varying controls, but performed at different time intervals. Compared to the full time-varying controls, the combined controls not only give a comparable minimum value of the squeezing parameter over time, but also provides a better lifetime and larger full amount of squeezing. Moreover, the amplitude form of a combined control is simpler and more stable than the full time-varying control. Therefore, our scheme is very promising to be applied in practice to improve the generation and storage performance of squeezing.
翻訳日:2023-04-27 11:28:58 公開日:2021-02-26
# 臨界点近傍におけるチャーン・サイモンズ変動のリアルタイムダイナミクス

Real-time dynamics of Chern-Simons fluctuations near a critical point ( http://arxiv.org/abs/2012.02926v2 )

ライセンス: Link先を確認
Kazuki Ikeda, Dmitri E. Kharzeev, Yuta Kikuchi(参考訳) 実時間トポロジカル・サセプティビリティは、$(1+1)$-dimensional mass Schwinger model with a $\theta$-term で研究される。 本研究では, トポロジカルチャーン・ポントリアギン数密度を表す電場の実時間相関関数を, 1+1$次元で評価する。 パリティブレーキング臨界点である$\theta=\pi$ と fermion mass $m$ と結合する $g$ と $m/g \approx 0.33$ の近傍では、位相感受性の急激な最大値が観測される。 この最大値は臨界点近傍の臨界ゆらぎの増大の観点から解釈し,大質量シュウィンガーモデル,臨界点近傍のQCD,キュリー点近傍の強誘電体との類似性を引き出す。

The real-time topological susceptibility is studied in $(1+1)$-dimensional massive Schwinger model with a $\theta$-term. We evaluate the real-time correlation function of electric field that represents the topological Chern-Pontryagin number density in $(1+1)$ dimensions. Near the parity-breaking critical point located at $\theta=\pi$ and fermion mass $m$ to coupling $g$ ratio of $m/g \approx 0.33$, we observe a sharp maximum in the topological susceptibility. We interpret this maximum in terms of the growth of critical fluctuations near the critical point, and draw analogies between the massive Schwinger model, QCD near the critical point, and ferroelectrics near the Curie point.
翻訳日:2023-04-22 00:52:27 公開日:2021-02-26
# グローバル量子鍵分散ネットワーク入門

A Guide to Global Quantum Key Distribution Networks ( http://arxiv.org/abs/2012.14396v2 )

ライセンス: Link先を確認
Jing Wang and Bernardo Huberman(参考訳) 本稿では,超海洋,長距離,メトロ,アクセスセグメントをカバーするグローバル量子鍵分布(qkd)ネットワークの展開のためのシステムと手法について述べる。 現状のQKD技術の比較研究は、光ファイバーと自由空間光学による地上QKDと、衛星による宇宙空間ソリューションの両方を含む。 我々は、チャネル損失、潜在的な干渉、距離、接続トポロジー、デプロイメントコストと要件、およびアプリケーションシナリオを含む、既存のqkd技術の長所と短所を比較します。 ネットワークの各セグメントにおいて、様々な異なるQKDソリューションに対して、技術選択基準とデプロイメント要件を策定する。 例えば、光ファイバベースのqkdはその距離が限られており、ポイント・ツー・マルチポイント(p2mp)トポロジーと互換性があるため、アクセスネットワークに適している。 一方、スペースベースqkdは、衛星ベースの信頼された中継を活用し、海横断および長距離ネットワークに使用できる、チャネル損失と延長伝送距離を持つ。

We describe systems and methods for the deployment of global quantum key distribution (QKD) networks covering transoceanic, long-haul, metro, and access segments of the network. A comparative study of the state-of-the-art QKD technologies is carried out, including both terrestrial QKD via optical fibers and free-space optics, as well as spaceborne solutions via satellites. We compare the pros and cons of various existing QKD technologies, including channel loss, potential interference, distance, connection topology, deployment cost and requirements, as well as application scenarios. Technical selection criteria and deployment requirements are developed for various different QKD solutions in each segment of networks. For example, optical fiber-based QKD is suitable for access networks due to its limited distance and compatibility with point-to-multipoint (P2MP) topology; with the help of trusted relays, it can be extended to long-haul and metro networks. Spaceborne QKD on the other hand, has much smaller channel loss and extended transmission distance, which can be used for transoceanic and long-haul networks exploiting satellite-based trusted relays.
翻訳日:2023-04-19 01:50:40 公開日:2021-02-26
# 2つのキュービットの忠実性と絡み合いの関係を探る

Exploring the relationship between the faithfulness and entanglement of two qubits ( http://arxiv.org/abs/2102.10121v2 )

ライセンス: Link先を確認
Gabriele Riccardi, Daniel E. Jones, Xiao-Dong Yu, Otfried G\"uhne and Brian T. Kirby(参考訳) 概念的に単純で実験的に広く普及しているアンタグルメント証人のクラスであるフィデリティ証人(fidelity witnesss)は、純粋な参照状態と状態の忠実性を介してアンタリングを検出する。 存在証明は、すべての絡み合った状態に対して適切な証人が構築できることを保証するが、保証は忠実な証人には適用されない。 近年の研究では、不誠実な状態として知られる忠実な証人では検出できない絡み合った状態が、二成分状態において非常に一般的であることがわかった。 本稿では,2量子状態においても,最も単純な交絡状態である不信状態が,ベル状態へのデコヒーレンスとフィルタリングの適切な適用によって生成可能であることを示す。 また,共起によって測定されるように,忠実性は絡み合いに対して単調ではないことも示している。 最後に、偏光子を絡み合った光子を用いて予測を実験的に検証し、さらに、状態の絡み合いを減少させることを犠牲にして、不適切な状態が忠実にもたらされる状況を示す。

A conceptually simple and experimentally prevalent class of entanglement witnesses, known as fidelity witnesses, detect entanglement via a state's fidelity with a pure reference state. While existence proofs guarantee that a suitable witness can be constructed for every entangled state, such assurances do not apply to fidelity witnesses. Recent results have found that entangled states that cannot be detected by a fidelity witness, known as unfaithful states, are exceedingly common among bipartite states. In this paper, we show that even among two-qubit states, the simplest of all entangled states, unfaithful states can be created through a suitable application of decoherence and filtering to a Bell state. We also show that the faithfulness is not monotonic to entanglement, as measured by the concurrence. Finally, we experimentally verify our predictions using polarization-entangled photons and specifically demonstrate a situation where an unfaithful state is brought to faithfulness at the expense of further reducing the entanglement of the state.
翻訳日:2023-04-10 17:48:32 公開日:2021-02-26
# 既存のアルゴリズムモジュールとの相互作用における新しいアイデアの利点を評価する方法としてのチューニング

Tuning as a Means of Assessing the Benefits of New Ideas in Interplay with Existing Algorithmic Modules ( http://arxiv.org/abs/2102.12905v2 )

ライセンス: Link先を確認
Jacob de Nobel, Diederick Vermetten, Hao Wang, Carola Doerr, Thomas B\"ack(参考訳) 新しいアルゴリズムのアイデアの導入は、既存の最適化アルゴリズムの継続的な改善の鍵となる部分である。 しかし、既存のアルゴリズムに新しいコンポーネントを導入する場合、その潜在的な利点を評価することは難しい作業である。 多くの場合、コンポーネントは、基礎となるアルゴリズムのデフォルト実装に追加され、他の限られたセットと比較される。 この評価は、同じベースアルゴリズムを共有する他のアルゴリズムのアイデアとの潜在的な相互作用を無視し、正確な貢献を理解する上で重要である。 我々は、新しいアルゴリズムコンポーネントの利点を評価する手段として、ハイパーパラメータチューニングを用いたより広範な手順を導入する。 これにより、パフォーマンスへの影響だけでなく、このパフォーマンスがどのように達成されるかを調査することで、より堅牢な分析が可能になる。 提案手法をモジュール型cma-esフレームワークの文脈で実装し,新しいモジュールと既存モジュールの新しいオプションを含むように再設計・拡張し,主にステップサイズ適応法に焦点をあてた。 分析では,これらのモジュール間の差異を強調し,貢献度が最も大きい状況を特定する。

Introducing new algorithmic ideas is a key part of the continuous improvement of existing optimization algorithms. However, when introducing a new component into an existing algorithm, assessing its potential benefits is a challenging task. Often, the component is added to a default implementation of the underlying algorithm and compared against a limited set of other variants. This assessment ignores any potential interplay with other algorithmic ideas that share the same base algorithm, which is critical in understanding the exact contributions being made. We introduce a more extensive procedure, which uses hyperparameter tuning as a means of assessing the benefits of new algorithmic components. This allows for a more robust analysis by not only focusing on the impact on performance, but also by investigating how this performance is achieved. We implement our suggestion in the context of the Modular CMA-ES framework, which was redesigned and extended to include some new modules and several new options for existing modules, mostly focused on the step-size adaptation method. Our analysis highlights the differences between these new modules, and identifies the situations in which they have the largest contribution.
翻訳日:2023-04-09 22:50:45 公開日:2021-02-26
# 有機色素分子からの要求による識別不能光子

Indistinguishable photons on demand from an organic dye molecule ( http://arxiv.org/abs/2102.13055v2 )

ライセンス: Link先を確認
Pietro Lombardi, Maja Colautti, Rocco Duquennoy, Ghulam Murtaza, Prosenjit Majumder, and Costanza Toninelli(参考訳) 固体マトリックス中の単一分子は20年前に単一光子フォック状態の源として提案されている。 量子光学やその他の多くの研究分野での成功は、何百もの名目上同一で孤立した分子を持つサンプルの調製に使用される単純なレシピに起因している。 今日、フォトニック量子技術における主な課題は、光抽出の最適化と、区別できない光子のオンデマンド放出である。 本研究は, 連続波およびパルス励起下でアントラセンナノ結晶中のジベンゾテレレンの一分子から放出される光子を用いたホン・ウー・マンデル実験である。 詳細な理論モデルが適用され、多くの実験パラメータの独立な測定に依存するため、残差強調からスペクトルフィルタリングまで、2光子干渉の可視性に対する異なる寄与の分析が可能になる。

Single molecules in solid-state matrices have been proposed as sources of single-photon Fock states back 20 years ago. Their success in quantum optics and in many other research fields stems from the simple recipes used in the preparation of samples, with hundreds of nominally identical and isolated molecules. Main challenges as of today for their application in photonic quantum technologies are the optimization of light extraction and the on-demand emission of indistinguishable photons. We here present Hong-Ou-Mandel experiments with photons emitted by a single molecule of dibenzoterrylene in an anthracene nanocrystal at 3 K, under continuous wave and also pulsed excitation. A detailed theoretical model is applied, which relies on independent measurements for most experimental parameters, hence allowing for an analysis of the different contributions to the two-photon interference visibility, from residual dephasing to spectral filtering.
翻訳日:2023-04-09 22:41:52 公開日:2021-02-26
# 渦電子の電磁放射における非線形量子効果」へのコメント

Comment on: "Nonlinear quantum effects in electromagnetic radiation of a vortex electron" ( http://arxiv.org/abs/2102.13345v1 )

ライセンス: Link先を確認
Aviv Karnieli, Roei Remez, Ido Kaminer and Ady Arie(参考訳) このPhysに関するコメントはこちら。 Rev. Karlovets と Pupasov-Maximov [Phys. A 103, 12214 (2021)] による論文 "Nonlinear quantum effects in electromagnetic radiation of a vortex electron" は、Remez et al による「自然放出による自由電子の量子波の性質を観察する」という実験と理論を組み合わせた研究に対する批判に対処している。 Rev. Lett. [Phys. Rev. Lett. 123, 060401 (2019)] 我々は、簡単な光学的議論と数値シミュレーションにより、レメスらによって報告された実験体制に関するカルロヴェッツとプパソフ・マクシモフによる批判は誤りであることを示した。 さらに、カルロヴェッツとプパソフ・マクシモフによって提示された理論的な導出について、放出された光子と一致して発光電子の最終状態が観測されるような実験的な状況しか持たず、カソードルミネッセンスの一般的なシナリオではないため、必要な明確化について論じる。 remezらによって報告された実験的なレジームに関する懸念を解消し、電子のポスト選択を明確にした上で、カルロヴェッツとプパソフ・マクシモフの論文は、ユビキタス同軸近似を超える放出率の新しい表現を示すため、形電子波動関数による自発的放出問題への貴重な貢献であると考えられる。

This comment on the Phys. Rev. A paper "Nonlinear quantum effects in electromagnetic radiation of a vortex electron" by Karlovets and Pupasov-Maximov [Phys. Rev. A 103, 12214 (2021)] addresses their criticism of the combined experimental and theoretical study "Observing the quantum wave nature of free electrons through spontaneous emission" by Remez et al, published in Phys. Rev. Lett. [Phys. Rev. Lett. 123, 060401 (2019)]. We show, by means of simple optical arguments as well as numerical simulations, that the criticism raised by Karlovets and Pupasov-Maximov regarding the experimental regime reported by Remez et al is false. Further, we discuss a necessary clarification for the theoretical derivations presented by Karlovets and Pupasov-Maximov, as they only hold for a certain experimental situation where the final state of the emitting electron is observed in coincidence with the emitted photon - which is not the common scenario in cathodoluminescence. Upon lifting the concerns regarding the experimental regime reported by Remez et al, and explicitly clarifying the electron post-selection, we believe that the paper by Karlovets and Pupasov-Maximov may constitute a valuable contribution to the problem of spontaneous emission by shaped electron wavefunctions, as it presents new expressions for the emission rates beyond the ubiquitous paraxial approximation.
翻訳日:2023-04-09 20:50:08 公開日:2021-02-26
# 分数行列による大規模量子近似最適化

Large-scale Quantum Approximate Optimization via Divide-and-Conquer ( http://arxiv.org/abs/2102.13288v1 )

ライセンス: Link先を確認
Junde Li, Mahabubul Alam, Swaroop Ghosh(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、組合せ最適化問題を解決するための有望なハイブリッド量子古典アルゴリズムである。 しかし、大規模な問題に対する量子ビット制限を克服することはできない。 さらに、QAOAの実行時間は問題サイズと指数関数的にスケールする。 本稿では、グラフ最大カット問題(最大カット問題)に対する上記の課題に対処するために、分割・分割qaoa(dc-qaoa)を提案する。 このアルゴリズムは、大きなグラフを、小さなサイズのNISQコンピュータで得られるMaxCutソリューションの小さなグラフに再帰的に分割することで機能する。 全体の解は、量子状態再構成の組み合わせポリシーを適用することにより、サブソリューションから取得される。 複数の分割法と再構成法が提案/比較されている。 DC-QAOAは97.14%の近似比(20.32%)、94.79%の期待値(15.80%)を達成している。 DC-QAOAはまた、従来のQAOAの時間的複雑さを指数関数から二次的に減少させる。

Quantum Approximate Optimization Algorithm (QAOA) is a promising hybrid quantum-classical algorithm for solving combinatorial optimization problems. However, it cannot overcome qubit limitation for large-scale problems. Furthermore, the execution time of QAOA scales exponentially with the problem size. We propose a Divide-and-Conquer QAOA (DC-QAOA) to address the above challenges for graph maximum cut (MaxCut) problem. The algorithm works by recursively partitioning a larger graph into smaller ones whose MaxCut solutions are obtained with small-size NISQ computers. The overall solution is retrieved from the sub-solutions by applying the combination policy of quantum state reconstruction. Multiple partitioning and reconstruction methods are proposed/ compared. DC-QAOA achieves 97.14% approximation ratio (20.32% higher than classical counterpart), and 94.79% expectation value (15.80% higher than quantum annealing). DC-QAOA also reduces the time complexity of conventional QAOA from exponential to quadratic.
翻訳日:2023-04-09 20:48:35 公開日:2021-02-26
# 誘導光モードへの散乱のためのブラッグ条件

Bragg condition for scattering into a guided optical mode ( http://arxiv.org/abs/2102.13546v1 )

ライセンス: Link先を確認
B. Olmos, C. Liedl, I. Lesanovsky and P. Schneeweiss(参考訳) 我々は、原子配列から導波路の誘導モードへの光散乱を理論的に研究する。 平面波のレーザ場から導波路モードへの散乱は、幾何学的ブラッグ角から逸脱する角度に対して劇的に改善されていることを示す。 改良されたブラッグ条件を導出し、誘導光と原子の間の分散相互作用から生じることを示した。 さらに, 散乱速度が線形, 二次, 振動, 定常挙動など, 原子数に対する質的に異なる依存性を特徴付けるパラメータを同定する。 本研究の結果は原子配列中の空洞に対して頑健であり,その実験的観察と応用の可能性が示唆された。 我々の研究は、集合光散乱と幾何学と相互作用効果の相互作用に新たな光を当てている。

We theoretically investigate light scattering from an array of atoms into the guided modes of a waveguide. We show that the scattering of a plane wave laser field into the waveguide modes is dramatically enhanced for angles that deviate from the geometric Bragg angle. We derive a modified Bragg condition, and show that it arises from the dispersive interactions between the guided light and the atoms. Moreover, we identify various parameter regimes in which the scattering rate features a qualitatively different dependence on the atom number, such as linear, quadratic, oscillatory or constant behavior. We show that our findings are robust against voids in the atomic array, facilitating their experimental observation and potential applications. Our work sheds new light on collective light scattering and the interplay between geometry and interaction effects, with implications reaching beyond the optical domain.
翻訳日:2023-04-09 20:42:01 公開日:2021-02-26
# cubesatベースの信頼ノード構成グローバルqkdネットワークの実現可能性検討

Feasibility Study for CubeSat Based Trusted Node Configuration Global QKD Network ( http://arxiv.org/abs/2102.13536v1 )

ライセンス: Link先を確認
Ekin Aykut, Hashir Kuniyil, Melis Pahal{\i}, Gizem G\"ul, Naser Jam, Kadir Durak(参考訳) 量子鍵分散(Quantum key distribution, QKD)は、2つのパーティ間で秘密鍵を共有するための量子暗号の文脈において最も使用されるプロトコルである。 新型コロナウイルス(covid-19)のパンデミックは、オンライン通信の必要性がますます高まっている。 QKDは、グローバルスケールネットワークのセキュリティ要件を満たす可能性がある。 かなりの進歩にもかかわらず、地上のQKDアプローチは大気や繊維の減衰による距離制限がある。 グローバルネットワークスキームは、星座を持つ信頼ノードネットワークを確立するために、インターサテライトリンクを使用することができる。 これにより、量子コンピュータ間で情報をセキュアに交換できる量子インターネットの鍵となる要素が実現される。 この目標の最もコスト効率が高く反復的なアプローチは、CubeSatsを利用することです。 本稿では,CubeSatsを用いたグローバルQKDネットワークを実現するための技術的課題と可能なソリューションについて要約する。 このようなシステムの実装にかかわる実践的関心事と代替経路について論じる。

Quantum key distribution (QKD) is the most used protocol in the context of quantum cryptography for sharing a private encryption key between two parties. Covid-19 pandemic has raised the ever-increasing need for online communications a lot; this requires enhanced security protocols. QKD has the potential to meet a global scale network's security requirements. Despite considerable progress, all ground-based QKD approaches have distance limitations due to atmospheric or fiber attenuation. A global network scheme can use intersatellite links to establish a trusted node network with constellations. This enables key elements for quantum internet which allows secure exchange of information between quantum computers. The most cost-effective and iterative approach for this goal is to exploit CubeSats. This paper summarizes technical challenges and possible solutions to enable a global QKD network using CubeSats. We discuss practical concerns and alternative paths involved with implementing such systems.
翻訳日:2023-04-09 20:41:49 公開日:2021-02-26
# シュリンガー猫状態に対するパリティスワップ状態比較増幅器

Parity-Swap State Comparison Amplifier for Schr\"odinger Cat States ( http://arxiv.org/abs/2102.13530v1 )

ライセンス: Link先を確認
Gioan Tatsi and Luca Mazzarella and John Jeffers(参考訳) そこで本稿では,Shr\"odinger cat state に対して,増幅状態が先行状態である必要のないポストセレクトパリティスワップ増幅器を提案する。 この装置は、コヒーレント状態のための予め実装された状態比較増幅器に基づいている。 ガウスの資源状態のみを消費し、いくつかの猫状態増幅器よりも有利である。 単純なガイガーモード光検出器を必要とし、高い忠実度と約2倍の利得を持つ。

We propose a postselecting parity-swap amplifier for Schr\"odinger cat states that does not require the amplified state to be known a priori. The device is based on a previously-implemented state comparison amplifier for coherent states. It consumes only Gaussian resource states, which provides an advantage over some cat state amplifiers. It requires simple Geiger-mode photodetectors and works with high fidelity and approximately twofold gain.
翻訳日:2023-04-09 20:41:36 公開日:2021-02-26
# 2量子ビット線形光量子フィルタの最適実装

Optimal implementation of two-qubit linear optical quantum filters ( http://arxiv.org/abs/2102.13499v1 )

ライセンス: Link先を確認
Jarom\'ir Fiur\'a\v{s}ek, Robert St\'arek, Michal Mi\v{c}uda(参考訳) 我々は2量子ビット線形光量子フィルタを計算ベースで対角的に実装するための最適干渉法を設計する。 フィルタは、マルチポート線形光干渉計において量子ビットを符号化する2つの光子の干渉により実現され、次いでフィルタの各出力ポートに1つの光子の存在を条件付ける。 したがってフィルタは、多くの線形光学ユニタリ量子ゲートと同様に、一致ベースで動作する。 線形光学によるフィルタの実装は、フィルタリングの全体的な成功確率の低減という観点でさらにオーバーヘッドを要し、最適なフィルタは、全体の成功確率を最大化するものである。 我々は、対称実フィルタの場合を詳細に議論し、解析を非対称かつ複素フィルタにも拡張する。

We design optimal interferometric schemes for implementation of two-qubit linear optical quantum filters diagonal in the computational basis. The filtering is realized by interference of the two photons encoding the qubits in a multiport linear optical interferometer, followed by conditioning on presence of a single photon in each output port of the filter. The filter thus operates in the coincidence basis, similarly to many linear optical unitary quantum gates. Implementation of the filter with linear optics may require an additional overhead in terms of reduced overall success probability of the filtering and the optimal filters are those that maximize the overall success probability. We discuss in detail the case of symmetric real filters and extend our analysis also to asymmetric and complex filters.
翻訳日:2023-04-09 20:41:20 公開日:2021-02-26
# l^2(\mathbb{q}_p)$ の位相作用素とフィッシャーとリーマンの零点

Phase operator on $L^2(\mathbb{Q}_p)$ and the zeroes of Fisher and Riemann ( http://arxiv.org/abs/2102.13445v1 )

ライセンス: Link先を確認
Parikshit Dutta and Debashis Ghoshal(参考訳) リーマンの仮説によれば、リーマンゼータ函数の非自明な零点の分布は、物理学者によって研究された統計力学モデルの分割函数(フィッシャーおよびヤン=リー零点)の零点とわずかに類似している。 位相作用素に類似した作用素の分解関数は、量子力学における数演算子と共役であり、このアプローチにおいて重要であることが判明した。 p$-進体上の複素値の局所定数関数の空間 $l^2(\mathbb{q}_p)$ に作用する一般化されたウラジーミルノフ微分は、数演算子に似ている。 位相作用素」がそれに対応する部分空間 $L^2(p^{-1}\mathbb{Z}_p)$ of $L^2(\mathbb{Q}_p)$ 上に構成可能であることを示す。 我々は(物理学者の厳密なレベルで)全ての素数をリーマンゼータ函数の零点とどのように結びつけるかについて議論する。 最後に、これらの結果はディリクレ文字に付随する擬微分作用素のようなウラジーミルフ微分の構成を用いてディリクレ$L$-函数の族に拡張する。

The distribution of the non-trivial zeroes of the Riemann zeta function, according to the Riemann hypothesis, is tantalisingly similar to the zeroes of the partition functions (Fisher and Yang-Lee zeroes) of statistical mechanical models studied by physicists. The resolvent function of an operator akin to the phase operator, conjugate to the number operator in quantum mechanics, turns out to be important in this approach. The generalised Vladimirov derivative acting on the space $L^2(\mathbb{Q}_p)$ of complex valued locally constant functions on the $p$-adic field is rather similar to the number operator. We show that a `phase operator' conjugate to it can be constructed on a subspace $L^2(p^{-1}\mathbb{Z}_p)$ of $L^2(\mathbb{Q}_p)$. We discuss (at physicists' level of rigour) how to combine this for all primes to possibly relate to the zeroes of the Riemann zeta function. Finally, we extend these results to the family of Dirichlet $L$-functions, using our recent construction of Vladimirov derivative like pseudodifferential operators associated with the Dirichlet characters.
翻訳日:2023-04-09 20:40:58 公開日:2021-02-26
# 確率シュリンガー方程式からのラジカル対におけるスピン緩和

Spin relaxation in radical pairs from the stochastic Schr\"odinger equation ( http://arxiv.org/abs/2102.13430v1 )

ライセンス: Link先を確認
Thomas P. Fay, Lachlan P. Lindoy and David E. Manolopoulos(参考訳) 確率的シュリンガー方程式(SSE)がラジカル対の量子力学的スピンダイナミクスをシミュレートする理想的な方法であることを示す。 スピンハミルトニアンのゆらぎから生じる電子スピン緩和効果は、このアプローチに容易に含められ、その処理は、実験的な観測対象を計算するために必要な核スピン状態のトレースを、非常に効率的な確率論的評価と組み合わせることができる。 これらの特徴は、例えば、フラビン-トリプトファンラジカル対の鳥磁気受容への関心や、分子線に沿ったスピン選択的ラジカル対の再結合に関わる問題に応用される。 これらの例の最初の例では、SSE はリンドブラッド方程式の最近の確率的実装よりも効率が高く、より広く適用可能であることが示され、これは極小極限での緩和の有効な処理のみを提供する。 第二に, スピン緩和のための中島-ツワンジヒ理論と, より多くの核スピンを持つラジカル対に適用可能なスピンダイナミクスのシュルテン-ウォリネス理論の組み合わせの正確性を評価するために, sseの結果が得られた。 付録は、SU(N)コヒーレントな状態によるサンプリングの特定の利点を強調し、トレースサンプリングの効率を詳細に分析する。

We show that the stochastic Schr\"odinger equation (SSE) provides an ideal way to simulate the quantum mechanical spin dynamics of radical pairs. Electron spin relaxation effects arising from fluctuations in the spin Hamiltonian are straightforward to include in this approach, and their treatment can be combined with a highly efficient stochastic evaluation of the trace over nuclear spin states that is required to compute experimental observables. These features are illustrated in example applications to a flavin-tryptophan radical pair of interest in avian magnetoreception, and to a problem involving spin-selective radical pair recombination along a molecular wire. In the first of these examples, the SSE is shown to be both more efficient and more widely applicable than a recent stochastic implementation of the Lindblad equation, which only provides a valid treatment of relaxation in the extreme-narrowing limit. In the second, the exact SSE results are used to assess the accuracy of a recently-proposed combination of Nakajima-Zwanzig theory for the spin relaxation and Schulten-Wolynes theory for the spin dynamics, which is applicable to radical pairs with many more nuclear spins. An appendix analyses the efficiency of trace sampling in some detail, highlighting the particular advantages of sampling with SU(N) coherent states.
翻訳日:2023-04-09 20:40:37 公開日:2021-02-26
# pt対称進化シミュレーションによるランダム性増幅

Randomness Amplification under Simulated PT-symmetric Evolution ( http://arxiv.org/abs/2102.13630v1 )

ライセンス: Link先を確認
Leela Ganesh Chandra Lakkaraju, Shiladitya Mal, Aditi Sen De(参考訳) pt対称量子論は観測可能性のヘルミティキ性を必要としないため、豊富な力学クラスを許容する。 PT対称量子理論に基づいて、標準的な量子力学よりも高速な進化のような様々な反直観的現象、非直交状態の単発識別がゲダンケンの実験を呼び起こすと報告されている。 ここでは、開系実験的なセットアップと、2つの状態の区別の確率を計算することによって、ソースが遠方に位置するAliceとBobの間で共有される絡み合った状態を生成する場合、密度行列が複素ヒルベルト空間であれば、PT対称ハミルトニアンに従ってサブシステムが進化するAliceによる操作に関する情報をBobによって収集できることを示す。 PT対称進化の量子シミュレーションを現在利用可能な技術と組み合わせることで、擬似ランダム数を生成するソースにアクセス可能な場合の2つのパーティ間で量子ランダムビットストリングを共有する手法を提案する。 次元の増大とともにタスクがより効率的になる証拠が見つかる。

PT-symmetric quantum theory does not require the Hermiticity property of observables and hence allows a rich class of dynamics. Based on PT-symmetric quantum theory, various counter-intuitive phenomena like faster evolution than that allowed in standard quantum mechanics, single-shot discrimination of nonorthogonal states has been reported invoking Gedanken experiments. By exploiting open-system experimental set-up as well as by computing the probability of distinguishing two states, we prove here that if a source produces an entangled state shared between two parties, Alice and Bob, situated in a far-apart location, the information about the operations performed by Alice whose subsystem evolves according to PT-symmetric Hamiltonian can be gathered by Bob, if the density matrix is in complex Hilbert space. Employing quantum simulation of PT-symmetric evolution, feasible with currently available technologies, we also propose a scheme of sharing quantum random bit-string between two parties when one of them has access to a source generating pseudo-random numbers. We find evidence that the task becomes more efficient with the increase of dimension.
翻訳日:2023-04-09 20:34:03 公開日:2021-02-26
# GraphSense: 汎用的な暗号分析プラットフォーム

GraphSense: A General-Purpose Cryptoasset Analytics Platform ( http://arxiv.org/abs/2102.13613v1 )

ライセンス: Link先を確認
Bernhard Haslhofer and Rainer St\"utz and Matteo Romiti and Ross King(参考訳) 現在、暗号サービスプロバイダ、金融業界全般、および学術分野における暗号分析ツールの需要が高まっている。 現時点では、商用サービスか、プログラムによるアクセスを提供する低レベルのオープンソースツールのいずれかを選択することができる。 本稿では,graphsense cryptoasset analytics platformの設計と実装について述べる。graphsense cryptoasset analytics platformは,金融フローのインタラクティブな調査や,さらに重要なのは,標準的なデータサイエンスツールスタックを使用して高度な分析タスクを実行するためのものだ。 成長するオープンソースのコンポーネントセットを提供することで、graphsenseは最終的に学界における科学調査の道具となり、暗号化アセットを扱う企業や組織に対するコンプライアンスと規制の新たな課題への対処となる可能性がある。

There is currently an increasing demand for cryptoasset analysis tools among cryptoasset service providers, the financial industry in general, as well as across academic fields. At the moment, one can choose between commercial services or low-level open-source tools providing programmatic access. In this paper, we present the design and implementation of another option: the GraphSense Cryptoasset Analytics Platform, which can be used for interactive investigations of monetary flows and, more importantly, for executing advanced analytics tasks using a standard data science tool stack. By providing a growing set of open-source components, GraphSense could ultimately become an instrument for scientific investigations in academia and a possible response to emerging compliance and regulation challenges for businesses and organizations dealing with cryptoassets.
翻訳日:2023-04-09 20:33:15 公開日:2021-02-26
# 展開ファイバ上の再構成可能な量子局所ネットワーク

A Reconfigurable Quantum Local Area Network Over Deployed Fiber ( http://arxiv.org/abs/2102.13596v1 )

ライセンス: Link先を確認
Muneer Alshowkan, Brian P. Williams, Philip G. Evans, Nageswara S. V. Rao, Emma M. Simmerman, Hsuan-Hao Lu, Navin B. Lingaraju, Andrew M. Weiner, Claire E. Marvinney, Yun-Yi Pai, Benjamin J. Lawrie, Nicholas A. Peters, Joseph M. Lukens(参考訳) 実際の量子ネットワークアーキテクチャは、量子リソースの接続のスケーリングに不可欠である。 しかし、量子ネットワークのテストベッドは、フレキシブルグリッド帯域割り当てなど、現代の光波通信の機能を十分に活用していない。 本研究では,3つの異なるキャンパスビルのノードをグローバル・ポジショニング・システム(GPS)を介して時間同期で接続し,フレキシブルグリッドの絡み合い分布をデプロイネットワークに初めて実装する。 我々は,分散分極絡み合いの質をlog-negativityで定量化し,毎秒の絡み合いビットにおけるリンク性能の一般的な指標を提供する。 8つの動的再構成可能なチャネルの2つの割り当てに対して、エンタングルメント分散を成功させた後、分散エンタングルメントネットワークによって実現可能な1つの量子プロトコルを示す、デプロイされたファイバー上での初めての実現であるリモート状態の準備を実証した。 本研究は,複雑性とサービス要求が増大する量子ネットワークにおいて,絡み合うリソースを管理するための高度なパラダイムを実現する。

Practical quantum networking architectures are crucial for scaling the connection of quantum resources. Yet quantum network testbeds have thus far underutilized the full capabilities of modern lightwave communications, such as flexible-grid bandwidth allocation. In this work, we implement flex-grid entanglement distribution in a deployed network for the first time, connecting nodes in three distinct campus buildings time-synchronized via the Global Positioning System (GPS). We quantify the quality of the distributed polarization entanglement via log-negativity, which offers a generic metric of link performance in entangled bits per second. After demonstrating successful entanglement distribution for two allocations of our eight dynamically reconfigurable channels, we demonstrate remote state preparation -- the first realization on deployed fiber -- showcasing one possible quantum protocol enabled by the distributed entanglement network. Our results realize an advanced paradigm for managing entanglement resources in quantum networks of ever-increasing complexity and service demands.
翻訳日:2023-04-09 20:32:51 公開日:2021-02-26
# インペラブル球内h様原子の情報理論によるコンプトンプロファイルの解析

Analysis of Compton profile through information theory in H-like atoms inside impenetrable sphere ( http://arxiv.org/abs/2102.13576v1 )

ライセンス: Link先を確認
Neetik Mukherjee and Amlan K. Roy(参考訳) 様々な空洞内の原子の閉じ込めは、およそ80年間研究されてきた。 しかし、そのようなシステムのコンプトンプロファイルはまだ調査されていない。 ここでは、H 原子に対するコンプトンプロファイル (CP) を \emph{hard} 球面囲いの中に放射的に閉じ込め、また \emph{free 条件で構成する。 自由原子の円または非ノード状態のcpの正確な解析関係について述べる。 スケーリングのアイデアにより、これはさらに、不必要キャビティの内部に閉じ込められたh型原子の研究に拡張されている。 これらの構成されたCPの精度は、様々なモーメントモーメントの計算によって確認されている。 それとは別に、シャノン・エントロピー(英語版) (s$) や onicescu energy (e$) などの情報理論的手法がこれらのプロファイルを特徴付けるために利用されている。 厳密な閉形式式は、自由H型原子の基底状態CPを用いて$S$と$E$に対して導出される。 詳細な研究により、閉じ込めの増加は運動エネルギーの放散速度を抑制することが明らかとなった。 固定の$\ell$ では、このレートは$n$ の上昇とともに低下する。 しかし、ある$n$では、このレートは$\ell$の進行とともに加速する。 それぞれの自由系に関する同様の分析は、閉じ込められた系と全く逆の傾向を示す。 しかし、自由環境と制限環境の両方において、CPは一般にZ$の上昇とともに拡張される。 数値計算は、閉じ込められた系の低層状態に対して行われ、2種類の位置空間波動関数をとる。 (a)正確には b) 一般化擬スペクトル法による高精度固有関数。 本質的には、cpsは閉じ込められたh原子(および等電子級数)について報告され、情報理論の枠組みを用いて検討される。

Confinement of atoms inside various cavities has been studied for nearly eight decades. However, the Compton profile for such systems has not yet been investigated. Here we construct the Compton profile (CP) for a H atom radially confined inside a \emph{hard} spherical enclosure, as well as in \emph{free condition}. Some exact analytical relations for the CP's of circular or nodeless states of free atom is presented. By means of a scaling idea, this has been further extended to the study of an H-like atom trapped inside an impenetrable cavity. The accuracy of these constructed CP has been confirmed by computing various momentum moments. Apart from that, several information theoretical measures, like Shannon entropy ($S$) and Onicescu energy ($E$) have been exploited to characterize these profiles. Exact closed form expressions are derived for $S$ and $E$ using the ground state CP in free H-like atoms. A detailed study reveals that, increase in confinement inhibits the rate of dissipation of kinetic energy. At a fixed $\ell$, this rate diminishes with rise in $n$. However, at a certain $n$, this rate accelerates with progress in $\ell$. A similar analysis on the respective free counterpart displays an exactly opposite trend as that in confined system. However, in both free and confined environments, CP generally gets broadened with rise in $Z$. Representative calculations are done numerically for low-lying states of the confined systems, taking two forms of position-space wave functions: (a) exact (b) highly accurate eigenfunctions through a generalized pseudospectral method. In essence, CPs are reported for confined H atom (and isoelectronic series) and investigated adopting an information-theoretic framework.
翻訳日:2023-04-09 20:32:32 公開日:2021-02-26
# 密度汎関数形式論における閉He様イオン中のシャノンエントロピー

Shannon entropy in confined He-like ions within a density functional formalism ( http://arxiv.org/abs/2102.13571v1 )

ライセンス: Link先を確認
Sangita Majumdar and Amlan K. Roy(参考訳) シャノンエントロピーの位置 (S_{\rvec}$) と運動量 (S_{\pvec}$) は、その和 (S_t$) とともに、He, Li$^+$ および Be$^{2+}$ イオンの単位正規化密度を示し、半径 $r_c$ で定義される不透明球面囲いの中心に空間的に閉じ込められる。 基底といくつかの選択された低い励起状態、すなわち \emph{viz。 1sns (n $=$ 2-4) $^3$s, 1snp (n $=$ 2-3) $^3$p, 1s3d $^3$d は、2つの相関ポテンシャル(局所ウィグナー型パラメトリド汎関数とより関係のある非線形勾配およびラプラシアン依存リー-ヤン-パール汎関数)とともにワークファンクションベースの交換ポテンシャルを利用する密度汎関数的手法内で考慮される。 一般化擬似スペクトル(GPS)法を用いて最適空間離散化スキームを用いて放射状コーンシャム(KS)方程式を解く。 閉包された系(対応する自由系)の詳細な体系的解析は、表形式および図形形式における$r_c$, \emph{with and without} 電子相関に関して行われた。 圧縮により、上記の状態におけるエントロピーのパターンは、中間領域と下位領域の様々な交差によって特徴づけられる。 電子相関の影響はより弱い閉じ込め限界において顕著であり、閉じ込め強度の上昇とともに崩壊しているように見える。 交換のみの結果は、十分な質的な議論を提供するのに非常に適しています。 エントロピーの不確実性関係によって得られる下界は、すべての場合において良好である。 他にも興味深い特徴がいくつか見られる。

Shannon entropy in position ($S_{\rvec}$) and momentum ($S_{\pvec}$) spaces, along with their sum ($S_t$) are presented for unit-normalized densities of He, Li$^+$ and Be$^{2+}$ ions, spatially confined at the center of an impenetrable spherical enclosure defined by a radius $r_c$. Both ground as well as some selected low-lying singly excited states, \emph{viz.,} 1sns (n $=$ 2-4) $^3$S, 1snp (n $=$ 2-3) $^3$P, 1s3d $^3$D are considered within a density functional methodology that makes use of a work-function-based exchange potential along with two correlation potentials (local Wigner-type parametrized functional as well as the more involved non-linear gradient- and Laplacian-dependent Lee-Yang-Parr functional). The radial Kohn-Sham (KS) equation is solved using an optimal spatial discretization scheme via the generalized pseudospectral (GPS) method. A detailed systematic analysis of the confined system (relative to corresponding free system) has been performed for these quantities with respect to $r_c$ in tabular and graphical forms, \emph{with and without} electron correlation. Due to compression, the pattern of entropy in aforementioned states gets characterized by various crossovers at intermediate and lower $r_c$ regions. The impact of electron correlation is more pronounced in weaker confinement limit, and appears to decay with rise in confinement strength. The exchange-only results are quite good to provide a decent qualitative discussion. The lower-bounds provided by entropic uncertainty relation holds good in all cases. Several other new interesting features are observed.
翻訳日:2023-04-09 20:32:07 公開日:2021-02-26
# 磁場と位置依存質量を持つdirac系:darboux変換と一般化dirac発振器との等価性

Dirac systems with magnetic field and position dependent mass: Darboux transformations and equivalence with generalized Dirac oscillators ( http://arxiv.org/abs/2102.13561v1 )

ライセンス: Link先を確認
Axel Schulze-Halberg and Pinaki Roy(参考訳) 我々はエネルギーゼロの2次元ディラック系のクラスに対してdarboux変換を構築する。 我々の開始方程式は、位置依存質量、行列ポテンシャル、および平面に垂直な磁場または一般化されたディラック振動子相互作用として解釈できる追加自由度を特徴とする。 我々は、零エネルギー解が正確に知られている多くのダルブックス変換ディラック方程式を得る。

We construct a Darboux transformation for a class of two-dimensional Dirac systems at zero energy. Our starting equation features a position-dependent mass, a matrix potential, and an additional degree of freedom that can be interpreted either as a magnetic field perpendicular to the plane or a generalized Dirac oscillator interaction. We obtain a number of Darbouxtransformed Dirac equations for which the zero energy solutions are exactly known.
翻訳日:2023-04-09 20:31:19 公開日:2021-02-26
# 2つの量子振動子の伝熱と絡み合い --非平衡相関スペクトル

Heat transfer and entanglement -- non-equilibrium correlation spectra of two quantum oscillators ( http://arxiv.org/abs/2102.13559v1 )

ライセンス: Link先を確認
Carsten Henkel(参考訳) 相互相互作用を持つ2つの発振器の非平衡状態と別個の熱浴との結合について論じる。 ボソニック浴を考慮し、共分散行列の要素の厳密なスペクトル表現を解析的に提供する。 関連する浴モードに対する幅広いスペクトル密度を許容する。 変動散逸定理の妥当性は、静止状態における大域平衡(どちらも同じ温度の浴槽)に対して確立される。 エンタングルメントのスペクトル測度は、ゼロ点ゆらぎの平衡スペクトルと比較することによって示唆される。 回転波近似は適用されず、以前の研究で報告されたように、冷湯から熱湯への異常な熱輸送は起こらない。

The non-equilibrium state of two oscillators with a mutual interaction and coupled to separate heat baths is discussed. Bosonic baths are considered, and an exact spectral representation for the elements of the covariance matrix is provided analytically. A wide class of spectral densities for the relevant bath modes is allowed for. The validity of the fluctuation-dissipation theorem is established for global equilibrium (both baths at the same temperature) in the stationary state. Spectral measures of entanglement are suggested by comparing to the equilibrium spectrum of zero-point fluctuations. No rotating-wave approximation is applied, and anomalous heat transport from cold to hot bath, as reported in earlier work, is demonstrated not to occur.
翻訳日:2023-04-09 20:31:12 公開日:2021-02-26
# 磁場中におけるスピンj粒子の位相的uhlmann相転移

Topological Uhlmann phase transitions for a spin-j particle in a magnetic field ( http://arxiv.org/abs/2103.00080v1 )

ライセンス: Link先を確認
D. Morachis Galindo, F. Rojas, Jes\'us A. Maytorena(参考訳) 混合状態の領域への幾何学的位相の一般化は、ウルマン位相として知られている。 近年、この概念をトポロジカル絶縁体分野に適用し、トポロジカル・ウルマン相が消失する特徴的な臨界温度の実験的観察も報告されている。 驚くべきことに、我々の知る限り、ゆっくり回転する磁場の存在下でのスピン=j$粒子のようなパラダイム系のウルマン相は、これまで報告されていない。 ここでは,そのような系を熱アンサンブルで検討する。 ウルマン位相は、複素値の第二種チェビシェフ多項式の次数2j$の議論によって与えられる。 それに応じて、uhlmann相は2j$特異点を示し、そのような多項式の根元で発生し、系が位相次数遷移を行う臨界温度を定義する。 複素解析の議論原理に従えば、各トポロジカル秩序は巻数によって特徴づけられるが、これは基底状態に対して2j$であり、温度上昇が臨界値を通過するたびに一意的に減少する。 この研究は、スピン-1/2$粒子に対して既に行われているように、位相特性の熱制御現象の実験的な検証を促進することを望んでいる。

The generalization of the geometric phase to the realm of mixed states is known as Uhlmann phase. Recently, applications of this concept to the field of topological insulators have been made and an experimental observation of a characteristic critical temperature at which the topological Uhlmann phase disappears has also been reported. Surprisingly, to our knowledge, the Uhlmann phase of such a paradigmatic system as the spin-$j$ particle in presence of a slowly rotating magnetic field has not been reported to date. Here we study the case of such a system in a thermal ensemble. We find that the Uhlmann phase is given by the argument of a complex valued second kind Chebyshev polynomial of order $2j$. Correspondingly, the Uhlmann phase displays $2j$ singularities, occurying at the roots of such polynomials which define critical temperatures at which the system undergoes topological order transitions. Appealing to the argument principle of complex analysis each topological order is characterized by a winding number, which happen to be $2j$ for the ground state and decrease by unity each time increasing temperature passes through a critical value. We hope this study encourages experimental verification of this phenomenon of thermal control of topological properties, as has already been done for the spin-$1/2$ particle.
翻訳日:2023-04-09 20:24:53 公開日:2021-02-26
# wikipediaにおける言語非依存トピック分類

Language-agnostic Topic Classification for Wikipedia ( http://arxiv.org/abs/2103.00068v1 )

ライセンス: Link先を確認
Isaac Johnson, Martin Gerlach and Diego S\'aez-Trumper(参考訳) ウィキペディアのダイナミックス(コンテンツ品質の不均衡、どのコンテンツが人気か、どの記事が編集者の議論を惹きつけるかなど)を分析する上で大きな課題は、非常に多様なウィキペディアの記事を一貫性のあるトピックにまとめることである。 この問題はwikipediaのカテゴリネットワーク、ウィキプロジェクト、外部分類に基づく様々なアプローチで解決されている。 しかし、これらのアプローチは常に範囲に限られており、典型的には、記事のごく一部しか分類できないか、ウィキペディア上の(300以上の)言語にまたがって適用できない。 本稿では,wikipediaの任意の言語や記事に対して(ほぼ)容易に適用可能なトピックの分類法として,記事へのリンクに基づく言語非依存のアプローチを提案する。 言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。

A major challenge for many analyses of Wikipedia dynamics -- e.g., imbalances in content quality, geographic differences in what content is popular, what types of articles attract more editor discussion -- is grouping the very diverse range of Wikipedia articles into coherent, consistent topics. This problem has been addressed using various approaches based on Wikipedia's category network, WikiProjects, and external taxonomies. However, these approaches have always been limited in their coverage: typically, only a small subset of articles can be classified, or the method cannot be applied across (the more than 300) languages on Wikipedia. In this paper, we propose a language-agnostic approach based on the links in an article for classifying articles into a taxonomy of topics that can be easily applied to (almost) any language and article on Wikipedia. We show that it matches the performance of a language-dependent approach while being simpler and having much greater coverage.
翻訳日:2023-04-09 20:24:20 公開日:2021-02-26
# Schr\\odinger および Dirac 方程式の一般化連続性方程式

Generalized Continuity Equations for Schr\"odinger and Dirac Equations ( http://arxiv.org/abs/2103.00052v1 )

ライセンス: Link先を確認
A. Katsaris, P.A. Kalozoumis, and F.K. Diakonos(参考訳) 一般化連続性方程式(GCE)の概念は最近[J]に導入された。 Phys a: 数学。 そしてTheor。 Bf 52}, 1552034 (2019)] は、$N$ independent Schr\"{o}dinger 系の文脈で導出された。 GCEは、N$系ラグランジアンが持たないにもかかわらず、これらの系の状態を混合する対称性変換によって誘導される。 この変換の下では、$N$-system Schr\"{o}dinger Lagrangian は不変ではないので、GCE は、ある条件下では消滅し、保存電流につながる源項を含む。 これらの条件は、グローバルまたは局所的に有限領域に保持され、それぞれグローバルまたは局所的に保存された電流に繋がる。 本研究では、このアイデアを任意の$SU(N)$-transformationsの場合に拡張し、同様のGCEがディラック・ダイナミックス・フレームワークの$N$システムに対して現れることを示す。 新たなGCEと、それに付随する保存法に繋がる条件は、フェミオン状態の調製と制御に豊富な現象学と潜在的利用をもたらす。

The concept of the generalized continuity equation (GCE) was recently introduced in [J. Phys. A: Math. and Theor. {\bf 52}, 1552034 (2019)], and was derived in the context of $N$ independent Schr\"{o}dinger systems. The GCE is induced by a symmetry transformation which mixes the states of these systems, even though the $N$-system Lagrangian does not. As the $N$-system Schr\"{o}dinger Lagrangian is not invariant under such a transformation, the GCE will involve source terms which, under certain conditions vanish and lead to conserved currents. These conditions may hold globally or locally in a finite domain, leading to globally or locally conserved currents, respectively. In this work, we extend this idea to the case of arbitrary $SU(N)$-transformations and we show that a similar GCE emerges for $N$ systems in the Dirac dynamics framework. The emerging GCEs and the conditions which lead to the attendant conservation laws provide a rich phenomenology and potential use for the preparation and control of fermionic states.
翻訳日:2023-04-09 20:23:53 公開日:2021-02-26
# 高調波鎖と熱ダイオード効果

Harmonic chains and the thermal diode effect ( http://arxiv.org/abs/2103.00046v1 )

ライセンス: Link先を確認
Na'im Kalantar, Bijay Kumar Agarwalla, Dvira Segal(参考訳) 2つの調和型貯水池を異なる温度で接続する調和振動子鎖は、構造的非対称性に関係なく、熱ダイオードとして振る舞うことはできない。 しかし、ここでは、温度勾配の下で貯水池(白色ランゲヴィン雑音で説明される)が配置されると、完全調和接合が熱を補正できることを証明し、これは「温度勾配の緩やかな高調波発振器ダイオード」と呼ばれる効果である。 この非線形ダイオード効果は、境界に課される熱勾配の付加的な制約から生じる。 量子および古典輸送を記述できる高調波浴と結合した高調波系における定常熱輸送の厳密な解析的定式化に基づく整流挙動を示す。 本研究は, 側鎖や末端基が異なる室温炭化水素分子や, 閉じ込められたイオンの線形格子などの非対称調和系が, 単純な境界条件を超えて熱を還元することを示した。

Harmonic oscillator chains connecting two harmonic reservoirs at different constant temperatures cannot act as thermal diodes, irrespective of structural asymmetry. However, here we prove that perfectly harmonic junctions can rectify heat once the reservoirs (described by white Langevin noise) are placed under temperature gradients, which are asymmetric at the two sides, an effect that we term "temperature-gradient harmonic oscillator diodes". This nonlinear diode effect results from the additional constraint -- the imposed thermal gradient at the boundaries. We demonstrate the rectification behavior based on the exact analytical formulation of steady state heat transport in harmonic systems coupled to Langevin baths, which can describe quantum and classical transport, both regimes realizing the diode effect under the involved boundary conditions. Our study shows that asymmetric harmonic systems, such as room-temperature hydrocarbon molecules with varying side groups and end groups, or a linear lattice of trapped ions may rectify heat by going beyond simple boundary conditions.
翻訳日:2023-04-09 20:22:58 公開日:2021-02-26
# クロスクロス共振ゲート

Cross cross resonance gate ( http://arxiv.org/abs/2103.00024v1 )

ライセンス: Link先を確認
Kentaro Heya, Naoki Kanazawa(参考訳) 高忠実スワップ操作の実装は、接続性に制限のある量子プロセッサ上で量子アルゴリズムを実行する上で極めて重要である。 本稿では,iSWAP と SWAP を分散結合した固定周波数トランスモン量子ビットを用いた効率的なパルス制御,クロスクロス共鳴(CCR)ゲートを提案する。 ccrゲートのキー成分は、結合した2つのキュービットを他のキュービットの周波数で同時に駆動し、xyエンタングルゲートと略等価な高速2キュービット相互作用が、キュービットを強力に駆動することなく実現される。 我々は,CCRゲートの校正手法を開発し,iSWAPゲートとSWAPゲートの性能評価を行った。CCRゲートは平均ゲート誤差が約2倍改善し,クロス共鳴ゲートに基づく従来の分解から10~\%以上のゲート時間を削減した。

Implementation of high-fidelity swapping operations is of vital importance to execute quantum algorithms on a quantum processor with limited connectivity. We present an efficient pulse control technique, cross-cross resonance (CCR) gate, to implement iSWAP and SWAP operations with dispersively-coupled fixed-frequency transmon qubits. The key ingredient of the CCR gate is simultaneously driving both of the coupled qubits at the frequency of another qubit, wherein the fast two-qubit interaction roughly equivalent to the XY entangling gates is realized without strongly driving the qubits. We develop the calibration technique for the CCR gate and evaluate the performance of iSWAP and SWAP gates The CCR gate shows roughly two-fold improvement in the average gate error and more than 10~\% reduction in gate times from the conventional decomposition based on the cross resonance gate.
翻訳日:2023-04-09 20:22:40 公開日:2021-02-26
# 相互作用するトポロジカル絶縁体の誤差補正特性

Error-correction properties of an interacting topological insulator ( http://arxiv.org/abs/2103.00011v1 )

ライセンス: Link先を確認
Amit Jamadagni and Hendrik Weimer(参考訳) 反強磁性相互作用を含む位相絶縁体モデルの位相図を拡張su-schrieffer heegerモデルとして解析する。 そこで我々は,最近導入されたトポロジカルな順序の定義を,トポロジカルな誤り訂正を行うシステムの能力に基づいて採用した。 基底状態波動関数の行列積状態表現のモンテカルロサンプリングを用いて、必要な誤差補正統計を効率的に得ることができることを示す。 具体的には、2つの異なる完全二量化参照状態に対応する2つの異なる対称性保護位相を同定する。 最後に, 熱力学的位相を局所的秩序パラメータに分類するために誤差補正の概念を拡張し, 十分に強い相互作用を行うための位相的に自明な反強磁性相を求める。

We analyze the phase diagram of a topological insulator model including antiferromagnetic interactions in the form of an extended Su-Schrieffer Heeger model. To this end, we employ a recently introduced operational definition of topological order based on the ability of a system to perform topological error correction. We show that the necessary error correction statistics can be obtained efficiently using a Monte-Carlo sampling of a matrix product state representation of the ground state wave function. Specifically, we identify two distinct symmetry-protected topological phases corresponding to two different fully dimerized reference states. Finally, we extend the notion of error correction to classify thermodynamic phases to those exhibiting local order parameters, finding a topologically trivial antiferromagnetic phase for sufficiently strong interactions.
翻訳日:2023-04-09 20:22:23 公開日:2021-02-26
# 属性グラフニューラルネットワークを用いた推薦におけるコールドスタート問題の解法

Solving Cold Start Problem in Recommendation with Attribute Graph Neural Networks ( http://arxiv.org/abs/1912.12398v3 )

ライセンス: Link先を確認
Tieyun Qian, Yile Liang, Qing Li(参考訳) マトリックスコンプリートは、リコメンデータシステムの根底にある古典的な問題である。 伝統的に行列分解に取り組まれている。 近年,ディープラーニングに基づく手法,特にグラフニューラルネットワークは,この問題に対して顕著な進歩を遂げている。 その効果にもかかわらず、既存の手法はユーザ-イテム相互作用グラフのモデリングに重点を置いている。 そのような方法の固有の欠点は、それらの性能が相互作用の密度に結びついていることである。 さらに重要なことに、何のインタラクションも持たないコールドスタートユーザ/itemでは、グラフにこのユーザ/itemへのリンクがないため、そのようなメソッドでは、ユーザ/itemの好みの埋め込みを学習できません。 本研究では,汎用的なインタラクショングラフではなく,属性グラフを活用し,新たなフレームワーク属性グラフニューラルネットワーク(agnn)を開発した。 これにより、コールドスタートユーザ/テーマのための埋め込みの学習が可能になる。 我々のAGNNは、拡張された変分オートエンコーダ構造を用いて属性の分布を学習することで、寒冷なユーザ/イテムに対する好みの埋め込みを生成することができる。 さらに,近辺の様々なモーダルの属性を効果的に集約するために,新しいグラフニューラルネットワーク変種であるgate-GNNを提案する。 2つの実世界のデータセットにおける経験的な結果は、私たちのモデルがコールドスタートのレコメンデーションに大きな改善をもたらし、ウォームスタートシナリオで最先端のパフォーマンスに匹敵することを示している。

Matrix completion is a classic problem underlying recommender systems. It is traditionally tackled with matrix factorization. Recently, deep learning based methods, especially graph neural networks, have made impressive progress on this problem. Despite their effectiveness, existing methods focus on modeling the user-item interaction graph. The inherent drawback of such methods is that their performance is bound to the density of the interactions, which is however usually of high sparsity. More importantly, for a cold start user/item that does not have any interactions, such methods are unable to learn the preference embedding of the user/item since there is no link to this user/item in the graph. In this work, we develop a novel framework Attribute Graph Neural Networks (AGNN) by exploiting the attribute graph rather than the commonly used interaction graph. This leads to the capability of learning embeddings for cold start users/items. Our AGNN can produce the preference embedding for a cold user/item by learning on the distribution of attributes with an extended variational auto-encoder structure. Moreover, we propose a new graph neural network variant, i.e., gated-GNN, to effectively aggregate various attributes of different modalities in a neighborhood. Empirical results on two real-world datasets demonstrate that our model yields significant improvements for cold start recommendations and outperforms or matches state-of-the-arts performance in the warm start scenario.
翻訳日:2023-01-17 13:13:10 公開日:2021-02-26
# 実効予測

Performative Prediction ( http://arxiv.org/abs/2002.06673v4 )

ライセンス: Link先を確認
Juan C. Perdomo, Tijana Zrnic, Celestine Mendler-D\"unner, Moritz Hardt(参考訳) 予測が意思決定をサポートする場合、予測しようとする結果に影響を与える可能性がある。 このような予測は実行可能であり、予測はターゲットに影響を与える。 パフォーマティビティは政策決定においてよく研究されている現象であり、これまで教師付き学習では無視されてきた。 無視された場合、演奏面は望ましくない分布シフトとして、通常再トレーニングで対処される。 我々は,統計学,ゲーム理論,因果関係の概念をまとめて,パフォーマンス予測のためのリスク最小化フレームワークを開発する。 概念新しさ(conception novelty)とは、我々が実行安定性と呼ぶ平衡概念である。 変形安定性は、予測が過去の結果ではなく、予測に作用して現れる将来の結果に対して校正されることを意味する。 我々の主な成果は、ほぼ最小損失の演奏安定点への再訓練の収束に必要な十分条件である。 完全な一般性において、パフォーマンス予測は戦略的分類として知られる設定を厳密に仮定する。 したがって、戦略的フィードバック効果を克服するために、再トレーニングするための最初の十分な条件も与えます。

When predictions support decisions they may influence the outcome they aim to predict. We call such predictions performative; the prediction influences the target. Performativity is a well-studied phenomenon in policy-making that has so far been neglected in supervised learning. When ignored, performativity surfaces as undesirable distribution shift, routinely addressed with retraining. We develop a risk minimization framework for performative prediction bringing together concepts from statistics, game theory, and causality. A conceptual novelty is an equilibrium notion we call performative stability. Performative stability implies that the predictions are calibrated not against past outcomes, but against the future outcomes that manifest from acting on the prediction. Our main results are necessary and sufficient conditions for the convergence of retraining to a performatively stable point of nearly minimal loss. In full generality, performative prediction strictly subsumes the setting known as strategic classification. We thus also give the first sufficient conditions for retraining to overcome strategic feedback effects.
翻訳日:2022-12-31 17:59:36 公開日:2021-02-26
# 経路特異的因果制約を用いた個別公正分類器の学習

Learning Individually Fair Classifier with Path-Specific Causal-Effect Constraint ( http://arxiv.org/abs/2002.06746v4 )

ライセンス: Link先を確認
Yoichi Chikahara, Shinsaku Sakaue, Akinori Fujino, Hisashi Kashima(参考訳) 機械学習は、様々な分野の個人のための意思決定に使われており、センシティブな特徴(例えば、人種や性別)に関して公平性を確保しながら、予測精度を向上する必要がある。 しかし、この問題は複雑な現実のシナリオでは難しいままである。 このような状況下で不公平さを定量化するために、既存の手法は経路固有の因果効果を利用する。 しかし、データに実用的でない機能的な仮定をすることなく、個々の個人に公平性を保証することはできない。 本稿では,個々に公平な分類器を学習するための,より実践的な枠組みを提案する。 限定的な機能的仮定を避けるため、個人不公平(PIU)の確率を定義し、データから推定できるPIUの上界がゼロに近いように制御される最適化問題を解く。 我々は,この手法が個々に公平性を保証できる理由を解明する。 実験の結果, 個別に公平な分類器を僅かな精度で学習できることがわかった。

Machine learning is used to make decisions for individuals in various fields, which require us to achieve good prediction accuracy while ensuring fairness with respect to sensitive features (e.g., race and gender). This problem, however, remains difficult in complex real-world scenarios. To quantify unfairness under such situations, existing methods utilize {\it path-specific causal effects}. However, none of them can ensure fairness for each individual without making impractical functional assumptions on the data. In this paper, we propose a far more practical framework for learning an individually fair classifier. To avoid restrictive functional assumptions, we define the {\it probability of individual unfairness} (PIU) and solve an optimization problem where PIU's upper bound, which can be estimated from data, is controlled to be close to zero. We elucidate why our method can guarantee fairness for each individual. Experimental results show that our method can learn an individually fair classifier at a slight cost of accuracy.
翻訳日:2022-12-31 11:41:24 公開日:2021-02-26
# 相互正則化によるボトムアップ時間行動定位

Bottom-Up Temporal Action Localization with Mutual Regularization ( http://arxiv.org/abs/2002.07358v3 )

ライセンス: Link先を確認
Peisen Zhao, Lingxi Xie, Chen Ju, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) 近年、時間的アクションローカライゼーション(TAL)、すなわち、未トリミングビデオで特定のアクションセグメントを見つけることは、コンピュータビジョンコミュニティの注目を集めている。 talの最先端のソリューションは、3つのアクション指示フェーズ、すなわち開始、継続、終了のフレームレベルの確率を評価し、最終ローカライズのためにこれらの予測を後処理する。 本稿では,これらの段階を個別の分類タスクとしてモデル化することで,それらの間の潜在的な時間的制約を無視した。 これにより、ビデオ入力のフレームに十分な識別情報がない場合、誤った予測や一貫性のない予測につながる可能性がある。 そこで,本研究では,学習手順を相互に正則化するための2つの正則化項を導入する。各フェーズ内の予測を検証するためにinter-phase consistency (intrac)正則化を提案し,これら相間の一貫性を保つためにinter-phase consistency (interc)正則化を提案する。 これら2つの用語を共同最適化することで、フレームワーク全体がエンドツーエンドの最適化プロセスにおいて、潜在的な制約を認識します。 実験は2つの人気のTALデータセットTHUMOS14とActivityNet1.3で行われている。 我々のアプローチは量的にも質的にも明らかにベースラインを上回っている。 提案された正規化は、他のTALメソッド(TSA-NetやPGCNなど)にも一般化される。 コード: https://github.com/peisenzhao/bottom-up-tal-with-mr

Recently, temporal action localization (TAL), i.e., finding specific action segments in untrimmed videos, has attracted increasing attentions of the computer vision community. State-of-the-art solutions for TAL involves evaluating the frame-level probabilities of three action-indicating phases, i.e. starting, continuing, and ending; and then post-processing these predictions for the final localization. This paper delves deep into this mechanism, and argues that existing methods, by modeling these phases as individual classification tasks, ignored the potential temporal constraints between them. This can lead to incorrect and/or inconsistent predictions when some frames of the video input lack sufficient discriminative information. To alleviate this problem, we introduce two regularization terms to mutually regularize the learning procedure: the Intra-phase Consistency (IntraC) regularization is proposed to make the predictions verified inside each phase; and the Inter-phase Consistency (InterC) regularization is proposed to keep consistency between these phases. Jointly optimizing these two terms, the entire framework is aware of these potential constraints during an end-to-end optimization process. Experiments are performed on two popular TAL datasets, THUMOS14 and ActivityNet1.3. Our approach clearly outperforms the baseline both quantitatively and qualitatively. The proposed regularization also generalizes to other TAL methods (e.g., TSA-Net and PGCN). code: https://github.com/PeisenZhao/Bottom-Up-TAL-with-MR
翻訳日:2022-12-30 20:08:50 公開日:2021-02-26
# 老犬に新しいトリックを教える:制約による教師付き学習

Teaching the Old Dog New Tricks: Supervised Learning with Constraints ( http://arxiv.org/abs/2002.10766v2 )

ライセンス: Link先を確認
Fabrizio Detassis, Michele Lombardi, Michela Milano(参考訳) 機械学習に制約サポートを追加することで、安全性や公正性など、データ駆動型AIシステムにおける卓越した問題に対処することが可能になる。 既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。 本稿では,最先端制約解法を直接使用することにより,教師付きml法に対する制約満足度を「指導」することに基づく,異なる補完的戦略について検討する。 実例では、マスターステップ(制約の強化を担当する)とラーナステップ(教師付きMLモデルとトレーニングアルゴリズムを併用できる)を交互に行う分解方式を用いる。 このプロセスは一般に近似的な制約満足度をもたらし、収束特性の確立は困難である。この事実にもかかわらず、我々のアプローチの「Na\」的なセットアップでさえ、フェアネス制約のあるMLタスクや、合成制約のある古典的データセットでうまく機能することを実証的に見出した。

Adding constraint support in Machine Learning has the potential to address outstanding issues in data-driven AI systems, such as safety and fairness. Existing approaches typically apply constrained optimization techniques to ML training, enforce constraint satisfaction by adjusting the model design, or use constraints to correct the output. Here, we investigate a different, complementary, strategy based on "teaching" constraint satisfaction to a supervised ML method via the direct use of a state-of-the-art constraint solver: this enables taking advantage of decades of research on constrained optimization with limited effort. In practice, we use a decomposition scheme alternating master steps (in charge of enforcing the constraints) and learner steps (where any supervised ML model and training algorithm can be employed). The process leads to approximate constraint satisfaction in general, and convergence properties are difficult to establish; despite this fact, we found empirically that even a na\"ive setup of our approach performs well on ML tasks with fairness constraints, and on classical datasets with synthetic constraints.
翻訳日:2022-12-28 20:15:54 公開日:2021-02-26
# ドート生成核のスペクトル解析

A Spectral Analysis of Dot-product Kernels ( http://arxiv.org/abs/2002.12640v2 )

ライセンス: Link先を確認
Meyer Scetbon and Zaid Harchaoui(参考訳) 合成ドット積カーネルに関連する積分作用素の固有値減衰推定について述べる。 推定値は、球上でのパワーシリーズカーネルのために確立された以前のものより改善される。 これにより、対応する再生核ヒルベルト空間における球の体積を得ることができる。 合成ドット積カーネルによる統計的推定結果について考察し, 組成数とカーネルの滑らかさによる近似誤差と統計誤差との興味深いトレードオフを明らかにする。

We present eigenvalue decay estimates of integral operators associated with compositional dot-product kernels. The estimates improve on previous ones established for power series kernels on spheres. This allows us to obtain the volumes of balls in the corresponding reproducing kernel Hilbert spaces. We discuss the consequences on statistical estimation with compositional dot product kernels and highlight interesting trade-offs between the approximation error and the statistical error depending on the number of compositions and the smoothness of the kernels.
翻訳日:2022-12-28 01:27:18 公開日:2021-02-26
# リカレントニューラルネットワークによる未知パラメータを持つ力学系のモデルフリーシミュレーションのための変分推論定式化

Variational inference formulation for a model-free simulation of a dynamical system with unknown parameters by a recurrent neural network ( http://arxiv.org/abs/2003.01184v2 )

ライセンス: Link先を確認
Kyongmin Yeo, Dylan E. C. Grullon, Fan-Keng Sun, Duane S. Boning, Jayant R. Kalagnanam(参考訳) 本稿では,未知のパラメータを持つ力学系の「モデルフリー」シミュレーションのための繰り返しニューラルネットワークを提案する。 ディープラーニングモデルは,非線形時間行進演算子と未知パラメータの影響を時系列データセットから共同学習することを目的としている。 時系列データセットは、パラメータの範囲に対する軌道のアンサンブルで構成されていると仮定する。 未知パラメータを確率変数として考慮し、統計的推論問題として定式化する。 未知パラメータの効果をモデル化するために潜在変数を導入し、時間マーチング演算子の確率モデルと潜在変数の近似後続分布を同時に訓練するために変分推論法を用いる。 因数分布を用いて後部を近似する古典的変分推論とは異なり、エンコーダ繰り返しニューラルネットワークによって補足されたフィードフォワードニューラルネットワークを用いて、より柔軟な確率的モデルを構築する。 近似した後続分布は、未知のパラメータの影響を特定するために軌道上で推論する。 時間マーチング演算子は、入力変数の1つとして近似後分布からサンプリングされた潜在状態をとり、潜在変数に条件付けられた確率分布の時間発展を計算するリカレントニューラルネットワークによって近似される。 数値実験では,提案する変分推論モデルが,標準リカレントニューラルネットワークよりも正確なシミュレーションを行うことが示された。 提案したディープラーニングモデルは,乱数パラメータの次元を正確に同定し,複雑な時系列データの表現を学習することができる。

We propose a recurrent neural network for a "model-free" simulation of a dynamical system with unknown parameters without prior knowledge. The deep learning model aims to jointly learn the nonlinear time marching operator and the effects of the unknown parameters from a time series dataset. We assume that the time series data set consists of an ensemble of trajectories for a range of the parameters. The learning task is formulated as a statistical inference problem by considering the unknown parameters as random variables. A latent variable is introduced to model the effects of the unknown parameters, and a variational inference method is employed to simultaneously train probabilistic models for the time marching operator and an approximate posterior distribution for the latent variable. Unlike the classical variational inference, where a factorized distribution is used to approximate the posterior, we employ a feedforward neural network supplemented by an encoder recurrent neural network to develop a more flexible probabilistic model. The approximate posterior distribution makes an inference on a trajectory to identify the effects of the unknown parameters. The time marching operator is approximated by a recurrent neural network, which takes a latent state sampled from the approximate posterior distribution as one of the input variables, to compute the time evolution of the probability distribution conditioned on the latent variable. In the numerical experiments, it is shown that the proposed variational inference model makes a more accurate simulation compared to the standard recurrent neural networks. It is found that the proposed deep learning model is capable of correctly identifying the dimensions of the random parameters and learning a representation of complex time series data.
翻訳日:2022-12-27 04:14:03 公開日:2021-02-26
# 非線形関数型出力回帰:辞書アプローチ

Nonlinear Functional Output Regression: a Dictionary Approach ( http://arxiv.org/abs/2003.01432v4 )

ライセンス: Link先を確認
Dimitri Bouche, Marianne Clausel, Fran\c{c}ois Roueff and Florence d'Alch\'e-Buc(参考訳) 機能的出力回帰に対処するために,機能的損失に基づいて経験的リスクを最小限に抑えつつ,辞書上に拡張された関数を予測する新しい辞書ベースの手法であるプロジェクション学習(PL)を導入する。 PLは非直交辞書を使用でき、辞書学習と組み合わせることができるため、ベクトル的損失に依存する拡張ベースのアプローチよりもはるかに柔軟である。 この一般的な方法は、kpl(kernel-based projection learning)としてベクトル値関数のカーネルヒルベルト空間を再現することでインスタンス化される。 機能的二乗損失については、完全観測出力関数と部分観測出力関数の2つの閉形式推定器が提案されている。 どちらも理論的には過剰なリスク分析によって裏付けられている。 そして、微分可能な基底損失に基づく積分損失のより一般的な設定において、完全および部分的な出力関数の1次最適化を用いてKPLを実装した。 最終的に、提案されたアルゴリズムのいくつかのロバスト性側面は、おもちゃのデータセットで強調され、2つの実データセットの研究により、他の非線形アプローチと比べて競争力があることが示された。 特に、正方形損失と学習辞書を用いて、kplは特に計算コストと性能のトレードオフを享受している。

To address functional-output regression, we introduce projection learning (PL), a novel dictionary-based approach that learns to predict a function that is expanded on a dictionary while minimizing an empirical risk based on a functional loss. PL makes it possible to use non orthogonal dictionaries and can then be combined with dictionary learning; it is thus much more flexible than expansion-based approaches relying on vectorial losses. This general method is instantiated with reproducing kernel Hilbert spaces of vector-valued functions as kernel-based projection learning (KPL). For the functional square loss, two closed-form estimators are proposed, one for fully observed output functions and the other for partially observed ones. Both are backed theoretically by an excess risk analysis. Then, in the more general setting of integral losses based on differentiable ground losses, KPL is implemented using first-order optimization for both fully and partially observed output functions. Eventually, several robustness aspects of the proposed algorithms are highlighted on a toy dataset; and a study on two real datasets shows that they are competitive compared to other nonlinear approaches. Notably, using the square loss and a learnt dictionary, KPL enjoys a particularily attractive trade-off between computational cost and performances.
翻訳日:2022-12-26 21:59:27 公開日:2021-02-26
# バイヤー・セラー交渉結果の早期予測

Exploring Early Prediction of Buyer-Seller Negotiation Outcomes ( http://arxiv.org/abs/2004.02363v2 )

ライセンス: Link先を確認
Kushal Chawla, Gale Lucas, Jonathan May, Jonathan Gratch(参考訳) 人間と交渉するエージェントは、教育と会話AIに幅広い応用を見出す。 ヒューマンエージェントの交渉におけるほとんどの取り組みは、コミュニケーションのための制限付きメニュー駆動インターフェースに依存している。 言語に基づく交渉システムの研究を進めるために,モデルがアクセス可能な発話の分節を変化させることで,買い手と売り手の交渉成果を早期に予測する新たな課題を探求する。 文テンプレートを用いた事前学習言語モデルに非言語的タスクコンテキストを組み込むことにより、従来の特徴に基づく手法による早期予測の実現可能性を検討する。 我々は、タスク固有の価格情報とは別に、言語的特徴がよりよい予測にどの程度役立つかをさらに定量化する。 最後に、事前訓練されたモデルを探索することで、予測性能に寄与する信頼や合意といった特定の特徴を特定するのに役立ちます。

Agents that negotiate with humans find broad applications in pedagogy and conversational AI. Most efforts in human-agent negotiations rely on restrictive menu-driven interfaces for communication. To advance the research in language-based negotiation systems, we explore a novel task of early prediction of buyer-seller negotiation outcomes, by varying the fraction of utterances that the model can access. We explore the feasibility of early prediction by using traditional feature-based methods, as well as by incorporating the non-linguistic task context into a pretrained language model using sentence templates. We further quantify the extent to which linguistic features help in making better predictions apart from the task-specific price information. Finally, probing the pretrained model helps us to identify specific features, such as trust and agreement, that contribute to the prediction performance.
翻訳日:2022-12-16 07:11:07 公開日:2021-02-26
# 画像に対する時間信号:ディープラーニング画像処理アルゴリズムによる産業資産の状態監視

Temporal signals to images: Monitoring the condition of industrial assets with deep learning image processing algorithms ( http://arxiv.org/abs/2005.07031v4 )

ライセンス: Link先を確認
Gabriel Rodriguez Garcia, Gabriel Michau, M\'elanie Ducoffe, Jayant Sen Gupta, Olga Fink(参考訳) 時系列の異常を検出する能力は、多くのアプリケーションドメインで非常に価値があると考えられている。 時系列オブジェクトのシーケンシャルな性質は、追加の機能の複雑さに責任を持ち、最終的にタスクを解決するために特別なアプローチを必要とする。 時間領域外に位置する時系列の本質的特性は、時間領域に変換が適用されていない場合、最先端の異常検出手法で捉えにくいことが多い。 コンピュータビジョンにおけるディープラーニング手法の成功に触発されて、いくつかの研究は時系列を画像のような表現に変換し、ディープラーニングモデルの入力として使用することを提案し、分類タスクにおいて非常に有望な結果をもたらした。 本稿ではまず,文献に見られる画像符号化手法の信号について概説する。 第2に,大規模なデータセットの可変性に対してより堅牢にするために,元の定式化のいくつかを変更することを提案する。 第三に、共通の教師なしタスクに基づいてそれらを比較し、同じディープラーニングアーキテクチャで使用する場合、エンコーディングの選択が結果にどのように影響するかを示す。 そこで,提案した修正を伴わずに6つの符号化アルゴリズムを比較した。 選択された符号化方法は、Gramian Angular Field、Markov Transition Field、Recurrentence plot、グレイスケールエンコーディング、Spectrogram、 scalogramである。 また,他の深層学習モデルの入力として使用される生信号との比較を行った。 いくつかのエンコーディングは競争上の優位性があり、ディープラーニングフレームワーク内で検討する価値があることを実証する。 比較は、エアバスSASが収集、リリースしたデータセット上で行われ、実際のヘリコプターの飛行試験から非常に複雑な振動の測定結果を含んでいる。 異なるエンコーディングは、異常検出の競合結果を提供する。

The ability to detect anomalies in time series is considered highly valuable in numerous application domains. The sequential nature of time series objects is responsible for an additional feature complexity, ultimately requiring specialized approaches in order to solve the task. Essential characteristics of time series, situated outside the time domain, are often difficult to capture with state-of-the-art anomaly detection methods when no transformations have been applied to the time series. Inspired by the success of deep learning methods in computer vision, several studies have proposed transforming time series into image-like representations, used as inputs for deep learning models, and have led to very promising results in classification tasks. In this paper, we first review the signal to image encoding approaches found in the literature. Second, we propose modifications to some of their original formulations to make them more robust to the variability in large datasets. Third, we compare them on the basis of a common unsupervised task to demonstrate how the choice of the encoding can impact the results when used in the same deep learning architecture. We thus provide a comparison between six encoding algorithms with and without the proposed modifications. The selected encoding methods are Gramian Angular Field, Markov Transition Field, recurrence plot, grey scale encoding, spectrogram, and scalogram. We also compare the results achieved with the raw signal used as input for another deep learning model. We demonstrate that some encodings have a competitive advantage and might be worth considering within a deep learning framework. The comparison is performed on a dataset collected and released by Airbus SAS, containing highly complex vibration measurements from real helicopter flight tests. The different encodings provide competitive results for anomaly detection.
翻訳日:2022-12-03 04:47:38 公開日:2021-02-26
# 制御可能な深層生成モデルと分子動力学による抗菌の発見の促進

Accelerating Antimicrobial Discovery with Controllable Deep Generative Models and Molecular Dynamics ( http://arxiv.org/abs/2005.11248v2 )

ライセンス: Link先を確認
Payel Das, Tom Sercu, Kahini Wadhawan, Inkit Padhi, Sebastian Gehrmann, Flaviu Cipcigan, Vijil Chenthamarakshan, Hendrik Strobelt, Cicero dos Santos, Pin-Yu Chen, Yi Yan Yang, Jeremy Tan, James Hedrick, Jason Crain, Aleksandra Mojsilovic(参考訳) デ・ノボの治療設計は、大規模な化学レパートリーと、高い広スペクトルの有効性と毒性の低い複数の制約によって挑戦されている。 そこで本研究では,属性制御分子生成のための効率的な計算手法であるclass (control latent attribute space sampling)を提案する。 深層学習分類器を用いて生成した分子を,原子論的シミュレーションから得られた新しい特徴と組み合わせて表示する。 提案手法は, 抗生物質耐性に対処する薬剤候補である, 強い広スペクトル活性を有する非毒性抗菌性ペプチド(AMP)を設計するためのものである。 わずか20の配列の合成と試験により、多剤耐性と抗生物質耐性のK. pneumoniaeを含むグラム陽性およびグラム陰性病原体に対して高い活性を有する2つの新規およびミニマリストのAMPが膜孔形成を介して同定された。 両抗菌薬はin vitroおよびin vivo毒性が低く、薬剤耐性の発症を緩和する。 提案手法は,強力な広帯域抗菌薬の迅速かつ効率的な発見を可能にする。

De novo therapeutic design is challenged by a vast chemical repertoire and multiple constraints, e.g., high broad-spectrum potency and low toxicity. We propose CLaSS (Controlled Latent attribute Space Sampling) - an efficient computational method for attribute-controlled generation of molecules, which leverages guidance from classifiers trained on an informative latent space of molecules modeled using a deep generative autoencoder. We screen the generated molecules for additional key attributes by using deep learning classifiers in conjunction with novel features derived from atomistic simulations. The proposed approach is demonstrated for designing non-toxic antimicrobial peptides (AMPs) with strong broad-spectrum potency, which are emerging drug candidates for tackling antibiotic resistance. Synthesis and testing of only twenty designed sequences identified two novel and minimalist AMPs with high potency against diverse Gram-positive and Gram-negative pathogens, including one multidrug-resistant and one antibiotic-resistant K. pneumoniae, via membrane pore formation. Both antimicrobials exhibit low in vitro and in vivo toxicity and mitigate the onset of drug resistance. The proposed approach thus presents a viable path for faster and efficient discovery of potent and selective broad-spectrum antimicrobials.
翻訳日:2022-11-30 08:49:28 公開日:2021-02-26
# レイヤアクティベーションの復号化によるニューラルネットワークの説明

Explaining Neural Networks by Decoding Layer Activations ( http://arxiv.org/abs/2005.13630v3 )

ライセンス: Link先を確認
Johannes Schneider and Michalis Vlachos(参考訳) ニューラルネットワーク(NN)における任意の層の出力の理解を容易にする「CLAssifier-DECoder」アーキテクチャ(\emph{ClaDec})を提案する。 これはデコーダを使用して、与えられたレイヤの非解釈可能な表現を、人間が慣れ親しんだドメインに近い表現に変換する。 画像認識問題において、emph{cladec}の再構成された画像と、参照となる従来のオートエンコーダ(ae)の画像とを対比することにより、どの情報がレイヤーで表現されているかを認識することができる。 また、人間の解釈可能性と忠実性の間のトレードオフを可能にするために、 \emph{cladec}を拡張します。 畳み込みNNを用いた画像分類手法の評価を行った。 分類器からのエンコーディングを用いて再構成した可視化は,従来のAEよりも,より関連性の高い情報を取得することを示す。 関連するコードは \url{https://github.com/johntailor/cladec} で入手できる。

We present a `CLAssifier-DECoder' architecture (\emph{ClaDec}) which facilitates the comprehension of the output of an arbitrary layer in a neural network (NN). It uses a decoder to transform the non-interpretable representation of the given layer to a representation that is more similar to the domain a human is familiar with. In an image recognition problem, one can recognize what information is represented by a layer by contrasting reconstructed images of \emph{ClaDec} with those of a conventional auto-encoder(AE) serving as reference. We also extend \emph{ClaDec} to allow the trade-off between human interpretability and fidelity. We evaluate our approach for image classification using Convolutional NNs. We show that reconstructed visualizations using encodings from a classifier capture more relevant information for classification than conventional AEs. Relevant code is available at \url{https://github.com/JohnTailor/ClaDec}
翻訳日:2022-11-28 08:20:39 公開日:2021-02-26
# 分割選好による学習と学習:プラケット・ルーシモデルの高速推定

Learning-to-Rank with Partitioned Preference: Fast Estimation for the Plackett-Luce Model ( http://arxiv.org/abs/2006.05067v3 )

ライセンス: Link先を確認
Jiaqi Ma, Xinyang Yi, Weijing Tang, Zhe Zhao, Lichan Hong, Ed H. Chi, Qiaozhu Mei(参考訳) 分割された選好を持つデータについて,placett-luce (pl)モデルに基づくlistwise learning-to-rank (ltr) について検討する。 m$パーティションを持つ$n$アイテムが与えられると、plモデルの下で分割されたプライバシを持つデータの可能性を計算すると、$o(n+s!)$という時間の複雑さがあり、$s$は最上位の$m-1$パーティションの最大サイズである。 この計算課題は、PLベースのリストワイズ LTR メソッドの大半を分割された選好の特別な場合、トップ$K$ランキング、トップ$K$アイテムの正確な順序が知られている場合に制限する。 本稿ではPLモデルのランダムなユーティリティモデル定式化を活用し、時間複雑性$O(N+S^3)$で確率とその勾配を計算するための効率的な数値積分手法を提案する。 提案手法はよく知られたLTRベースラインよりも優れており,実世界のeXtreme Multi-Label分類タスクへのシミュレーション実験と応用の両方を通して,スケーラブルであることを示す。

We investigate the Plackett-Luce (PL) model based listwise learning-to-rank (LTR) on data with partitioned preference, where a set of items are sliced into ordered and disjoint partitions, but the ranking of items within a partition is unknown. Given $N$ items with $M$ partitions, calculating the likelihood of data with partitioned preference under the PL model has a time complexity of $O(N+S!)$, where $S$ is the maximum size of the top $M-1$ partitions. This computational challenge restrains most existing PL-based listwise LTR methods to a special case of partitioned preference, top-$K$ ranking, where the exact order of the top $K$ items is known. In this paper, we exploit a random utility model formulation of the PL model, and propose an efficient numerical integration approach for calculating the likelihood and its gradients with a time complexity $O(N+S^3)$. We demonstrate that the proposed method outperforms well-known LTR baselines and remains scalable through both simulation experiments and applications to real-world eXtreme Multi-Label classification tasks.
翻訳日:2022-11-23 13:43:04 公開日:2021-02-26
# クエリトレーニング: 隠れた変数を持つ無向グラフィカルモデルの限界を推測するより悪いモデルを学ぶ

Query Training: Learning a Worse Model to Infer Better Marginals in Undirected Graphical Models with Hidden Variables ( http://arxiv.org/abs/2006.06803v4 )

ライセンス: Link先を確認
Miguel L\'azaro-Gredilla, Wolfgang Lehrach, Nishad Gothoskar, Guangyao Zhou, Antoine Dedieu, Dileep George(参考訳) 確率的グラフィカルモデル(probabilistic graphical models、pgms)は、フレキシブルな方法でクエリできる知識のコンパクトな表現を提供する。 しかし、隠れ変数を持つ無向PGMSを使用する場合、最も単純なモデルを除いて2つのエラー源は概して複雑である。 (a)学習エラー(分割関数の計算と隠れた変数の統合は難解である)、 (b)予測誤差(正確な推論も難解) ここでは、近似推論アルゴリズムに最適化されたPGMを学習するメカニズムであるクエリトレーニング(QT)を紹介する。 結果として得られるPGMは(可能性によって測定される)データのより悪いモデルであるが、与えられた推論アルゴリズムに対してより良いマージンを生成するように調整されている。 以前の作業とは異なり、我々のアプローチは元のpgmのクエリの柔軟性を保っている: テスト時には、任意の変数の限界を部分的な証拠で見積もることができる。 また,複数のデータセットにまたがる3つの無向モデルでテストした場合,qt を用いて隠れた変数を持つ 8-connected grid markov 確率場を学習できることを実験的に証明した。

Probabilistic graphical models (PGMs) provide a compact representation of knowledge that can be queried in a flexible way: after learning the parameters of a graphical model once, new probabilistic queries can be answered at test time without retraining. However, when using undirected PGMS with hidden variables, two sources of error typically compound in all but the simplest models (a) learning error (both computing the partition function and integrating out the hidden variables is intractable); and (b) prediction error (exact inference is also intractable). Here we introduce query training (QT), a mechanism to learn a PGM that is optimized for the approximate inference algorithm that will be paired with it. The resulting PGM is a worse model of the data (as measured by the likelihood), but it is tuned to produce better marginals for a given inference algorithm. Unlike prior works, our approach preserves the querying flexibility of the original PGM: at test time, we can estimate the marginal of any variable given any partial evidence. We demonstrate experimentally that QT can be used to learn a challenging 8-connected grid Markov random field with hidden variables and that it consistently outperforms the state-of-the-art AdVIL when tested on three undirected models across multiple datasets.
翻訳日:2022-11-22 12:37:54 公開日:2021-02-26
# ゴール条件強化学習における隠れ期待の最大化

Hindsight Expectation Maximization for Goal-conditioned Reinforcement Learning ( http://arxiv.org/abs/2006.07549v2 )

ライセンス: Link先を確認
Yunhao Tang, Alp Kucukelbir(参考訳) 本稿では、目標条件付きrlのためのグラフィカルモデルフレームワークを提案し、rl目標の下限で動作するemアルゴリズムを提案する。 e-stepは、彼女のような 'learning in hindsight' テクニックが極めて低い目標条件の報酬を扱う方法の自然な解釈を提供する。 Mステップは、教師付き学習更新にポリシー最適化を還元し、画像などの高次元入力に対するエンドツーエンドトレーニングを大幅に安定化する。 組み合わせアルゴリズムhEMは, 目標条件付きベンチマークにおいて, モデルフリーのベースラインを著しく上回っていることを示す。

We propose a graphical model framework for goal-conditioned RL, with an EM algorithm that operates on the lower bound of the RL objective. The E-step provides a natural interpretation of how 'learning in hindsight' techniques, such as HER, to handle extremely sparse goal-conditioned rewards. The M-step reduces policy optimization to supervised learning updates, which greatly stabilizes end-to-end training on high-dimensional inputs such as images. We show that the combined algorithm, hEM significantly outperforms model-free baselines on a wide range of goal-conditioned benchmarks with sparse rewards.
翻訳日:2022-11-21 20:32:01 公開日:2021-02-26
# コミュニティ生成ストリートレベル画像からの生体指標の予測

Predicting Livelihood Indicators from Community-Generated Street-Level Imagery ( http://arxiv.org/abs/2006.08661v6 )

ライセンス: Link先を確認
Jihyeon Lee, Dylan Grosz, Burak Uzkent, Sicheng Zeng, Marshall Burke, David Lobell, Stefano Ermon(参考訳) 政府や他の大企業による主要な決定は、大衆の幸福度の測定に依存するが、そのような測定を大規模に行うことは高価であり、発展途上国の多くではまれである。 本研究では,一般の街頭画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能な手法を提案する。 このような画像は、従来の調査方法と比較して安価に収集され、より頻繁に更新され、また、様々な生活指標に関する妥当な情報を含んでいる。 街路レベルの画像から学習する2つのアプローチを提案する。(1)情報的オブジェクトを検出してマルチハウスホールドクラスタ表現を生成する方法、(2)画像間の関係をキャプチャするグラフベースのアプローチ。 モデルにとって何が重要か、どのように使用されるのかを視覚化することで、エンドユーザの組織がモデルを理解するのを助け、安価に得られた道路機能を使用するインデックス推定の代替アプローチを提供することができます。 全国的な世帯調査で収集した地上データと比較することにより,インドとケニアの2つの異なる国において,貧困,人口,健康の指標を正確に予測する手法の性能と,その拡張性について実証した。 私たちのコードはhttps://github.com/sustainlab-group/mapillarygcnで利用可能です。

Major decisions from governments and other large organizations rely on measurements of the populace's well-being, but making such measurements at a broad scale is expensive and thus infrequent in much of the developing world. We propose an inexpensive, scalable, and interpretable approach to predict key livelihood indicators from public crowd-sourced street-level imagery. Such imagery can be cheaply collected and more frequently updated compared to traditional surveying methods, while containing plausibly relevant information for a range of livelihood indicators. We propose two approaches to learn from the street-level imagery: (1) a method that creates multi-household cluster representations by detecting informative objects and (2) a graph-based approach that captures the relationships between images. By visualizing what features are important to a model and how they are used, we can help end-user organizations understand the models and offer an alternate approach for index estimation that uses cheaply obtained roadway features. By comparing our results against ground data collected in nationally-representative household surveys, we demonstrate the performance of our approach in accurately predicting indicators of poverty, population, and health and its scalability by testing in two different countries, India and Kenya. Our code is available at https://github.com/sustainlab-group/mapillarygcn.
翻訳日:2022-11-21 04:35:33 公開日:2021-02-26
# 経験的PACベイを用いた確率力学の部分的学習

Learning Partially Known Stochastic Dynamics with Empirical PAC Bayes ( http://arxiv.org/abs/2006.09914v3 )

ライセンス: Link先を確認
Manuel Haussmann, Sebastian Gerwinn, Andreas Look, Barbara Rakitsch, Melih Kandemir(参考訳) 神経確率微分方程式は、ドリフトと拡散項にニューラルネットワークを割り当てた力学環境をモデル化する。 非線形性の高表現力は、自由パラメータの大きな集合の同定における不安定さを犠牲にしている。 本稿では,これらのモデルの予測精度を3段階で向上させる手法を提案する。 一 確率的重みを仮定して認識的不確実性を説明すること。 二 状態力学に関する部分的知識の編入、及び 三 結果のハイブリッドモデルをPAC-ベイズ一般化境界から導出した目的により訓練すること。 実験では、このレシピは、部分的およびノイズの多い事前知識を改良されたモデル適合に効果的に翻訳する。

Neural Stochastic Differential Equations model a dynamical environment with neural nets assigned to their drift and diffusion terms. The high expressive power of their nonlinearity comes at the expense of instability in the identification of the large set of free parameters. This paper presents a recipe to improve the prediction accuracy of such models in three steps: i) accounting for epistemic uncertainty by assuming probabilistic weights, ii) incorporation of partial knowledge on the state dynamics, and iii) training the resultant hybrid model by an objective derived from a PAC-Bayesian generalization bound. We observe in our experiments that this recipe effectively translates partial and noisy prior knowledge into an improved model fit.
翻訳日:2022-11-19 19:43:00 公開日:2021-02-26
# 非線形ベクトル自己回帰過程の独立イノベーション解析

Independent Innovation Analysis for Nonlinear Vector Autoregressive Process ( http://arxiv.org/abs/2006.10944v2 )

ライセンス: Link先を確認
Hiroshi Morioka, Hermanni H\"alv\"a, Aapo Hyv\"arinen(参考訳) 非線形ベクトル自己回帰(NVAR)モデルは、非線形力学系から得られる多変量時系列を解析するための魅力的なフレームワークを提供する。 しかし、ダイナミクスを駆動することで重要な役割を果たす革新(またはエラー)は、ほとんど常に加法的であると仮定される。 付加性はモデルの一般性を大幅に制限し、革新間の非線形相互作用を持つ一般的なNVARプロセスの解析を妨げる。 本稿では, 独立イノベーション分析(IIA)と呼ばれる, 完全汎用NVARからイノベーションを推定するフレームワークを提案する。 我々は、革新の相互独立性と、補助変数による変調を仮定する(これはしばしば時間指数として、単に非定常性として解釈される)。 iiaは任意の非線形性を持つ革新の識別性が、置換および可逆的非線形性まで保証されることを示した。 また,補助変数の種類に応じて3つの推定フレームワークを提案する。 したがって、一般のNVARに対して最初の厳密な識別可能性結果を提供するとともに、そのようなモデルを学習するための非常に一般的なツールを提供する。

The nonlinear vector autoregressive (NVAR) model provides an appealing framework to analyze multivariate time series obtained from a nonlinear dynamical system. However, the innovation (or error), which plays a key role by driving the dynamics, is almost always assumed to be additive. Additivity greatly limits the generality of the model, hindering analysis of general NVAR processes which have nonlinear interactions between the innovations. Here, we propose a new general framework called independent innovation analysis (IIA), which estimates the innovations from completely general NVAR. We assume mutual independence of the innovations as well as their modulation by an auxiliary variable (which is often taken as the time index and simply interpreted as nonstationarity). We show that IIA guarantees the identifiability of the innovations with arbitrary nonlinearities, up to a permutation and component-wise invertible nonlinearities. We also propose three estimation frameworks depending on the type of the auxiliary variable. We thus provide the first rigorous identifiability result for general NVAR, as well as very general tools for learning such models.
翻訳日:2022-11-19 03:49:36 公開日:2021-02-26
# 隠れたシフトドメインによるアクティブオンライン学習

Active Online Learning with Hidden Shifting Domains ( http://arxiv.org/abs/2006.14481v2 )

ライセンス: Link先を確認
Yining Chen, Haipeng Luo, Tengyu Ma, Chicheng Zhang(参考訳) オンライン機械学習システムはドメインシフトに適応する必要がある。 一方、各時刻にラベルを取得するのは費用がかかる。 我々は,データストリームが隠されたドメインの混在する環境で,その後悔とラベルクエリの数とを適応的にバランスさせる,驚くほど単純なアルゴリズムを提案する。 斜め逆境を持つオンライン線形回帰では,隠れた領域の持続時間と次元に依存する厳密なトレードオフを提供する。 我々のアルゴリズムは、異なる領域からの入力のインターリービングを適応的に処理できる。 また,有界楕円次元と適応逆数を持つ仮説クラスに対して,この結果を非線形回帰に一般化する。 合成および現実的なデータセットの実験により,同程度のラベル付け予算を持つ不均一なクエリや欲求的なクエリよりも,アルゴリズムの後悔度が低いことを示す。

Online machine learning systems need to adapt to domain shifts. Meanwhile, acquiring label at every timestep is expensive. We propose a surprisingly simple algorithm that adaptively balances its regret and its number of label queries in settings where the data streams are from a mixture of hidden domains. For online linear regression with oblivious adversaries, we provide a tight tradeoff that depends on the durations and dimensionalities of the hidden domains. Our algorithm can adaptively deal with interleaving spans of inputs from different domains. We also generalize our results to non-linear regression for hypothesis classes with bounded eluder dimension and adaptive adversaries. Experiments on synthetic and realistic datasets demonstrate that our algorithm achieves lower regret than uniform queries and greedy queries with equal labeling budget.
翻訳日:2022-11-17 03:11:49 公開日:2021-02-26
# ゲーム理論帰属アルゴリズムにおける経路選択の影響の検討

An exploration of the influence of path choice in game-theoretic attribution algorithms ( http://arxiv.org/abs/2007.04169v2 )

ライセンス: Link先を確認
Geoff Ward, Sean Kamkar, Jay Budzik(参考訳) 我々は、アトミック(Shapley, 1953)理論と無限小(Aumann and Shapley, 1974)ゲームに基づく機械学習説明可能性法を比較し、積分経路のモデルと選択が結果の特徴属性にどのように影響するかを理論的および実験的に検討する。 Sundararajan and Najmi, 2019; Janzing et al., 2019; Chen et al., 2019) と Generalized Integrated Gradients (GIG) (Merrill et al., 2019) による利害関係の相違について理解を深めるため、介入関係のShapleyは$n!に沿ったマルチパス統合に相当することに注意する。 モデル入力機能の数を$n$とするパス。 ストークの定理を適用すると、この2つの方法の経路対称性は、モデルが個々の特徴の分離可能な関数の和と2つの特徴積の和からなる場合に同じ帰結をもたらすことが分かる。 次に、データ不足の程度が異なる一連の実験を行い、介入型シャプリーのマルチパスアプローチがAumann-Shapleyの単一直線パスよりも一貫性の低い帰属をもたらすことを示す。 これは、介入型Shapleyが採用する複数のパスが、トレーニングデータ多様体から遠ざかっているため、モデルがほとんどサポートされていない領域を通過しやすいためである。 したがって、より有意義な経路選択がない場合には、ほぼ常にデータ多様体に近づくので、直線経路を提唱する。 直線経路帰属アルゴリズムのうち、GIGは決定木によってモデル化されたアトミックゲームに対してシャプリー値が得られるため、一意に堅牢である。

We compare machine learning explainability methods based on the theory of atomic (Shapley, 1953) and infinitesimal (Aumann and Shapley, 1974) games, in a theoretical and experimental investigation into how the model and choice of integration path can influence the resulting feature attributions. To gain insight into differences in attributions resulting from interventional Shapley values (Sundararajan and Najmi, 2019; Janzing et al., 2019; Chen et al., 2019) and Generalized Integrated Gradients (GIG) (Merrill et al., 2019) we note interventional Shapley is equivalent to a multi-path integration along $n!$ paths where $n$ is the number of model input features. Applying Stoke's theorem we show that the path symmetry of these two methods results in the same attributions when the model is composed of a sum of separable functions of individual features and a sum of two-feature products. We then perform a series of experiments with varying degrees of data missingness to demonstrate how interventional Shapley's multi-path approach can yield less consistent attributions than the single straight-line path of Aumann-Shapley. We argue this is because the multiple paths employed by interventional Shapley extend away from the training data manifold and are therefore more likely to pass through regions where the model has little support. In the absence of a more meaningful path choice, we therefore advocate the straight-line path since it will almost always pass closer to the data manifold. Among straight-line path attribution algorithms, GIG is uniquely robust since it will still yield Shapley values for atomic games modeled by decision trees.
翻訳日:2022-11-12 09:45:26 公開日:2021-02-26
# 非パラメトリック状態エントロピー推定の政策勾配によるタスク非依存探索

Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State Entropy Estimate ( http://arxiv.org/abs/2007.04640v2 )

ライセンス: Link先を確認
Mirco Mutti, Lorenzo Pratissoli, Marcello Restelli(参考訳) 報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学ぶために追求する本質的な目的は何だろうか。 本稿では,有限水平軌道によって引き起こされる状態分布のエントロピーが妥当な対象であると主張する。 特に,非パラメトリックな$k$-nearestの隣人の状態分布エントロピー推定を最大化するポリシを学ぶために,新しい実用的なポリシー探索アルゴリズムであるmaximum entropy policy optimization (mepol)を提案する。 既知の手法とは対照的に、MEPOLは完全にモデルフリーであり、いかなるポリシーの状態分布もモデル遷移ダイナミクスも必要としない。 次に,mepolが高次元連続制御領域で最大エントロピー探索ポリシーを学習できることと,このポリシーが下流の様々な有意義な報酬ベースのタスクの学習をいかに促進しているかを実証的に示す。

In a reward-free environment, what is a suitable intrinsic objective for an agent to pursue so that it can learn an optimal task-agnostic exploration policy? In this paper, we argue that the entropy of the state distribution induced by finite-horizon trajectories is a sensible target. Especially, we present a novel and practical policy-search algorithm, Maximum Entropy POLicy optimization (MEPOL), to learn a policy that maximizes a non-parametric, $k$-nearest neighbors estimate of the state distribution entropy. In contrast to known methods, MEPOL is completely model-free as it requires neither to estimate the state distribution of any policy nor to model transition dynamics. Then, we empirically show that MEPOL allows learning a maximum-entropy exploration policy in high-dimensional, continuous-control domains, and how this policy facilitates learning a variety of meaningful reward-based tasks downstream.
翻訳日:2022-11-12 03:21:47 公開日:2021-02-26
# 最適輸送による表現伝達

Representation Transfer by Optimal Transport ( http://arxiv.org/abs/2007.06737v2 )

ライセンス: Link先を確認
Xuhong Li, Yves Grandvalet, R\'emi Flamary, Nicolas Courty, Dejing Dou(参考訳) ディープネットワークで汎用表現を学ぶには、大量のトレーニングサンプルと重要なコンピュータリソースが必要である。 新しい特定のタスクを学習するためには、ジェネリックな教師の表現を学生ネットワークに転送することが重要な課題である。 本稿では,ニューロンの機能的視点に基づく表現間のメトリクスの利用を提案する。 最適輸送を用いて2つの表現間の一致を定量化し、深層ネットワークの表現に固有の不変性を埋め込む距離を導出する。 この距離は、生徒の表現と教師の表現の類似性を促進する正規化器を定義する。 このアプローチは、表現転送が適用可能な任意の学習コンテキストで使用できる。 そこで, 教師の表現を同一アーキテクチャの学生ネットワークに移し, 教師の表現を同一のタスクに移すインダクティブ・トランスファー・ラーニング (inductive transfer learning) と, 教師の表現をより単純なアーキテクチャの学生に同じタスク(モデル圧縮)に移すナレッジ・蒸留 ( knowledge distillation) の2つの標準設定で実験を行った。 また,本手法は,新たな学習課題の解決にも役立ち,教師の表現を直接,よりシンプルなアーキテクチャ学生に伝達する方法を示す。

Learning generic representations with deep networks requires massive training samples and significant computer resources. To learn a new specific task, an important issue is to transfer the generic teacher's representation to a student network. In this paper, we propose to use a metric between representations that is based on a functional view of neurons. We use optimal transport to quantify the match between two representations, yielding a distance that embeds some invariances inherent to the representation of deep networks. This distance defines a regularizer promoting the similarity of the student's representation with that of the teacher. Our approach can be used in any learning context where representation transfer is applicable. We experiment here on two standard settings: inductive transfer learning, where the teacher's representation is transferred to a student network of same architecture for a new related task, and knowledge distillation, where the teacher's representation is transferred to a student of simpler architecture for the same task (model compression). Our approach also lends itself to solving new learning problems; we demonstrate this by showing how to directly transfer the teacher's representation to a simpler architecture student for a new related task.
翻訳日:2022-11-10 23:15:33 公開日:2021-02-26
# 投影型潜在マルコフ連鎖モンテカルロ:正規化流れの条件付サンプリング

Projected Latent Markov Chain Monte Carlo: Conditional Sampling of Normalizing Flows ( http://arxiv.org/abs/2007.06140v4 )

ライセンス: Link先を確認
Chris Cannella, Mohammadreza Soltani, Vahid Tarokh(参考訳) 正規化流れから学習した高次元条件分布から抽出する手法であるProjected Latent Markov Chain Monte Carlo (PL-MCMCMC)を紹介する。 PL-MCMCのMetropolis-Hastings実装は,正規化フローに付随する正確な条件分布から漸近的にサンプルを採取する。 条件付きサンプリング法として,PL-MCMCは不完全データからのフローを正規化するためのモンテカルロ予測最大化(MC-EM)訓練を可能にする。 各種データセットに対して正規化フローを適用した実験により,正規化フローから条件付きサンプリングを行うPL-MCMCの有効性を実証した。

We introduce Projected Latent Markov Chain Monte Carlo (PL-MCMC), a technique for sampling from the high-dimensional conditional distributions learned by a normalizing flow. We prove that a Metropolis-Hastings implementation of PL-MCMC asymptotically samples from the exact conditional distributions associated with a normalizing flow. As a conditional sampling method, PL-MCMC enables Monte Carlo Expectation Maximization (MC-EM) training of normalizing flows from incomplete data. Through experimental tests applying normalizing flows to missing data tasks for a variety of data sets, we demonstrate the efficacy of PL-MCMC for conditional sampling from normalizing flows.
翻訳日:2022-11-10 22:46:32 公開日:2021-02-26
# データ拡張は機械学習のプライバシにどのように影響するか?

How Does Data Augmentation Affect Privacy in Machine Learning? ( http://arxiv.org/abs/2007.10567v3 )

ライセンス: Link先を確認
Da Yu, Huishuai Zhang, Wei Chen, Jian Yin, Tie-Yan Liu(参考訳) 文献では、データ拡張がメンバーシップ推論(mi)攻撃を著しく軽減できることが観察されている。 しかし,本研究では,新たなMI攻撃を提案し,拡張データの情報を活用することで,この観測に挑戦する。 MI攻撃はトレーニングセットの情報漏洩を測定するために広く利用されている。 モデルが拡張データでトレーニングされたとき、最適なメンバシップ推論を確立することで、mi攻撃を1つのデータポイントではなく拡張インスタンスの集合を分類し、入力置換不変機能を設計するという、セットの分類問題として定式化することを促します。 実験により,提案手法がデータ拡張でトレーニングされた場合,提案手法が元の手法より普遍的に優れていることを示す。 さらに,提案手法は,データ拡張を伴わないモデルの既存手法よりも,データ拡張で訓練されたモデルに対して高いmi攻撃成功率を達成できることを示す。 特に、CIFAR10に対する70.1%のMI攻撃の成功率は、幅広い残留ネットワークに対して達成し、以前のベストアプローチは61.9%に留まった。 これは、データ拡張でトレーニングされたモデルのプライバシーリスクが、概ね過小評価される可能性があることを示唆している。

It is observed in the literature that data augmentation can significantly mitigate membership inference (MI) attack. However, in this work, we challenge this observation by proposing new MI attacks to utilize the information of augmented data. MI attack is widely used to measure the model's information leakage of the training set. We establish the optimal membership inference when the model is trained with augmented data, which inspires us to formulate the MI attack as a set classification problem, i.e., classifying a set of augmented instances instead of a single data point, and design input permutation invariant features. Empirically, we demonstrate that the proposed approach universally outperforms original methods when the model is trained with data augmentation. Even further, we show that the proposed approach can achieve higher MI attack success rates on models trained with some data augmentation than the existing methods on models trained without data augmentation. Notably, we achieve a 70.1% MI attack success rate on CIFAR10 against a wide residual network while the previous best approach only attains 61.9%. This suggests the privacy risk of models trained with data augmentation could be largely underestimated.
翻訳日:2022-11-08 04:02:27 公開日:2021-02-26
# オンラインマルチクラス分類におけるサロゲートギャップの活用

Exploiting the Surrogate Gap in Online Multiclass Classification ( http://arxiv.org/abs/2007.12618v2 )

ライセンス: Link先を確認
Dirk van der Hoeven(参考訳) オンライン多クラス分類のためのランダム化1次アルゴリズムであるGaptronを提案する。 完全な情報設定では,学習者のランダム性に対する期待値であるロジスティックな損失,ヒンジの損失,スムーズなヒンジの損失に対して,期待される誤り境界を示す。 バンドート分類設定では、gaptron は$o(k\sqrt{t})$ の期待後悔を持つ最初の線形時間アルゴリズムであり、ここで $k$ はクラスの数である。 さらに、gaptron の期待された誤り境界は特徴ベクトルの次元に依存しないが、以前のアルゴリズムではバンドイット分類設定に $o(k\sqrt{t})$ regret がある。 本稿では,従来,対数的あるいは一定残差の証明に用いられてきたexp-concavityやmixabilityといった特性を活用するのではなく,ゼロワン損失とサロゲート損失のギャップを利用する新しい証明手法を提案する。

We present Gaptron, a randomized first-order algorithm for online multiclass classification. In the full information setting we show expected mistake bounds with respect to the logistic loss, hinge loss, and the smooth hinge loss with constant regret, where the expectation is with respect to the learner's randomness. In the bandit classification setting we show that Gaptron is the first linear time algorithm with $O(K\sqrt{T})$ expected regret, where $K$ is the number of classes. Additionally, the expected mistake bound of Gaptron does not depend on the dimension of the feature vector, contrary to previous algorithms with $O(K\sqrt{T})$ regret in the bandit classification setting. We present a new proof technique that exploits the gap between the zero-one loss and surrogate losses rather than exploiting properties such as exp-concavity or mixability, which are traditionally used to prove logarithmic or constant regret bounds.
翻訳日:2022-11-07 06:33:10 公開日:2021-02-26
# 回帰と分類を用いた二元制約付きパレートフロンティアの適応サンプリング

Adaptive Sampling of Pareto Frontiers with Binary Constraints Using Regression and Classification ( http://arxiv.org/abs/2008.12005v2 )

ライセンス: Link先を確認
Raoul Heese, Michael Bortz(参考訳) ベイズ最適化の基礎となる二項制約付きブラックボックス多目的最適化問題に対する適応最適化アルゴリズムを提案する。 この手法は確率的回帰モデルと分類モデルに基づいており、最適化目標のサロゲートとして機能し、各イテレーションで一度に複数の設計ポイントを提案できる。 提案した取得関数は直感的に理解でき、手前の問題の要求に合わせることができる。 また,正規確率密度の回帰モデルに対して,期待される超体積計算を高速に高速化する新しい楕円体トランケーション法を提案する。 複数のテスト問題に対して進化的アルゴリズムでアプローチをベンチマークする。

We present a novel adaptive optimization algorithm for black-box multi-objective optimization problems with binary constraints on the foundation of Bayes optimization. Our method is based on probabilistic regression and classification models, which act as a surrogate for the optimization goals and allow us to suggest multiple design points at once in each iteration. The proposed acquisition function is intuitively understandable and can be tuned to the demands of the problems at hand. We also present a novel ellipsoid truncation method to speed up the expected hypervolume calculation in a straightforward way for regression models with a normal probability density. We benchmark our approach with an evolutionary algorithm on multiple test problems.
翻訳日:2022-10-24 07:18:29 公開日:2021-02-26
# 知識グラフにおける型推論関係予測

Type-augmented Relation Prediction in Knowledge Graphs ( http://arxiv.org/abs/2009.07938v3 )

ライセンス: Link先を確認
Zijun Cui, Pavan Kapanipathi, Kartik Talamadupula, Tian Gao, Qiang Ji(参考訳) 知識グラフ(kgs)は多くの実世界のアプリケーションにとって非常に重要であるが、一般にエンティティ間の関係が欠如しているという形で不完全な情報に苦しむ。 知識グラフ補完(英: Knowledge graph completion)または関係予測(英: Relation prediction)は、既存の事実を推測するタスクである。 既存の作業の大部分は、観測されたインスタンスレベルのトリプルの可能性の最大化によって提案されている。 しかし、実体の型情報や関係などの存在論的情報にはあまり注意が払われていない。 本研究では,タイプ情報とインスタンスレベルの情報の両方を関係予測に適用するタイプ拡張関係予測(TaRP)手法を提案する。 特に、型情報とインスタンスレベルの情報は、それぞれ事前確率と関係の可能性として符号化され、ベイズの規則に従って結合される。 提案手法は, FB15K, FB15K-237, YAGO26K-906, DB111K-174の4つのベンチマークデータセットに対して, 最先端の手法よりも高い性能を実現する。 さらに,TaRPはデータ効率を大幅に向上することを示す。 さらに重要なのは、特定のデータセットから抽出された型情報は、提案されたTaRPモデルを通じて、他のデータセットによく一般化することができることだ。

Knowledge graphs (KGs) are of great importance to many real world applications, but they generally suffer from incomplete information in the form of missing relations between entities. Knowledge graph completion (also known as relation prediction) is the task of inferring missing facts given existing ones. Most of the existing work is proposed by maximizing the likelihood of observed instance-level triples. Not much attention, however, is paid to the ontological information, such as type information of entities and relations. In this work, we propose a type-augmented relation prediction (TaRP) method, where we apply both the type information and instance-level information for relation prediction. In particular, type information and instance-level information are encoded as prior probabilities and likelihoods of relations respectively, and are combined by following Bayes' rule. Our proposed TaRP method achieves significantly better performance than state-of-the-art methods on four benchmark datasets: FB15K, FB15K-237, YAGO26K-906, and DB111K-174. In addition, we show that TaRP achieves significantly improved data efficiency. More importantly, the type information extracted from a specific dataset can generalize well to other datasets through the proposed TaRP model.
翻訳日:2022-10-17 22:45:11 公開日:2021-02-26
# ワッサーシュタイン計量学習のための置換不変ネットワーク

Permutation invariant networks to learn Wasserstein metrics ( http://arxiv.org/abs/2010.05820v4 )

ライセンス: Link先を確認
Arijit Sehanobish, Neal Ravindra, David van Dijk(参考訳) ワッサーシュタイン距離を持つ距離空間上の確率測度の空間を理解することは、数学的解析における基本的な問題の一つである。 Wassersteinメトリックは、特に分散を比較する原則的な方法によって、機械学習コミュニティで多くの注目を集めている。 本研究では,確率測度からサンプルを低次元空間にマッピングする置換不変量ネットワークを用いて,符号化されたサンプル間のユークリッド距離が確率測度間のワッサースタイン距離を反映していることを示す。 我々のネットワークは、目に見えない密度間の距離を正確に計算できることを示す。 また、これらのネットワークは確率分布の第1と第2の瞬間を学習できることを示す。

Understanding the space of probability measures on a metric space equipped with a Wasserstein distance is one of the fundamental questions in mathematical analysis. The Wasserstein metric has received a lot of attention in the machine learning community especially for its principled way of comparing distributions. In this work, we use a permutation invariant network to map samples from probability measures into a low-dimensional space such that the Euclidean distance between the encoded samples reflects the Wasserstein distance between probability measures. We show that our network can generalize to correctly compute distances between unseen densities. We also show that these networks can learn the first and the second moments of probability distributions.
翻訳日:2022-10-08 06:22:36 公開日:2021-02-26
# 知覚エントロピー損失を伴うシーケンスからシーケンスへの歌声合成

Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy Loss ( http://arxiv.org/abs/2010.12024v2 )

ライセンス: Link先を確認
Jiatong Shi, Shuai Guo, Nan Huo, Yuekai Zhang, Qin Jin(参考訳) ニューラルネットワーク(NN)ベースの歌声合成(SVS)システムは、トレーニングに十分なデータを必要とし、データの不足により過度に適合する傾向がある。 しかし,データ取得やアノテーションのコストが高いため,SVSシステム構築時にしばしばデータ制限問題が発生する。 本研究では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。 オープンソースの歌唱音声データベースを用いて, PE損失がRNNベース, トランスフォーマーベース, コンフォーマベースモデルなど, 様々な主流シーケンス・ツー・シーケンスモデルに与える影響について検討する。 本実験では,pe損失が過剰フィッティング問題を緩和し,客観評価および主観評価に反映される合成歌唱品質を著しく改善することを示す。

The neural network (NN) based singing voice synthesis (SVS) systems require sufficient data to train well and are prone to over-fitting due to data scarcity. However, we often encounter data limitation problem in building SVS systems because of high data acquisition and annotation costs. In this work, we propose a Perceptual Entropy (PE) loss derived from a psycho-acoustic hearing model to regularize the network. With a one-hour open-source singing voice database, we explore the impact of the PE loss on various mainstream sequence-to-sequence models, including the RNN-based, transformer-based, and conformer-based models. Our experiments show that the PE loss can mitigate the over-fitting problem and significantly improve the synthesized singing quality reflected in objective and subjective evaluations.
翻訳日:2022-10-04 08:43:51 公開日:2021-02-26
# ディープラーニングと動的辞書による実世界のパスワード強度モデリングにおけるバイアス低減

Reducing Bias in Modeling Real-world Password Strength via Deep Learning and Dynamic Dictionaries ( http://arxiv.org/abs/2010.12269v5 )

ライセンス: Link先を確認
Dario Pasquini, Marco Cianfriglia, Giuseppe Ateniese, Massimo Bernaschi(参考訳) パスワードのセキュリティは、攻撃者が採用するテクニックの深い理解にかかっている。 残念ながら、現実の敵は、パスワードセキュリティ研究において本質的にモデル化が難しい辞書攻撃のような実用的推測戦略に頼っている。 実際の脅威を表現するためには、辞書攻撃を慎重に設定し調整する必要がある。 しかし、このプロセスは容易に複製できないドメイン知識と専門知識を必要とする。 辞書攻撃を不正確に校正した結果、深刻な測定バイアスにより、パスワードセキュリティ分析の信頼性が低下する。 本稿では,不適切な構成に対して一貫してレジリエントな新世代の辞書攻撃を提案する。 監視やドメイン知識を必要としないこの手法は、現実世界の攻撃者が採用する高度な推測戦略を自動的に近似する。 1)攻撃構成構築における敵の熟練度をモデル化するために,ディープニューラルネットワークを用いる。 次に,辞書攻撃における動的推測戦略を提案する。 これらは、目標に知識を取り入れることで、専門家の推測戦略をその場で適応させる能力を模倣している。 我々の手法は、辞書攻撃におけるより堅牢で健全なパスワード強度推定を可能にし、最終的にはパスワードセキュリティにおける現実世界の脅威をモデル化する過大評価を減らす。 コード提供: https://github.com/TheAdamProject/adams

Password security hinges on an in-depth understanding of the techniques adopted by attackers. Unfortunately, real-world adversaries resort to pragmatic guessing strategies such as dictionary attacks that are inherently difficult to model in password security studies. In order to be representative of the actual threat, dictionary attacks must be thoughtfully configured and tuned. However, this process requires a domain-knowledge and expertise that cannot be easily replicated. The consequence of inaccurately calibrating dictionary attacks is the unreliability of password security analyses, impaired by a severe measurement bias. In the present work, we introduce a new generation of dictionary attacks that is consistently more resilient to inadequate configurations. Requiring no supervision or domain-knowledge, this technique automatically approximates the advanced guessing strategies adopted by real-world attackers. To achieve this: (1) We use deep neural networks to model the proficiency of adversaries in building attack configurations. (2) Then, we introduce dynamic guessing strategies within dictionary attacks. These mimic experts' ability to adapt their guessing strategies on the fly by incorporating knowledge on their targets. Our techniques enable more robust and sound password strength estimates within dictionary attacks, eventually reducing overestimation in modeling real-world threats in password security. Code available: https://github.com/TheAdamProject/adams
翻訳日:2022-10-04 00:04:12 公開日:2021-02-26
# 実現可能性を超えた扱いやすいコンテクスト・バンディット

Tractable contextual bandits beyond realizability ( http://arxiv.org/abs/2010.13013v2 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Vitor Hadad, and Susan Athey(参考訳) 扱いやすい文脈的バンディットアルゴリズムは、しばしば実現可能性の仮定(すなわち、真の期待報酬モデルは線形関数のような既知のクラスに属する)に依存する。 本研究では,実現可能性の仮定に敏感でないトラクタブルバンディットアルゴリズムを提案し,各エポックにおける制約付き回帰問題の解法に計算的に還元する。 実現可能性が保持されない場合、本アルゴリズムは、実現可能性に基づくアルゴリズムによって達成された後悔の保証を、誤特定化エラーを規定する付加項まで保証する。 この余剰項は、クラス内の最良のモデルと真のモデルの間の平均二乗誤差の関数の t 倍に比例し、t は時間ステップの総数である。 私たちの仕事は、取り得るコンテキストの包帯に対するバイアス分散トレードオフに光を当てています。 このトレードオフは実現可能性を持つアルゴリズムでは捉えられず、この仮定の下ではゼロバイアスに達するクラスに推定子が存在する。

Tractable contextual bandit algorithms often rely on the realizability assumption - i.e., that the true expected reward model belongs to a known class, such as linear functions. In this work, we present a tractable bandit algorithm that is not sensitive to the realizability assumption and computationally reduces to solving a constrained regression problem in every epoch. When realizability does not hold, our algorithm ensures the same guarantees on regret achieved by realizability-based algorithms under realizability, up to an additive term that accounts for the misspecification error. This extra term is proportional to T times a function of the mean squared error between the best model in the class and the true model, where T is the total number of time-steps. Our work sheds light on the bias-variance trade-off for tractable contextual bandits. This trade-off is not captured by algorithms that assume realizability, since under this assumption there exists an estimator in the class that attains zero bias.
翻訳日:2022-10-03 04:31:37 公開日:2021-02-26
# Adaptive Augmentation を用いたグラフコントラスト学習

Graph Contrastive Learning with Adaptive Augmentation ( http://arxiv.org/abs/2010.14945v3 )

ライセンス: Link先を確認
Yanqiao Zhu and Yichen Xu and Feng Yu and Qiang Liu and Shu Wu and Liang Wang(参考訳) 近年,教師なしグラフ表現学習の手法としてコントラスト学習(CL)が登場している。 ほとんどのグラフ cl 法は、まず入力グラフ上で確率的な拡張を行い、2つのグラフビューを取得し、2つのビューにおける表現の一致を最大化する。 グラフCL法の発達にもかかわらず、グラフ拡張スキーム(CLの重要な構成要素である)の設計はほとんど研究されていない。 データ拡張スキームはグラフの固有構造と属性を保存すべきであり、これはモデルに重要でないノードやエッジの摂動に影響を受けない表現を学習させる。 しかし、既存のほとんどの手法では、エッジを均一に落とし、一様にシャッフルするといった均一なデータ拡張スキームを採用しており、亜最適性能をもたらす。 本稿では,グラフのトポロジ的およびセマンティックな側面に対する様々な先行概念を組み込んだ適応拡張型グラフコントラスト表現学習法を提案する。 特に、トポロジーレベルでは、重要な連結構造を強調するために、ノード集中度尺度に基づく拡張スキームを設計する。 ノード属性レベルでは、重要でないノード特徴により多くのノイズを加えることでノード特徴を破損させ、基盤となるセマンティック情報を認識するためにモデルを強制する。 我々は,様々な実世界のデータセットのノード分類実験を行った。 実験結果は,提案手法が既存の最先端ベースラインを一貫して上回っており,教師付きベースラインを上回っており,提案手法の有効性と適応強化効果を検証できることを示した。

Recently, contrastive learning (CL) has emerged as a successful method for unsupervised graph representation learning. Most graph CL methods first perform stochastic augmentation on the input graph to obtain two graph views and maximize the agreement of representations in the two views. Despite the prosperous development of graph CL methods, the design of graph augmentation schemes -- a crucial component in CL -- remains rarely explored. We argue that the data augmentation schemes should preserve intrinsic structures and attributes of graphs, which will force the model to learn representations that are insensitive to perturbation on unimportant nodes and edges. However, most existing methods adopt uniform data augmentation schemes, like uniformly dropping edges and uniformly shuffling features, leading to suboptimal performance. In this paper, we propose a novel graph contrastive representation learning method with adaptive augmentation that incorporates various priors for topological and semantic aspects of the graph. Specifically, on the topology level, we design augmentation schemes based on node centrality measures to highlight important connective structures. On the node attribute level, we corrupt node features by adding more noise to unimportant node features, to enforce the model to recognize underlying semantic information. We perform extensive experiments of node classification on a variety of real-world datasets. Experimental results demonstrate that our proposed method consistently outperforms existing state-of-the-art baselines and even surpasses some supervised counterparts, which validates the effectiveness of the proposed contrastive framework with adaptive augmentation.
翻訳日:2022-10-02 12:31:58 公開日:2021-02-26
# Shapley Flow: モデル予測の解釈のためのグラフベースのアプローチ

Shapley Flow: A Graph-based Approach to Interpreting Model Predictions ( http://arxiv.org/abs/2010.14592v3 )

ライセンス: Link先を確認
Jiaxuan Wang, Jenna Wiens, Scott Lundberg(参考訳) 機能間の依存関係を無視したり隠したりするため、機能の重要性を見積もる既存のアプローチの多くは問題となる。 入力変数間の関係をエンコードする因果グラフは、特徴の重要性を割り当てるのに役立つ。 しかし、因果グラフのノードにクレジットを割り当てる現在のアプローチでは、グラフ全体を説明できない。 これらの制約を踏まえて,機械学習モデル解釈のための新しいアプローチであるshapley flowを提案する。 因果グラフ全体を考慮し、ノードを信用割り当ての基本単位として扱うのではなく、クレジットを \textit{edges} に割り当てる。 シャプリーフロー(Shapley Flow)は、シャプリー値公理を有向非巡回グラフに一般化する一意の解である。 モデルの入力が出力に与える影響を判断するためにShapley Flowを使用することの利点を実証する。 既存のアプローチからの洞察の維持に加えて、shapley flowは、ゲーム理論に基づく説明法で一般的なフラットなセットベースのビューを、より深い、\textit{graph-based}ビューに拡張する。 このグラフベースのビューは、システムを通じた重要度の流れと潜在的な介入の理由を理解することができる。

Many existing approaches for estimating feature importance are problematic because they ignore or hide dependencies among features. A causal graph, which encodes the relationships among input variables, can aid in assigning feature importance. However, current approaches that assign credit to nodes in the causal graph fail to explain the entire graph. In light of these limitations, we propose Shapley Flow, a novel approach to interpreting machine learning models. It considers the entire causal graph, and assigns credit to \textit{edges} instead of treating nodes as the fundamental unit of credit assignment. Shapley Flow is the unique solution to a generalization of the Shapley value axioms to directed acyclic graphs. We demonstrate the benefit of using Shapley Flow to reason about the impact of a model's input on its output. In addition to maintaining insights from existing approaches, Shapley Flow extends the flat, set-based, view prevalent in game theory based explanation methods to a deeper, \textit{graph-based}, view. This graph-based view enables users to understand the flow of importance through a system, and reason about potential interventions.
翻訳日:2022-10-02 11:30:54 公開日:2021-02-26
# DNN-HMMキーワードスポッティングモデルのエンドメトリックによるトレーニング

Optimize what matters: Training DNN-HMM Keyword Spotting Model Using End Metric ( http://arxiv.org/abs/2011.01151v2 )

ライセンス: Link先を確認
Ashish Shrivastava, Arnav Kundu, Chandra Dhir, Devang Naik, Oncel Tuzel(参考訳) ディープニューラルネットワーク-隠れマルコフモデル(dnn-hmm)ベースの手法は、ウェイクワードを検知してデバイスをトリガーする多くの常時オンキーワードスポッティングアルゴリズムでうまく使われている。 DNNは与えられた音声フレームの状態確率を予測し、HMMデコーダは複数の音声フレームのDNN予測を組み合わせてキーワード検出スコアを算出する。 従来の手法では、DNNはHMMパラメータとは独立に訓練され、予測された状態と地絡状態の確率の間のクロスエントロピー損失を最小限に抑える。 dnnのトレーニング損失(クロスエントロピー)とエンドメトリック(検出スコア)のミスマッチは、キーワードスポッティングタスクの副最適化パフォーマンスの主な原因である。 検出スコアを最適化することでDNNパラメータを学習する新しいエンドツーエンドトレーニング戦略を用いて、この損失測定ミスマッチに対処する。 この目的のために、HMMデコーダ(動的プログラミング)を識別可能とし、キーワードのスコアを最大化し、非キーワード音声セグメントのスコアを最小化する。 我々のメソッドはモデルアーキテクチャや推論フレームワークの変更を一切必要としないため、実行時のメモリや計算要求にオーバーヘッドはない。 また,FRR(False Rejection rate)は,同一の偽トリガー経験(独立DNNトレーニングの70%以上)で有意に低下した。

Deep Neural Network--Hidden Markov Model (DNN-HMM) based methods have been successfully used for many always-on keyword spotting algorithms that detect a wake word to trigger a device. The DNN predicts the state probabilities of a given speech frame, while HMM decoder combines the DNN predictions of multiple speech frames to compute the keyword detection score. The DNN, in prior methods, is trained independent of the HMM parameters to minimize the cross-entropy loss between the predicted and the ground-truth state probabilities. The mis-match between the DNN training loss (cross-entropy) and the end metric (detection score) is the main source of sub-optimal performance for the keyword spotting task. We address this loss-metric mismatch with a novel end-to-end training strategy that learns the DNN parameters by optimizing for the detection score. To this end, we make the HMM decoder (dynamic programming) differentiable and back-propagate through it to maximize the score for the keyword and minimize the scores for non-keyword speech segments. Our method does not require any change in the model architecture or the inference framework; therefore, there is no overhead in run-time memory or compute requirements. Moreover, we show significant reduction in false rejection rate (FRR) at the same false trigger experience (> 70% over independent DNN training).
翻訳日:2022-09-30 13:17:03 公開日:2021-02-26
# 相互作用予測のための動的埋め込み

Dynamic Embeddings for Interaction Prediction ( http://arxiv.org/abs/2011.05208v2 )

ライセンス: Link先を確認
Zekarias T. Kefato and Sarunas Girdzijauskas and Nasrullah Sheikh and Alberto Montresor(参考訳) 推薦システム(RS)では、ユーザが対話する次の項目を予測することが、ユーザの保持に不可欠である。 過去10年間、ユーザーの好みにマッチする関連項目を特定することを目的としたRSが爆発的に増えているが、パフォーマンスをさらに向上すると考えられるさまざまな側面がある。 例えば、rssは、最近のアクティビティのシーケンスを使ってモデル化されたユーザーを中心にしていることが多い。 しかし,近年の研究では,ユーザとアイテム間の相互作用を個別のユーザとアイテムの埋め込みを用いてモデル化する方法の有効性が示されている。 これらの研究の成功に基づいて,これらの限界に対処するDeePRedという新しい手法を提案する。 特に,長期的(定常)埋め込みをプロキシとして使用することで,短期的埋め込みの反復的かつコストのかかるインタラクションを回避する。 これにより、従来の研究で提案された特別なミニバッチのオーバーヘッドを伴わずに、単純なミニバッチを使ってDeePRedを訓練することができる。 さらに、deepredの有効性は、前述の設計とユーザーとコンテンツの互換性を検査するマルチウェイアテンションメカニズムから来ている。 実験の結果、DeePRedは次の項目の予測タスクにおいて、少なくとも14%は最先端のアプローチよりも優れており、最高のパフォーマンスベースラインよりも1桁以上のスピードアップが達成されている。 本研究は主に時間的相互作用ネットワークに関するものであるが、静的相互作用ネットワークに適応し、局所的・グローバル的側面と短期的・長期的側面を置き換えることで、DeePRedのパワーと柔軟性を示す。

In recommender systems (RSs), predicting the next item that a user interacts with is critical for user retention. While the last decade has seen an explosion of RSs aimed at identifying relevant items that match user preferences, there is still a range of aspects that could be considered to further improve their performance. For example, often RSs are centered around the user, who is modeled using her recent sequence of activities. Recent studies, however, have shown the effectiveness of modeling the mutual interactions between users and items using separate user and item embeddings. Building on the success of these studies, we propose a novel method called DeePRed that addresses some of their limitations. In particular, we avoid recursive and costly interactions between consecutive short-term embeddings by using long-term (stationary) embeddings as a proxy. This enable us to train DeePRed using simple mini-batches without the overhead of specialized mini-batches proposed in previous studies. Moreover, DeePRed's effectiveness comes from the aforementioned design and a multi-way attention mechanism that inspects user-item compatibility. Experiments show that DeePRed outperforms the best state-of-the-art approach by at least 14% on next item prediction task, while gaining more than an order of magnitude speedup over the best performing baselines. Although this study is mainly concerned with temporal interaction networks, we also show the power and flexibility of DeePRed by adapting it to the case of static interaction networks, substituting the short- and long-term aspects with local and global ones.
翻訳日:2022-09-27 08:25:36 公開日:2021-02-26
# 確率的繰り返し2値オークションの効率的なアルゴリズム

Efficient Algorithms for Stochastic Repeated Second-price Auctions ( http://arxiv.org/abs/2011.05072v2 )

ライセンス: Link先を確認
Juliette Achddou (VALDA), Olivier Capp\'e (VALDA), Aur\'elien Garivier (UMPA-ENSL)(参考訳) 反復オークションにおける効率的な逐次入札戦略の開発は,様々なマーケティングタスクにおいて重要な課題である。 この設定では、入札エージェントは、販売中の商品の価値と他の入札者の行動の両方について、オークションに勝った場合にのみ情報を取得する。 標準バンディット理論は、行動依存的な検閲が存在するため、この問題には適用されない。 そこで本研究では,2次価格オークションを検討し,新しい効率的なucbライクなアルゴリズムを提案する。 これらのアルゴリズムは確率的設定で解析され、相手の入札の分布の規則性を仮定する。 文献に提案されているベースラインアルゴリズムに対する改善を定量化するための後悔の上限を提供する。 この改善は、オークション商品の価値が低い場合に特に重要であり、最悪の場合の後悔の順序が著しく低下する。 さらに,本問題に対する最初のパラメトリック下限を一般の ucb 的な戦略に適用する。 代替として、探索時コミット帯域幅アルゴリズムを連想させる説明可能な戦略を提案する。 このタイプの戦略を批判的に分析し、重要な利点と限界の両方を示します。 特に、ミニマックス下界を提供し、このクラスのほぼ最小最適インスタンスを提案する。

Developing efficient sequential bidding strategies for repeated auctions is an important practical challenge in various marketing tasks. In this setting, the bidding agent obtains information, on both the value of the item at sale and the behavior of the other bidders, only when she wins the auction. Standard bandit theory does not apply to this problem due to the presence of action-dependent censoring. In this work, we consider second-price auctions and propose novel, efficient UCB-like algorithms for this task. These algorithms are analyzed in the stochastic setting, assuming regularity of the distribution of the opponents' bids. We provide regret upper bounds that quantify the improvement over the baseline algorithm proposed in the literature. The improvement is particularly significant in cases when the value of the auctioned item is low, yielding a spectacular reduction in the order of the worst-case regret. We further provide the first parametric lower bound for this problem that applies to generic UCB-like strategies. As an alternative, we propose more explainable strategies which are reminiscent of the Explore Then Commit bandit algorithm. We provide a critical analysis of this class of strategies, showing both important advantages and limitations. In particular, we provide a minimax lower bound and propose a nearly minimax-optimal instance of this class.
翻訳日:2022-09-27 06:46:42 公開日:2021-02-26
# 非校正画像からの3次元顔復元に関する調査

Survey on 3D face reconstruction from uncalibrated images ( http://arxiv.org/abs/2011.05740v2 )

ライセンス: Link先を確認
Araceli Morales, Gemma Piella and Federico M. Sukno(参考訳) 近年,顔分析への3Dデータの取り込みとその応用に注目が集まっている。 顔の正確な表現を提供するにもかかわらず、3Dの顔画像は2D画像よりも複雑である。 その結果、3D画像から3D画像を再構成するシステムの開発に多大な努力が払われた。 しかし, 3D-from-2Dの面再構成問題は不備であり, 解空間を制限するためには事前知識が必要である。 本研究では,過去10年間に提案されてきた3次元顔の再構成手法について,制御不能な条件下で撮影された2次元画像のみを使用するものに着目した。 本稿では,先行知識を付加するために用いられる手法,すなわち統計モデル適合,測光,深層学習の3つの主要な戦略を考察し,それぞれを個別に検討する手法の分類について述べる。 また,統計的3d顔モデルの事前知識の妥当性を考慮し,構築手順を説明し,最も普及している3d顔モデルのリストを提供する。 3D-from 2Dの顔再構成手法を徹底的に研究した結果,近年の深層学習戦略は急速に成長しており,広く普及している統計モデルフィッティングの代替として標準的選択肢となっている。 他の2つの戦略とは異なり、統計モデル適合法や深層学習法と比較して、再構成の質を制限する強い前提条件の必要性から、光度測定に基づく手法は減少している。 このレビューは現在の課題を特定し、今後の研究の道筋を提案する。

Recently, a lot of attention has been focused on the incorporation of 3D data into face analysis and its applications. Despite providing a more accurate representation of the face, 3D facial images are more complex to acquire than 2D pictures. As a consequence, great effort has been invested in developing systems that reconstruct 3D faces from an uncalibrated 2D image. However, the 3D-from-2D face reconstruction problem is ill-posed, thus prior knowledge is needed to restrict the solutions space. In this work, we review 3D face reconstruction methods proposed in the last decade, focusing on those that only use 2D pictures captured under uncontrolled conditions. We present a classification of the proposed methods based on the technique used to add prior knowledge, considering three main strategies, namely, statistical model fitting, photometry, and deep learning, and reviewing each of them separately. In addition, given the relevance of statistical 3D facial models as prior knowledge, we explain the construction procedure and provide a list of the most popular publicly available 3D facial models. After the exhaustive study of 3D-from-2D face reconstruction approaches, we observe that the deep learning strategy is rapidly growing since the last few years, becoming the standard choice in replacement of the widespread statistical model fitting. Unlike the other two strategies, photometry-based methods have decreased in number due to the need for strong underlying assumptions that limit the quality of their reconstructions compared to statistical model fitting and deep learning methods. The review also identifies current challenges and suggests avenues for future research.
翻訳日:2022-09-27 00:15:21 公開日:2021-02-26
# 神経実験ベイズ: 音源分布推定とシミュレーションに基づく推論への応用

Neural Empirical Bayes: Source Distribution Estimation and its Applications to Simulation-Based Inference ( http://arxiv.org/abs/2011.05836v2 )

ライセンス: Link先を確認
Maxime Vandegar, Michael Kagan, Antoine Wehenkel, Gilles Louppe(参考訳) 計算機シミュレーションに依拠する科学的領域において典型的であるように,確率関数を使わずに経験的ベイズを再検討する。 実験的なベイズ推定器を用いて、まず全てのノイズ崩壊観測を用いて、未破壊試料の事前分布またはソース分布を推定し、得られた音源分布を用いて単一観測後推定を行う。 本研究では,観測の対数的可能性の直接的最大化に基づくアプローチを提案し,偏りと偏りを推定し,変分的アプローチと比較する。 シンメトリーによれば、ニューラルネットワークによる経験的ベイズアプローチは、地上の真理源分布を復元する。 学習した情報源分布を用いて, 確率的推論の適用可能性を示し, 結果の後方推定の質について検討する。 最後に,衝突器物理学の逆問題に対する神経経験ベイズの適用性を示す。

We revisit empirical Bayes in the absence of a tractable likelihood function, as is typical in scientific domains relying on computer simulations. We investigate how the empirical Bayesian can make use of neural density estimators first to use all noise-corrupted observations to estimate a prior or source distribution over uncorrupted samples, and then to perform single-observation posterior inference using the fitted source distribution. We propose an approach based on the direct maximization of the log-marginal likelihood of the observations, examining both biased and de-biased estimators, and comparing to variational approaches. We find that, up to symmetries, a neural empirical Bayes approach recovers ground truth source distributions. With the learned source distribution in hand, we show the applicability to likelihood-free inference and examine the quality of the resulting posterior estimates. Finally, we demonstrate the applicability of Neural Empirical Bayes on an inverse problem from collider physics.
翻訳日:2022-09-26 23:58:58 公開日:2021-02-26
# 費用効果のある変分能動実体解決法

Cost-effective Variational Active Entity Resolution ( http://arxiv.org/abs/2011.10406v3 )

ライセンス: Link先を確認
Alex Bogatu, Norman W. Paton, Mark Douthwaite, Stuart Davie, Andre Freitas(参考訳) 同じ実世界のエンティティの異なる表現を正確に識別することは、データクリーニングの重要な部分であり、それを達成するために多くの方法が提案されている。 このエンティティ解決タスクの課題は、多くの研究の注意を必要とするが、しばしばそのプロセスのタスク固有性とユーザー依存に根ざしている。 ディープラーニング技術の採用は、これらの課題を減らす可能性がある。 本稿では,人間の関与コストを削減するために,ディープ・オートエンコーダが付与するロバスト性に基づくエンティティ・リゾリューション・メソッドを考案した。 具体的には,教師なし表現学習を行うことで,深部エンティティ解決モデルのトレーニングコストを削減する。 これにより、トランスファー学習によって新しいデータセットにアプローチを適用するコストをさらに削減できる、結果モデルのトランスファービリティ特性が明らかにされる。 最後に,深層オートエンコーダの利用によって与えられる特性を基にしたアクティブラーニングアプローチによって,トレーニングデータのラベル付けコストを削減する。 実証的評価により, コスト削減脱シダラタムの達成と, 最先端の代替品と同等の有効性が確認できた。

Accurately identifying different representations of the same real-world entity is an integral part of data cleaning and many methods have been proposed to accomplish it. The challenges of this entity resolution task that demand so much research attention are often rooted in the task-specificity and user-dependence of the process. Adopting deep learning techniques has the potential to lessen these challenges. In this paper, we set out to devise an entity resolution method that builds on the robustness conferred by deep autoencoders to reduce human-involvement costs. Specifically, we reduce the cost of training deep entity resolution models by performing unsupervised representation learning. This unveils a transferability property of the resulting model that can further reduce the cost of applying the approach to new datasets by means of transfer learning. Finally, we reduce the cost of labelling training data through an active learning approach that builds on the properties conferred by the use of deep autoencoders. Empirical evaluation confirms the accomplishment of our cost-reduction desideratum while achieving comparable effectiveness with state-of-the-art alternatives.
翻訳日:2022-09-23 06:32:24 公開日:2021-02-26
# バッチ強化学習のためのソフトロバストアルゴリズム

Soft-Robust Algorithms for Batch Reinforcement Learning ( http://arxiv.org/abs/2011.14495v2 )

ライセンス: Link先を確認
Elita A. Lobo, Mohammad Ghavamzadeh, Marek Petrik(参考訳) 強化学習では、限られたデータによる高リスク意思決定問題に対する強固な方針は、通常はパーセンタイルの基準を最適化することで計算される。 残念なことに、このようなポリシーは通常、パーセンタイル基準が非凸であり、最適化が難しく、平均性能を無視しているため、過度に保守的である。 これらの欠点を克服するために、リスク対策を用いて平均とパーセンタイルの基準のバランスを改善するソフト・ロバスト基準について検討する。 本稿では,ソフトロバスト基準の基本特性を定式化し,最適化がnp困難であることを証明し,その最適化のために2つのアルゴリズムを提案し,解析する。 理論解析と経験的評価により,既存のパーセンタイル基準の最適化法に比べて,アルゴリズムは保存的解の計算がはるかに少ないことが示された。

In reinforcement learning, robust policies for high-stakes decision-making problems with limited data are usually computed by optimizing the percentile criterion, which minimizes the probability of a catastrophic failure. Unfortunately, such policies are typically overly conservative as the percentile criterion is non-convex, difficult to optimize, and ignores the mean performance. To overcome these shortcomings, we study the soft-robust criterion, which uses risk measures to balance the mean and percentile criterion better. In this paper, we establish the soft-robust criterion's fundamental properties, show that it is NP-hard to optimize, and propose and analyze two algorithms to approximately optimize it. Our theoretical analyses and empirical evaluations demonstrate that our algorithms compute much less conservative solutions than the existing approximate methods for optimizing the percentile-criterion.
翻訳日:2021-06-06 15:04:29 公開日:2021-02-26
# (参考訳) MLPerfモバイル推論ベンチマーク

MLPerf Mobile Inference Benchmark ( http://arxiv.org/abs/2012.02328v2 )

ライセンス: CC BY 4.0
Vijay Janapa Reddi, David Kanter, Peter Mattson, Jared Duke, Thai Nguyen, Ramesh Chukka, Kenneth Shiring, Koan-Sin Tan, Mark Charlebois, William Chou, Mostafa El-Khamy, Jungwook Hong, Michael Buch, Cindy Trinh, Thomas Atta-fosu, Fatih Cakir, Masoud Charkhabi, Xiaodong Chen, Jimmy Chiang, Dave Dexter, Woncheol Heo, Guenther Schmuelling, Maryam Shabani, Dylan Zika(参考訳) MLPerf Mobileは、業界メンバーと学術研究者が開発し、AIチップとソフトウェアスタックの異なるモバイルデバイスのパフォーマンス/精度評価を可能にする最初の業界標準のオープンソースモバイルベンチマークである。 このベンチマークは、主要なモバイルSoCベンダー、MLフレームワークプロバイダ、モデルプロデューサの専門知識から導かれる。 本稿では,モバイルAI性能のデミスティフィケーションを推進し,MLPerf Mobileの設計上の考慮事項,アーキテクチャ,実装について述べる。 ベンチマークは、標準モデル、データセット、品質メトリクス、そしてルールを実行する一連のモデルで構成されている。 第1回では,モバイルデバイス上でのコンピュータビジョンと自然言語処理のための"アウト・オブ・ボックス"な推論パフォーマンスベンチマークを提供するアプリを開発した。 MLPerf Mobileは、将来のモデルの統合、品質目標しきい値のカスタマイズ、システムパフォーマンスの評価、ソフトウェアフレームワークの比較、マシンラーニングの不均一なハードウェア能力の評価のためのフレームワークとして機能する。

MLPerf Mobile is the first industry-standard open-source mobile benchmark developed by industry members and academic researchers to allow performance/accuracy evaluation of mobile devices with different AI chips and software stacks. The benchmark draws from the expertise of leading mobile-SoC vendors, ML-framework providers, and model producers. In this paper, we motivate the drive to demystify mobile-AI performance and present MLPerf Mobile's design considerations, architecture, and implementation. The benchmark comprises a suite of models that operate under standard models, data sets, quality metrics, and run rules. For the first iteration, we developed an app to provide an "out-of-the-box" inference-performance benchmark for computer vision and natural-language processing on mobile devices. MLPerf Mobile can serve as a framework for integrating future models, for customizing quality-target thresholds to evaluate system performance, for comparing software frameworks, and for assessing heterogeneous-hardware capabilities for machine learning, all fairly and faithfully with fully reproducible results.
翻訳日:2021-05-23 15:55:15 公開日:2021-02-26
# 連続パスを用いたFJの制御流難読化

Control Flow Obfuscation for FJ using Continuation Passing ( http://arxiv.org/abs/2012.06340v2 )

ライセンス: Link先を確認
Kenny Zhuo Ming Lu(参考訳) 制御フローの難読化は、プログラムの制御フロー転送を変更することによって、ソフトウェアをリバースエンジニアリングの試行を妨げる。 交替はソフトウェアの実行時の振る舞いに影響を与えてはならない。 本稿では,例外処理を伴うFJの制御フロー難読化手法を提案する。 このアプローチは継続パススタイル(cps)を用いたソースからソースへの変換に基づいている。 提案したCPS変換は、文脈不感な静的解析と固定呼び出し文字列を用いた文脈不感な解析を用いて悪質な攻撃を引き起こし、精度が低下すると主張している。

Control flow obfuscation deters software reverse engineering attempts by altering the program's control flow transfer. The alternation should not affect the software's run-time behaviour. In this paper, we propose a control flow obfuscation approach for FJ with exception handling. The approach is based on a source to source transformation using continuation passing style (CPS). We argue that the proposed CPS transformation causes malicious attacks using context insensitive static analysis and context sensitive analysis with fixed call string to lose precision.
翻訳日:2021-05-16 21:09:23 公開日:2021-02-26
# (参考訳) 限界を知る: 信頼度OOD検出で失敗するReLU分類器の不確かさ推定

Know Your Limits: Uncertainty Estimation with ReLU Classifiers Fails at Reliable OOD Detection ( http://arxiv.org/abs/2012.05329v3 )

ライセンス: CC BY 4.0
Dennis Ulmer and Giovanni Cin\`a(参考訳) 安全クリティカルなアプリケーションにディープラーニングモデルを確実にデプロイするための重要な要件は、アウト・オブ・ディストリビューション(OOD)データポイント、トレーニングデータと異なるサンプル、モデルが過小評価される可能性のあるサンプルを特定する能力である。 前回の研究では不確実性推定手法を用いてこの問題に取り組んでいる。 しかし, 分類作業においてOODを確実に検出できないという実証的な証拠がある。 本稿では, 実験結果について理論的に説明し, 合成データから考察する。 これらの手法は,その信頼性レベルが特徴空間の未確認領域に一般化されるため,分類設定においてOODサンプルを確実に識別できない。 この結果は、ReLUネットワークを断片的なアフィン変換として表現すること、ソフトマックスのような活性化関数の飽和の性質、そして最も広く使われている不確実性メトリクスの間の相互作用に起因している。

A crucial requirement for reliable deployment of deep learning models for safety-critical applications is the ability to identify out-of-distribution (OOD) data points, samples which differ from the training data and on which a model might underperform. Previous work has attempted to tackle this problem using uncertainty estimation techniques. However, there is empirical evidence that a large family of these techniques do not detect OOD reliably in classification tasks. This paper gives a theoretical explanation for said experimental findings and illustrates it on synthetic data. We prove that such techniques are not able to reliably identify OOD samples in a classification setting, since their level of confidence is generalized to unseen areas of the feature space. This result stems from the interplay between the representation of ReLU networks as piece-wise affine transformations, the saturating nature of activation functions like softmax, and the most widely-used uncertainty metrics.
翻訳日:2021-05-16 04:04:51 公開日:2021-02-26
# (参考訳) ColorShapeLinks: 教育者や学生のためのボードゲームAIコンペティション

ColorShapeLinks: A board game AI competition for educators and students ( http://arxiv.org/abs/2012.09015v2 )

ライセンス: CC BY 4.0
Nuno Fachada(参考訳) ColorShapeLinksは、ゲーム開発における学生や教育者向けに特別に設計されたAIボードゲームコンペティションフレームワークで、オープン性とアクセシビリティを念頭に置いている。 このコンペは、simplexity board gameの任意サイズのバージョンに基づいており、そのモットーである"simple to learn, complex to master"は、興味深いことにaiエージェントにも当てはまる。 ColorShapeLinksはグラフィカルおよびテキストベースのフロントエンドと、業界標準ツールを使用して構築された完全にオープンでドキュメント化された開発フレームワークを提供する。 ColorShapeLinksは競争相手であるだけでなく、教育者や学生が自分の競争をホストするためのゲームとフレームワークでもある。 AIクラスの内部コンペティションの実行や、IEEE Conference on Gamesで国際AIコンペティションの開催に成功している。

ColorShapeLinks is an AI board game competition framework specially designed for students and educators in videogame development, with openness and accessibility in mind. The competition is based on an arbitrarily-sized version of the Simplexity board game, the motto of which, "simple to learn, complex to master", is curiously also applicable to AI agents. ColorShapeLinks offers graphical and text-based frontends and a completely open and documented development framework built using industry standard tools and following software engineering best practices. ColorShapeLinks is not only a competition, but both a game and a framework which educators and students can extend and use to host their own competitions. It has been successfully used for running internal competitions in AI classes, as well as for hosting an international AI competition at the IEEE Conference on Games.
翻訳日:2021-05-03 11:09:37 公開日:2021-02-26
# (参考訳) 私はまだあなたを信頼できますか。 分散シフトがアルゴリズム的会話に与える影響を理解する

Can I Still Trust You?: Understanding the Impact of Distribution Shifts on Algorithmic Recourses ( http://arxiv.org/abs/2012.11788v2 )

ライセンス: CC BY 4.0
Kaivalya Rawal, Ece Kamar, Himabindu Lakkaraju(参考訳) 雇用の決定からローンの承認まで、予測モデルが様々な決定を下すためにますます展開されているため、影響を受ける個人に信頼できるリコースを提供するアルゴリズムの設計に重点が置かれている。 本研究では,分布シフトのレンズによるアルゴリズムの講義の信頼性を評価する。すなわち,現状のアルゴリズムが分布シフトに対して堅牢であるかどうかを検討する。 私たちの知る限りでは、この研究は、この批判的な問題に取り組む最初の試みとなる。 我々は、時間シフト、地理空間シフト、データ修正によるシフトなど、様々な種類の分布シフトを収集する複数の合成および実世界のデータセットを実験した。 その結果,上記の分散シフトが,最先端アルゴリズムによる帰結を無効にする可能性が示唆された。 提案理論は, 分散シフトによるリコース無効化確率の低い値を確立し, この無効化確率と, 現代のリコース生成アルゴリズムで最小化されるコストの典型的な概念とのトレードオフの存在を示す。 本研究は,リコース発見戦略の根本的な欠陥を明らかにするだけでなく,リコース生成アルゴリズムの設計と開発を再考する新たな手法を開拓する。

As predictive models are being increasingly deployed to make a variety of consequential decisions ranging from hiring decisions to loan approvals, there is growing emphasis on designing algorithms that can provide reliable recourses to affected individuals. In this work, we assess the reliability of algorithmic recourses through the lens of distribution shifts i.e., we study if the recourses generated by state-of-the-art algorithms are robust to distribution shifts. To the best of our knowledge, this work makes the first attempt at addressing this critical question. We experiment with multiple synthetic and real world datasets capturing different kinds of distribution shifts including temporal shifts, geospatial shifts, and shifts due to data corrections. Our results demonstrate that all the aforementioned distribution shifts could potentially invalidate the recourses generated by state-of-the-art algorithms. Our theoretical results establish a lower bound on the probability of recourse invalidation due to distribution shifts, and show the existence of a tradeoff between this invalidation probability and typical notions of cost minimized by modern recourse generation algorithms. Our findings not only expose fundamental flaws in recourse finding strategies but also pave new way for rethinking the design and development of recourse generation algorithms.
翻訳日:2021-04-27 04:05:58 公開日:2021-02-26
# (参考訳) 私たちは同じページにいますか? 強化学習を用いたロボットチームにおける計画課題の階層的説明生成

Are We On The Same Page? Hierarchical Explanation Generation for Planning Tasks in Human-Robot Teaming using Reinforcement Learning ( http://arxiv.org/abs/2012.11792v2 )

ライセンス: CC BY 4.0
Mehrdad Zakershahrak and Samira Ghodratnama(参考訳) 説明を提供することは、人間ロボットのチームリングフレームワークにおけるAIエージェントにとって必須の能力であると考えられている。 正しい説明は、AIエージェントの意思決定の背後にある根拠を提供する。 しかしながら、提供された説明を理解するための人間のチームメイトの認知的要求を維持するために、先行研究は、説明を特定の順序で提供したり、説明の生成と計画実行の間を行き来することに焦点を当ててきた。 さらに、これらのアプローチは、提供された説明を通じて共有するために必要な詳細の度合いを考慮していない。 本研究では,エージェントが生成する説明,特に複雑な説明は,受取人の認知負荷を維持したい人間のチームメートが望む詳細レベルに合致するように抽象化されるべきである。 したがって、階層的説明モデルを学ぶことは難しい課題である。 さらに、エージェントは学習したチームメイトの好みを新しいシナリオに移すための一貫性のある高レベルなポリシーに従う必要があります。 本評価では,説明の理解過程,特に複雑かつ詳細な説明が階層的であることを確認した。 この側面を反映した人間の嗜好は、認知過程の奥深くに隠された知識同化のための抽象概念の作成と活用と正確に一致する。 階層的な説明は, 認知負荷を低減しつつ, 作業性能と行動解釈性を向上することを示した。 これらの結果は,様々な領域にわたる強化学習と計画を活用した説明可能なエージェントの設計に光を当てた。

Providing explanations is considered an imperative ability for an AI agent in a human-robot teaming framework. The right explanation provides the rationale behind an AI agent's decision-making. However, to maintain the human teammate's cognitive demand to comprehend the provided explanations, prior works have focused on providing explanations in a specific order or intertwining the explanation generation with plan execution. Moreover, these approaches do not consider the degree of details required to share throughout the provided explanations. In this work, we argue that the agent-generated explanations, especially the complex ones, should be abstracted to be aligned with the level of details the human teammate desires to maintain the recipient's cognitive load. Therefore, learning a hierarchical explanations model is a challenging task. Moreover, the agent needs to follow a consistent high-level policy to transfer the learned teammate preferences to a new scenario while lower-level detailed plans are different. Our evaluation confirmed the process of understanding an explanation, especially a complex and detailed explanation, is hierarchical. The human preference that reflected this aspect corresponded exactly to creating and employing abstraction for knowledge assimilation hidden deeper in our cognitive process. We showed that hierarchical explanations achieved better task performance and behavior interpretability while reduced cognitive load. These results shed light on designing explainable agents utilizing reinforcement learning and planning across various domains.
翻訳日:2021-04-27 03:49:23 公開日:2021-02-26
# 非線形神経放射場:モノクロ映像からの動的シーンの再構成と新しい視点合成

Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a Dynamic Scene From Monocular Video ( http://arxiv.org/abs/2012.12247v3 )

ライセンス: Link先を確認
Edgar Tretschk, Ayush Tewari, Vladislav Golyanik, Michael Zollh\"ofer, Christoph Lassner, Christian Theobalt(参考訳) nr-nerf(non-rigid neural radiance fields)は,一般の非剛性動的シーンに対する再構成と新しい視点合成手法である。 本研究では,動的シーンのrgb画像を,例えば単眼映像記録から入力として取得し,高品質な時空間形状と外観表現を作成する。 特に,単一ハンドヘルドのコンシューマグレードカメラであっても,新しい仮想カメラビューからダイナミックシーンの高度なレンダリングを合成するのに十分であることを示す。 本手法は, 動的シーンを標準体積と変形に分解する。 シーン変形は、直線線が無拘束に変形してシーンの動きを表すレイ曲げとして実装される。 また,シーンの剛性領域をよりよく制約し,より安定した結果が得られる新しい剛性回帰ネットワークを提案する。 レイ曲げと剛性ネットワークは、明確な監督なしに訓練される。 新規なビュー合成に加えて,ビューと時間間の密接な対応推定を可能にするとともに,モーション誇張などの魅力的なビデオ編集アプリケーションも提供する。 本手法は, アブレーション研究を含む広範囲な評価と, 現状との比較により, 有効性を示す。 我々は読者に質的な結果のために補足ビデオを見るよう促す。 私たちのコードはオープンソースになります。

We present Non-Rigid Neural Radiance Fields (NR-NeRF), a reconstruction and novel view synthesis approach for general non-rigid dynamic scenes. Our approach takes RGB images of a dynamic scene as input, e.g., from a monocular video recording, and creates a high-quality space-time geometry and appearance representation. In particular, we show that even a single handheld consumer-grade camera is sufficient to synthesize sophisticated renderings of a dynamic scene from novel virtual camera views, for example a `bullet-time' video effect. Our method disentangles the dynamic scene into a canonical volume and its deformation. Scene deformation is implemented as ray bending, where straight rays are deformed non-rigidly to represent scene motion. We also propose a novel rigidity regression network that enables us to better constrain rigid regions of the scene, which leads to more stable results. The ray bending and rigidity network are trained without any explicit supervision. In addition to novel view synthesis, our formulation enables dense correspondence estimation across views and time, as well as compelling video editing applications such as motion exaggeration. We demonstrate the effectiveness of our method using extensive evaluations, including ablation studies and comparisons to the state of the art. We urge the reader to watch the supplemental video for qualitative results. Our code will be open sourced.
翻訳日:2021-04-26 07:21:22 公開日:2021-02-26
# 不変リスク最小化は不変量を取るか?

Does Invariant Risk Minimization Capture Invariance? ( http://arxiv.org/abs/2101.01134v2 )

ライセンス: Link先を確認
Pritish Kamath and Akilesh Tangella and Danica J. Sutherland and Nathan Srebro(参考訳) 本稿では,Arjovskyらによる不変リスク最小化(IRM)の定式化について述べる。 (2019)は、少なくとも実用的な「線形」形式や、IRMのモチベーションのある例に直従する非常に単純な問題において、「自然な」不変性を捉えることができない。 これは、制約のないermと比較しても、新しい環境の一般化を悪化させる可能性がある。 この問題は、線形変種(具体的にはIRMv1)と完全な非線形IRMの定式化の間の大きなギャップに起因する。 さらに, 「右」 不変量を捕捉しても, 環境間の損失関数が不変でないため, IRM が準最適予測器を学習することは可能であることを示す。 この問題は人口分布の不均一性を測定する際にも生じるが、IRMがサンプリングに非常に脆弱であるという事実によりさらに悪化する。

We show that the Invariant Risk Minimization (IRM) formulation of Arjovsky et al. (2019) can fail to capture "natural" invariances, at least when used in its practical "linear" form, and even on very simple problems which directly follow the motivating examples for IRM. This can lead to worse generalization on new environments, even when compared to unconstrained ERM. The issue stems from a significant gap between the linear variant (as in their concrete method IRMv1) and the full non-linear IRM formulation. Additionally, even when capturing the "right" invariances, we show that it is possible for IRM to learn a sub-optimal predictor, due to the loss function not being invariant across environments. The issues arise even when measuring invariance on the population distributions, but are exacerbated by the fact that IRM is extremely fragile to sampling.
翻訳日:2021-04-11 23:05:48 公開日:2021-02-26
# (参考訳) 物体検出法を用いたミツバチのハチ寄生ダニの視覚診断

Visual diagnosis of the Varroa destructor parasitic mite in honeybees using object detector techniques ( http://arxiv.org/abs/2103.03133v1 )

ライセンス: CC BY 4.0
Simon Bilik, Lukas Kratochvila, Adam Ligocki, Ondrej Bostik, Tomas Zemcik, Matous Hybl, Karel Horak, Ludek Zalud(参考訳) ミツバチは世界で最も危険なミツバチ(apis mellifera)寄生虫の1つであり、ミツバチのコロニーはその拡散を制御するために定期的に監視されなければならない。 本稿では,ミツバチコロニーの健康状態モニタリングのためのオブジェクト検出法を提案する。 この方法はオンライン計測と処理の可能性を秘めている。 実験では、YOLOとSSDオブジェクト検出器とDeep SVDD異常検出器を比較した。 さまざまな場面で健康なハチと感染したハチの600枚の地上写真によるカスタムデータセットに基づいて、検出装置は感染したミツバチの検出では0.874点、バロアデストラクタのダニ検出では0.727点に達した。 その結果, リアルタイムコンピュータビジョンを用いたミツバチ検査システムにおいて, このアプローチの可能性を実証した。 私たちの知る限りでは、この研究は物体検出器をこの目的のために使う最初の研究です。 これらの物体検出器の性能は、ミツバチコロニーの健康状態を検査できると期待しています。

The Varroa destructor mite is one of the most dangerous Honey Bee (Apis mellifera) parasites worldwide and the bee colonies have to be regularly monitored in order to control its spread. Here we present an object detector based method for health state monitoring of bee colonies. This method has the potential for online measurement and processing. In our experiment, we compare the YOLO and SSD object detectors along with the Deep SVDD anomaly detector. Based on the custom dataset with 600 ground-truth images of healthy and infected bees in various scenes, the detectors reached a high F1 score up to 0.874 in the infected bee detection and up to 0.727 in the detection of the Varroa Destructor mite itself. The results demonstrate the potential of this approach, which will be later used in the real-time computer vision based honey bee inspection system. To the best of our knowledge, this study is the first one using object detectors for this purpose. We expect that performance of those object detectors will enable us to inspect the health status of the honey bee colonies.
翻訳日:2021-04-05 08:23:40 公開日:2021-02-26
# 遺伝的アルゴリズムを用いた変換畳み込みニューラルネットワークのハイパーパラメータ最適化

Genetic Algorithm based hyper-parameters optimization for transfer Convolutional Neural Network ( http://arxiv.org/abs/2103.03875v1 )

ライセンス: Link先を確認
Chen Li, JinZhe Jiang, YaQian Zhao, RenGang Li, EnDong Wang, Xin Zhang, Kun Zhao(参考訳) ハイパーパラメータ最適化は、ディープニューラルネットワークを開発する上で難しい問題である。 転送層とトレーニング可能な層の決定は、転送畳み込みニューラルネットワーク(CNN)の設計における主要なタスクである。 従来のCNNモデルは直感に基づいて手動で設計される。 本稿では,トランスファーモデルのトレーニング可能な層選択に遺伝的アルゴリズムを適用した。 フィルタ基準は、トレーニング可能な層の数と精度で構成される。 その結果,この手法は有能であることがわかった。 このシステムは、猫と犬のデータセットの分類において、97%の精度で15世代以内の精度で収束する。 さらに, 遺伝的アルゴリズムの結果に基づく後方推定により, ネットワーク層の勾配特徴を捉えることができ, トランスファーaiモデルの理解に寄与することを示した。

Hyperparameter optimization is a challenging problem in developing deep neural networks. Decision of transfer layers and trainable layers is a major task for design of the transfer convolutional neural networks (CNN). Conventional transfer CNN models are usually manually designed based on intuition. In this paper, a genetic algorithm is applied to select trainable layers of the transfer model. The filter criterion is constructed by accuracy and the counts of the trainable layers. The results show that the method is competent in this task. The system will converge with a precision of 97% in the classification of Cats and Dogs datasets, in no more than 15 generations. Moreover, backward inference according the results of the genetic algorithm shows that our method can capture the gradient features in network layers, which plays a part on understanding of the transfer AI models.
翻訳日:2021-04-05 00:52:28 公開日:2021-02-26
# 不均質な目的:現状と今後の研究

Heterogeneous Objectives: State-of-the-Art and Future Research ( http://arxiv.org/abs/2103.15546v1 )

ライセンス: Link先を確認
Richard Allmendinger and Joshua Knowles(参考訳) 異質な目的を持つ多目的最適化問題は、(単位やスケールでは無視できないだけでなく)非常に異なる種類の目的関数コンポーネントを持つものとして定義される。 例えば、不均一な問題では、客観的関数成分は形式的な計算複雑性、実際的な評価努力(時間、コスト、資源)、決定論(確率的対決定論的)、あるいはこれら3つの組み合わせで異なる場合がある。 特に困難な多様性は、時間を消費する実験室ベースの目的と、より高速なコンピュータベースの計算を用いて評価される他の目的の組み合わせによって起こりうる。 おそらくより一般的には、全ての目的を計算的に評価することができるが、あるものは比較的単純な閉形式計算から計算される一方で、長いシミュレーションプロセスを必要とする。 本章では、異質な目的(実世界の例を参照して)のトピックに関するさらなる研究の必要性を動機付け、異質なタイプの基本的な分類法を拡張し、これらの問題に取り組む技術の現状について検討する。 評価時間(相対性)における不均一性に特に注目する。 また,多目的問題における評価時間の不均一性について,合理的な仮定から推定する実験結果と,今後この領域に寄与する可能性のある調査研究スレッドについて述べる。

Multiobjective optimization problems with heterogeneous objectives are defined as those that possess significantly different types of objective function components (not just incommensurable in units or scale). For example, in a heterogeneous problem the objective function components may differ in formal computational complexity, practical evaluation effort (time, costs, or resources), determinism (stochastic vs deterministic), or some combination of all three. A particularly challenging variety of heterogeneity may occur by the combination of a time-consuming laboratory-based objective with other objectives that are evaluated using faster computer-based calculations. Perhaps more commonly, all objectives may be evaluated computationally, but some may require a lengthy simulation process while others are computed from a relatively simple closed-form calculation. In this chapter, we motivate the need for more work on the topic of heterogeneous objectives (with reference to real-world examples), expand on a basic taxonomy of heterogeneity types, and review the state of the art in tackling these problems. We give special attention to heterogeneity in evaluation time (latency) as this requires sophisticated approaches. We also present original experimental work on estimating the amount of heterogeneity in evaluation time expected in many-objective problems, given reasonable assumptions, and survey related research threads that could contribute to this area in future.
翻訳日:2021-04-05 00:52:18 公開日:2021-02-26
# 日本語意味的役割ラベリングのための依存解析を用いた階層型マルチタスク学習

Hierarchical Multitask Learning with Dependency Parsing for Japanese Semantic Role Labeling Improves Performance of Argument Identification ( http://arxiv.org/abs/2101.06071v2 )

ライセンス: Link先を確認
Tomohiro Nakamura, Tomoya Miyashita, Soh Ohara(参考訳) FrameNetとPropBankの出現により、多くの意味的役割ラベルシステム(SRL)が英語で提案されている。 日本語述語引数構造解析 (pasa) の研究は行われているが, 表面事例に着目した研究が多い。 日本におけるSRLの深層事例に関する先行研究はごくわずかであり, モデルの精度は低い。 そこで本研究では,依存関係解析(DP)を用いた階層型マルチタスク学習手法を提案する。 また,引数識別と引数分類を同時に行うジョイントモデルを用いて実験を行った。 その結果,DPを用いたマルチタスクは議論の識別に有効であることが示唆された。

With the advent of FrameNet and PropBank, many semantic role labeling (SRL) systems have been proposed in English. Although research on Japanese predicate argument structure analysis (PASA) has been conducted, most studies focused on surface cases. There are only few previous works on Japanese SRL for deep cases, and their models' accuracies are low. Therefore, we propose a hierarchical multitask learning method with dependency parsing (DP) and show that our model achieves state-of-the-art results in Japanese SRL. Also, we conduct experiments with a joint model that performs both argument identification and argument classification simultaneously. The result suggests that multitasking with DP is mainly effective for argument identification.
翻訳日:2021-03-28 11:21:21 公開日:2021-02-26
# オープンソースの脅威情報収集・管理自動化システム

A System for Automated Open-Source Threat Intelligence Gathering and Management ( http://arxiv.org/abs/2101.07769v2 )

ライセンス: Link先を確認
Peng Gao, Xiaoyuan Liu, Edward Choi, Bhavna Soman, Chinmaya Mishra, Kate Farris, Dawn Song(参考訳) 急速に進化するサイバー脅威の状況に気付くために、オープンソースのCyber Threat Intelligence(OSCTI)はコミュニティから注目を集めている。 一般的に、脅威に関する知識は多くのosctiレポートで提示される。 しかし、高品質なOSCTIの必要性が強まっているにもかかわらず、既存のOSCTIの収集および管理プラットフォームは、主に分離された低レベルのCompromiseの指標に焦点を当てている。 一方、高度な概念(敵戦術、技法、手続きなど)とその関係性は見過ごされ、完全な脅威シナリオを明らかにする上で重要な脅威行動に関する本質的な知識を含んでいる。 このギャップを埋めるため,OSCTIの自動収集・管理システムであるSecurityKGを提案する。 SecurityKGは、さまざまなソースからOSCTIレポートを収集し、AIとNLP技術を組み合わせて脅威行動に関する高精度な知識を抽出し、セキュリティ知識グラフを構築する。 SecurityKGはまた、知識グラフ探索を容易にするさまざまなタイプの対話性をサポートするUIを提供する。

To remain aware of the fast-evolving cyber threat landscape, open-source Cyber Threat Intelligence (OSCTI) has received growing attention from the community. Commonly, knowledge about threats is presented in a vast number of OSCTI reports. Despite the pressing need for high-quality OSCTI, existing OSCTI gathering and management platforms, however, have primarily focused on isolated, low-level Indicators of Compromise. On the other hand, higher-level concepts (e.g., adversary tactics, techniques, and procedures) and their relationships have been overlooked, which contain essential knowledge about threat behaviors that is critical to uncovering the complete threat scenario. To bridge the gap, we propose SecurityKG, a system for automated OSCTI gathering and management. SecurityKG collects OSCTI reports from various sources, uses a combination of AI and NLP techniques to extract high-fidelity knowledge about threat behaviors, and constructs a security knowledge graph. SecurityKG also provides a UI that supports various types of interactivity to facilitate knowledge graph exploration.
翻訳日:2021-03-22 11:30:37 公開日:2021-02-26
# invariance, encodings, and generalization: learning identity effects with neural networks

Invariance, encodings, and generalization: learning identity effects with neural networks ( http://arxiv.org/abs/2101.08386v2 )

ライセンス: Link先を確認
S. Brugiapaglia, M. Liu, P. Tupper(参考訳) 言語や他の認知領域では、オブジェクトの2つの要素が同一であるかどうかが、それがよく形成されているかどうかを判断する。 このような制約をアイデンティティ効果と呼ぶ。 実例から順調に学習するシステムを開発する場合、特定効果で構築することは十分容易である。 しかし、ID効果は明確なガイダンスなしでデータから学べるだろうか? 単純な基準を満たすアルゴリズムが正しい推論を行うことができないことを厳密に証明できるフレームワークを提供する。 次に,勾配に基づくアルゴリズム(確率的勾配降下法やadam法など)で学習された深層フィードフォワードニューラルネットワークを含む幅広い学習アルゴリズムが,入力の符号化に依存する条件を満たすことを示す。 より広い状況下では、ネットワークが必ずしも正しく分類しない敵例を提供することができる。 最後に,新しい入力に一般化するアルゴリズムの能力に対する異なる入力エンコーディングの効果を探索する計算実験により,我々の理論を実証する。

Often in language and other areas of cognition, whether two components of an object are identical or not determines if it is well formed. We call such constraints identity effects. When developing a system to learn well-formedness from examples, it is easy enough to build in an identify effect. But can identity effects be learned from the data without explicit guidance? We provide a framework in which we can rigorously prove that algorithms satisfying simple criteria cannot make the correct inference. We then show that a broad class of learning algorithms including deep feedforward neural networks trained via gradient-based algorithms (such as stochastic gradient descent or the Adam method) satisfy our criteria, dependent on the encoding of inputs. In some broader circumstances we are able to provide adversarial examples that the network necessarily classifies incorrectly. Finally, we demonstrate our theory with computational experiments in which we explore the effect of different input encodings on the ability of algorithms to generalize to novel inputs.
翻訳日:2021-03-21 08:05:51 公開日:2021-02-26
# (参考訳) ニューラルネットワーク上のグラディエントDescentは、通常安定性の端で発生する

Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability ( http://arxiv.org/abs/2103.00065v1 )

ライセンス: CC BY 4.0
Jeremy M. Cohen, Simran Kaur, Yuanzhi Li, J. Zico Kolter, Ameet Talwalkar(参考訳) 実験的に、ニューラルネットワークトレーニングの目的に対するフルバッチ勾配降下は、通常、安定性のエッジと呼ばれる体制で動作します。 この方法では、トレーニング損失ヘッシアンの最大固有値は数値値2 / \text{(step size)}$の真上をホバリングし、トレーニング損失は短い時間スケールで単調に振る舞うが、長い時間スケールで一貫して減少する。 この振舞いは最適化の分野で広範囲にわたる推定と矛盾するため、これらの推定がニューラルネットワークのトレーニングに関係しているかどうかという疑問が提起される。 我々は,安定性のエッジにおける最適化の厳密な理解を目的とした今後の取り組みに刺激を与えることを期待している。 コードはhttps://github.com/locuslab/edge-of-stabilityで入手できる。

We empirically demonstrate that full-batch gradient descent on neural network training objectives typically operates in a regime we call the Edge of Stability. In this regime, the maximum eigenvalue of the training loss Hessian hovers just above the numerical value $2 / \text{(step size)}$, and the training loss behaves non-monotonically over short timescales, yet consistently decreases over long timescales. Since this behavior is inconsistent with several widespread presumptions in the field of optimization, our findings raise questions as to whether these presumptions are relevant to neural network training. We hope that our findings will inspire future efforts aimed at rigorously understanding optimization at the Edge of Stability. Code is available at https://github.com/locuslab/edge-of-stability.
翻訳日:2021-03-05 23:24:29 公開日:2021-02-26
# (参考訳) 道路走行速度予測のための逆・回帰ネットワークを用いた分割グラフ畳み込み

Partitioned Graph Convolution Using Adversarial and Regression Networks for Road Travel Speed Prediction ( http://arxiv.org/abs/2103.00067v1 )

ライセンス: CC BY 4.0
Jakob Meldgaard Kj{\ae}r, Lasse Kristensen, Mads Alberg Christensen(参考訳) 道路網内の経路のリアルタイム走行時間推定の需要が高まり、道路網内の道路の品質走行時間情報へのアクセスがますます重要になっている。 本稿では, デンマーク道路網(drn)データ集合の文脈において, 走行時間推定が困難となる850,980区間の23.88%を対象として, 動脈道路に対してデータカバレッジがばらばらで歪曲していることを示す。 グラフベースのデータ処理の既存のソリューションは、しばしばグラフのサイズを無視するが、これは大量の接続された道路セグメントを持つ道路ネットワークにとって明らかな問題である。 そこで本研究では,逆正規化畳み込みネットワークによって生成された潜在表現に基づいて,データレスエッジの道路セグメント走行速度ヒストグラムを予測する枠組みを提案する。 分割アルゴリズムを適用してグラフを高密度サブグラフに分割し、各サブグラフのモデルをトレーニングしてノードの速度ヒストグラムを予測します。 このフレームワークは、DRNデータセットを用いた走行速度ヒストグラムの予測において、71.5%の交差点と78.5%の相関の精度を実現する。 さらに、データセットをクラスタに分割することで、フレームワークのパフォーマンスが向上することを示した。 具体的には、道路ネットワークデータセットを100のクラスタに分割し、各クラスタに約500の道路セグメントがあり、10および20のクラスタを使用する場合よりも優れたパフォーマンスを実現します。

Access to quality travel time information for roads in a road network has become increasingly important with the rising demand for real-time travel time estimation for paths within road networks. In the context of the Danish road network (DRN) dataset used in this paper, the data coverage is sparse and skewed towards arterial roads, with a coverage of 23.88% across 850,980 road segments, which makes travel time estimation difficult. Existing solutions for graph-based data processing often neglect the size of the graph, which is an apparent problem for road networks with a large amount of connected road segments. To this end, we propose a framework for predicting road segment travel speed histograms for dataless edges, based on a latent representation generated by an adversarially regularized convolutional network. We apply a partitioning algorithm to divide the graph into dense subgraphs, and then train a model for each subgraph to predict speed histograms for the nodes. The framework achieves an accuracy of 71.5% intersection and 78.5% correlation on predicting travel speed histograms using the DRN dataset. Furthermore, experiments show that partitioning the dataset into clusters increases the performance of the framework. Specifically, partitioning the road network dataset into 100 clusters, with approximately 500 road segments in each cluster, achieves a better performance than when using 10 and 20 clusters.
翻訳日:2021-03-05 10:41:32 公開日:2021-02-26
# (参考訳) CXR-Net:胸部X線スクリーニングのための人工知能パイプライン

CXR-Net: An Artificial Intelligence Pipeline for Quick Covid-19 Screening of Chest X-Rays ( http://arxiv.org/abs/2103.00087v1 )

ライセンス: CC BY 4.0
Haikal Abdulah, Benjamin Huber, Sinan Lal, Hassan Abdallah, Luigi L. Palese, Hamid Soltanian-Zadeh, Domenico L. Gatti(参考訳) CXR-Netは、胸部X線(CXR)からSARS-CoV-2を素早く検出するための2モジュール人工知能パイプラインである。 モジュール1は6395 cxrの公開データセットで訓練され、放射線科医は肺輪郭に注意を付けて、心臓と大血管を重複する肺のマスクを生成した。 モジュール2は、学習係数を持つ最初の畳み込み層を、ウェーブレット散乱変換(WST)によって提供される固定係数の層に置き換えるハイブリッドコンベットである。 モジュール2は、患者CXRとそれに対応する肺マスクをモジュール1で計算し、クラス割り当て(Covid vs. non-Covid)とSARS関連肺領域を識別する高分解能熱マップを出力する。 モジュール2は、デトロイトのHenry Ford Health System(HFHS)病院で取得した非CovidおよびRT-PCRのCXRのデータセットで訓練された。 全ての非コビッドCXRは、コビッド前(2018-2019年)のもので、非コビッド病の影響を受ける正常な肺と肺の両方の画像を含んでいた。 トレーニングとテストセットはそれぞれ2265 CXR (1417 Covid negative, 848 Covid positive) と1532 CXR (945 Covid negative, 587 Covid positive) で構成されていた。 1887年の画像で訓練され、378の画像に対して検証された6つの異なるクロスバリデーションモデルがアンサンブルモデルに結合され、その結果、テストセットのCXRイメージを精度 = 0.789、精度 = 0.739、リコール = 0.693、F1スコア = 0.715、ROC(AUC) = 0.852で分類した。

CXR-Net is a two-module Artificial Intelligence pipeline for the quick detection of SARS-CoV-2 from chest X-rays (CXRs). Module 1 was trained on a public dataset of 6395 CXRs with radiologist annotated lung contours to generate masks of the lungs that overlap the heart and large vasa. Module 2 is a hybrid convnet in which the first convolutional layer with learned coefficients is replaced by a layer with fixed coefficients provided by the Wavelet Scattering Transform (WST). Module 2 takes as inputs the patients CXRs and corresponding lung masks calculated by Module 1, and produces as outputs a class assignment (Covid vs. non-Covid) and high resolution heat maps that identify the SARS associated lung regions. Module 2 was trained on a dataset of CXRs from non-Covid and RT-PCR confirmed Covid patients acquired at the Henry Ford Health System (HFHS) Hospital in Detroit. All non-Covid CXRs were from pre-Covid era (2018-2019), and included images from both normal lungs and lungs affected by non-Covid pathologies. Training and test sets consisted of 2265 CXRs (1417 Covid negative, 848 Covid positive), and 1532 CXRs (945 Covid negative, 587 Covid positive), respectively. Six distinct cross-validation models, each trained on 1887 images and validated against 378 images, were combined into an ensemble model that was used to classify the CXR images of the test set with resulting Accuracy = 0.789, Precision = 0.739, Recall = 0.693, F1 score = 0.715, ROC(AUC) = 0.852.
翻訳日:2021-03-04 09:44:17 公開日:2021-02-26
# (参考訳) 公共空間における視覚の注意と歩行行動を変化させるポスト・フレイナーとスマートフォン・ゾンビ・スマートフォン間

Between Post-Flaneur and Smartphone Zombie Smartphone Users Altering Visual Attention and Walking Behavior in Public Space ( http://arxiv.org/abs/2103.01217v1 )

ライセンス: CC BY 4.0
Gorsev Argin, Burak Pak, Handan Turkoglu(参考訳) 日常生活におけるスマートフォンの広範な使用は、公共空間における新しい用途と行動のモードを作り出しました。 これらの認識は、人間、技術、都市環境の関係を改善するのに役立つ都市設計と都市計画の実践に不可欠である。 本研究の目的は、公共空間におけるスマートフォン利用者の視覚的注意と歩行行動の変化を観察し、新たな人物を明らかにすることである。 この目的のために、ベルギーのヘントにあるコレンマルクト広場は10分間隔で7日間観察された。 スマートフォン利用者の視線と歩行行動は,位置情報と時間データとしてエンコードされ,統計的および空間的分析手法を用いて解析,マッピングされた。 本研究は,スマートフォン利用者の特徴を識別する新しい手法を開発し,実装し,新しい空間的価値の微妙な評価を行った。 この発見は、公共空間における視覚的相互作用や動きの変化を明らかにしながら、発火後やスマートフォンゾンビなどの発生人物のさまざまな行動パターンをよりよく理解し、理解した。 その結果、研究者やデザイナーが空間分析手法をどのように活用し、未来の公共空間を仮想と物理を統合したハイブリッド構造として再考できるかという疑問が持ち上がった。

The extensive use of smartphones in our everyday lives has created new modes of appropriation and behavior in public spaces. Recognition of these are essential for urban design and planning practices which help us to improve the relationship between humans, technologies, and urban environment. This study aims to research smartphone users in public space by observing their altering visual attention and walking behavior, and, in this way, to reveal the emergent new figures. For this purpose, Korenmarkt square in Ghent, Belgium, was observed for seven days in 10-min time intervals. The gaze and walking behavior of smartphone users were encoded as geo-located and temporal data, analyzed and mapped using statistical and spatial analysis methods. Developing and implementing new methods for identifying the characteristics of smartphone users, this study resulted in a nuanced characterization of novel spatial appropriations. The findings led to a better understanding and knowledge of the different behavior patterns of emergent figures such as post-flaneurs and smartphone zombies while uncovering their altering visual interactions with and movements in the public space. The results evoked questions on how researchers and designers can make use of spatial analysis methods and rethink the public space of the future as a hybrid construct integrating the virtual and the physical.
翻訳日:2021-03-04 06:25:04 公開日:2021-02-26
# (参考訳) サンプリングやシャッフルなしで実践的でプライベートな(深い)学習

Practical and Private (Deep) Learning without Sampling or Shuffling ( http://arxiv.org/abs/2103.00039v1 )

ライセンス: CC BY 4.0
Peter Kairouz, Brendan McMahan, Shuang Song, Om Thakkar, Abhradeep Thakurta, Zheng Xu(参考訳) ミニバッチグラデーションを用いた差分プライバシー(DP)のトレーニングモデルを検討する。 DP-SGDは、最高のプライバシー/正確性/コンピューティングのトレードオフを得るためにサンプリングまたはシャフリングによるプライバシーの増幅を必要とします。 残念ながら、正確なサンプリングとシャッフルの正確な要件は、重要な実践シナリオ、特に連邦学習(FL)において得るのは難しい。 DP-SGDの増幅と(理論的および実証的に)有利に比較し、より柔軟なデータアクセスパターンを可能にするDP-FTRLのDPバリアントを設計し、分析します。 DP-FTRLはいかなる形のプライバシー増幅も使用しません。

We consider training models with differential privacy (DP) using mini-batch gradients. The existing state-of-the-art, Differentially Private Stochastic Gradient Descent (DP-SGD), requires privacy amplification by sampling or shuffling to obtain the best privacy/accuracy/computation trade-offs. Unfortunately, the precise requirements on exact sampling and shuffling can be hard to obtain in important practical scenarios, particularly federated learning (FL). We design and analyze a DP variant of Follow-The-Regularized-Leader (DP-FTRL) that compares favorably (both theoretically and empirically) to amplified DP-SGD, while allowing for much more flexible data access patterns. DP-FTRL does not use any form of privacy amplification.
翻訳日:2021-03-04 05:42:53 公開日:2021-02-26
# 知識認識ゼロショット学習:調査と展望

Knowledge-aware Zero-Shot Learning: Survey and Perspective ( http://arxiv.org/abs/2103.00070v1 )

ライセンス: Link先を確認
Jiaoyan Chen and Yuxia Geng and Zhuo Chen and Ian Horrocks and Jeff Z. Pan and Huajun Chen(参考訳) ゼロショット学習(ZSL: Zero-shot Learning)は、外部知識を用いてトレーニング中に一度も現れないクラスを予測することを目的とした学習である。 側面情報)は広く調査されている。 本稿では,外部知識の観点からのZSLに向けた文献レビューを行い,外部知識を分類し,その手法をレビューし,異なる外部知識を比較する。 文献レビューでは、ZSLや他の機械学習サンプル不足問題に対処する上で、象徴的知識が果たす役割について論じ、概観する。

Zero-shot learning (ZSL) which aims at predicting classes that have never appeared during the training using external knowledge (a.k.a. side information) has been widely investigated. In this paper we present a literature review towards ZSL in the perspective of external knowledge, where we categorize the external knowledge, review their methods and compare different external knowledge. With the literature review, we further discuss and outlook the role of symbolic knowledge in addressing ZSL and other machine learning sample shortage issues.
翻訳日:2021-03-03 17:25:50 公開日:2021-02-26
# より良い反事実的説明があれば--反事実的xai手法の評価を正すための5つの重要な欠陥

If Only We Had Better Counterfactual Explanations: Five Key Deficits to Rectify in the Evaluation of Counterfactual XAI Techniques ( http://arxiv.org/abs/2103.01035v1 )

ライセンス: Link先を確認
Mark T Keane, Eoin M Kenny, Eoin Delaney, Barry Smyth(参考訳) 近年,eXplainable AI(XAI)問題に対する解決策として,対実的説明に関するAI研究が爆発的に増えている。 これらの説明は他の説明技術よりも技術的、心理的、法的利益を提供するようです。 文献に報告された100の異なる非実用説明方法を調査した。 本研究は,これらの手法が心理的および計算学的に適切に評価され,発生した欠点を定量化する方法である。 例えば、これらのメソッドの21%がユーザテスト済みである。 これらの手法の評価における5つの重要な欠陥が詳細に述べられ、その問題点を解決するために、ベンチマーク評価を標準化したロードマップが提案されている。

In recent years, there has been an explosion of AI research on counterfactual explanations as a solution to the problem of eXplainable AI (XAI). These explanations seem to offer technical, psychological and legal benefits over other explanation techniques. We survey 100 distinct counterfactual explanation methods reported in the literature. This survey addresses the extent to which these methods have been adequately evaluated, both psychologically and computationally, and quantifies the shortfalls occurring. For instance, only 21% of these methods have been user tested. Five key deficits in the evaluation of these methods are detailed and a roadmap, with standardised benchmark evaluations, is proposed to resolve the issues arising; issues, that currently effectively block scientific progress in this field.
翻訳日:2021-03-03 17:23:45 公開日:2021-02-26
# TEC:Tensor Ensemble Classifier for Big Data

TEC: Tensor Ensemble Classifier for Big Data ( http://arxiv.org/abs/2103.00025v1 )

ライセンス: Link先を確認
Peide Li and Rejaul Karim and Tapabrata Maiti(参考訳) テンソル(多次元配列)分類問題は、画像認識や高次元時空間データ解析などの現代の応用で非常に人気がある。 サポートベクターマシンから拡張されたサポートテンソルマシン(STM)分類器は、入力としてテンソルデータのCANDECOMP / Parafac(CP)形式を取り、データラベルを予測します。 STMのディストリビューションフリーで統計的に一貫性のある特性は、幅広いデータアプリケーションにうまく対応できる可能性を強調しています。 STMのトレーニングは高次元テンソルで計算コストがかかる。 しかし、ランダムプロジェクション技術によりテンソルのサイズを縮小することで、計算時間とコストを削減でき、通常のマシンで大型テンソルを扱うことが可能です。 ランダムに投影されたテンソルで推定されたSTMをRandom Projection-based Support Tensor Machine(RPSTM)と名付けた。 本研究では,大テンソル分類のための複数のRSSTMを集約したテンソルエンサンブル分類器(TEC)を提案する。 TECはアンサンブルのアイデアを利用してランダムプロジェクションによって引き起こされる過度な分類リスクを最小化し、RPSTMの計算上の利点を生かしながら統計的に一貫した予測を提供する。 各 RPSTM は独立して推定できるため、TEC はさらに並列計算技術を利用して計算効率を上げることができる。 理論的および数値的な結果は、高次元テンソル分類問題におけるTECモデルの良好な性能を示す。 モデル予測は統計的に一貫性があり、そのリスクは最適なベイズリスクに収束することが示されている。 さらに、計算コストとtecモデルの予測リスクとのトレードオフについても強調する。 この手法は、広範囲なシミュレーションと実データ例によって検証される。 TECを適用するためのpythonパッケージを用意しています。

Tensor (multidimensional array) classification problem has become very popular in modern applications such as image recognition and high dimensional spatio-temporal data analysis. Support Tensor Machine (STM) classifier, which is extended from the support vector machine, takes CANDECOMP / Parafac (CP) form of tensor data as input and predicts the data labels. The distribution-free and statistically consistent properties of STM highlight its potential in successfully handling wide varieties of data applications. Training a STM can be computationally expensive with high-dimensional tensors. However, reducing the size of tensor with a random projection technique can reduce the computational time and cost, making it feasible to handle large size tensors on regular machines. We name an STM estimated with randomly projected tensor as Random Projection-based Support Tensor Machine (RPSTM). In this work, we propose a Tensor Ensemble Classifier (TEC), which aggregates multiple RPSTMs for big tensor classification. TEC utilizes the ensemble idea to minimize the excessive classification risk brought by random projection, providing statistically consistent predictions while taking the computational advantage of RPSTM. Since each RPSTM can be estimated independently, TEC can further take advantage of parallel computing techniques and be more computationally efficient. The theoretical and numerical results demonstrate the decent performance of TEC model in high-dimensional tensor classification problems. The model prediction is statistically consistent as its risk is shown to converge to the optimal Bayes risk. Besides, we highlight the trade-off between the computational cost and the prediction risk for TEC model. The method is validated by extensive simulation and a real data example. We prepare a python package for applying TEC, which is available at our GitHub.
翻訳日:2021-03-03 17:20:43 公開日:2021-02-26
# 摂動安定性を超えて:ノイズの多い安定インスタンス上のMAP推論のためのLPリカバリ保証

Beyond Perturbation Stability: LP Recovery Guarantees for MAP Inference on Noisy Stable Instances ( http://arxiv.org/abs/2103.00034v1 )

ライセンス: Link先を確認
Hunter Lang, Aravind Reddy, David Sontag, Aravindan Vijayaraghavan(参考訳) いくつかの研究により、ポッツモデルにおけるMAP推論問題の摂動安定例は、自然線形プログラミング(LP)緩和を用いて正確に解けることが示されている。 しかし、これらの研究の多くは、比較的厳密な摂動安定性の定義を満たさないインスタンス上でのLP解の保証をほとんど(あるいはなし)与えない。 本研究では, LP が安定インスタンスの MAP ソリューションを, ノイズによってインスタンスが破損した後でも, ほぼ回復することを示した。 この「ノイズの多い安定」モデルは、実践的なMAP推論問題に現実的に適合する:我々は、"クローズ"安定なインスタンスを見つけるアルゴリズムを設計し、コンピュータビジョンのいくつかの実世界のインスタンスが摂動安定であることを示す。 これらの結果は, このlp緩和の実用的性能に対する新たな理論的説明を示唆する。

Several works have shown that perturbation stable instances of the MAP inference problem in Potts models can be solved exactly using a natural linear programming (LP) relaxation. However, most of these works give few (or no) guarantees for the LP solutions on instances that do not satisfy the relatively strict perturbation stability definitions. In this work, we go beyond these stability results by showing that the LP approximately recovers the MAP solution of a stable instance even after the instance is corrupted by noise. This "noisy stable" model realistically fits with practical MAP inference problems: we design an algorithm for finding "close" stable instances, and show that several real-world instances from computer vision have nearby instances that are perturbation stable. These results suggest a new theoretical explanation for the excellent performance of this LP relaxation in practice.
翻訳日:2021-03-03 17:20:16 公開日:2021-02-26
# 深部量子アグリゲーション

Deep Quantile Aggregation ( http://arxiv.org/abs/2103.00083v1 )

ライセンス: Link先を確認
Taesup Kim, Rasool Fakoor, Jonas Mueller, Alexander J. Smola, Ryan J. Tibshirani(参考訳) 条件量子推定は、予測の不確実性を定量化したり、過剰に還元されることなく多様な人口をモデル化する必要性によって動機付けられた重要な統計的学習課題である。 このために多くのモデルが開発されている。 メタ視点を採用することで,予測精度を高めるために,任意の条件付き量子量モデルの集約を行う汎用フレームワーク(ニューラルネットワーク最適化に触発された)を提案する。 我々は、個々のモデル、量子レベル、特徴値によって重みが変化する柔軟性を高めるための重み付きアンサンブル戦略を検討する。 グラデーションをバックプロパゲーションできる単純な変換を適用することで、隣接するレベルにおける推定分位子を交差させないことを保証し、それによって分位数アンサンブルを構築するために現代のディープラーニングツールキットを活用できるのです。 実験により,構成モデル自体が強力で柔軟である場合でも,アンサンブルが精度を大幅に向上させることができることを確認した。

Conditional quantile estimation is a key statistical learning challenge motivated by the need to quantify uncertainty in predictions or to model a diverse population without being overly reductive. As such, many models have been developed for this problem. Adopting a meta viewpoint, we propose a general framework (inspired by neural network optimization) for aggregating any number of conditional quantile models in order to boost predictive accuracy. We consider weighted ensembling strategies of increasing flexibility where the weights may vary over individual models, quantile levels, and feature values. An appeal of our approach is its portability: we ensure that estimated quantiles at adjacent levels do not cross by applying simple transformations through which gradients can be backpropagated, and this allows us to leverage the modern deep learning toolkit for building quantile ensembles. Our experiments confirm that ensembling can lead to big gains in accuracy, even when the constituent models are themselves powerful and flexible.
翻訳日:2021-03-03 17:20:00 公開日:2021-02-26
# 自然言語スーパービジョンから伝達可能な視覚モデルを学ぶ

Learning Transferable Visual Models From Natural Language Supervision ( http://arxiv.org/abs/2103.00020v1 )

ライセンス: Link先を確認
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever(参考訳) 最先端のコンピュータビジョンシステムは、所定の対象カテゴリの固定セットを予測するように訓練される。 この制限された形式の監督は、他の視覚概念を特定するためにラベル付きデータを追加する必要があるため、その一般性とユーザビリティを制限します。 画像の生のテキストから直接学ぶことは、はるかに広い監督源を活用する有望な代替手段である。 インターネットから収集した4億(画像,テキスト)ペアのデータセット上で,SOTA画像表現をスクラッチから学習する上で,どのキャプションがどの画像に対応するかを予測するための単純な事前学習タスクが効率的かつスケーラブルであることを示す。 事前トレーニングの後、自然言語は学習した視覚概念を参照(あるいは新しい概念を記述)するために使用され、モデルの下流タスクへのゼロショット転送を可能にする。 我々は,30以上の既存コンピュータビジョンデータセットをベンチマークし,OCR,ビデオ中のアクション認識,地理的局在化,さまざまな種類の細粒度オブジェクト分類など,このアプローチの性能について検討した。 モデルは非自明にほとんどのタスクに転送され、データセット固有のトレーニングを必要とせずに、完全に監督されたベースラインと競合することが多い。 例えば、imagenet zero-shotのオリジナルのresnet-50の精度は、トレーニングした1億2800万のトレーニングサンプルを使用せずに一致します。 コードと事前トレーニング済みのモデルウェイトはhttps://github.com/OpenAI/CLIP.comで公開しています。

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
翻訳日:2021-03-03 17:14:27 公開日:2021-02-26
# PURSUhInT:知識蒸留のための層クラスタリングに基づくインフォメーティブなヒントポイントの探索

PURSUhInT: In Search of Informative Hint Points Based on Layer Clustering for Knowledge Distillation ( http://arxiv.org/abs/2103.00053v1 )

ライセンス: Link先を確認
Reyhan Kevser Keser, Aydin Ayanzadeh, Omid Abdollahi Aghdam, Caglar Kilcioglu, Behcet Ugur Toreyin, Nazim Kemal Ure(参考訳) 深層ニューラルネットワークを圧縮するための新しい知識蒸留法を提案する。 知識蒸留の最も効率的な方法の1つは、教師モデルのいくつかの異なる層から情報(ヒント)で学生モデルが注入されるヒント蒸留です。 ヒントポイントの選択は圧縮性能を大幅に変えることができるが、ブルートフォースハイパーパラメータサーチ以外は、それらを選択するための体系的なアプローチは存在しない。 本稿では,教師モデルの階層を複数の指標に対してクラスタリングし,クラスタセンターをヒントポイントとして利用するクラスタリングに基づくヒント選択手法を提案する。 提案手法は,教師モデルとしてResNet-110ネットワークを用いたCIFAR-100データセットで検証されている。 その結果,提案アルゴリズムが選択したヒントポイントは,同じ学生モデルやデータセット上での最先端知識蒸留アルゴリズムに対して,圧縮性能が向上することがわかった。

We propose a novel knowledge distillation methodology for compressing deep neural networks. One of the most efficient methods for knowledge distillation is hint distillation, where the student model is injected with information (hints) from several different layers of the teacher model. Although the selection of hint points can drastically alter the compression performance, there is no systematic approach for selecting them, other than brute-force hyper-parameter search. We propose a clustering based hint selection methodology, where the layers of teacher model are clustered with respect to several metrics and the cluster centers are used as the hint points. The proposed approach is validated in CIFAR-100 dataset, where ResNet-110 network was used as the teacher model. Our results show that hint points selected by our algorithm results in superior compression performance with respect to state-of-the-art knowledge distillation algorithms on the same student models and datasets.
翻訳日:2021-03-03 17:14:08 公開日:2021-02-26
# CURE: 自動プログラム修復のためのコード認識ニューラルマシン翻訳

CURE: Code-Aware Neural Machine Translation for Automatic Program Repair ( http://arxiv.org/abs/2103.00073v1 )

ライセンス: Link先を確認
Nan Jiang, Thibaud Lutellier, Lin Tan(参考訳) ソフトウェア信頼性を向上させるには自動プログラム修復(apr)が不可欠である。 近年,ソフトウェアバグの自動修正にニューラルネットワーク翻訳(NMT)技術が用いられている。 有望ながら、これらのアプローチには2つの大きな制限がある。 彼らの検索空間はしばしば正しい修正を含まず、その検索戦略は厳密なコード構文のようなソフトウェア知識を無視します。 これらの制限のために、既存のNMTベースの技術は、最高のテンプレートベースのアプローチを上回ります。 提案するCUREは,3つの新奇性を持つ新しいNMTベースのAPR手法である。 まず、curyは大きなソフトウェアコードベースでプログラミング言語(pl)モデルを事前トレーニングし、aprタスクの前に開発者のようなソースコードを学ぶ。 第2に、curyは、バギーコードに近いコンパイル可能なパッチとパッチに注目して、より正確な修正を見つける新しいコードアウェア検索戦略をデザインする。 最後に、CUREはサブワードトークン化技術を使用して、より正確な修正を含むより小さな検索スペースを生成します。 2つの広く使われているベンチマークの評価から、57の欠陥4jバグと26のquixbugsバグを正しく修正できることが分かりました。

Automatic program repair (APR) is crucial to improve software reliability. Recently, neural machine translation (NMT) techniques have been used to fix software bugs automatically. While promising, these approaches have two major limitations. Their search space often does not contain the correct fix, and their search strategy ignores software knowledge such as strict code syntax. Due to these limitations, existing NMT-based techniques underperform the best template-based approaches. We propose CURE, a new NMT-based APR technique with three major novelties. First, CURE pre-trains a programming language (PL) model on a large software codebase to learn developer-like source code before the APR task. Second, CURE designs a new code-aware search strategy that finds more correct fixes by focusing on compilable patches and patches that are close in length to the buggy code. Finally, CURE uses a subword tokenization technique to generate a smaller search space that contains more correct fixes. Our evaluation on two widely-used benchmarks shows that CURE correctly fixes 57 Defects4J bugs and 26 QuixBugs bugs, outperforming all existing APR techniques on both benchmarks.
翻訳日:2021-03-03 17:05:33 公開日:2021-02-26
# ニューラルコード要約

Neural Code Summarization ( http://arxiv.org/abs/2103.01025v1 )

ライセンス: Link先を確認
Piyush Shrivastava(参考訳) コードの要約は、意味的に意味があり、ソフトウェアの推定タスクを正確に記述できる読みやすい要約を生成するタスクです。 プログラム理解は、知識伝達の最も面倒なタスクの1つになっている。 コードベースが時間とともに進化するにつれて、変更を行うたびに記述を手動で更新する必要があります。 ベンチマークとカスタムデータセットに基づくキャプションを,オリジナルと生成結果の比較により推定する自動アプローチを提案する。

Code summarization is the task of generating readable summaries that are semantically meaningful and can accurately describe the presumed task of a software. Program comprehension has become one of the most tedious tasks for knowledge transfer. As the codebase evolves over time, the description needs to be manually updated each time with the changes made. An automatic approach is proposed to infer such captions based on benchmarked and custom datasets with comparison between the original and generated results.
翻訳日:2021-03-03 17:01:43 公開日:2021-02-26
# ゼロショットセマンティックセグメンテーションのための再帰的トレーニング

Recursive Training for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2103.00086v1 )

ライセンス: Link先を確認
Ce Wang, Moshiur Farazi, Nick Barnes(参考訳) 汎用意味セグメンテーションはバックボーンcnnネットワークに依存し、各画像ピクセルを「seen」オブジェクトクラス(トレーニング中に利用可能なオブジェクトクラス)またはバックグラウンドクラスに分類するのに役立つ識別的特徴を抽出する。 ゼロショットセマンティックセグメンテーションは、コンピュータビジョンモデルがこれまで見たことのないオブジェクトクラスに属する画像ピクセルを識別することを必要とする課題です。 unseen'クラスのイメージピクセルを背景から分離する汎用意味セグメンテーションモデルの導入は、まだ未解決の課題である。 最近のモデルでは、ゼロショット設定のためのセグメンテーションモデルの最終的なピクセル分類層を微調整することでこの問題にアプローチしているが、監督の欠如による識別的特徴の習得に苦慮している。 擬似特徴表現を用いたゼロショット設定のためのセマンティックセグメンテーションモデルの再トレーニングを監督する再帰的トレーニングスキームを提案する。 そこで本研究では、画素分類層の高信頼出力を擬似表現として重み付けし、生成元にフィードバックするゼロショット最大平均離散度(ZS-MMD)損失を提案する。 ジェネレータエンドのループを閉じることで、再トレーニング中にモデルが'unseen'クラスのより識別的な特徴表現を学ぶのに役立つように監督する。 本研究では,再帰学習とZS-MMD損失を用いて,Pascal-VOC 2012データセットとPascal-Contextデータセットの最先端性能を実現する。

General purpose semantic segmentation relies on a backbone CNN network to extract discriminative features that help classify each image pixel into a 'seen' object class (ie., the object classes available during training) or a background class. Zero-shot semantic segmentation is a challenging task that requires a computer vision model to identify image pixels belonging to an object class which it has never seen before. Equipping a general purpose semantic segmentation model to separate image pixels of 'unseen' classes from the background remains an open challenge. Some recent models have approached this problem by fine-tuning the final pixel classification layer of a semantic segmentation model for a Zero-Shot setting, but struggle to learn discriminative features due to the lack of supervision. We propose a recursive training scheme to supervise the retraining of a semantic segmentation model for a zero-shot setting using a pseudo-feature representation. To this end, we propose a Zero-Shot Maximum Mean Discrepancy (ZS-MMD) loss that weighs high confidence outputs of the pixel classification layer as a pseudo-feature representation, and feeds it back to the generator. By closing-the-loop on the generator end, we provide supervision during retraining that in turn helps the model learn a more discriminative feature representation for 'unseen' classes. We show that using our recursive training and ZS-MMD loss, our proposed model achieves state-of-the-art performance on the Pascal-VOC 2012 dataset and Pascal-Context dataset.
翻訳日:2021-03-03 16:44:34 公開日:2021-02-26
# マルチアーマッド帯域における局所クラスタリング

Local Clustering in Contextual Multi-Armed Bandits ( http://arxiv.org/abs/2103.00063v1 )

ライセンス: Link先を確認
Yikun Ban, Jingrui He(参考訳) 文脈的マルチアームバンディット(MAB)におけるユーザクラスタの同定について検討する。 コンテキストMABは、コンテンツレコメンデーションやオンライン広告など、多くの実際のアプリケーションに効果的なツールです。 実際には、ユーザ依存はユーザのアクション、つまり報酬において重要な役割を果たす。 類似したユーザーをクラスタリングすることで報酬の質が向上し、結果としてより効果的なコンテンツレコメンデーションとターゲット広告につながる。 従来のクラスタリング設定とは異なり、未知のbanditパラメータに基づいてユーザをクラスタ化します。 特に、コンテキストMABにおけるクラスタ検出の問題を定義し、ローカルクラスタリング手順に埋め込まれたバンディットアルゴリズムLOCBを提案する。 また, クラスタ化の正確性と効率, 後悔の束縛の観点から, locbに関する理論的解析を行う。 最後に,提案アルゴリズムを,最先端のベースラインを上回る様々な側面から評価する。

We study identifying user clusters in contextual multi-armed bandits (MAB). Contextual MAB is an effective tool for many real applications, such as content recommendation and online advertisement. In practice, user dependency plays an essential role in the user's actions, and thus the rewards. Clustering similar users can improve the quality of reward estimation, which in turn leads to more effective content recommendation and targeted advertising. Different from traditional clustering settings, we cluster users based on the unknown bandit parameters, which will be estimated incrementally. In particular, we define the problem of cluster detection in contextual MAB, and propose a bandit algorithm, LOCB, embedded with local clustering procedure. And, we provide theoretical analysis about LOCB in terms of the correctness and efficiency of clustering and its regret bound. Finally, we evaluate the proposed algorithm from various aspects, which outperforms state-of-the-art baselines.
翻訳日:2021-03-03 16:23:19 公開日:2021-02-26
# ノイズトランクSGD:最適化と一般化

Noisy Truncated SGD: Optimization and Generalization ( http://arxiv.org/abs/2103.00075v1 )

ライセンス: Link先を確認
Yingxue Zhou, Xinyan Li, Arindam Banerjee(参考訳) 過パラメータ深層学習に適用するsgdに関する最近の実証研究は、epochs上の勾配成分のほとんどが極めて小さいことを示している。 このような観測に触発されて,小勾配成分のほとんどをゼロに切断(ハードしきい値)し,すべての成分にガウス雑音を付加する雑音勾配降下アルゴリズムであるsgd(nt-sgd)の特性を厳密に研究した。 非凸平滑な問題を考えると、まず経験的勾配ノルムの観点からNT-SGDの収束率を確立し、バニラSGDと同じ順序であることを示す。 さらに,NT-SGDはサドル点から確実に脱出でき,従来と比べノイズの少ないことを証明した。 また、離散化一般化ランゲビン力学に基づく一様安定性を用いたNT-SGDの一般化境界を確立する。 MNIST (VGG-5) と CIFAR-10 (ResNet-18) を用いた実験により, NT-SGD はバニラSGD の速度と精度に一致し, より理論的性質が良く, 鋭いミニマを回避できることを示した。

Recent empirical work on SGD applied to over-parameterized deep learning has shown that most gradient components over epochs are quite small. Inspired by such observations, we rigorously study properties of noisy truncated SGD (NT-SGD), a noisy gradient descent algorithm that truncates (hard thresholds) the majority of small gradient components to zeros and then adds Gaussian noise to all components. Considering non-convex smooth problems, we first establish the rate of convergence of NT-SGD in terms of empirical gradient norms, and show the rate to be of the same order as the vanilla SGD. Further, we prove that NT-SGD can provably escape from saddle points and requires less noise compared to previous related work. We also establish a generalization bound for NT-SGD using uniform stability based on discretized generalized Langevin dynamics. Our experiments on MNIST (VGG-5) and CIFAR-10 (ResNet-18) demonstrate that NT-SGD matches the speed and accuracy of vanilla SGD, and can successfully escape sharp minima while having better theoretical properties.
翻訳日:2021-03-03 16:23:06 公開日:2021-02-26
# GaNDLF:医療画像におけるスケーラブルなエンドツーエンド臨床ワークフローのための一般向けディープラーニングフレームワーク

GaNDLF: A Generally Nuanced Deep Learning Framework for Scalable End-to-End Clinical Workflows in Medical Imaging ( http://arxiv.org/abs/2103.01006v1 )

ライセンス: Link先を確認
Sarthak Pati, Siddhesh P. Thakur, Megh Bhalerao, Ujjwal Baid, Caleb Grenko, Brandon Edwards, Micah Sheller, Jose Agraz, Bhakti Baheti, Vishnu Bashyam, Parth Sharma, Babak Haghighi, Aimilia Gastounioti, Mark Bergman, Bjoern Menze, Despina Kontos, Christos Davatzikos, Spyridon Bakas(参考訳) ディープラーニング(DL)は、科学と臨床の両方のコミュニティで最適化された機械学習の潜在的な影響を大幅に強調しています。 TensorFlow(Google)、PyTorch(Facebook)、MXNet(Apache)といった主要な産業組織からのオープンソースDLライブラリの出現は、計算分析の民主化におけるDLの約束にも貢献している。 しかし、dlアルゴリズムの開発には技術と専門的な背景が増す必要があり、実装の詳細のばらつきによってその再現性が阻害される。 障壁を低くし、DL開発、トレーニング、推論のメカニズムをより安定、再現可能、スケーラブルにするために、広範な技術的背景を必要とせずに、この原稿は \textbf{G}ener\textbf{a}lly \textbf{N}uanced \textbf{D}eep \textbf{L}earning \textbf{F}ramework (GaNDLF)を提案する。 k$フォールドのクロスバリデーション、データ拡張、複数モードと出力クラス、マルチGPUトレーニングのビルトインサポート、放射線画像と組織像の両方を扱う機能、GaNDLFは、すべてのDL関連タスクに対するエンドツーエンドソリューションの提供、医療画像の問題への取り組み、臨床ワークフローへのデプロイのための堅牢なアプリケーションフレームワークの提供を目的としている。

Deep Learning (DL) has greatly highlighted the potential impact of optimized machine learning in both the scientific and clinical communities. The advent of open-source DL libraries from major industrial entities, such as TensorFlow (Google), PyTorch (Facebook), and MXNet (Apache), further contributes to DL promises on the democratization of computational analytics. However, increased technical and specialized background is required to develop DL algorithms, and the variability of implementation details hinders their reproducibility. Towards lowering the barrier and making the mechanism of DL development, training, and inference more stable, reproducible, and scalable, without requiring an extensive technical background, this manuscript proposes the \textbf{G}ener\textbf{a}lly \textbf{N}uanced \textbf{D}eep \textbf{L}earning \textbf{F}ramework (GaNDLF). With built-in support for $k$-fold cross-validation, data augmentation, multiple modalities and output classes, and multi-GPU training, as well as the ability to work with both radiographic and histologic imaging, GaNDLF aims to provide an end-to-end solution for all DL-related tasks, to tackle problems in medical imaging and provide a robust application framework for deployment in clinical workflows.
翻訳日:2021-03-03 16:18:12 公開日:2021-02-26
# 知識グラフマージゲインのセキュアな評価

Secure Evaluation of Knowledge Graph Merging Gain ( http://arxiv.org/abs/2103.00082v1 )

ライセンス: Link先を確認
Leandro Eichenberger, Michael Cochez, Benjamin Heitmann, Stefan Decker(参考訳) 両者の知識の違いと共通点を見つけることは重要な課題である。 このような比較は、一方の当事者が第二の当事者の知識を獲得する価値があるかを決定したい場合、または同様に2の当事者が決定しようとする場合、コラボレーションが有益であるかどうかを決定する場合、必要です。 これら2つの当事者がお互いを信頼できない場合(例えば、競争相手であることから)、どちらの当事者も彼らの資産を共有しようとしないため、そのような比較を行うのは難しい。 本稿では,非開示契約やプロトコル中の第三者を必要とせず,知識グラフのこの問題に対処する。 このプロトコルでは、2つの知識グラフの交わりはプライバシ保護方式で決定される。 これは、実際の知識グラフ内容を秘密にしながら、他の当事者の知識グラフを取得することによる潜在的な利益を示すさまざまなメトリクスの計算が続きます。 このプロトコルは、ブラインドシグネチャと(カウント)ブルームフィルタを使用して、漏れた情報の量を減らします。 最後に、相手の知識グラフを得たい相手は、そのグラフのどの部分が得られているかを事前に知ることができない(つまり、良い部分のみを得るか、共有するかを選択できない)方法で、その一部を取得することができる。 この部分の品質を検査した後、買い手は取引を進めることを決定できる。 プロトコルの分析は、開発したプロトコルが悪意のある参加者に対して安全であることを示している。 さらなる実験的分析により、資源消費はナレッジグラフの文数と線形にスケールすることを示した。

Finding out the differences and commonalities between the knowledge of two parties is an important task. Such a comparison becomes necessary, when one party wants to determine how much it is worth to acquire the knowledge of the second party, or similarly when two parties try to determine, whether a collaboration could be beneficial. When these two parties cannot trust each other (for example, due to them being competitors) performing such a comparison is challenging as neither of them would be willing to share any of their assets. This paper addresses this problem for knowledge graphs, without a need for non-disclosure agreements nor a third party during the protocol. During the protocol, the intersection between the two knowledge graphs is determined in a privacy preserving fashion. This is followed by the computation of various metrics, which give an indication of the potential gain from obtaining the other parties knowledge graph, while still keeping the actual knowledge graph contents secret. The protocol makes use of blind signatures and (counting) Bloom filters to reduce the amount of leaked information. Finally, the party who wants to obtain the other's knowledge graph can get a part of such in a way that neither party is able to know beforehand which parts of the graph are obtained (i.e., they cannot choose to only get or share the good parts). After inspection of the quality of this part, the Buyer can decide to proceed with the transaction. The analysis of the protocol indicates that the developed protocol is secure against malicious participants. Further experimental analysis shows that the resource consumption scales linear with the number of statements in the knowledge graph.
翻訳日:2021-03-03 16:12:19 公開日:2021-02-26
# 交通渋滞低減のためのスケーラブルマルチエージェント運転ポリシー

Scalable Multiagent Driving Policies For Reducing Traffic Congestion ( http://arxiv.org/abs/2103.00058v1 )

ライセンス: Link先を確認
Jiaxun Cui, William Macke, Harel Yedidsion, Aastha Goyal, Daniel Urielli, Peter Stone(参考訳) 交通渋滞は現代の都市環境において大きな課題です。 自動運転と自動運転(AV)の業界全体の開発は、AVが混雑低減にどのように貢献できるかという疑問を喚起します。 過去の研究では、AVと人間駆動車両の両方で小規模の混合交通シナリオでは、制御されたマルチエージェント運転ポリシーを実行する少数のAVが混雑を緩和できることを示しています。 本稿では,既存のアプローチをスケールアップし,より複雑なシナリオにおいてavのための新しいマルチエージェント駆動ポリシを開発する。 我々は、自動車が道路に動的に合流して出発するオープンロードネットワークシナリオにおいて、過去の研究で使用されている渋滞指標が操作可能であることを示すことから始める。 次に、オープンなネットワークトラフィック効率を反映し、操作に頑健な異なるメトリックの使用を提案する。 次に,モジュラトランスファー強化学習手法を提案し,それをマルチエージェント駆動ポリシをスケールアップして,従来のシナリオ(数十台の車両ではなく数百台の車両)よりも桁違いに大きいシミュレーションされた現実的シナリオにおいて,ヒューマンライクなトラフィックと既存のアプローチを上回る。 さらに、モジュラー転送学習アプローチは、ネットワークの重要な場所にデータ収集を集中させることで、実験におけるトレーニング時間の最大80%を節約します。 最後に、人間主導のトラフィックに対する混雑を改善する分散マルチエージェントポリシーを初めて示します。 既存のセンシングとアクティベーション機能のみに依存しており、新しい通信インフラストラクチャを追加する必要はないため、分散アプローチはより現実的で実用的です。

Traffic congestion is a major challenge in modern urban settings. The industry-wide development of autonomous and automated vehicles (AVs) motivates the question of how can AVs contribute to congestion reduction. Past research has shown that in small scale mixed traffic scenarios with both AVs and human-driven vehicles, a small fraction of AVs executing a controlled multiagent driving policy can mitigate congestion. In this paper, we scale up existing approaches and develop new multiagent driving policies for AVs in scenarios with greater complexity. We start by showing that a congestion metric used by past research is manipulable in open road network scenarios where vehicles dynamically join and leave the road. We then propose using a different metric that is robust to manipulation and reflects open network traffic efficiency. Next, we propose a modular transfer reinforcement learning approach, and use it to scale up a multiagent driving policy to outperform human-like traffic and existing approaches in a simulated realistic scenario, which is an order of magnitude larger than past scenarios (hundreds instead of tens of vehicles). Additionally, our modular transfer learning approach saves up to 80% of the training time in our experiments, by focusing its data collection on key locations in the network. Finally, we show for the first time a distributed multiagent policy that improves congestion over human-driven traffic. The distributed approach is more realistic and practical, as it relies solely on existing sensing and actuation capabilities, and does not require adding new communication infrastructure.
翻訳日:2021-03-03 16:00:57 公開日:2021-02-26
# 多項式ベースを生成するDampened LTIシステムの構築

Constructing Dampened LTI Systems Generating Polynomial Bases ( http://arxiv.org/abs/2103.00051v1 )

ライセンス: Link先を確認
Andreas St\"ockel(参考訳) 本稿では,LDN(Legendre Delay Network)の基盤となるLTIシステムについて述べる。 この目的のために、まずルジャンドル多項式を生成するLTIシステムを構築する。 次に、"遅延再エンコーダ"と呼ばれるものを使って、ウィンドウ付きインパルス応答を近似してシステムをダンプします。 結果のLTIシステムはLDNシステムと等価である。 同じ手法は任意の多項式基底にも適用できるが、典型的には対応する LTI システムを構築するために使用できる閉形式方程式の集合は存在しない。

We present an alternative derivation of the LTI system underlying the Legendre Delay Network (LDN). To this end, we first construct an LTI system that generates the Legendre polynomials. We then dampen the system by approximating a windowed impulse response, using what we call a "delay re-encoder". The resulting LTI system is equivalent to the LDN system. The same technique can be applied to arbitrary polynomial bases, although there typically is no set of closed form equations that can be used to construct the corresponding LTI systems.
翻訳日:2021-03-03 15:47:32 公開日:2021-02-26
# (参考訳) 多視点情報ボトルネックによるロバスト深層強化学習

Robust Deep Reinforcement Learning via Multi-View Information Bottleneck ( http://arxiv.org/abs/2102.13268v1 )

ライセンス: CC BY 4.0
Jiameng Fan, Wenchao Li(参考訳) 深部強化学習(DRL)エージェントは、トレーニング環境では目に見えない視覚変化に敏感であることが多い。 この問題に対処するために,RLのための頑健な表現学習手法を提案する。 マルチビュー情報ボトルネック(MIB)原則に基づく補助目標を導入し、将来の予測的であり、タスクに関係しない気晴らしに敏感な学習表現を促進する。 これにより、視覚的な気晴らしに強く、目に見えない環境に一般化できる高性能ポリシーをトレーニングできます。 背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。 さらに,本手法は,大規模Procgenベンチマークを用いて,未知の環境への一般化の基盤となることを実証した。

Deep reinforcement learning (DRL) agents are often sensitive to visual changes that were unseen in their training environments. To address this problem, we introduce a robust representation learning approach for RL. We introduce an auxiliary objective based on the multi-view information bottleneck (MIB) principle which encourages learning representations that are both predictive of the future and less sensitive to task-irrelevant distractions. This enables us to train high-performance policies that are robust to visual distractions and can generalize to unseen environments. We demonstrate that our approach can achieve SOTA performance on challenging visual control tasks, even when the background is replaced with natural videos. In addition, we show that our approach outperforms well-established baselines on generalization to unseen environments using the large-scale Procgen benchmark.
翻訳日:2021-03-02 03:07:53 公開日:2021-02-26
# (参考訳) ロバストで信頼性の高いアルゴリズムリコースを目指して

Towards Robust and Reliable Algorithmic Recourse ( http://arxiv.org/abs/2102.13620v1 )

ライセンス: CC BY 4.0
Sohini Upadhyay, Shalmali Joshi, Himabindu Lakkaraju(参考訳) 予測モデルが高リスクな意思決定(ローンの承認など)に展開されるようになってきており、影響を受けた個人へのリアクションを提供するポストホック技術への関心が高まっている。 これらの手法は、基礎となる予測モデルが変化しないという仮定のもとにリコースを生成する。 しかし、実際には、モデルはしばしば様々な理由(例えばデータセットのシフト)のために定期的に更新されるため、事前に定められたリコースは有効ではない。 この問題に対処するために,モデルシフトに頑健なリコースを見つけるために,敵対的トレーニングを活用する新しいフレームワークRObust Algorithmic Recourse(ROAR)を提案する。 我々の知る限りでは、この研究はこの重要な問題の第一の解決法を提案する。 また、モデルシフトに堅牢なリコースの構築の重要性を強調した詳細な理論的分析を実施します。1)モデルシフトに堅牢でない既存のアプローチによって生成されたリコースの無効化の確率を低く導出します。 2) フレームワークが出力するロバストなリコースによって生じる追加コストが有界であることを証明する。 複数の合成データと実世界のデータセットの実験的評価は,提案手法の有効性を示し,理論的知見を裏付けるものである。

As predictive models are increasingly being deployed in high-stakes decision making (e.g., loan approvals), there has been growing interest in post hoc techniques which provide recourse to affected individuals. These techniques generate recourses under the assumption that the underlying predictive model does not change. However, in practice, models are often regularly updated for a variety of reasons (e.g., dataset shifts), thereby rendering previously prescribed recourses ineffective. To address this problem, we propose a novel framework, RObust Algorithmic Recourse (ROAR), that leverages adversarial training for finding recourses that are robust to model shifts. To the best of our knowledge, this work proposes the first solution to this critical problem. We also carry out detailed theoretical analysis which underscores the importance of constructing recourses that are robust to model shifts: 1) we derive a lower bound on the probability of invalidation of recourses generated by existing approaches which are not robust to model shifts. 2) we prove that the additional cost incurred due to the robust recourses output by our framework is bounded. Experimental evaluation on multiple synthetic and real-world datasets demonstrates the efficacy of the proposed framework and supports our theoretical findings.
翻訳日:2021-03-02 02:20:24 公開日:2021-02-26
# (参考訳) sjive: 監督ジョイントと個人差の説明

sJIVE: Supervised Joint and Individual Variation Explained ( http://arxiv.org/abs/2102.13278v1 )

ライセンス: CC BY 4.0
Elise F. Palzer, Christine Wendt, Russell Bowler, Craig P. Hersh, Sandra E. Safo, and Eric F. Lock(参考訳) 同一対象に関するデータの複数ビューであるマルチソースデータの解析は、分子生物学的研究においてますます一般的になっている。 近年,データソース間の構造や関係を明らかにする手法が試みられ,他の手法ではすべてのソースを用いて結果の予測モデルの構築が試みられている。 しかし、(1)すべてのデータセットが共有するデータ構造のみを検討し、各ソース固有の構造を無視するか、(2)結果に考慮せずに基礎構造を最初に抽出するため、両方の既存の方法は現在制限されている。 本研究では,(1)共有(結合)構造とソース固有(個別)構造を同時に特定し,(2)これらの構造を用いた結果の線形予測モデルを構築することができる,教師付き関節と個人変動説明法(sJIVE)と呼ばれる手法を提案する。 これら2つのコンポーネントは、マルチソースデータのバリエーションの説明と結果の妥協に重きが置かれている。 シミュレーションでは、マルチソースデータに大量のノイズが存在する場合、sJIVEは既存の手法を上回ります。 COPDGene研究のデータへの適用は、肺機能を予測する遺伝子発現およびプロテオミクスパターンを明らかにします。 sJIVE を実行する関数は R.JIVE パッケージに含まれており、http://github.com/lockEF/r.jive でオンラインで入手できる。

Analyzing multi-source data, which are multiple views of data on the same subjects, has become increasingly common in molecular biomedical research. Recent methods have sought to uncover underlying structure and relationships within and/or between the data sources, and other methods have sought to build a predictive model for an outcome using all sources. However, existing methods that do both are presently limited because they either (1) only consider data structure shared by all datasets while ignoring structures unique to each source, or (2) they extract underlying structures first without consideration to the outcome. We propose a method called supervised joint and individual variation explained (sJIVE) that can simultaneously (1) identify shared (joint) and source-specific (individual) underlying structure and (2) build a linear prediction model for an outcome using these structures. These two components are weighted to compromise between explaining variation in the multi-source data and in the outcome. Simulations show sJIVE to outperform existing methods when large amounts of noise are present in the multi-source data. An application to data from the COPDGene study reveals gene expression and proteomic patterns that are predictive of lung function. Functions to perform sJIVE are included in the R.JIVE package, available online at http://github.com/lockEF/r.jive .
翻訳日:2021-03-01 23:10:15 公開日:2021-02-26
# (参考訳) OCT-Angiographyにおける深度マップによる3次元血管再建

3D Vessel Reconstruction in OCT-Angiography via Depth Map Estimation ( http://arxiv.org/abs/2102.13588v1 )

ライセンス: CC BY 4.0
Shuai Yu, Jianyang Xie, Jinkui Hao, Yalin Zheng, Jiong Zhang, Yan Hu, Jiang Liu, Yitian Zhao(参考訳) 光コヒーレンス断層撮影 (optical coherence tomography angiography,octa) は,近年,眼疾患や全身疾患の治療に広く用いられている。 2次元オクタード画像(顔血管造影図)の手動的または自動的な血管分析は臨床で一般的に用いられるが、臨床意思決定に有用な血管や毛細血管の3d空間分布情報を失う可能性がある。 本稿では,OCTA画像から船舶深度マップを推定した新しい3次元船舶再構築フレームワークを提案する。 まず,オクタ画像中の血管の深さを予測するために,構造的制約のあるネットワークを設計する。 全体構造と画素レベルの予測深度マップの精度を高めるため,MSEとSSIMの損失をトレーニング損失関数として組み合わせた。 最後に,推定深度マップと2次元容器分割結果を用いて3次元容器復元を実現する。 実験結果は,OCTA画像の深度予測と3次元血管再建に有効であり,その後の血管解析に有効であることを示す。

Optical Coherence Tomography Angiography (OCTA) has been increasingly used in the management of eye and systemic diseases in recent years. Manual or automatic analysis of blood vessel in 2D OCTA images (en face angiograms) is commonly used in clinical practice, however it may lose rich 3D spatial distribution information of blood vessels or capillaries that are useful for clinical decision-making. In this paper, we introduce a novel 3D vessel reconstruction framework based on the estimation of vessel depth maps from OCTA images. First, we design a network with structural constraints to predict the depth of blood vessels in OCTA images. In order to promote the accuracy of the predicted depth map at both the overall structure- and pixel- level, we combine MSE and SSIM loss as the training loss function. Finally, the 3D vessel reconstruction is achieved by utilizing the estimated depth map and 2D vessel segmentation results. Experimental results demonstrate that our method is effective in the depth prediction and 3D vessel reconstruction for OCTA images.% results may be used to guide subsequent vascular analysis
翻訳日:2021-03-01 21:43:57 公開日:2021-02-26
# (参考訳) ソーシャルメディア上の危機関連メッセージから実行可能な情報を見つけるためのマルチタスク転送学習

Multi-task transfer learning for finding actionable information from crisis-related messages on social media ( http://arxiv.org/abs/2102.13395v1 )

ライセンス: CC BY 4.0
Congcong Wang, David Lillis(参考訳) インシデントストリーム(IS)トラックは、緊急対応のために危機時にソーシャルメディアから重要な情報を見つけることを目的とした研究課題です。 より具体的には、危機関連のツイートのストリームを考えると、ISチャレンジは、1)各ツイートで、情報タイプ(IT)分類タスクとして知られているユーザーの懸念やニーズの種類を分類し、2)各ツイートが優先順位レベル予測タスクとして知られている緊急対応に関してどれほど重要かを推定する参加システムを求めます。 本稿では,この課題に対するマルチタスク転送学習手法について述べる。 提案手法では,BERTのようなエンコーダベースモデルとシーケンス・ツー・シーケンスベースT5の両方を含む最先端のトランスフォーマモデルを用いて,2つのタスクの共振学習を行う。 このアプローチに基づいて、トラックにいくつかのランを提出した。 得られた評価結果は,IT分類と優先度レベルの予測の両方において,我々の業績が他の作業よりも大幅に優れていたことを示している。

The Incident streams (IS) track is a research challenge aimed at finding important information from social media during crises for emergency response purposes. More specifically, given a stream of crisis-related tweets, the IS challenge asks a participating system to 1) classify what the types of users' concerns or needs are expressed in each tweet, known as the information type (IT) classification task and 2) estimate how critical each tweet is with regard to emergency response, known as the priority level prediction task. In this paper, we describe our multi-task transfer learning approach for this challenge. Our approach leverages state-of-the-art transformer models including both encoder-based models such as BERT and a sequence-to-sequence based T5 for joint transfer learning on the two tasks. Based on this approach, we submitted several runs to the track. The returned evaluation results show that our runs substantially outperform other participating runs in both IT classification and priority level prediction.
翻訳日:2021-03-01 21:35:30 公開日:2021-02-26
# (参考訳) ニューラルネットワーク翻訳のための勾配誘導損失マスキング

Gradient-guided Loss Masking for Neural Machine Translation ( http://arxiv.org/abs/2102.13549v1 )

ライセンス: CC BY 4.0
Xinyi Wang, Ankur Bapna, Melvin Johnson, Orhan Firat(参考訳) 低品質トレーニングデータのニューラルマシン翻訳モデルの性能に対する悪影響を軽減するため、既存の戦略のほとんどはトレーニング開始前に有害なデータをフィルタリングすることに焦点を当てている。 本稿では,少量のクリーンデータに対してモデルの勾配を用いて,トレーニングプロセス中のデータ使用を動的に最適化する戦略について検討する。 トレーニングの各ステップでは、トレーニングデータとクリーンデータとの勾配アライメントを計算し、負のアライメントでデータをマスクアウトする。 私たちの方法には自然な直感があります:良いトレーニングデータは、クリーンデータと同じ方向にモデルパラメータを更新する必要があります。 3つのWMT言語ペアの実験は、我々の手法が強力なベースラインよりも有意な改善をもたらし、改善は異なるドメインのテストデータ間で一般化可能であることを示している。

To mitigate the negative effect of low quality training data on the performance of neural machine translation models, most existing strategies focus on filtering out harmful data before training starts. In this paper, we explore strategies that dynamically optimize data usage during the training process using the model's gradients on a small set of clean data. At each training step, our algorithm calculates the gradient alignment between the training data and the clean data to mask out data with negative alignment. Our method has a natural intuition: good training data should update the model parameters in a similar direction as the clean data. Experiments on three WMT language pairs show that our method brings significant improvement over strong baselines, and the improvements are generalizable across test data from different domains.
翻訳日:2021-03-01 21:25:21 公開日:2021-02-26
# (参考訳) オン・ザ・ジョブ学習対話システムの評価と自然言語理解の事例研究

Evaluate On-the-job Learning Dialogue Systems and a Case Study for Natural Language Understanding ( http://arxiv.org/abs/2102.13589v1 )

ライセンス: CC BY 4.0
Mathilde Veron, Sophie Rosset, Olivier Galibert, Guillaume Bernard(参考訳) オン・ザ・ジョブ・ラーニングは、プロダクションで、オープンな環境で使用しながら継続的に学習することで構成されます。つまり、システムはこれまでにない状況や要素を自分で処理する必要があります。 オンザジョブ学習に特に適応しているように見えるシステムは対話システムであり、ユーザとのインタラクションを利用してフィードバックを収集し、時間とともにコンポーネントを適応し改善することができる。 オンザジョブ学習を行う対話システムは構築され評価されているが、一般的な方法論はまだ定義されていない。 そこで,本論文では,学習対話システムを評価するための最初の一般的な手法を提案する。 また,タスク指向対話システムについて記述し,ユーザインタラクションによる自然言語コンポーネントの改善について述べる。 最終的に,提案手法を用いてシステム評価を行った。

On-the-job learning consists in continuously learning while being used in production, in an open environment, meaning that the system has to deal on its own with situations and elements never seen before. The kind of systems that seem to be especially adapted to on-the-job learning are dialogue systems, since they can take advantage of their interactions with users to collect feedback to adapt and improve their components over time. Some dialogue systems performing on-the-job learning have been built and evaluated but no general methodology has yet been defined. Thus in this paper, we propose a first general methodology for evaluating on-the-job learning dialogue systems. We also describe a task-oriented dialogue system which improves on-the-job its natural language component through its user interactions. We finally evaluate our system with the described methodology.
翻訳日:2021-03-01 21:17:55 公開日:2021-02-26
# (参考訳) スマートホームが人間の行動に与える影響 : 強化学習アプローチ

Potential Impacts of Smart Homes on Human Behavior: A Reinforcement Learning Approach ( http://arxiv.org/abs/2102.13307v1 )

ライセンス: CC BY 4.0
Shashi Suman, Ali Etemad, Francois Rivest(参考訳) スマートホームが人間の行動に与える影響を調査することを目指しています。 そこで我々は,強化学習に基づくスマートホーム内で様々な活動を行うことができる一連の人間モデルをシミュレーションした。 そこで我々は,スマートホームと人間モデルが相互に適応することによって,人間の行動が変化する可能性を検討する。 我々は階層的強化学習に基づく半マルコフ決定プロセスのヒューマンタスクインターリービングモデルを設計し、アクティビティを追求または離脱するための意思決定を学習する。 そして、q-learningをベースにしたスマートホームに人間モデルを統合します。 汎用モデルを用いたスマートホームは,人間モデルに類似した本質的な報酬を持つ人間のモデルの熱的嗜好を予測し,学習することができることを示す。 階層的人間モデルは、各活動の完了を学習し、最大限の快適さのために最適な温度設定を設定する。 スマートホームでは、人間のモデルでは、温度設定を変更するために必要な時間ステップの数を減らします。 興味深いことに、人間のモデル報酬構造の小さな変化は、スマートホームの存在による人間の行動の変化を信号する活動間の予期せぬ切り替えの形で反対の行動につながる可能性があることを観察します。

We aim to investigate the potential impacts of smart homes on human behavior. To this end, we simulate a series of human models capable of performing various activities inside a reinforcement learning-based smart home. We then investigate the possibility of human behavior being altered as a result of the smart home and the human model adapting to one-another. We design a semi-Markov decision process human task interleaving model based on hierarchical reinforcement learning that learns to make decisions to either pursue or leave an activity. We then integrate our human model in the smart home which is based on Q-learning. We show that a smart home trained on a generic human model is able to anticipate and learn the thermal preferences of human models with intrinsic rewards similar to the generic model. The hierarchical human model learns to complete each activity and set optimal thermal settings for maximum comfort. With the smart home, the number of time steps required to change the thermal settings are reduced for the human models. Interestingly, we observe that small variations in the human model reward structures can lead to the opposite behavior in the form of unexpected switching between activities which signals changes in human behavior due to the presence of the smart home.
翻訳日:2021-03-01 21:03:10 公開日:2021-02-26
# (参考訳) 胸部疾患同定のための多対一分布学習とK-Nearest Neighbor Smoothing

Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification ( http://arxiv.org/abs/2102.13269v1 )

ライセンス: CC0 1.0
Yi Zhou, Lei Huang, Tianfei Zhou, Ling Shao(参考訳) 胸部X線は、多くの胸部疾患の検出のための重要でアクセス可能な臨床イメージングツールです。 過去10年間で、深層学習は、畳み込みニューラルネットワーク(CNN)に焦点を合わせ、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。 しかし、効果的で堅牢なCNNのトレーニングは通常、高いアノテーション品質の大量のデータを必要とする。 胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。 したがって、既存の公開胸部X線データセットは通常、レポートからラベルを自動的にマイニングする言語パターンベースの手法を採用する。 しかし、これはラベルの不確実性と矛盾をもたらす。 本稿では, モデルアンサンブルではなく, 単一モデルの疾患識別性能を向上させるため, マルチツーワン分布学習 (MODL) と K-アレスト近傍平滑化 (KNNS) 手法を2つの視点から提案する。 MODLは複数のモデルを統合し、単一のターゲットモデルを最適化するためのソフトなラベル分布を得る。 さらに、KNNSは、ターゲットモデルの堅牢性を高め、同様の医学的発見を持つ画像の一貫した予測を提供することを目指しています。 公開NIH Chest X-rayおよびCheXpertデータセットに関する広範な実験は、私たちのモデルが最先端の方法よりも一貫した改善を達成していることを示しています。

Chest X-rays are an important and accessible clinical imaging tool for the detection of many thoracic diseases. Over the past decade, deep learning, with a focus on the convolutional neural network (CNN), has become the most powerful computer-aided diagnosis technology for improving disease identification performance. However, training an effective and robust deep CNN usually requires a large amount of data with high annotation quality. For chest X-ray imaging, annotating large-scale data requires professional domain knowledge and is time-consuming. Thus, existing public chest X-ray datasets usually adopt language pattern based methods to automatically mine labels from reports. However, this results in label uncertainty and inconsistency. In this paper, we propose many-to-one distribution learning (MODL) and K-nearest neighbor smoothing (KNNS) methods from two perspectives to improve a single model's disease identification performance, rather than focusing on an ensemble of models. MODL integrates multiple models to obtain a soft label distribution for optimizing the single target model, which can reduce the effects of original label uncertainty. Moreover, KNNS aims to enhance the robustness of the target model to provide consistent predictions on images with similar medical findings. Extensive experiments on the public NIH Chest X-ray and CheXpert datasets show that our model achieves consistent improvements over the state-of-the-art methods.
翻訳日:2021-03-01 20:47:26 公開日:2021-02-26
# (参考訳) 映画をどこに見るか : 映像編集を理解するための視覚的注意の分析

Where to look at the movies : Analyzing visual attention to understand movie editing ( http://arxiv.org/abs/2102.13378v1 )

ライセンス: CC BY 4.0
Alexandre Bruckert, Marc Christie, Olivier Le Meur(参考訳) 映画制作の過程では、監督は観客が画面を見る場所を常に気にしている。 ショット構成、フレーミング、カメラの動き、編集は、注意を向けるために一般的に使用されるツールである。 そこで本研究では,これらのツールと視線パターンの関係を定量的に解析するために,映画シーケンスの視線パターン情報とアノテーションの編集を含む新しい視線追跡データベースを提案する。 本研究では,映像編集と観客のスカンパスとの強い関連を明らかにするとともに,編集情報の知識が映像コンテンツに対する人間の視覚の注意モデリングをいかに改善するかについて,いくつかの手がかりを開く。 現在の研究中に生成されたデータセットは、https://github.com/abruckert/eye_tracking_filmmakingで入手できる。

In the process of making a movie, directors constantly care about where the spectator will look on the screen. Shot composition, framing, camera movements or editing are tools commonly used to direct attention. In order to provide a quantitative analysis of the relationship between those tools and gaze patterns, we propose a new eye-tracking database, containing gaze pattern information on movie sequences, as well as editing annotations, and we show how state-of-the-art computational saliency techniques behave on this dataset. In this work, we expose strong links between movie editing and spectators scanpaths, and open several leads on how the knowledge of editing information could improve human visual attention modeling for cinematic content. The dataset generated and analysed during the current study is available at https://github.com/abruckert/eye_tracking_filmmaking
翻訳日:2021-03-01 20:31:37 公開日:2021-02-26
# (参考訳) 深層学習によるロバスト表面再構成のためのポイントクラウドアップサンプリングと正規推定

Point Cloud Upsampling and Normal Estimation using Deep Learning for Robust Surface Reconstruction ( http://arxiv.org/abs/2102.13391v1 )

ライセンス: CC BY 4.0
Rajat Sharma, Tobias Schwandt, Christian Kunert, Steffen Urban and Wolfgang Broll(参考訳) 実世界の表面の再構築は様々な応用において需要が高い。 既存のレコンストラクション・アプローチのほとんどは、3dスキャナーを用いて、一般的には希薄で密度の低い点雲を作成する。 これらの点雲は三角測量され、幾何学的アプローチによって推定される表面正規値と組み合わせて可視化に使用される。 しかし、再構成の品質は点群の密度と表面正規度の推定に依存する。 本論文では,以降の安定かつ円滑な表面再構成を可能にする点群アップサンプリングのための深層学習アーキテクチャを提案する。 対応する点正規度を持つ低密度の雑音点雲を用いて、高密度および随伴点正規度を持つ点雲を推定する。 そこで本研究では,ネットワークが面の向きを正確に予測する正規性を含む面上の点を推定することを促す複合損失関数を提案する。 以上の結果から,正常度を点位置とともに推定する利点が示された。 結果として得られるポイントの雲はより滑らか、より完全であり、最終的な表面の再建は地上の真実に大いに近いです。

The reconstruction of real-world surfaces is on high demand in various applications. Most existing reconstruction approaches apply 3D scanners for creating point clouds which are generally sparse and of low density. These points clouds will be triangulated and used for visualization in combination with surface normals estimated by geometrical approaches. However, the quality of the reconstruction depends on the density of the point cloud and the estimation of the surface normals. In this paper, we present a novel deep learning architecture for point cloud upsampling that enables subsequent stable and smooth surface reconstruction. A noisy point cloud of low density with corresponding point normals is used to estimate a point cloud with higher density and appendant point normals. To this end, we propose a compound loss function that encourages the network to estimate points that lie on a surface including normals accurately predicting the orientation of the surface. Our results show the benefit of estimating normals together with point positions. The resulting point cloud is smoother, more complete, and the final surface reconstruction is much closer to ground truth.
翻訳日:2021-03-01 20:05:31 公開日:2021-02-26
# (参考訳) 特徴の再同定による正確な視覚-慣性SLAM

Accurate Visual-Inertial SLAM by Feature Re-identification ( http://arxiv.org/abs/2102.13438v1 )

ライセンス: CC BY 4.0
Xiongfeng Peng, Zhihua Liu, Qiang Wang, Yun-Tae Kim, Myungjae Jeon(参考訳) リアルタイム視覚慣性SLAMの新たな特徴再同定手法を提案する。 最先端のビジュアル慣性SLAMメソッドのフロントエンドモジュール(例) 視覚特徴抽出およびマッチングスキーム)は、難易度の高いシナリオで容易に破壊され、ポーズ推定における不十分な視覚測定と累積誤差をもたらす画像フレーム上の特徴トラックに依存します。 本稿では,時空間感性サブグローバルマップから既存の特徴を再同定し,効率的なドリフトレスSLAM法を提案する。 長期間にわたって再特定された特徴は、拡張された視覚計測となり、長期の累積誤差を徐々に低減し、さらにシステム内にドリフトのないグローバルマップを構築する最適化モジュールに組み込まれる。 広範な実験により,本手法は効率的かつ効率的であることが判明した。 具体的には,機能再同定と最先端SLAM法[11]を組み合わせると,2つの公開SLAMベンチマークDB(EuRoCとTUM-VI)に対して,それぞれ67.3%と87.5%の絶対変換誤差削減を実現している。

We propose a novel feature re-identification method for real-time visual-inertial SLAM. The front-end module of the state-of-the-art visual-inertial SLAM methods (e.g. visual feature extraction and matching schemes) relies on feature tracks across image frames, which are easily broken in challenging scenarios, resulting in insufficient visual measurement and accumulated error in pose estimation. In this paper, we propose an efficient drift-less SLAM method by re-identifying existing features from a spatial-temporal sensitive sub-global map. The re-identified features over a long time span serve as augmented visual measurements and are incorporated into the optimization module which can gradually decrease the accumulative error in the long run, and further build a drift-less global map in the system. Extensive experiments show that our feature re-identification method is both effective and efficient. Specifically, when combining the feature re-identification with the state-of-the-art SLAM method [11], our method achieves 67.3% and 87.5% absolute translation error reduction with only a small additional computational cost on two public SLAM benchmark DBs: EuRoC and TUM-VI respectively.
翻訳日:2021-03-01 19:53:40 公開日:2021-02-26
# (参考訳) グラフに基づく半教師付き学習:包括的レビュー

Graph-based Semi-supervised Learning: A Comprehensive Review ( http://arxiv.org/abs/2102.13303v1 )

ライセンス: CC BY 4.0
Zixing Song, Xiangli Yang, Zenglin Xu, Irwin King(参考訳) 半教師付き学習(ssl)はラベル付きデータとラベルなしデータの両方を利用する能力があるため、実際非常に価値があります。 SSL手法の重要なクラスは、グラフベースの半教師付き学習法(GSSL)に対応するグラフから、ラベルのないサンプルのラベル情報を推測できるように、自然にデータをグラフとして表現することである。 GSSLメソッドは、構造のユニークさ、アプリケーションの普遍性、大規模データへのスケーラビリティのために、さまざまなドメインでその利点を実証しています。 本研究の目的は, 研究者と実践者の両方に, 関連する進歩の体系的かつ体系的な理解と, それらの相互関係の基盤を提供することである。 これは、GSSLメソッドの基本的な理解を無視しながら、SSLメソッドの全体像をカバーする最近の調査と区別することができます。 特に、この論文の主な貢献は、グラフ正規化やグラフ埋め込みメソッドを含む、GSSLの新しい一般化分類であり、最も最新の参照とコード、データセット、アプリケーションなどの有用なリソースがある。 さらに,この急速に拡大する分野への洞察を活かした今後の研究として,いくつかの研究の方向性を示す。

Semi-supervised learning (SSL) has tremendous value in practice due to its ability to utilize both labeled data and unlabelled data. An important class of SSL methods is to naturally represent data as graphs such that the label information of unlabelled samples can be inferred from the graphs, which corresponds to graph-based semi-supervised learning (GSSL) methods. GSSL methods have demonstrated their advantages in various domains due to their uniqueness of structure, the universality of applications, and their scalability to large scale data. Focusing on this class of methods, this work aims to provide both researchers and practitioners with a solid and systematic understanding of relevant advances as well as the underlying connections among them. This makes our paper distinct from recent surveys that cover an overall picture of SSL methods while neglecting fundamental understanding of GSSL methods. In particular, a major contribution of this paper lies in a new generalized taxonomy for GSSL, including graph regularization and graph embedding methods, with the most up-to-date references and useful resources such as codes, datasets, and applications. Furthermore, we present several potential research directions as future work with insights into this rapidly growing field.
翻訳日:2021-03-01 19:19:40 公開日:2021-02-26
# (参考訳) 安全な分布強化学習

Safe Distributional Reinforcement Learning ( http://arxiv.org/abs/2102.13446v1 )

ライセンス: CC BY 4.0
Jianyi Zhang, Paul Weng(参考訳) 強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。 本稿では,分布RL設定における制約付きRL定式化で定式化する。 我々の一般的なモデルは、様々な安全性の定義を受け入れている(例えば、期待される性能、CVaR、分散、悪い状態に達する確率など)。 学習中の安全性を確保するため,安全政策最適化手法を拡張して課題を解決する。 分布的RLパースペクティブは、より効率的なアルゴリズムを導き、さらに自然の安全な制約に対処する。 私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。

Safety in reinforcement learning (RL) is a key property in both training and execution in many domains such as autonomous driving or finance. In this paper, we formalize it with a constrained RL formulation in the distributional RL setting. Our general model accepts various definitions of safety(e.g., bounds on expected performance, CVaR, variance, or probability of reaching bad states). To ensure safety during learning, we extend a safe policy optimization method to solve our problem. The distributional RL perspective leads to a more efficient algorithm while additionally catering for natural safe constraints. We empirically validate our propositions on artificial and real domains against appropriate state-of-the-art safe RL algorithms.
翻訳日:2021-03-01 18:13:34 公開日:2021-02-26
# (参考訳) sarおよびpushbroomイメージングのためのロバストな有理多項式カメラモデリング

Robust Rational Polynomial Camera Modelling for SAR and Pushbroom Imaging ( http://arxiv.org/abs/2102.13423v1 )

ライセンス: CC BY-SA 4.0
Roland Akiki, Roger Mar\'i, Carlo de Franchis, Jean-Michel Morel, Gabriele Facciolo(参考訳) Rational Polynomial Camera (RPC)モデルを使用して、リモートセンシング、特に光学および合成開口レーダ(SAR)センサーにおけるさまざまな画像取得システムを記述することができます。 RPC関数は3Dから2Dの座標を関連づけるが、物理的センサーの特異性に関係なく、一般的な方法で衛星画像を利用するのに欠かせないツールとなっている。 本稿では, 正規化最小二乗の適合度に基づく3D-2D点対応の集合から, RPCモデルを正確に導出する地形に依存しないアルゴリズムについて述べる。 この手法の性能は、それらがカバーする領域の大きさと点対応度を変化させて評価する。 我々は,SARと光学データを用いて,物理センサモデルや補正関数を用いた合成後の他のRPCモデルからRPCを導出するアルゴリズムを検証した。

The Rational Polynomial Camera (RPC) model can be used to describe a variety of image acquisition systems in remote sensing, notably optical and Synthetic Aperture Radar (SAR) sensors. RPC functions relate 3D to 2D coordinates and vice versa, regardless of physical sensor specificities, which has made them an essential tool to harness satellite images in a generic way. This article describes a terrain-independent algorithm to accurately derive a RPC model from a set of 3D-2D point correspondences based on a regularized least squares fit. The performance of the method is assessed by varying the point correspondences and the size of the area that they cover. We test the algorithm on SAR and optical data, to derive RPCs from physical sensor models or from other RPC models after composition with corrective functions.
翻訳日:2021-03-01 17:54:00 公開日:2021-02-26
# (参考訳) 深層学習による核燃料チャネルUTスキャンにおける欠陥検出の自動化

Using Deep Learning to Automate the Detection of Flaws in Nuclear Fuel Channel UT Scans ( http://arxiv.org/abs/2102.13635v1 )

ライセンス: CC BY 4.0
Issam Hammad, Ryan Simpson, Hippolyte Djonon Tsague, and Sarah Hall(参考訳) 原子炉の検査は、プラントの安全性と信頼性を確保するために重要である。 検査は計画的な停止時に行われ、原子炉の燃料チャネルの検査を含む。 カナダでは、超音波検査(UT)がカナダのウランウラン原子炉(CANDU)の燃料流路の健全性を検査するために用いられる。 現在、UTスキャンの分析は、手動の可視化と測定によって行われ、欠陥を見つけ、特徴付け、および配置します。 したがって、迅速かつ正確な自動化方法を開発する動機があります。 本論文では、畳み込みニューラルネットワーク(CNN)を用いた核燃料チャネルUTスキャンにおける欠陥の検出を自動化する概念実証(PoC)について述べる。 この業界調査はカナダのオンタリオ州ピカリングにあるAlithya Digital Technology Corporationで行われました。 cnnモデルは、履歴utスキャンと対応する検査結果を用いてデータセットを構築して訓練された。 このデータはオンタリオ州の大規模原子力発電会社から入手された。 このプロトタイプの要件は、偽陽性(FP)を最小限に抑えつつ、燃料チャネルスキャンにおける各欠陥の少なくとも一部を特定することである。 これにより、欠陥の程度と種類を特定するために、さらなる手動分析が行われる各欠陥の位置を自動的に検出できます。 決定された要件に基づき,提案モデルでは,小文字のUTスキャンに対して100%の精度を達成でき,かつ18個のUTフルテストスキャンを用いて,複雑なUTスキャンに対して最小のFPで100%の感度を達成できた。

Nuclear reactor inspections are critical to ensure the safety and reliability of plants operation. Inspections occur during planned outages and include the inspection of the reactor's fuel channels. In Canada, Ultrasonic Testing (UT) is used to inspect the health of fuel channels in Canada's Deuterium Uranium (CANDU) reactors. Currently, analysis of the UT scans is performed by manual visualization and measurement to locate, characterize, and disposition flaws. Therefore, there is a motivation to develop an automated method that is fast and accurate. In this paper, a proof of concept (PoC) that automates the detection of flaws in nuclear fuel channel UT scans using a convolutional neural network (CNN) is presented. This industry research was conducted at Alithya Digital Technology Corporation in Pickering, Ontario, Canada. The CNN model was trained after constructing a dataset using historical UT scans and the corresponding inspection results. This data was obtained from a large nuclear power generation company in Ontario. The requirement for this prototype was to identify the location of at least a portion of each flaw in fuel channel scans while minimizing false positives (FPs). This allows for automatic detection of the location of each flaw where further manual analysis is performed to identify the extent and the type of the flaw. Based on the defined requirement, the proposed model was able to achieve 100% accuracy for UT scans with minor chatter and a 100% sensitivity with minimal FPs for complicated UT scans with severe chatter using 18 UT full test scans.
翻訳日:2021-03-01 17:43:34 公開日:2021-02-26
# (参考訳) 変換器を用いた畳み込みフリー医用画像分割

Convolution-Free Medical Image Segmentation using Transformers ( http://arxiv.org/abs/2102.13645v1 )

ライセンス: CC BY 4.0
Davood Karimi, Serge Vasylechko, Ali Gholipour(参考訳) コンピュータビジョンの他のアプリケーションと同様に、医療画像セグメンテーションは、畳み込み操作を主なビルディングブロックとして依存するディープラーニングモデルを使用して最もうまく対処されています。 畳み込みは、疎相互作用、重み共有、翻訳等分散といった重要な特性を享受する。 これらの特性は、畳み込みニューラルネットワーク(CNN)に視覚タスクのための強力で有用な誘導バイアスを与える。 本研究では,隣り合う画像パッチ間の自己照合と畳み込み操作を伴わない異なる手法が,競争的あるいはよりよい結果が得られることを示す。 3Dイメージブロックを付与すると、ネットワークはそれを$n^3$ 3Dパッチに分割し、$n=3 \text{ or } 5$で各パッチの1D埋め込みを計算します。 ネットワークは、これらのパッチ埋め込み間の自己注意に基づいて、ブロックの中心パッチのセグメンテーションマップを予測する。 提案モデルにより,3つのデータセット上でのCNNの状態よりも優れたセグメンテーション精度が得られることを示す。 また,このモデルをラベルなし画像の大きなコーパス上で事前学習する方法を提案する。 実験の結果,ラベル付きトレーニングデータが少ない場合には,提案するネットワークのCNNに対するアドバンテージの事前学習が重要であることがわかった。

Like other applications in computer vision, medical image segmentation has been most successfully addressed using deep learning models that rely on the convolution operation as their main building block. Convolutions enjoy important properties such as sparse interactions, weight sharing, and translation equivariance. These properties give convolutional neural networks (CNNs) a strong and useful inductive bias for vision tasks. In this work we show that a different method, based entirely on self-attention between neighboring image patches and without any convolution operations, can achieve competitive or better results. Given a 3D image block, our network divides it into $n^3$ 3D patches, where $n=3 \text{ or } 5$ and computes a 1D embedding for each patch. The network predicts the segmentation map for the center patch of the block based on the self-attention between these patch embeddings. We show that the proposed model can achieve segmentation accuracies that are better than the state of the art CNNs on three datasets. We also propose methods for pre-training this model on large corpora of unlabeled images. Our experiments show that with pre-training the advantage of our proposed network over CNNs can be significant when labeled training data is small.
翻訳日:2021-03-01 17:36:06 公開日:2021-02-26
# (参考訳) Swift for TensorFlow: ディープラーニングのためのポータブルで柔軟なプラットフォーム

Swift for TensorFlow: A portable, flexible platform for deep learning ( http://arxiv.org/abs/2102.13243v1 )

ライセンス: CC BY 4.0
Brennan Saeta, Denys Shabalin, Marc Rasi, Brad Larson, Xihui Wu, Parker Schuh, Michelle Casbon, Daniel Zheng, Saleem Abdulrasool, Aleksandr Efremov, Dave Abrahams, Chris Lattner, and Richard Wei(参考訳) Swift for TensorFlowは、モバイルデバイスから、データセンタ内のハードウェアアクセラレータのクラスタにスケールする、ディープラーニングプラットフォームである。 言語統合自動微分システムと複数のTensor実装を、可変値セマンティクスを指向した最新の事前コンパイル言語に組み合わせている。 その結果得られたプラットフォームは、30以上のディープラーニングモデルで使用することで検証され、データセンタとモバイルアプリケーションで採用されている。

Swift for TensorFlow is a deep learning platform that scales from mobile devices to clusters of hardware accelerators in data centers. It combines a language-integrated automatic differentiation system and multiple Tensor implementations within a modern ahead-of-time compiled language oriented around mutable value semantics. The resulting platform has been validated through use in over 30 deep learning models and has been employed across data center and mobile applications.
翻訳日:2021-03-01 17:22:12 公開日:2021-02-26
# (参考訳) 完璧にフィットするテンソル

Tensors Fitting Perfectly ( http://arxiv.org/abs/2102.13254v1 )

ライセンス: CC BY 4.0
Adam Paszke and Brennan Saeta(参考訳) 多次元配列(NDArray)は、現代の科学計算環境における中心的な抽象化である。 残念なことに、プログラムの実行で使用する配列の異なる数は通常非常に大きく、プログラムテキストに明示的に現れることはめったにないため、プログラムの推論を困難にすることができる。 さらに悪いことに、多くの演算子は入力の形状について暗黙の仮定をする: 配列加算は一般に放送意味論に富み、行列乗法は収縮次元の長さが等しいと仮定する。 NDArrayを使用して正しいプログラムを書くには、形状に関する正確な推論が重要であるため、プログラムを一目で推測するのは難しいことが多いため、プログラム抽象的な解釈から形状制約のセットを合成することにより、TensorFlowプログラム用のSwiftでNDArray形状を推論する静的解析ツールであるTensors Fitting Perfectlyを開発しました。 1)不整合の可能性を確認すること,(2)プログラムに現れる中間値の形状に関する直接的な洞察を,形状ホールと呼ばれる機構を通じて提供すること,の2つが考えられる。 静的解析は、プログラム作者の生産性を改善するために、オプションのランタイムアサーションと連携して動作する。

Multidimensional arrays (NDArrays) are a central abstraction in modern scientific computing environments. Unfortunately, they can make reasoning about programs harder as the number of different array shapes used in an execution of a program is usually very large, and they rarely appear explicitly in program text. To make things worse, many operators make implicit assumptions about the shapes of their inputs: array addition is commonly enriched with broadcasting semantics, while matrix multiplication assumes that the lengths of contracted dimensions are equal. Because precise reasoning about shapes is crucial to write correct programs using NDArrays, and because shapes are often hard to infer from a quick glance at the program, we developed Tensors Fitting Perfectly, a static analysis tool that reasons about NDArray shapes in Swift for TensorFlow programs by synthesizing a set of shape constraints from an abstract interpretation of the program. It can both (1) check for possible inconsistencies, and (2) provide direct insights about the shapes of intermediate values appearing in the program, including via a mechanism called shape holes. The static analysis works in concert with optional runtime assertions to improve the productivity of program authors.
翻訳日:2021-03-01 16:50:17 公開日:2021-02-26
# (参考訳) LazyTensor: 熱心な実行とドメイン固有コンパイラを組み合わせる

LazyTensor: combining eager execution with domain-specific compilers ( http://arxiv.org/abs/2102.13267v1 )

ライセンス: CC BY 4.0
Alex Suhan, Davide Libenzi, Ailing Zhang, Parker Schuh, Brennan Saeta, Jie Young Sohn, and Denys Shabalin(参考訳) ドメイン固有の最適化コンパイラは、パフォーマンスとポータビリティのメリットは大きいが、特別なirsでプログラムを表現する必要がある。 これらのコンパイラの既存のフロントエンドは、ドメイン固有のコンパイラと対話するユーザのプログラムのサブセットでは、いくつかのホスト言語機能がサポートされない"言語サブセット問題"に苦しんでいる。 対照的に、"eager"モードと呼ばれる定義別MLフレームワークは、ホストプログラミング言語のフルパワーを使用できる使いやすさと表現性のために人気があります。 LazyTensorは、定義による人間工学を犠牲にすることなく、ドメイン固有のコンパイラをターゲットとする技術である。 当初、クラウドTPUでPyTorchをサポートするために開発されたこのテクニックは、実質的に共有された実装とともに、CPU、GPU、TPUでTensorFlow用にSwiftで使用され、(1)Tensor実装、(2)ハードウェアアクセラレータ、(3)プログラミング言語にわたるアプローチの一般性を示している。

Domain-specific optimizing compilers have demonstrated significant performance and portability benefits, but require programs to be represented in their specialized IRs. Existing frontends to these compilers suffer from the "language subset problem" where some host language features are unsupported in the subset of the user's program that interacts with the domain-specific compiler. By contrast, define-by-run ML frameworks-colloquially called "eager" mode-are popular due to their ease of use and expressivity, where the full power of the host programming language can be used. LazyTensor is a technique to target domain specific compilers without sacrificing define-by-run ergonomics. Initially developed to support PyTorch on Cloud TPUs, the technique, along with a substantially shared implementation, has been used by Swift for TensorFlow across CPUs, GPUs, and TPUs, demonstrating the generality of the approach across (1) Tensor implementations, (2) hardware accelerators, and (3) programming languages.
翻訳日:2021-03-01 16:34:07 公開日:2021-02-26
# (参考訳) 水平フェデレーション学習における効率的なクライアント貢献度評価

Efficient Client Contribution Evaluation for Horizontal Federated Learning ( http://arxiv.org/abs/2102.13314v1 )

ライセンス: CC BY 4.0
Jie Zhao, Xinghua Zhu, Jianzong Wang, Jing Xiao(参考訳) フェデレーション学習(fl)では,各フェデレーション参加者の貢献度を公平かつ正確に測定することが重要である。 貢献のレベルは、フェデレーション参加者に経済的利益を分配するための合理的な指標を提供するだけでなく、FLフレームワークを毒殺しようとする悪意のある参加者を発見するのに役立ちます。 これまでの貢献度測定の方法は、連合参加者の可能な組み合わせの列挙に基づいている。 計算コストは参加者数や特徴寸法によって劇的に増加し、実際の状況では適用できない。 本稿では,フェデレーション参加者の貢献度を評価するための効率的な手法を提案する。 本稿では,クライアントサーバがローカルデータ上でパラメータ勾配を計算し,その勾配を中央サーバにアップロードする水平型flフレームワークについて述べる。 クライアントの勾配を集約する前に、中央サーバは強化学習技術を用いて勾配のデータ値推定器を訓練する。 実験結果から示すように,提案手法は評価精度および時間的複雑さの観点から,従来手法よりも一貫して優れる。

In federated learning (FL), fair and accurate measurement of the contribution of each federated participant is of great significance. The level of contribution not only provides a rational metric for distributing financial benefits among federated participants, but also helps to discover malicious participants that try to poison the FL framework. Previous methods for contribution measurement were based on enumeration over possible combination of federated participants. Their computation costs increase drastically with the number of participants or feature dimensions, making them inapplicable in practical situations. In this paper an efficient method is proposed to evaluate the contributions of federated participants. This paper focuses on the horizontal FL framework, where client servers calculate parameter gradients over their local data, and upload the gradients to the central server. Before aggregating the client gradients, the central server train a data value estimator of the gradients using reinforcement learning techniques. As shown by experimental results, the proposed method consistently outperforms the conventional leave-one-out method in terms of valuation authenticity as well as time complexity.
翻訳日:2021-03-01 16:15:13 公開日:2021-02-26
# (参考訳) 生成モデルを用いたニューラルネットワークの分布認識テスト

Distribution-Aware Testing of Neural Networks Using Generative Models ( http://arxiv.org/abs/2102.13602v1 )

ライセンス: CC BY 4.0
Swaroopa Dola, Matthew B. Dwyer, Mary Lou Soffa(参考訳) ディープニューラルネットワーク(DNN)をコンポーネントとして持つソフトウェアの信頼性は、DNNでデプロイされる重要なアプリケーションの数が増加しているため、今日では緊急に重要です。 信頼性の必要性は、これらのシステムの安全性と信頼性を厳密にテストする必要がある。 ここ数年、DNNのテストに焦点を当てた多くの研究が行われています。 しかし、これまでに提案されたテスト生成技術は、それらが生成するテスト入力が有効であるかどうかのチェックを欠いており、したがって無効な入力が生成される。 この状況を説明するために、我々は3つの最近のDNNテスト技術を検討した。 ディープジェネレーティブモデルに基づく入力検証を用いて,3つの手法がいずれも相当数の無効なテスト入力を生成することを示した。 dnnテスト技術によって生成されたテストインプットによって得られたテストカバレッジをさらに分析し、不正なテストインプットがテストカバレッジメトリクスを誤って膨らませる方法を示した。 テストにおける無効な入力の包含を克服するために、テスト生成プロセスにテスト中のDNNモデルの有効な入力空間を組み込む手法を提案する。 本手法では,モデルに基づく深層生成アルゴリズムを用いて有効な入力のみを生成する。 実証実験の結果,本手法は無効なテストの排除と有効なテスト入力数の増加に有効であることが示された。

The reliability of software that has a Deep Neural Network (DNN) as a component is urgently important today given the increasing number of critical applications being deployed with DNNs. The need for reliability raises a need for rigorous testing of the safety and trustworthiness of these systems. In the last few years, there have been a number of research efforts focused on testing DNNs. However the test generation techniques proposed so far lack a check to determine whether the test inputs they are generating are valid, and thus invalid inputs are produced. To illustrate this situation, we explored three recent DNN testing techniques. Using deep generative model based input validation, we show that all the three techniques generate significant number of invalid test inputs. We further analyzed the test coverage achieved by the test inputs generated by the DNN testing techniques and showed how invalid test inputs can falsely inflate test coverage metrics. To overcome the inclusion of invalid inputs in testing, we propose a technique to incorporate the valid input space of the DNN model under test in the test generation process. Our technique uses a deep generative model-based algorithm to generate only valid inputs. Results of our empirical studies show that our technique is effective in eliminating invalid tests and boosting the number of valid test inputs generated.
翻訳日:2021-03-01 15:55:49 公開日:2021-02-26
# (参考訳) Tails: Zwicky Transient FacilityとDeep LearningでCometsを魅了する

Tails: Chasing Comets with the Zwicky Transient Facility and Deep Learning ( http://arxiv.org/abs/2102.13352v1 )

ライセンス: CC BY 4.0
Dmitry A. Duev, Bryce T. Bolin, Matthew J. Graham, Michael S. P. Kelley, Ashish Mahabal, Eric C. Bellm, Michael W. Coughlin, Richard Dekany, George Helou, Shrinivas R. Kulkarni, Frank J. Masci, Thomas A. Prince, Reed Riddle, Maayane T. Soumagnac, St\'efan J. van der Walt(参考訳) 今回我々は,米国カリフォルニア州パロマー天文台で現在運用中のロボット光学時間領域調査であるzwicky transient facility (ztf) の画像データから彗星の同定と局在を示す,オープンソースのディープラーニングフレームワーク tails を提案する。 TailsはカスタムのEfficientDetベースのアーキテクチャを採用しており、従来の方法のように複数のエポックを必要とするのではなく、ほぼリアルタイムで単一の画像で彗星を見つけることができる。 このシステムは、予測位置における99%リコール、0.01%偽陽性率、1-2ピクセルのルート平均平方誤差で最先端のパフォーマンスを実現します。 ZTF Twilightサーベイのデータに基づいて,彗星 (C/2020 T2) のAI支援による最初の発見と彗星の回収 (P/2016 J3 = P/2021 A3) を含む生産環境におけるタイルス効率評価の初期結果を報告する。

We present Tails, an open-source deep-learning framework for the identification and localization of comets in the image data of the Zwicky Transient Facility (ZTF), a robotic optical time-domain survey currently in operation at the Palomar Observatory in California, USA. Tails employs a custom EfficientDet-based architecture and is capable of finding comets in single images in near real time, rather than requiring multiple epochs as with traditional methods. The system achieves state-of-the-art performance with 99% recall, 0.01% false positive rate, and 1-2 pixel root mean square error in the predicted position. We report the initial results of the Tails efficiency evaluation in a production setting on the data of the ZTF Twilight survey, including the first AI-assisted discovery of a comet (C/2020 T2) and the recovery of a comet (P/2016 J3 = P/2021 A3).
翻訳日:2021-03-01 15:34:00 公開日:2021-02-26
# (参考訳) 人工ニューラルネットワークを用いたマルチファイダリグレッション:パラメータ依存性出力量の効率的な近似

Multi-fidelity regression using artificial neural networks: efficient approximation of parameter-dependent output quantities ( http://arxiv.org/abs/2102.13403v1 )

ライセンス: CC BY 4.0
Mengwu Guo, Andrea Manzoni, Maurice Amendt, Paolo Conti, Jan S. Hesthaven(参考訳) 高精度な数値実験や物理実験は、しばしば時間を要するか費用がかかる。 時間や予算の制限が追加データの生成を禁止する場合、利用可能なサンプルの量に制限があり、満足のいくモデル結果が得られる場合があります。 マルチファイダリティ手法は、高ファイダリティデータと理想的に相関があるが、低コストで得られる他のソースからの情報を組み込むことで、そのような問題に対処します。 異なるデータセット間の相関を活用することで、少量のハイファイダリティデータのみに基づくモデルと比較して、マルチファイダリティ手法はしばしば優れた一般化をもたらす。 本研究では,マルチファイダリグレッション問題に応用した人工ニューラルネットワークの利用について述べる。 既存のアプローチをいくつか検討することにより,マルチフィデリティ回帰のためのニューラルネットワークアーキテクチャを提案する。 導入されたモデルは、従来のマルチファイアリティスキームと比較されます。 分析モデルの性能を測定するために、人工ベンチマークのコレクションが提示される。 その結果, ベイズ最適化と組み合わせたクロスバリデーションは, 共利得スキームに匹敵するニューラルネットワークモデルへと導かれることがわかった。 さらに, 工学的問題に対する多面的回帰の応用について述べる。 パラメトリゼーションされた形状と周波数を持つ音響ホーンへの圧力波の伝搬を考慮し、多面体モデルを用いて反射強度の指標を近似する。 有限要素モデルと縮小基底モデルがそれぞれ高忠実度および低忠実度として採用される。 その結果, ニューラルネットワークは, 少ないフルオーダー評価と, 少ない不正確だが少ないオーダーモデルの安価評価を組み合わせることで, 高価なフルオーダーモデルと同等の精度が得られる出力を返すことが分かった。

Highly accurate numerical or physical experiments are often time-consuming or expensive to obtain. When time or budget restrictions prohibit the generation of additional data, the amount of available samples may be too limited to provide satisfactory model results. Multi-fidelity methods deal with such problems by incorporating information from other sources, which are ideally well-correlated with the high-fidelity data, but can be obtained at a lower cost. By leveraging correlations between different data sets, multi-fidelity methods often yield superior generalization when compared to models based solely on a small amount of high-fidelity data. In this work, we present the use of artificial neural networks applied to multi-fidelity regression problems. By elaborating a few existing approaches, we propose new neural network architectures for multi-fidelity regression. The introduced models are compared against a traditional multi-fidelity scheme, co-kriging. A collection of artificial benchmarks are presented to measure the performance of the analyzed models. The results show that cross-validation in combination with Bayesian optimization consistently leads to neural network models that outperform the co-kriging scheme. Additionally, we show an application of multi-fidelity regression to an engineering problem. The propagation of a pressure wave into an acoustic horn with parametrized shape and frequency is considered, and the index of reflection intensity is approximated using the multi-fidelity models. A finite element model and a reduced basis model are adopted as the high- and low-fidelity, respectively. It is shown that the multi-fidelity neural network returns outputs that achieve a comparable accuracy to those from the expensive, full-order model, using only very few full-order evaluations combined with a larger amount of inaccurate but cheap evaluations of a reduced order model.
翻訳日:2021-03-01 14:59:13 公開日:2021-02-26
# (参考訳) ピアノ録音における表現的品質の説明に向けて:音響領域適応による説明的特徴の伝達

Towards Explaining Expressive Qualities in Piano Recordings: Transfer of Explanatory Features via Acoustic Domain Adaptation ( http://arxiv.org/abs/2102.13479v1 )

ライセンス: CC BY 4.0
Shreyan Chowdhury and Gerhard Widmer(参考訳) 音楽における感情と表現性は、音楽情報検索の分野で大きな関心を集めている。 近年,音楽感情の計算的予測を説明する手段として,中程度の知覚的特徴が提案されている。 これらの特徴を学習するために利用可能なデータセット内の音楽スタイルとジャンルの多様性は、ソロピアノ音楽などの専門音響領域にモデルがうまく一般化するのに十分ではないことがわかります。 本研究では,教師なし領域適応とレセプティブフィールド正規化ディープニューラルネットワークを併用することで,この領域への一般化を大幅に改善できることを示した。 さらに,我々のドメイン適応モデルが,人間の聞き手によって認識され,説明されるように,クラシックピアノ演奏の表現的性質をより良く予測し,説明できることを実証する。

Emotion and expressivity in music have been topics of considerable interest in the field of music information retrieval. In recent years, mid-level perceptual features have been suggested as means to explain computational predictions of musical emotion. We find that the diversity of musical styles and genres in the available dataset for learning these features is not sufficient for models to generalise well to specialised acoustic domains such as solo piano music. In this work, we show that by utilising unsupervised domain adaptation together with receptive-field regularised deep neural networks, it is possible to significantly improve generalisation to this domain. Additionally, we demonstrate that our domain-adapted models can better predict and explain expressive qualities in classical piano performances, as perceived and described by human listeners.
翻訳日:2021-03-01 14:31:12 公開日:2021-02-26
# 回帰のためのゾエトロープ遺伝的プログラミング

Zoetrope Genetic Programming for Regression ( http://arxiv.org/abs/2102.13388v1 )

ライセンス: Link先を確認
Aur\'elie Boisbunon, Carlo Fanara, Ingrid Grenet, Jonathan Daeden, Alexis Vighi, Marc Schoenauer(参考訳) The Zoetrope Genetic Programming (ZGP) algorithm is based on a original representation for mathematical expression, targeting evolution symbolic regression, the zoetropic representation using repeat fusion operation between partial expression, from the terminal set。 個体内の反復融合は徐々により複雑な表現を生成し、最終的には新しい特徴と見なされる。 これらの機能はトレーニングデータに最も適するように線形に結合されます。 その後、ZGP個体は特定の交叉と突然変異操作を行い、親と子孫の間で選択が行われる。 ZGPは、多数のパブリックドメイン回帰データセットを使用して検証され、他のシンボリック回帰アルゴリズムや従来の機械学習アルゴリズムと比較されます。 ZGPは両タイプのアルゴリズムに対して最先端の性能に達し、他のシンボリック回帰手法と比較して計算時間が少ないことを示す。

The Zoetrope Genetic Programming (ZGP) algorithm is based on an original representation for mathematical expressions, targeting evolutionary symbolic regression.The zoetropic representation uses repeated fusion operations between partial expressions, starting from the terminal set. Repeated fusions within an individual gradually generate more complex expressions, ending up in what can be viewed as new features. These features are then linearly combined to best fit the training data. ZGP individuals then undergo specific crossover and mutation operators, and selection takes place between parents and offspring. ZGP is validated using a large number of public domain regression datasets, and compared to other symbolic regression algorithms, as well as to traditional machine learning algorithms. ZGP reaches state-of-the-art performance with respect to both types of algorithms, and demonstrates a low computational time compared to other symbolic regression approaches.
翻訳日:2021-03-01 14:08:07 公開日:2021-02-26
# $PredDiff$:条件付き期待からの説明とインタラクション

$PredDiff$: Explanations and Interactions from Conditional Expectations ( http://arxiv.org/abs/2102.13519v1 )

ライセンス: Link先を確認
Stefan Bl\"ucher and Nils Strodthoff(参考訳) $PredDiff$ は確率論をしっかりと根づけたモデルに依存しない局所帰属法である。 その単純な直感は、特徴変数を疎外する際の予測変化を測定することである。 本研究では,$preddiff$の特性を明確にし,元の形式的拡張をいくつか提示する。 特に、相互作用効果の新しい尺度を紹介します。 相互作用はブラックボックスモデルの包括的理解に向けた必然的なステップである。 重要な点として,我々のフレームワークは任意の特徴部分集合間の相互作用や,その数と線形にスケールすることを可能にする。 分類と回帰設定の両方で$PredDiff$関連性と相互作用の健全性を実証します。 そのためには、さまざまな分析、合成、実世界のデータセットを使用します。

$PredDiff$ is a model-agnostic, local attribution method that is firmly rooted in probability theory. Its simple intuition is to measure prediction changes when marginalizing out feature variables. In this work, we clarify properties of $PredDiff$ and put forward several extensions of the original formalism. Most notably, we introduce a new measure for interaction effects. Interactions are an inevitable step towards a comprehensive understanding of black-box models. Importantly, our framework readily allows to investigate interactions between arbitrary feature subsets and scales linearly with their number. We demonstrate the soundness of $PredDiff$ relevances and interactions both in the classification and regression setting. To this end, we use different analytic, synthetic and real-world datasets.
翻訳日:2021-03-01 14:07:35 公開日:2021-02-26
# NOMU:ニューラルオプティマイズに基づくモデル不確実性

NOMU: Neural Optimization-based Model Uncertainty ( http://arxiv.org/abs/2102.13640v1 )

ライセンス: Link先を確認
Jakob Heiss, Jakob Weissteiner, Hanna Wutte, Sven Seuken, Josef Teichmann(参考訳) ニューラル最適化に基づくモデル不確実性(NOMU)と呼ばれる回帰モデルニューラルネットワーク(NN)のモデル不確かさを捉える新しい手法を提案する。 NOMUの主な考え方は、モデル予測とモデル不確実性のための2つの接続サブネットワークからなるネットワークアーキテクチャを設計し、慎重に設計された損失関数を用いてそれを訓練することである。 この設計により、NOMUは、モデル予測に使用されるサブネットワークとしてフレームワークに接続することで、任意の(以前に訓練された)NNに対してモデル不確実性を提供することができる。 NOMUはモデル不確実性に関して4つの重要なデシラタを満たす不確実性境界(UBs)を得るように設計されている。 さらに、当社のUBは単一のNNとして表現可能であり、ベイズ最適化などのアプリケーションで計算コストの利点につながります。 複数の設定でNOMUを実験的に評価します。 回帰では、nomuが確立したベンチマークよりも優れた性能を示す。 ベイズ最適化では、NOMUが他のベンチマークよりも優れていることを示す。

We introduce a new approach for capturing model uncertainty for neural networks (NNs) in regression, which we call Neural Optimization-based Model Uncertainty (NOMU). The main idea of NOMU is to design a network architecture consisting of two connected sub-networks, one for the model prediction and one for the model uncertainty, and to train it using a carefully designed loss function. With this design, NOMU can provide model uncertainty for any given (previously trained) NN by plugging it into the framework as the sub-network used for model prediction. NOMU is designed to yield uncertainty bounds (UBs) that satisfy four important desiderata regarding model uncertainty, which established methods often do not satisfy. Furthermore, our UBs are themselves representable as a single NN, which leads to computational cost advantages in applications such as Bayesian optimization. We evaluate NOMU experimentally in multiple settings. For regression, we show that NOMU performs as well as or better than established benchmarks. For Bayesian optimization, we show that NOMU outperforms all other benchmarks.
翻訳日:2021-03-01 14:07:26 公開日:2021-02-26
# learning chess blindfolded: 状態追跡による言語モデルの評価

Learning Chess Blindfolded: Evaluating Language Models on State Tracking ( http://arxiv.org/abs/2102.13249v1 )

ライセンス: Link先を確認
Shubham Toshniwal, Sam Wiseman, Karen Livescu, Kevin Gimpel(参考訳) トランスフォーマー言語モデルは自然言語理解タスクにおいて大きな進歩を遂げた。 しかし、自然言語の複雑さは、これらのモデルがテキストの基礎となる世界状態を正確に追跡しているかどうかを確認するのに困難である。 この問題に動機づけられたのは,チェスゲームにおける言語モデリングの課題である。 自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。 さらに, チェス表記の適切な選択は, 追加のプロビング関連機械を必要とせずに, 直接世界状態を探索することを可能にする。 a) 十分なトレーニングデータがあれば、トランスフォーマー言語モデルは、移動シーケンスのみをトレーニングした場合に、ピースを追跡し、高い精度で法的動きを予測することができる。 b) 訓練中にボード状態情報にアクセス可能な小さなトレーニングセットでは、大幅な改善が期待できる。 (c) トランスフォーマー言語モデルの成功は,ゲーム履歴全体へのアクセスに依存している。 「全面的注意」。 この全注意を近似すると、パフォーマンスが大幅に低下する。 このテストベッドは、トランス言語モデルの開発と分析に関する今後の作業のベンチマークとして提案します。

Transformer language models have made tremendous strides in natural language understanding tasks. However, the complexity of natural language makes it challenging to ascertain how accurately these models are tracking the world state underlying the text. Motivated by this issue, we consider the task of language modeling for the game of chess. Unlike natural language, chess notations describe a simple, constrained, and deterministic domain. Moreover, we observe that the appropriate choice of chess notation allows for directly probing the world state, without requiring any additional probing-related machinery. We find that: (a) With enough training data, transformer language models can learn to track pieces and predict legal moves with high accuracy when trained solely on move sequences. (b) For small training sets providing access to board state information during training can yield significant improvements. (c) The success of transformer language models is dependent on access to the entire game history i.e. "full attention". Approximating this full attention results in a significant performance drop. We propose this testbed as a benchmark for future work on the development and analysis of transformer language models.
翻訳日:2021-03-01 14:06:27 公開日:2021-02-26
# 自然言語ビデオのローカライゼーション: Span-based Question Answering Frameworkの再考

Natural Language Video Localization: A Revisit in Span-based Question Answering Framework ( http://arxiv.org/abs/2102.13558v1 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。 既存のアプローチは主にコンピュータビジョンの観点からNLVL問題をランク付け、アンカー、回帰タスクとして定式化することで解決している。 これらの手法は、長いビデオのローカライズ時に大きな性能劣化に悩まされる。 本研究では,入力映像をテキストパスとして扱うことにより,スパンベースの質問応答 (QA) という新たな視点からNLVLに対処する。 NLVLに対処するために、標準のスパンベースのQAフレームワーク(VSLBaseという名前)上にビデオスパンローカライズネットワーク(VSLNet)を提案します。 VSLNetは、シンプルで効果的なクエリガイドハイライト(QGH)戦略を通じて、NLVLとスパンベースのQAの違いに取り組みます。 QGHはVSLNetをガイドして、ハイライトされた領域内のマッチングビデオスパンを検索する。 長編ビデオのパフォーマンス劣化に対処するため,マルチスケールスプリット・アンド・コンカネーション戦略を適用し,VSLNetをVSLNet-Lに拡張する。 VSLNet-Lはまず、トリミングされていないビデオを短いクリップセグメントに分割し、ターゲットモーメントを含むクリップセグメントを予測し、他のセグメントの重要性を抑制します。 最後に、クリップセグメントを異なる信頼度で結合して、ターゲットモーメントを正確に特定する。 3つのベンチマークデータセットに関する広範な実験では、提案された VSLNet と VSLNet-L が最新手法を上回っていることが示された。 本研究は,NLVL問題の解決に有効な手法として,スパンベースQAフレームワークが重要であることを示唆する。

Natural Language Video Localization (NLVL) aims to locate a target moment from an untrimmed video that semantically corresponds to a text query. Existing approaches mainly solve the NLVL problem from the perspective of computer vision by formulating it as ranking, anchor, or regression tasks. These methods suffer from large performance degradation when localizing on long videos. In this work, we address the NLVL from a new perspective, i.e., span-based question answering (QA), by treating the input video as a text passage. We propose a video span localizing network (VSLNet), on top of the standard span-based QA framework (named VSLBase), to address NLVL. VSLNet tackles the differences between NLVL and span-based QA through a simple yet effective query-guided highlighting (QGH) strategy. QGH guides VSLNet to search for the matching video span within a highlighted region. To address the performance degradation on long videos, we further extend VSLNet to VSLNet-L by applying a multi-scale split-and-concatenation strategy. VSLNet-L first splits the untrimmed video into short clip segments; then, it predicts which clip segment contains the target moment and suppresses the importance of other segments. Finally, the clip segments are concatenated, with different confidences, to locate the target moment accurately. Extensive experiments on three benchmark datasets show that the proposed VSLNet and VSLNet-L outperform the state-of-the-art methods; VSLNet-L addresses the issue of performance degradation on long videos. Our study suggests that the span-based QA framework is an effective strategy to solve the NLVL problem.
翻訳日:2021-03-01 14:06:10 公開日:2021-02-26
# 単眼深度予測のための境界誘起およびシーン集約ネットワーク

Boundary-induced and scene-aggregated network for monocular depth prediction ( http://arxiv.org/abs/2102.13258v1 )

ライセンス: Link先を確認
Feng Xue and Junfeng Cao and Yu Zhou and Fei Sheng and Yankai Wang and Anlong Ming(参考訳) 単眼深度予測はシーン理解において重要な課題である。 単一のRGB画像の濃密な深さを予測することを目的としている。 ディープラーニングの開発により、このタスクのパフォーマンスは大幅に改善されました。 しかし,(1) 深い特徴がシーンの最も遠い領域を符号化し, 予測された深さの歪んだ3次元構造に繋がる。(2) 低レベルの特徴が十分に活用されていないため, 急激な深さ変化で縁付近の深さを推定することがさらに困難になる。 そこで,Boundary-induced and Scene-aggregated Network (BS-Net) を提案する。 このネットワークでは、深さ相関エンコーダ(DCE)は、最初に画像内の領域間のコンテキスト相関を取得し、相関を考慮して最も遠い領域を知覚するように設計されている。 一方、ボトムアップ境界融合(BUBF)モジュールは、深さ変化を示す正確な境界を抽出するために設計されている。 最後に、Stripe Refinement Module (SRM) は、境界キューによって誘導される密度の深い深さを改良するために設計され、予測された深さの境界精度が向上する。 NYUD v2 データセットと \xff{the iBims-1 データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。 また,SUN-RGBDデータセットを用いて,この手法の一般化を評価する。 コードはhttps://github.com/XuefengBUPT/BS-Netで入手できる。

Monocular depth prediction is an important task in scene understanding. It aims to predict the dense depth of a single RGB image. With the development of deep learning, the performance of this task has made great improvements. However, two issues remain unresolved: (1) The deep feature encodes the wrong farthest region in a scene, which leads to a distorted 3D structure of the predicted depth; (2) The low-level features are insufficient utilized, which makes it even harder to estimate the depth near the edge with sudden depth change. To tackle these two issues, we propose the Boundary-induced and Scene-aggregated network (BS-Net). In this network, the Depth Correlation Encoder (DCE) is first designed to obtain the contextual correlations between the regions in an image, and perceive the farthest region by considering the correlations. Meanwhile, the Bottom-Up Boundary Fusion (BUBF) module is designed to extract accurate boundary that indicates depth change. Finally, the Stripe Refinement module (SRM) is designed to refine the dense depth induced by the boundary cue, which improves the boundary accuracy of the predicted depth. Several experimental results on the NYUD v2 dataset and \xff{the iBims-1 dataset} illustrate the state-of-the-art performance of the proposed approach. And the SUN-RGBD dataset is employed to evaluate the generalization of our method. Code is available at https://github.com/XuefengBUPT/BS-Net.
翻訳日:2021-03-01 14:05:41 公開日:2021-02-26
# 大きなフィルタによる畳み込み計算のためのネスティング分解アルゴリズムを用いた再構成可能なWinograd CNN加速器

A Reconfigurable Winograd CNN Accelerator with Nesting Decomposition Algorithm for Computing Convolution with Large Filters ( http://arxiv.org/abs/2102.13272v1 )

ライセンス: Link先を確認
Jingbo Jiang, Xizi Chen, Chi-Ying Tsui(参考訳) 近年の文献では、画像セマンティックセグメンテーションなどのいくつかの応用において、大きなフィルタを持つ畳み込みニューラルネットワーク(CNN)がよく機能している。 ウィノグラード変換は畳み込みの乗算数を減らすのに役立つが、畳み込みフィルタのサイズが大きくなると数値不安定になる。 本研究は,3x3 タイルの列に大規模フィルタを繰り返し分解し,それを3x3 Winograd アルゴリズムで高速化するネスト付きウィノグラードアルゴリズムを提案する。 最新のOLA-Winogradアルゴリズムと比較して、提案アルゴリズムは5x5から9x9の畳み込みを計算するための乗算を1.41から3.29倍に削減する。

Recent literature found that convolutional neural networks (CNN) with large filters perform well in some applications such as image semantic segmentation. Winograd transformation helps to reduce the number of multiplications in a convolution but suffers from numerical instability when the convolution filter size gets large. This work proposes a nested Winograd algorithm to iteratively decompose a large filter into a sequence of 3x3 tiles which can then be accelerated with a 3x3 Winograd algorithm. Compared with the state-of-art OLA-Winograd algorithm, the proposed algorithm reduces the multiplications by 1.41 to 3.29 times for computing 5x5 to 9x9 convolutions.
翻訳日:2021-03-01 14:05:20 公開日:2021-02-26
# MixSearch: ドメイン一般化医療画像分割アーキテクチャの検索

MixSearch: Searching for Domain Generalized Medical Image Segmentation Architectures ( http://arxiv.org/abs/2102.13280v1 )

ライセンス: Link先を確認
Luyan Liu, Zhiwei Wen, Songwei Liu, Hong-Yu Zhou, Hongwei Zhu, Weicheng Xie, Linlin Shen, Kai Ma and Yefeng Zheng(参考訳) 医学的データの希少性を考えると、医学的画像分析におけるほとんどのデータセットは、自然画像よりも桁違いに小さい。 しかし、医療画像におけるほとんどのネットワークアーキテクチャ検索(NAS)アプローチは、特定のデータセットに焦点を当てており、未知のデータセットと異なるドメインに関する学習されたアーキテクチャの一般化能力を考慮していなかった。 本稿では,複数のセグメント化タスクの医療画像と,MixSearchという名前のドメインを創造的に組み合わせた複合データセット上で,一般化可能なU字型アーキテクチャの探索を提案する。 具体的には、複数のドメインから複数の小規模データセットとセグメント化タスクを組み合わせ、大規模データセットを作成する新しいアプローチを提案する。 次に, セルレベルとネットワークレベルの両方において, 一般化セグメンテーションネットワークを探索する新しいエンコーダ・デコーダ構造を設計する。 提案したMixSearchフレームワークによって生成されたネットワークは、さまざまなデータセットにわたる高度なエンコーダデコーダネットワークと比較して、最先端の結果が得られる。

Considering the scarcity of medical data, most datasets in medical image analysis are an order of magnitude smaller than those of natural images. However, most Network Architecture Search (NAS) approaches in medical images focused on specific datasets and did not take into account the generalization ability of the learned architectures on unseen datasets as well as different domains. In this paper, we address this point by proposing to search for generalizable U-shape architectures on a composited dataset that mixes medical images from multiple segmentation tasks and domains creatively, which is named MixSearch. Specifically, we propose a novel approach to mix multiple small-scale datasets from multiple domains and segmentation tasks to produce a large-scale dataset. Then, a novel weaved encoder-decoder structure is designed to search for a generalized segmentation network in both cell-level and network-level. The network produced by the proposed MixSearch framework achieves state-of-the-art results compared with advanced encoder-decoder networks across various datasets.
翻訳日:2021-03-01 14:05:04 公開日:2021-02-26
# ゼロショット画像分類のための視覚特徴学習のためのクラス知識オーバーレイ

Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image Classification ( http://arxiv.org/abs/2102.13322v1 )

ライセンス: Link先を確認
Cheng Xie, Ting Zeng, Hongxin Xiang, Keqin Li, Yun Yang, Qing Liu(参考訳) ゼロショット画像分類のトレーニングサンプルに対応することなく、意味的特徴を合成した視覚特徴に変換することで、新たなカテゴリが発見できる。 生成的対数ネットワークを用いた高品質な合成視覚特徴の生成には大きな進歩があったが、意味的特徴と視覚的特徴とのセマンティック一貫性を保証することは依然として非常に困難である。 本論文では,クラス知識と視覚的特徴学習を基礎として,その課題に取り組むための新たなゼロショット学習手法GAN-CSTを提案する。 このアプローチは、クラス知識のオーバーレイ、半教師付き学習、三重項損失という3つの部分からなる。 クラス知識オーバーレイ(CKO)を適用して、対応するクラスだけでなく、知識オーバーレイを持つ他のクラスからも知識を得ます。 これにより、知識と視覚の学習プロセスが、合成された視覚特徴を生成するのに十分な情報を持つことが保証される。 このアプローチはまた、知識-視覚モデルの再訓練に半教師付き学習プロセスを適用する。 合成された視覚特徴生成の強化と新しいカテゴリー予測に寄与する。 提案モデルが最先端のアプローチよりも優れたパフォーマンスを提供することを示す,いくつかのベンチマークデータセットの結果を集計した。

New categories can be discovered by transforming semantic features into synthesized visual features without corresponding training samples in zero-shot image classification. Although significant progress has been made in generating high-quality synthesized visual features using generative adversarial networks, guaranteeing semantic consistency between the semantic features and visual features remains very challenging. In this paper, we propose a novel zero-shot learning approach, GAN-CST, based on class knowledge to visual feature learning to tackle the problem. The approach consists of three parts, class knowledge overlay, semi-supervised learning and triplet loss. It applies class knowledge overlay (CKO) to obtain knowledge not only from the corresponding class but also from other classes that have the knowledge overlay. It ensures that the knowledge-to-visual learning process has adequate information to generate synthesized visual features. The approach also applies a semi-supervised learning process to re-train knowledge-to-visual model. It contributes to reinforcing synthesized visual features generation as well as new category prediction. We tabulate results on a number of benchmark datasets demonstrating that the proposed model delivers superior performance over state-of-the-art approaches.
翻訳日:2021-03-01 14:04:49 公開日:2021-02-26
# 知識共有に基づくゼロショット学習

Zero-Shot Learning Based on Knowledge Sharing ( http://arxiv.org/abs/2102.13326v1 )

ライセンス: Link先を確認
Zeng Ting, Xiang Hongxin, Xie Cheng, Yang Yun, Liu Qing(参考訳) Zero-Shot Learning(ZSL)は、ごくわずかなトレーニングデータで分類問題を解決することを目的とした新しい研究です。 現在ZSLは、主に視覚空間への学習意味空間のマッピングに焦点を当てている。 ZSL研究の進歩を妨げる多くの課題に直面している。 まず、セマンティック機能の表現は、カテゴリのすべての機能を表すには不十分です。 第二に、ドメインドリフト問題は、意味空間から視覚空間への移動中にまだ存在する。 本稿では,意味的特徴の表現を充実させるために,知識共有(KS)を導入する。 KSをベースとして,実際の視覚特徴に非常に近い意味的特徴から擬似視覚特徴を生成するために,生成的対向ネットワークを適用した。 ZSLの2つのベンチマークデータセットによる実験結果から,提案手法は一貫した改善が得られた。

Zero-Shot Learning (ZSL) is an emerging research that aims to solve the classification problems with very few training data. The present works on ZSL mainly focus on the mapping of learning semantic space to visual space. It encounters many challenges that obstruct the progress of ZSL research. First, the representation of the semantic feature is inadequate to represent all features of the categories. Second, the domain drift problem still exists during the transfer from semantic space to visual space. In this paper, we introduce knowledge sharing (KS) to enrich the representation of semantic features. Based on KS, we apply a generative adversarial network to generate pseudo visual features from semantic features that are very close to the real visual features. Abundant experimental results from two benchmark datasets of ZSL show that the proposed approach has a consistent improvement.
翻訳日:2021-03-01 14:04:31 公開日:2021-02-26
# ICD符号化予測のためのメタ埋め込みに基づくアンサンブルアプローチ

A Meta-embedding-based Ensemble Approach for ICD Coding Prediction ( http://arxiv.org/abs/2102.13622v1 )

ライセンス: Link先を確認
Pavithra Rajendran, Alexandros Zenonos, Josh Spear, Rebecca Pope(参考訳) 国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。 これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。 icd符号を自動的に割り当てる問題は、非構造化データ上のニューラルモデルを用いて、マルチラベル分類として文献で研究されている。 提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。 さらに,2組のワードベクトルの幾何学的特性を利用して,メタ埋め込み手法を用いて,それらを共通次元空間に結合する。 非構造化情報と構造化情報を用いたマルチモーダル設定に対するこのアプローチの有効性を実証する。 私たちのアプローチは、最新のディープラーニングアーキテクチャと利点のアンサンブルモデルを改善することを実証的に示しています。

International Classification of Diseases (ICD) are the de facto codes used globally for clinical coding. These codes enable healthcare providers to claim reimbursement and facilitate efficient storage and retrieval of diagnostic information. The problem of automatically assigning ICD codes has been approached in literature as a multilabel classification, using neural models on unstructured data. Our proposed approach enhances the performance of neural models by effectively training word vectors using routine medical data as well as external knowledge from scientific articles. Furthermore, we exploit the geometric properties of the two sets of word vectors and combine them into a common dimensional space, using meta-embedding techniques. We demonstrate the efficacy of this approach for a multimodal setting, using unstructured and structured information. We empirically show that our approach improves the current state-of-the-art deep learning architectures and benefits ensemble models.
翻訳日:2021-03-01 14:03:53 公開日:2021-02-26
# Beyond Convolutions: 生の地震データ取得のための新しいディープラーニングアプローチ

Beyond Convolutions: A Novel Deep Learning Approach for Raw Seismic Data Ingestion ( http://arxiv.org/abs/2102.13631v1 )

ライセンス: Link先を確認
Zhaozhuo Xu, Aditya Desai, Menal Gupta, Anu Chandran, Antoine Vial-Aussavy, Anshumali Shrivastava(参考訳) 従来の地震処理ワークフロー(SPW)は高価であり、1年以上の人的および計算的努力を必要とします。 深層学習(DL)に基づくデータ駆動型地震波動ワークフロー(DSPW)は、これらのタイムラインを数分に短縮する可能性を秘めている。 生地震データ(テラバイト)と必要な地下予測(ギガバイト)は巨大である。 この大規模で空間的に不規則な時系列データは、DSPWの非定型かつ根本的な問題として地震データ取り込み(SDI)を引き起こします。 現在のDL研究は、画像のような地震データを処理し、畳み込みネットワークで処理する、小規模な単純化された合成データセットに限られている。 しかし、実際の地震データは少なくとも5Dです。 このスケールに5次元畳み込みを適用することは計算的に禁止される。 さらに、生の地震データは高度に非構造であり、本質的に画像的ではない。 我々は、畳み込みから脱却する根本的なシフトを提案し、SESDI: Set Embedding based SDI approachを導入します。 SESDIは、まず大規模な予測のマンモスタスクを効率的なコンパクトな補助タスクに分解する。 SESDIはその新しいモデルアーキテクチャでデータに不規則性を優雅に組み込む。 SESDIは、実際の地震データに関するエンドツーエンド学習の実証に初めて成功しました。 SESDIはメキシコ湾の実際のプロプライエタリなデータに対するベロシティインバージョンタスクにおいて0.8以上のSSIMを達成し、合成データセット上で最先端のU-Netモデルを上回っている。

Traditional seismic processing workflows (SPW) are expensive, requiring over a year of human and computational effort. Deep learning (DL) based data-driven seismic workflows (DSPW) hold the potential to reduce these timelines to a few minutes. Raw seismic data (terabytes) and required subsurface prediction (gigabytes) are enormous. This large-scale, spatially irregular time-series data poses seismic data ingestion (SDI) as an unconventional yet fundamental problem in DSPW. Current DL research is limited to small-scale simplified synthetic datasets as they treat seismic data like images and process them with convolution networks. Real seismic data, however, is at least 5D. Applying 5D convolutions to this scale is computationally prohibitive. Moreover, raw seismic data is highly unstructured and hence inherently non-image like. We propose a fundamental shift to move away from convolutions and introduce SESDI: Set Embedding based SDI approach. SESDI first breaks down the mammoth task of large-scale prediction into an efficient compact auxiliary task. SESDI gracefully incorporates irregularities in data with its novel model architecture. We believe SESDI is the first successful demonstration of end-to-end learning on real seismic data. SESDI achieves SSIM of over 0.8 on velocity inversion task on real proprietary data from the Gulf of Mexico and outperforms the state-of-the-art U-Net model on synthetic datasets.
翻訳日:2021-03-01 14:03:13 公開日:2021-02-26
# オフライン回帰オーラクルを用いた文脈的包帯の誤認への適応

Adapting to misspecification in contextual bandits with offline regression oracles ( http://arxiv.org/abs/2102.13240v1 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Vitor Hadad, and Susan Athey(参考訳) 計算効率の良いコンテクストバンディットは、過去のデータを用いて与えられたコンテクストとアームの予測モデルに基づくことが多い。 しかし、報奨モデルが十分に特定されていない場合、バンディットアルゴリズムは予期せぬ後悔を引き起こす可能性があるため、最近の研究は誤特定に頑健なアルゴリズムに焦点を当てている。 我々は,誤特定が後悔の増大を引き起こすという証拠がある場合に,適切な安全ポリシーに戻すことにより,誤特定エラーに適応する,文脈的バンディットアルゴリズムの単純なファミリを提案する。 我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。 以前の研究と比較すると、同様の後悔の保証を得るが、マスターアルゴリズムに頼らず、オンラインや制約付き回帰オラクル(フォスターなど)のようなより堅牢なオラクルを必要としない。 (2020a): Krishnamurthy et al。 (2020)). これにより、より一般的な関数近似クラスのためのアルゴリズムを設計できる。

Computationally efficient contextual bandits are often based on estimating a predictive model of rewards given contexts and arms using past data. However, when the reward model is not well-specified, the bandit algorithm may incur unexpected regret, so recent work has focused on algorithms that are robust to misspecification. We propose a simple family of contextual bandit algorithms that adapt to misspecification error by reverting to a good safe policy when there is evidence that misspecification is causing a regret increase. Our algorithm requires only an offline regression oracle to ensure regret guarantees that gracefully degrade in terms of a measure of the average misspecification level. Compared to prior work, we attain similar regret guarantees, but we do no rely on a master algorithm, and do not require more robust oracles like online or constrained regression oracles (e.g., Foster et al. (2020a); Krishnamurthy et al. (2020)). This allows us to design algorithms for more general function approximation classes.
翻訳日:2021-03-01 14:02:27 公開日:2021-02-26
# ランダム森林用MDA:不整合性、Sobol-MDAによる実用的なソリューション。

MDA for random forests: inconsistency, and a practical solution via the Sobol-MDA ( http://arxiv.org/abs/2102.13347v1 )

ライセンス: Link先を確認
Cl\'ement B\'enard (LPSM), S\'ebastien da Veiga, Erwan Scornet (CMAP)(参考訳) 変数重要度尺度は、ランダム森林のブラックボックス機構を分析する主要なツールである。 平均減少精度(MDA)はランダム森林にとって最も効率的な変数重要度尺度として広く受け入れられているが、その理論的性質についてはほとんど知られていない。 実際、正確なMDA定義は、メインのランダムフォレストソフトウェアによって異なる。 本稿では,主要なMDA実装の動作を厳格に分析することを目的とする。 その結果,様々な実装されたMDAアルゴリズムを数学的に定式化し,サンプルサイズが大きくなるとその限界を確定する。 特に、これらの限界を3つの成分に分解する: 第一の2つは、入力変数の依存性によって値が増加する第三項とは対照的に、出力の分散に対する変数の寄与を適切に定義した尺度であるソボ指標に関連付けられている。 そこで,本研究では,入力が依存している場合には,MDAが適切な量を目標としていないことを理論的に示した。 この問題に対処するために、我々は、元のMDAの欠陥を修正するランダム森林の新たな重要度尺度、Sobol-MDAを定義した。 Sobol-MDAの一貫性を証明し、シミュレーションデータと実データの両方の実験を通じて、その優れた実証性能を示します。 RとC++のオープンソース実装がオンラインで公開されている。

Variable importance measures are the main tools to analyze the black-box mechanism of random forests. Although the Mean Decrease Accuracy (MDA) is widely accepted as the most efficient variable importance measure for random forests, little is known about its theoretical properties. In fact, the exact MDA definition varies across the main random forest software. In this article, our objective is to rigorously analyze the behavior of the main MDA implementations. Consequently, we mathematically formalize the various implemented MDA algorithms, and then establish their limits when the sample size increases. In particular, we break down these limits in three components: the first two are related to Sobol indices, which are well-defined measures of a variable contribution to the output variance, widely used in the sensitivity analysis field, as opposed to the third term, whose value increases with dependence within input variables. Thus, we theoretically demonstrate that the MDA does not target the right quantity when inputs are dependent, a fact that has already been noticed experimentally. To address this issue, we define a new importance measure for random forests, the Sobol-MDA, which fixes the flaws of the original MDA. We prove the consistency of the Sobol-MDA and show its good empirical performance through experiments on both simulated and real data. An open source implementation in R and C++ is available online.
翻訳日:2021-03-01 14:02:09 公開日:2021-02-26
# 最適弱輸送バリセンターのストリーミング計算

Streaming computation of optimal weak transport barycenters ( http://arxiv.org/abs/2102.13380v1 )

ライセンス: Link先を確認
Elsa Cazelles and Felipe Tobar and Joaquin Fontbona(参考訳) 確率分布のファミリーの弱いバリセンターについて、最近開発された測度 arXiv:1412.7480(v4) の最適弱輸送の概念に基づいて紹介する。 弱バリセンタと古典的なワッサーシュタインバリセンタとの関係を理論的に解析し、確率測度間の凸秩序の観点からその意味を議論する。 特に、通常の最適輸送バリセンタによって行われる入力分布の情報を平均化するのではなく、弱いバリセンタは全ての入力分布間で共有される幾何学的情報を含み、全ての測度に影響を与える潜在確率変数として解釈できると論じる。 また、任意の測度(順序2の有限モーメントを持つ)の有限または無限の測度のいずれかのファミリーに対して弱いバリセンターを計算するための反復アルゴリズムも提供しており、これは特に、測度が順次到着する時など、ストリーミング設定に適している。 特に、弱いバリセンタのストリーミング計算では、これまでのwassstin barycentersに対するアプローチがそうであるように、スムーズな経験的尺度や、それらの共通のグリッドを定義する必要はありません。 弱いバリセンタの概念と計算手法は、2次元実世界データ上で検証され、古典的ワッサースタイン・バリセンタと比較された合成例で示される。

We introduce the weak barycenter of a family of probability distributions, based on the recently developed notion of optimal weak transport of measures arXiv:1412.7480(v4). We provide a theoretical analysis of the weak barycenter and its relationship to the classic Wasserstein barycenter, and discuss its meaning in the light of convex ordering between probability measures. In particular, we argue that, rather than averaging the information of the input distributions as done by the usual optimal transport barycenters, weak barycenters contain geometric information shared across all input distributions, which can be interpreted as a latent random variable affecting all the measures. We also provide iterative algorithms to compute a weak barycenter for either finite or infinite families of arbitrary measures (with finite moments of order 2), which are particularly well suited for the streaming setting, i.e., when measures arrive sequentially. In particular, our streaming computation of weak barycenters does not require to smooth empirical measures or to define a common grid for them, as some of the previous approaches to Wasserstin barycenters do. The concept of weak barycenter and our computation approaches are illustrated on synthetic examples, validated on 2D real-world data and compared to the classical Wasserstein barycenters.
翻訳日:2021-03-01 14:01:46 公開日:2021-02-26
# 獲得重み付き核を用いた置換のバッチベイズ最適化

Batch Bayesian Optimization on Permutations using Acquisition Weighted Kernels ( http://arxiv.org/abs/2102.13382v1 )

ライセンス: Link先を確認
Changyong Oh, Roberto Bondesan, Efstratios Gavves, Max Welling(参考訳) 本研究では,置換のコスト関数に好適な置換問題に対するベイズ最適化手法を提案する。 取得重み付きカーネルを用いて、決定点プロセスに基づく新しい効率的なバッチ取得方法であるLAWを紹介します。 複数の並列評価に基づいて、LAWは最適な置換の探索を高速化する。 本研究では,理論特性の知見を得るための後悔分析法を提案する。 その枠組みを置換問題に適用するが、ベイズ最適化の文献では、実用的重要性にもかかわらずほとんど注目されていない。 このメソッドを LAW2ORDER と呼ぶ。 本稿では,2次割当,フローショップスケジューリング,旅行セールスマンなどの置換を含むいくつかの標準組合せ問題に対する手法と構造学習タスクについて評価する。

In this work we propose a batch Bayesian optimization method for combinatorial problems on permutations, which is well suited for expensive cost functions on permutations. We introduce LAW, a new efficient batch acquisition method based on the determinantal point process, using an acquisition weighted kernel. Relying on multiple parallel evaluations, LAW accelerates the search for the optimal permutation. We provide a regret analysis for our method to gain insight in its theoretical properties. We then apply the framework to permutation problems, which have so far received little attention in the Bayesian Optimization literature, despite their practical importance. We call this method LAW2ORDER. We evaluate the method on several standard combinatorial problems involving permutations such as quadratic assignment, flowshop scheduling and the traveling salesman, as well as on a structure learning task.
翻訳日:2021-03-01 14:01:23 公開日:2021-02-26
# 反復se(3)変換器

Iterative SE(3)-Transformers ( http://arxiv.org/abs/2102.13419v1 )

ライセンス: Link先を確認
Fabian B. Fuchs, Edward Wagstaff, Justas Dauparas, Ingmar Posner(参考訳) 三次元データを操作する場合、いわゆるSE(3)-同変モデルを適用することにより、回転対称性と翻訳対称性が尊重されることを保証できる。 タンパク質構造予測は、これらの対称性を示すタスクの顕著な例である。 この領域における最近の研究はSE(3)-同変モデルを使い、反復SE(3)-同変アテンション機構を適用した。 このアプリケーションに動機づけられて、グラフデータのSE(3)等価な注意ベースのモデルであるSE(3)-Transformerの反復バージョンを実装します。 反復的な方法でSE(3)-Transformerを適用する際に生じる追加的な合併症に対処し、おもちゃ問題の反復バージョンとシングルパスバージョンを比較し、反復モデルがいくつかの問題設定で有益である理由を検討する。 実装のコードをコミュニティに公開しています。

When manipulating three-dimensional data, it is possible to ensure that rotational and translational symmetries are respected by applying so-called SE(3)-equivariant models. Protein structure prediction is a prominent example of a task which displays these symmetries. Recent work in this area has successfully made use of an SE(3)-equivariant model, applying an iterative SE(3)-equivariant attention mechanism. Motivated by this application, we implement an iterative version of the SE(3)-Transformer, an SE(3)-equivariant attention-based model for graph data. We address the additional complications which arise when applying the SE(3)-Transformer in an iterative fashion, compare the iterative and single-pass versions on a toy problem, and consider why an iterative model may be beneficial in some problem settings. We make the code for our implementation available to the community.
翻訳日:2021-03-01 14:01:11 公開日:2021-02-26
# 深層学習のためのリッチレギムトレーニングによる実験

Experiments with Rich Regime Training for Deep Learning ( http://arxiv.org/abs/2102.13522v1 )

ライセンス: Link先を確認
Xinyan Li and Arindam Banerjee(参考訳) 遅延トレーニングの理解の進歩にもかかわらず、最近の研究は、複雑な誘導バイアスを持つ豊かな体制に深層学習の実践的な成功を特徴とする。 本稿では,リッチレジームトレーニングをベンチマークデータセットを用いて経験的に検討し,ほとんどのパラメータが遅延であるが,トレーニング中にかなり変化する少数のアクティブパラメータが存在することを発見した。 活性パラメータの再初期化(初期乱数値のリセット)は、より悪い一般化をもたらすことを示す。 さらに、アクティブなパラメータのほとんどは、特にネットワークが広くなるにつれて、入力に近い下層にあることを示しています。 このような観測に基づいて、いくつかのレイヤのみを更新する静的なLayer-Wise Sparse (LWS) SGDについて検討する。 トップ層とボトム層の更新だけが良好な一般化を持ち、予想通りトップ層を更新するだけで高速なアルゴリズムが得られる。 そこで本研究では,主に上位層を更新し,時には全ネットワークを更新する確率的LWS-SGDについて検討する。 確率的LWS-SGDはバニラSGDの一般化性能と一致し、バックプロパゲーション時間は2~5倍効率がよいことを示す。

In spite of advances in understanding lazy training, recent work attributes the practical success of deep learning to the rich regime with complex inductive bias. In this paper, we study rich regime training empirically with benchmark datasets, and find that while most parameters are lazy, there is always a small number of active parameters which change quite a bit during training. We show that re-initializing (resetting to their initial random values) the active parameters leads to worse generalization. Further, we show that most of the active parameters are in the bottom layers, close to the input, especially as the networks become wider. Based on such observations, we study static Layer-Wise Sparse (LWS) SGD, which only updates some subsets of layers. We find that only updating the top and bottom layers have good generalization and, as expected, only updating the top layers yields a fast algorithm. Inspired by this, we investigate probabilistic LWS-SGD, which mostly updates the top layers and occasionally updates the full network. We show that probabilistic LWS-SGD matches the generalization performance of vanilla SGD and the back-propagation time can be 2-5 times more efficient.
翻訳日:2021-03-01 14:00:56 公開日:2021-02-26
# 回帰のための学習予測間隔:一般化と校正

Learning Prediction Intervals for Regression: Generalization and Calibration ( http://arxiv.org/abs/2102.13625v1 )

ライセンス: Link先を確認
Haoxian Chen, Ziyi Huang, Henry Lam, Huajie Qian, Haofeng Zhang(参考訳) 不確実性定量のための回帰における予測間隔の生成について検討する。 このタスクは、データ全体のカバレッジ精度を維持しながら、平均間隔幅を最小化する経験的制約付き最適化問題として定式化することができる。 我々は,この経験的最適化の2つの側面を研究することにより,既存の文献を強化する。 まず、回帰木やニューラルネットワークに代表されるLipschitz連続性およびVCサブグラフクラスを含む最適性-実現性トレードオフを特徴付けるための一般的な学習理論です。 第2に、このトレードオフを管理する正規化パラメータを最適に選択するためのキャリブレーション機械と対応する統計理論である。 我々は既存のベンチマークと比べてテスト性能の点で、区間生成とキャリブレーションアルゴリズムの強みを実証的に示している。

We study the generation of prediction intervals in regression for uncertainty quantification. This task can be formalized as an empirical constrained optimization problem that minimizes the average interval width while maintaining the coverage accuracy across data. We strengthen the existing literature by studying two aspects of this empirical optimization. First is a general learning theory to characterize the optimality-feasibility tradeoff that encompasses Lipschitz continuity and VC-subgraph classes, which are exemplified in regression trees and neural networks. Second is a calibration machinery and the corresponding statistical theory to optimally select the regularization parameter that manages this tradeoff, which bypasses the overfitting issues in previous approaches in coverage attainment. We empirically demonstrate the strengths of our interval generation and calibration algorithms in terms of testing performances compared to existing benchmarks.
翻訳日:2021-03-01 14:00:37 公開日:2021-02-26
# なぜ流通が変わったのか?

Why did the distribution change? ( http://arxiv.org/abs/2102.13384v1 )

ライセンス: Link先を確認
Kailash Budhathoki, Dominik Janzing, Patrick Bloebaum, Hoiyi Ng(参考訳) 本稿では,変数の確率分布の変化の「根本原因」を特定するためのグラフィカル因果モデルに基づく形式的アプローチについて述べる。 共役分布を各変数の条件分布に分解し、その親(「因果メカニズム」)が与えられた後、これらの因果メカニズムの変化にその変化を分類する。 この属性分析は、メカニズムがしばしば独立して変化し、時には一部しか変化しないという事実を表します。 シミュレーションにより,分布変化帰属法の性能について検討した。 次に、男女の所得分布の違いの要因を特定する実世界のケーススタディを提示します。

We describe a formal approach based on graphical causal models to identify the "root causes" of the change in the probability distribution of variables. After factorizing the joint distribution into conditional distributions of each variable, given its parents (the "causal mechanisms"), we attribute the change to changes of these causal mechanisms. This attribution analysis accounts for the fact that mechanisms often change independently and sometimes only some of them change. Through simulations, we study the performance of our distribution change attribution method. We then present a real-world case study identifying the drivers of the difference in the income distribution between men and women.
翻訳日:2021-03-01 13:59:30 公開日:2021-02-26
# ECO: ハーベステッドエネルギーのランタイム割り当てによるエネルギーニュートラルIoTデバイスの実現

ECO: Enabling Energy-Neutral IoT Devices through Runtime Allocation of Harvested Energy ( http://arxiv.org/abs/2102.13605v1 )

ライセンス: Link先を確認
Yigit Tuncel, Ganapati Bhat, Jaehyun Park, Umit Ogras(参考訳) エネルギー収穫は低エネルギーデバイスを動かすための魅力的で有望なメカニズムを提供する。 しかし、エネルギー中立的な動作を可能にするには不十分であり、面倒なバッテリー充電や交換要求を排除できる。 エネルギー中立運転の達成は、収穫エネルギーの不確実性がサービスの質を損なうため困難である。 この課題に対処するために、エネルギー制約下でターゲットデバイスの有用性を最適化するロールアウトベースのランタイムエネルギーアロケーションフレームワークを紹介します。 提案フレームワークは, 効率的な反復アルゴリズムを用いて, 初期エネルギー割り当てを1日の初めに計算する。 初期割り当ては、期待されるエネルギー収穫パターンからのずれを補うために、各間隔で補正される。 このフレームワークは、太陽と運動エネルギーの収穫モードと、4772の異なるユーザーからのアメリカンタイムユースサーベイデータを使用して評価します。 最先端技術と比較して、提案手法はエネルギー制限シナリオの下でも34.6%高い実用性を達成する。 さらに, ウェアラブルデバイスのプロトタイプを用いた測定結果から, 実用性が無視できる反復的アプローチと比較して, 提案フレームワークのエネルギーオーバーヘッドが0.1%未満であることが判明した。

Energy harvesting offers an attractive and promising mechanism to power low-energy devices. However, it alone is insufficient to enable an energy-neutral operation, which can eliminate tedious battery charging and replacement requirements. Achieving an energy-neutral operation is challenging since the uncertainties in harvested energy undermine the quality of service requirements. To address this challenge, we present a rollout-based runtime energy-allocation framework that optimizes the utility of the target device under energy constraints. The proposed framework uses an efficient iterative algorithm to compute initial energy allocations at the beginning of a day. The initial allocations are then corrected at every interval to compensate for the deviations from the expected energy harvesting pattern. We evaluate this framework using solar and motion energy harvesting modalities and American Time Use Survey data from 4772 different users. Compared to state-of-the-art techniques, the proposed framework achieves 34.6% higher utility even under energy-limited scenarios. Moreover, measurements on a wearable device prototype show that the proposed framework has less than 0.1% energy overhead compared to iterative approaches with a negligible loss in utility.
翻訳日:2021-03-01 13:59:20 公開日:2021-02-26
# 潜在木モデルのスペクトルトップダウン復元

Spectral Top-Down Recovery of Latent Tree Models ( http://arxiv.org/abs/2102.13276v1 )

ライセンス: Link先を確認
Yariv Aizenbud, Ariel Jaffe, Meng Wang, Amber Hu, Noah Amsel, Boaz Nadler, Joseph T. Chang, Yuval Kluger(参考訳) 潜伏木グラフモデルによる高次元データの分布のモデル化は、複数の科学的領域において共通のアプローチである。 共通するタスクは、端末ノードの観測のみを前提としたツリー構造を推測することである。 多くの木回復アルゴリズムは計算量が多いため、適度な大きさの木への適用性が制限されている。 大きな木の場合、分割と分割と呼ばれる一般的なアプローチは、2つのステップで木構造を回復することである。 まず、複数の端末ノードのランダムに選択されたサブセットに対して別々に構造を復元する。 次に、結果のサブツリーをマージして、フルツリーを形成する。 本研究では,大規模潜在木モデルの推定のための分割・解法であるスペクトルトップダウンリカバリ(stdr)を開発した。 従来の方法とは異なり、STDRの分割ステップは非ランダムである。 代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。 特定の条件下では、この分割はツリー構造と一致していることを示す。 これにより、小さな部分木のマージ手順が大幅に単純化される。 私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。 系統学におけるいくつかの共通木モデルのシミュレーションデータを用いて,STDRは実行時において,改良あるいは類似した精度で大きな優位性を有することを示した。

Modeling the distribution of high dimensional data by a latent tree graphical model is a common approach in multiple scientific domains. A common task is to infer the underlying tree structure given only observations of the terminal nodes. Many algorithms for tree recovery are computationally intensive, which limits their applicability to trees of moderate size. For large trees, a common approach, termed divide-and-conquer, is to recover the tree structure in two steps. First, recover the structure separately for multiple randomly selected subsets of the terminal nodes. Second, merge the resulting subtrees to form a full tree. Here, we develop Spectral Top-Down Recovery (STDR), a divide-and-conquer approach for inference of large latent tree models. Unlike previous methods, STDR's partitioning step is non-random. Instead, it is based on the Fiedler vector of a suitable Laplacian matrix related to the observed nodes. We prove that under certain conditions this partitioning is consistent with the tree structure. This, in turn leads to a significantly simpler merging procedure of the small subtrees. We prove that STDR is statistically consistent, and bound the number of samples required to accurately recover the tree with high probability. Using simulated data from several common tree models in phylogenetics, we demonstrate that STDR has a significant advantage in terms of runtime, with improved or similar accuracy.
翻訳日:2021-03-01 13:58:38 公開日:2021-02-26
# 反復学習制御への後悔最小化アプローチ

A Regret Minimization Approach to Iterative Learning Control ( http://arxiv.org/abs/2102.13478v1 )

ライセンス: Link先を確認
Naman Agarwal, Elad Hazan, Anirudha Majumdar, Karan Singh(参考訳) 我々は,不確定な時間変動ダイナミクスが存在する場合,反復学習制御やモデルに基づく政策学習の設定を考える。 本稿では,従来の確率的不確実性仮定を最悪のケース後悔に置き換え,後悔を計画する新たなパフォーマンス指標を提案する。 非確率的制御の最近の進歩に基づき、ミスマッチや不確実性をモデル化する上でより堅牢な計画的後悔を最小化するための新しい反復アルゴリズムを設計する。 提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。

We consider the setting of iterative learning control, or model-based policy learning in the presence of uncertain, time-varying dynamics. In this setting, we propose a new performance metric, planning regret, which replaces the standard stochastic uncertainty assumptions with worst case regret. Based on recent advances in non-stochastic control, we design a new iterative algorithm for minimizing planning regret that is more robust to model mismatch and uncertainty. We provide theoretical and empirical evidence that the proposed algorithm outperforms existing methods on several benchmarks.
翻訳日:2021-03-01 13:58:20 公開日:2021-02-26
# ファイナンシャルレコメンデーションのための履歴強化協調フィルタリング

History-Augmented Collaborative Filtering for Financial Recommendations ( http://arxiv.org/abs/2102.13503v1 )

ライセンス: Link先を確認
Baptiste Barreau, Laurent Carlier(参考訳) 多くの企業、特に金融では、クライアントの行動が時間とともに劇的に変わる可能性があります。 したがって、そのような環境で使用されるレコメンダーシステムがこれらの変更に適応できることは非常に重要です。 本研究では,ユーザとアイテムの相互作用履歴を通じてユーザとアイテムの相互作用の時間的コンテキストをキャプチャし,動的に推奨する新たな協調フィルタリングアルゴリズムを提案する。 このアルゴリズムは金融業界を念頭に置いて設計されたもので、ユーザーとアイテムの動作の非定常性に取り組むカスタムニューラルネットワークアーキテクチャを使用している。 アルゴリズムの性能と特性は、BNP Paribas Corporate と Institutional Banking のプロプライエタリデータベースを引用するための G10 結合要求に関する一連の実験で監視される。

In many businesses, and particularly in finance, the behavior of a client might drastically change over time. It is consequently crucial for recommender systems used in such environments to be able to adapt to these changes. In this study, we propose a novel collaborative filtering algorithm that captures the temporal context of a user-item interaction through the users' and items' recent interaction histories to provide dynamic recommendations. The algorithm, designed with issues specific to the financial world in mind, uses a custom neural network architecture that tackles the non-stationarity of users' and items' behaviors. The performance and properties of the algorithm are monitored in a series of experiments on a G10 bond request for quotation proprietary database from BNP Paribas Corporate and Institutional Banking.
翻訳日:2021-03-01 13:58:11 公開日:2021-02-26
# ニューラルネットワークによる学習におけるスパース近似

Sparse approximation in learning via neural ODEs ( http://arxiv.org/abs/2102.13566v1 )

ライセンス: Link先を確認
Carlos Esteve Yag\"ue and Borjan Geshkovski(参考訳) 深層学習における連続時間, ニューラル常微分方程式(ニューラルODE)の視点を考察し, トレーニングにおける最終時間地平線の影響について検討する。 我々は、時間間隔における経験的リスクの積分と、l^1$-パラメータの正規化からなるコストに焦点を当てる。 ダイナミクス上の均質性仮定(ReLUアクティベーションの典型的)の下で、任意のグローバル最小化器は、最適パラメータが消滅するプラスの停止時間$T^*$が存在するという意味で、スパースであることを証明する。 さらに、ニューラルODE上の適切な補間仮定の下では、停止時間$T^\ast$と、停止時間における軌道のトレーニング誤差の定量的推定を行う。 後者は、スパースパラメータを持つ神経ODEフローの定量的近似特性を規定する。 現実的には、トレーニング問題における時間ホライゾンの短縮は、より浅い残留ニューラルネットワーク(ResNet)を考慮したものと解釈でき、最適パラメータはより短い時間地平線上に集中しているため、関連する情報を捨てることなく、トレーニングの計算コストを下げることができる。

We consider the continuous-time, neural ordinary differential equation (neural ODE) perspective of deep supervised learning, and study the impact of the final time horizon $T$ in training. We focus on a cost consisting of an integral of the empirical risk over the time interval, and $L^1$--parameter regularization. Under homogeneity assumptions on the dynamics (typical for ReLU activations), we prove that any global minimizer is sparse, in the sense that there exists a positive stopping time $T^*$ beyond which the optimal parameters vanish. Moreover, under appropriate interpolation assumptions on the neural ODE, we provide quantitative estimates of the stopping time $T^\ast$, and of the training error of the trajectories at the stopping time. The latter stipulates a quantitative approximation property of neural ODE flows with sparse parameters. In practical terms, a shorter time-horizon in the training problem can be interpreted as considering a shallower residual neural network (ResNet), and since the optimal parameters are concentrated over a shorter time horizon, such a consideration may lower the computational cost of training without discarding relevant information.
翻訳日:2021-03-01 13:57:58 公開日:2021-02-26
# シミュレーションDAGに注意! 付加雑音モデルにおける可変性

Beware of the Simulated DAG! Varsortability in Additive Noise Models ( http://arxiv.org/abs/2102.13647v1 )

ライセンス: Link先を確認
Alexander G. Reisach, Christof Seiler, Sebastian Weichwald(参考訳) 付加ノイズモデルは因果モデルの一種であり、各変数はその原因と独立したノイズの関数として定義される。 そのようなモデルでは、限界分散による変数の順序付けは因果順序を示すことができる。 限界分散による順序と因果順序との一致の尺度として変分可能性を導入する。 合成データにおける連続構造学習アルゴリズムの性能は,バラエティが如何に支配されているかを示す。 実世界のデータでは、変数ソータビリティは不可解でテスト不可能な仮定であり、高い変数ソータビリティの兆候は見つかっていない。 模擬添加ノイズモデルではバラツキが起こりやすいという認識を高めることを目指しています。 データのベンチマークにおいて,変数ソータビリティを明示的に利用し,変数ソータビリティを報告することを提唱するベースライン手法を提供する。

Additive noise models are a class of causal models in which each variable is defined as a function of its causes plus independent noise. In such models, the ordering of variables by marginal variances may be indicative of the causal order. We introduce varsortability as a measure of agreement between the ordering by marginal variance and the causal order. We show how varsortability dominates the performance of continuous structure learning algorithms on synthetic data. On real-world data, varsortability is an implausible and untestable assumption and we find no indication of high varsortability. We aim to raise awareness that varsortability easily occurs in simulated additive noise models. We provide a baseline method that explicitly exploits varsortability and advocate reporting varsortability in benchmarking data.
翻訳日:2021-03-01 13:57:36 公開日:2021-02-26
# モーメントを用いた確率勾配の一般化について

On the Generalization of Stochastic Gradient Descent with Momentum ( http://arxiv.org/abs/2102.13653v1 )

ライセンス: Link先を確認
Ali Ramezani-Kebrya, Ashish Khisti, Ben Liang(参考訳) 運動量に基づく手法は確率勾配勾配(SGD)とともに機械学習モデルを訓練する際に広く用いられているが、そのような手法の一般化誤差に関する理論的理解はほとんどない。 本研究では,標準重球運動量(SGDM)を持つSGDを複数回実行した場合,アルゴリズム安定性が一般化保証を確立することができない凸損失関数が存在することを示す。 次に、滑らかなリプシッツ損失関数に対して、初期運動量付きSGD(英語版)(SGDEM)という修正モーメントベースの更新規則を解析し、一般化誤差に上限があることを示す。 その結果,機械学習モデルがSGDEMの複数のエポックに対して一般化を保証するように訓練できることが示された。 最後に、強い凸損失関数の特別な場合、標準SGDMの複数のエポックが、SGDEMの特別な形式として、また一般化されるような運動量の範囲を見出す。 また、一般化の結果を拡張し、トレーニングステップの数、トレーニングセットのサイズ、および運動量パラメータの観点から、期待される真のリスクを上限として開発しています。 数値解析結果と理論境界の整合性および滑らかなリプシッツ損失関数に対するSGDEMの有効性を実験的に検証した。

While momentum-based methods, in conjunction with stochastic gradient descent (SGD), are widely used when training machine learning models, there is little theoretical understanding on the generalization error of such methods. In this work, we first show that there exists a convex loss function for which algorithmic stability fails to establish generalization guarantees when SGD with standard heavy-ball momentum (SGDM) is run for multiple epochs. Then, for smooth Lipschitz loss functions, we analyze a modified momentum-based update rule, i.e., SGD with early momentum (SGDEM), and show that it admits an upper-bound on the generalization error. Thus, our results show that machine learning models can be trained for multiple epochs of SGDEM with a guarantee for generalization. Finally, for the special case of strongly convex loss functions, we find a range of momentum such that multiple epochs of standard SGDM, as a special form of SGDEM, also generalizes. Extending our results on generalization, we also develop an upper-bound on the expected true risk, in terms of the number of training steps, the size of the training set, and the momentum parameter. Experimental evaluations verify the consistency between the numerical results and our theoretical bounds and the effectiveness of SGDEM for smooth Lipschitz loss functions.
翻訳日:2021-03-01 13:57:24 公開日:2021-02-26
# 対向画像を用いた学習型自律ステアリングのロバスト性向上

Improving Robustness of Learning-based Autonomous Steering Using Adversarial Images ( http://arxiv.org/abs/2102.13262v1 )

ライセンス: Link先を確認
Yu Shen, Laura Zheng, Manli Shu, Weizi Li, Tom Goldstein, Ming C. Lin(参考訳) 自動運転の安全のためには、さまざまな環境のさまざまな照明、天候、可視性条件下で運転できる必要があります。 これらの外部および環境要因は、センサーに関連する内部要因とともに、知覚データ処理に重大な課題を生じさせ、車両の意思決定と制御に影響を与える。 本研究では、自律運転のための画像入力における学習アルゴリズムw.r.tの品質変化の堅牢性を分析するためのフレームワークを導入することにより、この問題に対処する。 感度解析の結果を用いて、さらに「操縦学習」というタスクの全体的なパフォーマンスを向上させるアルゴリズムを提案します。 その結果、私たちのアプローチは学習成果を最大48%まで高めることができます。 本手法とデータ増強や対比訓練などの他の関連手法との比較検討により,自律走行におけるニューラルネットワークトレーニングの堅牢性と一般化を改善する方法として,アルゴリズムの有効性を確認した。

For safety of autonomous driving, vehicles need to be able to drive under various lighting, weather, and visibility conditions in different environments. These external and environmental factors, along with internal factors associated with sensors, can pose significant challenges to perceptual data processing, hence affecting the decision-making and control of the vehicle. In this work, we address this critical issue by introducing a framework for analyzing robustness of the learning algorithm w.r.t varying quality in the image input for autonomous driving. Using the results of sensitivity analysis, we further propose an algorithm to improve the overall performance of the task of "learning to steer". The results show that our approach is able to enhance the learning outcomes up to 48%. A comparative study drawn between our approach and other related techniques, such as data augmentation and adversarial training, confirms the effectiveness of our algorithm as a way to improve the robustness and generalization of neural network training for autonomous driving.
翻訳日:2021-03-01 13:56:59 公開日:2021-02-26
# 知識蒸留による光畳み込みニューラルネットワークの非線形性

Knowledge Distillation Circumvents Nonlinearity for Optical Convolutional Neural Networks ( http://arxiv.org/abs/2102.13323v1 )

ライセンス: Link先を確認
Jinlin Xiang, Shane Colburn, Arka Majumdar, Eli Shlizerman(参考訳) 近年、Convolutional Neural Networks(CNN)はユビキタス画像処理アプリケーションを可能にしています。 そのため、cnnはリアルタイムに高解像度のビジュアルストリームを処理するために高速ランタイム(フォワードプロパゲーション)を必要とする。 最先端のグラフィックスやテンソル処理ユニットでも、これは難しい作業です。 計算効率のボトルネックは、主に畳み込み層に発生する。 フーリエ領域での演算の実行は、畳み込みを要素ごとの乗算に変換するため、前方伝播を加速する有望な方法である。 さらに、この計算は光学式4fシステムを用いて、桁違いに高速に計算できる。 しかしながら、cnnの光学的実装と同様に、このスペクトルアプローチを用いる際の大きな課題は、cnnの性能が劇的に低下することなく、各畳み込み層間の非線形性を含むことである。 本稿では、スペクトルCNN線形カウンタ部(SCLC)ネットワークアーキテクチャを提案し、非線形性の必要性を回避するための知識蒸留(KD)アプローチを開発し、そのようなネットワークをうまく訓練する。 KDアプローチは、機械学習においてネットワークプルーニングの効果的なプロセスとして知られているが、非線形ネットワーク(教師)から線形ネットワーク(学生)へ知識を伝達するアプローチに適応する。 KDアプローチは、CNNの標準線形バージョンを簡単に上回るパフォーマンスを達成し、非線形ネットワークのパフォーマンスに近づくことができることを示しています。 提案した4f光リニアネットワークは,入力画像の分解能を高めることにより,(i)オブジェクト分類と(ii)セマンティックセグメンテーションという2つの基本的な画像処理タスクにおいて,同じ精度で非線形ネットワークよりも効率的に動作できることを示した。

In recent years, Convolutional Neural Networks (CNNs) have enabled ubiquitous image processing applications. As such, CNNs require fast runtime (forward propagation) to process high-resolution visual streams in real time. This is still a challenging task even with state-of-the-art graphics and tensor processing units. The bottleneck in computational efficiency primarily occurs in the convolutional layers. Performing operations in the Fourier domain is a promising way to accelerate forward propagation since it transforms convolutions into elementwise multiplications, which are considerably faster to compute for large kernels. Furthermore, such computation could be implemented using an optical 4f system with orders of magnitude faster operation. However, a major challenge in using this spectral approach, as well as in an optical implementation of CNNs, is the inclusion of a nonlinearity between each convolutional layer, without which CNN performance drops dramatically. Here, we propose a Spectral CNN Linear Counterpart (SCLC) network architecture and develop a Knowledge Distillation (KD) approach to circumvent the need for a nonlinearity and successfully train such networks. While the KD approach is known in machine learning as an effective process for network pruning, we adapt the approach to transfer the knowledge from a nonlinear network (teacher) to a linear counterpart (student). We show that the KD approach can achieve performance that easily surpasses the standard linear version of a CNN and could approach the performance of the nonlinear network. Our simulations show that the possibility of increasing the resolution of the input image allows our proposed 4f optical linear network to perform more efficiently than a nonlinear network with the same accuracy on two fundamental image processing tasks: (i) object classification and (ii) semantic segmentation.
翻訳日:2021-03-01 13:56:44 公開日:2021-02-26
# 殺さないことがあなたを堅牢にする(er): 毒物やバックドアに対する敵対的なトレーニング

What Doesn't Kill You Makes You Robust(er): Adversarial Training against Poisons and Backdoors ( http://arxiv.org/abs/2102.13624v1 )

ライセンス: Link先を確認
Jonas Geiping, Liam Fowl, Gowthami Somepalli, Micah Goldblum, Michael Moeller, Tom Goldstein(参考訳) データ中毒は、悪意のあるアクターがトレーニングデータを改ざんして推論時に結果を操作する脅威モデルです。 この脅威モデルに対するさまざまな防御策が提案されているが、それぞれに少なくとも1つの欠陥がある: 適応攻撃によって容易に克服される、テスト性能が著しく低下する、あるいはさまざまなデータ中毒脅威モデルに一般化できない、など。 敵対的訓練とそのバリエーションは、現在、(推論時間)敵対的攻撃に対する唯一の実証的に強い防御と見なされています。 本研究は、敵の訓練枠組みを拡張し、代わりに(訓練時間)中毒やバックドア攻撃を防御する。 本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。 この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。

Data poisoning is a threat model in which a malicious actor tampers with training data to manipulate outcomes at inference time. A variety of defenses against this threat model have been proposed, but each suffers from at least one of the following flaws: they are easily overcome by adaptive attacks, they severely reduce testing performance, or they cannot generalize to diverse data poisoning threat models. Adversarial training, and its variants, is currently considered the only empirically strong defense against (inference-time) adversarial attacks. In this work, we extend the adversarial training framework to instead defend against (training-time) poisoning and backdoor attacks. Our method desensitizes networks to the effects of poisoning by creating poisons during training and injecting them into training batches. We show that this defense withstands adaptive attacks, generalizes to diverse threat models, and incurs a better performance trade-off than previous defenses.
翻訳日:2021-03-01 13:56:15 公開日:2021-02-26
# モデルベース強化学習におけるハイパーパラメータ最適化の重要性について

On the Importance of Hyperparameter Optimization for Model-based Reinforcement Learning ( http://arxiv.org/abs/2102.13651v1 )

ライセンス: Link先を確認
Baohe Zhang, Raghu Rajan, Luis Pineda, Nathan Lambert, Andr\'e Biedenkapp, Kurtland Chua, Frank Hutter, Roberto Calandra(参考訳) モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。 MBRLアルゴリズムは、別々の動的モデリングとその後の計画アルゴリズムのためにかなり複雑になり、結果として数十のハイパーパラメータとアーキテクチャ上の選択を持つことが多い。 このため、MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識を必要とします。 この問題を軽減するため,我々は自動ハイパーパラメータ最適化(hpo)を提案する。 我々は,この問題を自動化hpoによって効果的に解決できることを実証し,人間専門家に比べて大幅に性能が向上することを実証した。 さらに,複数のmbrlハイパーパラメータのチューニングが動的に行われることを示す。 トレーニング自体において、トレーニング全体のために固定された静的ハイパーパラメータを使用するよりも、パフォーマンスがさらに向上する。 最後に,我々の実験は,プランホライズンや学習率などの超パラメータの影響や,トレーニングの安定性や報酬に対する影響について,貴重な洞察を与えてくれる。

Model-based Reinforcement Learning (MBRL) is a promising framework for learning control in a data-efficient manner. MBRL algorithms can be fairly complex due to the separate dynamics modeling and the subsequent planning algorithm, and as a result, they often possess tens of hyperparameters and architectural choices. For this reason, MBRL typically requires significant human expertise before it can be applied to new problems and domains. To alleviate this problem, we propose to use automatic hyperparameter optimization (HPO). We demonstrate that this problem can be tackled effectively with automated HPO, which we demonstrate to yield significantly improved performance compared to human experts. In addition, we show that tuning of several MBRL hyperparameters dynamically, i.e. during the training itself, further improves the performance compared to using static hyperparameters which are kept fixed for the whole training. Finally, our experiments provide valuable insights into the effects of several hyperparameters, such as plan horizon or learning rate and their influence on the stability of training and resulting rewards.
翻訳日:2021-03-01 13:55:58 公開日:2021-02-26
# Moreau-Yosida $f$-divergences

Moreau-Yosida $f$-divergences ( http://arxiv.org/abs/2102.13416v1 )

ライセンス: Link先を確認
D\'avid Terj\'ek(参考訳) $f$-divergencesの変分表現は多くの機械学習アルゴリズムの中心であり、Lipschitzは近年注目されている。 Inspired by this, we generalize the so-called tight variational representation of $f$-divergences in the case of probability measures on compact metric spaces to be taken over the space of Lipschitz functions vanishing at an arbitrary base point, characterize functions achieving the supremum in the variational representation, propose a practical algorithm to calculate the tight convex conjugate of $f$-divergences compatible with automatic differentiation frameworks, define the Moreau-Yosida approximation of $f$-divergences with respect to the Wasserstein-$1$ metric, and derive the corresponding variational formulas, providing a generalization of a number of recent results, novel special cases of interest and a relaxation of the hard Lipschitz constraint. 理論結果の応用として,Moreau-Yosida $f$-GANを提案し,Kullback-Leibler, reverse Kullback-Leibler, $\chi^2$, reverse $\chi^2$, squared Hellinger, Jensen-Shannon, Jeffreys, Triangular discrimination, total variations divergences as GANs training on CIFAR-10, 競争結果と最適評論者の独創性の問題に対する簡単な解決法を提案する。

Variational representations of $f$-divergences are central to many machine learning algorithms, with Lipschitz constrained variants recently gaining attention. Inspired by this, we generalize the so-called tight variational representation of $f$-divergences in the case of probability measures on compact metric spaces to be taken over the space of Lipschitz functions vanishing at an arbitrary base point, characterize functions achieving the supremum in the variational representation, propose a practical algorithm to calculate the tight convex conjugate of $f$-divergences compatible with automatic differentiation frameworks, define the Moreau-Yosida approximation of $f$-divergences with respect to the Wasserstein-$1$ metric, and derive the corresponding variational formulas, providing a generalization of a number of recent results, novel special cases of interest and a relaxation of the hard Lipschitz constraint. As an application of our theoretical results, we propose the Moreau-Yosida $f$-GAN, providing an implementation of the variational formulas for the Kullback-Leibler, reverse Kullback-Leibler, $\chi^2$, reverse $\chi^2$, squared Hellinger, Jensen-Shannon, Jeffreys, triangular discrimination and total variation divergences as GANs trained on CIFAR-10, leading to competitive results and a simple solution to the problem of uniqueness of the optimal critic.
翻訳日:2021-03-01 13:55:43 公開日:2021-02-26
# docent: 大きなドキュメントコレクションから自己教師ありのエンティティ表現を学ぶ

DOCENT: Learning Self-Supervised Entity Representations from Large Document Collections ( http://arxiv.org/abs/2102.13247v1 )

ライセンス: Link先を確認
Yury Zemlyanskiy, Sudeep Gandhe, Ruining He, Bhargav Kanagal, Anirudh Ravula, Juraj Gottweis, Fei Sha and Ilya Eckstein(参考訳) 本稿では,大量のテキストからリッチな自己教師型エンティティ表現を学習する。 事前学習すると、これらのモデルは、ランク付けされた検索、知識ベース補完、質問応答など、複数のエンティティ中心のタスクに適用できる。 文内のローカルコンテキストのみに基づいて自己超越信号を抽出する他の方法とは異なり、コンテキストの概念を根本的に拡張し、エンティティに関連する任意のテキストを含める。 これにより、人間の監督なしに、複数のテキストソースからエンティティに関する有用な情報の多くを抽出できる、強力で高容量な表現の新たなクラスが可能になる。 我々は,従来のアプローチとは異なり,ユーザレビューからのMovieLensタグの予測や自然言語映画検索など,TV-Moviesドメインの下流タスクで実験的に比較した,単語やエンティティを共同で予測する戦略をいくつか提示する。 結果から証明されたように、私たちのモデルは、ほとんど、あるいは全く微調整せずに、競合ベースラインよりも優れており、非常に大きなコーパスにスケールできます。 最後に、データセットと事前トレーニング済みモデルを一般公開します。 これにはReviews2Movielens(https://goo.gle/research-docent 参照)、Amazonの映画レビュー(He and McAuley, 2016)の1BワードコーパスをMovieLensタグ(Harper and Konstan, 2016)にマッピングし、Reddit Movie Suggestions(https://urikz.github.io/docent 参照)を自然言語クエリと対応するコミュニティレコメンデーションでマッピングする。

This paper explores learning rich self-supervised entity representations from large amounts of the associated text. Once pre-trained, these models become applicable to multiple entity-centric tasks such as ranked retrieval, knowledge base completion, question answering, and more. Unlike other methods that harvest self-supervision signals based merely on a local context within a sentence, we radically expand the notion of context to include any available text related to an entity. This enables a new class of powerful, high-capacity representations that can ultimately distill much of the useful information about an entity from multiple text sources, without any human supervision. We present several training strategies that, unlike prior approaches, learn to jointly predict words and entities -- strategies we compare experimentally on downstream tasks in the TV-Movies domain, such as MovieLens tag prediction from user reviews and natural language movie search. As evidenced by results, our models match or outperform competitive baselines, sometimes with little or no fine-tuning, and can scale to very large corpora. Finally, we make our datasets and pre-trained models publicly available. This includes Reviews2Movielens (see https://goo.gle/research-docent ), mapping the up to 1B word corpus of Amazon movie reviews (He and McAuley, 2016) to MovieLens tags (Harper and Konstan, 2016), as well as Reddit Movie Suggestions (see https://urikz.github.io/docent ) with natural language queries and corresponding community recommendations.
翻訳日:2021-03-01 13:55:05 公開日:2021-02-26
# 語彙、非語彙、ターンテイク機能を用いた英語会話における性別と年齢のカテゴリの予測

Predicting gender and age categories in English conversations using lexical, non-lexical, and turn-taking features ( http://arxiv.org/abs/2102.13355v1 )

ライセンス: Link先を確認
Andreas Liesenfeld, G\'abor Parti, Yu-Yin Hsu, Chu-Ren Huang(参考訳) 本稿では,英英会話における性別と年齢のサリエンスと(ステレオ)典型性について検討し,語彙,フレーズ,ターンテイクの特徴に基づいて性別と年齢のカテゴリーを予測することを目的とした。 英英会話の約1億4400万語のコーパスであるspeakbncを調べ、性別と年齢のカテゴリーでラベル付けされた話者間の行動的差異を同定した。 言語使用とターンテイクのダイナミクスの違いについて検討し、カテゴリを分けたさまざまな特徴を同定する。 男性スピーカーのターンはタイプトークン比が高く、「eh」、「uh」、「em」などの最小粒子の明確な範囲が特徴である一方、女性スピーカーはますます長いターンを生成する傾向があります。 例えば、年齢層全体では、言葉を誓い、笑うことは若い話者の話しを特徴づけるが、古い話者はより散らかった言葉を生成する傾向がある。 次に,会話ごとの話者の性別や年齢を予測し,その特徴を分類タスクとして用いて,ダイアログデータから取り除かれた最小粒子のような非語彙的発話が,カテゴリの分類に寄与することを示す。

This paper examines gender and age salience and (stereo)typicality in British English talk with the aim to predict gender and age categories based on lexical, phrasal and turn-taking features. We examine the SpokenBNC, a corpus of around 11.4 million words of British English conversations and identify behavioural differences between speakers that are labelled for gender and age categories. We explore differences in language use and turn-taking dynamics and identify a range of characteristics that set the categories apart. We find that female speakers tend to produce more and slightly longer turns, while turns by male speakers feature a higher type-token ratio and a distinct range of minimal particles such as "eh", "uh" and "em". Across age groups, we observe, for instance, that swear words and laughter characterize young speakers' talk, while old speakers tend to produce more truncated words. We then use the observed characteristics to predict gender and age labels of speakers per conversation and per turn as a classification task, showing that non-lexical utterances such as minimal particles that are usually left out of dialog data can contribute to setting the categories apart.
翻訳日:2021-03-01 13:54:31 公開日:2021-02-26
# ギャンブルのコヒーレント集合の情報代数

Information algebras of coherent sets of gambles ( http://arxiv.org/abs/2102.13368v1 )

ライセンス: Link先を確認
Juerg Kohlas, Arianna Casanova, Marco Zaffalon(参考訳) 本稿では,情報代数学の代数構造にギャンブルのコヒーレントな集合を組み込むことができることを示す。 これは第一に、望ましくない代数的および論理的構造の新しい視点につながり、第二に、それは望ましくない、したがって不正確な確率を、同じ基礎構造を共有するコンピュータ科学の他の形式主義に接続する。 可能性空間の特別な場合を考慮して、ドメイン自由と、ギャンブルのコヒーレント集合の情報代数のラベル付きビューの両方を提示する。

In this paper, we show that coherent sets of gambles can be embedded into the algebraic structure of information algebra. This leads firstly, to a new perspective of the algebraic and logical structure of desirability and secondly, it connects desirability, hence imprecise probabilities, to other formalism in computer science sharing the same underlying structure. Both the domain free and the labeled view of the information algebra of coherent sets of gambles are presented, considering a special case of possibility space.
翻訳日:2021-03-01 13:53:48 公開日:2021-02-26
# ENIGMA-style Clause Selection Guidanceを改善する新しい手法

New Techniques that Improve ENIGMA-style Clause Selection Guidance ( http://arxiv.org/abs/2102.13564v1 )

ライセンス: Link先を確認
Martin Suda(参考訳) 飽和定理証明者における機械学習項選択指導の話題を再検討する。 最近ENIGMAシステムによって普及した中心的なアイデアは、以前に発見された証明に現れる節を認識するための分類器を学ぶことです。 その後の実行では、選択のためにポジティブに分類された節が優先される。 我々はこのアプローチのいくつかの改善を提案し,その妥当性を実験的に確認する。 実演では、帰納的ニューラルネットワークを用いて、その導出履歴と自動的に供給される理論公理の存在の有無に基づいて節を分類する。 ネットワークによって導かれる自動定理の証明器のヴァンパイアはリアルタイム評価のSMT-LIBの関連したサブセットの41%の改善を達成します。

We re-examine the topic of machine-learned clause selection guidance in saturation-based theorem provers. The central idea, recently popularized by the ENIGMA system, is to learn a classifier for recognizing clauses that appeared in previously discovered proofs. In subsequent runs, clauses classified positively are prioritized for selection. We propose several improvements to this approach and experimentally confirm their viability. For the demonstration, we use a Recursive Neural Network to classify clauses based on their derivation history and the presence or absence of automatically supplied theory axioms therein. The automatic theorem prover Vampire guided by the network achieves a 41% improvement on a relevant subset of SMT-LIB in a real time evaluation.
翻訳日:2021-03-01 13:53:38 公開日:2021-02-26
# 顔の経時的生成型adversarial network

Continuous Face Aging Generative Adversarial Networks ( http://arxiv.org/abs/2102.13318v1 )

ライセンス: Link先を確認
Seogkyu Jeon, Pilhyeon Lee, Kibeom Hong, Hyeran Byun(参考訳) 顔の老化は、入力画像の顔を指定された年齢に翻訳することを目的としたタスクです。 問題を単純化するため、以前の手法では、それぞれが10年からなる離散年齢群を生成できるのみに制限されていた。 その結果、翻訳結果の正確な年齢が不明であり、グループ内で異なる年齢の顔を得ることができない。 そこで本稿では,CFA-GAN (Continuous face aging generative adversarial Network) を提案する。 具体的には、連続老化を実現するため、画像特徴を2つの直交特徴:アイデンティティと年齢ベース特徴に分解することを提案する。 さらに,オリジナルと生成したアイデンティティ基底特徴のコサイン類似性を最大化する識別保存のための新しい損失関数を導入する。 MORPHの質的,定量的な評価により,本モデルが持つ現実的かつ連続的な老化能力を示し,既存モデルに対する優位性を検証した。 私たちの知る限りでは、この作業は継続的な目標年齢を扱う最初の試みです。

Face aging is the task aiming to translate the faces in input images to designated ages. To simplify the problem, previous methods have limited themselves only able to produce discrete age groups, each of which consists of ten years. Consequently, the exact ages of the translated results are unknown and it is unable to obtain the faces of different ages within groups. To this end, we propose the continuous face aging generative adversarial networks (CFA-GAN). Specifically, to make the continuous aging feasible, we propose to decompose image features into two orthogonal features: the identity and the age basis features. Moreover, we introduce the novel loss function for identity preservation which maximizes the cosine similarity between the original and the generated identity basis features. With the qualitative and quantitative evaluations on MORPH, we demonstrate the realistic and continuous aging ability of our model, validating its superiority against existing models. To the best of our knowledge, this work is the first attempt to handle continuous target ages.
翻訳日:2021-03-01 13:53:28 公開日:2021-02-26
# 顔認識のための自己監督学習のドメイン適応能力

Domain Adapting Ability of Self-Supervised Learning for Face Recognition ( http://arxiv.org/abs/2102.13319v1 )

ライセンス: Link先を確認
Chun-Hsien Lin and Bing-Fei Wu(参考訳) 深い畳み込みネットワークは顔認識タスクで優れたパフォーマンスを達成していますが、ドメインの相違の課題は現実世界のアプリケーションにまだ存在します。 トレーニングデータ(ソースドメイン)のドメインカバレッジの欠如は、テストシナリオ(ターゲットドメイン)で学習したモデルを退化させます。 顔認識タスクでは、2つのドメインのクラスは通常異なるので、ドメインに共有クラスが存在すると仮定する古典的なドメイン適応アプローチは、この問題に対する合理的な解決策ではないかもしれない。 本稿では,対象領域の被写体がより識別可能な埋め込み空間を学習するために,自己教師付き学習を採用する。 学習目標は、各画像とミラーの両方の領域への埋め込みの類似性を最大化することである。 実験は、以前の作品と比較してその競争力のある結果を示しています。 このようなパフォーマンスを達成できる理由を知るため、このアプローチが組込み学習にどのように影響するかをさらに議論する。

Although deep convolutional networks have achieved great performance in face recognition tasks, the challenge of domain discrepancy still exists in real world applications. Lack of domain coverage of training data (source domain) makes the learned models degenerate in a testing scenario (target domain). In face recognition tasks, classes in two domains are usually different, so classical domain adaptation approaches, assuming there are shared classes in domains, may not be reasonable solutions for this problem. In this paper, self-supervised learning is adopted to learn a better embedding space where the subjects in target domain are more distinguishable. The learning goal is maximizing the similarity between the embeddings of each image and its mirror in both domains. The experiments show its competitive results compared with prior works. To know the reason why it can achieve such performance, we further discuss how this approach affects the learning of embeddings.
翻訳日:2021-03-01 13:53:13 公開日:2021-02-26
# スタイルマッチングを用いた顔認識におけるドメインミスマッチの軽減

Mitigating Domain Mismatch in Face Recognition Using Style Matching ( http://arxiv.org/abs/2102.13327v1 )

ライセンス: Link先を確認
Chun-Hsien Lin and Bing-Fei Wu(参考訳) 公開ベンチマークでの優れたパフォーマンスにもかかわらず、顔認識はトレーニング(ソース)とテスト(ターゲット)データのドメインミスマッチによって依然として苦しむ。 さらに、これらのドメインは共有クラスではなく、ドメイン適応を複雑にする。 これはまた、低密度分離原理に厳密に従わないきめ細かい分類問題であるため、従来のドメイン適応アプローチはこれらの問題を解決しません。 本稿では,2つの手法を提案するスタイルミスマッチ問題として,顔認識におけるドメインミスマッチを定式化する。 まず,人間レベル判断を伴う領域判別器の設計を行い,訓練データに目標様画像をマイニングすることで,領域間隙を緩和する。 次に、バックボーンモデルの低レベル特徴マップからスタイル表現を抽出し、2つのドメインのスタイル分布をマッチングして共通のスタイル表現を求める。 検証とオープンセットおよびクローズドセット識別プロトコルの評価は、両方のメソッドが良好な改善をもたらし、組み合わせればパフォーマンスがより堅牢であることを示しています。 我々のアプローチは関連する作業と競合しており、その効果は実用的な応用で検証される。

Despite outstanding performance on public benchmarks, face recognition still suffers due to domain mismatch between training (source) and testing (target) data. Furthermore, these domains are not shared classes, which complicates domain adaptation. Since this is also a fine-grained classification problem which does not strictly follow the low-density separation principle, conventional domain adaptation approaches do not resolve these problems. In this paper, we formulate domain mismatch in face recognition as a style mismatch problem for which we propose two methods. First, we design a domain discriminator with human-level judgment to mine target-like images in the training data to mitigate the domain gap. Second, we extract style representations in low-level feature maps of the backbone model, and match the style distributions of the two domains to find a common style representation. Evaluations on verification and open-set and closed-set identification protocols show that both methods yield good improvements, and that performance is more robust if they are combined. Our approach is competitive with related work, and its effectiveness is verified in a practical application.
翻訳日:2021-03-01 13:52:58 公開日:2021-02-26
# Dual-MTGAN:画像間合成のための確率的・決定論的動き伝達

Dual-MTGAN: Stochastic and Deterministic Motion Transfer for Image-to-Video Synthesis ( http://arxiv.org/abs/2102.13329v1 )

ライセンス: Link先を確認
Fu-En Yang, Jing-Cheng Chang, Yuan-Hao Lee, Yu-Chiang Frank Wang(参考訳) コンテンツとモーションのバリエーションでビデオを生成することは、コンピュータビジョンで難しい作業です。 GANの最近の開発により、潜在表現から映像を生成することができるが、興味ある動きパターンの特定の内容の動画を制作するのは容易ではない。 本稿では,映像データと映像データを入力として利用し,コンテンツや動きの表現を学習するDual Motion Transfer GAN(Dual-MTGAN)を提案する。 我々のDual-MTGANは、決定論的モーショントランスファーと確率的モーションジェネレーションを実行することができる。 与えられた画像に基づいて、前者は入力内容を保存し、別のビデオシーケンスから観察されたモーションパターンを転送し、後者は入力画像に基づいて実行可能なが多様なモーションパターンを持つビデオを直接生成する。 提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。 定量的・定性的な結果から,このような条件付き映像対ビデオ課題に対するモデルの有効性と頑健性を確認した。

Generating videos with content and motion variations is a challenging task in computer vision. While the recent development of GAN allows video generation from latent representations, it is not easy to produce videos with particular content of motion patterns of interest. In this paper, we propose Dual Motion Transfer GAN (Dual-MTGAN), which takes image and video data as inputs while learning disentangled content and motion representations. Our Dual-MTGAN is able to perform deterministic motion transfer and stochastic motion generation. Based on a given image, the former preserves the input content and transfers motion patterns observed from another video sequence, and the latter directly produces videos with plausible yet diverse motion patterns based on the input image. The proposed model is trained in an end-to-end manner, without the need to utilize pre-defined motion features like pose or facial landmarks. Our quantitative and qualitative results would confirm the effectiveness and robustness of our model in addressing such conditioned image-to-video tasks.
翻訳日:2021-03-01 13:52:41 公開日:2021-02-26
# リレーショナル推論によるクロスモダリティマッピングのユニバーサルモデル

A Universal Model for Cross Modality Mapping by Relational Reasoning ( http://arxiv.org/abs/2102.13360v1 )

ライセンス: Link先を確認
Zun Li, Congyan Lang, Liqian Liang, Tao Wang, Songhe Feng, Jun Wu, and Yidong Li(参考訳) 2つの異なるモダリティから2つのインスタンスをマッチングすることを目的に、クロスモダリティマッピングはコンピュータビジョンコミュニティで注目を集めています。 既存のメソッドは通常、共通空間に埋め込まれたインスタンス機能のペア間の類似度尺度としてマッピング関数を定式化する。 しかし、我々は、単一のモダリティ(イントラリレーション)内のインスタンスと2つの異種インスタンス(インターリレーション)の間のインスタンス間の関係は、以前のアプローチでは不十分に検討されていることを観察する。 そこで我々は,グラフモデリングによる関係推論でマッピング関数を再定義し,また,相互関係を効率的に計算し,相互関係を普遍的に解決するGCNベースの関係推論ネットワーク(RR-Net)を提案する。 具体的には、まずイントラグラフとインターグラフという2種類のグラフを構築し、それぞれにイントラリレーションと相互関係をモデル化する。 その後、RR-Netはすべてのノード機能とエッジ機能を反復的に更新し、イントラリレーションとインターリレーションを同時に学習します。 最後にrr-netは、複数の異種インスタンスをリンクしてマッピング結果を推定するエッジ上の確率を出力する。 画像分類,ソーシャルレコメンデーション,および音声認識の3つの課題に対する広範囲な実験により,提案モデルの優越性と普遍性を明らかにした。

With the aim of matching a pair of instances from two different modalities, cross modality mapping has attracted growing attention in the computer vision community. Existing methods usually formulate the mapping function as the similarity measure between the pair of instance features, which are embedded to a common space. However, we observe that the relationships among the instances within a single modality (intra relations) and those between the pair of heterogeneous instances (inter relations) are insufficiently explored in previous approaches. Motivated by this, we redefine the mapping function with relational reasoning via graph modeling, and further propose a GCN-based Relational Reasoning Network (RR-Net) in which inter and intra relations are efficiently computed to universally resolve the cross modality mapping problem. Concretely, we first construct two kinds of graph, i.e., Intra Graph and Inter Graph, to respectively model intra relations and inter relations. Then RR-Net updates all the node features and edge features in an iterative manner for learning intra and inter relations simultaneously. Last, RR-Net outputs the probabilities over the edges which link a pair of heterogeneous instances to estimate the mapping results. Extensive experiments on three example tasks, i.e., image classification, social recommendation and sound recognition, clearly demonstrate the superiority and universality of our proposed model.
翻訳日:2021-03-01 13:52:22 公開日:2021-02-26
# ACDnet:フロー誘導特徴近似とメモリ集約に基づくリアルタイムエッジコンピューティングのための行動検出ネットワーク

ACDnet: An action detection network for real-time edge computing based on flow-guided feature approximation and memory aggregation ( http://arxiv.org/abs/2102.13493v1 )

ライセンス: Link先を確認
Yu Liu, Fan Yang and Dominique Ginhac(参考訳) 人間の行動を解釈するには、シーンの空間的および時間的コンテキストを理解する必要があります。 Convolutional Neural Network(CNN)に基づく最先端のアクションディテクタは、2流または3次元CNNアーキテクチャを採用することで顕著な成果を発揮しました。 しかしながら、これらの手法は通常、時空間情報を推論するシステムの複雑さのため、非リアルタイムの正ライン方式で機能する。 その結果、高い計算コストは、リソース制限のあるエッジデバイスで検出を行う必要があるサービスロボットや公共監視などの新興の現実世界のシナリオには適用されません。 本稿では,効率性と精度を両立したリアルタイムエッジコンピューティングをターゲットとしたコンパクトアクション検出ネットワークACDnetを提案する。 連続したビデオフレーム間の時間的コヒーレンスをインテリジェントに活用してCNNの機能を素朴に抽出するのではなく近似する。 また、過去のビデオフレームからのメモリ機能集約を統合して、現在の検出安定性を高め、時間とともに長い時間的手がかりを暗黙的にモデル化する。 パブリックベンチマークデータセット UCF-24 と JHMDB-21 で実施された実験は、SSD検出器と統合された ACDnet がリアルタイム(75 FPS)よりはるかに高い精度で検出できることを示した。 同時に70.92と49.53フレームのmAPの精度は、非常に重い構成を用いる他のトップパフォーマンス手法と比べても高い。 コードはhttps://github.com/dginhac/ACDnetで入手できる。

Interpreting human actions requires understanding the spatial and temporal context of the scenes. State-of-the-art action detectors based on Convolutional Neural Network (CNN) have demonstrated remarkable results by adopting two-stream or 3D CNN architectures. However, these methods typically operate in a non-real-time, ofline fashion due to system complexity to reason spatio-temporal information. Consequently, their high computational cost is not compliant with emerging real-world scenarios such as service robots or public surveillance where detection needs to take place at resource-limited edge devices. In this paper, we propose ACDnet, a compact action detection network targeting real-time edge computing which addresses both efficiency and accuracy. It intelligently exploits the temporal coherence between successive video frames to approximate their CNN features rather than naively extracting them. It also integrates memory feature aggregation from past video frames to enhance current detection stability, implicitly modeling long temporal cues over time. Experiments conducted on the public benchmark datasets UCF-24 and JHMDB-21 demonstrate that ACDnet, when integrated with the SSD detector, can robustly achieve detection well above real-time (75 FPS). At the same time, it retains reasonable accuracy (70.92 and 49.53 frame mAP) compared to other top-performing methods using far heavier configurations. Codes will be available at https://github.com/dginhac/ACDnet.
翻訳日:2021-03-01 13:51:57 公開日:2021-02-26
# 堅牢な放射線治療計画セグメント化のためのネストブロック自己アテンション

Nested-block self-attention for robust radiotherapy planning segmentation ( http://arxiv.org/abs/2102.13541v1 )

ライセンス: Link先を確認
Harini Veeraraghavan, Jue Jiang, Sharif Elguindi, Sean L. Berry, Ifeanyirochukwu Onochie, Aditya Apte, Laura Cervino, Joseph O. Deasy(参考訳) 頭頸部(HN)臓器のセグメンテーション(OAR)に対する深層畳み込みネットワークの研究は盛んに行われているが, 画像アーチファクトに対する堅牢性の欠如, CT上の軟組織コントラストの低下, 異常解剖の存在など, 定期的な臨床治療計画のための利用は限られている。 これらの課題を解決するために,任意の畳み込みネットワークと組み合わせることができる計算効率の高いネストブロック自己アテンション(NBSA)法を開発した。 固定空間領域のメモリブロック内で非局所計算を行うことで,計算効率を実現する。 コンテキスト依存は、双方向の注意の流れを引き起こす第2の注意層を通じて、ブロック間でラスタースキャン順序で情報を渡すことでキャプチャされる。 実現可能性を示すために,3つの異なるネットワークにアプローチを実装した。 200例のトレーニングの後、外部および内部機関のデータセットから得られた172個のテストスキャンを除外基準なしで、従来の測定値と臨床指標を使用して包括的な評価を実施しました。 NBSAは、最も効率的なCCA(criss-cross attention)法として同様の数の計算(15.7 gflops)を必要とし、脳幹(0.89対0.86)および耳下腺(0.86対0.84)に対して、CCAよりも著しく正確な分割を生成する。 NBSAのセグメンテーションは, 下顎下腺などの軟らかいコントラストの低い小臓器(表面ジス0.90)を含む, 複数の3D法に比べて変化が少なかった。

Although deep convolutional networks have been widely studied for head and neck (HN) organs at risk (OAR) segmentation, their use for routine clinical treatment planning is limited by a lack of robustness to imaging artifacts, low soft tissue contrast on CT, and the presence of abnormal anatomy. In order to address these challenges, we developed a computationally efficient nested block self-attention (NBSA) method that can be combined with any convolutional network. Our method achieves computational efficiency by performing non-local calculations within memory blocks of fixed spatial extent. Contextual dependencies are captured by passing information in a raster scan order between blocks, as well as through a second attention layer that causes bi-directional attention flow. We implemented our approach on three different networks to demonstrate feasibility. Following training using 200 cases, we performed comprehensive evaluations using conventional and clinical metrics on a separate set of 172 test scans sourced from external and internal institution datasets without any exclusion criteria. NBSA required a similar number of computations (15.7 gflops) as the most efficient criss-cross attention (CCA) method and generated significantly more accurate segmentations for brain stem (Dice of 0.89 vs. 0.86) and parotid glands (0.86 vs. 0.84) than CCA. NBSA's segmentations were less variable than multiple 3D methods, including for small organs with low soft-tissue contrast such as the submandibular glands (surface Dice of 0.90).
翻訳日:2021-03-01 13:51:36 公開日:2021-02-26
# 手術用視覚領域適応:MICCAI 2020 SurgVisDom Challengeの結果

Surgical Visual Domain Adaptation: Results from the MICCAI 2020 SurgVisDom Challenge ( http://arxiv.org/abs/2102.13644v1 )

ライセンス: Link先を確認
Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Ziheng Wang, Satoshi Kondo, Emanuele Colleoni, Beatrice van Amsterdam, Razeen Hussain, Raabid Hussain, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, and Anthony Jarc(参考訳) 外科データサイエンスは、コンテキスト認識アプリケーションを有効にすることで、最小限の侵襲手術に革命を起こしています。 しかし、コンテキスト認識モデルを開発するために必要な外科的データ(および健康データ)には多くの課題があります。 この研究は、医療画像コンピューティングとコンピュータ支援介入(MICCAI)2020カンファレンスでの内視鏡ビジョン(EndoVis)チャレンジの一環として発表され、データプライバシーの懸念を克服するために手術における視覚領域適応の可能性を模索しています。 特に,バーチャルリアリティ(vr)シミュレーションによるロボット支援手術における手術訓練の映像を活用し,臨床的な作業認識のためのアルゴリズムを開発することを提案する。 課題参加者によって開発された視覚的ドメイン適応を解決するためのさまざまなアプローチのパフォーマンスを紹介します。 提案したモデルでは,VRデータだけでは意味のある動作に基づく特徴を学習できなかったが,少量の臨床的データも利用可能になった場合,有意に改善した。 これらの結果をもとに,手術データ科学における視覚領域適応の課題について,有望な手法とさらなる取り組みを検討する。 また、チャレンジデータセットをhttps://www.synapse.org/surgvisdom2020で公開しています。

Surgical data science is revolutionizing minimally invasive surgery by enabling context-aware applications. However, many challenges exist around surgical data (and health data, more generally) needed to develop context-aware models. This work - presented as part of the Endoscopic Vision (EndoVis) challenge at the Medical Image Computing and Computer Assisted Intervention (MICCAI) 2020 conference - seeks to explore the potential for visual domain adaptation in surgery to overcome data privacy concerns. In particular, we propose to use video from virtual reality (VR) simulations of surgical exercises in robotic-assisted surgery to develop algorithms to recognize tasks in a clinical-like setting. We present the performance of the different approaches to solve visual domain adaptation developed by challenge participants. Our analysis shows that the presented models were unable to learn meaningful motion based features form VR data alone, but did significantly better when small amount of clinical-like data was also made available. Based on these results, we discuss promising methods and further work to address the problem of visual domain adaptation in surgical data science. We also release the challenge dataset publicly at https://www.synapse.org/surgvisdom2020.
翻訳日:2021-03-01 13:51:07 公開日:2021-02-26
# HCI+NLPシステムの設計と評価方法

Methods for the Design and Evaluation of HCI+NLP Systems ( http://arxiv.org/abs/2102.13461v1 )

ライセンス: Link先を確認
Hendrik Heuer, Daniel Buschek(参考訳) HCIとNLPは伝統的に異なる評価方法に焦点を当てている。 HCIは少数の人々を直接深く巻き込むが、NLPは伝統的に標準化されたベンチマーク評価に頼っている。 HCIとNLPの交差点で5つの方法論提案を行い、MLベースのNLPモデルという文脈で提示する。 私たちの目標は、それぞれの分野が互いに学べることを強調し、学際的な協力と両分野の進歩を促進することです。

HCI and NLP traditionally focus on different evaluation methods. While HCI involves a small number of people directly and deeply, NLP traditionally relies on standardized benchmark evaluations that involve a larger number of people indirectly. We present five methodological proposals at the intersection of HCI and NLP and situate them in the context of ML-based NLP models. Our goal is to foster interdisciplinary collaboration and progress in both fields by emphasizing what the fields can learn from each other.
翻訳日:2021-03-01 13:50:47 公開日:2021-02-26
# アイデンティティ初期化を用いたディープニューラルネットワークの層幅解釈

Layer-Wise Interpretation of Deep Neural Networks Using Identity Initialization ( http://arxiv.org/abs/2102.13333v1 )

ライセンス: Link先を確認
Shohei Kubota, Hideaki Hayashi, Tomohiro Hayase, Seiichi Uchida(参考訳) ニューラルネットワーク(NNs)の解釈可能性は、機械学習を用いた意思決定プロセスにおける透明性にとって困難だが不可欠なトピックである。 解釈可能性の欠如の理由の1つは、入力が各層内の異なる特徴空間にランダムに埋め込まれるランダムウェイト初期化である。 本稿では,アイデンティティ初期化(すなわちアイデンティティ行列を用いた初期化)に基づくNNのもっとも一般的なアーキテクチャである深層層パーセプトロンの解釈手法を提案する。 提案手法では,各隠れ層における分類と分類可能性に対する各ニューロンの寄与度を解析できる。 同一性初期化パーセプトロンの性質として、重み行列は学習後も同一性行列の近くに残される。 この特性により、各隠れ層への入力から特徴の変化を分類への寄与として扱うことができる。 さらに,クラス数に応じて各層に余分な次元を付加することにより,各層における認識精度の計算を可能にし,特徴抽出や分類などの独立したレイヤの役割を明らかにすることにより,各隠蔽層の出力を,分類やクラス可能性への寄与を示すコントリビューションマップに分割することができる。

The interpretability of neural networks (NNs) is a challenging but essential topic for transparency in the decision-making process using machine learning. One of the reasons for the lack of interpretability is random weight initialization, where the input is randomly embedded into a different feature space in each layer. In this paper, we propose an interpretation method for a deep multilayer perceptron, which is the most general architecture of NNs, based on identity initialization (namely, initialization using identity matrices). The proposed method allows us to analyze the contribution of each neuron to classification and class likelihood in each hidden layer. As a property of the identity-initialized perceptron, the weight matrices remain near the identity matrices even after learning. This property enables us to treat the change of features from the input to each hidden layer as the contribution to classification. Furthermore, we can separate the output of each hidden layer into a contribution map that depicts the contribution to classification and class likelihood, by adding extra dimensions to each layer according to the number of classes, thereby allowing the calculation of the recognition accuracy in each layer and thus revealing the roles of independent layers, such as feature extraction and classification.
翻訳日:2021-03-01 13:49:14 公開日:2021-02-26
# 多重カーネル学習のニューラル一般化

Neural Generalization of Multiple Kernel Learning ( http://arxiv.org/abs/2102.13337v1 )

ライセンス: Link先を確認
Ahamad Navid Ghanizadeh, Kamaledin Ghiasi-Shirazi, Reza Monsefi, Mohammadreza Qaraei(参考訳) マルチカーネル学習は、カーネルベースの手法でカーネル関数を学習する従来の方法である。 MKLアルゴリズムはカーネルメソッドの性能を向上させる。 しかし、これらの手法はディープラーニングモデルに比べて複雑さが低く、認識精度の点でこれらのモデルに劣る。 ディープラーニングモデルは、複数の層を通してデータに非線形変換を適用することで、複雑な関数を学習することができる。 本稿では,典型的なMKLアルゴリズムを線形活性化関数を持つ一層ニューラルネットワークとして解釈できることを示す。 本稿では,従来のマルチカーネル学習フレームワークを非線形アクティベーション関数を持つ多層ニューラルネットワークに拡張した,マルチカーネル学習(ngmkl)のニューラルネットワーク一般化を提案する。 本研究では,本手法がMKLアルゴリズムの複雑性を改善し,認識精度を高めることを示した。

Multiple Kernel Learning is a conventional way to learn the kernel function in kernel-based methods. MKL algorithms enhance the performance of kernel methods. However, these methods have a lower complexity compared to deep learning models and are inferior to these models in terms of recognition accuracy. Deep learning models can learn complex functions by applying nonlinear transformations to data through several layers. In this paper, we show that a typical MKL algorithm can be interpreted as a one-layer neural network with linear activation functions. By this interpretation, we propose a Neural Generalization of Multiple Kernel Learning (NGMKL), which extends the conventional multiple kernel learning framework to a multi-layer neural network with nonlinear activation functions. Our experiments on several benchmarks show that the proposed method improves the complexity of MKL algorithms and leads to higher recognition accuracy.
翻訳日:2021-03-01 13:48:55 公開日:2021-02-26
# 地域差分プライバシーとガウス混合モデルを用いた私的および実用的推奨

Private and Utility Enhanced Recommendations with Local Differential Privacy and Gaussian Mixture Model ( http://arxiv.org/abs/2102.13453v1 )

ライセンス: Link先を確認
Jeyamohan Neera, Xiaomin Chen, Nauman Aslam, Kezhi Wang and Zhan Shu(参考訳) 推奨システムは、ユーザーの行動および優遇データ(例えば)に大きく依存する。 正確な推薦を作り出す評価、好み)。 しかしながら、サービスプロバイダ(sp)が実施する非倫理的なデータ集約と分析プラクティスによって、ユーザはプライバシ上の懸念を経験する。 ローカル差動プライバシー(LDP)ベースの摂動メカニズムは、SPに送信する前にユーザー側のユーザーデータにノイズを追加します。 SPは摂動データを使用してレコメンデーションを行います。 LDPはユーザーのプライバシーをSPから保護しますが、予測精度が大幅に低下します。 この問題に対処するために,ガウス混合モデル (MoG) を用いた LDP ベースの行列分解法 (MF) を提案する。 LDP摂動機構であるBounded Laplace(BLP)は、摂動レーティングを所定の領域に収束させることでノイズの効果を制御する。 我々は、BLPが$\epsilon$ LDPを満たすのに十分なスケールパラメータの条件を導出する。 SPでは、MoGモデルは摂動レーティングに追加されるノイズを推定し、MFアルゴリズムは欠落レーティングを予測する。 提案手法は, LDPの原則に違反することなく, 推薦精度を向上する。 実世界の3つのデータセット、すなわちMovielens, Libimseti, Jesterで実施した経験的評価は, 強いプライバシー保証の下で予測精度を大幅に向上させることを示した。

Recommendation systems rely heavily on users behavioural and preferential data (e.g. ratings, likes) to produce accurate recommendations. However, users experience privacy concerns due to unethical data aggregation and analytical practices carried out by the Service Providers (SP). Local differential privacy (LDP) based perturbation mechanisms add noise to users data at user side before sending it to the SP. The SP then uses the perturbed data to perform recommendations. Although LDP protects the privacy of users from SP, it causes a substantial decline in predictive accuracy. To address this issue, we propose an LDP-based Matrix Factorization (MF) with a Gaussian Mixture Model (MoG). The LDP perturbation mechanism, Bounded Laplace (BLP), regulates the effect of noise by confining the perturbed ratings to a predetermined domain. We derive a sufficient condition of the scale parameter for BLP to satisfy $\epsilon$ LDP. At the SP, The MoG model estimates the noise added to perturbed ratings and the MF algorithm predicts missing ratings. Our proposed LDP based recommendation system improves the recommendation accuracy without violating LDP principles. The empirical evaluations carried out on three real world datasets, i.e., Movielens, Libimseti and Jester, demonstrate that our method offers a substantial increase in predictive accuracy under strong privacy guarantee.
翻訳日:2021-03-01 13:48:42 公開日:2021-02-26
# 低精度強化学習

Low-Precision Reinforcement Learning ( http://arxiv.org/abs/2102.13565v1 )

ライセンス: Link先を確認
Johan Bjorck, Xiangyu Chen, Christopher De Sa, Carla P. Gomes, Kilian Q. Weinberger(参考訳) 教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。 対照的に、この有望なアプローチは強化学習(RL)コミュニティ内でも同様に広く採用されているわけではない。 本稿では,最先端のsacエージェントとの連続制御について検討し,教師付き学習による低精度手法のna\"ive適応が失敗することを実証する。 提案する6つの修正は, すべて実装が容易であり, 基礎となるエージェントを変更せず, 数値安定性を劇的に向上させる。 得られた修正されたSACエージェントは、フル精度の報酬を一致させながら、低メモリおよび計算要件を有し、低精度RLの実現性を示す。

Low-precision training has become a popular approach to reduce computation time, memory footprint, and energy consumption in supervised learning. In contrast, this promising approach has not enjoyed similarly widespread adoption within the reinforcement learning (RL) community, in part because RL agents can be notoriously hard to train -- even in full precision. In this paper we consider continuous control with the state-of-the-art SAC agent and demonstrate that a na\"ive adaptation of low-precision methods from supervised learning fails. We propose a set of six modifications, all straightforward to implement, that leaves the underlying agent unchanged but improves its numerical stability dramatically. The resulting modified SAC agent has lower memory and compute requirements while matching full-precision rewards, thus demonstrating the feasibility of low-precision RL.
翻訳日:2021-03-01 13:48:21 公開日:2021-02-26
# 分類特徴の能動的選択

Active Selection of Classification Features ( http://arxiv.org/abs/2102.13636v1 )

ライセンス: Link先を確認
Thomas T. Kok and Rachel M. Brouwer and Rene M. Mandl and Hugo G. Schnack and Georg Krempl(参考訳) 一部のデータ分析アプリケーションは、説明変数が高価または退屈なデータセットで構成されているが、補助データは容易に利用可能であり、洞察に富んだトレーニングセットを構築するのに役立つ。 例えば、精神疾患に関する神経画像研究、特に高価なmri(mri)スキャンから派生した変数に基づいて診断・予後モデルを学ぶことは、しばしば大きなサンプルサイズを必要とする。 人口統計などの補助的データは、最も有益なMRIスキャンを持つ個人を含む小さなサンプルを選択するのに役立ちます。 アクティブな学習文献では、インスタンスまたはインスタンス機能ペアの選択に関する関連する問題設定で有望な結果にもかかわらず、この問題はまだ研究されていません。 したがって、我々は、分類特徴のアクティブ選択(ASCF)のこの補完的な問題を定式化する: モデルf: x-> yを学習する必要がある主要なタスクを与えられたとき、変数xの高価な集合とクラスラベルyの関係を説明/予測する。 そして、ASCFタスクは、これらのインスタンスを選択するために、容易に利用可能な選択変数zのセットを使用することで、高価な機能zを取得し、プライマリトレーニングセットにそれらを含めると、プライマリタスクのパフォーマンスを最も向上させる。 本研究では,2つの実用的手法を提案し,その性能を3つの実世界のベンチマークデータセットで評価する。 さらに,本研究では,mriデータを用いたシミュレーション実験に基づいて,精神疾患の脳画像研究の文脈において,mriスキャンを効率的に取得する手法について述べる。

Some data analysis applications comprise datasets, where explanatory variables are expensive or tedious to acquire, but auxiliary data are readily available and might help to construct an insightful training set. An example is neuroimaging research on mental disorders, specifically learning a diagnosis/prognosis model based on variables derived from expensive Magnetic Resonance Imaging (MRI) scans, which often requires large sample sizes. Auxiliary data, such as demographics, might help in selecting a smaller sample that comprises the individuals with the most informative MRI scans. In active learning literature, this problem has not yet been studied, despite promising results in related problem settings that concern the selection of instances or instance-feature pairs. Therefore, we formulate this complementary problem of Active Selection of Classification Features (ASCF): Given a primary task, which requires to learn a model f: x-> y to explain/predict the relationship between an expensive-to-acquire set of variables x and a class label y. Then, the ASCF-task is to use a set of readily available selection variables z to select these instances, that will improve the primary task's performance most when acquiring their expensive features z and including them to the primary training set. We propose two utility-based approaches for this problem, and evaluate their performance on three public real-world benchmark datasets. In addition, we illustrate the use of these approaches to efficiently acquire MRI scans in the context of neuroimaging research on mental disorders, based on a simulated study design with real MRI data.
翻訳日:2021-03-01 13:48:06 公開日:2021-02-26
# MPCとDDPGに基づくマルチエージェントパス計画

Multi-Agent Path Planning based on MPC and DDPG ( http://arxiv.org/abs/2102.13283v1 )

ライセンス: Link先を確認
Junxiao Xue and Xiangyan Kong and Bowei Dong and Mingliang Xu(参考訳) 混合静的および動的障害物回避の問題は、非常にダイナミックな環境での経路計画に不可欠です。 しかし、グリッドエッジによって形成される経路は、その方向が人工的に制約されているため、地形における真の最短経路よりも長い可能性がある。 既存の方法は動的障害にほとんど対処できません。 そこで本研究では,モデル予測制御(MPC)とDeep Deterministic Policy Gradient(DDPG)を組み合わせた新たなアルゴリズムを提案する。 まず, 動的障害物の軌跡予測に MPC アルゴリズムを適用した。 第二に、連続的なアクション空間を備えたDDPGは、ロボットの学習と自律的な意思決定機能を提供するように設計されている。 最後に、報酬関数を設定し、収束速度と精度を向上させる人工ポテンシャル場の概念を導入する。 航空母艦デッキや四角形などの不確定な環境でのシミュレーション実験にunity 3dを用いる。 その結果,本手法は,DQN(Deep Q Network)と比較して100単位,400〜450度削減することで,他の手法に比べて精度が7%~30%向上し,経路の長さと回転角が大幅に向上した。

The problem of mixed static and dynamic obstacle avoidance is essential for path planning in highly dynamic environment. However, the paths formed by grid edges can be longer than the true shortest paths in the terrain since their headings are artificially constrained. Existing methods can hardly deal with dynamic obstacles. To address this problem, we propose a new algorithm combining Model Predictive Control (MPC) with Deep Deterministic Policy Gradient (DDPG). Firstly, we apply the MPC algorithm to predict the trajectory of dynamic obstacles. Secondly, the DDPG with continuous action space is designed to provide learning and autonomous decision-making capability for robots. Finally, we introduce the idea of the Artificial Potential Field to set the reward function to improve convergence speed and accuracy. We employ Unity 3D to perform simulation experiments in highly uncertain environment such as aircraft carrier decks and squares. The results show that our method has made great improvement on accuracy by 7%-30% compared with the other methods, and on the length of the path and turning angle by reducing 100 units and 400-450 degrees compared with DQN (Deep Q Network), respectively.
翻訳日:2021-03-01 13:47:19 公開日:2021-02-26
# ロバストファインチューニングによるリモートセンシング画像検索と分類

Unifying Remote Sensing Image Retrieval and Classification with Robust Fine-tuning ( http://arxiv.org/abs/2102.13392v1 )

ライセンス: Link先を確認
Dimitri Gominski, Val\'erie Gouet-Brunet, Liming Chen(参考訳) 高分解能リモートセンシング画像解析の進歩は、ディープラーニングメソッドをトレーニングするための十分な注釈付きデータを収集することが困難であるため、さまざまな小さなデータセットと関連するデータセット固有の方法が発生します。 さらに、分類や検索といった典型的なタスクは、標準ベンチマークやトレーニングデータセットの体系的な評価を欠いているため、堅牢で一般化可能な科学的貢献の特定が困難である。 本研究では,縦型と斜型の両方の空中画像を含む,新しい大規模トレーニングおよびテストデータセットsf300を用いて,リモートセンシング画像検索と分類を統合することを目的とした。 また、グローバルディスクリプタの新たな対向微調整手法を提案します。 本フレームワークは,imagenetで事前学習されたベースラインと比較して,9つのデータセットにおける検索と分類のパフォーマンス向上を体系的に達成していることを示す。

Advances in high resolution remote sensing image analysis are currently hampered by the difficulty of gathering enough annotated data for training deep learning methods, giving rise to a variety of small datasets and associated dataset-specific methods. Moreover, typical tasks such as classification and retrieval lack a systematic evaluation on standard benchmarks and training datasets, which make it hard to identify durable and generalizable scientific contributions. We aim at unifying remote sensing image retrieval and classification with a new large-scale training and testing dataset, SF300, including both vertical and oblique aerial images and made available to the research community, and an associated fine-tuning method. We additionally propose a new adversarial fine-tuning method for global descriptors. We show that our framework systematically achieves a boost of retrieval and classification performance on nine different datasets compared to an ImageNet pretrained baseline, with currently no other method to compare to.
翻訳日:2021-03-01 13:46:46 公開日:2021-02-26
# テクスチャアウェアビデオフレーム補間

Texture-aware Video Frame Interpolation ( http://arxiv.org/abs/2102.13520v1 )

ライセンス: Link先を確認
Duolikun Danier and David Bull(参考訳) 時間的補間は、ビデオ圧縮の強力なツールになる可能性がある。 既存のフレーム補間法では,映像テクスチャの識別は行われず,広い範囲の映像コンテンツを補間できる単一汎用モデルが一般的に用いられる。 しかし, 映像テクスチャ解析と合成に関する過去の研究は, 異なるテクスチャが全く異なる動作特性を示し, 3つのクラス(静的, 動的連続, 動的離散)に分けられることを示した。 本研究では,映像テクスチャーが映像フレーム補間に与える影響について検討し,補間アルゴリズムを付与し,異なるテクスチャーに対して別々のモデルを訓練する新しい枠組みを提案する。 本研究は,映像テクスチャがフレーム補間モデルの性能に有意な影響を与えていることを示し,汎用的な動作を学習する単一モデルを訓練する代わりに,これらのテクスチャクラスに特化して個別のモデルを持つことが有用である。 実験結果から,本フレームワークを用いて微調整したモデルでは,PSNRが平均0.3dB向上することがわかった。

Temporal interpolation has the potential to be a powerful tool for video compression. Existing methods for frame interpolation do not discriminate between video textures and generally invoke a single general model capable of interpolating a wide range of video content. However, past work on video texture analysis and synthesis has shown that different textures exhibit vastly different motion characteristics and they can be divided into three classes (static, dynamic continuous and dynamic discrete). In this work, we study the impact of video textures on video frame interpolation, and propose a novel framework where, given an interpolation algorithm, separate models are trained on different textures. Our study shows that video texture has significant impact on the performance of frame interpolation models and it is beneficial to have separate models specifically adapted to these texture classes, instead of training a single model that tries to learn generic motion. Our results demonstrate that models fine-tuned using our framework achieve, on average, a 0.3dB gain in PSNR on the test set used.
翻訳日:2021-03-01 13:46:31 公開日:2021-02-26
# 次に行くべき場所:歩行者間のナビゲーションのためのサブゴールレコメンデーションポリシーを学ぶ

Where to go next: Learning a Subgoal Recommendation Policy for Navigation Among Pedestrians ( http://arxiv.org/abs/2102.13073v2 )

ライセンス: Link先を確認
Bruno Brito and Michael Everett and Jonathan P. How and Javier Alonso-Mora(参考訳) 他のロボットや人間と共有された環境でのロボットナビゲーションは、周囲のエージェントの意図を直接観察できず、環境条件が絶えず変化しているため、挑戦的です。 モデル予測制御(mpc)のような局所軌道最適化手法は、これらの変更に対処することができるが、混み合ったシナリオでは簡単には得られないグローバルガイダンスを必要とする。 本稿では,地域プランナーに長期指導を提供するインタラクション対応政策であるDeep Reinforcement Learning (RL) を通じて学習することを提案する。 特に,協調エージェントと非協力エージェントとのシミュレーションでは,深層ネットワークを訓練し,mpcプランナーのサブゴールを推薦する。 推奨のサブゴールは、ロボットが目標に向かって前進するのに役立ち、他のエージェントとの相互作用が期待されている。 推奨サブゴールに基づいて、MPCプランナーは、そのキノダイナミックおよび衝突回避制約を満たすロボットの入力を最適化します。 本手法は,従来のMPCフレームワークと比較して衝突回数,および協調的,競争的,混合的マルチエージェントシナリオにおける深部RL法と比較して,走行時間および衝突回数の両面において,ナビゲーション性能を大幅に向上させることが示された。

Robotic navigation in environments shared with other robots or humans remains challenging because the intentions of the surrounding agents are not directly observable and the environment conditions are continuously changing. Local trajectory optimization methods, such as model predictive control (MPC), can deal with those changes but require global guidance, which is not trivial to obtain in crowded scenarios. This paper proposes to learn, via deep Reinforcement Learning (RL), an interaction-aware policy that provides long-term guidance to the local planner. In particular, in simulations with cooperative and non-cooperative agents, we train a deep network to recommend a subgoal for the MPC planner. The recommended subgoal is expected to help the robot in making progress towards its goal and accounts for the expected interaction with other agents. Based on the recommended subgoal, the MPC planner then optimizes the inputs for the robot satisfying its kinodynamic and collision avoidance constraints. Our approach is shown to substantially improve the navigation performance in terms of number of collisions as compared to prior MPC frameworks, and in terms of both travel time and number of collisions compared to deep RL methods in cooperative, competitive and mixed multiagent scenarios.
翻訳日:2021-03-01 13:46:12 公開日:2021-02-26
# 一般化変分不等式に対する外挿を伴う高速巡回座標双対平均化

Fast Cyclic Coordinate Dual Averaging with Extrapolation for Generalized Variational Inequalities ( http://arxiv.org/abs/2102.13244v1 )

ライセンス: Link先を確認
Chaobing Song and Jelena Diakonikolas(参考訳) 一般化された変分不等式問題に対する extRapolation (CODER) を用いた \emph{Cyclic cOordinate Dual avEraging 法を提案する。 このような問題はかなり一般的であり、特別なケースとしてコンポジット凸最小化と最小値最適化が含まれる。 CODERは、収束速度がブロック数に依存しない最初の循環ブロック座標法であり、循環座標法と何年も開いていたランダム化法との間の大きなギャップを埋めるものである。 さらに、CODERは単調性およびリプシッツ連続性仮定のみの下で一般化された変分不等式問題を解くための巡回座標法に対する最初の理論的保証を提供する。 ブロック数への依存を除去するために、CODERの分析は、一般的に使用される座標方向のリプシッツ条件ではなく、マハラノビスノルムに関する新しいリプシッツ条件に基づいており、一般的な変動不等式に適用するために、CODERは、原始双対法における最近の発展に触発された外挿戦略を利用します。 我々の理論結果は,CODERと他の座標法との競合性能を示す数値実験によって補完される。

We propose the \emph{Cyclic cOordinate Dual avEraging with extRapolation (CODER)} method for generalized variational inequality problems. Such problems are fairly general and include composite convex minimization and min-max optimization as special cases. CODER is the first cyclic block coordinate method whose convergence rate is independent of the number of blocks, which fills the significant gap between cyclic coordinate methods and randomized ones that remained open for many years. Moreover, CODER provides the first theoretical guarantee for cyclic coordinate methods for solving generalized variational inequality problems under only monotonicity and Lipschitz continuity assumptions. To remove the dependence on the number of blocks, the analysis of CODER is based on a novel Lipschitz condition with respect to a Mahalanobis norm rather than the commonly used coordinate-wise Lipschitz condition; to be applicable to general variational inequalities, CODER leverages an extrapolation strategy inspired by the recent developments in primal-dual methods. Our theoretical results are complemented by numerical experiments, which demonstrate competitive performance of CODER compared to other coordinate methods.
翻訳日:2021-03-01 13:45:12 公開日:2021-02-26
# 統合型および自動型学習システムにおけるサイバーセキュリティの脅威

Cybersecurity Threats in Connected and Automated Vehicles based Federated Learning Systems ( http://arxiv.org/abs/2102.13256v1 )

ライセンス: Link先を確認
Ranwa Al Mallah, Godwin Badu-Marfo, Bilal Farooq(参考訳) Federated Learning (FL) は、ローカルデータをプライベートに保持する分散型エンティティにまたがるアルゴリズムのトレーニングを目的とした機械学習技術である。 ワイヤレスモバイルネットワークは、他の固定またはモバイルユーザーと通信することができます。 道路交通ネットワークは、接続された自動車両(cav)が通信エンティティを表す無線移動ネットワークのインフラストラクチャベースの構成を表す。 無線モバイルネットワーク設定でFLを適用すると、従来の固定ネットワークとは大きく異なるモバイル環境において新たな脅威が発生する。 この脅威は、無線媒体の本質的な特性によるものであり、高いノード移動率や急速に変化するトポロジーなどの車両ネットワークの特性に起因する。 ほとんどのサイバー防御技術は、信頼性の高い接続ネットワークに依存します。 本稿では、RSUで進行中のFLプロセスをターゲットにした偽情報攻撃について検討する。 我々は、車両ネットワークにおけるグローバルモデルのトレーニングを妨害するために、悪意あるCAVによる攻撃戦略を多数特定した。 その結果,攻撃は収束時間を短縮し,モデルの精度を低下させることができた。 我々の攻撃がfl防衛戦略を第一形態にバイパスすることを示し、将来の道路網の無線移動環境において、新たな防毒防御機構の必要性を強調する。

Federated learning (FL) is a machine learning technique that aims at training an algorithm across decentralized entities holding their local data private. Wireless mobile networks allow users to communicate with other fixed or mobile users. The road traffic network represents an infrastructure-based configuration of a wireless mobile network where the Connected and Automated Vehicles (CAV) represent the communicating entities. Applying FL in a wireless mobile network setting gives rise to a new threat in the mobile environment that is very different from the traditional fixed networks. The threat is due to the intrinsic characteristics of the wireless medium and is caused by the characteristics of the vehicular networks such as high node-mobility and rapidly changing topology. Most cyber defense techniques depend on highly reliable and connected networks. This paper explores falsified information attacks, which target the FL process that is ongoing at the RSU. We identified a number of attack strategies conducted by the malicious CAVs to disrupt the training of the global model in vehicular networks. We show that the attacks were able to increase the convergence time and decrease the accuracy the model. We demonstrate that our attacks bypass FL defense strategies in their primary form and highlight the need for novel poisoning resilience defense mechanisms in the wireless mobile setting of the future road networks.
翻訳日:2021-03-01 13:44:54 公開日:2021-02-26
# 深層強化学習とオンライン計画の統合による群集内ロボットナビゲーション

Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning and Online Planning ( http://arxiv.org/abs/2102.13265v1 )

ライセンス: Link先を確認
Zhiqian Zhou, Pengming Zhu, Zhiwen Zeng, Junhao Xiao, Huimin Lu, Zongtan Zhou(参考訳) これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。 主な課題は、ロボットが群衆を理解して、前向きで前向きな行動を実行することを必要とする、複雑で洗練された相互作用メカニズムである。 深層強化学習はこの問題に対する有望な解決策である。 しかし,従来の学習手法は計算処理の負担が大きい。 これらの問題に対処するために,グラフに基づく深層強化学習手法であるSG-DQNを提案する。 (i) 群集ロボット状態に対する効率的なグラフ表現を抽出するためのソーシャルアテンション機構を導入し, (ii) 学習した深層Qネットワーク(DQN) を用いて生状態の粗面q値を直接評価し, (iii) 将来軌道のオンライン計画を通じて粗面q値の洗練を行う。 実験結果から,ロボットは群集の理解を深め,群集ナビゲーションタスクにおいて0.99以上の成功率を達成できることが示唆された。 従来の最先端アルゴリズムと比較すると,提案アルゴリズムは計算コストの半減を必要とせず,同等の性能を実現している。

It is still an open and challenging problem for mobile robots navigating along time-efficient and collision-free paths in a crowd. The main challenge comes from the complex and sophisticated interaction mechanism, which requires the robot to understand the crowd and perform proactive and foresighted behaviors. Deep reinforcement learning is a promising solution to this problem. However, most previous learning methods incur a tremendous computational burden. To address these problems, we propose a graph-based deep reinforcement learning method, SG-DQN, that (i) introduces a social attention mechanism to extract an efficient graph representation for the crowd-robot state; (ii) directly evaluates the coarse q-values of the raw state with a learned dueling deep Q network(DQN); and then (iii) refines the coarse q-values via online planning on possible future trajectories. The experimental results indicate that our model can help the robot better understand the crowd and achieve a high success rate of more than 0.99 in the crowd navigation task. Compared against previous state-of-the-art algorithms, our algorithm achieves an equivalent, if not better, performance while requiring less than half of the computational cost.
翻訳日:2021-03-01 13:44:33 公開日:2021-02-26
# 職業カーネルヒルベルト空間と非局所作用素のスペクトル解析

Occupation Kernel Hilbert Spaces and the Spectral Analysis of Nonlocal Operators ( http://arxiv.org/abs/2102.13266v1 )

ライセンス: Link先を確認
Joel A. Rosenfeld, Benjamin Russo, Xiuying Li(参考訳) この写本は、実関数や複素関数ではなく、信号の集合上で動作する、職業カーネルヒルベルト空間(OKHS)と呼ばれる関数の空間を紹介します。 この定義をサポートするために、再生カーネルヒルベルト空間(RKHS)を考慮し、OKHSの明示的なクラスが与えられる。 この空間は、分数次リウヴィル作用素のような非局所作用素の定義と対応する分数次力学系に対するスペクトル分解法を可能にする。 この写本では、分数階のDMDルーチンが提示され、有限ランク表現の詳細が与えられる。 重要なことは、OKHSの定式化による理論的内容の追加にもかかわらず、結果の計算はRKHS上の整数順序系の占有カーネルDMD法とわずかに異なるだけである。

This manuscript introduces a space of functions, termed occupation kernel Hilbert space (OKHS), that operate on collections of signals rather than real or complex functions. To support this new definition, an explicit class of OKHSs is given through the consideration of a reproducing kernel Hilbert space (RKHS). This space enables the definition of nonlocal operators, such as fractional order Liouville operators, as well as spectral decomposition methods for corresponding fractional order dynamical systems. In this manuscript, a fractional order DMD routine is presented, and the details of the finite rank representations are given. Significantly, despite the added theoretical content through the OKHS formulation, the resultant computations only differ slightly from that of occupation kernel DMD methods for integer order systems posed over RKHSs.
翻訳日:2021-03-01 13:44:07 公開日:2021-02-26
# 世代別スレートレコメンデーションの変動制御と評価

Variation Control and Evaluation for Generative SlateRecommendations ( http://arxiv.org/abs/2102.13302v1 )

ライセンス: Link先を確認
Shuchang Liu, Fei Sun, Yingqiang Ge, Changhua Pei, Yongfeng Zhang(参考訳) slateレコメンデーションは、各項目を個別にランク付けする代わりに、項目全体のリストを生成し、リスト内の位置バイアスと項目関係をより良くモデル化する。 膨大なスレートの組合せ空間に対処するため、近年の研究では、スレート分布を直接モデル化できる生成的解を検討している。 しかし、そのようなアプローチは、コンピュータビジョンにおける効果が証明されているにもかかわらず、レコメンダーシステムにおけるトレードオフジレンマに苦しんでいることを我々は観察する:再構築に焦点を当てるとき、彼らは簡単にデータをオーバーフィットし、満足のいくレコメンデーションを生成しません。 本稿では,スレート変動測定値を用いた精度に基づく評価を強化し,生成モデルの確率的挙動を推定する。 ジレンマの2つの望ましくない極端なケースの1つに到達する代わりに、有効な生成解は、その中間の狭い「肘」領域に存在する。 また, 項目摂動はスレート変動を強制し, 生成したスレートの過度な集中を緩和し, 「肘」 性能を到達し易い領域に拡張することを示した。 さらに、モデルが生成前に摂動を適用できるように、ピボット選択フェーズを生成プロセスから分離することを提案する。 実験により、この単純な修正は、後世代の摂動法と比較して、同じレベルの精度でより優れたばらつきをもたらすことが示された。

Slate recommendation generates a list of items as a whole instead of ranking each item individually, so as to better model the intra-list positional biases and item relations. In order to deal with the enormous combinatorial space of slates, recent work considers a generative solution so that a slate distribution can be directly modeled. However, we observe that such approaches -- despite their proved effectiveness in computer vision -- suffer from a trade-off dilemma in recommender systems: when focusing on reconstruction, they easily over-fit the data and hardly generate satisfactory recommendations; on the other hand, when focusing on satisfying the user interests, they get trapped in a few items and fail to cover the item variation in slates. In this paper, we propose to enhance the accuracy-based evaluation with slate variation metrics to estimate the stochastic behavior of generative models. We illustrate that instead of reaching to one of the two undesirable extreme cases in the dilemma, a valid generative solution resides in a narrow "elbow" region in between. And we show that item perturbation can enforce slate variation and mitigate the over-concentration of generated slates, which expand the "elbow" performance to an easy-to-find region. We further propose to separate a pivot selection phase from the generation process so that the model can apply perturbation before generation. Empirical results show that this simple modification can provide even better variance with the same level of accuracy compared to post-generation perturbation methods.
翻訳日:2021-03-01 13:43:50 公開日:2021-02-26
# IoTMalware: ディープニューラルネットワークとブロックチェーン技術に基づくAndroid IoTマルウェア検出

IoTMalware: Android IoT Malware Detection based on Deep Neural Network and Blockchain Technology ( http://arxiv.org/abs/2102.13376v1 )

ライセンス: Link先を確認
Rajesh Kumar, WenYong Wang, Jay Kumar, Zakria, Ting Yang, Waqar Ali and Abubackar Sharif(参考訳) モノのインターネット(iot)は、医療、スマートシティ、スマート環境、安全性、リモートセンシングなど、日常生活のあらゆる場面でエキサイティングなアプリケーションを導入することで、この世界に革命をもたらしています。 本稿では,Android IoTデバイスのセキュリティを高めるために,ブロックチェーンとディープラーニングモデルに基づく新たなフレームワークを提案する。 さらに,我々のフレームワークは,リアルタイムな環境下でマルウェア活動を見つけることができる。 提案するディープラーニングモデルは、すでにブロックチェーン分散台帳に格納されているマルウェアや良性アプリから抽出されたさまざまな静的および動的特徴を分析する。 多層ディープラーニングモデルは、前のデータを解析していくつかのステップに従うことで決定する。 まず、マルウェア機能を複数のレベルクラスタに分割する。 次に、マルウェア機能セットまたはクラスタごとに独自のディープラーニングモデルを選択します。 最後に、すべてのクラスタレベルから生成された結果を組み合わせて意思決定を行います。 さらに、決定とマルチレベルクラスタリングデータはブロックチェーンに格納され、独自のデータ分散のために、すべての特殊なクラスタをトレーニングするためにさらに使用できる。 また、カスタマイズされたスマートコントラクトは、ブロックチェーンフレームワークを通じて偽りのアプリケーションを検出するように設計されている。 smart contractは、ネットワーク上のandroidアプリのアップロードとダウンロードのプロセス中に悪意のあるアプリケーションを検証します。 そこで,提案フレームワークは,異種iotデバイスにおけるマルウェア検出に関するランタイムセキュリティ機能の柔軟性を提供する。 最後に、スマートコントラクトは、有害なAndroidアプリケーションのアップロードとダウンロードを承認または拒否するのに役立つ。

The Internet of Things (IoT) has been revolutionizing this world by introducing exciting applications almost in all walks of daily life, such as healthcare, smart cities, smart environments, safety, remote sensing, and many more. This paper proposes a new framework based on the blockchain and deep learning model to provide more security for Android IoT devices. Moreover, our framework is capable to find the malware activities in a real-time environment. The proposed deep learning model analyzes various static and dynamic features extracted from thousands of feature of malware and benign apps that are already stored in blockchain distributed ledger. The multi-layer deep learning model makes decisions by analyzing the previous data and follow some steps. Firstly, it divides the malware feature into multiple level clusters. Secondly, it chooses a unique deep learning model for each malware feature set or cluster. Finally, it produces the decision by combining the results generated from all cluster levels. Furthermore, the decisions and multiple-level clustering data are stored in a blockchain that can be further used to train every specialized cluster for unique data distribution. Also, a customized smart contract is designed to detect deceptive applications through the blockchain framework. The smart contract verifies the malicious application both during the uploading and downloading process of Android apps on the network. Consequently, the proposed framework provides flexibility to features for run-time security regarding malware detection on heterogeneous IoT devices. Finally, the smart contract helps to approve or deny to uploading and downloading harmful Android applications.
翻訳日:2021-03-01 13:43:24 公開日:2021-02-26
# FjORD: 順序付きドロップアウトによる異種目標下での公正かつ正確なフェデレーション学習

FjORD: Fair and Accurate Federated Learning under heterogeneous targets with Ordered Dropout ( http://arxiv.org/abs/2102.13451v1 )

ライセンス: Link先を確認
Samuel Horvath, Stefanos Laskaridis, Mario Almeida, Ilias Leondiadis, Stylianos I. Venieris and Nicholas D. Lane(参考訳) Federated Learning(FL)は、ビジョンからキーボードの予測まで、さまざまなMLタスクで大きな牽引力を得ています。 大規模な展開では、クライアントの不均一性は事実であり、公平性、トレーニングパフォーマンス、正確性の主な問題となっています。 統計的データ不均一性に取り組むためにかなりの努力が行われているが、システム不均質性と呼ばれるクライアントの処理能力とネットワークの帯域幅の多様性は、ほとんど未調査のままである。 現在のソリューションでは、利用可能なデバイスの大部分を無視したり、モデルのキャパシティに統一的な制限を設定したりしている。 本研究では,ニューラルネットワークにおける知識の順序付きネスト表現を実現する機構であるOrdered Dropoutを導入し,リトレーニングを必要とせずに低フットプリントサブモデルの抽出を可能にする。 さらに、線形マップの場合、Ordered Dropout は SVD と同等であることを示します。 我々は、この手法と自己蒸留手法を、FjORDと呼ばれるフレームワークでFLの領域で採用する。 FjORDは、モデル幅をクライアントの機能に合わせることで、クライアントシステムの不均一性の問題を軽減する。 CNNとRNNの両方の多様なモダリティに対する広範な評価は、FjORDがそのネスト構造を維持しながら、常に最先端のベースラインよりも大幅なパフォーマンス向上につながることを示している。

Federated Learning (FL) has been gaining significant traction across different ML tasks, ranging from vision to keyboard predictions. In large-scale deployments, client heterogeneity is a fact, and constitutes a primary problem for fairness, training performance and accuracy. Although significant efforts have been made into tackling statistical data heterogeneity, the diversity in the processing capabilities and network bandwidth of clients, termed as system heterogeneity, has remained largely unexplored. Current solutions either disregard a large portion of available devices or set a uniform limit on the model's capacity, restricted by the least capable participants. In this work, we introduce Ordered Dropout, a mechanism that achieves an ordered, nested representation of knowledge in Neural Networks and enables the extraction of lower footprint submodels without the need of retraining. We further show that for linear maps our Ordered Dropout is equivalent to SVD. We employ this technique, along with a self-distillation methodology, in the realm of FL in a framework called FjORD. FjORD alleviates the problem of client system heterogeneity by tailoring the model width to the client's capabilities. Extensive evaluation on both CNNs and RNNs across diverse modalities shows that FjORD consistently leads to significant performance gains over state-of-the-art baselines, while maintaining its nested structure.
翻訳日:2021-03-01 13:43:04 公開日:2021-02-26
# Node Proximityは必要なもの - 統一された構造と位置のノードとグラフの埋め込み

Node Proximity Is All You Need: Unified Structural and Positional Node and Graph Embedding ( http://arxiv.org/abs/2102.13582v1 )

ライセンス: Link先を確認
Jing Zhu, Xingyu Lu, Mark Heimann, Danai Koutra(参考訳) ほとんどのネットワーク組込み技術はネットワーク内のノードの相対的な位置をモデル化するが、最近では特定のノードとの距離に関係なく、ノードの役割等価性をモデル化する構造的組込みに多大な関心が寄せられている。 我々は、ノード近接スコアを計算するための確立された手法を利用する、構造的および位置的ノード埋め込みを計算するための近接ベース統合フレームワークであるPhUSIONを提案する。 文献における論争点を明確にし、PhUsionのどのステップが異なる種類の埋め込みを生み出し、どちらのステップが両方で使用できるかを示す。 さらに,PhUSIONノードの埋め込みを集約することにより,従来のグラフ特徴学習やカーネル手法で失われた情報をモデル化するグラフレベルの特徴を得る。 10以上のデータセット、4つのタスク、35のメソッドを用いた包括的実証研究で、組み込みによるノードおよびグラフレベルの機械学習の設計選択を体系的に明らかにした。

While most network embedding techniques model the relative positions of nodes in a network, recently there has been significant interest in structural embeddings that model node role equivalences, irrespective of their distances to any specific nodes. We present PhUSION, a proximity-based unified framework for computing structural and positional node embeddings, which leverages well-established methods for calculating node proximity scores. Clarifying a point of contention in the literature, we show which step of PhUSION produces the different kinds of embeddings and what steps can be used by both. Moreover, by aggregating the PhUSION node embeddings, we obtain graph-level features that model information lost by previous graph feature learning and kernel methods. In a comprehensive empirical study with over 10 datasets, 4 tasks, and 35 methods, we systematically reveal successful design choices for node and graph-level machine learning with embeddings.
翻訳日:2021-03-01 13:41:44 公開日:2021-02-26
# ループ閉鎖とグローバル最適化を備えたパノラマ環状SLAM

Panoramic annular SLAM with loop closure and global optimization ( http://arxiv.org/abs/2102.13400v1 )

ライセンス: Link先を確認
Hao Chen, Weijian Hu, Kailun Yang, Jian Bai, Kaiwei Wang(参考訳) 本論文では、ループ閉鎖とグローバル最適化を備えた単眼パノラマ環状視覚SLAMシステムであるPA-SLAMを提案する。 追跡フロントエンドにはハイブリッドポイント選択戦略が展開されており、キーポイントの繰り返し可能性を確保し、バグオブワードアプローチに基づいたループクロージャ検出を可能にする。 各検出されたループ候補を幾何学的に検証し、$sim(3)$相対ポーズ制約を推定して、バックエンドでポーズグラフ最適化およびグローバルバンドル調整を行う。 実世界のデータセットに関する総合的な実験により、ハイブリッドポイント選択戦略は信頼性の高いループクロージャ検出を可能にし、累積誤差とスケールドリフトはグローバル最適化によって大幅に低減され、PA-SLAMは高い堅牢性と効率を維持しながら最先端の精度に達することが示されている。

In this paper, we propose PA-SLAM, a monocular panoramic annular visual SLAM system with loop closure and global optimization. A hybrid point selection strategy is put forward in the tracking front-end, which ensures repeatability of keypoints and enables loop closure detection based on the bag-of-words approach. Every detected loop candidate is verified geometrically and the $Sim(3)$ relative pose constraint is estimated to perform pose graph optimization and global bundle adjustment in the back-end. A comprehensive set of experiments on real-world datasets demonstrates that the hybrid point selection strategy allows reliable loop closure detection, and the accumulated error and scale drift have been significantly reduced via global optimization, enabling PA-SLAM to reach state-of-the-art accuracy while maintaining high robustness and efficiency.
翻訳日:2021-03-01 13:41:28 公開日:2021-02-26
# 深層信念ネットワークを用いた水中音響通信受信装置

Underwater Acoustic Communication Receiver Using Deep Belief Network ( http://arxiv.org/abs/2102.13397v1 )

ライセンス: Link先を確認
Abigail Lee-Leon, Chau Yuen, Dorien Herremans(参考訳) 水中環境はコミュニケーションのための挑戦的なチャネルを生み出す。 本論文では,ドップラー効果とマルチパス伝播による信号歪みに対抗するために,Deep Belief Network (DBN) という機械学習手法を探索し,新しい受信機システムを設計する。 シミュレーション実験と海上実験の両方において,提案システムの性能評価を行った。 提案する受信システムは、dbnに基づく非ノイズ化と受信信号の分類からなる。 まず、受信した信号をフレームに分割し、それぞれのフレームを新しいピクセル化アルゴリズムで個別に前処理する。 そして、DBNに基づくノイズ除去アルゴリズムを用いて、これらのフレームから特徴を抽出し、受信した信号を再構成する。 最後に、DBNに基づく再構成信号の分類が行われる。 提案されたDBNベースのレシーバーシステムは、ドップラー効果およびマルチパス伝播に影響されるチャネルでのより良いパフォーマンスを示し、ビットエラーレート(BER)で13.2dBの性能向上を実現している。

Underwater environments create a challenging channel for communications. In this paper, we design a novel receiver system by exploring the machine learning technique--Deep Belief Network (DBN)-- to combat the signal distortion caused by the Doppler effect and multi-path propagation. We evaluate the performance of the proposed receiver system in both simulation experiments and sea trials. Our proposed receiver system comprises of DBN based de-noising and classification of the received signal. First, the received signal is segmented into frames before the each of these frames is individually pre-processed using a novel pixelization algorithm. Then, using the DBN based de-noising algorithm, features are extracted from these frames and used to reconstruct the received signal. Finally, DBN based classification of the reconstructed signal occurs. Our proposed DBN based receiver system does show better performance in channels influenced by the Doppler effect and multi-path propagation with a performance improvement of 13.2dB at $10^{-3}$ Bit Error Rate (BER).
翻訳日:2021-03-01 13:41:12 公開日:2021-02-26
# 2020年個人化音声トリガチャレンジのためのNPUシステム

The NPU System for the 2020 Personalized Voice Trigger Challenge ( http://arxiv.org/abs/2102.13552v1 )

ライセンス: Link先を確認
Jingyong Hou, Li Zhang, Yihui Fu, Qing Wang, Zhanheng Yang, Qijie Shao, Lei Xie(参考訳) 本稿は、NPUチームが2020年のパーソナライズされた音声トリガーチャレンジのために開発したシステムについて述べる。 提案システムは,kws(small footprint keyword spotting)システムとsv(speaker verification)システムという,2つの独立した学習サブシステムで構成されている。 KWSシステムでは、覚醒単語(WuW)を検出するために、MDTC(Multi-scale dilated temporal convolutional)ネットワークを提案する。 SVシステムについては、ここで何かを書きましょう。 KWSは、音声発話がWuWを含むかどうかの後方確率を予測し、同時にWuWの位置を推定する。 WuWの後方確率が予め定義されたしきい値に達すると、トリガセグメントの識別情報がSVシステムによって決定される。 評価データセットでは,近接発話と遠距離作業において0.081と0.091の検出コストがそれぞれ得られた。

This paper describes the system developed by the NPU team for the 2020 personalized voice trigger challenge. Our submitted system consists of two independently trained subsystems: a small footprint keyword spotting (KWS) system and a speaker verification (SV) system. For the KWS system, a multi-scale dilated temporal convolutional (MDTC) network is proposed to detect wake-up word (WuW). For SV system, Write something here. The KWS predicts posterior probabilities of whether an audio utterance contains WuW and estimates the location of WuW at the same time. When the posterior probability ofWuW reaches a predefined threshold, the identity information of triggered segment is determined by the SV system. On evaluation dataset, our submitted system obtains detection costs of 0.081and 0.091 in close talking and far-field tasks, respectively.
翻訳日:2021-03-01 13:40:55 公開日:2021-02-26
# 非平滑凸有限要素の一次二重加速二重平均化による分散低減

Variance Reduction via Primal-Dual Accelerated Dual Averaging for Nonsmooth Convex Finite-Sums ( http://arxiv.org/abs/2102.13643v1 )

ライセンス: Link先を確認
Chaobing Song, Stephen J. Wright and Jelena Diakonikolas(参考訳) 我々は、サポートベクターマシンと最小絶対偏差を含む、機械学習アプリケーションで広く現れる構造化された非平滑凸有限和最適化を研究します。 この問題の原始的双対定式化のために、プリマル双対加速双対平均化 (\vrpda)} による \emph{Variance Reduction と呼ばれる新しいアルゴリズムを提案する。 nonsmooth と general convex の設定では、\vrpda~ は全複雑性 $o(nd\log\min \{1/\epsilon, n\} + d/\epsilon )$ を持ち、ここでは$n$ はサンプル数、$d$ は原始変数の次元、$\epsilon$ は所望の精度を表す。 非滑らかかつ強凸設定において、 \vrpda~ の全体的な複雑性は、主双対ギャップと反復と最適解の間の距離の両方の観点から $O(nd\log\min\{1/\epsilon, n\} + d/\sqrt{\epsilon})$ となる。 これらの結果はいずれも、非スムースおよび一般凸集合に対して$o(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\epsilon)$、より単純かつ強い凸設定に対して$o(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\sqrt{\epsilon})$である。 さらに、両方の複素性は、我々が考える特定の(共通な)構造を持たない一般凸有限和に対する \emph{lower} 境界よりも優れている。 我々の理論結果は数値実験によって支持され、最新技術と比較された \vrpda の競合性能を確認した。

We study structured nonsmooth convex finite-sum optimization that appears widely in machine learning applications, including support vector machines and least absolute deviation. For the primal-dual formulation of this problem, we propose a novel algorithm called \emph{Variance Reduction via Primal-Dual Accelerated Dual Averaging (\vrpda)}. In the nonsmooth and general convex setting, \vrpda~has the overall complexity $O(nd\log\min \{1/\epsilon, n\} + d/\epsilon )$ in terms of the primal-dual gap, where $n$ denotes the number of samples, $d$ the dimension of the primal variables, and $\epsilon$ the desired accuracy. In the nonsmooth and strongly convex setting, the overall complexity of \vrpda~becomes $O(nd\log\min\{1/\epsilon, n\} + d/\sqrt{\epsilon})$ in terms of both the primal-dual gap and the distance between iterate and optimal solution. Both these results for \vrpda~improve significantly on state-of-the-art complexity estimates, which are $O(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\epsilon)$ for the nonsmooth and general convex setting and $O(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\sqrt{\epsilon})$ for the nonsmooth and strongly convex setting, in a much more simple and straightforward way. Moreover, both complexities are better than \emph{lower} bounds for general convex finite sums that lack the particular (common) structure that we consider. Our theoretical results are supported by numerical experiments, which confirm the competitive performance of \vrpda~compared to state-of-the-art.
翻訳日:2021-03-01 13:40:42 公開日:2021-02-26
# オーバーザエア計算によるフェデレーションエッジ学習

Federated Edge Learning with Misaligned Over-The-Air Computation ( http://arxiv.org/abs/2102.13604v1 )

ライセンス: Link先を確認
Yulin Shao, Deniz Gunduz, Soung Chang Liew(参考訳) オーバーザエア計算(OAC)は、フェデレーションエッジラーニングのアップリンクで高速なモデル集約を実現する有望な技術です。 しかし、OACは正確なチャネルゲインプリコーディングとエッジデバイス間の厳密な同期に依存しており、実際は困難である。 このように、残存チャネルゲインミスマッチと非同期の存在下で最大の可能性(ML)推定器を設計する方法は、オープンな問題です。 このギャップを埋めるために,フェデレートエッジ学習におけるoacの不整合問題を定式化し,不整合信号と重なり信号からのサンプルの過サンプル化と独立化のために,ホワイトドマッチフィルタとサンプリングスキームを導入する。 ホワイト化されたサンプル、合計積ML推定器および整列サンプル推定器は、送信されたシンボルの算術的合計を推定するために考案される。 特に,和積ML推定器の計算複雑性はパケット長が線形であるため,従来のML推定器よりも著しく低い。 ノイズパワースペクトル密度比(EsN0)に対するシンボル当たりの平均受信エネルギーに対する試験精度の過大なシミュレーションは、1)低EsN0系では、位相不整合が不要である場合、整列サンプル推定器が優れた試験精度を達成できる。 対照的に、ML推定器は、推定過程における誤差伝搬とノイズ増強のためにうまく機能しない。 2)高EsN0方式では,位相ずれの重大さにかかわらず,ML推定器は最適学習性能が得られる。 一方、アライメントサンプル推定器は位相不整合によるテスト精度の低下に悩まされる。

Over-the-air computation (OAC) is a promising technique to realize fast model aggregation in the uplink of federated edge learning. OAC, however, hinges on accurate channel-gain precoding and strict synchronization among the edge devices, which are challenging in practice. As such, how to design the maximum likelihood (ML) estimator in the presence of residual channel-gain mismatch and asynchronies is an open problem. To fill this gap, this paper formulates the problem of misaligned OAC for federated edge learning and puts forth a whitened matched filtering and sampling scheme to obtain oversampled, but independent, samples from the misaligned and overlapped signals. Given the whitened samples, a sum-product ML estimator and an aligned-sample estimator are devised to estimate the arithmetic sum of the transmitted symbols. In particular, the computational complexity of our sum-product ML estimator is linear in the packet length and hence is significantly lower than the conventional ML estimator. Extensive simulations on the test accuracy versus the average received energy per symbol to noise power spectral density ratio (EsN0) yield two main results: 1) In the low EsN0 regime, the aligned-sample estimator can achieve superior test accuracy provided that the phase misalignment is non-severe. In contrast, the ML estimator does not work well due to the error propagation and noise enhancement in the estimation process. 2) In the high EsN0 regime, the ML estimator attains the optimal learning performance regardless of the severity of phase misalignment. On the other hand, the aligned-sample estimator suffers from a test-accuracy loss caused by phase misalignment.
翻訳日:2021-03-01 13:39:49 公開日:2021-02-26
# (参考訳) CLIPを用いたビデオ検索のためのStraightforwardフレームワーク

A Straightforward Framework For Video Retrieval Using CLIP ( http://arxiv.org/abs/2102.12443v2 )

ライセンス: CC BY 4.0
Jes\'us Andr\'es Portillo-Quintero, Jos\'e Carlos Ortiz-Bayliss, Hugo Terashima-Mar\'in(参考訳) ビデオ検索は、テキストクエリがビデオとマッチする、あるいはその逆を行う、難しいタスクである。 このような問題に対処する既存のアプローチのほとんどは、ユーザによるアノテーションに依存しています。 単純だが、このアプローチは実際には必ずしも実現可能ではない。 本稿では,このアノテーションを必要とせず,映像表現を得るための言語画像モデルである clip の応用について検討する。 このモデルは、画像とテキストを比較できる共通空間を学ぶために明示的に訓練された。 本論文では,MSR-VTT および MSVD ベンチマークを用いて,その適用範囲をビデオに拡張した。

Video Retrieval is a challenging task where a text query is matched to a video or vice versa. Most of the existing approaches for addressing such a problem rely on annotations made by the users. Although simple, this approach is not always feasible in practice. In this work, we explore the application of the language-image model, CLIP, to obtain video representations without the need for said annotations. This model was explicitly trained to learn a common space where images and text can be compared. Using various techniques described in this document, we extended its application to videos, obtaining state-of-the-art results on the MSR-VTT and MSVD benchmarks.
翻訳日:2021-03-01 13:03:36 公開日:2021-02-26
# (参考訳) 複数のカーネルによる分散オンライン学習

Distributed Online Learning with Multiple Kernels ( http://arxiv.org/abs/2102.12733v2 )

ライセンス: CC BY 4.0
Jeongmin Chae and Songnam Hong(参考訳) 我々は、学習者のネットワーク上の非線形関数を完全に分散的に学習する問題を検討する。 オンライン学習は、すべての学習者がローカルで連続的なストリーミングデータを受け取ると仮定されます。 この学習モデルは、完全に分散したオンライン学習(または完全に分散したオンライン連合学習)と呼ばれる。 本モデルでは,複数のカーネルを持つ新しい学習フレームワークを提案し,DOMKLと命名した。 提案するdomklは,乗算器のオンライン交互方向法と分散ヘッジアルゴリズムの原理を応用して考案された。 T 時間スロット上の DOMKL が最適のサブリニア後悔を達成できることを理論的に証明し、ネットワーク内のすべての学習者が、後視における最高の関数とギャップが減少する共通関数を学習できることを暗示する。 分析の結果、domklは最先端の集中型アプローチと同じ漸近的なパフォーマンスを生み出しながら、ローカルデータをエッジ学習者に保持していることが明らかとなった。 実データを用いた数値実験により,オンライン回帰および時系列予測タスクにおける提案のdomklの有効性を実証する。

We consider the problem of learning a nonlinear function over a network of learners in a fully decentralized fashion. Online learning is additionally assumed, where every learner receives continuous streaming data locally. This learning model is called a fully distributed online learning (or a fully decentralized online federated learning). For this model, we propose a novel learning framework with multiple kernels, which is named DOMKL. The proposed DOMKL is devised by harnessing the principles of an online alternating direction method of multipliers and a distributed Hedge algorithm. We theoretically prove that DOMKL over T time slots can achieve an optimal sublinear regret, implying that every learner in the network can learn a common function which has a diminishing gap from the best function in hindsight. Our analysis also reveals that DOMKL yields the same asymptotic performance of the state-of-the-art centralized approach while keeping local data at edge learners. Via numerical tests with real datasets, we demonstrate the effectiveness of the proposed DOMKL on various online regression and time-series prediction tasks.
翻訳日:2021-03-01 12:53:37 公開日:2021-02-26
# グラフニューラルネットワークにおける確率的集約

Stochastic Aggregation in Graph Neural Networks ( http://arxiv.org/abs/2102.12648v2 )

ライセンス: Link先を確認
Yuanqing Wang, Theofanis Karaletsos(参考訳) グラフニューラルネットワーク(gnns)は、サブオプティマイティブなアグリゲーション機構の結果、過剰なスムーシングや限定的な識別力を含む病状を示す。 本稿では、GNNsにおける確率集約(STAG)のための統一フレームワークについて述べる。そこでは、近隣からの集約プロセスにノイズが(適応的に)注入され、ノード埋め込みを形成する。 我々は,上述の2つの問題をほとんどオーバーヘッドなく,stagモデルで解決する理論的議論を行う。 また,固定ノイズモデルに加えて,stagモデルの確率的バージョンと雑音の後方学習のための変分推論フレームワークを提案する。 我々はオーバースムーシングとマルチセットアグリゲーション制限を明確にターゲットとした説明実験を行う。 さらに、STAGは、共通励起および分子グラフベンチマークデータセットにおける競合性能によって示されるGNNの一般性能を向上させる。

Graph neural networks (GNNs) manifest pathologies including over-smoothing and limited discriminating power as a result of suboptimally expressive aggregating mechanisms. We herein present a unifying framework for stochastic aggregation (STAG) in GNNs, where noise is (adaptively) injected into the aggregation process from the neighborhood to form node embeddings. We provide theoretical arguments that STAG models, with little overhead, remedy both of the aforementioned problems. In addition to fixed-noise models, we also propose probabilistic versions of STAG models and a variational inference framework to learn the noise posterior. We conduct illustrative experiments clearly targeting oversmoothing and multiset aggregation limitations. Furthermore, STAG enhances general performance of GNNs demonstrated by competitive performance in common citation and molecule graph benchmark datasets.
翻訳日:2021-03-01 11:37:16 公開日:2021-02-26
# CelebA-Spoof Challenge 2020: Face Anti-Spoofing: Methods and Results

CelebA-Spoof Challenge 2020 on Face Anti-Spoofing: Methods and Results ( http://arxiv.org/abs/2102.12642v2 )

ライセンス: Link先を確認
Yuanhan Zhang, Zhenfei Yin, Jing Shao, Ziwei Liu, Shuo Yang, Yuanjun Xiong, Wei Xia, Yan Xu, Man Luo, Jian Liu, Jianshu Li, Zhijun Chen, Mingyu Guo, Hui Li, Junfu Liu, Pengfei Gao, Tianqi Hong, Hao Han, Shijie Liu, Xinhua Chen, Di Qiu, Cheng Zhen, Dashuang Liang, Yufeng Jin, Zhanlong Hao(参考訳) 顔とのインタラクションシステムが普及するにつれ、これらのシステムのセキュリティと信頼性は重要な問題となり、かなりの研究が費やされる。 その中で、顔のアンチスプーフィングは重要な領域として現れ、その目的は提示された顔が生きているかどうかを特定することです。 近年,10,177名の被験者の625,537枚の写真からなる大規模な顔反スプーフデータセットCelebA-Spoofが公開された。 これは、データと被写体の数において、最大の対スプーフィングデータセットである。 本稿では,celeba-spoof データセットを用いた celeba-spoof challenge 2020 on face antispoofing の手法と結果について報告する。 モデル評価は隠れたテストセット上でオンラインで実施する。 大会には合計134人が参加し、19チームが有効な応募を行った。 上位のソリューションを分析し、今後の作業指示についていくつかの議論を行います。

As facial interaction systems are prevalently deployed, security and reliability of these systems become a critical issue, with substantial research efforts devoted. Among them, face anti-spoofing emerges as an important area, whose objective is to identify whether a presented face is live or spoof. Recently, a large-scale face anti-spoofing dataset, CelebA-Spoof which comprised of 625,537 pictures of 10,177 subjects has been released. It is the largest face anti-spoofing dataset in terms of the numbers of the data and the subjects. This paper reports methods and results in the CelebA-Spoof Challenge 2020 on Face AntiSpoofing which employs the CelebA-Spoof dataset. The model evaluation is conducted online on the hidden test set. A total of 134 participants registered for the competition, and 19 teams made valid submissions. We will analyze the top ranked solutions and present some discussion on future work directions.
翻訳日:2021-03-01 11:37:03 公開日:2021-02-26
# 意味セグメンテーションにおける教師なし領域適応のための空間的特徴間のコサイン類似性最大化

Maximizing Cosine Similarity Between Spatial Features for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2102.13002v2 )

ライセンス: Link先を確認
Inseop Chung, Daesik Kim, Nojun Kwak(参考訳) 本論文では,ソースとターゲットドメインのコサイン類似性を特徴レベルで最大化することにより,セマンティックセグメンテーションにおける非監視領域適応の問題に取り組む新しい手法を提案する。 セグメンテーションネットワークは、主に特徴抽出器と分類ヘッドの2つの部分から構成される。 2つのドメインが機能レベルで小さなドメイン間隙を持つようにできれば、分類ヘッドで小さなドメイン間差異も生まれると期待しています。 提案手法では,ソース特徴マップとターゲット特徴マップのコサイン類似度行列を計算し,しきい値を超える要素を最大化し,最も類似したソース特徴と高い類似度を持つように目標特徴を導出する。 さらに,ソースドメインの最新の特徴を格納するクラス毎のソース特徴辞書を用いて,コサイン類似度行列の計算時に一致しない問題を防止し,対象特徴と各種画像からの各種ソース特徴を比較した。 広範な実験を通じて,2つの監視されていないドメイン適応タスク(GTA5$\to$ Cityscaspes と SYNTHIA$\to$ Cityscapes)において,この手法がパフォーマンスを向上することを確認した。

We propose a novel method that tackles the problem of unsupervised domain adaptation for semantic segmentation by maximizing the cosine similarity between the source and the target domain at the feature level. A segmentation network mainly consists of two parts, a feature extractor and a classification head. We expect that if we can make the two domains have small domain gap at the feature level, they would also have small domain discrepancy at the classification head. Our method computes a cosine similarity matrix between the source feature map and the target feature map, then we maximize the elements exceeding a threshold to guide the target features to have high similarity with the most similar source feature. Moreover, we use a class-wise source feature dictionary which stores the latest features of the source domain to prevent the unmatching problem when computing the cosine similarity matrix and be able to compare a target feature with various source features from various images. Through extensive experiments, we verify that our method gains performance on two unsupervised domain adaptation tasks (GTA5$\to$ Cityscaspes and SYNTHIA$\to$ Cityscapes).
翻訳日:2021-03-01 11:36:47 公開日:2021-02-26
# プライバシーを過大評価するな - 個人学習のための勾配埋め込み摂動

Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for Private Learning ( http://arxiv.org/abs/2102.12677v2 )

ライセンス: Link先を確認
Da Yu, Huishuai Zhang, Wei Chen, Tie-Yan Liu(参考訳) トレーニングデータに関するモデルのプライバシー漏洩は、差分プライバシーメカニズムにバインドすることができる。 しかし、有意義なプライバシパラメータに対しては、モデルが多数のトレーニング可能なパラメータを含む場合、微分プライベートモデルによってユーティリティが大幅に劣化する。 本稿では,偏微分プライベート深層モデルの精度向上のためのアルゴリズムであるemph{Gradient Embedding Perturbation (GEP)を提案する。 具体的には、各勾配降下ステップにおいて、GEP は個々のプライベート勾配を非感度アンカー部分空間に投影し、低次元勾配埋め込みと小さなノルム勾配を生成する。 そして、GEPはプライバシー予算に応じて、低次元の埋め込みと残留勾配を別々に摂動する。 このような分解は、小さな摂動分散を許容し、プライベートラーニングの次元障壁を壊すのに大いに役立つ。 GEPでは、合理的な計算コストと深いモデルのための控えめなプライバシー保証で、適切な精度を実現します。 特に、プライバシー境界 $\epsilon=8$ で、CIFAR10 で $74.9\%$ テスト精度を達成し、SVHN で $95.1\%$ テスト精度を達成し、既存の結果を大幅に改善します。

The privacy leakage of the model about the training data can be bounded in the differential privacy mechanism. However, for meaningful privacy parameters, a differentially private model degrades the utility drastically when the model comprises a large number of trainable parameters. In this paper, we propose an algorithm \emph{Gradient Embedding Perturbation (GEP)} towards training differentially private deep models with decent accuracy. Specifically, in each gradient descent step, GEP first projects individual private gradient into a non-sensitive anchor subspace, producing a low-dimensional gradient embedding and a small-norm residual gradient. Then, GEP perturbs the low-dimensional embedding and the residual gradient separately according to the privacy budget. Such a decomposition permits a small perturbation variance, which greatly helps to break the dimensional barrier of private learning. With GEP, we achieve decent accuracy with reasonable computational cost and modest privacy guarantee for deep models. Especially, with privacy bound $\epsilon=8$, we achieve $74.9\%$ test accuracy on CIFAR10 and $95.1\%$ test accuracy on SVHN, significantly improving over existing results.
翻訳日:2021-03-01 11:36:25 公開日:2021-02-26