このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211026となっている論文です。

PDF登録状況(公開日: 20211026)

TitleAuthorsAbstract論文公表日・翻訳日
# オペレーター-代数的再正規化とウェーブレット

Operator-algebraic renormalization and wavelets ( http://arxiv.org/abs/2002.01442v2 )

ライセンス: Link先を確認
Alexander Stottmeister and Vincenzo Morinelli and Gerardo Morsella and Yoh Tanimoto(参考訳) 厳密な作用素-代数的再正規化群スキームについて報告し、ウェーブレット理論を用いたハミルトン格子系のスケーリング極限として連続体を構成する。 再正規化群ステップは、コンパクトに支持されたウェーブレットで塗られた連続体と格子可観測性を特定するスケーリング方程式によって決定される。 因果性は調和格子系に対するリーブ・ロビンソン境界から従う。 このスキームはマルチスケールの絡み合い再正規化 ansatz と関連しており、量子システムの半連続極限を補強している。

We report on a rigorous operator-algebraic renormalization group scheme and construct the continuum free field as the scaling limit of Hamiltonian lattice systems using wavelet theory. A renormalization group step is determined by the scaling equation identifying lattice observables with the continuum field smeared by compactly supported wavelets. Causality follows from Lieb-Robinson bounds for harmonic lattice systems. The scheme is related with the multi-scale entanglement renormalization ansatz and augments the semi-continuum limit of quantum systems.
翻訳日:2023-06-04 18:47:00 公開日:2021-10-26
# 線形双極子に基づく明るい偏光単光子源

Bright Polarized Single-Photon Source Based on a Linear Dipole ( http://arxiv.org/abs/2007.04330v4 )

ライセンス: Link先を確認
S. E. Thomas, M. Billard, N. Coste, S. C. Wein, Priya, H. Ollivier, O. Krebs, L. Taza\"irt, A. Harouri, A. Lemaitre, I. Sagnes, C. Anton, L. Lanco, N. Somaschi, J. C. Loredo, and P. Senellart(参考訳) キャビティ内の半導体量子ドットは単一光子源として有望である。 ここでは、フォノンアシスト励起による中性量子ドットにおける固有線型双極子を用いた決定論的演算の経路を示す。 これにより、完全な偏光子を放出することができ、測定された線形偏光度は0.994$\pm$ 0.007であり、高集団反転は共鳴励起の85\%である。 偏光第1レンズ輝度0.50$\pm $ 0.01、単光子純度0.954$\pm$ 0.001、単光子不明瞭度0.909$\pm$ 0.004を示す。

Semiconductor quantum dots in cavities are promising single-photon sources. Here, we present a path to deterministic operation, by harnessing the intrinsic linear dipole in a neutral quantum dot via phonon-assisted excitation. This enables emission of fully polarized single photons, with a measured degree of linear polarization up to 0.994 $\pm$ 0.007, and high population inversion -- 85\% as high as resonant excitation. We demonstrate a single-photon source with a polarized first lens brightness of 0.50 $\pm $ 0.01, a single-photon purity of 0.954 $\pm$ 0.001 and single-photon indistinguishability of 0.909 $\pm$ 0.004.
翻訳日:2023-05-10 23:20:45 公開日:2021-10-26
# ウェーブレットによる格子量子場のスケーリング限界

Scaling limits of lattice quantum fields by wavelets ( http://arxiv.org/abs/2010.11121v2 )

ライセンス: Link先を確認
Vincenzo Morinelli, Gerardo Morsella, Alexander Stottmeister, Yoh Tanimoto(参考訳) 作用素代数の観点から格子量子場理論に対する厳密な再正規化群スキームを提案する。 再正規化群は格子体代数間の拡大写像の帰納的体系と見なされる。 ダウビーズウェーブレットを用いたスカラー格子場のスケーリングマップを構築し、自由格子基底状態の帰納的極限が存在し、その極限状態が時空翻訳の連続的な作用を伴って、よく知られた巨大連続体自由場にまで広がることを示す。 特に、格子場は、ダウベチエのスケーリング関数で塗られた連続体と同一視される。 我々はスケーリングマップを他の再正規化スキームやそれらの特徴、例えばモーメントシェル法やブロックスピン変換と比較する。

We present a rigorous renormalization group scheme for lattice quantum field theories in terms of operator algebras. The renormalization group is considered as an inductive system of scaling maps between lattice field algebras. We construct scaling maps for scalar lattice fields using Daubechies' wavelets, and show that the inductive limit of free lattice ground states exists and the limit state extends to the familiar massive continuum free field, with the continuum action of spacetime translations. In particular, lattice fields are identified with the continuum field smeared with Daubechies' scaling functions. We compare our scaling maps with other renormalization schemes and their features, such as the momentum shell method or block-spin transformations.
翻訳日:2023-04-28 03:10:14 公開日:2021-10-26
# 量子ドットにおける個々の電子スピンと核スピンセンブルメモリに基づく量子リピータ

Quantum repeaters based on individual electron spins and nuclear-spin-ensemble memories in quantum dots ( http://arxiv.org/abs/2010.13863v4 )

ライセンス: Link先を確認
Kenneth Sharman, Faezeh Kimiaee Asadi, Stephen C Wein, Christoph Simon(参考訳) 量子ドット核スピンの制御と操作の最近の発展に触発され、電子スピン状態が周囲の核スピンアンサンブルに転送され、それぞれスピン-光子界面と量子メモリとして機能する個々の量子ドット電子スピンと核スピンアンサンブルを組み合わせた量子リピータスキームが提案されている。 我々は、高協調性光マイクロキャビティに埋め込まれた低ひずみ量子ドットの利用を検討する。 量子ドット核スピンアンサンブルは、エンタングル状態の長期保存を可能にし、キャビティ支援ゲートを用いてヘラルドエンタングルメント交換を行う。 我々は,光子の直接透過率を超える分布速度で長距離における高忠実な絡み合いの確立を約束する量子リピータ方式の実現に必要な量子ドット技術の進歩を強調した。

Inspired by recent developments in the control and manipulation of quantum dot nuclear spins, which allow for the transfer of an electron spin state to the surrounding nuclear-spin ensemble for storage, we propose a quantum repeater scheme that combines individual quantum dot electron spins and nuclear-spin ensembles, which serve as spin-photon interfaces and quantum memories respectively. We consider the use of low-strain quantum dots embedded in high-cooperativity optical microcavities. Quantum dot nuclear-spin ensembles allow for the long-term storage of entangled states, and heralded entanglement swapping is performed using cavity-assisted gates. We highlight the advances in quantum dot technologies required to realize our quantum repeater scheme which promises the establishment of high-fidelity entanglement over long distances with a distribution rate exceeding that of the direct transmission of photons.
翻訳日:2023-04-27 11:11:39 公開日:2021-10-26
# 周期的$n$-step 駆動場をもつ2レベルシステム:精密ダイナミクスと量子状態操作

Two-level systems with periodic $N$-step driving fields: Exact dynamics and quantum state manipulations ( http://arxiv.org/abs/2011.12473v2 )

ライセンス: Link先を確認
Zhi-Cheng Shi, Ye-Hong Chen, Wei Qin, Yan Xia, X. X. Yi, Shi-Biao Zheng, and Franco Nori(参考訳) 本研究では、周期的な$N$ステップ駆動場によって駆動される2レベルエルミート系をすべて表現できる力学方程式の正確な解を導出する。 異なる物理パラメータに対して、この力学方程式は周期的$n$-ステップ駆動系の様々な現象を示す。 時間依存遷移確率は離散周波数のコサイン関数からなる一般的な公式で表現することができ、この公式は任意のパラメータレジームに適している。 さらに、周期的な$N$-step駆動系の実際の力学を記述するのに十分なコサイン関数(すなわち1から3つの主周波数)はわずかである。 2つの(または3つの)主周波数が類似している場合、遷移確率のビーティングが発生することが分かる。 いくつかの応用は、周期的$n$-step 駆動場による量子状態操作でも実証されている。

In this work, we derive exact solutions of a dynamical equation, which can represent all two-level Hermitian systems driven by periodic $N$-step driving fields. For different physical parameters, this dynamical equation displays various phenomena for periodic $N$-step driven systems. The time-dependent transition probability can be expressed by a general formula that consists of cosine functions with discrete frequencies, and, remarkably, this formula is suitable for arbitrary parameter regimes. Moreover, only a few cosine functions (i.e., one to three main frequencies) are sufficient to describe the actual dynamics of the periodic $N$-step driven system. {Furthermore}, we find that a beating in the transition probability emerges when two (or three) main frequencies are similar. Some applications are also demonstrated in quantum state manipulations by periodic $N$-step driving fields.
翻訳日:2023-04-23 01:05:09 公開日:2021-10-26
# 崩壊のない歴史

Histories without collapse ( http://arxiv.org/abs/2012.13430v3 )

ライセンス: Link先を確認
Anthony Sudbery(参考訳) 本論文は、量子力学における歴史の確率に関する2つの理論の比較である。 一つは射影仮説を用いてコペンハーゲン量子力学から派生したもので、「一貫性のある歴史」解釈の基礎であり、もう一つはベルの提案に基づいている。 第1級はより広い歴史学クラスで用いられるが、射影ポピュレート(英語版)("collapse")に依存するが、これは理論の不十分な特徴であると広く認められており、第2級は崩壊のない普遍状態ベクトルの理論で用いられる。 Wignerの友人に基づく単純なモデルについて検討し、ベルのモデルと射影の仮定は、知覚システムの歴史に対して異なる確率を与える。 また、Frauchiger-Renner拡張についても検討し、歴史の2つの計算を比較することで、FrauchigerとRennerの矛盾に光を当てる。 モデルを拡張してオブザーバにメモリを装備することにより、一度にボルンルールの使用への履歴の確率を減少させ、メモリを持つボルンルールが、メモリとの絡み合いのため、歴史の過程でプロジェクションを適用するのと同じ結果をもたらすことを示す。 我々は、量子宇宙論における歴史学の利用に対するその意味について論じる。

This paper is a comparison of two theories of the probability of a history in quantum mechanics. One is derived from Copenhagen quantum mechanics using the projection postulate and is the basis of the "consistent histories" interpretation; the other is based on a proposal by Bell, originally for the "pilot state" theory but here applied to pure unitary quantum mechanics. The first can be used for a wider class of histories but depends on the projection postulate, or "collapse", which is widely held to be an unsatisfactory feature of the theory; the second can be used in a theory of the universal state vector without collapse. We examine a simple model based on Wigner's friend, in which Bell's model and the projection postulate give different probabilities for the histories of a sentient system. We also examine the Frauchiger-Renner extension of this model, in which comparison of the two calculations of histories throws light on the contradiction found by Frauchiger and Renner. By extending the model to equip the observer with a memory, we reduce the probability of histories to the use of the Born rule at a single time, and show that the Born rule, with the memory, gives the same result as applying projection in the course of the history, because of entanglement with the memory: entanglement implements collapse. We discuss the implications of this for the use of histories in quantum cosmology.
翻訳日:2023-04-19 11:44:14 公開日:2021-10-26
# 量子気体を用いたキャビティQED:多体物理の新しいパラダイム

Cavity QED with Quantum Gases: New Paradigms in Many-Body Physics ( http://arxiv.org/abs/2102.04473v2 )

ライセンス: Link先を確認
Farokh Mivehvar and Francesco Piazza and Tobias Donner and Helmut Ritsch(参考訳) 量子ガスキャビティqedの分野における最近の展開と現状について概観する。 ボース・アインシュタイン凝縮体と高q$光学キャビティの量子化された電磁モードを結合した系における原子の自己秩序化の最初の実験的実証以来、この分野は過去10年間に急速に発展してきた。 複合量子ガスキャビティシステムは、基本固体ハミルトニアンの実施、シミュレーション、実験的にテストする機会を提供し、従来の凝縮マッターシナリオを超えた非平衡多体現象を実現する。 これは、テーラードポンプレーザーと動的キャビティ場を用いた原子の光子誘起波長-範囲相互作用ポテンシャルによるオープン量子環境における設計と制御のユニークな可能性にかかっている。 注目すべき例は、格子超固体相を示す長距離相互作用を持つハバード的モデル、創発的磁気秩序と準結晶対称性、動的ゲージポテンシャルや非平衡位相相の出現などである。 スピン偏極とスピンフルな量子ガスを様々なキャビティジオメトリにロードし、多彩な可変範囲原子間相互作用を設計できるようになった。 これにより、ソフトモードの出現とともに、超固性、密度、スピンの自己秩序化、動的スピン軌道結合、非平衡動的自己秩序相など、自発的離散的および連続的対称性の破れが実験的に観察された。 さらに、量子ガスキャビティセットアップは、量子エンハンス測定のための新しいプラットフォームを提供する。 本総説では, 基礎モデルの導入から, 幅広い理論的展開を段階的に要約し, 現状と近未来の技術実験を考察する。

We review the recent developments and the current status in the field of quantum-gas cavity QED. Since the first experimental demonstration of atomic self-ordering in a system composed of a Bose-Einstein condensate coupled to a quantized electromagnetic mode of a high-$Q$ optical cavity, the field has rapidly evolved over the past decade. The composite quantum-gas--cavity systems offer the opportunity to implement, simulate, and experimentally test fundamental solid-state Hamiltonians, as well as to realize non-equilibrium many-body phenomena beyond conventional condensed-matter scenarios. This hinges on the unique possibility to design and control in open quantum environments photon-induced tunable-range interaction potentials for the atoms using tailored pump lasers and dynamic cavity fields. Notable examples range from Hubbard-like models with long-range interactions exhibiting a lattice-supersolid phase, over emergent magnetic orderings and quasicrystalline symmetries, to the appearance of dynamic gauge potentials and non-equilibrium topological phases. Experiments have managed to load spin-polarized as well as spinful quantum gases into various cavity geometries and engineer versatile tunable-range atomic interactions. This led to the experimental observation of spontaneous discrete and continuous symmetry breaking with the appearance of soft-modes as well as supersolidity, density and spin self-ordering, dynamic spin-orbit coupling, and non-equilibrium dynamical self-ordered phases among others. In addition, quantum-gas--cavity setups offer new platforms for quantum-enhanced measurements. In this review, starting from an introduction to basic models, we pedagogically summarize a broad range of theoretical developments and put them in perspective with the current and near future state-of-art experiments.
翻訳日:2023-04-12 05:16:38 公開日:2021-10-26
# 対称性に保護された多次元例外点とその位相的特徴

Symmetry-protected multifold exceptional points and their topological characterization ( http://arxiv.org/abs/2103.08232v2 )

ライセンス: Link先を確認
Pierre Delplace, Tsuneya Yoshida and Yasuhiro Hatsugai(参考訳) 非エルミート系における高次例外点(EP)の存在について検討し、例えばPTやCP対称性のようなパラメータ空間において局所的な反ユニタリ対称性が存在する場合、$\mu-1$次元において$\mu$-fold EPsが安定であることを示す。 これは特に、3-foldと4-fold symmetry-protected epsがそれぞれ2次元と3次元で安定であることを意味する。 このような例外点の安定性は、我々が導入した「可算ベクトル」のホモトピー特性の観点から表される。 また,従来提案されていた PT および CP 対称ギャップ位相の $\mathbb{Z}_2$ index を2バンドモデルの範囲を超えて言い換えることもできる。 この一般的な定式化を摩擦的浅層水モデルに適用すると、位相数 $\pm1$ に付随する3次元例外点が現れる。 このモデルのために、これらの例外点に関連する異なる非エルミート位相遷移(マージや伝播が禁止される状態への遷移など)も示す。

We investigate the existence of higher order exceptional points (EPs) in non-Hermitian systems, and show that $\mu$-fold EPs are stable in $\mu-1$ dimensions in the presence of anti-unitary symmetries that are local in parameter space, such as e.g. PT or CP symmetries. This implies in particular that 3-fold and 4-fold symmetry-protected EPs are stable respectively in 2 and 3 dimensions. The stability of such exceptional points is expressed in terms of the homotopy properties of a "resultant vector" that we introduce. Our framework also allows us to rephrase the previously proposed $\mathbb{Z}_2$ index of PT and CP symmetric gapped phases beyond the realm of two-band models. We apply this general formalism to a frictional shallow water model that is found to exhibit 3-fold exceptional points associated with topological numbers $\pm1$. For this model, we also show different non-Hermitian topological transitions associated with these exceptional points, such as their merging and a transition to a regime where propagation becomes forbidden.
翻訳日:2023-04-08 02:29:00 公開日:2021-10-26
# Fabula Entropy Indexing: ストーリーコヒーレンスの客観的尺度

Fabula Entropy Indexing: Objective Measures of Story Coherence ( http://arxiv.org/abs/2104.07472v2 )

ライセンス: Link先を確認
Louis Castricato, Spencer Frazier, Jonathan Balloch, Mark Riedl(参考訳) ストーリーの自動生成は、強力な客観的尺度が欠けているため、研究の難しい領域である。 生成したストーリーは言語的に健全であるが、多くの場合、説得力があり論理的に健全なストーリーに必要な物語の一貫性が不十分である。 そこで本研究では,物語に関する真偽の質問に答える際に,人間の同意度を測定し,ストーリーコヒーレンスを評価するための評価手法であるFabula Entropy Indexing(FEI)を提案する。 本研究では,読者の質問応答エントロピー,世界コヒーレンスエントロピー(ewc),遷移コヒーレンスエントロピー(etc)の2つの理論的根拠を,それぞれ大域コヒーレンスと局所コヒーレンスに焦点をあてて考案する。 我々は、これらの指標を人書きのストーリーでテストし、不整合を導入するために腐敗したストーリーと比較することで評価する。 これらの制御された研究において,私たちのエントロピー指標は,ストーリーコヒーレンスの信頼性の高い客観的尺度を提供することを示す。

Automated story generation remains a difficult area of research because it lacks strong objective measures. Generated stories may be linguistically sound, but in many cases suffer poor narrative coherence required for a compelling, logically-sound story. To address this, we present Fabula Entropy Indexing (FEI), an evaluation method to assess story coherence by measuring the degree to which human participants agree with each other when answering true/false questions about stories. We devise two theoretically grounded measures of reader question-answering entropy, the entropy of world coherence (EWC), and the entropy of transitional coherence (ETC), focusing on global and local coherence, respectively. We evaluate these metrics by testing them on human-written stories and comparing against the same stories that have been corrupted to introduce incoherencies. We show that in these controlled studies, our entropy indices provide a reliable objective measure of story coherence.
翻訳日:2023-04-07 01:47:13 公開日:2021-10-26
# 二元有限体上の量子LDPC符号の対数領域復号法

Log-domain decoding of quantum LDPC codes over binary finite fields ( http://arxiv.org/abs/2104.00304v3 )

ライセンス: Link先を確認
Ching-Yi Lai and Kao-Yueh Kuo(参考訳) gf$(q)$ 上の量子安定化符号は、シンプレクティック内積に関して自己直交であるgf$(q^2)$ 上の古典的加法符号に対応する。 本稿では, 2次有限体 GF$(q=2^l)$ 上での量子低密度パリティチェック (LDPC) 符号の復号化について,総和積アルゴリズムを用いて検討する。 伝統的に、GF$(2^l)$上の量子符号に対する非二項BPのメッセージはGF$(2^{2l)$上の確率ベクトルを表し、高い復号複雑性を引き起こす。 本稿では,シンプレクティックな内部積の性質を考察し,従来のBPに必要なベクトルメッセージではなく,BPの非二項量子符号の復号化に有効なスカラーメッセージを示す。 その結果,計算複雑性の低いスカラーメッセージを渡すことにより,GF$(2^l)$以上の量子符号に対するBP復号アルゴリズムを提案する。 このアルゴリズムは、チャネル統計の対数様比(LLR)を用いてログドメインで特定され、実装コストが低い。 さらに、このアルゴリズムではメッセージ正規化やオフセットなどの手法が自然に適用され、短周期の影響を緩和してBP性能を向上させることができる。 これは非バイナリ量子コードにとって重要であり、バイナリ量子コードよりも短いサイクルを持つ可能性がある。 これらの利点を示すために、いくつかのコンピュータシミュレーションが提供されている。 スカラーベースの戦略は、多くの短いサイクルでGF$(2^l)$上の古典的線形符号のBP復号法を改善するためにも用いられる。

A quantum stabilizer code over GF$(q)$ corresponds to a classical additive code over GF$(q^2)$ that is self-orthogonal with respect to a symplectic inner product. We study the decoding of quantum low-density parity-check (LDPC) codes over binary finite fields GF$(q=2^l)$ by the sum-product algorithm, also known as belief propagation (BP). Conventionally, a message in a nonbinary BP for quantum codes over GF$(2^l)$ represents a probability vector over GF$(2^{2l})$, inducing high decoding complexity. In this paper, we explore the property of the symplectic inner product and show that scalar messages suffice for BP decoding of nonbinary quantum codes, rather than vector messages necessary for the conventional BP. Consequently, we propose a BP decoding algorithm for quantum codes over GF$(2^l)$ by passing scalar messages so that it has low computation complexity. The algorithm is specified in log domain by using log-likelihood ratios (LLRs) of the channel statistics to have a low implementation cost. Moreover, techniques such as message normalization or offset can be naturally applied in this algorithm to mitigate the effects of short cycles to improve BP performance. This is important for nonbinary quantum codes since they may have more short cycles compared to binary quantum codes. Several computer simulations are provided to demonstrate these advantages. The scalar-based strategy can also be used to improve the BP decoding of classical linear codes over GF$(2^l)$ with many short cycles.
翻訳日:2023-04-05 22:29:31 公開日:2021-10-26
# QITEアルゴリズムにおけるランダム化コンパイルの活用

Leveraging Randomized Compiling for the QITE Algorithm ( http://arxiv.org/abs/2104.08785v2 )

ライセンス: Link先を確認
Jean-Loup Ville, Alexis Morvan, Akel Hashim, Ravi K. Naik, Marie Lu, Bradley Mitchell, John-Mark Kreikebaum, Kevin P. O'Brien, Joel J. Wallman, Ian Hincks, Joseph Emerson, Ethan Smith, Ed Younis, Costin Iancu, David I. Santiago, Irfan Siddiqi(参考訳) 現在のNISQ(Noisy Intermediate-Scale Quantum)ハードウェアの成功は、量子ハードウェアがエラー修正なしに複雑な問題に対処できることを示している。 問題の一つは、これらの機器の複雑さの増加によって生じるコヒーレントなエラーである。 これらのエラーは回路を通じて蓄積され、予測と緩和が難しいアルゴリズムに影響を及ぼす。 量子イマジナリー時間進化のような反復的アルゴリズムは、これらのエラーに影響を受けやすい。 本稿では,ランダム化コンパイルを用いた雑音調整と,精製による誤り軽減の組み合わせについて述べる。 また, サイクルベンチマークにより, 浄化の信頼性を推定できることを示した。 本手法を横フィールドイジングモデルの量子イマジナリー時間進化に適用し,エネルギー推定と基底状態の不整合をそれぞれ1\%以下で報告する。 我々の手法は一般的であり、他のアルゴリズムやプラットフォームにも利用できる。 ノイズ調整と誤差軽減を組み合わせることで,NISQデバイスの性能が向上することを示す。

The success of the current generation of Noisy Intermediate-Scale Quantum (NISQ) hardware shows that quantum hardware may be able to tackle complex problems even without error correction. One outstanding issue is that of coherent errors arising from the increased complexity of these devices. These errors can accumulate through a circuit, making their impact on algorithms hard to predict and mitigate. Iterative algorithms like Quantum Imaginary Time Evolution are susceptible to these errors. This article presents the combination of both noise tailoring using Randomized Compiling and error mitigation with a purification. We also show that Cycle Benchmarking gives an estimate of the reliability of the purification. We apply this method to the Quantum Imaginary Time Evolution of a Transverse Field Ising Model and report an energy estimation and a ground state infidelity both below 1\%. Our methodology is general and can be used for other algorithms and platforms. We show how combining noise tailoring and error mitigation will push forward the performance of NISQ devices.
翻訳日:2023-04-03 06:53:42 公開日:2021-10-26
# 量子的な基底状態へ受動的に冷却される巨視的物体:単一モード冷却を超えて

A macroscopic object passively cooled into its quantum ground state of motion: beyond single-mode cooling ( http://arxiv.org/abs/2104.09541v3 )

ライセンス: Link先を確認
D. Cattiaux, I. Golokolenov, S. Kumar, M. Sillanp\"a\"a, L. Mercier de L\'epinay, R. R. Gazizulin, X. Zhou, A. D. Armour, O. Bourgeois, A. Fefferman and E. Collin(参考訳) 自然の構成要素、すなわち原子と素粒子は量子力学によって記述される。 この基礎理論は、物理学者が主要な数学的モデル [1] を構築した基礎である。 今日、量子オブジェクトのユニークな特徴は、有望な量子技術 [2, 3] の出現につながった。 しかし、マクロ世界は明らかに古典的であり、量子-古典的交叉の性質は、今日まで最も難しい科学の課題の1つである。 この点において、動くオブジェクトは特定の役割を果たす[4, 5]。 近年のパイオニアリング実験では、単一GHzモードを受動的に冷却したり、原子物理学で開発されたレーザー冷却技術を適用して、周囲の温度よりはるかに低い特定のモードを冷却することで、ミクロンサイズの機械システムの量子挙動の探索が始まっている。 ここでは, マイクロメカニカルシステムの500マイクロKへの受動的冷却, 15MHzの基本振動モードにおける量子数の平均値の0.3に減少する(高調波に期待される値も低い)という, 非常に異なるアプローチについて述べる。 このようなアプローチにより、高調波と周囲の環境も冷却され、機械的なコヒーレンス時間がより長くなり、重力背景[13, 14]と量子熱力学[15]から機械的波動関数崩壊[12]に疑問を呈する実験が可能になる。 平均的な挙動以外にも, デバイスの基本振動モードとクライオスタットとの平衡のゆらぎについて報告する。 これらは驚くほど複雑な局所環境の相互作用を示し、2つの異なる熱力学浴の特性を探せる。

The building blocks of Nature, namely atoms and elementary particles, are described by quantum mechanics. This fundamental theory is the ground on which physicists have built their major mathematical models [1]. Today, the unique features of quantum objects have led to the advent of promising quantum technologies [2, 3]. However, the macroscopic world is manifestly classical, and the nature of the quantum-to-classical crossover remains one of the most challenging open question of Science to date. In this respect, moving objects play a specific role [4, 5]. Pioneering experiments over the last few years have begun exploring quantum behaviour of micron-sized mechanical systems,either by passively cooling single GHz modes, or by adapting laser cooling techniques developed in atomic physics to cool specific modes far below the temperature of their surroundings [6-11]. Here instead we describe a very different approach, passive cooling of a micromechanical system down to 500 microK, reducing the average number of quanta in the fundamental vibrational mode at 15 MHz to just 0.3 (with even lower values expected for higher harmonics); the challenge being to be still able to detect the motion without disturbing the system noticeably. With such an approach higher harmonics and the surrounding environment are also cooled, leading to potentially much longer mechanical coherence times, and enabling experiments questioning mechanical wave-function collapse [12], potentially from the gravitational background [13, 14], and quantum thermodynamics [15]. Beyond the average behaviour, here we also report on the fluctuations of the fundamental vibrational mode of the device in-equilibrium with the cryostat. These reveal a surprisingly complex interplay with the local environment and allow characteristics of two distinct thermodynamic baths to be probed.
翻訳日:2023-04-03 04:31:10 公開日:2021-10-26
# 量子誤差補正による独立量子チャネルの分類と浄化

Classification and purification for the independent quantum channel through quantum error-correction ( http://arxiv.org/abs/2104.12952v3 )

ライセンス: Link先を確認
Long Huang, Xiaohua Wu, Tao Zhou(参考訳) 量子エラー補正の本質は、余剰なヒルベルト空間を用いて誤りを特定し、修正することであり、量子チャネルのチャネルの忠実さは、どのエラーを識別して修正できるかに影響しない。 これに基づいて、独立な量子チャネルを5つのタイプに分類するために量子エラー補正を用いることができ、5つのタイプのうち4つのタイプを精製することができる。 量子誤差補正では、量子状態のデコヒーレンスが量子ノイズの下での状態の同定の度合いと関連し、この研究の結果、量子チャネルの純度が量子状態の量子的性質を忠実性ではなく維持する能力を決定することを確認した。 本稿では,独立なパウリチャネルの量子誤差補正による同定について述べる。

The essence of quantum error-correction is to use redundant Hilbert space to identify and correct errors, and the channel fidelity of the quantum channel does not affect which errors can be identified and corrected. Based on this, it is found that quantum error-correction can be used to classify the independent quantum channel into 5 types, and 4 of the 5 types can be purified. It is found in quantum error-correction, the decoherence of quantum state may be related to the degree of identification for the state under quantum noise, and the results of this work confirmed that the degree of purity of quantum channel determines its ability to retain the quantum property of the quantum state, not the fidelity. In this work, the identification of the independent Pauli channels by quantum error-correction is demonstrated.
翻訳日:2023-04-02 06:56:52 公開日:2021-10-26
# 超流動のnavier-stokes-nonlinear-schr\"odingerモデルに対する局所弱解

Local weak solutions to a Navier-Stokes-nonlinear-Schr\"odinger model of superfluidity ( http://arxiv.org/abs/2106.04659v4 )

ライセンス: Link先を確認
Pranava Chaitanya Jayanti, Konstantina Trivisa(参考訳) ピタエフスキーによる1959年の論文では、ヘリウム4の超流動相と通常の流体相の間の相互作用ダイナミクスを記述するために、第一原理から超流動のマクロモデルが導かれた。 このモデルは数学において最も基本的なPDEの2つを結合している: 非線形シュリンガー方程式(NLS)とナビエ・ストークス方程式(NSE)である。 本稿では,この系に対する弱解(3次元の滑らかな有界領域)の局所的存在を,必要となる事前推定を導出することによって示す。 (1987年のキムの論文で構築された非圧縮的で不均一なNSEの弱解に従うエネルギー不等式も確立する。) 我々の知る限りでは、NLSとNSEの双方向結合系の厳密な数学的解析はこれが初めてである。

In a 1959 paper by Pitaevskii, a macroscopic model of superfluidity was derived from first principles, to describe the interacting dynamics between the superfluid and normal fluid phases of Helium-4. The model couples two of the most fundamental PDEs in mathematics: the nonlinear Schr\"odinger equation (NLS) and the Navier-Stokes equations (NSE). In this article, we show the local existence of weak solutions to this system (in a smooth bounded domain in 3D), by deriving the required a priori estimates. (We will also establish an energy inequality obeyed by the weak solutions constructed in Kim's 1987 paper for the incompressible, inhomogeneous NSE.) To the best of our knowledge, this is the first rigorous mathematical analysis of a bidirectionally coupled system of the NLS and NSE.
翻訳日:2023-03-27 06:28:52 公開日:2021-10-26
# 光量子回路の自然勾配最適化

Natural Gradient Optimization for Optical Quantum Circuits ( http://arxiv.org/abs/2106.13660v4 )

ライセンス: Link先を確認
Yuan Yao, Pierre Cussenot, Richard A. Wolf, and Filippo M. Miatto(参考訳) 光量子回路は勾配降下法を用いて最適化することができ、回路のゲートは連続パラメータでパラメータ化することができる。 しかし、コスト関数で見られるパラメータ空間はユークリッドではないので、ユークリッド勾配は一般に最も急な上昇の方向を指し示さない。 この研究では、最も急な上昇方向を求めるために、局所計量テンソルを考慮に入れた光量子回路設定に自然勾配降下を実装した。 特に、複素数値パラメータ空間に自然勾配アプローチを適用する。 次に、バニラ勾配降下に対するNatural Gradientアプローチと、単光子源とゴッテマン・キタエフ・プレスキル状態源の2つの状態準備タスクの比較を行う。 ngアプローチは(学習率を増大させる可能性によって)より高速に収束し、最適化を通じてコスト関数の減衰をかなりスムーズに行うことが観察された。

Optical quantum circuits can be optimized using gradient descent methods, as the gates in a circuit can be parametrized by continuous parameters. However, the parameter space as seen by the cost function is not Euclidean, which means that the Euclidean gradient does not generally point in the direction of steepest ascent. In order to retrieve the steepest ascent direction, in this work we implement Natural Gradient descent in the optical quantum circuit setting, which takes the local metric tensor into account. In particular, we adapt the Natural Gradient approach to a complex-valued parameter space. We then compare the Natural Gradient approach to vanilla gradient descent and to Adam over two state preparation tasks: a single-photon source and a Gottesman-Kitaev-Preskill state source. We observe that the NG approach has a faster convergence (due in part to the possibility of using larger learning rates) and a significantly smoother decay of the cost function throughout the optimization.
翻訳日:2023-03-25 13:58:10 公開日:2021-10-26
# 量子液体の軽ヒル方程式

Lighthill equation for quantum liquids ( http://arxiv.org/abs/2108.03080v2 )

ライセンス: Link先を確認
C. Dedes(参考訳) 理論エアロ音響学の分野に由来するライトヒル方程式の量子バージョンは、時間依存グロス・ピタエフスキー方程式から始まる超流動の確率密度から導かれる。 2次時間微分を伴い、2時間境界条件で補足されるべきである。 その物理的含意は、量子平衡仮説とボルンの規則の適用性に関連して議論されている。

A quantum version of the Lighthill equation that originated in the field of theoretical aeroacoustics is derived for the probability density of a superfluid starting from the time-dependent Gross-Pitaevskii equation. It involves a second-order time derivative and should be supplemented by two-time boundary conditions. Its physical implications are discussed in relation to the quantum equilibrium hypothesis and the general applicability of Born's rule.
翻訳日:2023-03-19 06:56:02 公開日:2021-10-26
# 結合量子場系における生成状態の安定化と励起状態量子相転移

Stabilization of product states and excited-state quantum phase transitions in a coupled qubit-field system ( http://arxiv.org/abs/2108.08210v2 )

ライセンス: Link先を確認
Pavel Str\'ansk\'y, Pavel Cejnar, Radim Filip(参考訳) ソフトモードボソニック場と相互作用する単一量子ビット(または数量子ビット)のシステムについて検討した。 パリティ保存相互作用とパリティ違反相互作用の両方を持つrabiモデルの拡張バージョンを考えると、基底および励起状態領域における量子相転移の複雑な配置を開示する。 これらの遷移のいくつかを実験的に検証可能なシグネチャは、場の真空を含む完全に因子化された量子場状態の動的安定化である。 超強結合状態において、超強磁場平衡は真空状態から遠く離れている。 安定化度は相互作用パラメータによって突然変化し、フィールドモードの柔らかさによって増加する。 これらの効果の半古典的起源を分析し、励起状態の様々な量子相転移とそれらの関係を示す。

We study a system of a single qubit (or a few qubits) interacting with a soft-mode bosonic field. Considering an extended version of the Rabi model with both parity-conserving and parity-violating interactions, we disclose a complex arrangement of quantum phase transitions in the ground- and excited-state domains. An experimentally testable signature of some of these transitions is a dynamical stabilization of a fully factorized qubit-field state involving the field vacuum. It happens in the ultrastrong coupling regime where the superradiant field equilibrium is far from the vacuum state. The degree of stabilization varies abruptly with interaction parameters and increases with the softness of the field mode. We analyze semiclassical origins of these effects and show their connection to various forms of excited-state quantum phase transitions.
翻訳日:2023-03-18 03:28:20 公開日:2021-10-26
# ポスナー分子の動的アンサンブルは対称ではない

The Dynamical Ensemble of the Posner Molecule is not Symmetric ( http://arxiv.org/abs/2108.08822v2 )

ライセンス: Link先を確認
Shivang Agarwal, Clarice D. Aiello, Daniel R. Kattnig, Amartya S. Banerjee(参考訳) ポスナー分子($\text{Ca}_9(\text{PO}_4)_6$)は、様々な生理的過程において生化学的に関係があることが長年認識されてきた。 生物量子情報処理装置としての役割が近年注目されているため、この分子は長寿命の核スピンコヒーレンスを{^{31}\text{p}}$ 核(対称配置と推定される)の中で維持し、室温量子ビットとして機能することができる。 分子の構造は文献で多くの議論を呼んでいるが、$\text{s}_6$ point group 対称性はしばしば計算において仮定され、活用されている。 様々なシミュレーション手法(ab initio分子動力学と構造緩和を含む)、厳密なデータ解析ツール、何千もの個々の構成を探索することにより、前述した高対称性の構成とは対照的に、分子が室温で主に低対称性構造(\text{c}_\text{s}$と$\text{c}_\text{i}$)を仮定していることが判明した。 本研究は, 量子ビットとしてのこの分子の生存可能性に重要な意味を持つ。

The Posner molecule, $\text{Ca}_9(\text{PO}_4)_6$, has long been recognized to have biochemical relevance in various physiological processes. It has found recent attention for its possible role as a biological quantum information processor, whereby the molecule purportedly maintains long-lived nuclear spin coherences among its ${^{31}\text{P}}$ nuclei (presumed to be symmetrically arranged), allowing it to function as a room temperature qubit. The structure of the molecule has been of much dispute in the literature, although the $\text{S}_6$ point group symmetry has often been assumed and exploited in calculations. Using a variety of simulation techniques (including ab initio molecular dynamics and structural relaxation), rigorous data analysis tools and by exploring thousands of individual configurations, we establish that the molecule predominantly assumes low symmetry structures ($\text{C}_\text{s}$ and $\text{C}_\text{i}$) at room temperature, as opposed to the higher symmetry configurations explored previously. Our findings have important implications on the viability of this molecule as a qubit.
翻訳日:2023-03-18 01:08:54 公開日:2021-10-26
# 量子交互演算子アンザッツ(QAOA)相図と量子化学への応用

Quantum Alternating Operator Ansatz (QAOA) Phase Diagrams and Applications for Quantum Chemistry ( http://arxiv.org/abs/2108.13056v2 )

ライセンス: Link先を確認
Vladimir Kremenetski, Tad Hogg, Stuart Hadfield, Stephen J. Cotton, Norm M. Tubman(参考訳) ハミルトン基底状態とエネルギーを決定することは、量子コンピュータ上で多くの可能なアプローチを持つ困難な課題である。 変分量子固有ソルバは、短期ハードウェアの一般的なアプローチであるが、断熱的状態準備は、パラメータのノイズの最適化を必要としない代替手段である。 断熱的なスケジュール以外にも、QAOAは最適化問題の重要な方法である。 本研究では、分子の基底状態の発見に適用するためにQAOAを修正し、複数の分子上の修正アルゴリズムを実験的に評価する。 この修正は、古典近似で使われる物理的洞察を適用して、適切なQAOA演算子と初期状態を構築する。 パラメータのステップ数とサイズを関数としてQAOAの頑健な定性的挙動が発見され,この挙動が組合せ探索に適用された標準QAOAにも現れることを示す。 この目的のためにQAOA位相図を導入し、その性能と特性を様々な限界で捉えた。 特に、低い量子回路深度を用いながら、非断熱的スケジュールが断熱的限界より優れている領域を示す。 さらに、我々の結果と洞察が化学以外のqaoaアプリケーションにも当てはまる証拠を提供します。

Determining Hamiltonian ground states and energies is a challenging task with many possible approaches on quantum computers. While variational quantum eigensolvers are popular approaches for near term hardware, adiabatic state preparation is an alternative that does not require noisy optimization of parameters. Beyond adiabatic schedules, QAOA is an important method for optimization problems. In this work we modify QAOA to apply to finding ground states of molecules and empirically evaluate the modified algorithm on several molecules. This modification applies physical insights used in classical approximations to construct suitable QAOA operators and initial state. We find robust qualitative behavior for QAOA as a function of the number of steps and size of the parameters, and demonstrate this behavior also occurs in standard QAOA applied to combinatorial search. To this end we introduce QAOA phase diagrams that capture its performance and properties in various limits. In particular we show a region in which non-adiabatic schedules perform better than the adiabatic limit while employing lower quantum circuit depth. We further provide evidence our results and insights also apply to QAOA applications beyond chemistry.
翻訳日:2023-03-16 19:20:54 公開日:2021-10-26
# 複雑な合成ゲージ場を介するlone発振器のオンデマンドパリティ時間対称性

On-demand Parity-Time symmetry in a lone oscillator through complex, synthetic gauge fields ( http://arxiv.org/abs/2109.03846v2 )

ライセンス: Link先を確認
Mario A. Quiroz-Ju\'arez, Kaustubh S. Agarwal, Zachary A. Cochran, Jos\'e L. Arag\'on, Yogesh N. Joglekar, Roberto de J. Le\'on-Montiel(参考訳) インダクタンスとキャパシタンスが周波数を一定に保ちながら変化するときの発振器の運命とは何か? この問題に触発されて、単子発振器にパリティ時間(PT)対称性を実装するプロトコルを提案する。 制約付き変動の異なる形式は、静的、周期的、あるいは任意のバランスの取れたゲインと損失プロファイルをもたらし、これは純粋に想像上のゲージ場と解釈できる。 合成回路素子からなる最新で動的に可変なlc発振器を用いて,回路エネルギーを追跡することにより,極端に小さい利得と損失を含む静的およびフロッケpt破壊遷移を実証する。 同時に,この開放的かつバランスの取れたゲインロスシステムにおける保存量の導出と観測を行った。 最後に、回路エネルギーを測定することで、フロッケ共鳴のエルミート変種から対称に生じる例外点(ep)輪郭に沿って、巨大な動的非対称性が明らかにされる。 材料やパラメトリックゲインや損失機構とは別として、本プロトコルでは、最小限の古典的システム(単一の発振器)でオンデマンドのパリティタイム対称性を可能にし、メタマテリアルや光機械システムを含む他の実現に移植することができる。

What is the fate of an oscillator when its inductance and capacitance are varied while its frequency is kept constant? Inspired by this question, we propose a protocol to implement parity-time (PT) symmetry in a lone oscillator. Different forms of constrained variations lead to static, periodic, or arbitrary balanced gain and loss profiles, that can be interpreted as purely imaginary gauge fields. With a state-of-the-art, dynamically tunable LC oscillator comprising synthetic circuit elements, we demonstrate static and Floquet PT breaking transitions, including those at vanishingly small gain and loss, by tracking the circuit energy. Concurrently, we derive and observe conserved quantities in this open, balanced gain-loss system, both in the static and Floquet cases. Lastly, by measuring the circuit energy, we unveil a giant dynamical asymmetry along exceptional point (EP) contours that emerge symmetrically from the Hermitian degeneracies at Floquet resonances. Distinct from material or parametric gain and loss mechanisms, our protocol enables on-demand parity-time symmetry in a minimal classical system -- a single oscillator -- and may be ported to other realizations including metamaterials and optomechanical systems.
翻訳日:2023-03-15 20:25:57 公開日:2021-10-26
# コンパクトな再分割プランには多くのスパンニングツリーがあります

Compact Redistricting Plans Have Many Spanning Trees ( http://arxiv.org/abs/2109.13394v2 )

ライセンス: Link先を確認
Ariel D. Procaccia and Jamie Tucker-Foltz(参考訳) 政治的再分断写像の設計と分析では、国勢調査ブロックのグラフのすべての分割の空間から、等しい人口の連結部分グラフにサンプルを採取することができることがしばしば有用である。 マルコフ連鎖モンテカルロ法には、ランダムな散在木をサンプリングして分割する手法がある。 実証的な証拠は、そのようなアルゴリズムの分布がより「コンパクト」な再限定計画においてより重み付けされていることを示唆している。 本稿では,これらの観測を解析的に確認し,境界分割領域の総長さとそのような写像がサンプリングされる確率との逆指数関係を確立する。 この結果は、すでに現実世界に大きな影響を与えているアルゴリズムの理論的基盤を提供する。

In the design and analysis of political redistricting maps, it is often useful to be able to sample from the space of all partitions of the graph of census blocks into connected subgraphs of equal population. There are influential Markov chain Monte Carlo methods for doing so that are based on sampling and splitting random spanning trees. Empirical evidence suggests that the distributions such algorithms sample from place higher weight on more "compact" redistricting plans, which is a practically useful and desirable property. In this paper, we confirm these observations analytically, establishing an inverse exponential relationship between the total length of the boundaries separating districts and the probability that such a map will be sampled. This result provides theoretical underpinnings for algorithms that are already making a significant real-world impact.
翻訳日:2023-03-13 11:34:12 公開日:2021-10-26
# 幾何学的およびホロノミック量子計算

Geometric and holonomic quantum computation ( http://arxiv.org/abs/2110.03602v2 )

ライセンス: Link先を確認
Jiang Zhang, Thi Ha Kyaw, Stefan Filipp, Leong-Chuan Kwek, Erik Sj\"oqvist, Dianmin Tong(参考訳) 幾何学的およびホロノミック量子計算は、量子力学状態空間の固有の幾何学的性質を利用して量子論理ゲートを実現する。 幾何学的位相と量子ホロノミーの両方が量子系の進化経路にのみ依存する大域的な量であるため、量子ゲートはある種のエラーに対するレジリエンスを内蔵している。 このレビューでは、幾何学的およびホロノミックな量子ゲートの構築に関する理論的および実験的進展の概要と、これらを他のエラー耐性技術と組み合わせる方法について紹介する。

Geometric and holonomic quantum computation utilizes intrinsic geometric properties of quantum-mechanical state spaces to realize quantum logic gates. Since both geometric phases and quantum holonomies are global quantities depending only on the evolution paths of quantum systems, quantum gates based on them possess built-in resilience to certain kinds of errors. This review provides an introduction to the topic as well as gives an overview of the theoretical and experimental progress for constructing geometric and holonomic quantum gates and how to combine them with other error-resistant techniques.
翻訳日:2023-03-12 05:42:05 公開日:2021-10-26
# 統計力学的モノマー-二量体問題としてのスピン-1/2ハイゼンベルクダイヤモンドと八面体鎖のフラストレーション磁性

Frustrated magnetism of spin-1/2 Heisenberg diamond and octahedral chains as a statistical-mechanical monomer-dimer problem ( http://arxiv.org/abs/2110.07958v3 )

ライセンス: Link先を確認
J. Strecka, T. Verkholyak, J. Richter, K. Karlova, O. Derzhko, J. Schnack(参考訳) ハードコアモノマーとダイマーの有効格子-ガスモデルがスピン-1/2ハイゼンベルクダイヤモンドとオクタヘドラル鎖の低温特性を適切に記述できることが証明されている。 局所化マグノン理論の中で1-および2-マグノン固有状態に割り当てられるモノマー粒子に加えて、有効モノマー-二量体格子-ガスモデルでは、スピン-1/2ハイゼンベルクダイヤモンド(八面体)鎖のダイマー-テトラマー(テトラマー-ヘキサマー)基底状態の基底としてシングルレット-ヘキサマー状態に割り当てられたダイマー粒子も含む。 正確な対角化法と有限温度ランチョス法を用いて有効記述の実現性を確認した。 どちらの量子スピンチェーンも不連続および連続的な磁場駆動相転移を含む豊富な基底状態の位相図を示し、そのため、前者の位相付近の特定の熱は、低次励起の高退化多様体から生じる異常な低温ピークを示す。

It is evidenced that effective lattice-gas models of hard-core monomers and dimers afford a proper description of low-temperature features of spin-1/2 Heisenberg diamond and octahedral chains. Besides monomeric particles assigned within the localized-magnon theory to bound one- and two-magnon eigenstates, the effective monomer-dimer lattice-gas model additionally includes dimeric particles assigned to a singlet-tetramer (singlet-hexamer) state as a cornerstone of dimer-tetramer (tetramer-hexamer) ground state of a spin-1/2 Heisenberg diamond (octahedral) chain. A feasibility of the effective description is confirmed through the exact diagonalization and finite-temperature Lanczos methods. Both quantum spin chains display rich ground-state phase diagrams including discontinuous as well as continuous field-driven phase transitions, whereby the specific heat shows in vicinity of the former phase transitions an extraordinary low-temperature peak coming from a highly-degenerate manifold of low-lying excitations.
翻訳日:2023-03-11 10:10:59 公開日:2021-10-26
# ダイヤモンド磁気測定によるバースト渦電流探傷

Burst Eddy Current Testing with a Diamond Magnetometry ( http://arxiv.org/abs/2110.09045v2 )

ライセンス: Link先を確認
Chang Xu, Jixing Zhang, Heng Yuan, Guodong Bian, Pengcheng Fan, Minxin Li(参考訳) 本研究では,ダイヤモンド窒素空洞(NV)中心磁力計とハーンエコー(HE)配列を用いたバースト渦電流探傷法について述べる。 共焦点実験装置により、HEベースのNV磁力計は4.3 ~ \mathrm{nT} / \sqrt{\mathrm{Hz}}$と3.6 ~ \mathrm{pT} / \sqrt{\mathrm{Hz} \cdot \mathrm{mm}^{-3}}$の3.6 ~ \sqrt{\mathrm{Hz} \cdot \mathrm{mm}^{-3}}$の5倍の感度を得た。 提案した磁力計の構成に基づいて、バースト渦電流(BEC)試験プロトタイプは、$$$300~{\mu} \mathrm{m}}$より小さい最小検出可能なサンプルと9.85~\mathrm{\mu} \mathrm{m}$の測定精度を達成する。 異なる金属の標本を画像化し、層状の内部構造を検知するために使用される。 プロトタイプは超高感度であるため, 変形モニタリング, セキュリティスクリーニング, 品質管理の分野において, 様々な応用が期待できる。 さらに、生体適合性とナノスケール分解能は、生体材料分野における電磁試験の道を開く。

In this work, a burst eddy current testing technique based on the employment of a diamond nitrogen vacancy (NV) center magnetometer with the Hahn echo (HE) sequence is demonstrated. With the confocal experiment apparatus, the HE-based NV magnetometer attained a magnetic sensitivity of $4.3 ~ \mathrm{nT} / \sqrt{\mathrm{Hz}}$ and a volume-normalized sensitivity of $3.6 ~ \mathrm{pT} / \sqrt{\mathrm{Hz} \cdot \mathrm{mm}^{-3}}$, which are 5 times better than the already existing method under the same conditions. Based on the proposed magnetometer configuration, a burst eddy current (BEC) testing prototype achieves a minimum detectable sample smaller than ${300~{\mu} \mathrm{m}}$ and measurement accuracy of $9.85~\mathrm{\mu} \mathrm{m}$., which is employed to image different metallic specimens and detect the layered internal structures. Since our prototype comprises superb high sensitivity, it exhibits various potential applications in the fields of deformation monitoring, security screening, and quality control. Moreover, its biocompatibility and promising nanoscale resolution paves the way for electromagnetic testing in the fields of biomaterials.
翻訳日:2023-03-11 04:28:32 公開日:2021-10-26
# 有限温度量子不協和臨界

Finite-temperature quantum discordant criticality ( http://arxiv.org/abs/2110.10597v2 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Tiago Mendes-Santos, Fabrizio Illuminati, Marcello Dalmonte(参考訳) 量子統計力学では、有限温度相転移は典型的には古典場の理論によって制御される。 この文脈では、量子相関の役割は不明確であり、近年の貢献は、エンタングルメントが典型的に非常に短距離であり、したがって長距離臨界相関に対して非形式的であることを示している。 本研究では、エントロピー量子ディスコードであるエンタングルメントよりも幅広い量子相関が臨界挙動の真正なシグネチャを表示することができる有限温度相転移の存在を示す。 2次元および3次元の格子における可積分ボゾン場理論を考察し、2モードのガウス不協和が近辺分離を超えて絡み合う負性理論が消える場合でも、距離とともに代数的に崩壊することを示す。 ゼロ温度制限に体系的に近づくと、量子相関と臨界挙動の一般的な図を描き、絡み合った量子物質と非調和な量子物質の間の遷移を自然に記述することができる。

In quantum statistical mechanics, finite-temperature phase transitions are typically governed by classical field theories. In this context, the role of quantum correlations is unclear: recent contributions have shown how entanglement is typically very short-ranged, and thus uninformative about long-ranged critical correlations. In this work, we show the existence of finite-temperature phase transitions where a broader form of quantum correlation than entanglement, the entropic quantum discord, can display genuine signatures of critical behavior. We consider integrable bosonic field theories in both two- and three-dimensional lattices, and show how the two-mode Gaussian discord decays algebraically with the distance even in cases where the entanglement negativity vanishes beyond nearest-neighbor separations. Systematically approaching the zero-temperature limit allows us to connect discord to entanglement, drawing a generic picture of quantum correlations and critical behavior that naturally describes the transition between entangled and discordant quantum matter.
翻訳日:2023-03-11 00:02:11 公開日:2021-10-26
# 量子多重回転のコストを半減する

Halving the cost of quantum multiplexed rotations ( http://arxiv.org/abs/2110.13439v1 )

ライセンス: Link先を確認
Guang Hao Low(参考訳) 多重化量子ゲートの$b$-bit近似に必要な$T$ゲートの数を$c$制御で改善し、$n$単一量子ビット任意の位相回転を$n$b+\mathcal{O}(\sqrt{cn b})$から$2nb+\mathcal{O}(\sqrt{cn b})$へ適用し、最大2倍まで必要となるキュービットの数を減らす。 この一般的な量子回路プリミティブは多くの量子アルゴリズムに存在し、この結果は二重因子化またはテンソル超縮約表現の量子化に基づく最先端電子構造シミュレーションのコストをほぼ半減する。 量子回路の確率的コンパイルに関する最近の考え方を古典的データに拡張し、その実装における時空トレードオフと測度集中について論じる。

We improve the number of $T$ gates needed for a $b$-bit approximation of a multiplexed quantum gate with $c$ controls applying $n$ single-qubit arbitrary phase rotations from $4n b+\mathcal{O}(\sqrt{cn b})$ to $2n b+\mathcal{O}(\sqrt{cn b})$, and reduce the number of qubits needed by up to a factor of two. This generic quantum circuit primitive is found in many quantum algorithms, and our results roughly halve the cost of state-of-art electronic structure simulations based on qubitization of double-factorized or tensor-hypercontracted representations. We achieve this by extending recent ideas on stochastic compilation of quantum circuits to classical data and discuss space-time trade-offs and concentration of measure in its implementation.
翻訳日:2023-03-10 05:52:02 公開日:2021-10-26
# 原始質量粒子の重ね合わせによる重力の量子シグネチャ

Quantum Signatures of Gravity from Superpositions of Primordial Massive Particles ( http://arxiv.org/abs/2110.13438v1 )

ライセンス: Link先を確認
Gowtham Amirthya Neppoleon, Aditya Iyer, Vlatko Vedral, and Yi Wang(参考訳) 我々は、原始質量粒子の重ね合わせを研究し、放射支配宇宙における関連するデコヒーレンス時間スケールを計算する。 質量が10^7\,\rm{kg}$の軽い原始粒子の場合、対応するデコヒーレンス時間スケールは観測可能な宇宙の年齢よりもかなり大きく、原始粒子が純粋な量子状態で持続し、波動関数は自由に広がることが示されている。 重い粒子の場合、その位置の不確かさは背景光子の波長によって制限されるが、量子状態にある可能性がある。 次に、原始ブラックホールやその他の重いダークマター候補のような原始粒子の量子重ね合わせ、すなわち、計量の重ね合わせによる干渉効果、重力子の存在を示す重力束縛状態による重力波スペクトルの遷移線、質量粒子と重力場の量子絡み合いの目撃から生じる3つの観測信号について論じる。

We study the superposition of primordial massive particles and compute the associated decoherence time scale in the radiation dominated universe. We observe that for lighter primordial particles with masses up to $10^7\,\rm{kg}$, the corresponding decoherence time scale is significantly larger than the age of the observable universe, demonstrating that a primordial particle would persist in a pure quantum state, with its wavefunction spreading freely. For heavier particles, they can still be in a quantum state while their position uncertainties are limited by the wavelength of background photons. We then discuss three observational signatures that may arise from a quantum superposition of primordial particles such as primordial black holes and other heavy dark matter candidates, namely, interference effects due to superpositions of the metric, transition lines in the gravitational wave spectrum due to gravitationally bound states indicating the existence of gravitons, and witnesses of quantum entanglement between massive particles and of the gravitational field.
翻訳日:2023-03-10 05:51:38 公開日:2021-10-26
# BackPropagation Neural Networkによる一般化Werner状態の安定性境界の検出

Detected the steerability bounds of the generalized Werner states via BackPropagation neural network ( http://arxiv.org/abs/2110.13379v1 )

ライセンス: Link先を確認
Jun Zhang, Kan He, Ying Zhang, Yu-Yang Hao, Jin-Chuan Hou, Fang-Peng Lan, Bao-Ning Niu(参考訳) 誤差バックプロパゲーション(BP)ニューラルネットワークを用いて、任意の2量子ビット量子状態がステアブルかどうかを判定し、一般化されたWerner状態のステアビリティ境界を最適化する。 その結果、量子状態の特徴をどのように選択したとしても、BPニューラルネットワークを用いて複数のモデルを構築し、サポートベクトルマシン(SVM)と比較して高性能な量子ステアリング分類器を実現することができた。 さらに、BPニューラルネットワークによって新たに構築された分類器を用いて、一般化されたWerner状態のステアビリティ境界を予測し、予測されたステアビリティ境界が理論的境界に近いように予測する。 特に,3つの測定方向のみを測定する必要がある量子状態の部分的情報を持つ高性能分類器が得られた。

We use error BackPropagation (BP) neural network to determine whether an arbitrary two-qubit quantum state is steerable and optimize the steerability bounds of the generalized Werner state. The results show that no matter how we choose the features for the quantum states, we can use the BP neural network to construct several models to realize high-performance quantum steering classifiers compared with the support vector machine (SVM). In addition, we predict the steerability bounds of the generalized Werner states by using the classifiers which are newly constructed by the BP neural network, that is, the predicted steerability bounds are closer to the theoretical bounds. In particular, high-performance classifiers with partial information of the quantum states which we only need to measure in three fixed measurement directions are obtained.
翻訳日:2023-03-10 05:50:59 公開日:2021-10-26
# 量子暗号資源の蒸留と絡み合い

Quantum cryptographic resource distillation and entanglement ( http://arxiv.org/abs/2110.13707v1 )

ライセンス: Link先を確認
Minjin Choi, Soojoon Lee(参考訳) 量子鍵分布や量子秘密共有を含む量子暗号プロトコルを完璧に実行可能な多部量子状態について検討し、その多部量子状態が与えられた多部量子状態から蒸留できる漸近速度として量子暗号資源蒸留速度を定義する。 エンタングルメントとレートの関係について検討した結果、量子暗号資源の蒸留速度が厳密に正である多元結合エンタングル状態、すなわち、蒸留不可能であるが量子鍵分布や量子秘密共有のような量子暗号に有用である多元結合エンタングル状態が存在することが示されている。

We look into multipartite quantum states on which quantum cryptographic protocols including quantum key distribution and quantum secret sharing can be perfectly performed, and define the quantum cryptographic resource distillable rate as the asymptotic rate at which such multipartite state can be distilled from a given multipartite state. Investigating several relations between entanglement and the rate, we show that there exists a multipartite bound entangled state whose quantum cryptographic resource distillable rate is strictly positive, that is, there exists a multipartite entangled state which is not distillable, but can be useful for quantum cryptography such as quantum key distribution and quantum secret sharing.
翻訳日:2023-03-10 05:43:29 公開日:2021-10-26
# 複雑な構造環境における電磁粘度:黒体から量子摩擦へ

Electromagnetic Viscosity in Complex Structured Environments: From black-body to Quantum Friction ( http://arxiv.org/abs/2110.13635v1 )

ライセンス: Link先を確認
M. Oelschl\"ager, D. Reiche, C. H. Egerland, K. Busch and F. Intravaia(参考訳) 一般複合構造電磁環境における原子の非保存的開システムダイナミクスを温度$t$で検討する。 このような系では、原子が環境の翻訳不変軸に沿って移動すると、摩擦力が粒子に作用する。 摩擦による有効粘度は、変動する(量子)電磁場との非平衡相互作用によって生じる。 量子的および熱的ゆらぎが相互作用に与える影響について研究し、量子的および黒体摩擦など、定性的に異なる粘度を誘導する方法を明らかにする。 この目的のために、後者を特殊ケースとして含む自己一貫性のない非マルコフ記述を開発する。 特に、非平衡ダイナミクス、量子、放射の熱的性質、および真空-物質界面における光の閉じ込めが、いくつかの興味深い興味深い興味深い特徴にどのように関与しているかを示す。 本研究は,非接触摩擦実験と電磁粘度に関する今後の実験に関係している。

We investigate the nonconservative open-system dynamics of an atom in a generic complex structured electromagnetic environment at temperature $T$. In such systems, when the atom moves along a translation-invariant axis of the environment, a frictional force acts on the particle. The effective viscosity due to friction results from the nonequilibrium interaction with the fluctuating (quantum) electromagnetic field, which effectively sets a privileged reference frame. We study the impact of both quantum or thermal fluctuations on the interaction and highlight how they induce qualitatively different types of viscosity, i.e. quantum and black-body friction. To this end, we develop a self-consistent non-Markovian description that contains the latter as special cases. In particular, we show how the interplay between the nonequilibrium dynamics, the quantum and the thermal properties of the radiation, as well as the confinement of light at the vacuum-material interface is responsible for several interesting and intriguing features. Our analyses is relevant for a future experimental test of noncontact friction and the resulting electromagnetic viscosity.
翻訳日:2023-03-10 05:43:16 公開日:2021-10-26
# 最大ランダムnビット量子情報状態の幾何学的確率とフィボナッチ数

Geometric Probabilities and Fibonacci Numbers for Maximally Random n-Qubit Quantum Information States ( http://arxiv.org/abs/2110.13593v1 )

ライセンス: Link先を確認
Oktay K Pashaev(参考訳) n-trial におけるハダマール量子コインの反転問題とそれに関連する数値の一般化フィボナッチ列は [1] で導入された。 逐次連続状態の任意の数に対して、重複状態のフィボナッチ数、三重項状態のトライボナッチ数、N-ボナッチ数により確率が決定されることを示した。 本稿では、これらの結果を多重量子状態の直積と反復状態の任意の位置に対して一般化する。 計算は、クビット状態の空間におけるフィボナッチ木の構造に基づいており、左右に成長し、枝の数と樹上の許容経路に基づいている。 最大シャノンエントロピーを持つランダムnビット状態として$n$-qubit量子コインを用いることで、量子確率は幾何学的確率によって計算可能であることを示す。 量子情報理論における幾何学的確率の応用の可能性を示す。 確率の黄金比と無限大へのnの極限について議論する。

The problems of Hadamard quantum coin flipping in n-trials and related generalized Fibonacci sequences of numbers were introduced in [1]. It was shown that for an arbitrary number of repeated consecutive states, probabilities are determined by Fibonacci numbers for duplicated states, Tribonacci numbers for triplicated states and N-Bonacci numbers for arbitrary N-plicated states. In the present paper we generalize these results for direct product of multiple qubit states and arbitrary position of repeated states. The calculations are based on structure of Fibonacci trees in space of qubit states, growing in the left and in the right directions, and number of branches and allowed paths on the trees. By using $n$-qubit quantum coins as random n-qubit states with maximal Shannon entropy, we show that quantum probabilities can be calculated by means of geometric probabilities. It illustrates possible application of geometric probabilities in quantum information theory. The Golden ratio of probabilities and the limit of n going to infinity are discussed.
翻訳日:2023-03-10 05:42:40 公開日:2021-10-26
# NISQハードウェアを用いた局所ハミルトニアンの位相推定

Phase Estimation of Local Hamiltonians on NISQ Hardware ( http://arxiv.org/abs/2110.13584v1 )

ライセンス: Link先を確認
Laura Clinton, Johannes Bausch, Joel Klassen, Toby Cubitt(参考訳) 本研究では,[Somma 2019] が設定した量子位相推定(QPE)の結合バージョンについて検討し,量子固有値推定問題 (QEEP) と呼ばれる。 具体的には,先行研究 [clinton et al 2020] における回路分解技術が,nisq方式におけるqeepの性能を向上させることができるかどうかを判定する。 この目的のために、我々は、[Clinton et al 2020]のように、NISQデバイス機能の物理的に動機付けられた抽象化を採用しています。 このフレームワーク内では、我々の手法は、このアルゴリズムの最小の2-binインスタンスを実行することができるしきい値を1桁削減できることを見出します。 これは二次元スピンフェルミ・ハバード模型の具体例である。 例えば、$3\times 3$ spin Fermi-Hubbardモデル上で10\%の許容誤差を与えられた場合、[Somma 2019]の位相推定プロトコルは、従来のゲート合成法がスペクトル範囲全体をカバーするビン幅の回路深さで約1/9のビン幅で実行可能である。 本稿では,このプロトコルの変更の可能性を探り,Randomized Quantum Eigenvalue Estimation Problem (rQeep) と呼ぶアプリケーションを提案する。 rQeep はランダムに選択されたビン内にある固有値の分数に基づいて見積もりを出力し、これらの見積もりの総偏差を真の値から上界に出力する。 このアルゴリズムのユースケースの1つは、スペクトルギャップのような局所ハミルトンの状態特徴の密度を解くことである。

In this work we investigate a binned version of Quantum Phase Estimation (QPE) set out by [Somma 2019] and known as the Quantum Eigenvalue Estimation Problem (QEEP). Specifically, we determine whether the circuit decomposition techniques we set out in previous work, [Clinton et al 2020], can improve the performance of QEEP in the NISQ regime. To this end we adopt a physically motivated abstraction of NISQ device capabilities as in [Clinton et al 2020]. Within this framework, we find that our techniques reduce the threshold at which it becomes possible to perform the minimum two-bin instance of this algorithm by an order of magnitude. This is for the specific example of a two dimensional spin Fermi-Hubbard model. For example, given a $10\%$ acceptable error on a $3\times 3$ spin Fermi-Hubbard model, with a depolarizing noise rate of $10^{-6}$, we find that the phase estimation protocol of [Somma 2019] could be performed with a bin width of approximately $1/9$ the total spectral range at the circuit depth where traditional gate synthesis methods would yield a bin width that covers the entire spectral range. We explore possible modifications to this protocol and propose an application, which we call Randomized Quantum Eigenvalue Estimation Problem (rQeep). rQeep outputs estimates on the fraction of eigenvalues which lie within randomly chosen bins and upper bounds the total deviation of these estimates from the true values. One use case we envision for this algorithm is resolving density of states features of local Hamiltonians, such as spectral gaps.
翻訳日:2023-03-10 05:42:24 公開日:2021-10-26
# 歴史的DNSデータを用いたデジタル衛生の有効性の測定

Measuring the Effectiveness of Digital Hygiene using Historical DNS Data ( http://arxiv.org/abs/2110.13562v1 )

ライセンス: Link先を確認
Oliver Farnan and Gregory Walton and Joss Wright(参考訳) 本稿では,中央アジアの6つの高リスク低容量市民社会組織(CSO)におけるデジタル安全介入の有効性について検討する。 この評価は、研究者がインストールしたセキュリティツールを通じて取得した各組織におけるDNSトラフィックの統計分析の形を取る。 この仮説は、CSOネットワークにインストールされたクラウドベースのDNSファイアウォールによって傍受されるマルウェアの数によって測定されるように、デジタル安全介入がCSOの全体的なデジタルセキュリティ姿勢を強化するというものである。 本研究は、デジタル安全介入に参加しているCSOからDNSトラフィックを収集し、その介入が行われていない2つのCSOの第2グループからのDNSトラフィックに対して、4つのCSOからなる治療群を比較した。 このプロジェクトは進行中で、多くの中央アジアのcsosでデータ収集が進行中である。 本稿では,プロジェクトの実験設計について概説し,DNSファイアウォールからの早期データについて考察する。 これは、このようなDNSデータを用いてデジタル衛生活動の有効性を正確に評価できるかどうかという究極の疑問を支援するためである。

This paper describes an ongoing experiment evaluating the efficacy of a digital safety intervention in six high-risk, low capacity Civil Society Organisations (CSOs) in Central Asia. The evaluation takes the form of statistical analysis of DNS traffic in each organisation, obtained via security tools installed by researchers. The hypothesis is that the digital safety intervention strengthens the overall digital security posture of the CSOs, as measured by number of malware attacks intercepted by a cloud-based DNS firewall installed on the CSOs networks. The research collects DNS traffic from CSOs that are participating in the digital safety intervention, and compares a treatment group consisting of four CSOs against DNS traffic from a second group of two CSOs in which the intervention has not yet taken place. This project is ongoing, with data collection underway at a number of Central Asian CSOs. In this paper we outline the experimental design of the project, and look at the early data coming out of the DNS firewall. This is done to support the ultimate question of whether DNS data such as this can be used to accurately assess the efficacy of digital hygiene efforts.
翻訳日:2023-03-10 05:41:40 公開日:2021-10-26
# 光空洞に閉じ込められたイオン : 数光子状態における光学的遷移の数値的研究

A trapped ion in an optical cavity: numerical study of an optomechanical transition in the few-photon regime ( http://arxiv.org/abs/2110.13843v1 )

ライセンス: Link先を確認
Alan Kahan, Leonardo Ermann and Cecilia Cormick(参考訳) 本稿では, 閉じ込められたイオンが励起光空洞の単一モードに分散結合して構成する光学系について考察する。 半古典的記述が小型および大型光子ポンピングの限界における2つの明確な平衡配置を予測できるパラメータ範囲に焦点をあてる一方、中間ポンピングにはバイスタブルな状態を求める。 しかし、この半古典的な記述は、系が遷移するか、あるいは平均光子数が低い場合に有効ではない。 ここでは、数光子状態における完全量子状態の数値解析を行い、遷移における漸近状態の特徴を探求し、半古典的不安定性のマーカーを解析する。 我々は、系のエントロピーと遷移領域の絡み合いの増加を見出したが、進化のスペクトルにおけるメタスタビリティの明確なサインは見つからなかった。

We consider an optomechanical system composed by a trapped ion dispersively coupled to a single mode of a pumped optical cavity. We focus in a parameter range for which the semiclassical description predicts two clearly distinct equilibrium configurations in the limits of small and large photon pumping, while a bistable regime is found for intermediate pumping. This semiclassical description, however, is not valid in close proximity of the system transitions or when the mean photon number is low. Here we provide a numerical analysis of the fully quantum state in the few-photon regime, exploring the features of the asymptotic state across the transition and analyzing possible markers of semiclassical bistability. We find an increase in the entropy of the system and of the entanglement in the transition region, but no clear signatures of metastability in the spectrum of the evolution.
翻訳日:2023-03-10 05:35:06 公開日:2021-10-26
# SU($N$)トーリックコードと非アーベルアポン

SU($N$) Toric Code and Nonabelian Anyons ( http://arxiv.org/abs/2110.13841v1 )

ライセンス: Link先を確認
Manu Mathur, Atul Rathor(参考訳) 二次元トーラス上のsu($n$)電気および磁束のダイナミクスを記述するsu($n$)トーラス符号モデルを構築する。 n^2$ 位相的に異なる基底状態 $|\psi_0\rangle_{({\mathsf p},{\mathsf q})} が成立し、これらのループ状態は $z_n \otimes z_n$ 中心電荷 $({\mathsf p},{\mathsf q} =0,1,2,\cdots, n-1)$ で特徴づけられる。 我々は、ウィグナー係数を振幅としてトーラス上の全ての可能なスピンネットワーク状態のコヒーレント重ね合わせを明示的に構成する。 SU($N$)の電荷と磁束を持つ全ての励起準粒子状態が構築される。 これらのSU(N) 電気, 磁性準粒子, 非アーベル粒子のブレイディング統計がウィグナー回転行列に符号化されていることを示す。

We construct SU($N$) toric code model describing the dynamics of SU($N$) electric and magnetic fluxes on a two dimensional torus. We show that the model has $N^2$ topologically distinct ground states $|\psi_0\rangle_{({\mathsf p},{\mathsf q})}$ which are loop states characterized by $Z_N \otimes Z_N$ centre charges $({\mathsf p},{\mathsf q} =0,1,2,\cdots, N-1)$. We explicitly construct them in terms of coherent superpositions of all possible spin network states on torus with Wigner coefficients as their amplitudes. All excited quasiparticle states with SU($N$) electric charges and magnetic fluxes are constructed. We show that the braiding statistics of these SU(N) electric, magnetic quasiparticles or nonabelian anyons is encoded in the Wigner rotation matrices.
翻訳日:2023-03-10 05:34:50 公開日:2021-10-26
# 量子計測による2つのスピン量子ビットの絡み合い崩壊の遅延

Retardation of entanglement decay of two spin qubits by quantum measurements ( http://arxiv.org/abs/2110.13826v1 )

ライセンス: Link先を確認
Igor Bragar(参考訳) 2つの電子スピン量子ドット(qd)量子ビットのプロトタイプシステムであるnse(small nuclear spin environment)と相互作用する2つの電子スピンの系について検討した。 本稿では、2電子スピンサブシステム(TESSS)における絡み合いの減衰を、TESSS(実験者がアクセスするサブシステム)上で操作することで、TESSSの繰り返し可能な量子射影測定を行う方法を提案する。 量子ゼノ効果とは異なり、提案された操作の目標は、初期状態でのTESSSの凍結ではなく、無限に頻繁な量子測定によって状態の時間進化を妨げることである。 その代わりに、しばらくの間システムの自由進化のサイクルを実行し、その後、TESSS状態(初期状態と同じ)の後にTESSSの量子的測定を行い、NSEの量子的相関を生成し、TESSSの量子的相関を復元する。 システム進化の数値計算(フル密度行列$\hat \rho(t)$)により、TESSSエンタングルメントの時間スケールでの高速な崩壊とは対照的に、提案された操作シーケンスの適用は、システム全体のコヒーレンスを徐々に増加させ、TESSSの量子相関の残りの崩壊は、特定のサイクル期間$\tau$と実行されたサイクル数に対して著しく遅くなる可能性があることを示す。

We study a system of two electron spins each interacting with its small nuclear spin environment (NSE), which is a prototype system of two electron spin quantum dot (QD) qubits. We propose a way to counteract the decay of entanglement in two-electron spin subsystem (TESSS) by performing some manipulations on TESSS (the subsystem to which experimentalists have an access), e.g. repeatable quantum projective measurements of TESSS. Unlike in the quantum Zeno effect, the goal of the proposed manipulations is not to freeze TESSS in its initial state and to preclude any time evolution of the state by infinitely frequent quantum measurements. Instead of that, performing a few cycles of free evolution of the system for some time $\tau$ followed by a quantum measurement of TESSS with subsequent postselection of TESSS state (the same as the initial one) produces quantum correlations in NSEs and also restores the quantum correlations in TESSS. By numerical calculation of the system evolution (the full density matrix $\hat \rho(t)$), we show that, in contrast to the fast decay of TESSS entanglement on timescale of the order of $T_2^*$, application of the proposed manipulation sequence gradually builds up coherences in the entire system and the rest decay of quantum correlations of TESSS may be significantly slowed down for specific cycle durations $\tau$ and numbers of performed cycles.
翻訳日:2023-03-10 05:34:06 公開日:2021-10-26
# 一般対称性群に対する量子フレーム共分散の遠近ニュートラルアプローチ

Perspective-neutral approach to quantum frame covariance for general symmetry groups ( http://arxiv.org/abs/2110.13824v1 )

ライセンス: Link先を確認
Anne-Catherine de la Hamette, Thomas D. Galley, Philipp A. Hoehn, Leon Loveridge and Markus P. Mueller(参考訳) 外部相対性がない場合、内部量子参照系(qrfs)は量子重力、ゲージ理論、量子基礎に関する文献に広く見られる。 ここでは、QRF共分散に対するパースペクティブニュートラルアプローチを一般の一モジュラーリー群に拡張する。 これは「量子座標変換」という形で、明らかにゲージ不変なヒルベルト空間を通して内部qrfの視点を結びつける枠組みであり、それが特殊共変性の量子拡張であることを示す。 我々は、QRF配向をコヒーレントな状態としてモデル化し、共変POVMを生じさせ、一貫した確率解釈を行い、向きが完全に区別できない非理想的QRFを包含する。 関係観測可能性の構成を一般化し、それらの代数的性質を多種多様化し、それらを透明な条件付き確率解釈で満たす。 ゲージ変換と物理対称性の区別をゲージ理論から抽出し、後者をQRF再配向として同定する。 量子座標写像」は、QRFの向きの条件付けによって構成され、ページ・ウォッタース形式と対称性の低減手順を一般化する。 ゲージ誘起「量子座標変換」は、記述と対称性のパッシブユニタリな変化として、ある qrf から別の qrf への関係観測可能性のアクティブな変化を誘発する。 新しい効果を明らかにします。 (i)非自明な配向等方性群を有するqrfは、他のサブシステムの等方性群不変性のみを解決できる。 (ii) 対称性が存在しないとき、内部視点ヒルベルト空間は、qrf が向きを変えるとき、キネマティックサブシステムヒルベルト空間を通して回転する。 最後に、他のアプローチと比較する前に、サブシステムの量子相対性理論を一般化するために対称性を呼び出す。 【橋渡し】

In the absence of external relata, internal quantum reference frames (QRFs) appear widely in the literature on quantum gravity, gauge theories and quantum foundations. Here, we extend the perspective-neutral approach to QRF covariance to general unimodular Lie groups. This is a framework that links internal QRF perspectives via a manifestly gauge-invariant Hilbert space in the form of "quantum coordinate transformations", and we clarify how it is a quantum extension of special covariance. We model the QRF orientations as coherent states which give rise to a covariant POVM, furnishing a consistent probability interpretation and encompassing non-ideal QRFs whose orientations are not perfectly distinguishable. We generalize the construction of relational observables, establish a variety of their algebraic properties and equip them with a transparent conditional probability interpretation. We import the distinction between gauge transformations and physical symmetries from gauge theories and identify the latter as QRF reorientations. The "quantum coordinate maps" into an internal QRF perspective are constructed via a conditioning on the QRF's orientation, generalizing the Page-Wootters formalism and a symmetry reduction procedure. We find two types of QRF transformations: gauge induced "quantum coordinate transformations" as passive unitary changes of description and symmetry induced active changes of relational observables from one QRF to another. We reveal new effects: (i) QRFs with non-trivial orientation isotropy groups can only resolve isotropy-group-invariant properties of other subsystems; (ii) in the absence of symmetries, the internal perspective Hilbert space "rotates" through the kinematical subsystem Hilbert space as the QRF changes orientation. Finally, we invoke the symmetries to generalize the quantum relativity of subsystems before comparing with other approaches. [Abridged]
翻訳日:2023-03-10 05:33:34 公開日:2021-10-26
# 非線形ボソンサンプリング

Non-linear Boson Sampling ( http://arxiv.org/abs/2110.13788v1 )

ライセンス: Link先を確認
Nicol\`o Spagnolo and Daniel J. Brod and Ernesto F. Galv\~ao and Fabio Sciarrino(参考訳) ボソンサンプリング(boson sampling)は、古典的なコンピュータでは計算が難しいと推測されるタスクであるが、フォック状態入力を持つ線形光学干渉計によって効率的に解くことができる。 近年、小型・中規模の装置のデモンストレーションやガウス・ボソン・サンプリングのような変種の実装など、大きな進歩が報告されている。 量子アドバンテージの曖昧な実験実験のためのクエストにおいて、このタイプの計算モデルの関連性に加えて、最近の研究はハイブリッド量子コンピューティングへの最初の応用も提案している。 本稿では,ボゾンサンプリングフレームワークにおける非線形光子-光子相互作用の導入について紹介するとともに,明示的な線形光学シミュレーション手法を用いて複雑さの増大を解析する。 ボソンサンプリングの計算表現性を拡張することで、非線形性の導入は、このクラスの量子デバイスに対する新しい機能を明らかにすることを約束する。 したがって、この結果は、短期的に制限されたフォトニック量子コンピュータの新しい応用につながると期待されている。

Boson Sampling is a task that is conjectured to be computationally hard for a classical computer, but which can be efficiently solved by linear-optical interferometers with Fock state inputs. Significant advances have been reported in the last few years, with demonstrations of small- and medium-scale devices, as well as implementations of variants such as Gaussian Boson Sampling. Besides the relevance of this class of computational models in the quest for unambiguous experimental demonstrations of quantum advantage, recent results have also proposed first applications for hybrid quantum computing. Here, we introduce the adoption of non-linear photon-photon interactions in the Boson Sampling framework, and analyze the enhancement in complexity via an explicit linear-optical simulation scheme. By extending the computational expressivity of Boson Sampling, the introduction of non-linearities promises to disclose novel functionalities for this class of quantum devices. Hence, our results are expected to lead to new applications of near-term, restricted photonic quantum computers.
翻訳日:2023-03-10 05:32:22 公開日:2021-10-26
# 非対称格子トレンチに基づく垂直噴射と広帯域グレーティングカプラ

Vertical Injection and Wideband Grating Coupler Based on Asymmetric Grating Trenches ( http://arxiv.org/abs/2110.14085v1 )

ライセンス: Link先を確認
Md Asaduzzaman, Robert J. Chapman, Brett C. Johnson, and Alberto Peruzzo(参考訳) シリコン・オン・インシュレーター (soi) 完全垂直なファイバー・チップ・グレーティング・カプラを提案し, 設計したサブ波長構造に基づいて設計した。 非対称回折を実現するためにステップグレーティングを実装し、補助超波長グレーティングで有効指数変動を適用することで、カプラの高方向性を達成する。 2次元差分時間領域 (2D FDTD) 法を用いて数値解析を行い、76% (-1.19 dB) の結合効率と39nm 1-dB帯域幅を実現する。

A Silicon-on-insulator (SOI) perfectly vertical fibre-to-chip grating coupler is proposed and designed based on engineered subwavelength structures. The high directionality of the coupler is achieved by implementing step gratings to realize asymmetric diffraction and by applying effective index variation with auxiliary ultra-subwavelength gratings. The proposed structure is numerically analysed by using two-dimensional Finite Difference Time Domain (2D FDTD) method and achieves 76% (-1.19 dB) coupling efficiency and 39 nm 1-dB bandwidth.
翻訳日:2023-03-10 05:25:08 公開日:2021-10-26
# ナノレーザーのクローズ

Cloaking a nanolaser ( http://arxiv.org/abs/2110.14077v1 )

ライセンス: Link先を確認
Sergey Lepeshov, Andrey Vyshnevyy, and Alex Krasnok(参考訳) 発光素子は吸収と散乱の強化によって光と強く相互作用し、太陽電池、ナノアンテナ、(nano)レーザーなどのフォトニックデバイスの設計と性能に制限が課される。 これらの限界を克服するには、非効率的な非相互アプローチや、周波数や時間領域での放射と散乱の分離が不可欠である。 ある状態における効率的なエミッタの特性と他の状態において見えない性質を組み合わせた設計は、様々な用途において不可欠である。 本研究では, 位相遷移材料(Sb2S3)で被覆されたゲインを有する半導体ナノ粒子を用いたナノレーザの設計を提案する。 ナノレーザーの動作特性を厳密に検討した。 設計したナノレーザーは、光学的または電気的ポンピングで動作でき、強いベータ因子と強いパーセルの強化により閾値のないレーザーの特性を有する。 我々は、ラシングから非散乱状態へ可逆的に切り替えることができるラシングクローズされたメタ原子からなる再構成可能なメタ曲面を設計する。

Light emitters are bound to strongly interact with light through enhanced absorption and scattering, which imposes limitations on the design and performance of photonic devices such as solar cells, nanoantennas, and (nano) lasers. Overcoming these limitations forces the use of ineffective nonreciprocity approaches or separation of radiation and scattering in the frequency or time domain. A design that combines the properties of an efficient emitter in one state and the property of being invisible in another state is vital for various applications. In this work, we propose a nanolaser design based on a semiconductor nanoparticle with gain coated by a phase transition material (Sb2S3), switchable between lasing and cloaking (nonscattering) states at the same operating frequency without change in pumping. The operation characteristics of the nanolaser are rigorously investigated. The designed nanolaser can operate with optical or electric pumping and possesses attributes of a thresholdless laser due to the high beta-factor and strong Purcell enhancement in the strongly confined Mie resonance mode. We design a reconfigurable metasurface composed of lasing-cloaking metaatoms that can switch from lasing to a nonscattering state in a reversible manner.
翻訳日:2023-03-10 05:24:57 公開日:2021-10-26
# キー値メモリネットワークにおける生物学習

Biological learning in key-value memory networks ( http://arxiv.org/abs/2110.13976v1 )

ライセンス: Link先を確認
Danil Tyulmankov, Ching Fang, Annapurna Vadaparty, Guangyu Robert Yang(参考訳) 神経科学において、古典的なホップフィールドネットワークは、長期記憶の標準的な生物学的に妥当なモデルであり、記憶のためのヘビアン可塑性と記憶のためのアトラクタダイナミクスに依存している。 対照的に、機械学習におけるメモリ提供ニューラルネットワークは、通常、キーバリューメカニズムを使用して、単一のステップで記憶を保存、読み出す。 このような拡張ネットワークは、従来の変種と比べて印象的な記憶力を発揮するが、生物学的な関連性は明らかではない。 本稿では,生物学的に実現可能な3要素可塑性規則を組み合わせて入力を格納する基本キー値メモリの実装を提案する。 ネットワークパラメータがメタ学習されると、同じルールが復元される。 我々のネットワークは、自己連想型メモリタスクにおける古典的なホップフィールドネットワークと同等に動作し、連続的リコール、ヘテロ連想型メモリ、シーケンス学習に自然に拡張できる。 本研究は生物の長期記憶のモデルとして古典的ホップフィールドネットワークの代替案を示唆する。

In neuroscience, classical Hopfield networks are the standard biologically plausible model of long-term memory, relying on Hebbian plasticity for storage and attractor dynamics for recall. In contrast, memory-augmented neural networks in machine learning commonly use a key-value mechanism to store and read out memories in a single step. Such augmented networks achieve impressive feats of memory compared to traditional variants, yet their biological relevance is unclear. We propose an implementation of basic key-value memory that stores inputs using a combination of biologically plausible three-factor plasticity rules. The same rules are recovered when network parameters are meta-learned. Our network performs on par with classical Hopfield networks on autoassociative memory tasks and can be naturally extended to continual recall, heteroassociative memory, and sequence learning. Our results suggest a compelling alternative to the classical Hopfield network as a model of biological long-term memory.
翻訳日:2023-03-10 05:23:33 公開日:2021-10-26
# 単一ZnOナノワイヤにおけるインジウムドナー量子のコヒーレントスピン生成

Coherent Spin Preparation of Indium Donor Qubits in Single ZnO Nanowires ( http://arxiv.org/abs/2110.13879v1 )

ライセンス: Link先を確認
Maria L. K. Viitaniemi (1), Christian Zimmermann (1), Vasileios Niaouris (1), Samuel H. D'Ambrosia (1), Xingyi Wang (2), E. Senthil Kumar (3), Faezeh Mohammadbeigi (3), Simon P. Watkins (3), Kai-Mei C. Fu (1 and 2) ((1) Department of Physics, University of Washington, Seattle, USA, (2) Department of Electrical Engineering, University of Washington, Seattle, USA, (3) Department of Physics, Simon Fraser University, Burnaby, Canada)(参考訳) ZnOの浅ドナーは光子を介する量子技術の候補である。 インジウムドナーを用いて, 良好なドナー結合励起子光学および電子スピン特性がznoナノワイヤに保持されることを示した。 単一ナノワイヤ(60GHz)の不均一光線幅は、バルク単結晶ZnOの2倍の範囲内である。 光ポンピングによるスピン初期化が示され、コヒーレント集団トラップが観察される。 2光子吸収幅は、インジウム核スピンとドナー結合電子との超微粒子相互作用によって予想される理論上の限界に近づく。

Shallow donors in ZnO are promising candidates for photon-mediated quantum technologies. Utilizing the indium donor, we show that favorable donor-bound exciton optical and electron spin properties are retained in isolated ZnO nanowires. The inhomogeneous optical linewidth of single nanowires (60 GHz) is within a factor of 2 of bulk single-crystalline ZnO. Spin initialization via optical pumping is demonstrated and coherent population trapping is observed. The two-photon absorption width approaches the theoretical limit expected due to the hyperfine interaction between the indium nuclear spin and the donor-bound electron.
翻訳日:2023-03-10 05:23:02 公開日:2021-10-26
# 2つの独立制御関数を用いた量子アニールの最適解法

Optimal solutions to quantum annealing using two independent control functions ( http://arxiv.org/abs/2110.13852v1 )

ライセンス: Link先を確認
Marllos E. F. Fernandes, Emanuel F. de Lima, and Leonardo K. Castelano(参考訳) 本稿では,問題ハミルトニアンと運転ハミルトニアンの組み合わせでシステムを進化させることにより,ある計算課題の解を符号化する対象状態を求めることによる量子コンピューティングパラダイムについて検討する。 独立制御関数によって変調される各ハミルトニアンの最適制御理論に照らして、このパラダイムを解析する。 短い進化時間と有界制御の場合、最適解は進化時間全体において上界で調整された2つの制御からなることを解析的に証明する。 この最適解は、その単純さと実験的実現性から魅力的である。 制御問題を数値的に解くため,制御の振幅を制限するために最適化された量子最適制御手法を提案する。 応用として、テレポーテーションプロトコルを検討し、2つの制御関数に対して得られたテレポーテーション状態の忠実度を通常の単一制御関数スキームと量子近似最適化アルゴリズム(QAOA)と比較する。 また,テレポーテーションプロトコルにおける系統的誤りに対するエネルギー的コストとロバスト性についても,時間発展の異なる手法を考慮して検討した。 2つの制御関数を持つスキームは、同じ進化時間における他のスキームよりも忠実であることを示す。

We investigate the quantum computing paradigm consisted of obtaining a target state that encodes the solution of a certain computational task by evolving the system with a combination of the problem-Hamiltonian and the driving-Hamiltonian. We analyze this paradigm in the light of Optimal Control Theory considering each Hamiltonian modulated by an independent control function. In the case of short evolution times and bounded controls, we analytically demonstrate that an optimal solution consists of both controls tuned at their upper bound for the whole evolution time. This optimal solution is appealing because of its simplicity and experimental feasibility. To numerically solve the control problem, we propose the use of a quantum optimal control technique adapted to limit the amplitude of the controls. As an application, we consider a teleportation protocol and compare the fidelity of the teleported state obtained for the two-control functions with the usual single-control function scheme and with the quantum approximate optimization algorithm (QAOA). We also investigate the energetic cost and the robustness against systematic errors in the teleportation protocol, considering different time evolution schemes. We show that the scheme with two-control functions yields a higher fidelity than the other schemes for the same evolution time.
翻訳日:2023-03-10 05:22:53 公開日:2021-10-26
# 平均治療効果推定のための効率的適応実験設計

Efficient Adaptive Experimental Design for Average Treatment Effect Estimation ( http://arxiv.org/abs/2002.05308v4 )

ライセンス: Link先を確認
Masahiro Kato, Takuya Ishihara, Junya Honda, Yusuke Narita(参考訳) A/Bテストを含む多くの科学実験の目標は、平均治療効果(ATE)を推定することであり、これは2つ以上の治療の期待結果の違いとして定義される。 本稿では,実験者が研究対象に対して順次治療を割り当てることができる状況について考察する。 適応的な実験設計において、実験者は、過去の観察を用いて、ATEを効率的に推定する処置を割り当てる確率を変更することができる。 しかし、このアプローチでは、観測が独立かつ同一に分布しないため、標準統計的手法を適用して推定器を構築することは困難である。 そこで本研究では,依存サンプルから構築した推定器を用いた効率的な実験を行うアルゴリズムを提案する。 提案した推定器を用いた逐次テストフレームワークも導入する。 提案手法を正当化するために,有限および無限サンプル解析を行う。 最後に,提案アルゴリズムが好適な性能を示すことを示す。

The goal of many scientific experiments including A/B testing is to estimate the average treatment effect (ATE), which is defined as the difference between the expected outcomes of two or more treatments. In this paper, we consider a situation where an experimenter can assign a treatment to research subjects sequentially. In adaptive experimental design, the experimenter is allowed to change the probability of assigning a treatment using past observations for estimating the ATE efficiently. However, with this approach, it is difficult to apply a standard statistical method to construct an estimator because the observations are not independent and identically distributed. We thus propose an algorithm for efficient experiments with estimators constructed from dependent samples. We also introduce a sequential testing framework using the proposed estimator. To justify our proposed approach, we provide finite and infinite sample analyses. Finally, we experimentally show that the proposed algorithm exhibits preferable performance.
翻訳日:2023-01-01 10:10:11 公開日:2021-10-26
# 適応型汎用ページランクグラフニューラルネットワーク

Adaptive Universal Generalized PageRank Graph Neural Network ( http://arxiv.org/abs/2006.07988v6 )

ライセンス: Link先を確認
Eli Chien, Jianhao Peng, Pan Li, Olgica Milenkovic(参考訳) 多くの重要なグラフデータ処理アプリケーションにおいて、取得された情報は、ノードの特徴とグラフトポロジーの観測の両方を含む。 グラフニューラルネットワーク(gnns)は、両方の証拠源を利用するように設計されているが、それらの有用性を最適に切り離し、それらを普遍的な方法で統合するものではない。 ここで、普遍性はホモフィリーあるいはヘテロフィリーグラフの仮定に対する独立性を指す。 本稿では,GPRの重み付けを適応的に学習し,ノード特性と位相情報抽出を協調的に最適化する汎用PageRank (GPR) GNNアーキテクチャを導入することにより,これらの課題に対処する。 学習されたGPR重みは、初期化の種類によらず、ノードラベルパターンに自動的に調整され、通常は扱いにくいラベルパターンに対して優れた学習性能が保証される。 さらに、ネットワークの浅さを必要とせず、特徴情報を非差別的にレンダリングする機能オーバースムーシングを回避することができる。 GPR-GNN法の理論的解析は、文脈確率ブロックモデルによって生成された新しいベンチマークデータセットにより容易である。 また、GNNアーキテクチャの性能と、ノード分類問題における最先端のGNNの性能を、よく知られたベンチマークホモ親和性およびヘテロ親和性データセットを用いて比較する。 その結果、GPR-GNNは、合成データとベンチマークデータの両方の既存の手法と比較して、大幅な性能向上が見られた。

In many important graph data processing applications the acquired information includes both node features and observations of the graph topology. Graph neural networks (GNNs) are designed to exploit both sources of evidence but they do not optimally trade-off their utility and integrate them in a manner that is also universal. Here, universality refers to independence on homophily or heterophily graph assumptions. We address these issues by introducing a new Generalized PageRank (GPR) GNN architecture that adaptively learns the GPR weights so as to jointly optimize node feature and topological information extraction, regardless of the extent to which the node labels are homophilic or heterophilic. Learned GPR weights automatically adjust to the node label pattern, irrelevant on the type of initialization, and thereby guarantee excellent learning performance for label patterns that are usually hard to handle. Furthermore, they allow one to avoid feature over-smoothing, a process which renders feature information nondiscriminative, without requiring the network to be shallow. Our accompanying theoretical analysis of the GPR-GNN method is facilitated by novel synthetic benchmark datasets generated by the so-called contextual stochastic block model. We also compare the performance of our GNN architecture with that of several state-of-the-art GNNs on the problem of node-classification, using well-known benchmark homophilic and heterophilic datasets. The results demonstrate that GPR-GNN offers significant performance improvement compared to existing techniques on both synthetic and benchmark data.
翻訳日:2022-11-21 09:58:39 公開日:2021-10-26
# 説明と文脈認識データ拡張による人間誘導強化学習におけるパイプライン拡大

Widening the Pipeline in Human-Guided Reinforcement Learning with Explanation and Context-Aware Data Augmentation ( http://arxiv.org/abs/2006.14804v5 )

ライセンス: Link先を確認
Lin Guan, Mudit Verma, Sihang Guo, Ruohan Zhang, Subbarao Kambhampati(参考訳) 人間の説明(例えば、機能の重要性)は、インタラクティブ機械学習において人間とエージェントの間のコミュニケーションチャネルを拡張するために最近使われている。 この設定の下で、人間のトレーナーは、基礎的な真実だけでなく、ある種の説明も提供する。 しかし、この種の人間指導は教師付き学習タスクでのみ研究されており、このタイプの人間知識を深層強化学習にどのように組み込むかは未だ不明である。 本稿では,ヒューマン・イン・ザ・ループ強化学習(HRL)における人間の視覚的説明を用いた最初の研究について述べる。 我々は,フィードバックから学習するタスクに注目し,人間のトレーナーが2値評価の「良い」あるいは「悪い」フィードバックを与えるだけでなく,画像に関連した特徴を付加して視覚的説明を提供する。 本研究は,人間の有能な情報における無関係な特徴のみを摂動させるコンテキスト認識データ拡張を通じて,タスク関連特徴を符号化するためのEXPAND(EXPlanation AugmeNted feeDback)を提案する。 このアプローチの性能とサンプル効率を評価するために,5つのタスク,すなわちpixel-taxiと4つのatariゲームを選択した。 提案手法は,教師付き学習から適応した人間の説明や,評価的フィードバックのみを利用するループ内rlベースラインを活用する手法を著しく上回っている。

Human explanation (e.g., in terms of feature importance) has been recently used to extend the communication channel between human and agent in interactive machine learning. Under this setting, human trainers provide not only the ground truth but also some form of explanation. However, this kind of human guidance was only investigated in supervised learning tasks, and it remains unclear how to best incorporate this type of human knowledge into deep reinforcement learning. In this paper, we present the first study of using human visual explanations in human-in-the-loop reinforcement learning (HRL). We focus on the task of learning from feedback, in which the human trainer not only gives binary evaluative "good" or "bad" feedback for queried state-action pairs, but also provides a visual explanation by annotating relevant features in images. We propose EXPAND (EXPlanation AugmeNted feeDback) to encourage the model to encode task-relevant features through a context-aware data augmentation that only perturbs irrelevant features in human salient information. We choose five tasks, namely Pixel-Taxi and four Atari games, to evaluate the performance and sample efficiency of this approach. We show that our method significantly outperforms methods leveraging human explanation that are adapted from supervised learning, and Human-in-the-loop RL baselines that only utilize evaluative feedback.
翻訳日:2022-11-16 21:49:14 公開日:2021-10-26
# Open Bandit Dataset and Pipeline: 現実的で再現可能なオフポリティ評価を目指して

Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation ( http://arxiv.org/abs/2008.07146v5 )

ライセンス: Link先を確認
Yuta Saito, Shunsuke Aihara, Megumi Matsutani, Yusuke Narita(参考訳) オフ政治評価(OPE)は、異なる政策によって生成されたデータを用いて仮説的政策のパフォーマンスを推定することを目的としている。 実際に大きな影響を与える可能性があるため、この分野では研究の関心が高まっている。 しかし、OPEの評価を可能にする現実世界のパブリックデータセットは存在せず、実験的な研究は非現実的で再現不可能である。 現実的で再現可能なOPEリサーチの実現を目的として,大規模なeコマースプラットフォームであるZOZOTOWN上で収集された公開ログ付きバンディットデータセットであるOpen Bandit Datasetを提案する。 私たちのデータセットは、同じプラットフォーム上で異なるポリシーを実行することで収集された複数のログ付きbanditデータセットを含むという点でユニークです。 これにより、初めて異なるOPE推定器の実験的比較が可能になる。 バッチバンディットアルゴリズムとopeの実装を合理化し、標準化するために、open bandit pipelineと呼ばれるpythonソフトウェアも開発した。 オープンデータとソフトウェアは、公正で透明なOPE研究に寄与し、コミュニティが実りある研究の方向性を特定するのに役立つでしょう。 我々はデータセットとソフトウェアを用いて既存のOPE推定器のベンチマーク実験を行った。 今後のOPE研究に不可欠な課題と新たな道を開く。

Off-policy evaluation (OPE) aims to estimate the performance of hypothetical policies using data generated by a different policy. Because of its huge potential impact in practice, there has been growing research interest in this field. There is, however, no real-world public dataset that enables the evaluation of OPE, making its experimental studies unrealistic and irreproducible. With the goal of enabling realistic and reproducible OPE research, we present Open Bandit Dataset, a public logged bandit dataset collected on a large-scale fashion e-commerce platform, ZOZOTOWN. Our dataset is unique in that it contains a set of multiple logged bandit datasets collected by running different policies on the same platform. This enables experimental comparisons of different OPE estimators for the first time. We also develop Python software called Open Bandit Pipeline to streamline and standardize the implementation of batch bandit algorithms and OPE. Our open data and software will contribute to fair and transparent OPE research and help the community identify fruitful research directions. We provide extensive benchmark experiments of existing OPE estimators using our dataset and software. The results open up essential challenges and new avenues for future OPE research.
翻訳日:2022-10-28 02:58:17 公開日:2021-10-26
# プロセスと製品メトリクスの再検討:大規模分析

Revisiting Process versus Product Metrics: a Large Scale Analysis ( http://arxiv.org/abs/2008.09569v3 )

ライセンス: Link先を確認
Suvodeep Majumder, Pranav Mody, Tim Menzies(参考訳) 多くの手法がソフトウェアデータから予測モデルを構築することができる。 しかしながら、小さな(少数のプロジェクトによる)分析から大規模な分析(数百のプロジェクトによる)に移行する上で、どのような方法と結論を支持すべきだろうか? この質問に答えるために、700のgithubプロジェクトからの722,471コミットを使用して、事前の小さな結果(欠陥予測のためのプロセスと製品メトリクス、メトリクスの粒度)を再チェックします。 分析の規模が大きくなるまでには、まだ小さな分析結果が残っていることが分かっています。 例えば、以前の作業と同様、プロセスメトリクスは製品メトリクスよりも欠陥の予測因子として優れている(最高のプロセス/製品ベースの学習者はそれぞれ98\%/44\%、AUCは95\%/54\%、中央値)。 とは言っても、分析対象を大規模に移行する際に大きく変化するため、小さな研究における分析結果の計量的重要性を信頼するのは賢明ではないと警告する。 また、数百のプロジェクトについて推論する場合、複数のモデルからの予測を使う方がよい(単一のモデル予測が混乱し、高いばらつきを示すため)。

Numerous methods can build predictive models from software data. However, what methods and conclusions should we endorse as we move from analytics in-the-small (dealing with a handful of projects) to analytics in-the-large (dealing with hundreds of projects)? To answer this question, we recheck prior small-scale results (about process versus product metrics for defect prediction and the granularity of metrics) using 722,471 commits from 700 Github projects. We find that some analytics in-the-small conclusions still hold when scaling up to analytics in-the-large. For example, like prior work, we see that process metrics are better predictors for defects than product metrics (best process/product-based learners respectively achieve recalls of 98\%/44\% and AUCs of 95\%/54\%, median values). That said, we warn that it is unwise to trust metric importance results from analytics in-the-small studies since those change dramatically when moving to analytics in-the-large. Also, when reasoning in-the-large about hundreds of projects, it is better to use predictions from multiple models (since single model predictions can become confused and exhibit a high variance).
翻訳日:2022-10-26 22:20:44 公開日:2021-10-26
# 政策決定のランク付け

Ranking Policy Decisions ( http://arxiv.org/abs/2008.13607v3 )

ライセンス: Link先を確認
Hadrien Pouget, Hana Chockler, Youcheng Sun, Daniel Kroening(参考訳) 強化学習(RL)を通じて訓練された政策は、しばしば不必要に複雑であり、分析や解釈が困難である。 私たちは、これらの決定のごく一部だけが、単純なデフォルトアクションを選択することよりも価値をもたらすと推測しています。 訓練された政策を前提として,これらの状況における意思決定の重要性に応じて環境の状態をランク付けする統計的故障局所化に基づく新しいブラックボックス手法を提案する。 我々は、列挙された国家のリストが政策の説明と理解に役立つと論じている。 ランキング法は統計的であるため、その品質の直接評価は難しい。 品質の代理人として、重要でない(つまり、デフォルトのアクションで置き換えられる)決定を下し、パフォーマンスへの影響を測定することで、元のポリシーから新しいシンプルなポリシーを作成するためにランキングを使用します。 各種標準ベンチマーク実験により, プルーニングされたポリシーは, 当初のポリシーに匹敵するレベルで実行可能であることが示された。 逆に, 国家訪問頻度に基づくランク付けなど, 政策決定におけるナイーブなアプローチは, 高パフォーマンスなプランニング政策を生じないことを示す。

Policies trained via Reinforcement Learning (RL) are often needlessly complex, making them difficult to analyse and interpret. In a run with $n$ time steps, a policy will make $n$ decisions on actions to take; we conjecture that only a small subset of these decisions delivers value over selecting a simple default action. Given a trained policy, we propose a novel black-box method based on statistical fault localisation that ranks the states of the environment according to the importance of decisions made in those states. We argue that among other things, the ranked list of states can help explain and understand the policy. As the ranking method is statistical, a direct evaluation of its quality is hard. As a proxy for quality, we use the ranking to create new, simpler policies from the original ones by pruning decisions identified as unimportant (that is, replacing them by default actions) and measuring the impact on performance. Our experiments on a diverse set of standard benchmarks demonstrate that pruned policies can perform on a level comparable to the original policies. Conversely, we show that naive approaches for ranking policy decisions, e.g., ranking based on the frequency of visiting a state, do not result in high-performing pruned policies.
翻訳日:2022-10-23 06:43:36 公開日:2021-10-26
# ego-graph情報最大化によるグラフニューラルネットワークの転送学習

Transfer Learning of Graph Neural Networks with Ego-graph Information Maximization ( http://arxiv.org/abs/2009.05204v2 )

ライセンス: Link先を確認
Qi Zhu, Carl Yang, Yidan Xu, Haonan Wang, Chao Zhang, Jiawei Han(参考訳) グラフニューラルネットワーク(GNN)は、様々なアプリケーションにおいて優れたパフォーマンスを実現しているが、大規模グラフのトレーニングには費用がかかる。 いくつかの最近の研究は、GNNの事前訓練の研究を始めた。 しかしながら、フレームワークの設計に関する理論的洞察や、移行可能性に対する明確な要件や保証は、いずれも提供されていない。 本研究では,GNNの伝達学習のための理論的基盤と実用的有用な枠組みを確立する。 まず,本質的なグラフ情報に対する新しい視点を提案し,その獲得を,egi(ego-graph information maximization)の設計を動機付けて解析的に達成するトランスファー可能なgnnトレーニングの目標として提唱する。 次に,ノードの特徴が構造的関係にある場合,ソースの局所グラフラプラシアンと対象グラフの違いに関するegi転送可能性の解析を行う。 制御された合成実験を行い、理論的な結論を直接正当化する。 2つの実世界のネットワークデータセットに関する包括的実験は、分析された直接転送の設定において一貫した結果を示す一方、大規模知識グラフ上の実験は、微調整による転送のより実用的な設定において有望な結果を示す。

Graph neural networks (GNNs) have achieved superior performance in various applications, but training dedicated GNNs can be costly for large-scale graphs. Some recent work started to study the pre-training of GNNs. However, none of them provide theoretical insights into the design of their frameworks, or clear requirements and guarantees towards their transferability. In this work, we establish a theoretically grounded and practically useful framework for the transfer learning of GNNs. Firstly, we propose a novel view towards the essential graph information and advocate the capturing of it as the goal of transferable GNN training, which motivates the design of EGI (Ego-Graph Information maximization) to analytically achieve this goal. Secondly, when node features are structure-relevant, we conduct an analysis of EGI transferability regarding the difference between the local graph Laplacians of the source and target graphs. We conduct controlled synthetic experiments to directly justify our theoretical conclusions. Comprehensive experiments on two real-world network datasets show consistent results in the analyzed setting of direct-transfering, while those on large-scale knowledge graphs show promising results in the more practical setting of transfering with fine-tuning.
翻訳日:2022-10-19 20:59:30 公開日:2021-10-26
# 複数のズームスケールを用いた野生の360度視線推定

360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales ( http://arxiv.org/abs/2009.06924v3 )

ライセンス: Link先を確認
Ashesh, Chu-Song Chen, Hsuan-Tien Lin(参考訳) 視線推定では、人物が画像やビデオの中でどこに見ているかを予測する。 技術的には、視線情報は顔配向と視線配向の2つの異なる倍率レベルから推定できる。 極端に左・右の視線や咬合などの条件において明確なアイパッチがないため、野生の視線推定には必ずしも不可能である。 本研究では、顔領域の異なる拡大レベルにおいて、焦点を合わせ、視線を推定する人間の能力を模倣するモデルを設計する。 このモデルでは、鮮明な眼のパッチを抽出する必要がなくなり、同時に、野生での視線推定のための顔スケールの変化に関する別の重要な問題に対処する。 さらに,360度視線推定の難易度を,ロバストな平均化手法とともに極域表現の後方視線を符号化することにより処理するモデルを拡張した。 ETH-XGazeデータセットは、スケールの異なる顔は含まないが、複数のスケールから情報を同化するためのモデルの有効性を示す。 多数のスケールの異なる顔を持つ他のベンチマークデータセット(Gaze360とRT-GENE)に対して、提案モデルは、画像またはビデオを使用する場合の視線推定の最先端性能を達成する。 私たちのコードとトレーニング済みモデルは、https://github.com/ashesh-0/multizoomgazeからアクセスできます。

Gaze estimation involves predicting where the person is looking at within an image or video. Technically, the gaze information can be inferred from two different magnification levels: face orientation and eye orientation. The inference is not always feasible for gaze estimation in the wild, given the lack of clear eye patches in conditions like extreme left/right gazes or occlusions. In this work, we design a model that mimics humans' ability to estimate the gaze by aggregating from focused looks, each at a different magnification level of the face area. The model avoids the need to extract clear eye patches and at the same time addresses another important issue of face-scale variation for gaze estimation in the wild. We further extend the model to handle the challenging task of 360-degree gaze estimation by encoding the backward gazes in the polar representation along with a robust averaging scheme. Experiment results on the ETH-XGaze dataset, which does not contain scale-varying faces, demonstrate the model's effectiveness to assimilate information from multiple scales. For other benchmark datasets with many scale-varying faces (Gaze360 and RT-GENE), the proposed model achieves state-of-the-art performance for gaze estimation when using either images or videos. Our code and pretrained models can be accessed at https://github.com/ashesh-0/MultiZoomGaze.
翻訳日:2022-10-18 06:14:25 公開日:2021-10-26
# ニューラル抽象要約のためのグローバルアウェアビーム探索

Global-aware Beam Search for Neural Abstractive Summarization ( http://arxiv.org/abs/2009.06891v5 )

ライセンス: Link先を確認
Ye Ma, Zixun Lan, Lu Zong, Kaizhu Huang(参考訳) 本研究では,ニューラル抽象要約のための大域的注意分布を意識したキャリブレーションビームベースアルゴリズムを開発し,元のビーム探索の局所最適性問題を厳密に解決することを目的とした。 具体的には,グローバルな最適仮説のソースへの関与を規定する,注目分布に基づく新しいグローバルプロトコルを提案する。 次に、ビーム探索を規制し、準グローバルな最適方法で要約を生成するグローバルスコアリング機構を開発する。 この斬新な設計は、推論の前にグローバルな注意分布を予測できるという特徴的な特性を享受しており、グローバルスコアリング機構を通じてビーム探索の段階的に改善することができる。 9つのデータセットに関する広範囲な実験により、グローバル(アテンション)アウェア推論は経験的ハイパーパラメータを使用しても最先端の要約モデルを大幅に改善することが示された。 このアルゴリズムは、注意分布が劣化した意味のあるテキストを生成するため、堅牢であることも証明されている。 コードと包括的な例が提供されている。

This study develops a calibrated beam-based algorithm with awareness of the global attention distribution for neural abstractive summarization, aiming to improve the local optimality problem of the original beam search in a rigorous way. Specifically, a novel global protocol is proposed based on the attention distribution to stipulate how a global optimal hypothesis should attend to the source. A global scoring mechanism is then developed to regulate beam search to generate summaries in a near-global optimal fashion. This novel design enjoys a distinctive property, i.e., the global attention distribution could be predicted before inference, enabling step-wise improvements on the beam search through the global scoring mechanism. Extensive experiments on nine datasets show that the global (attention)-aware inference significantly improves state-of-the-art summarization models even using empirical hyper-parameters. The algorithm is also proven robust as it remains to generate meaningful texts with corrupted attention distributions. The codes and a comprehensive set of examples are available.
翻訳日:2022-10-18 05:56:17 公開日:2021-10-26
# LeadCache: ネットワークにおけるレグレット最適キャッシュ

LeadCache: Regret-Optimal Caching in Networks ( http://arxiv.org/abs/2009.08228v4 )

ライセンス: Link先を確認
Debjit Paria, Abhishek Sinha(参考訳) ネットワークキャッシングにおけるオンライン予測問題について考察する。 複数のユーザがバイパーティイトネットワークを介して複数のキャッシュに接続されていると仮定する。 いつでも、各ユーザーは大きなカタログから選択した任意のファイルを要求することができる。 要求されたファイルがユーザに接続された少なくとも1つのキャッシュにキャッシュされた場合、スロットでのユーザの要求が満たされる。 我々の目標は、各スロットのキャッシュ上のファイルを予測し、プリフェッチし、最適に配布し、キャッシュヒットの総数を最大化することである。 問題は、対象関数の非凸性と非滑らか性のため、非自明である。 本稿では、Follow-the-Perturbed-Leaderパラダイムに基づく効率的なオンラインキャッシュポリシーである$\texttt{LeadCache}$を提案する。 我々は、$\texttt{leadcache}$ は$\tilde{o}(n^{3/8}) の係数まで後悔に最適であることを示し、ここで $n$ はユーザ数である。 我々は、$\texttt{leadcache}$ ポリシーの効率的な実装を2つ設計し、1つは pipage rounding に基づいており、もう1つは madow のサンプリングに基づいている。 さらに、Strong-Law型仮定では、$\texttt{LeadCache}$のファイルフェッチの総数は、無限の地平線上でほぼ確実に有限であることを示す。 最後に,グラフカラー化の結果を用いて,ほぼ後悔の少ない下界を導出する。 学習ベースの$\texttt{LeadCache}$ポリシーは、理論的にも経験的にも、最先端のキャッシュポリシーを決定的に上回っていると結論づける。

We consider an online prediction problem in the context of network caching. Assume that multiple users are connected to several caches via a bipartite network. At any time slot, each user may request an arbitrary file chosen from a large catalog. A user's request at a slot is met if the requested file is cached in at least one of the caches connected to the user. Our objective is to predict, prefetch, and optimally distribute the files on the caches at each slot to maximize the total number of cache hits. The problem is non-trivial due to the non-convex and non-smooth nature of the objective function. In this paper, we propose $\texttt{LeadCache}$ - an efficient online caching policy based on the Follow-the-Perturbed-Leader paradigm. We show that $\texttt{LeadCache}$ is regret-optimal up to a factor of $\tilde{O}(n^{3/8}),$ where $n$ is the number of users. We design two efficient implementations of the $\texttt{LeadCache}$ policy, one based on Pipage rounding and the other based on Madow's sampling, each of which makes precisely one call to an LP-solver per iteration. Furthermore, with a Strong-Law-type assumption, we show that the total number of file fetches under $\texttt{LeadCache}$ remains almost surely finite over an infinite horizon. Finally, we derive an approximately tight regret lower bound using results from graph coloring. We conclude that the learning-based $\texttt{LeadCache}$ policy decisively outperforms the state-of-the-art caching policies both theoretically and empirically.
翻訳日:2022-10-17 12:22:40 公開日:2021-10-26
# pettingzoo:マルチエージェント強化学習用ジム

PettingZoo: Gym for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2009.14471v7 )

ライセンス: Link先を確認
J. K. Terry, Benjamin Black, Nathaniel Grammel, Mario Jayakumar, Ananth Hari, Ryan Sullivan, Luis Santos, Rodrigo Perez, Caroline Horsch, Clemens Dieffendahl, Niall L. Williams, Yashas Lokesh, Praveen Ravi(参考訳) 本稿では,PettingZooライブラリと付随するエージェント環境サイクル(AEC)ゲームモデルを紹介する。 PettingZooは、汎用的でエレガントなPython APIを備えた多様なマルチエージェント環境のライブラリである。 pettingzooはマルチエージェント強化学習(marl:multi-agent reinforcement learning)の研究を加速する目的で、openaiのジムライブラリがシングルエージェント強化学習のために行ったことに似た、作業の交換性、アクセス性、再現性の向上を目的として開発された。 PettingZooのAPIは、Gymの多くの機能を継承する一方で、新しいAECゲームモデルに基づいたMARL APIの中でもユニークなものだ。 一般的なmarl環境における主要な問題に関するケーススタディを通じて、人気ゲームモデルはmarlでよく使われるゲームの貧弱な概念モデルであり、それゆえ検出が難しい紛らわしいバグを助長し、aecゲームモデルはこれらの問題に対処することができると論じている。

This paper introduces the PettingZoo library and the accompanying Agent Environment Cycle ("AEC") games model. PettingZoo is a library of diverse sets of multi-agent environments with a universal, elegant Python API. PettingZoo was developed with the goal of accelerating research in Multi-Agent Reinforcement Learning ("MARL"), by making work more interchangeable, accessible and reproducible akin to what OpenAI's Gym library did for single-agent reinforcement learning. PettingZoo's API, while inheriting many features of Gym, is unique amongst MARL APIs in that it's based around the novel AEC games model. We argue, in part through case studies on major problems in popular MARL environments, that the popular game models are poor conceptual models of games commonly used in MARL and accordingly can promote confusing bugs that are hard to detect, and that the AEC games model addresses these problems.
翻訳日:2022-10-12 23:10:30 公開日:2021-10-26
# 木組分類器における知識の埋め込みと抽出

Embedding and Extraction of Knowledge in Tree Ensemble Classifiers ( http://arxiv.org/abs/2010.08281v3 )

ライセンス: Link先を確認
Wei Huang, Xingyu Zhao and Xiaowei Huang(参考訳) 有用な知識の埋め込みと抽出は、例えば、小さな既存のデータセットを補完する機械学習アプリケーションにおける最近のトレンドである。 セキュリティクリティカルなアプリケーションにおける機械学習モデルの利用が増加している一方で、悪意のある知識の埋め込みと抽出は、悪名高いバックドア攻撃とその防御と同等である。 本稿では,木組分類器における知識の埋め込みと抽出について検討し,ブール式で表現可能な知識,例えばロバスト性やバックドア攻撃に着目した。 埋め込みには、保存性(分類器の本来の性能は保存されている)、検証性(知識の検証が可能である)、ステルス性(埋め込みを容易に検出できない)が必要である。 そこで本研究では,ブラックボックス設定とホワイトボックス設定の2つの新しい,効果的な埋め込みアルゴリズムを提案する。 埋め込み以外にも,smt(satisfiability modulo theory)ソルバを用いて解く問題を減らすことで,組込み知識を抽出するアルゴリズムを開発した。 このアルゴリズムは知識の抽出に成功しているが、この還元はNP計算に繋がる。 そこで,バックドア攻撃に埋め込み,防御として抽出を適用すると,木組分類器で作業する場合の攻撃と防御の複雑さの差(P vs. NP)が示唆される。 アルゴリズムをさまざまなデータセットに適用し、結論を広範囲に検証します。

The embedding and extraction of useful knowledge is a recent trend in machine learning applications, e.g., to supplement existing datasets that are small. Whilst, as the increasing use of machine learning models in security-critical applications, the embedding and extraction of malicious knowledge are equivalent to the notorious backdoor attack and its defence, respectively. This paper studies the embedding and extraction of knowledge in tree ensemble classifiers, and focuses on knowledge expressible with a generic form of Boolean formulas, e.g., robustness properties and backdoor attacks. For the embedding, it is required to be preservative(the original performance of the classifier is preserved), verifiable(the knowledge can be attested), and stealthy(the embedding cannot be easily detected). To facilitate this, we propose two novel, and effective, embedding algorithms, one of which is for black-box settings and the other for white-box settings.The embedding can be done in PTIME. Beyond the embedding, we develop an algorithm to extract the embedded knowledge, by reducing the problem to be solvable with an SMT (satisfiability modulo theories) solver. While this novel algorithm can successfully extract knowledge, the reduction leads to an NP computation. Therefore, if applying embedding as backdoor attacks and extraction as defence, our results suggest a complexity gap (P vs. NP) between the attack and defence when working with tree ensemble classifiers. We apply our algorithms toa diverse set of datasets to validate our conclusion extensively.
翻訳日:2022-10-06 21:58:14 公開日:2021-10-26
# just-in-timeコンパイルとベクトル化による高速差分プライベートsgdの実現

Enabling Fast Differentially Private SGD via Just-in-Time Compilation and Vectorization ( http://arxiv.org/abs/2010.09063v2 )

ライセンス: Link先を確認
Pranav Subramani, Nicholas Vadivelu, Gautam Kamath(参考訳) 差分プライベート機械学習における共通の問題点は、差分プライベート確率勾配(DPSGD)の実行時に発生する重要なランタイムオーバーヘッドである。 ベクトル化やジャスト・イン・タイムのコンパイル,静的グラフの最適化など,強力な言語プリミティブを活用することで,これらのオーバーヘッドを大幅に削減できることを示す。 これらの利益は、JAXとTensorFlowの2つのフレームワークで実現されている。 JAXは、XLAコンパイラを通して、言語のコア機能としてこれらのプリミティブをリッチにサポートします。 また、TensorFlow Privacyの中核部分の再構築、TensorFlow 2の機能の統合、XLAコンパイル、現在のリリースバージョンに対するメモリとランタイムの大幅な改善も行っています。 これらのアプローチにより、最良の代替手段と比較して最大50倍のスピードアップを実現できます。 私たちのコードはhttps://github.com/TheSalon/fast-dpsgd.comで利用可能です。

A common pain point in differentially private machine learning is the significant runtime overhead incurred when executing Differentially Private Stochastic Gradient Descent (DPSGD), which may be as large as two orders of magnitude. We thoroughly demonstrate that by exploiting powerful language primitives, including vectorization, just-in-time compilation, and static graph optimization, one can dramatically reduce these overheads, in many cases nearly matching the best non-private running times. These gains are realized in two frameworks: JAX and TensorFlow. JAX provides rich support for these primitives as core features of the language through the XLA compiler. We also rebuild core parts of TensorFlow Privacy, integrating features from TensorFlow 2 as well as XLA compilation, granting significant memory and runtime improvements over the current release version. These approaches allow us to achieve up to 50x speedups in comparison to the best alternatives. Our code is available at https://github.com/TheSalon/fast-dpsgd.
翻訳日:2022-10-06 04:40:07 公開日:2021-10-26
# 無バイアスアルファ発散最小化の難しさについて

On the Difficulty of Unbiased Alpha Divergence Minimization ( http://arxiv.org/abs/2010.09541v4 )

ライセンス: Link先を確認
Tomas Geffner and Justin Domke(参考訳) 近似分布と目標分布との間のアルファ分布を最小化するために、近似推定アルゴリズムがいくつか提案されている。 これらのアルゴリズムの多くはバイアスを導入し、その大きさは高次元で問題となる。 その他のアルゴリズムは不偏である。 これらはしばしば高いばらつきに悩まされるが、厳密には知られていない。 本研究では,勾配推定器のSNR(Signal-to-Noise Ratio)を通した非偏差最小化法について検討する。 完全分解分布やガウス分布など,強力な解析結果が得られるいくつかの代表的なシナリオについて検討する。 アルファが 0 でない場合、SNR は問題次元において指数関数的に悪化する。 これはこれらの方法の実用性に疑問を投げかける。 我々はこの理論結果を実証的に確認する。

Several approximate inference algorithms have been proposed to minimize an alpha-divergence between an approximating distribution and a target distribution. Many of these algorithms introduce bias, the magnitude of which becomes problematic in high dimensions. Other algorithms are unbiased. These often seem to suffer from high variance, but little is rigorously known. In this work we study unbiased methods for alpha-divergence minimization through the Signal-to-Noise Ratio (SNR) of the gradient estimator. We study several representative scenarios where strong analytical results are possible, such as fully-factorized or Gaussian distributions. We find that when alpha is not zero, the SNR worsens exponentially in the dimensionality of the problem. This casts doubt on the practicality of these methods. We empirically confirm these theoretical results.
翻訳日:2022-10-05 20:54:26 公開日:2021-10-26
# AgEBO-Tabular: タブラルデータの自動学習による結合型ニューラルネットワークとハイパーパラメータ検索

AgEBO-Tabular: Joint Neural Architecture and Hyperparameter Search with Autotuned Data-Parallel Training for Tabular Data ( http://arxiv.org/abs/2010.16358v2 )

ライセンス: Link先を確認
Romain Egele, Prasanna Balaprakash, Venkatram Vishwanath, Isabelle Guyon, Zhengying Liu(参考訳) 大規模表型データセットのための高パフォーマンスな予測モデルの開発は難しい課題である。 最新の手法は、異なる教師付き学習方法のエキスパートによって開発されたモデルアンサンブルに基づいている。 最近、予測モデル開発の自動化に有望なアプローチとして、automl(automl)が登場している。 neural architecture search(nas)は、複数のニューラルネットワークアーキテクチャを同時に生成し、評価し、生成されたモデルの精度を反復的に改善するautomlアプローチである。 NASの重要な問題、特に大規模データセットでは、生成された各アーキテクチャを評価するのに必要な計算時間が大きい。 データ並列トレーニングはこの問題に対処できる有望なアプローチであるが、NAS内での使用は難しい。 異なるデータセットに対して、並列プロセスの数、学習率、バッチサイズなどのデータ並列トレーニング設定は、高い精度とトレーニング時間の短縮を達成するために適応する必要がある。 そこで我々は,aging evolution (age) と,ニューラルネットワーク空間を探索する並列nas法,データ並列トレーニングのハイパーパラメータを同時にチューニングする非同期ベイズ最適化法を組み合わせた手法である agebo-tabular を開発した。 提案手法の有効性を実証し,大規模ベンチマークデータセットに対して高い性能のニューラルネットワークモデルを生成する。 さらに,本手法を用いて自動検出されたニューラルネットワークモデルは,2桁の精度を達成しつつ,予測速度において最先端のAutoMLアンサンブルモデルより優れていることを示す。

Developing high-performing predictive models for large tabular data sets is a challenging task. The state-of-the-art methods are based on expert-developed model ensembles from different supervised learning methods. Recently, automated machine learning (AutoML) is emerging as a promising approach to automate predictive model development. Neural architecture search (NAS) is an AutoML approach that generates and evaluates multiple neural network architectures concurrently and improves the accuracy of the generated models iteratively. A key issue in NAS, particularly for large data sets, is the large computation time required to evaluate each generated architecture. While data-parallel training is a promising approach that can address this issue, its use within NAS is difficult. For different data sets, the data-parallel training settings such as the number of parallel processes, learning rate, and batch size need to be adapted to achieve high accuracy and reduction in training time. To that end, we have developed AgEBO-Tabular, an approach to combine aging evolution (AgE), a parallel NAS method that searches over neural architecture space, and an asynchronous Bayesian optimization method for tuning the hyperparameters of the data-parallel training simultaneously. We demonstrate the efficacy of the proposed method to generate high-performing neural network models for large tabular benchmark data sets. Furthermore, we demonstrate that the automatically discovered neural network models using our method outperform the state-of-the-art AutoML ensemble models in inference speed by two orders of magnitude while reaching similar accuracy values.
翻訳日:2022-10-01 15:52:59 公開日:2021-10-26
# 人口変動に伴う公平さのバイアスは軽減されるか?

Does enforcing fairness mitigate biases caused by subpopulation shift? ( http://arxiv.org/abs/2011.03173v2 )

ライセンス: Link先を確認
Subha Maity, Debarghya Mukherjee, Mikhail Yurochkin and Yuekai Sun(参考訳) アルゴリズムバイアスの多くの例は、サブポピュレーションシフトによって引き起こされる。 例えば、MLモデルは、トレーニングデータに不足している人口統計群に対して、しばしば悪化する。 本稿では,訓練中のアルゴリズムフェアネスの強制が,訓練されたモデルの性能を向上させるかどうかを考察する。 一方、フェアネスを強制することで、ターゲットドメインのパフォーマンスが向上しないシナリオを想定しています。 実際、パフォーマンスを害するかもしれません。 一方,アルゴリズム的公平性が対象領域内のベイズモデルに繋がる必要十分条件を導出する。 また,シミュレーションや実データにおける理論結果の実用的意義についても述べる。

Many instances of algorithmic bias are caused by subpopulation shifts. For example, ML models often perform worse on demographic groups that are underrepresented in the training data. In this paper, we study whether enforcing algorithmic fairness during training improves the performance of the trained model in the \emph{target domain}. On one hand, we conceive scenarios in which enforcing fairness does not improve performance in the target domain. In fact, it may even harm performance. On the other hand, we derive necessary and sufficient conditions under which enforcing algorithmic fairness leads to the Bayes model in the target domain. We also illustrate the practical implications of our theoretical results in simulations and on real data.
翻訳日:2022-09-29 04:23:12 公開日:2021-10-26
# インフォームド音源抽出と音響エコー低減への応用

Informed Source Extraction With Application to Acoustic Echo Reduction ( http://arxiv.org/abs/2011.04569v4 )

ライセンス: Link先を確認
Mohamed Elminshawi, Wolfgang Mack, and Emanu\"el A. P. Habets(参考訳) インフォームド話者抽出は、所望の話者に関する事前知識が与えられた音源から対象の音声信号を抽出することを目的としている。 最近のディープラーニングに基づく方法は、対象話者が発する参照スニペットを、対象話者の特性をカプセル化する単一の埋め込みベクトルにマッピングする話者識別モデルを活用する。 しかし、そのようなモデリングは基準信号の時間変化特性を意図的に無視する。 本研究では,対象信号と時間的相関のある参照信号が存在することを仮定する。 この相関を考慮に入れ,基準信号の時間的ダイナミクスを捉えた時間変動源判別モデルを提案する。 また,既存の手法と提案手法が非音声ソースにも一般化可能であることを示す。 実験の結果,提案手法は音響エコー低減シナリオで適用した場合,抽出性能が著しく向上することがわかった。

Informed speaker extraction aims to extract a target speech signal from a mixture of sources given prior knowledge about the desired speaker. Recent deep learning-based methods leverage a speaker discriminative model that maps a reference snippet uttered by the target speaker into a single embedding vector that encapsulates the characteristics of the target speaker. However, such modeling deliberately neglects the time-varying properties of the reference signal. In this work, we assume that a reference signal is available that is temporally correlated with the target signal. To take this correlation into account, we propose a time-varying source discriminative model that captures the temporal dynamics of the reference signal. We also show that existing methods and the proposed method can be generalized to non-speech sources as well. Experimental results demonstrate that the proposed method significantly improves the extraction performance when applied in an acoustic echo reduction scenario.
翻訳日:2022-09-28 02:10:47 公開日:2021-10-26
# 科学データセットのCNNに基づく超解像における保存法則の厳格化と可逆性

Strict Enforcement of Conservation Laws and Invertibility in CNN-Based Super Resolution for Scientific Datasets ( http://arxiv.org/abs/2011.05586v2 )

ライセンス: Link先を確認
Andrew Geiss and Joseph C. Hardin(参考訳) 近年、深層畳み込みニューラルネットワーク(cnns)は、画像超解像(sr)に革命をもたらし、画像解像度向上のための過去の手法を劇的に上回っている。 衛星リモートセンシング、レーダー気象学、医療画像、数値モデリングなど、画像やグリッド化されたデータセットを含む多くの科学分野の恩恵を受けることができる。 残念なことに、SR-CNNは視覚的に魅力的な出力を生成するが、科学的データセットに適用すると物理的保存法を破る可能性がある。 本稿では,SR-CNN における "Downsampling Enforcement" の手法を提案する。 微分可能演算子は、cnnの最終転送関数として適用されると、2d平均ダウンサンプリング下での低分解能入力を正確に再現し、srスキームの性能を向上させるように導出される。 この方法は、いくつかのベンチマーク画像データセット上の7つの現代のcnnベースのsrスキームで実証され、気象レーダー、衛星撮影装置、気候モデルデータにも応用されている。 このアプローチは、超解像データと低解像度データの物理的一貫性を確保しながら、トレーニング時間とパフォーマンスを改善する。

Recently, deep Convolutional Neural Networks (CNNs) have revolutionized image super-resolution (SR), dramatically outperforming past methods for enhancing image resolution. They could be a boon for the many scientific fields that involve image or gridded datasets: satellite remote sensing, radar meteorology, medical imaging, numerical modeling etc. Unfortunately, while SR-CNNs produce visually compelling outputs, they may break physical conservation laws when applied to scientific datasets. Here, a method for ``Downsampling Enforcement" in SR-CNNs is proposed. A differentiable operator is derived that, when applied as the final transfer function of a CNN, ensures the high resolution outputs exactly reproduce the low resolution inputs under 2D-average downsampling while improving performance of the SR schemes. The method is demonstrated across seven modern CNN-based SR schemes on several benchmark image datasets, and applications to weather radar, satellite imager, and climate model data are also shown. The approach improves training time and performance while ensuring physical consistency between the super-resolved and low resolution data.
翻訳日:2022-09-27 00:52:44 公開日:2021-10-26
# リーマンガウス分布、ランダム行列アンサンブルおよび拡散核

Riemannian Gaussian distributions, random matrix ensembles and diffusion kernels ( http://arxiv.org/abs/2011.13680v2 )

ライセンス: Link先を確認
Leonardo Santilli and Miguel Tierz(参考訳) 近年導入された対称空間上のリーマン・ガウス分布は標準ランダム行列型であることが示されている。 我々はこれを利用して確率密度関数の解析的限界を求める。 これは、物理学の文献に既に分布が現れるエルミート行列の空間の場合、スティルチェス=ウィガート直交多項式を用いて完全に実現できる。 対称空間が$m \times m$ 対称正定値行列の空間である場合、特定の値である$m$でpfaffianを評価することによって効率的に計算する方法を示す。 同様に、対数正規重み関数 (skew stieltjes-wigert polynomials) に関して特定の歪直交多項式を構成すれば、同じ結果が得られる。 他の対称空間が研究され、四元数の場合も同様の結果が得られる。 さらに、確率密度関数が、リー群のワイルチャンバーにおける拡散過程である非交差ブラウン運動を記述するカルリン・マクグレガー型の拡散再現核の特別な場合であることを示す。

We show that the Riemannian Gaussian distributions on symmetric spaces, introduced in recent years, are of standard random matrix type. We exploit this to compute analytically marginals of the probability density functions. This can be done fully, using Stieltjes-Wigert orthogonal polynomials, for the case of the space of Hermitian matrices, where the distributions have already appeared in the physics literature. For the case when the symmetric space is the space of $m \times m$ symmetric positive definite matrices, we show how to efficiently compute by evaluating Pfaffians at specific values of $m$. Equivalently, we can obtain the same result by constructing specific skew orthogonal polynomials with regards to the log-normal weight function (skew Stieltjes-Wigert polynomials). Other symmetric spaces are studied and the same type of result is obtained for the quaternionic case. Moreover, we show how the probability density functions are a particular case of diffusion reproducing kernels of the Karlin-McGregor type, describing non-intersecting Brownian motions, which are also diffusion processes in the Weyl chamber of Lie groups.
翻訳日:2022-09-20 02:56:29 公開日:2021-10-26
# 小規模データを用いたロバスト部分教師付き多構造医用画像分割

Towards Robust Partially Supervised Multi-Structure Medical Image Segmentation on Small-Scale Data ( http://arxiv.org/abs/2011.14164v2 )

ライセンス: Link先を確認
Nanqing Dong, Michael Kampffmeyer, Xiaodan Liang, Min Xu, Irina Voiculescu, Eric P. Xing(参考訳) セマンティックセグメンテーションのための深層学習(DL)モデルは、多くのピクセルレベルのアノテーションを必要とする。 しかしながら、大規模で完全なラベル付き医療データセットは、実用的なタスクでは使用できないことが多い。 近年,医療領域に不完全なラベルを持つ画像を利用するための部分教師付き手法が提案されている。 データ不足下での部分教師付き学習(PSL)の方法論的ギャップを埋めるため、部分教師付き医用画像セグメンテーションのための人体構造類似性を利用した簡易かつ効率的な枠組みであるVLUUを提案する。 マルチタスク学習とビクタナルリスクの最小化に動機付けられ、vluuは部分教師あり問題をビクタナルラベルを生成して完全な教師付き問題に変換する。 胸部臓器分割と視神経椎間板・カップ分割の課題に対して, 小規模データ, データセットシフト, クラス不均衡などの課題からvluuを体系的に評価した。 実験結果から,VLUUは従来の部分教師付きモデルよりも一貫して優れていた。 本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。

The data-driven nature of deep learning (DL) models for semantic segmentation requires a large number of pixel-level annotations. However, large-scale and fully labeled medical datasets are often unavailable for practical tasks. Recently, partially supervised methods have been proposed to utilize images with incomplete labels in the medical domain. To bridge the methodological gaps in partially supervised learning (PSL) under data scarcity, we propose Vicinal Labels Under Uncertainty (VLUU), a simple yet efficient framework utilizing the human structure similarity for partially supervised medical image segmentation. Motivated by multi-task learning and vicinal risk minimization, VLUU transforms the partially supervised problem into a fully supervised problem by generating vicinal labels. We systematically evaluate VLUU under the challenges of small-scale data, dataset shift, and class imbalance on two commonly used segmentation datasets for the tasks of chest organ segmentation and optic disc-and-cup segmentation. The experimental results show that VLUU can consistently outperform previous partially supervised models in these settings. Our research suggests a new research direction in label-efficient deep learning with partial supervision.
翻訳日:2022-09-19 19:31:02 公開日:2021-10-26
# (参考訳) マルチエージェントアドバイザーQラーニング

Multi-Agent Advisor Q-Learning ( http://arxiv.org/abs/2111.00345v1 )

ライセンス: CC BY 4.0
Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson, Mark Crowley(参考訳) 過去10年間で、マルチエージェント強化学習(MARL)に大きな進歩があったが、高サンプルの複雑さや安定したポリシーへの緩やかな収束など、広範に展開できる前に克服する必要がある多くの課題がまだ残っている。 しかし、現実の環境の多くは、実際には、ポリシーを生成するための準最適またはヒューリスティックなアプローチを展開している。 興味深い質問は、マルチエージェントドメインでの強化学習を改善するためにアドバイザーのようなアプローチを最大限に活用する方法である。 本稿では,オンラインの準最適アドバイザからのアクションレコメンデーションをマルチエージェント設定に組み込むための原則的フレームワークを提案する。 本稿では,非制限型一般確率ゲーム環境における多元知能強化エージェント(ADMIRAL)の適応問題について述べるとともに,アドバイザ(ADMIRAL-DM)とADMIRAL-AE(ADMIRAL-AE)の2つの新しいQ学習アルゴリズムについて述べる。 アルゴリズムを理論的に解析し、一般確率ゲームにおける学習に関する定点保証を提供する。 さらに、大規模な実験では、これらのアルゴリズムが様々な環境で使用でき、他の関連するベースラインと好適に比較可能なパフォーマンスを持ち、大きなステートアクション空間にスケールでき、アドバイザーのアドバイスが乏しいことを示している。

In the last decade, there have been significant advances in multi-agent reinforcement learning (MARL) but there are still numerous challenges, such as high sample complexity and slow convergence to stable policies, that need to be overcome before wide-spread deployment is possible. However, many real-world environments already, in practice, deploy sub-optimal or heuristic approaches for generating policies. An interesting question which arises is how to best use such approaches as advisors to help improve reinforcement learning in multi-agent domains. In this paper, we provide a principled framework for incorporating action recommendations from online sub-optimal advisors in multi-agent settings. We describe the problem of ADvising Multiple Intelligent Reinforcement Agents (ADMIRAL) in nonrestrictive general-sum stochastic game environments and present two novel Q-learning based algorithms: ADMIRAL - Decision Making (ADMIRAL-DM) and ADMIRAL - Advisor Evaluation (ADMIRAL-AE), which allow us to improve learning by appropriately incorporating advice from an advisor (ADMIRAL-DM), and evaluate the effectiveness of an advisor (ADMIRAL-AE). We analyze the algorithms theoretically and provide fixed-point guarantees regarding their learning in general-sum stochastic games. Furthermore, extensive experiments illustrate that these algorithms: can be used in a variety of environments, have performances that compare favourably to other related baselines, can scale to large state-action spaces, and are robust to poor advice from advisors.
翻訳日:2021-11-07 13:02:49 公開日:2021-10-26
# (参考訳) 農業における環境ストレスをモデル化するためのエキスパート知識とニューラルネットワークの組み合わせ

Combining expert knowledge and neural networks to model environmental stresses in agriculture ( http://arxiv.org/abs/2111.00918v1 )

ライセンス: CC BY 4.0
Kostadin Cvejoski, Jannis Schuecker, Anne-Katrin Mahlein, Bogdan Georgiev(参考訳) 本研究では,ニューラルネットワークの表現学習能力を専門家の農業知識と組み合わせ,環境熱と干ばつストレスをモデル化する。 まず、ベンチマークとして機能する決定論的エキスパートモデルを設計し、柔軟なニューラルネットワークアーキテクチャの設計を知らせる。 最後に、後者の感度分析により、ハイブリッドを感受性および耐性のあるものにクラスタリングすることができる。

In this work we combine representation learning capabilities of neural network with agricultural knowledge from experts to model environmental heat and drought stresses. We first design deterministic expert models which serve as a benchmark and inform the design of flexible neural-network architectures. Finally, a sensitivity analysis of the latter allows a clustering of hybrids into susceptible and resistant ones.
翻訳日:2021-11-07 13:01:30 公開日:2021-10-26
# (参考訳) 静的解析によるニューラルプログラム生成

Neural Program Generation Modulo Static Analysis ( http://arxiv.org/abs/2111.01633v1 )

ライセンス: CC BY 4.0
Rohan Mukherjee, Yeming Wen, Dipak Chaudhari, Thomas W. Reps, Swarat Chaudhuri, Chris Jermaine(参考訳) ソースコードの最先端のニューラルモデルは、個々の表現やコード行の生成で評価される傾向があり、一般的に、メソッドボディ全体の生成のような長い水平タスクでは失敗する。 本稿では,静的プログラムアナライザの弱い監視手法を用いて,この欠陥に対処することを提案する。 我々のニューロシンボリックな手法は、静的解析ツールを呼び出し、すでに生成されたコード内の長距離意味関係を利用して、深い生成モデルを象徴的に計算することができる。 トレーニング中、モデルはこれらの関係を観察し、それらに条件付きプログラムを生成することを学ぶ。 我々は、メソッドを含むクラスの残りの部分からJavaメソッド全体を生成する問題にアプローチを適用します。 提案手法は, 基本的な意味的誤りのないプログラムの生成と, 基礎的真理の構文的マッチングという両面で, 最先端のトランスフォーマーや, このタスクのプログラム意味論を明示的に学習しようとするモデルを大きく上回っていることを示す。

State-of-the-art neural models of source code tend to be evaluated on the generation of individual expressions and lines of code, and commonly fail on long-horizon tasks such as the generation of entire method bodies. We propose to address this deficiency using weak supervision from a static program analyzer. Our neurosymbolic method allows a deep generative model to symbolically compute, using calls to a static-analysis tool, long-distance semantic relationships in the code that it has already generated. During training, the model observes these relationships and learns to generate programs conditioned on them. We apply our approach to the problem of generating entire Java methods given the remainder of the class that contains the method. Our experiments show that the approach substantially outperforms state-of-the-art transformers and a model that explicitly tries to learn program semantics on this task, both in terms of producing programs free of basic semantic errors and in terms of syntactically matching the ground truth.
翻訳日:2021-11-07 12:45:20 公開日:2021-10-26
# Fuzzy Conceptual Graphs: 比較議論

Fuzzy Conceptual Graphs: a comparative discussion ( http://arxiv.org/abs/2111.00229v1 )

ライセンス: Link先を確認
Adam Faci (LFI, TRT), Marie-Jeanne Lesot (LFI), Claire Laudy (TRT)(参考訳) 概念グラフ(cg)はグラフに基づく知識表現と推論形式であり、ファジィ概念グラフ(fcg)は表現力を高める拡張であり、ファジィ集合論を利用して様々なレベルで制約を緩和する。 本稿では,それぞれの利点と限界に対する既存手法の比較研究を提案する。 議論は3つの軸で行われます (a)各アプローチの批判的見解及び技術状況からの先行命題との比較 b) その可能性及び限界を説明するために,各定義の多くの可能な解釈を提示すること (c) 緩やかな制約とともに, CGの一部が定義に影響を及ぼすことの明確化。

Conceptual Graphs (CG) are a graph-based knowledge representation and reasoning formalism; fuzzy Conceptual Graphs (fCG) constitute an extension that enriches their expressiveness, exploiting the fuzzy set theory so as to relax their constraints at various levels. This paper proposes a comparative study of existing approaches over their respective advantages and possible limitations. The discussion revolves around three axes: (a) Critical view of each approach and comparison with previous propositions from the state of the art; (b) Presentation of the many possible interpretations of each definition to illustrate its potential and its limits; (c) Clarification of the part of CG impacted by the definition as well as the relaxed constraint.
翻訳日:2021-11-07 11:45:27 公開日:2021-10-26
# 分子最適化のためのフラグメントに基づく逐次変換

Fragment-based Sequential Translation for Molecular Optimization ( http://arxiv.org/abs/2111.01009v1 )

ライセンス: Link先を確認
Benson Chen, Xiang Fu, Regina Barzilay, Tommi Jaakkola(参考訳) 望ましい性質を持つ新規な分子化合物の探索は、薬物発見の重要な問題である。 多くの既存のフレームワークは一度に1つの原子を生成する。 代わりに、学習された分子断片を用いて分子を生成するフレキシブルな編集パラダイムを提案する。 そこで我々は,変分オートエンコーダ(VAE)を訓練して,分子断片をコヒーレントな潜在空間にエンコードし,分子を編集して複雑な化学特性空間を探索する語彙として利用する。 学習されたフラグメント語彙を用いて,モデル発見分子を望ましい性質を満たしながら,新たな分子へと反復的に翻訳する強化学習(rl)ポリシーを学習するフラグメントに基づく逐次翻訳(fast)を提案する。 実証評価の結果, 単目的/多目的の分子最適化タスクにおいて, FaSTは最先端の手法よりも大幅に改善されている。

Searching for novel molecular compounds with desired properties is an important problem in drug discovery. Many existing frameworks generate molecules one atom at a time. We instead propose a flexible editing paradigm that generates molecules using learned molecular fragments--meaningful substructures of molecules. To do so, we train a variational autoencoder (VAE) to encode molecular fragments in a coherent latent space, which we then utilize as a vocabulary for editing molecules to explore the complex chemical property space. Equipped with the learned fragment vocabulary, we propose Fragment-based Sequential Translation (FaST), which learns a reinforcement learning (RL) policy to iteratively translate model-discovered molecules into increasingly novel molecules while satisfying desired properties. Empirical evaluation shows that FaST significantly improves over state-of-the-art methods on benchmark single/multi-objective molecular optimization tasks.
翻訳日:2021-11-07 11:45:00 公開日:2021-10-26
# CARSスペクトルの高速マルチパラメータフィッティングにおける適応モデリングパワー

Adaptive Modeling Powers Fast Multi-parameter Fitting of CARS Spectra ( http://arxiv.org/abs/2111.00917v1 )

ライセンス: Link先を確認
Gregory J. Hunt, Cody R. Ground, Andrew D. Cutler(参考訳) コヒーレント反ストークスラマン分光法(Coherent anti-Stokes Raman Spectroscopy, CARS)は、レーザーによる計測技術であり、多くの科学分野や工学分野に広く応用されている。 CARSは燃焼の研究によく用いられ、測定されたスペクトルを用いて温度や相対種モル分数などの反応ガスから複数の流れパラメータを同時に回収することができる。 これは典型的には、自動車スペクトルの理論モデルが実際の測定と最も一致する流れパラメータを見つけるために数値最適化を用いて行われる。 最も一般的に用いられる理論モデルはcarsft spectrum calculatorである。 残念なことに、このカーフトスペクトル発生器は計算コストが高く、複数のフローパラメータを回収するために使用することは、特に時間や空間に数百から数千の計測値が分散している場合、非常に時間がかかる。 これらの問題を克服するため、事前計算された理論スペクトルのライブラリを用いてCARSFTを近似する手法が開発されている。 本稿では,適応的に滑らかなカーネルベースの近似器を構築するために,機械学習文献のアイデアを活用する新しい手法を提案する。 h_2/$air火炎を模擬した2ポンプ車実験では,少数のライブラリースペクトルを用いて温度を迅速かつ正確に回復し,ガス種4種のモル分画を抽出できることを示した。 この手法の柔軟性は、速度と精度のトレードオフを微調整したナビゲーションを可能にし、幅広い問題やフローレジームに適している。

Coherent anti-Stokes Raman Spectroscopy (CARS) is a laser-based measurement technique widely applied across many science and engineering disciplines to perform non-intrusive gas diagnostics. CARS is often used to study combustion, where the measured spectra can be used to simultaneously recover multiple flow parameters from the reacting gas such as temperature and relative species mole fractions. This is typically done by using numerical optimization to find the flow parameters for which a theoretical model of the CARS spectra best matches the actual measurements. The most commonly used theoretical model is the CARSFT spectrum calculator. Unfortunately, this CARSFT spectrum generator is computationally expensive and using it to recover multiple flow parameters can be prohibitively time-consuming, especially when experiments have hundreds or thousands of measurements distributed over time or space. To overcome these issues, several methods have been developed to approximate CARSFT using a library of pre-computed theoretical spectra. In this work we present a new approach that leverages ideas from the machine learning literature to build an adaptively smoothed kernel-based approximator. In application on a simulated dual-pump CARS experiment probing a $H_2/$air flame, we show that the approach can use a small number library spectra to quickly and accurately recover temperature and four gas species' mole fractions. The method's flexibility allows fine-tuned navigation of the trade-off between speed and accuracy, and makes the approach suitable for a wide range of problems and flow regimes.
翻訳日:2021-11-07 11:44:42 公開日:2021-10-26
# (参考訳) astrocyte-modulated plasticity によるエッジ・オブ・カオス・ダイナミクスによる液体状態機械の性能向上

Increasing Liquid State Machine Performance with Edge-of-Chaos Dynamics Organized by Astrocyte-modulated Plasticity ( http://arxiv.org/abs/2111.01760v1 )

ライセンス: CC BY 4.0
Vladimir A. Ivanov, Konstantinos P. Michmizos(参考訳) 液体状態機械(LSM)は、訓練の複雑さと生物学的な妥当性を組み合わせ、エッジおよびニューロモルフィックコンピューティングパラダイムのための魅力的な機械学習フレームワークとなった。 もともと脳計算のモデルとして提案されたLSMは、勾配のバックプロパゲーションなしで内部重みを調整し、多層ニューラルネットワークと比較して性能が低下する。 神経科学の最近の知見は、長い無視された非神経性脳細胞であるアストロサイトがシナプス可塑性と脳のダイナミクスを調節し、秩序とカオスの間の計算上最適な臨界相転移の近傍に脳ネットワークをチューニングしていることを示唆している。 脳のネットワークの自己構造に関するこの破壊的理解に触発されて、自己組織化された近臨界ダイナミクスによる性能不足に対処するニューロン・アストロサイト液体状態機械(nalsm)を提案する。 astrocyteモデルはその生物学的な機能と同様に、神経活動を統合し、spike-timing-dependent plasticity(stdp)へのグローバルなフィードバックを提供する。 我々は,NALSMがデータ固有の手動チューニングを必要とせずに,同等のLSM法に対して最先端の精度を実現することを示す。 MNISTで97.61%、N-MNISTで97.51%、Fashion-MNISTで85.84%の精度で、NALSMはバックプロパゲーションで訓練された現在の完全接続型マルチ層スパイクニューラルネットワークと同等のパフォーマンスを達成した。 脳にインスパイアされた機械学習手法のさらなる発展は、強固でエネルギー効率の良いニューロモルフィックコンピューティングをエッジでサポートすることで、ディープラーニングのパフォーマンスに到達できる可能性が示唆された。

The liquid state machine (LSM) combines low training complexity and biological plausibility, which has made it an attractive machine learning framework for edge and neuromorphic computing paradigms. Originally proposed as a model of brain computation, the LSM tunes its internal weights without backpropagation of gradients, which results in lower performance compared to multi-layer neural networks. Recent findings in neuroscience suggest that astrocytes, a long-neglected non-neuronal brain cell, modulate synaptic plasticity and brain dynamics, tuning brain networks to the vicinity of the computationally optimal critical phase transition between order and chaos. Inspired by this disruptive understanding of how brain networks self-tune, we propose the neuron-astrocyte liquid state machine (NALSM) that addresses under-performance through self-organized near-critical dynamics. Similar to its biological counterpart, the astrocyte model integrates neuronal activity and provides global feedback to spike-timing-dependent plasticity (STDP), which self-organizes NALSM dynamics around a critical branching factor that is associated with the edge-of-chaos. We demonstrate that NALSM achieves state-of-the-art accuracy versus comparable LSM methods, without the need for data-specific hand-tuning. With a top accuracy of 97.61% on MNIST, 97.51% on N-MNIST, and 85.84% on Fashion-MNIST, NALSM achieved comparable performance to current fully-connected multi-layer spiking neural networks trained via backpropagation. Our findings suggest that the further development of brain-inspired machine learning methods has the potential to reach the performance of deep learning, with the added benefits of supporting robust and energy-efficient neuromorphic computing on the edge.
翻訳日:2021-11-07 11:37:15 公開日:2021-10-26
# CLAUSEREC: AI支援契約オーサリングのためのクローズ勧告フレームワーク

CLAUSEREC: A Clause Recommendation Framework for AI-aided Contract Authoring ( http://arxiv.org/abs/2110.15794v1 )

ライセンス: Link先を確認
Vinay Aggarwal, Aparna Garimella, Balaji Vasan Srinivasan, Anandhavelu N, Rajiv Jain(参考訳) 契約は、日々の業務ワークフローで頻繁に発生する一般的な法的文書である。 しかし、そのような文書の処理には非常に限定的なNLP研究があり、その生成はより少ない。 これらの契約は節で構成されており、これらの条項のユニークな性質は、そのような文書を理解して生成するための特定の方法を要求する。 本稿では,契約書作成の促進と支援に向けた第一歩として,条項推薦の課題を紹介する。 まず、特定の節タイプがコントラクトに追加されるかどうかを予測し、次に、契約コンテキストに基づいて所定の型のトップ節を推奨する2段階パイプラインを提案する。 既存の節のライブラリに2つの追加タスクでBERTを事前訓練し、予測とレコメンデーションに使用します。 節関連性予測のための分類法と類似性に基づくヒューリスティックス、節推薦のための生成法を実験し、複数の節タイプで様々な方法から結果を評価する。 結果の分析を行い,本研究における各種手法の利点と限界について概説する。

Contracts are a common type of legal document that frequent in several day-to-day business workflows. However, there has been very limited NLP research in processing such documents, and even lesser in generating them. These contracts are made up of clauses, and the unique nature of these clauses calls for specific methods to understand and generate such documents. In this paper, we introduce the task of clause recommendation, asa first step to aid and accelerate the author-ing of contract documents. We propose a two-staged pipeline to first predict if a specific clause type is relevant to be added in a contract, and then recommend the top clauses for the given type based on the contract context. We pretrain BERT on an existing library of clauses with two additional tasks and use it for our prediction and recommendation. We experiment with classification methods and similarity-based heuristics for clause relevance prediction, and generation-based methods for clause recommendation, and evaluate the results from various methods on several clause types. We provide analyses on the results, and further outline the advantages and limitations of the various methods for this line of research.
翻訳日:2021-11-07 11:08:41 公開日:2021-10-26
# 対人ロバストネスの周波数的視点

A Frequency Perspective of Adversarial Robustness ( http://arxiv.org/abs/2111.00861v1 )

ライセンス: Link先を確認
Shishira R Maiya, Max Ehrlich, Vatsal Agarwal, Ser-Nam Lim, Tom Goldstein, Abhinav Shrivastava(参考訳) 敵対的な例は、ディープラーニングシステムに固有の課題をもたらす。 近年の攻撃と防衛の進展にもかかわらず、敵の例の真の性質と根底にある性質について、コミュニティには明確さとコンセンサスがない。 これらの例を深く理解することで、より効果的な攻撃と防御の開発に対する新たな洞察を得ることができる。 逆例が高周波雑音であるという一般的な誤解に触発され,理論的および経験的知見によって支持される逆例の周波数ベースの理解を示す。 分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。 特に,CIFAR-10でトレーニングされたモデルとImageNet由来のデータセットとの相違点を強調した。 この枠組みを用いて,周波数制約付きロバストモデルの多くの興味をそそる特性を解析し,ロバスト性トレードオフに対する一般観測精度の周波数ベース説明を提案する。

Adversarial examples pose a unique challenge for deep learning systems. Despite recent advances in both attacks and defenses, there is still a lack of clarity and consensus in the community about the true nature and underlying properties of adversarial examples. A deep understanding of these examples can provide new insights towards the development of more effective attacks and defenses. Driven by the common misconception that adversarial examples are high-frequency noise, we present a frequency-based understanding of adversarial examples, supported by theoretical and empirical findings. Our analysis shows that adversarial examples are neither in high-frequency nor in low-frequency components, but are simply dataset dependent. Particularly, we highlight the glaring disparities between models trained on CIFAR-10 and ImageNet-derived datasets. Utilizing this framework, we analyze many intriguing properties of training robust models with frequency constraints, and propose a frequency-based explanation for the commonly observed accuracy vs. robustness trade-off.
翻訳日:2021-11-07 11:08:11 公開日:2021-10-26
# (参考訳) 銀行取引の埋め込みが現在のマクロ経済学の解明に役立つ

Bank transactions embeddings help to uncover current macroeconomics ( http://arxiv.org/abs/2110.12000v2 )

ライセンス: CC0 1.0
Maria Begicheva, Alexey Zaytsev(参考訳) マクロ経済指標は銀行にとって非常に重要であり、リスク管理決定の多くはこれらの指標を利用する。 これらの指標評価の典型的なワークフローはコストがかかり、引き延ばされ、実際の日付と利用可能なインデックスの遅延は数ヶ月である。 銀行は今、自己回帰モデルを使って急速に変化する環境で意思決定をしている。 しかし、自己回帰モデルは危機の出現に関連する複雑なシナリオで失敗する。 我々は,ロシア大手銀行からの顧客の金融取引データを用いて,これらの指標を取得することを提案する。 金融取引は長く、多くのクライアントは巨大であるため、我々は数百万の取引からなる取引の流れに基づいてマクロ経済指標を迅速かつ正確に推定できる効率的なアプローチを開発します。 このアプローチでは、ニューラルネットワークパラダイムとスマートサンプリングスキームを使用する。 その結果,我々のニューラルネットワークアプローチは,トランザクションに基づく手作り特徴のベースライン手法よりも優れていることがわかった。 計算された埋め込みは、クライアントのトランザクションアクティビティと銀行マクロ経済指標との時間的相関を示す。

Macroeconomic indexes are of high importance for banks: many risk-control decisions utilize these indexes. A typical workflow of these indexes evaluation is costly and protracted, with a lag between the actual date and available index being a couple of months. Banks predict such indexes now using autoregressive models to make decisions in a rapidly changing environment. However, autoregressive models fail in complex scenarios related to appearances of crises. We propose to use clients' financial transactions data from a large Russian bank to get such indexes. Financial transactions are long, and a number of clients is huge, so we develop an efficient approach that allows fast and accurate estimation of macroeconomic indexes based on a stream of transactions consisting of millions of transactions. The approach uses a neural networks paradigm and a smart sampling scheme. The results show that our neural network approach outperforms the baseline method on hand-crafted features based on transactions. Calculated embeddings show the correlation between the client's transaction activity and bank macroeconomic indexes over time.
翻訳日:2021-11-01 09:14:14 公開日:2021-10-26
# (参考訳) 抽象化と推論のためのニューラル誘導双方向プログラム探索

Neural-guided, Bidirectional Program Search for Abstraction and Reasoning ( http://arxiv.org/abs/2110.11536v2 )

ライセンス: CC BY 4.0
Simon Alford, Anshula Gandhi, Akshay Rangamani, Andrzej Banburski, Tony Wang, Sylee Dandekar, John Chin, Tomaso Poggio, and Peter Chin(参考訳) 今日の人工知能研究が直面する課題の1つは、体系的な推論を利用して新しいタスクを一般化できるシステムを設計することだ。 ARC(Abstraction and Reasoning Corpus)は、視覚的推論タスクを通じてそのような能力を測定する。 本稿では,arcに関する漸進的な進歩を報告し,ブルートフォース検索を基盤としない2つの抽象化と推論の基礎を述べる。 まずDreamCoderと呼ばれる既存のプログラム合成システムを用いて、これまで解決されてきたタスクからシンボリックな抽象化を作成し、より困難なARCタスクの解決を可能にする方法を示す。 第二に、人間がARCに近づく方法によって動機付けられた推論アルゴリズムを設計する。 アルゴリズムは探索グラフを構築し,このグラフ構造上の理由からタスクソリューションを探索する。 より具体的には,関数逆セマンティクスに基づく帰納的推論を用いて,既存の実行誘導型プログラム合成手法を拡張し,ニューラルネットワークによる双方向探索アルゴリズムを実現する。 本稿では,ARC,24ゲームタスク,および'double-and-add'算術パズルの3つの領域におけるアルゴリズムの有効性を示す。

One of the challenges facing artificial intelligence research today is designing systems capable of utilizing systematic reasoning to generalize to new tasks. The Abstraction and Reasoning Corpus (ARC) measures such a capability through a set of visual reasoning tasks. In this paper we report incremental progress on ARC and lay the foundations for two approaches to abstraction and reasoning not based in brute-force search. We first apply an existing program synthesis system called DreamCoder to create symbolic abstractions out of tasks solved so far, and show how it enables solving of progressively more challenging ARC tasks. Second, we design a reasoning algorithm motivated by the way humans approach ARC. Our algorithm constructs a search graph and reasons over this graph structure to discover task solutions. More specifically, we extend existing execution-guided program synthesis approaches with deductive reasoning based on function inverse semantics to enable a neural-guided bidirectional search algorithm. We demonstrate the effectiveness of the algorithm on three domains: ARC, 24-Game tasks, and a 'double-and-add' arithmetic puzzle.
翻訳日:2021-11-01 05:23:37 公開日:2021-10-26
# (参考訳) 形状表現を用いた知識グラフサブセットの作成

Creating Knowledge Graphs Subsets using Shape Expressions ( http://arxiv.org/abs/2110.11709v3 )

ライセンス: CC BY 4.0
Jose Emilio Labra Gayo(参考訳) Googleとその後の大企業による知識グラフの導入は、その採用と人気を高めている。 本稿では,rdfベースのグラフ,プロパティグラフ,wikibaseグラフと呼ばれる3種類の知識グラフの形式モデルを提案する。 知識グラフの質を高めるために、いくつかのアプローチでその内容の説明と検証がなされている。 形状表現(ShEx)はRDF検証のための簡潔な言語として提案されている。 本稿では、ShExの簡単な紹介と、プロパティグラフ(PShEx)とwikibaseグラフ(WShEx)の記述および検証に使用できる2つの拡張について述べる。 知識グラフの1つの問題は、それらに含まれる大量のデータである。 この問題を緩和するために、ある領域の知識グラフのサブセットを作成するというアプローチがある。 エンティティマッチング、単純なマッチング、ShExマッチング、ShExプラスSlurpおよびShExプラスPregelは、いくつかのコンテンツまたはシェイプ式を一致させることで、サブセットを宣言的に定義する。 最後のアプローチは、ビッグデータグラフを処理でき、Apache Spark GraphXに実装されているPregelアルゴリズムに基づいた、ShExの新たなバリデーションアルゴリズムに基づいている。

The initial adoption of knowledge graphs by Google and later by big companies has increased their adoption and popularity. In this paper we present a formal model for three different types of knowledge graphs which we call RDF-based graphs, property graphs and wikibase graphs. In order to increase the quality of Knowledge Graphs, several approaches have appeared to describe and validate their contents. Shape Expressions (ShEx) has been proposed as concise language for RDF validation. We give a brief introduction to ShEx and present two extensions that can also be used to describe and validate property graphs (PShEx) and wikibase graphs (WShEx). One problem of knowledge graphs is the large amount of data they contain, which jeopardizes their practical application. In order to palliate this problem, one approach is to create subsets of those knowledge graphs for some domains. We propose the following approaches to generate those subsets: Entity-matching, simple matching, ShEx matching, ShEx plus Slurp and ShEx plus Pregel which are based on declaratively defining the subsets by either matching some content or by Shape Expressions. The last approach is based on a novel validation algorithm for ShEx based on the Pregel algorithm that can handle big data graphs and has been implemented on Apache Spark GraphX.
翻訳日:2021-11-01 04:08:49 公開日:2021-10-26
# (参考訳) 非IIDデータを用いた連合型対人訓練

Ensemble Federated Adversarial Training with Non-IID data ( http://arxiv.org/abs/2110.14814v1 )

ライセンス: CC BY 4.0
Shuang Luo and Didi Zhu and Zexi Li and Chao Wu(参考訳) データプライバシとセキュリティを保護するという前提の下で、相互学習型エンドウズ(federated learning endows)が分散クライアントを協調トレーニングモードとして配布しているにも関わらず、クライアントは堅牢性の欠如により、敵対的なサンプルに遭遇しても脆弱である。 敵のサンプルはクライアントモデルを混同して騙し、通常の入力に精巧なノイズを注入することで悪意のある目的を達成することができる。 本稿では, EFATと呼ばれる, 効果的で堅牢な協調学習機構を実現するための, 包括的対人訓練手法を提案する。 我々の中核となる考え方は、他の参加顧客から異なる障害を伴うトレーニングデータを拡張することで、敵のサンプルの多様性を高めることである。 特徴分布スキューやラベル分布スキューなど,異なる非IID状況における実験結果から,本手法は,フェデレート学習と対角的アプローチを単独で組み合わせることで,有望な結果が得られることを示した。

Despite federated learning endows distributed clients with a cooperative training mode under the premise of protecting data privacy and security, the clients are still vulnerable when encountering adversarial samples due to the lack of robustness. The adversarial samples can confuse and cheat the client models to achieve malicious purposes via injecting elaborate noise into normal input. In this paper, we introduce a novel Ensemble Federated Adversarial Training Method, termed as EFAT, that enables an efficacious and robust coupled training mechanism. Our core idea is to enhance the diversity of adversarial examples through expanding training data with different disturbances generated from other participated clients, which helps adversarial training perform well in Non-IID settings. Experimental results on different Non-IID situations, including feature distribution skew and label distribution skew, show that our proposed method achieves promising results compared with solely combining federated learning with adversarial approaches.
翻訳日:2021-10-31 13:22:07 公開日:2021-10-26
# (参考訳) 連続学習のための生成的リプレイにおける脳誘発的特徴誇張

Brain-inspired feature exaggeration in generative replay for continual learning ( http://arxiv.org/abs/2110.15056v1 )

ライセンス: CC BY 4.0
Jack Millichamp, Xi Chen(参考訳) これまでに学んだクラスの破滅的な忘れは、信頼性があり正確な生成的連続学習モデルの開発に成功するための大きな障害の1つである。 新しいクラスを学習する場合、事前に学習したクラスの内部表現はしばしば上書きされ、結果としてモデルの以前のクラスの"メモリ"は時間とともに失われる。 近年の神経科学の発展により、脳が自身の記憶干渉を回避できる方法が発見されている。 類似しているが競合する記憶の特徴の違いを的確に誇張することで、脳はそれらをより容易に識別し思い出すことができる。 本稿では,このような誇張の応用を,競合するクラスに属するリプレイされたサンプルの反発を通じて検討する。 そこで,本稿では,組込み学習データセットcifar100における初期クラスの分類に関する新たな最先端性能について述べる。

The catastrophic forgetting of previously learnt classes is one of the main obstacles to the successful development of a reliable and accurate generative continual learning model. When learning new classes, the internal representation of previously learnt ones can often be overwritten, resulting in the model's "memory" of earlier classes being lost over time. Recent developments in neuroscience have uncovered a method through which the brain avoids its own form of memory interference. Applying a targeted exaggeration of the differences between features of similar, yet competing memories, the brain can more easily distinguish and recall them. In this paper, the application of such exaggeration, via the repulsion of replayed samples belonging to competing classes, is explored. Through the development of a 'reconstruction repulsion' loss, this paper presents a new state-of-the-art performance on the classification of early classes in the class-incremental learning dataset CIFAR100.
翻訳日:2021-10-31 13:10:02 公開日:2021-10-26
# (参考訳) 反対例に対する周波数心防御機構

Frequency Centric Defense Mechanisms against Adversarial Examples ( http://arxiv.org/abs/2110.13935v1 )

ライセンス: CC BY-SA 4.0
Sanket B. Shah, Param Raval, Harin Khakhi, Mehul S. Raval(参考訳) 本稿では,入力画像に小さな摂動を導入することで畳み込みニューラルネットワークを騙すことを目標とし,フーリエスペクトルの大きさと位相と,画像のエントロピーを用いてAEを防御する手法を提案する。 対向検知器の訓練と対向効果の認知という2つの方法による防御の実証を行った。 低分解能CIFAR-10と高分解能画像Netデータセットで実験を行った。 対向検出器は、CIFAR-10データセットに対するFGSMおよびPGD攻撃の99%の精度を持つ。 しかし、検出精度は、高度なDeepFoolとCarini & WagnerによるImageNet攻撃の50%に低下する。 オートエンコーダによる制限を克服し,AEsの70%が正常に分類されていることを示す。

Adversarial example (AE) aims at fooling a Convolution Neural Network by introducing small perturbations in the input image.The proposed work uses the magnitude and phase of the Fourier Spectrum and the entropy of the image to defend against AE. We demonstrate the defense in two ways: by training an adversarial detector and denoising the adversarial effect. Experiments were conducted on the low-resolution CIFAR-10 and high-resolution ImageNet datasets. The adversarial detector has 99% accuracy for FGSM and PGD attacks on the CIFAR-10 dataset. However, the detection accuracy falls to 50% for sophisticated DeepFool and Carlini & Wagner attacks on ImageNet. We overcome the limitation by using autoencoder and show that 70% of AEs are correctly classified after denoising.
翻訳日:2021-10-31 13:03:29 公開日:2021-10-26
# (参考訳) 臨界決定過程の確率的ロバストモデル中心説明法

Provably Robust Model-Centric Explanations for Critical Decision-Making ( http://arxiv.org/abs/2110.13937v1 )

ライセンス: CC BY-SA 4.0
Cecilia G. Morales, Nicholas Gisolfi, Robert Edman, James K. Miller, Artur Dubrawski(参考訳) 人工知能(AI)における一般的なデータ中心の説明ツールであるLIMEやSHAPとの違いと相補的なモデル行動の有用な説明を得るために、モデル中心のSAT(Boolean Satisfiability)形式を使うことを推奨する。 これらの手法を比較して比較し,データ中心の手法が実用性に乏しい説明をもたらすことを示す。 しかし、モデル中心のフレームワークは、実際にAIモデルを使用するリスクに関する実用的な洞察を提供することができる。 aiの重要なアプリケーションでは、分割2次意思決定は、モデル中心のフレームワークが提供する能力であるデータの性質に不変なロバストな説明によって最もよくわかる。

We recommend using a model-centric, Boolean Satisfiability (SAT) formalism to obtain useful explanations of trained model behavior, different and complementary to what can be gleaned from LIME and SHAP, popular data-centric explanation tools in Artificial Intelligence (AI). We compare and contrast these methods, and show that data-centric methods may yield brittle explanations of limited practical utility. The model-centric framework, however, can offer actionable insights into risks of using AI models in practice. For critical applications of AI, split-second decision making is best informed by robust explanations that are invariant to properties of data, the capability offered by model-centric frameworks.
翻訳日:2021-10-31 12:54:57 公開日:2021-10-26
# (参考訳) Boosted CVaR 分類

Boosted CVaR Classification ( http://arxiv.org/abs/2110.13948v1 )

ライセンス: CC BY 4.0
Runtian Zhai, Chen Dan, Arun Sai Suggala, Zico Kolter, Pradeep Ravikumar(参考訳) 現代の機械学習タスクの多くは、データセットの最悪のサンプルよりも高いパフォーマンス、すなわち高いテールパフォーマンスのモデルを必要とする。 この問題はアルゴリズム的公正性、クラス不均衡、リスクに敏感な意思決定などの分野で広く研究されている。 モデルのテール性能を最大化するための一般的なアプローチは、損失のテール平均リスクを計算するCVaR(Conditional Value at Risk)損失を最小限にすることである。 しかし,ゼロ・ワン損失によってモデルが評価される分類タスクでは,分類器が決定論的であれば,ゼロ・ワン損失の最小化もCVaRゼロ・ワン損失の最小化であり,CVaR損失の最小化は追加の仮定なしでは役に立たないことを示す。 我々は、平均ゼロワン損失とcvarゼロワン損失の最小値がもはや同じではないランダム化分類器に対するcvar損失を最小化することで、この負の結果を回避し、後者を最小化することで末尾性能を改善することができる。 このようなランダム化分類を学習するために,CVaRとLPBoostという古典的ブースティングアルゴリズムとの直接的な関係を動機としたBoosted CVaR分類フレームワークを提案する。 このフレームワークに基づいて,$\alpha$-AdaLPBoostというアルゴリズムを設計する。 提案アルゴリズムを4つのベンチマークデータセット上で実証的に評価し,決定論的モデルトレーニング手法よりも高いテール性能を実現することを示す。

Many modern machine learning tasks require models with high tail performance, i.e. high performance over the worst-off samples in the dataset. This problem has been widely studied in fields such as algorithmic fairness, class imbalance, and risk-sensitive decision making. A popular approach to maximize the model's tail performance is to minimize the CVaR (Conditional Value at Risk) loss, which computes the average risk over the tails of the loss. However, for classification tasks where models are evaluated by the zero-one loss, we show that if the classifiers are deterministic, then the minimizer of the average zero-one loss also minimizes the CVaR zero-one loss, suggesting that CVaR loss minimization is not helpful without additional assumptions. We circumvent this negative result by minimizing the CVaR loss over randomized classifiers, for which the minimizers of the average zero-one loss and the CVaR zero-one loss are no longer the same, so minimizing the latter can lead to better tail performance. To learn such randomized classifiers, we propose the Boosted CVaR Classification framework which is motivated by a direct relationship between CVaR and a classical boosting algorithm called LPBoost. Based on this framework, we design an algorithm called $\alpha$-AdaLPBoost. We empirically evaluate our proposed algorithm on four benchmark datasets and show that it achieves higher tail performance than deterministic model training methods.
翻訳日:2021-10-31 12:48:18 公開日:2021-10-26
# (参考訳) Can't Fool Me: ビデオ理解のための逆ロバスト変換器

Can't Fool Me: Adversarially Robust Transformer for Video Understanding ( http://arxiv.org/abs/2110.13950v1 )

ライセンス: CC BY 4.0
Divya Choudhary, Palash Goyal, Saurabh Sahu(参考訳) ディープニューラルネットワークは、逆の例ではパフォーマンスが悪いことが示されている。 これを解決するために,画像分類タスクに対するモデルの堅牢性を高めるために,いくつかの手法が提案されている。 しかし、ビデオ理解タスクでは、逆向きに堅牢なモデルを開発することは未だ未定である。 本稿では,このギャップを埋めることを目的とする。 まず,画像ベースの可逆ロバストモデルの単純な拡張により,最悪の場合のパフォーマンスがわずかに向上することを示す。 さらに,注意モジュールのロバスト性を改善するために,トランスフォーマの時空間的注意正規化方式を提案する。 本稿では, 大規模ビデオデータセット YouTube-8M を用いて, 最終モデル (A-ART) が, 敵の例集合上での非敵的性能に近い結果が得られることを示す。 一方, ベースライントランスフォーマーと単純な逆数拡張は72.9%, 82%であり, 最先端技術に対する堅牢性は著しく向上した。

Deep neural networks have been shown to perform poorly on adversarial examples. To address this, several techniques have been proposed to increase robustness of a model for image classification tasks. However, in video understanding tasks, developing adversarially robust models is still unexplored. In this paper, we aim to bridge this gap. We first show that simple extensions of image based adversarially robust models slightly improve the worst-case performance. Further, we propose a temporal attention regularization scheme in Transformer to improve the robustness of attention modules to adversarial examples. We illustrate using a large-scale video data set YouTube-8M that the final model (A-ART) achieves close to non-adversarial performance on its adversarial example set. We achieve 91% GAP on adversarial examples, whereas baseline Transformer and simple adversarial extensions achieve 72.9% and 82% respectively, showing significant improvement in robustness over the state-of-the-art.
翻訳日:2021-10-31 12:27:15 公開日:2021-10-26
# (参考訳) テンソルネットワークを用いたラデマチャーランダム射影

Rademacher Random Projections with Tensor Networks ( http://arxiv.org/abs/2110.13970v1 )

ライセンス: CC BY 4.0
Beheshteh T. Rakhshan and Guillaume Rabusseau(参考訳) ランダム・プロジェクション(RP)は、最近、超高次元テンソルの次元を縮小する能力のために、機械学習コミュニティで人気のテクニックとして登場した。 29] の作業に続いて, コアテンソルの各要素がラデマッハ分布から引き出されるテンソルトレイン(TT)分解に依存するテンソル化ランダム射影を考える。 我々の理論は、[29] の圧縮フォルミンTT形式で表されるガウスの低ランクテンソルを、同じ埋め込みサイズでラデマッハ分布から引き出されたコア要素を持つTTテンソルに置き換えることができることを示した。 合成データの実験により、テンソル化ラデマッハrpは[29]で研究されたテンソル化ガウスrpよりも優れることが示された。 さらに, 行列積作用素 (mpo) のテンソル化 rp が[5] で提案されている大きな行列上でのsvd は, ジョンソン・リンデンシュトラウス変換 (jlt) ではなく, 適当なランダム射影写像ではないことを理論的に実験的に示す。

Random projection (RP) have recently emerged as popular techniques in themachine learning community for their ability in reducing the dimension of veryhigh-dimensional tensors. Following the work in [29], we consider a tensorizedrandom projection relying on Tensor Train (TT) decomposition where each elementof the core tensors is drawn from a Rademacher distribution. Our theoreticalresults reveal that the Gaussian low-rank tensor represented in compressed formin TT format in [29] can be replaced by a TT tensor with core elements drawnfrom a Rademacher distribution with the same embedding size. Experiments onsynthetic data demonstrate that tensorized Rademacher RP can outperform thetensorized Gaussian RP studied in [29]. In addition, we show both theoreticallyand experimentally, that the tensorized RP in the Matrix Product Operator (MPO)format proposed in [5] for performing SVD on large matrices is not a Johnson-Lindenstrauss transform (JLT) and therefore not a well-suited random projectionmap
翻訳日:2021-10-31 12:03:20 公開日:2021-10-26
# (参考訳) ダイアクロニックテキストマイニングによるcovid-19治療候補の検討

Diachronic Text Mining Investigation of Therapeutic Candidates for COVID-19 ( http://arxiv.org/abs/2110.13971v1 )

ライセンス: CC BY 4.0
James Powell, Kari Sentz(参考訳) ダイアクロニックテキストマイニングは、単語の意味と使用法の変化の長期にわたる言語調査にしばしば適用されてきた。 本稿では,CORD-19データセットに記録された新型コロナウイルスに関する研究論文のコーパスに,短時間のダイアクロニックテキストマイニングを適用し,コクレンスを同定し,潜在的治療の行動を解析する。 オークリッジ国立研究所(Oak Ridge National Laboratory)のCOVID-19薬物再購入研究に関連するデータセットを使用した。 この研究では、SARS-COV-2ウイルスがヒト細胞に侵入する能力を阻害する可能性に基づいて分析され、ランキングされた薬物や承認された化合物を含む、既存の新型コロナウイルス治療候補を特定した。 CORD-19コーパスの時間的事例におけるこれらの候補の発生について検討した。 検出された用語の少なくとも25%がコーパスの時間的インスタンスで発生し、その頻度と文脈的ダイナミクスが評価可能であることが判明した。 行動は,頻度と文脈の変化が小さく正の相関関係にあるもの,頻度と文脈の変化の間に相関がないもの,頻度と文脈の変化の間に負の相関があるもの,の3種類を同定した。 後者の2つのパターンは、ターゲット候補治療が積極的な評価を受けていることを示すものであると推測する。 ダイアクロニックテキストマイニング技術と大規模ダイナミックテキストコーパスを併用し,国際臨床・実験室における薬物再資源化活動の追跡に有用である可能性が示唆された。

Diachronic text mining has frequently been applied to long-term linguistic surveys of word meaning and usage shifts over time. In this paper we apply short-term diachronic text mining to a rapidly growing corpus of scientific publications on COVID-19 captured in the CORD-19 dataset in order to identify co-occurrences and analyze the behavior of potential candidate treatments. We used a data set associated with a COVID-19 drug re-purposing study from Oak Ridge National Laboratory. This study identified existing candidate coronavirus treatments, including drugs and approved compounds, which had been analyzed and ranked according to their potential for blocking the ability of the SARS-COV-2 virus to invade human cells. We investigated the occurrence of these candidates in temporal instances of the CORD-19 corpus. We found that at least 25% of the identified terms occurred in temporal instances of the corpus to the extent that their frequency and contextual dynamics could be evaluated. We identified three classes of behaviors: those where frequency and contextual shifts were small and positively correlated; those where there was no correlation between frequency and contextual changes; and those where there was a negative correlation between frequency and contextual shift. We speculate that the latter two patterns are indicative that a target candidate therapeutics is undergoing active evaluation. The patterns we detected demonstrate the potential benefits of using diachronic text mining techniques with a large dynamic text corpus to track drug-repurposing activities across international clinical and laboratory settings.
翻訳日:2021-10-31 11:49:03 公開日:2021-10-26
# (参考訳) 何を学ぶかを決めるときの情報の価値

The Value of Information When Deciding What to Learn ( http://arxiv.org/abs/2110.13973v1 )

ライセンス: CC BY 4.0
Dilip Arumugam and Benjamin Van Roy(参考訳) すべての意思決定エージェントは、特定のターゲットに関する知識を取得するために探索します。 リッチで複雑な環境では、このターゲットを構成するのはエージェントデザイナーの責任であり、環境自体の完全な知識がなければ、設計者は、エージェントがターゲットが関連するパフォーマンスの不足に対してターゲットを特定するために取得しなければならない情報量とバランスが取れない、最適以下の学習ターゲットをフォージすることができる。 近年の研究では、この課題に対処するための学習目標とレート歪曲理論の関連性を開発し、自動化された方法で何を学ぶかを決定するエージェントに権限を与える一方で、提案アルゴリズムは効率的な情報取得の等しく重要な課題に最適に対処していない。 本稿では,情報指向サンプリング(russo & van roy, 2014)の独創的な設計原理に基づいて,学習目標の最適設計と最適な情報獲得を組み合わせるために,この欠点を直接解決する。 その過程で,何を学ぶかを決定する際に,情報の価値を確認する経験的結果に目を向ける前に,レートゆがみ理論に関する文献から学習目標への新たな洞察を提供する。

All sequential decision-making agents explore so as to acquire knowledge about a particular target. It is often the responsibility of the agent designer to construct this target which, in rich and complex environments, constitutes a onerous burden; without full knowledge of the environment itself, a designer may forge a sub-optimal learning target that poorly balances the amount of information an agent must acquire to identify the target against the target's associated performance shortfall. While recent work has developed a connection between learning targets and rate-distortion theory to address this challenge and empower agents that decide what to learn in an automated fashion, the proposed algorithm does not optimally tackle the equally important challenge of efficient information acquisition. In this work, building upon the seminal design principle of information-directed sampling (Russo & Van Roy, 2014), we address this shortcoming directly to couple optimal information acquisition with the optimal design of learning targets. Along the way, we offer new insights into learning targets from the literature on rate-distortion theory before turning to empirical results that confirm the value of information when deciding what to learn.
翻訳日:2021-10-31 11:38:55 公開日:2021-10-26
# (参考訳) ソーシャルネットワークテキスト処理アプリケーションにおける敵対的攻撃と防御:技術,課題,今後の研究方向

Adversarial Attacks and Defenses for Social Network Text Processing Applications: Techniques, Challenges and Future Research Directions ( http://arxiv.org/abs/2110.13980v1 )

ライセンス: CC BY 4.0
Izzat Alsmadi, Kashif Ahmad, Mahmoud Nazzal, Firoj Alam, Ala Al-Fuqaha, Abdallah Khreishah, and Abdulelah Algosaibi(参考訳) ソーシャルメディアの利用が増加し、いくつかの機械学習(ML)と自然言語処理(NLP)ツールが開発され、ソーシャルメディアコンテンツを前代未聞の量で処理して実行可能な意思決定ができるようになった。 しかし、これらのMLおよびNLPアルゴリズムは敵攻撃に弱いことが広く示されている。 これらの脆弱性により、ソーシャルメディアのテキスト処理のさまざまな応用において、敵のアルゴリズムに対する多様な攻撃を開始することができる。 本稿では,ソーシャルメディアアプリケーションにおける敵の攻撃と防衛に対する主要なアプローチについて,特に重要な課題と今後の研究方向性に焦点をあてた総合的なレビューを行う。 詳しくは、6つの主要な応用、すなわち、文献について述べる。 (i)うわさの検出。 (ii)検出を風刺する。 (iii)クリックベイトとスパムの識別。 (iv)ヘイトスピーチ検出。 (v)誤情報検出、及び (vi)感情分析。 次に、同時に予想される今後の研究課題を強調し、今後の作業に対する推奨と指示を提供します。

The growing use of social media has led to the development of several Machine Learning (ML) and Natural Language Processing(NLP) tools to process the unprecedented amount of social media content to make actionable decisions. However, these MLand NLP algorithms have been widely shown to be vulnerable to adversarial attacks. These vulnerabilities allow adversaries to launch a diversified set of adversarial attacks on these algorithms in different applications of social media text processing. In this paper, we provide a comprehensive review of the main approaches for adversarial attacks and defenses in the context of social media applications with a particular focus on key challenges and future research directions. In detail, we cover literature on six key applications, namely (i) rumors detection, (ii) satires detection, (iii) clickbait & spams identification, (iv) hate speech detection, (v)misinformation detection, and (vi) sentiment analysis. We then highlight the concurrent and anticipated future research questions and provide recommendations and directions for future work.
翻訳日:2021-10-31 11:11:04 公開日:2021-10-26
# (参考訳) CHIP: コンパクトニューラルネットワークのためのチャンネル独立型プルーニング

CHIP: CHannel Independence-based Pruning for Compact Neural Networks ( http://arxiv.org/abs/2110.13981v1 )

ライセンス: CC BY 4.0
Yang Sui, Miao Yin, Yi Xie, Huy Phan, Saman Zonouz, Bo Yuan(参考訳) フィルタプルーニングは実用的加速を可能にするため、ニューラルネットワークの圧縮に広く使われている。 現在までに、既存のフィルタプルーニング作業の多くは、チャネル内情報を用いてフィルタの重要性を探求している。 本稿では,チャネル間の観点から,異なる特徴写像間の相関を計測する指標であるチャネル独立性を用いた効率的なフィルタプルーニングを提案する。 独立性の低い特徴マップは、より有用な情報$/$knowledgeを含むと解釈されるため、対応するフィルタはモデル容量に影響を与えずに刈り取ることができる。 フィルタプルーニングの文脈におけるチャネル独立性の定量化指標,測定方法,感度$/$信頼性について系統的に検討する。 各種データセットの異なるモデルに対する評価結果は,提案手法の優れた性能を示す。 特に、CIFAR-10データセットでは、ベースラインのResNet-56およびResNet-110モデルよりも0.75\%$と0.94\%$の精度が向上し、モデルサイズとFLOPは、それぞれ42.8\%$と47.4\%$(ResNet-56用)と48.3\%$(ResNet-110用)と52.1\%$(ResNet-110用)に減少する。 ImageNetデータセットでは、ベースラインのResNet-50モデルよりも0.15\%の精度で、それぞれ40.8\%と444.8\%のストレージと計算の削減を実現しています。 コードはhttps://github.com/Eclipsess/CHIP_NeurIPS2021で公開されている。

Filter pruning has been widely used for neural network compression because of its enabled practical acceleration. To date, most of the existing filter pruning works explore the importance of filters via using intra-channel information. In this paper, starting from an inter-channel perspective, we propose to perform efficient filter pruning using Channel Independence, a metric that measures the correlations among different feature maps. The less independent feature map is interpreted as containing less useful information$/$knowledge, and hence its corresponding filter can be pruned without affecting model capacity. We systematically investigate the quantification metric, measuring scheme and sensitiveness$/$reliability of channel independence in the context of filter pruning. Our evaluation results for different models on various datasets show the superior performance of our approach. Notably, on CIFAR-10 dataset our solution can bring $0.75\%$ and $0.94\%$ accuracy increase over baseline ResNet-56 and ResNet-110 models, respectively, and meanwhile the model size and FLOPs are reduced by $42.8\%$ and $47.4\%$ (for ResNet-56) and $48.3\%$ and $52.1\%$ (for ResNet-110), respectively. On ImageNet dataset, our approach can achieve $40.8\%$ and $44.8\%$ storage and computation reductions, respectively, with $0.15\%$ accuracy increase over the baseline ResNet-50 model. The code is available at https://github.com/Eclipsess/CHIP_NeurIPS2021.
翻訳日:2021-10-31 10:19:06 公開日:2021-10-26
# (参考訳) CAFE: 垂直的フェデレーション学習における破滅的なデータ漏洩

CAFE: Catastrophic Data Leakage in Vertical Federated Learning ( http://arxiv.org/abs/2110.15122v1 )

ライセンス: CC BY 4.0
Xiao Jin, Pin-Yu Chen, Chia-Yi Hsu, Chia-Mu Yu, Tianyi Chen(参考訳) 近年の研究では,フェデレートラーニング(FL)などの分散機械学習システムに展開される勾配共有機構を通じて,プライベートトレーニングデータを漏洩させることが示されている。 データリカバリを複雑にするバッチサイズの増加は、データ漏洩に対する有望な防御戦略と見なされることが多い。 本稿では,この防御的前提を再検討し,共有した集計勾配からバッチデータを効率的に回収するための理論的正当性を備えた高度なデータ漏洩攻撃を提案する。 提案手法は, 垂直方向の 'textit{\underline{c}atastrophic d\underline{a}ta leakage in vertical \underline{f}ederated l\underline{e}arning} (CAFE) と命名した。 既存のデータ漏洩攻撃と比較し,垂直fl設定における広範囲な実験結果から,cafeがデータ回復品質を改善した大規模データ漏洩攻撃を行うことの有効性を実証した。 また,カフェを緩和するための実用的な対策を提案する。 以上の結果から,標準fl,特に垂直の場合における個人データは,トレーニング勾配から漏洩するリスクが高いことが示唆された。 分析は,これらの学習環境において,前例のない実用的なデータ漏洩リスクを示唆する。 私たちの作業のコードは、 \href{https://github.com/DeRafael/CAFE}{\textcolor{blue}{\url{https://github.com/DeRafael/CAFE}}}で公開されています。

Recent studies show that private training data can be leaked through the gradients sharing mechanism deployed in distributed machine learning systems, such as federated learning (FL). Increasing batch size to complicate data recovery is often viewed as a promising defense strategy against data leakage. In this paper, we revisit this defense premise and propose an advanced data leakage attack with theoretical justification to efficiently recover batch data from the shared aggregated gradients. We name our proposed method as \textit{\underline{c}atastrophic d\underline{a}ta leakage in vertical \underline{f}ederated l\underline{e}arning} (CAFE). Comparing to existing data leakage attacks, our extensive experimental results on vertical FL settings demonstrate the effectiveness of CAFE to perform large-batch data leakage attack with improved data recovery quality. We also propose a practical countermeasure to mitigate CAFE. Our results suggest that private data participated in standard FL, especially the vertical case, have a high risk of being leaked from the training gradients. Our analysis implies unprecedented and practical data leakage risks in those learning settings. The code of our work is available at \href{https://github.com/DeRafael/CAFE}{\textcolor{blue}{\url{https://github.com/DeRafael/CAFE}}}.
翻訳日:2021-10-31 09:59:54 公開日:2021-10-26
# ルールを全て規定する人はいない:訓練方法の重複する特徴

No One Representation to Rule Them All: Overlapping Features of Training Methods ( http://arxiv.org/abs/2110.12899v2 )

ライセンス: Link先を確認
Raphael Gontijo-Lopes, Yann Dauphin, Ekin D. Cubuk(参考訳) データの様々な特徴を捉えることができるにもかかわらず、監督の下で訓練された高精度なモデルは、同様の予測を行う傾向がある。 これは、高いパフォーマンスモデルがトレーニング方法論にかかわらず同様のバイアスを共有していることを示唆しているように思われる。 この背景に対して、最近の研究では、大規模なコントラスト学習のような非常に異なるトレーニングテクニックが、一般化と堅牢性ベンチマークにおいて競争力の高い精度をもたらしている。 これは、モデルが必ずしも同様の関数を学ぶ必要があるという仮定を再考する動機となる。 ハイパーパラメータ、アーキテクチャ、フレームワーク、データセットにわたるモデルの大規模な実証的研究を行います。 トレーニング手法の多様化にともなうモデルペアは,分類的に異なる一般化行動を示し,非相関的な誤りを生じる。 これらのモデルはデータのサブドメインに特化しており、2つのモデル(いずれも画像Netの精度が76.5%)で83.4%(+7%)のアンサンブルを生成することができる。 驚くべきことに、精度の低いモデルでも高いモデルを改善することができる。 最後に、重なり合う(しかし重なり合わせではない)特徴集合をキャプチャする学習手法の偏りが、下流のパフォーマンスを向上させることを示す。

Despite being able to capture a range of features of the data, high accuracy models trained with supervision tend to make similar predictions. This seemingly implies that high-performing models share similar biases regardless of training methodology, which would limit ensembling benefits and render low-accuracy models as having little practical use. Against this backdrop, recent work has made very different training techniques, such as large-scale contrastive learning, yield competitively-high accuracy on generalization and robustness benchmarks. This motivates us to revisit the assumption that models necessarily learn similar functions. We conduct a large-scale empirical study of models across hyper-parameters, architectures, frameworks, and datasets. We find that model pairs that diverge more in training methodology display categorically different generalization behavior, producing increasingly uncorrelated errors. We show these models specialize in subdomains of the data, leading to higher ensemble performance: with just 2 models (each with ImageNet accuracy ~76.5%), we can create ensembles with 83.4% (+7% boost). Surprisingly, we find that even significantly low-accuracy models can be used to improve high-accuracy models. Finally, we show diverging training methodology yield representations that capture overlapping (but not supersetting) feature sets which, when combined, lead to increased downstream performance.
翻訳日:2021-10-31 09:10:50 公開日:2021-10-26
# 深層学習のための安定アンダーソン加速度

Stable Anderson Acceleration for Deep Learning ( http://arxiv.org/abs/2110.14813v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Junqi Yin, Viktor Reshniak, Miroslav Stoyanov(参考訳) AndersonAcceleration (AA) は、DLモデルの反復訓練から生じるような固定点反復を高速化するために設計された外挿技術である。 DLモデルのトレーニングには、ランダムにサンプリングされたバッチで処理される大規模なデータセットが必要である。 これらの振動はAAの正の効果を減少させる。 AAの利点を回復するために、振動を滑らかにし、より規則的な勾配降下更新をもたらす適応的な移動平均手順と組み合わせる。 連続するイテレーション間の相対的な標準偏差を監視することにより、移動平均が必要かどうかを自動的に評価する基準も導入する。 本手法を以下のDLインスタンス化に適用した。 (i)オープンソースの大学院受験データセットを用いた回帰学習のための多層パーセプトロン(MLP) (II)2dおよび100d Burgers偏微分方程式(PDE)を解くために音源データに基づいて訓練された物理情報ニューラルネットワーク(PINN) (iii)画像分類のためのオープンソースのimagenet1kデータセットでトレーニングされたresnet50。 OLCFスーパーコンピュータサミットで最大1,536個のNVIDIA V100 GPUを用いて得られた数値結果は、上記すべての問題に対して移動平均の安定化効果を示した。

Anderson acceleration (AA) is an extrapolation technique designed to speed-up fixed-point iterations like those arising from the iterative training of DL models. Training DL models requires large datasets processed in randomly sampled batches that tend to introduce in the fixed-point iteration stochastic oscillations of amplitude roughly inversely proportional to the size of the batch. These oscillations reduce and occasionally eliminate the positive effect of AA. To restore AA's advantage, we combine it with an adaptive moving average procedure that smoothes the oscillations and results in a more regular sequence of gradient descent updates. By monitoring the relative standard deviation between consecutive iterations, we also introduce a criterion to automatically assess whether the moving average is needed. We applied the method to the following DL instantiations: (i) multi-layer perceptrons (MLPs) trained on the open-source graduate admissions dataset for regression, (ii) physics informed neural networks (PINNs) trained on source data to solve 2d and 100d Burgers' partial differential equations (PDEs), and (iii) ResNet50 trained on the open-source ImageNet1k dataset for image classification. Numerical results obtained using up to 1,536 NVIDIA V100 GPUs on the OLCF supercomputer Summit showed the stabilizing effect of the moving average on AA for all the problems above.
翻訳日:2021-10-29 16:54:23 公開日:2021-10-26
# 一般化目標シフト下における領域適応のための写像条件分布

Mapping conditional distributions for domain adaptation under generalized target shift ( http://arxiv.org/abs/2110.15057v1 )

ライセンス: Link先を確認
Matthieu Kirchmeyer (MLIA), Alain Rakotomamonjy (LITIS), Emmanuel de Bezenac (MLIA), Patrick Gallinari (MLIA)(参考訳) 条件付きおよびラベルシフト a.k.a general target shift (getars) 下でのソースとターゲットドメイン間の教師なしドメイン適応 (uda) の問題を考える。 単純なUDA設定とは異なり、この問題に対処する作業はほとんどない。 最近のアプローチでは、ドメイン不変表現を学習するが、実際的な制限があり、実際には成り立たない強い仮定に依存している。 本稿では,既存の欠点を回避し,事前学習された表現を整列する新しい手法と一般的な手法について検討する。 表現不変性を制約する代わりに、NNとして実装された最適なトランスポートマップを学び、ソース表現をターゲットにマップする。 我々のアプローチは柔軟でスケーラブルであり、問題の構造を保ち、穏やかな仮定の下で強力な理論的保証を持つ。 特に、我々の解は一意であり、ドメイン間の条件分布と一致し、ターゲット比率を回復し、ターゲットの一般化リスクを明示的に制御します。 いくつかのデータセットの徹底的な比較を通じて、GeTarSの最先端技術に挑戦する。

We consider the problem of unsupervised domain adaptation (UDA) between a source and a target domain under conditional and label shift a.k.a Generalized Target Shift (GeTarS). Unlike simpler UDA settings, few works have addressed this challenging problem. Recent approaches learn domain-invariant representations, yet they have practical limitations and rely on strong assumptions that may not hold in practice. In this paper, we explore a novel and general approach to align pretrained representations, which circumvents existing drawbacks. Instead of constraining representation invariance, it learns an optimal transport map, implemented as a NN, which maps source representations onto target ones. Our approach is flexible and scalable, it preserves the problem's structure and it has strong theoretical guarantees under mild assumptions. In particular, our solution is unique, matches conditional distributions across domains, recovers target proportions and explicitly controls the target generalization risk. Through an exhaustive comparison on several datasets, we challenge the state-of-the-art in GeTarS.
翻訳日:2021-10-29 15:37:36 公開日:2021-10-26
# cgSpan: 概念グラフにおけるパターンマイニング

cgSpan: Pattern Mining in Conceptual Graphs ( http://arxiv.org/abs/2110.15058v1 )

ライセンス: Link先を確認
Adam Faci (LFI, TRT), Marie-Jeanne Lesot (LFI), Claire Laudy (TRT)(参考訳) 概念グラフ(cgs)は、グラフに基づく知識表現形式である。 本稿では,CG頻出パターンマイニングアルゴリズムであるcgSpanを提案する。 分類に基づくラベル付きグラフを入力とするdmgm-gsmアルゴリズムを拡張し、cg形式に関する3種類の知識を含んでいる。 (a)ノードのグラフではなく関係を中心とした近傍のグラフを扱う関係ノードの固定アリティ。 b)シグネチャ,シグネチャで指定された最大型よりも一般的な概念型パターンを避けること (c)パターンマイニングの過程で推論規則を適用して適用すること。 実験の結果, cgspanはcgの頻繁なパターンマイニングアルゴリズムであり, cgsの特異性を含めると, より表現力に富み, 語彙の冗長性が低下するより高速なアルゴリズムとなることがわかった。

Conceptual Graphs (CGs) are a graph-based knowledge representation formalism. In this paper we propose cgSpan a CG frequent pattern mining algorithm. It extends the DMGM-GSM algorithm that takes taxonomy-based labeled graphs as input; it includes three more kinds of knowledge of the CG formalism: (a) the fixed arity of relation nodes, handling graphs of neighborhoods centered on relations rather than graphs of nodes, (b) the signatures, avoiding patterns with concept types more general than the maximal types specified in signatures and (c) the inference rules, applying them during the pattern mining process. The experimental study highlights that cgSpan is a functional CG Frequent Pattern Mining algorithm and that including CGs specificities results in a faster algorithm with more expressive results and less redundancy with vocabulary.
翻訳日:2021-10-29 15:28:50 公開日:2021-10-26
# 多体系モデリングのための等変ベクトル場ネットワーク

Equivariant vector field network for many-body system modeling ( http://arxiv.org/abs/2110.14811v1 )

ライセンス: Link先を確認
Weitao Du, He Zhang, Yuanqi Du, Qi Meng, Wei Chen, Bin Shao, Tie-Yan Liu(参考訳) 多体系のモデリングは、古典物理学や量子物理学から計算生物学まで、科学における長年の課題であった。 等分散は多体力学系の臨界物理的対称性であり、任意の参照変換の下でロバストで正確な予測を可能にする。 これを踏まえて、この対称性をディープニューラルネットワークにエンコードすることには大きな努力が払われており、ダウンストリームタスクの予測性能が大幅に向上している。 計算効率のよい一般同値モデルがいくつか提案されているが、これらのモデルは近似のパワーに対する保証がなく、情報損失をもたらす可能性がある。 本稿では,微分幾何学におけるスカラー化手法の知見を活用し,SE(3)および置換同変の勾配ベクトル場を学習することにより,多体系をモデル化する。 具体的には、同変ベースの新しいタプルと関連するスキャラライズおよびベクトル化層上に構築されたEquivariant Vector Field Network (EVFN)を提案する。 我々のタプル同変基底は完全な基底を形成するので、EVFNで力学を学ぶことは情報損失がなく、最終的なベクトル化の前にテンソル演算は関与せず、テンソルの複雑な最適化を最小限に抑える。 我々は, シミュレーションされたニュートン力学系の軌道を, 完全かつ部分的に観測されたデータと, 統計力学系として進化する小分子(分子配座)の平衡状態を用いて予測する方法について検討した。 複数のタスクにまたがる実験の結果、我々のモデルは様々な種類のデータセットのベースラインモデル上で最高の、または競争的な性能を達成できることを示した。

Modeling many-body systems has been a long-standing challenge in science, from classical and quantum physics to computational biology. Equivariance is a critical physical symmetry for many-body dynamic systems, which enables robust and accurate prediction under arbitrary reference transformations. In light of this, great efforts have been put on encoding this symmetry into deep neural networks, which significantly boosts the prediction performance of down-streaming tasks. Some general equivariant models which are computationally efficient have been proposed, however, these models have no guarantee on the approximation power and may have information loss. In this paper, we leverage insights from the scalarization technique in differential geometry to model many-body systems by learning the gradient vector fields, which are SE(3) and permutation equivariant. Specifically, we propose the Equivariant Vector Field Network (EVFN), which is built on a novel tuple of equivariant basis and the associated scalarization and vectorization layers. Since our tuple equivariant basis forms a complete basis, learning the dynamics with our EVFN has no information loss and no tensor operations are involved before the final vectorization, which reduces the complex optimization on tensors to a minimum. We evaluate our method on predicting trajectories of simulated Newton mechanics systems with both full and partially observed data, as well as the equilibrium state of small molecules (molecular conformation) evolving as a statistical mechanics system. Experimental results across multiple tasks demonstrate that our model achieves best or competitive performance on baseline models in various types of datasets.
翻訳日:2021-10-29 14:43:43 公開日:2021-10-26
# マルチタスク学習における敵対的ロバスト性:約束と錯覚

Adversarial Robustness in Multi-Task Learning: Promises and Illusions ( http://arxiv.org/abs/2110.15053v1 )

ライセンス: Link先を確認
Salah Ghamizi, Maxime Cordy, Mike Papadakis and Yves Le Traon(参考訳) 敵の攻撃に対する脆弱性は、ディープニューラルネットワークのよく知られた弱点である。 研究の大部分は、コンピュータビジョンデータセットを備えたシングルタスクニューラルネットワークに焦点を当てているが、実際のアプリケーションで一般的な複雑なマルチタスクモデルを考える研究はほとんどない。 本稿では,マルチタスク深層学習ネットワークの堅牢性に影響を与える設計選択について検討する。 補助的なタスクを盲目的に追加したり、タスクを重み付けすることで、堅牢性の誤った感覚が得られるという証拠を提供する。 そこで,これまでの研究で得られた主張を整理し,ロバスト性に影響を与える要因について検討する。 特に、損失関数に組み込むタスクの選択は、より堅牢なモデルを生み出すために活用できる重要な要素であることを示す。

Vulnerability to adversarial attacks is a well-known weakness of Deep Neural networks. While most of the studies focus on single-task neural networks with computer vision datasets, very little research has considered complex multi-task models that are common in real applications. In this paper, we evaluate the design choices that impact the robustness of multi-task deep learning networks. We provide evidence that blindly adding auxiliary tasks, or weighing the tasks provides a false sense of robustness. Thereby, we tone down the claim made by previous research and study the different factors which may affect robustness. In particular, we show that the choice of the task to incorporate in the loss function are important factors that can be leveraged to yield more robust models.
翻訳日:2021-10-29 13:42:10 公開日:2021-10-26
# (参考訳) 教師付き学習モデルを用いたフェアシーケンシャル選択

Fair Sequential Selection Using Supervised Learning Models ( http://arxiv.org/abs/2110.13986v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Khalili, Xueru Zhang, Mahed Abroshan(参考訳) 我々は、連続して到着した応募者が限られた数の位置/ジョブを申請する選択問題を考える。 各段階において、意思決定者は、すべての空き位置が満たされるまで、予め訓練された教師付き学習モデルを用いて、所定の申請を受理又は拒絶する。 本稿では,分類問題において一般的に用いられるフェアネス概念(等機会,統計パリティなど)が逐次選択問題に適しているかについて議論する。 特に,共通の公平性概念を満たす事前学習されたモデルであっても,選択結果が特定の集団群に対して偏りがあることを示す。 この観察は、分類問題で使われる公平性の概念は、応募者が限られた数を争う選択問題には適さないことを示している。 連続選択問題に適した「平等選択(ES)」という新しいフェアネス概念を導入し、ESフェアネス概念を満たすための後処理アプローチを提案する。 また,利用者がプライバシの懸念を抱くような設定も検討し,意思決定者は機密属性のノイズの多いバージョンのみにアクセスできるようにした。 この設定では、完全なESフェアネスが一定の条件下でも達成可能であることを示すことができる。

We consider a selection problem where sequentially arrived applicants apply for a limited number of positions/jobs. At each time step, a decision maker accepts or rejects the given applicant using a pre-trained supervised learning model until all the vacant positions are filled. In this paper, we discuss whether the fairness notions (e.g., equal opportunity, statistical parity, etc.) that are commonly used in classification problems are suitable for the sequential selection problems. In particular, we show that even with a pre-trained model that satisfies the common fairness notions, the selection outcomes may still be biased against certain demographic groups. This observation implies that the fairness notions used in classification problems are not suitable for a selection problem where the applicants compete for a limited number of positions. We introduce a new fairness notion, ``Equal Selection (ES),'' suitable for sequential selection problems and propose a post-processing approach to satisfy the ES fairness notion. We also consider a setting where the applicants have privacy concerns, and the decision maker only has access to the noisy version of sensitive attributes. In this setting, we can show that the perfect ES fairness can still be attained under certain conditions.
翻訳日:2021-10-29 12:55:02 公開日:2021-10-26
# (参考訳) バッチ正規化の再検討

Revisiting Batch Normalization ( http://arxiv.org/abs/2110.13989v1 )

ライセンス: CC BY 4.0
Jim Davis and Logan Frank(参考訳) バッチ正規化(bn)は正規化成分とアフィン変換で構成され、ディープニューラルネットワークのトレーニングに必須となっている。 ネットワークにおける各BNの標準初期化は、アフィン変換スケールをそれぞれ1と0にシフトさせる。 しかし、訓練後、これらのパラメータは初期化から大きく変化しないことがわかった。 さらに, 正規化過程は, トレーニングに好ましくない, 過大な値を与える可能性があることに注意した。 我々は、BNの定式化を再検討し、上記の問題に対処するため、BNの新たな初期化手法と更新アプローチを提案する。 提案するbnへの変更による実験結果は,様々なシナリオにおいて統計的に有意な性能向上を示した。 このアプローチは、追加の計算コストなしで既存の実装で使用できる。 また,オンラインbnベースの入力データ正規化手法を提案し,他のオフラインあるいは固定メソッドの必要性を緩和する。 ソースコードはhttps://github.com/osu-cvl/revisiting-bnで入手できる。

Batch normalization (BN) is comprised of a normalization component followed by an affine transformation and has become essential for training deep neural networks. Standard initialization of each BN in a network sets the affine transformation scale and shift to 1 and 0, respectively. However, after training we have observed that these parameters do not alter much from their initialization. Furthermore, we have noticed that the normalization process can still yield overly large values, which is undesirable for training. We revisit the BN formulation and present a new initialization method and update approach for BN to address the aforementioned issues. Experimental results using the proposed alterations to BN show statistically significant performance gains in a variety of scenarios. The approach can be used with existing implementations at no additional computational cost. We also present a new online BN-based input data normalization technique to alleviate the need for other offline or fixed methods. Source code is available at https://github.com/osu-cvl/revisiting-bn.
翻訳日:2021-10-29 11:20:43 公開日:2021-10-26
# (参考訳) 局所時間情報を活用したマルチモーダルシーン分類

Leveraging Local Temporal Information for Multimodal Scene Classification ( http://arxiv.org/abs/2110.13992v1 )

ライセンス: CC BY 4.0
Saurabh Sahu, Palash Goyal(参考訳) ロバストなビデオシーン分類モデルは、ビデオの空間的(ピクセル的)特性と時間的(フレーム的)特性を効果的に捉えるべきである。 トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。 しかし、ビデオ理解におけるTransformerベースのモデルの使用は、いまだに未検討である。 さらに、これらのモデルは、隣接するビデオフレーム間の強い時間的関係を利用して、強力なフレームレベルの表現を得ることができない。 本稿では,ビデオフレーム間の局所的および大域的な時間的関係を利用して,個々のフレームの文脈的表現性を向上させる新しいセルフアテンションブロックを提案する。 これにより、モデルは様々な粒度でビデオを理解することができる。 ビデオ分類課題に設定した大規模youttube-8mデータを用いて,本モデルの性能を解説し,改善を示すためにさらに分析を行った。

Robust video scene classification models should capture the spatial (pixel-wise) and temporal (frame-wise) characteristics of a video effectively. Transformer models with self-attention which are designed to get contextualized representations for individual tokens given a sequence of tokens, are becoming increasingly popular in many computer vision tasks. However, the use of Transformer based models for video understanding is still relatively unexplored. Moreover, these models fail to exploit the strong temporal relationships between the neighboring video frames to get potent frame-level representations. In this paper, we propose a novel self-attention block that leverages both local and global temporal relationships between the video frames to obtain better contextualized representations for the individual frames. This enables the model to understand the video at various granularities. We illustrate the performance of our models on the large scale YoutTube-8M data set on the task of video categorization and further analyze the results to showcase improvement.
翻訳日:2021-10-29 11:07:07 公開日:2021-10-26
# (参考訳) tod:テンソルに基づく異常検出

TOD: Tensor-based Outlier Detection ( http://arxiv.org/abs/2110.14007v1 )

ライセンス: CC BY 4.0
Yue Zhao, George H. Chen, Zhihao Jia(参考訳) 大規模で高次元なデータセットに外乱検出(OD)をスケールするために,効率的なGPUアクセラレーションのためにODアルゴリズムを基本テンソル演算に抽象化するTODを提案する。 TODを時間と空間の両方で高効率にするために、ハードウェアとソフトウェアの両方におけるディープラーニングインフラストラクチャの最近の進歩を活用します。 メモリに制限のあるgpu上に大規模odアプリケーションをデプロイするには,2つの重要な技術を導入する。 第1に、証明可能な量子化はod計算を高速化し、特定のod計算を少ない精度で実行することでメモリ要求を低減し、精度の低下を保証できる。 第二に、複数のGPUの集約された計算資源とメモリ容量を活用するために、複数のGPU上で並列に実行できる小さなバッチにOD計算を分解する自動バッチ処理を導入する。 TODはODアルゴリズムとユーティリティ関数の包括的なセットをサポートする。 実および合成のodデータセットの広範な評価により、todは最先端の総合odシステムpyodよりも平均11.9倍高速であり、100万サンプル以内の異常検出に1時間もかからないことがわかった。 todは、追加のodアルゴリズムの簡単な統合を可能にし、古典的なodアルゴリズムとディープラーニングメソッドを組み合わせるための統一フレームワークを提供する。 これらの組み合わせは無限に多くのODメソッドをもたらし、その多くが新しいもので、TODで容易にプロトタイプ化できる。

To scale outlier detection (OD) to large-scale, high-dimensional datasets, we propose TOD, a novel system that abstracts OD algorithms into basic tensor operations for efficient GPU acceleration. To make TOD highly efficient in both time and space, we leverage recent advances in deep learning infrastructure in both hardware and software. To deploy large OD applications on GPUs with limited memory, we introduce two key techniques. First, provable quantization accelerates OD computation and reduces the memory requirement by performing specific OD computations in lower precision while provably guaranteeing no accuracy loss. Second, to exploit the aggregated compute resources and memory capacity of multiple GPUs, we introduce automatic batching, which decomposes OD computations into small batches that can be executed on multiple GPUs in parallel. TOD supports a comprehensive set of OD algorithms and utility functions. Extensive evaluation on both real and synthetic OD datasets shows that TOD is on average 11.9X faster than the state-of-the-art comprehensive OD system PyOD, and takes less than an hour to detect outliers within a million samples. TOD enables straightforward integration for additional OD algorithms and provides a unified framework for combining classical OD algorithms with deep learning methods. These combinations result in an infinite number of OD methods, many of which are novel and can be easily prototyped in TOD.
翻訳日:2021-10-29 10:57:39 公開日:2021-10-26
# (参考訳) MisConv: データ不足のための畳み込みニューラルネットワーク

MisConv: Convolutional Neural Networks for Missing Data ( http://arxiv.org/abs/2110.14010v1 )

ライセンス: CC BY 4.0
Marcin Przewi\k{e}\'zlikowski, Marek \'Smieja, {\L}ukasz Struski, Jacek Tabor(参考訳) cnnのような現代のニューラルネットワークによるデータの処理は、画像インペインティングや自動運転車、ロボットなど、多くの実用的な応用において自然に発生する、基本的な、しかし未解決の課題である。 命令ベースのテクニックは依然として最も一般的なソリューションの1つだが、信頼できない情報をデータに頻繁に導入し、機械学習モデルにとって破壊的な推定の不確実性を考慮していない。 本稿では,不完全画像処理に様々なCNNアーキテクチャを適用するための一般的なメカニズムであるMisConvを提案する。 因子分析器の混合による欠落値の分布をモデル化することにより、置換可能なスペクトルを網羅し、不完全画像に適用される畳み込み演算子の期待値の解析式を求める。 フレームワーク全体がマトリックス操作によって実現されているため、実際にはMisConvは非常に効率的である。 様々な画像処理タスクで行った実験では、MisConvは最先端の手法よりも優れているか同等のパフォーマンスを達成している。

Processing of missing data by modern neural networks, such as CNNs, remains a fundamental, yet unsolved challenge, which naturally arises in many practical applications, like image inpainting or autonomous vehicles and robots. While imputation-based techniques are still one of the most popular solutions, they frequently introduce unreliable information to the data and do not take into account the uncertainty of estimation, which may be destructive for a machine learning model. In this paper, we present MisConv, a general mechanism, for adapting various CNN architectures to process incomplete images. By modeling the distribution of missing values by the Mixture of Factor Analyzers, we cover the spectrum of possible replacements and find an analytical formula for the expected value of convolution operator applied to the incomplete image. The whole framework is realized by matrix operations, which makes MisConv extremely efficient in practice. Experiments performed on various image processing tasks demonstrate that MisConv achieves superior or comparable performance to the state-of-the-art methods.
翻訳日:2021-10-29 10:30:15 公開日:2021-10-26
# (参考訳) Cluster-and-Conquer: 時系列予測のためのフレームワーク

Cluster-and-Conquer: A Framework For Time-Series Forecasting ( http://arxiv.org/abs/2110.14011v1 )

ライセンス: CC BY 4.0
Reese Pathak, Rajat Sen, Nikhil Rao, N. Benjamin Erichson, Michael I. Jordan, and Inderjit S. Dhillon(参考訳) 本稿では,高次元時系列データを予測するための3段階フレームワークを提案する。 本手法はまず,各単変数時系列のパラメータを推定する。 次に、これらのパラメータを使って時系列をクラスタ化する。 これらのクラスタは多変量時系列と見なすことができ、パラメータを計算します。 単一時系列の予測値は、クラスタ間効果を無視して予測における潜在的なノイズを最小限に抑えながら、クラスタ内の類似性を考慮し、クラスタ内の他の時系列の履歴に依存することができる。 私たちのフレームワークは、"cluster-and-conquer"と呼ばれ、非常に一般的なもので、各ステップで時系列予測とクラスタリングメソッドが使用できます。 計算効率が高く、恥ずかしいほど並列である。 理想化された混合線形回帰設定で理論解析を行うことで,提案手法の動機付けを行い,評価の質に関する保証を提供する。 単純な線形自己回帰モデルでインスタンス化されると、いくつかのベンチマークデータセットで最先端の結果が得られ、時にディープラーニングベースのアプローチよりも優れています。

We propose a three-stage framework for forecasting high-dimensional time-series data. Our method first estimates parameters for each univariate time series. Next, we use these parameters to cluster the time series. These clusters can be viewed as multivariate time series, for which we then compute parameters. The forecasted values of a single time series can depend on the history of other time series in the same cluster, accounting for intra-cluster similarity while minimizing potential noise in predictions by ignoring inter-cluster effects. Our framework -- which we refer to as "cluster-and-conquer" -- is highly general, allowing for any time-series forecasting and clustering method to be used in each step. It is computationally efficient and embarrassingly parallel. We motivate our framework with a theoretical analysis in an idealized mixed linear regression setting, where we provide guarantees on the quality of the estimates. We accompany these guarantees with experimental results that demonstrate the advantages of our framework: when instantiated with simple linear autoregressive models, we are able to achieve state-of-the-art results on several benchmark datasets, sometimes outperforming deep-learning-based approaches.
翻訳日:2021-10-29 10:13:03 公開日:2021-10-26
# (参考訳) 乳房超音波画像からの乳がん自動検出のための分類による分節の深部集積パイプライン

Deep Integrated Pipeline of Segmentation Leading to Classification for Automated Detection of Breast Cancer from Breast Ultrasound Images ( http://arxiv.org/abs/2110.14013v1 )

ライセンス: CC BY 4.0
Muhammad Sakib Khan Inan, Fahim Irfan Alam, Rizwan Hasan(参考訳) 乳がんは、世界中のがん死亡の主な原因の1つであるため、現代世界では深刻な懸念の象徴となっている。 この懸念により, 早期に診断し, 治療により死亡率を低下させるため, 乳がんのスクリーニングが頻繁に行われている。 乳腺超音波画像は、乳がんの早期診断に医師が頻繁に利用する。 しかし、複雑なアーティファクトと非常にノイズの強い乳房超音波画像は、乳癌の検出を困難にしている。 また,乳がん検診の患者数の増加に伴い,高精度診断のための自動コンピュータ支援技術の使用が安価かつ短時間で必要となる。 医療画像分析・医療分野における人工知能(AI)の現在の進歩は、人類にとって朗報である。 本研究では,VGG 16モデルを用いた伝達学習手法と密結合型ニューラルネットワークアーキテクチャを用いて,乳房腫瘍分類を頑健な特徴抽出に導く,乳房超音波画像の複雑なアーティファクトを補うために,超音波画像前処理と単純な線形反復クラスタリング(SLIC)を統合した,コンパクトな統合型自動パイプライニングフレームワークを提案する。 提案する自動化パイプラインは,乳がんをより正確かつタイムリーに診断する医療従事者を支援するために効果的に実施できる。

Breast cancer has become a symbol of tremendous concern in the modern world, as it is one of the major causes of cancer mortality worldwide. In this concern, many people are frequently screening for breast cancer in order to be identified early and avert mortality from the disease by receiving treatment. Breast Ultrasonography Images are frequently utilized by doctors to diagnose breast cancer at an early stage. However, the complex artifacts and heavily noised Breast Ultrasonography Images make detecting Breast Cancer a tough challenge. Furthermore, the ever-increasing number of patients being screened for Breast Cancer necessitates the use of automated Computer Aided Technology for high accuracy diagnosis at a cheap cost and in a short period of time. The current progress of Artificial Intelligence (AI) in the fields of Medical Image Analysis and Health Care is a boon to humanity. In this study, we have proposed a compact integrated automated pipelining framework which integrates ultrasonography image preprocessing with Simple Linear Iterative Clustering (SLIC) to tackle the complex artifact of Breast Ultrasonography Images complementing semantic segmentation with Modified U-Net leading to Breast Tumor classification with robust feature extraction using a transfer learning approach with pretrained VGG 16 model and densely connected neural network architecture. The proposed automated pipeline can be effectively implemented to assist medical practitioners in making more accurate and timely diagnoses of breast cancer.
翻訳日:2021-10-29 09:47:21 公開日:2021-10-26
# (参考訳) データセットシフト検出を用いた健康のための信頼性と信頼性の高い機械学習

Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Detection ( http://arxiv.org/abs/2110.14019v1 )

ライセンス: CC BY 4.0
Chunjong Park, Anas Awadalla, Tadayoshi Kohno, Shwetak Patel(参考訳) 予期せぬデータ、特に健康領域における予測不能なmlモデル行動は、その安全性に関する深刻な懸念を引き起こす。 本稿では,信頼性と信頼性の高い診断予測に最先端の分散検出器の利用の可能性について検討する。 我々は,様々な入力データ型(画像,音声,モーションデータなど)を用いて,様々な健康状態(皮膚がん,肺音,パーキンソン病など)に関する公開可能なディープラーニングモデルを選択する。 これらのモデルが分布外のデータセットに不合理な予測を示すことを示す。 マハラノビス距離とグラム行列に基づく分布外検出手法は,異なる形態の健康モデルに対して高い精度で分布外データを検出できることを示した。 次に、アウト・オブ・ディストリビューションスコアを人間の解釈可能なConFIDENCE SCOREに変換し、ユーザーの健康MLアプリケーションとのインタラクションに与える影響を調査する。 ユーザスタディでは,「textsc{confidence score」が,高得点のみを信頼し,医療的判断を下し,低得点で結果を無視する上で有効であった。 この研究を通じて、我々は、データセットシフトが、医療診断や医療など、高度なMLアプリケーションにとって重要な情報であり、ユーザに対して信頼性と信頼性のある予測を提供することを実証した。

Unpredictable ML model behavior on unseen data, especially in the health domain, raises serious concerns about its safety as repercussions for mistakes can be fatal. In this paper, we explore the feasibility of using state-of-the-art out-of-distribution detectors for reliable and trustworthy diagnostic predictions. We select publicly available deep learning models relating to various health conditions (e.g., skin cancer, lung sound, and Parkinson's disease) using various input data types (e.g., image, audio, and motion data). We demonstrate that these models show unreasonable predictions on out-of-distribution datasets. We show that Mahalanobis distance- and Gram matrices-based out-of-distribution detection methods are able to detect out-of-distribution data with high accuracy for the health models that operate on different modalities. We then translate the out-of-distribution score into a human interpretable CONFIDENCE SCORE to investigate its effect on the users' interaction with health ML applications. Our user study shows that the \textsc{confidence score} helped the participants only trust the results with a high score to make a medical decision and disregard results with a low score. Through this work, we demonstrate that dataset shift is a critical piece of information for high-stake ML applications, such as medical diagnosis and healthcare, to provide reliable and trustworthy predictions to the users.
翻訳日:2021-10-29 09:24:45 公開日:2021-10-26
# (参考訳) 深層強化学習における受動学習の難しさ

The Difficulty of Passive Learning in Deep Reinforcement Learning ( http://arxiv.org/abs/2110.14020v1 )

ライセンス: CC BY 4.0
Georg Ostrovski, Pablo Samuel Castro, Will Dabney(参考訳) 環境相互作用のない観測データから行動する学習は、強化学習(RL)においてよく知られている課題である。 最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。 これらの手法は非線形関数近似を用いて評価されるが、理論的正当化は主に表式や線形の場合に限られる。 深層強化学習の印象的な結果を考えると、我々はこの設定における課題をより明確に理解する必要があると論じている。 ヘルド・アンド・ハインの1963年の古典的実験において、オフライン強化学習の難しさを実証分析するための「タンデム学習」実験パラダイムを提案する。 固定データ分布と連動して関数近似を最強因子として同定し,過去の研究で述べられた仮説を拡張しながらも挑戦する。 本研究は,オンライン学習制御の事例において観察される現象に新たな光を当てつつ,オフラインの深層強化学習に関する関連知見を提供する。

Learning to act from observational data without active environmental interaction is a well-known challenge in Reinforcement Learning (RL). Recent approaches involve constraints on the learned policy or conservative updates, preventing strong deviations from the state-action distribution of the dataset. Although these methods are evaluated using non-linear function approximation, theoretical justifications are mostly limited to the tabular or linear cases. Given the impressive results of deep reinforcement learning, we argue for a need to more clearly understand the challenges in this setting. In the vein of Held & Hein's classic 1963 experiment, we propose the "tandem learning" experimental paradigm which facilitates our empirical analysis of the difficulties in offline reinforcement learning. We identify function approximation in conjunction with fixed data distributions as the strongest factors, thereby extending but also challenging hypotheses stated in past work. Our results provide relevant insights for offline deep reinforcement learning, while also shedding new light on phenomena observed in the online case of learning control.
翻訳日:2021-10-29 09:02:13 公開日:2021-10-26
# (参考訳) MEST:Edge上の正確で高速なメモリ-経済スパーストレーニングフレームワーク

MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the Edge ( http://arxiv.org/abs/2110.14032v1 )

ライセンス: CC BY 4.0
Geng Yuan, Xiaolong Ma, Wei Niu, Zhengang Li, Zhenglun Kong, Ning Liu, Yifan Gong, Zheng Zhan, Chaoyang He, Qing Jin, Siyue Wang, Minghai Qin, Bin Ren, Yanzhi Wang, Sijia Liu, Xue Lin(参考訳) 近年、ニューラルネットワークトレーニングを加速する余地を探索する新たなトレンドが出現し、エッジでのトレーニングのパラダイムが取り入れられている。 本稿では,エッジデバイス上での正確な高速実行を目的とした,新たなメモリ経済スパーストレーニング(mest)フレームワークを提案する。 提案するMESTフレームワークは,高間隔比での精度向上を実現するため,Elastic Mutation (EM) と Soft Memory Bound (&S) による拡張で構成されている。 スパーストレーニングの既存の作業と異なり、この研究は、スパーストレーニングの精度と実際のエッジデバイスでのトレーニング速度の観点から、スパーストレーニングのパフォーマンスにおけるスパーススキームの重要性を明らかにしている。 その上で,スパーストレーニングのさらなる高速化のために,データ効率を活用することを提案する。 本研究は,スパーストレーニングプロセスにおいて,スペーサマスクの動的探索を行う際にも,忘れられない例をその場で特定できることを示唆し,エッジデバイス上でのさらなるトレーニング高速化のために除去できることを示した。 state-of-the-art (sota) と比較すると,同じ非構造化スパーシティスキームを用いた場合,imagenet の top-1 精度が有意に向上する。 精度, トレーニング速度, メモリフットプリントの体系的評価を行い, 提案するMESTフレームワークは, 代表的SOTAよりも一貫して優れていた。 誤った仮定と誤解に基づいて、我々の仕事に強く反対するレビュアー。 前回の提出に加えて、スパーストレーニングのさらなる加速にデータ効率を用いる。 また, モデル疎度, 疎度スキーム, スパーストレーニングアルゴリズムが除去可能なトレーニング例数に与える影響について検討する。 私たちのコードは、https://github.com/boone891214/MESTで公開されています。

Recently, a new trend of exploring sparsity for accelerating neural network training has emerged, embracing the paradigm of training on the edge. This paper proposes a novel Memory-Economic Sparse Training (MEST) framework targeting for accurate and fast execution on edge devices. The proposed MEST framework consists of enhancements by Elastic Mutation (EM) and Soft Memory Bound (&S) that ensure superior accuracy at high sparsity ratios. Different from the existing works for sparse training, this current work reveals the importance of sparsity schemes on the performance of sparse training in terms of accuracy as well as training speed on real edge devices. On top of that, the paper proposes to employ data efficiency for further acceleration of sparse training. Our results suggest that unforgettable examples can be identified in-situ even during the dynamic exploration of sparsity masks in the sparse training process, and therefore can be removed for further training speedup on edge devices. Comparing with state-of-the-art (SOTA) works on accuracy, our MEST increases Top-1 accuracy significantly on ImageNet when using the same unstructured sparsity scheme. Systematical evaluation on accuracy, training speed, and memory footprint are conducted, where the proposed MEST framework consistently outperforms representative SOTA works. A reviewer strongly against our work based on his false assumptions and misunderstandings. On top of the previous submission, we employ data efficiency for further acceleration of sparse training. And we explore the impact of model sparsity, sparsity schemes, and sparse training algorithms on the number of removable training examples. Our codes are publicly available at: https://github.com/boone891214/MEST.
翻訳日:2021-10-29 08:37:09 公開日:2021-10-26
# (参考訳) 大規模グラフニューラルネットワークのロバスト性

Robustness of Graph Neural Networks at Scale ( http://arxiv.org/abs/2110.14038v1 )

ライセンス: CC BY 4.0
Simon Geisler, Tobias Schmidt, Hakan \c{S}irin, Daniel Z\"ugner, Aleksandar Bojchevski and Stephan G\"unnemann(参考訳) グラフニューラルネットワーク(GNN)はその人気とアプリケーションの多様性から、ますます重要になっている。 しかし、敵攻撃に対する脆弱性に関する既存の研究は、比較的小さなグラフに依存している。 このギャップに対処し、大規模にGNNを攻撃し、防御する方法を研究する。 本稿では,ノード数で2次となるパラメータを最適化しながら,効率の良い表現を維持する2つのスポーサリティ対応一階最適化攻撃を提案する。 一般的な代理損失はgnnに対する世界的な攻撃には適していない。 我々の代替手段は 攻撃力を2倍にできる さらに,GNNの信頼性を向上させるために,頑健な集約機能であるSoft Medianを設計した。 我々は,従来の研究の100倍以上のグラフ上の標準GNNによる攻撃と防御を評価した。 技術を拡張可能なGNNに拡張することで、さらに1桁のスケールを行ないます。

Graph Neural Networks (GNNs) are increasingly important given their popularity and the diversity of applications. Yet, existing studies of their vulnerability to adversarial attacks rely on relatively small graphs. We address this gap and study how to attack and defend GNNs at scale. We propose two sparsity-aware first-order optimization attacks that maintain an efficient representation despite optimizing over a number of parameters which is quadratic in the number of nodes. We show that common surrogate losses are not well-suited for global attacks on GNNs. Our alternatives can double the attack strength. Moreover, to improve GNNs' reliability we design a robust aggregation function, Soft Median, resulting in an effective defense at all scales. We evaluate our attacks and defense with standard GNNs on graphs more than 100 times larger compared to previous work. We even scale one order of magnitude further by extending our techniques to a scalable GNN.
翻訳日:2021-10-29 08:09:36 公開日:2021-10-26
# (参考訳) マルチタスク学習のためのコンフリクト逆勾配降下

Conflict-Averse Gradient Descent for Multi-task Learning ( http://arxiv.org/abs/2110.14048v1 )

ライセンス: CC BY 4.0
Bo Liu and Xingchao Liu and Xiaojie Jin and Peter Stone and Qiang Liu(参考訳) マルチタスク学習の目標は、多様なタスクのモデル構造を共有することで、単一タスク学習よりも効率的な学習を可能にすることである。 標準的なマルチタスク学習の目的は、すべてのタスクの平均損失を最小限に抑えることである。 単純ではあるが、この目的を使用すると、個別に学習するよりも、各タスクの最終的なパフォーマンスがずっと悪くなります。 マルチタスクモデルの最適化における大きな課題は、異なるタスク目的の勾配が、特定のタスクのパフォーマンスを損なうような平均的な勾配方向に従うために適切に調整されていない、矛盾する勾配である。 以前の研究では、この問題を緩和するためにタスク勾配を操作するいくつかのヒューリスティックを提案している。 しかし、それらの多くは収束保証がなく、あるいは任意のパレート定常点に収束することができる。 本稿では,平均損失関数の最小化を図り,アルゴリズムの軌道を正規化するために,個々のタスクの局部的改善を最大限に活用する衝突-逆勾配降下(CAGrad)を提案する。 CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。 多目的最適化(MOO)文学における正規勾配降下(GD)と多重勾配降下アルゴリズム(MGDA)を特別な場合として含む。 一連の挑戦的なマルチタスク教師付き学習と強化学習タスクにおいて、cagradは以前の最先端のマルチ目的勾配操作法よりもパフォーマンスが向上する。

The goal of multi-task learning is to enable more efficient learning than single task learning by sharing model structures for a diverse set of tasks. A standard multi-task learning objective is to minimize the average loss across all tasks. While straightforward, using this objective often results in much worse final performance for each task than learning them independently. A major challenge in optimizing a multi-task model is the conflicting gradients, where gradients of different task objectives are not well aligned so that following the average gradient direction can be detrimental to specific tasks' performance. Previous work has proposed several heuristics to manipulate the task gradients for mitigating this problem. But most of them lack convergence guarantee and/or could converge to any Pareto-stationary point. In this paper, we introduce Conflict-Averse Gradient descent (CAGrad) which minimizes the average loss function, while leveraging the worst local improvement of individual tasks to regularize the algorithm trajectory. CAGrad balances the objectives automatically and still provably converges to a minimum over the average loss. It includes the regular gradient descent (GD) and the multiple gradient descent algorithm (MGDA) in the multi-objective optimization (MOO) literature as special cases. On a series of challenging multi-task supervised learning and reinforcement learning tasks, CAGrad achieves improved performance over prior state-of-the-art multi-objective gradient manipulation methods.
翻訳日:2021-10-29 08:08:17 公開日:2021-10-26
# (参考訳) Beta Shapley: マシンラーニングのための統一されたノイズ低減データ評価フレームワーク

Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for Machine Learning ( http://arxiv.org/abs/2110.14049v1 )

ライセンス: CC BY 4.0
Yongchan Kwon, James Zou(参考訳) data shapleyは最近、機械学習における個々のデームの寄与を定量化する原則付きフレームワークとして提案されている。 学習アルゴリズムの有用な、あるいは有害なデータポイントを効果的に特定できる。 本稿では,data shapley の実質的な一般化である beta shapley を提案する。 beta shapleyは、機械学習の設定では重要ではないshapley値の効率公理を緩和することによって自然に発生する。 beta shapleyはいくつかの一般的なデータバリュエーション手法を統合し、特別なケースとしてdata shapleyを含む。 さらに,β shapley には望ましい統計特性がいくつかあることを証明し,その推定に効率的なアルゴリズムを提案する。 Beta Shapleyは、以下のような下流MLタスクにおいて、最先端のデータアセスメント手法よりも優れていることを示す。 1) 誤ラベル付き訓練データの検出 2)サブサンプルによる学習,及び 3) 付加または除去がモデルに最もプラスまたはマイナスの影響を与える点の同定。

Data Shapley has recently been proposed as a principled framework to quantify the contribution of individual datum in machine learning. It can effectively identify helpful or harmful data points for a learning algorithm. In this paper, we propose Beta Shapley, which is a substantial generalization of Data Shapley. Beta Shapley arises naturally by relaxing the efficiency axiom of the Shapley value, which is not critical for machine learning settings. Beta Shapley unifies several popular data valuation methods and includes data Shapley as a special case. Moreover, we prove that Beta Shapley has several desirable statistical properties and propose efficient algorithms to estimate it. We demonstrate that Beta Shapley outperforms state-of-the-art data valuation methods on several downstream ML tasks such as: 1) detecting mislabeled training data; 2) learning with subsamples; and 3) identifying points whose addition or removal have the largest positive or negative impact on the model.
翻訳日:2021-10-29 07:42:24 公開日:2021-10-26
# (参考訳) 厳密な積分を持つ多項式スプラインニューラルネットワーク

Polynomial-Spline Neural Networks with Exact Integrals ( http://arxiv.org/abs/2110.14055v1 )

ライセンス: CC BY 4.0
Jonas A. Actor and Andy Huang and Nathaniel Trask(参考訳) ニューラルネットワークを使って変分問題や、他の科学的な機械学習タスクを解決するのは、一貫性の欠如と、ニューラルネットワークアーキテクチャに関わる表現を正確に統合できないためである。 これらの制約に対処するため, 自由結び目B1-スプライン基底関数と, 演算子混合モデルを組み合わせた新しいニューラルネットワークアーキテクチャを定式化する。 効果的に、我々のアーキテクチャは、訓練可能なユニティの分割のそれぞれのセル上で分割多項式近似を行う。 我々のアーキテクチャは、近似理論から期待される収束率での回帰問題を$h$-と$p$-に洗練し、変分問題を解くための一貫性を与える。 さらに、このアーキテクチャ、モーメント、部分微分はすべて正確に統合でき、サンプリングや二次に依存し、変分形式の誤りのない計算を可能にする。 ネットワークアーキテクチャの一貫性と正確な統合性を示す様々な回帰問題と変分問題において、我々のネットワークの成功を実証する。

Using neural networks to solve variational problems, and other scientific machine learning tasks, has been limited by a lack of consistency and an inability to exactly integrate expressions involving neural network architectures. We address these limitations by formulating a novel neural network architecture that combines a polynomial mixture-of-experts model with free knot B1-spline basis functions. Effectively, our architecture performs piecewise polynomial approximation on each cell of a trainable partition of unity. Our architecture exhibits both $h$- and $p$- refinement for regression problems at the convergence rates expected from approximation theory, allowing for consistency in solving variational problems. Moreover, this architecture, its moments, and its partial derivatives can all be integrated exactly, obviating a reliance on sampling or quadrature and enabling error-free computation of variational forms. We demonstrate the success of our network on a range of regression and variational problems that illustrate the consistency and exact integrability of our network architecture.
翻訳日:2021-10-29 07:15:05 公開日:2021-10-26
# (参考訳) 新しいアルゴリズムを学ぶためにアルゴリズム推論知識を伝達する方法

How to transfer algorithmic reasoning knowledge to learn new algorithms? ( http://arxiv.org/abs/2110.14056v1 )

ライセンス: CC BY 4.0
Louis-Pascal A. C. Xhonneux, Andreea Deac, Petar Velickovic, Jian Tang(参考訳) アルゴリズムの学習は、広く研究されている基本的な問題である。 先行研究~\cite{veli19neural} は、グラフアルゴリズムの体系的な一般化を可能にするためには、プログラム/アルゴリズムの中間ステップにアクセスすることが重要であることを示した。 アルゴリズム的な推論が重要である多くの推論タスクでは、入力と出力の例のみにアクセスできます。 そこで我々は,自然言語処理(NLP)やコンピュータビジョンにおける類似のタスクやデータに対する事前学習の成功に触発され,アルゴリズム推論の知識を伝達する方法を探究した。 具体的には,実行トレースにアクセス可能なアルゴリズムを使用して,同じようなタスクの解決法を学ぶ方法を検討する。 グラフアルゴリズムの2つの主要なクラス,例えばブロードスファーストサーチやベルマンフォードのような並列アルゴリズム,およびPrimやDijkstraのようなシーケンシャルグリーディアルゴリズムについて検討する。 アルゴリズム推論知識とコンピュータビジョンやNLPなどの特徴抽出器の基本的な違いから,標準転送技術は体系的な一般化を実現するのに十分ではないと仮定する。 これを調べるために、9つのアルゴリズムと3つの異なるグラフタイプを含むデータセットを作成します。 これを実証的に検証し,その代わりにマルチタスク学習を用いてアルゴリズム推論知識の伝達を実現する方法を示す。

Learning to execute algorithms is a fundamental problem that has been widely studied. Prior work~\cite{veli19neural} has shown that to enable systematic generalisation on graph algorithms it is critical to have access to the intermediate steps of the program/algorithm. In many reasoning tasks, where algorithmic-style reasoning is important, we only have access to the input and output examples. Thus, inspired by the success of pre-training on similar tasks or data in Natural Language Processing (NLP) and Computer Vision, we set out to study how we can transfer algorithmic reasoning knowledge. Specifically, we investigate how we can use algorithms for which we have access to the execution trace to learn to solve similar tasks for which we do not. We investigate two major classes of graph algorithms, parallel algorithms such as breadth-first search and Bellman-Ford and sequential greedy algorithms such as Prim and Dijkstra. Due to the fundamental differences between algorithmic reasoning knowledge and feature extractors such as used in Computer Vision or NLP, we hypothesise that standard transfer techniques will not be sufficient to achieve systematic generalisation. To investigate this empirically we create a dataset including 9 algorithms and 3 different graph types. We validate this empirically and show how instead multi-task learning can be used to achieve the transfer of algorithmic reasoning knowledge.
翻訳日:2021-10-29 07:13:41 公開日:2021-10-26
# (参考訳) 物理インフォームドPDEを用いたスウィング方程式のモデル化

Model Reduction of Swing Equations with Physics Informed PDE ( http://arxiv.org/abs/2110.14066v1 )

ライセンス: CC BY 4.0
Laurent Pagnier, Michael Chertkov, Julian Fritzsch, Philippe Jacquod(参考訳) この原稿は、トランスミッションレベル電力系統における過渡的ダイナミクスを捉えるために、堅牢で効率的なモデル削減手法を構築するための最初のステップである。 このような力学は通常、パワーグリッドの空間的離散モデル上で定義される通常の微分方程式であるスイング方程式(swing equation)によって数秒から数秒の時間スケールでモデル化される。 Seymlyen (1974) と Thorpe, Seyler and Phadke (1999) に従って、2つの空間と時間非依存係数と適切に定義された境界条件を持つ1次元の放物型偏微分方程式(PDE)にスイング方程式を写像することを提案する。 連続2次元空間領域は、電力グリッドによって提供される領域の地理的マップで定義され、サセプタンス、機械慣性、減衰のスムーズなグラフ-ラプラシアンのPDE係数に関連付けられる。 不均質なソース用語は、空間的に分布した電力の注入/消費を表す。 本稿ではPanTaGruEl(Pan-European Transmission Grid and ELectricity Generation model)について述べる。 本研究では,各離散係数の空間的畳み込み過程から抽出したPDE係数とソース項を適切に粗い粒度にすると,結果のPDEは元のスイングダイナミクスを忠実かつ効率的に再現することを示す。 提案するpdeベースの縮小モデリングは,実時間モデリング,n-1$実現可能性評価,電力システムの過渡的安定性解析のための物理モデルによる機械学習アプローチを初期化する。

This manuscript is the first step towards building a robust and efficient model reduction methodology to capture transient dynamics in a transmission level electric power system. Such dynamics is normally modeled on seconds-to-tens-of-seconds time scales by the so-called swing equations, which are ordinary differential equations defined on a spatially discrete model of the power grid. We suggest, following Seymlyen (1974) and Thorpe, Seyler and Phadke (1999), to map the swing equations onto a linear, inhomogeneous Partial Differential Equation (PDE) of parabolic type in two space and one time dimensions with time-independent coefficients and properly defined boundary conditions. The continuous two-dimensional spatial domain is defined by a geographical map of the area served by the power grid, and associated with the PDE coefficients derived from smoothed graph-Laplacian of susceptances, machine inertia and damping. Inhomogeneous source terms represent spatially distributed injection/consumption of power. We illustrate our method on PanTaGruEl (Pan-European Transmission Grid and ELectricity generation model). We show that, when properly coarse-grained, i.e. with the PDE coefficients and source terms extracted from a spatial convolution procedure of the respective discrete coefficients in the swing equations, the resulting PDE reproduces faithfully and efficiently the original swing dynamics. We finally discuss future extensions of this work, where the presented PDE-based reduced modeling will initialize a physics-informed machine learning approach for real-time modeling, $n-1$ feasibility assessment and transient stability analysis of power systems.
翻訳日:2021-10-29 06:54:06 公開日:2021-10-26
# エッジにおける高速IoTデバイス識別

Rapid IoT Device Identification at the Edge ( http://arxiv.org/abs/2110.13941v1 )

ライセンス: Link先を確認
Oliver Thompson, Anna Maria Mandalari, Hamed Haddadi(参考訳) 消費者向けモノのインターネット(IoT)デバイスは、スマートスピーカーからセキュリティカメラに至るまで、日常の家庭ではますます一般的になっている。 そのメリットに加えて、潜在的なプライバシーとセキュリティの脅威も伴う。 これらの脅威を制限するには、エッジでのIoTトラフィックをフィルタリングするソリューションを実装しなければなりません。 この目的のために、IoTデバイスの識別は、最初の自然なステップである。 本稿では,デバイスDNSトラフィックに基づいてトレーニングされたニューラルネットワークを用いて,ローカルネットワーク上のDNSサーバから取得可能な高速IoTデバイス識別手法を提案する。 本手法は,第1接続後のDNS第2レベルドメイントラフィックの第1秒にモデルを適合させてデバイスを特定する。 セキュリティとプライバシの脅威検出はデバイス固有のレベルで実行されることが多いため、迅速な識別はこれらの戦略を直ちに実行可能にする。 51,000の厳格な自動実験を通じて、27の異なるメーカーから30の消費者向けIoTデバイスをそれぞれ82%と93%の精度で分類した。

Consumer Internet of Things (IoT) devices are increasingly common in everyday homes, from smart speakers to security cameras. Along with their benefits come potential privacy and security threats. To limit these threats we must implement solutions to filter IoT traffic at the edge. To this end the identification of the IoT device is the first natural step. In this paper we demonstrate a novel method of rapid IoT device identification that uses neural networks trained on device DNS traffic that can be captured from a DNS server on the local network. The method identifies devices by fitting a model to the first seconds of DNS second-level-domain traffic following their first connection. Since security and privacy threat detection often operate at a device specific level, rapid identification allows these strategies to be implemented immediately. Through a total of 51,000 rigorous automated experiments, we classify 30 consumer IoT devices from 27 different manufacturers with 82% and 93% accuracy for product type and device manufacturers respectively.
翻訳日:2021-10-28 15:10:37 公開日:2021-10-26
# 項目推薦ベンチマークにおけるiALSの性能見直し

Revisiting the Performance of iALS on Item Recommendation Benchmarks ( http://arxiv.org/abs/2110.14037v1 )

ライセンス: Link先を確認
Steffen Rendle, Walid Krichene, Li Zhang, Yehuda Koren(参考訳) 行列分解は暗黙の交互最小二乗(iALS)によって学習され、レコメンデーターシステム研究の出版物で人気がある。 iALSは計算効率が良くスケーラブルな協調フィルタリング手法の1つとして知られている。 しかし、近年の研究では、その予測品質は現在の技術、特にオートエンコーダや他のアイテムベースの協調フィルタリング手法と競合しないことが示唆されている。 本研究では,iALSアルゴリズムを再検討し,iALSを適用する際に有用なトリックの袋を提示する。 我々は、iALSが性能が良くないことが報告された4つのよく研究されたベンチマークを再検討し、適切なチューニングを行うことで、iALSは競争力が高く、比較の少なくとも半分でどの方法よりも優れていることを示す。 これらの高品質な結果とiALSの既知のスケーラビリティが、この10年前の技術の適用と改善に新たな関心を喚起することを期待しています。

Matrix factorization learned by implicit alternating least squares (iALS) is a popular baseline in recommender system research publications. iALS is known to be one of the most computationally efficient and scalable collaborative filtering methods. However, recent studies suggest that its prediction quality is not competitive with the current state of the art, in particular autoencoders and other item-based collaborative filtering methods. In this work, we revisit the iALS algorithm and present a bag of tricks that we found useful when applying iALS. We revisit four well-studied benchmarks where iALS was reported to perform poorly and show that with proper tuning, iALS is highly competitive and outperforms any method on at least half of the comparisons. We hope that these high quality results together with iALS's known scalability spark new interest in applying and further improving this decade old technique.
翻訳日:2021-10-28 15:10:22 公開日:2021-10-26
# iALS++: サブスペース最適化による行列係数化の高速化

iALS++: Speeding up Matrix Factorization with Subspace Optimization ( http://arxiv.org/abs/2110.14044v1 )

ライセンス: Link先を確認
Steffen Rendle, Walid Krichene, Li Zhang, Yehuda Koren(参考訳) iALSは最小二乗の暗黙のフィードバックから行列分解モデルを学習するための一般的なアルゴリズムである。 このアルゴリズムは10年以上前に発明されたが、VAE、EASE、SLIM、NCFといった最近のアプローチと比較しても競争力がある。 負のサンプリングを避ける計算トリックのため、iALSは特に大きな項目カタログにとって非常に効率的である。 しかし、iALS は d 上の立方体ランタイム依存性のため、大きな埋め込み次元 d ではうまくスケールしない。 座標降下変分(iCD)は、dの2次構造に複雑性を下げるために提案されている。 本研究は,iCD のアプローチが現代のプロセッサにはあまり適していないことを示し,小型・中規模の埋め込みサイズ (d ~ 100) に対する注意深い iALS 実装よりも桁違いに遅いことを示し,大規模な埋め込みサイズ (d ~ 1000) では iALS よりも優れた性能を示す。 本稿では, ialsの利点をベクトル処理とicdのような計算量の低い計算量と組み合わせた新しい解法 ials++ を提案する。 iALS++は、小型および大型の埋め込みディメンションにおいて、iCDよりも桁違いに高速である。 数分間で1000次元の埋め込みベクトルであっても、Movielens 20MやMillion Song Datasetのようなベンチマーク問題を解決することができる。

iALS is a popular algorithm for learning matrix factorization models from implicit feedback with alternating least squares. This algorithm was invented over a decade ago but still shows competitive quality compared to recent approaches like VAE, EASE, SLIM, or NCF. Due to a computational trick that avoids negative sampling, iALS is very efficient especially for large item catalogues. However, iALS does not scale well with large embedding dimensions, d, due to its cubic runtime dependency on d. Coordinate descent variations, iCD, have been proposed to lower the complexity to quadratic in d. In this work, we show that iCD approaches are not well suited for modern processors and can be an order of magnitude slower than a careful iALS implementation for small to mid scale embedding sizes (d ~ 100) and only perform better than iALS on large embeddings d ~ 1000. We propose a new solver iALS++ that combines the advantages of iALS in terms of vector processing with a low computational complexity as in iCD. iALS++ is an order of magnitude faster than iCD both for small and large embedding dimensions. It can solve benchmark problems like Movielens 20M or Million Song Dataset even for 1000 dimensional embedding vectors in a few minutes.
翻訳日:2021-10-28 15:10:09 公開日:2021-10-26
# ロバストなスクラッチチケットの描画:生まれながらのロバスト性を持つサブネットワークはランダムに初期化されたネットワークで見つかる

Drawing Robust Scratch Tickets: Subnetworks with Inborn Robustness Are Found within Randomly Initialized Networks ( http://arxiv.org/abs/2110.14068v1 )

ライセンス: Link先を確認
Yonggan Fu, Qixuan Yu, Yang Zhang, Shang Wu, Xu Ouyang, David Cox, Yingyan Lin(参考訳) ディープニューラルネットワーク(dnn)は、敵の攻撃に対して脆弱であることが知られており、入力に対する不可避な摂動は、クリーンな画像に訓練されたdnnを誤解させ、誤った予測を行う。 これを解決するために、現在最も効果的な防御方法として、ハエで発生した敵のサンプルでトレーニングセットを増強している。 興味深いことに、モデルトレーニングなしでランダムに初期化されたネットワーク内に、モデルサイズに匹敵する敵のトレーニングされたネットワークの頑健な精度を一致または超える、生まれつきのロバスト性を持つサブネットワークが存在することが初めて明らかになった。 我々はそのようなサブネットワークであるRobust Scratch Tickets (RSTs) を自然に効率よく命名する。 一般的な宝くじ券の仮説とは別として、元の密集ネットワークや特定されたRTTをトレーニングする必要はない。 この興味深い発見を検証し理解するために、我々はさらに、異なるモデル、データセット、スパーシティパターン、およびアタックにおけるrstの存在と特性を研究するための広範囲な実験を行い、dnnの堅牢性と初期化/過パラメータ化の関係についての洞察を引き出す。 さらに、同一の初期化高密度ネットワークから引き出された疎度比の異なるRTT間の不適切な逆転送性を同定し、R2S(Random RST Switch)技術を提案し、R2S上に構築された新しい防御手法として、異なるRTT間のランダムに切り替える。 RSTに関する我々の発見は、モデルロバスト性を研究し、宝くじの仮説を拡張する新しい視点を開いたと信じている。

Deep Neural Networks (DNNs) are known to be vulnerable to adversarial attacks, i.e., an imperceptible perturbation to the input can mislead DNNs trained on clean images into making erroneous predictions. To tackle this, adversarial training is currently the most effective defense method, by augmenting the training set with adversarial samples generated on the fly. Interestingly, we discover for the first time that there exist subnetworks with inborn robustness, matching or surpassing the robust accuracy of the adversarially trained networks with comparable model sizes, within randomly initialized networks without any model training, indicating that adversarial training on model weights is not indispensable towards adversarial robustness. We name such subnetworks Robust Scratch Tickets (RSTs), which are also by nature efficient. Distinct from the popular lottery ticket hypothesis, neither the original dense networks nor the identified RSTs need to be trained. To validate and understand this fascinating finding, we further conduct extensive experiments to study the existence and properties of RSTs under different models, datasets, sparsity patterns, and attacks, drawing insights regarding the relationship between DNNs' robustness and their initialization/overparameterization. Furthermore, we identify the poor adversarial transferability between RSTs of different sparsity ratios drawn from the same randomly initialized dense network, and propose a Random RST Switch (R2S) technique, which randomly switches between different RSTs, as a novel defense method built on top of RSTs. We believe our findings about RSTs have opened up a new perspective to study model robustness and extend the lottery ticket hypothesis.
翻訳日:2021-10-28 14:48:25 公開日:2021-10-26
# データ支援のためのメタ学習の感度について

On sensitivity of meta-learning to support data ( http://arxiv.org/abs/2110.13953v1 )

ライセンス: Link先を確認
Mayank Agarwal, Mikhail Yurochkin, Yuekai Sun(参考訳) メタラーニングアルゴリズムは、少数の学習に広く使われている。 例えば、いくつかのラベル付き例を見て、見当たらないクラスに容易に適応する画像認識システムなどです。 その成功にもかかわらず、現代のメタ学習アルゴリズムは適応に使用されるデータ、すなわちサポートデータに非常に敏感であることを示す。 特に, 適応に使用する場合, 標準の少数ショット画像分類ベンチマークにおいて, 精度が4\%, または95\%まで低下する画像が存在することを実証する。 我々は,授業マージンの観点で経験的知見を説明することにより,堅牢で安全なメタラーニングには教師付き学習よりも大きなマージンが必要であることを示唆する。

Meta-learning algorithms are widely used for few-shot learning. For example, image recognition systems that readily adapt to unseen classes after seeing only a few labeled examples. Despite their success, we show that modern meta-learning algorithms are extremely sensitive to the data used for adaptation, i.e. support data. In particular, we demonstrate the existence of (unaltered, in-distribution, natural) images that, when used for adaptation, yield accuracy as low as 4\% or as high as 95\% on standard few-shot image classification benchmarks. We explain our empirical findings in terms of class margins, which in turn suggests that robust and safe meta-learning requires larger margins than supervised learning.
翻訳日:2021-10-28 14:22:10 公開日:2021-10-26
# データ歪みがモデル解析および訓練に及ぼす影響について

On the Effects of Data Distortion on Model Analysis and Training ( http://arxiv.org/abs/2110.13968v1 )

ライセンス: Link先を確認
Antonia Marcu and Adam Pr\"ugel-Bennett(参考訳) データ修正は人工情報を導入することができる。 結果として得られる成果物は、モデルを分析する際に無視できる一方で、トレーニングに有害であると考えられることが多い。 これらの仮定を調査し、いくつかのケースでは、それらが根拠がなく、誤った結果をもたらすと結論付ける。 具体的には,現在の形状バイアス同定法と咬合ロバスト性尺度の偏りを示し,後者に対する公平な代替案を提案する。 その後,一連の実験を通じて,データのゆがみが学習に与える影響に対するコミュニティの認識を正し,強化することを目指す。 経験的な結果に基づいて、アーティファクトの影響は排除されるよりも理解され、悪用されなければならないと主張する。

Data modification can introduce artificial information. It is often assumed that the resulting artefacts are detrimental to training, whilst being negligible when analysing models. We investigate these assumptions and conclude that in some cases they are unfounded and lead to incorrect results. Specifically, we show current shape bias identification methods and occlusion robustness measures are biased and propose a fairer alternative for the latter. Subsequently, through a series of experiments we seek to correct and strengthen the community's perception of how distorting data affects learning. Based on our empirical results we argue that the impact of the artefacts must be understood and exploited rather than eliminated.
翻訳日:2021-10-28 14:21:57 公開日:2021-10-26
# 適応型タスクスケジューリングによるメタ学習

Meta-learning with an Adaptive Task Scheduler ( http://arxiv.org/abs/2110.14057v1 )

ライセンス: Link先を確認
Huaxiu Yao, Yu Wang, Ying Wei, Peilin Zhao, Mehrdad Mahdavi, Defu Lian, Chelsea Finn(参考訳) 新しいタスクの学習に役立てるために,様々なメタ学習タスクから学習した高度なメタモデルを伝達するメタ学習が提案されている。 既存のメタ学習アルゴリズムは、タスクが等しく重要であるという仮定の下で、一様確率でランダムにメタ学習タスクをサンプリングする。 しかし、メタトレーニングタスクの数が限られているため、タスクはノイズや不均衡を伴う可能性がある。 本稿では, メタモデルがこのような有害なタスクやタスクに支配されるのを防止するため, メタトレーニングプロセスのための適応型タスクスケジューラ(ATS)を提案する。 ATSでは,まず,候補タスク毎にサンプリングされる確率を予測し,次に使用するメタトレーニングタスクを決定するニューラルスケジューラを設計し,メタモデルの一般化能力を最適化するためにスケジューラを訓練する。 2つのメタモデル関連因子を神経スケジューラの入力として同定し、候補タスクの難易度をメタモデルに特徴付ける。 理論的には、この2つの要因を考慮に入れたスケジューラは、メタトレーニング損失と最適化ランドスケープを改善する。 ノイズと予算の制限によるメタラーニングの設定の下で、ATSは、最先端タスクスケジューラと比較して、miniImageNetと実世界の薬物発見ベンチマークの両方のパフォーマンスを最大13%と18%改善する。

To benefit the learning of a new task, meta-learning has been proposed to transfer a well-generalized meta-model learned from various meta-training tasks. Existing meta-learning algorithms randomly sample meta-training tasks with a uniform probability, under the assumption that tasks are of equal importance. However, it is likely that tasks are detrimental with noise or imbalanced given a limited number of meta-training tasks. To prevent the meta-model from being corrupted by such detrimental tasks or dominated by tasks in the majority, in this paper, we propose an adaptive task scheduler (ATS) for the meta-training process. In ATS, for the first time, we design a neural scheduler to decide which meta-training tasks to use next by predicting the probability being sampled for each candidate task, and train the scheduler to optimize the generalization capacity of the meta-model to unseen tasks. We identify two meta-model-related factors as the input of the neural scheduler, which characterize the difficulty of a candidate task to the meta-model. Theoretically, we show that a scheduler taking the two factors into account improves the meta-training loss and also the optimization landscape. Under the setting of meta-learning with noise and limited budgets, ATS improves the performance on both miniImageNet and a real-world drug discovery benchmark by up to 13% and 18%, respectively, compared to state-of-the-art task schedulers.
翻訳日:2021-10-28 14:21:45 公開日:2021-10-26
# マルチエージェント軌道予測における協調的不確かさ

Collaborative Uncertainty in Multi-Agent Trajectory Forecasting ( http://arxiv.org/abs/2110.13947v1 )

ライセンス: Link先を確認
Bohan Tang, Yiqi Zhong, Ulrich Neumann, Gang Wang, Ya Zhang, Siheng Chen(参考訳) 不確実性モデリングは、解釈と安全性の両方の理由から軌道予測システムにおいて重要である。 複数のエージェントの将来の軌道を予測するために、最近の研究ではエージェント間のインタラクションをキャプチャするインタラクションモジュールが導入されている。 このアプローチは予測された軌道間の相関をもたらす。 しかし、この相関による不確実性は無視される。 このギャップを埋めるために,インタラクションモジュールから生じる不確かさをモデル化する新しい概念であるコラボレーティブ不確実性(cu)を提案する。 我々は、将来の軌跡とそれに対応する不確実性を学ぶための予測モデルを構築するための一般的なCUベースのフレームワークを構築した。 CUベースのフレームワークは、現在の最先端(SOTA)システムのプラグインモジュールとして統合され、多変量ガウス分布とラプラス分布に基づく2つの特別なケースでデプロイされる。 いずれの場合も,2つの合成データセットと2つの公開ベンチマークによる軌道予測に関する広範な実験を行う。 結果は有望だ。 1) 合成データセットの結果から, cuベースのフレームワークにより, 地中分布を適切に近似できることがわかった。 2) 軌跡予測ベンチマークの結果から, CU ベースのフレームワークがSOTA システムの性能向上に有効であることが示された。 特に,提案するcuベースのフレームワークは,nuscenesデータセットにおける最終変位誤差の57cm改善を支援する。 3)CUの可視化結果から,CUの価値はエージェント間の対話情報量と高い相関関係があることが示唆された。

Uncertainty modeling is critical in trajectory forecasting systems for both interpretation and safety reasons. To better predict the future trajectories of multiple agents, recent works have introduced interaction modules to capture interactions among agents. This approach leads to correlations among the predicted trajectories. However, the uncertainty brought by such correlations is neglected. To fill this gap, we propose a novel concept, collaborative uncertainty(CU), which models the uncertainty resulting from the interaction module. We build a general CU-based framework to make a prediction model to learn the future trajectory and the corresponding uncertainty. The CU-based framework is integrated as a plugin module to current state-of-the-art (SOTA) systems and deployed in two special cases based on multivariate Gaussian and Laplace distributions. In each case, we conduct extensive experiments on two synthetic datasets and two public, large-scale benchmarks of trajectory forecasting. The results are promising: 1) The results of synthetic datasets show that CU-based framework allows the model to appropriately approximate the ground-truth distribution. 2) The results of trajectory forecasting benchmarks demonstrate that the CU-based framework steadily helps SOTA systems improve their performances. Especially, the proposed CU-based framework helps VectorNet improve by 57cm regarding Final Displacement Error on nuScenes dataset. 3) The visualization results of CU illustrate that the value of CU is highly related to the amount of the interactive information among agents.
翻訳日:2021-10-28 13:29:09 公開日:2021-10-26
# ビデオによる開手術縫合スキルの完全自動評価

Video-based fully automatic assessment of open surgery suturing skills ( http://arxiv.org/abs/2110.13972v1 )

ライセンス: Link先を確認
Adam Goldbraikh, Anne-Lise D'Angelo, Carla M. Pugh, Shlomi Laufer(参考訳) 本研究の目的は, 資源が限られている場合や, 家庭内施設において, 医療学生を訓練するための, 信頼性の高い手術縫合シミュレーションシステムを開発することである。 そこで我々は,簡単なWebカメラ映像データに基づいて,ツールと手のローカライゼーションのためのアルゴリズムを開発し,手術技術の評価のための動作指標を算出した。 25名の被験者がシミュレータを用いて複数の縫合作業を行った。 YOLOネットワークは、ツールのローカライゼーションとツールハンドインタラクション検出を目的としたマルチタスクネットワークに修正されている。 これは、YOLO検出ヘッドを分割して、コンピュータ実行時間に最小限の追加で両方のタスクをサポートすることで達成された。 さらに, システムの結果から, 動きの計測値が算出された。 これらのメトリクスには、時間やパスの長さといった従来のメトリクスと、参加者がツールを保持するために使用するテクニックを評価する新しいメトリクスが含まれていました。 デュアルタスクネットワークの性能は2つのネットワークと似ているが、計算負荷は1つのネットワークよりわずかに大きい。 さらに, 運動測定値には, 専門家と初心者の間に有意な差が認められた。 ビデオキャプチャーは最小侵襲手術の不可欠な部分であるが、開腹手術の不可欠な要素ではない。 したがって,オープン手術ビデオのユニークな課題に焦点をあてた新しいアルゴリズムが必要である。 本研究では,ローカライズタスクとハンドツールインタラクションタスクの両方を解決するために,デュアルタスクネットワークを開発した。 デュアルネットワークはマルチタスクネットワークに容易に拡張でき、複数のレイヤを持つ画像や、これらの異なるレイヤ間の相互作用を評価するのに有用である。

The goal of this study was to develop new reliable open surgery suturing simulation system for training medical students in situation where resources are limited or in the domestic setup. Namely, we developed an algorithm for tools and hands localization as well as identifying the interactions between them based on simple webcam video data, calculating motion metrics for assessment of surgical skill. Twenty-five participants performed multiple suturing tasks using our simulator. The YOLO network has been modified to a multi-task network, for the purpose of tool localization and tool-hand interaction detection. This was accomplished by splitting the YOLO detection heads so that they supported both tasks with minimal addition to computer run-time. Furthermore, based on the outcome of the system, motion metrics were calculated. These metrics included traditional metrics such as time and path length as well as new metrics assessing the technique participants use for holding the tools. The dual-task network performance was similar to that of two networks, while computational load was only slightly bigger than one network. In addition, the motion metrics showed significant differences between experts and novices. While video capture is an essential part of minimally invasive surgery, it is not an integral component of open surgery. Thus, new algorithms, focusing on the unique challenges open surgery videos present, are required. In this study, a dual-task network was developed to solve both a localization task and a hand-tool interaction task. The dual network may be easily expanded to a multi-task network, which may be useful for images with multiple layers and for evaluating the interaction between these different layers.
翻訳日:2021-10-28 13:28:45 公開日:2021-10-26
# ディープリライトによる制御可能なデータ拡張

Controllable Data Augmentation Through Deep Relighting ( http://arxiv.org/abs/2110.13996v1 )

ライセンス: Link先を確認
George Chogovadze and R\'emi Pautrat and Marc Pollefeys(参考訳) ディープラーニングの成功の核心は、データの品質です。 データ拡張により、より良い一般化能力でモデルを訓練し、興味のある分野においてより大きな結果を得ることができる。 本研究では,既存のモデルの照明変化に対する不変性,すなわち学習用ディスクリプタの能力を向上させるため,画像データセットの多種多様な拡張方法について検討する。 我々は,エンコーダ・デコーダネットワークをベースとしたツールを開発し,様々な入力シーンの照明の様々なバリエーションを迅速に生成すると同時に,入射角や強度などのパラメータをユーザが定義できるようにする。 パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライズベンチマークでより高いパフォーマンスを達成できることを実証する。

At the heart of the success of deep learning is the quality of the data. Through data augmentation, one can train models with better generalization capabilities and thus achieve greater results in their field of interest. In this work, we explore how to augment a varied set of image datasets through relighting so as to improve the ability of existing models to be invariant to illumination changes, namely for learned descriptors. We develop a tool, based on an encoder-decoder network, that is able to quickly generate multiple variations of the illumination of various input scenes whilst also allowing the user to define parameters such as the angle of incidence and intensity. We demonstrate that by training models on datasets that have been augmented with our pipeline, it is possible to achieve higher performance on localization benchmarks.
翻訳日:2021-10-28 13:27:31 公開日:2021-10-26
# グローバルロバストトレーニングにおける局所的効果の改善

Improving Local Effectiveness for Global robust training ( http://arxiv.org/abs/2110.14030v1 )

ライセンス: Link先を確認
Jingyue Lu, M. Pawan Kumar(参考訳) その人気にもかかわらず、ディープニューラルネットワークは簡単に騙される。 この欠陥を緩和するために、研究者は、小さな入力摂動に対して堅牢なモデルを促進する新しいトレーニング戦略を積極的に開発している。 堅牢な訓練方法がいくつか提案されている。 しかし、それらの多くは強い敵に依存しており、入力次元が高く、モデル構造が複雑である場合には、非常に高価である。 我々は,ロバスト性に対する新しい視点を採用し,敵をより効果的に利用するための新しいトレーニングアルゴリズムを提案する。 本手法は, 敵球を中心にした各局所球のモデルロバスト性を向上し, それらの局所球を大域的に組み合わせることで, 全体ロバスト性を実現する。 我々は,局所球に焦点をあてて敵の利用を最大化することで,弱い敵に対して高いロバストな精度を実現することを実証する。 具体的には,MNIST, CIFAR-10, CIFAR-100において, 強敵に対して訓練した手法と同等の精度に達する。 これにより、全体のトレーニング時間が短縮される。 さらに,強い敵で訓練すると,本手法はMNISTの最先端技術と一致し,CIFAR-10やCIFAR-100よりも優れていた。

Despite its popularity, deep neural networks are easily fooled. To alleviate this deficiency, researchers are actively developing new training strategies, which encourage models that are robust to small input perturbations. Several successful robust training methods have been proposed. However, many of them rely on strong adversaries, which can be prohibitively expensive to generate when the input dimension is high and the model structure is complicated. We adopt a new perspective on robustness and propose a novel training algorithm that allows a more effective use of adversaries. Our method improves the model robustness at each local ball centered around an adversary and then, by combining these local balls through a global term, achieves overall robustness. We demonstrate that, by maximizing the use of adversaries via focusing on local balls, we achieve high robust accuracy with weak adversaries. Specifically, our method reaches a similar robust accuracy level to the state of the art approaches trained on strong adversaries on MNIST, CIFAR-10 and CIFAR-100. As a result, the overall training time is reduced. Furthermore, when trained with strong adversaries, our method matches with the current state of the art on MNIST and outperforms them on CIFAR-10 and CIFAR-100.
翻訳日:2021-10-28 13:27:18 公開日:2021-10-26
# 異常・ノベルティ・オープンセット・アウト・オブ・ディストリビューション検出に関する統一調査:解決策と今後の課題

A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution Detection: Solutions and Future Challenges ( http://arxiv.org/abs/2110.14051v1 )

ライセンス: Link先を確認
Mohammadreza Salehi, Hossein Mirzaei, Dan Hendrycks, Yixuan Li, Mohammad Hossein Rohban, Mohammad Sabokrou(参考訳) 機械学習モデルは、トレーニング分布から分岐したサンプルに遭遇することが多い。 out-of-distribution (ood) サンプルを認識できず、結果としてそのサンプルをクラス内ラベルに割り当てることがモデルの信頼性を損なう。 この問題は、オープンワールド設定における安全配置モデルの重要性から、大きな注目を集めている。 OODサンプルの検出は、未知の分布をモデル化することの難しさから難しい。 これまで、いくつかの研究領域では、異常検出、新奇性検出、一級学習、オープンセット認識、分散検出など、不慣れなサンプル検出の問題に取り組んできた。 類似した共有概念にもかかわらず、アウト・オブ・ディストリビューション、オープン・セット、異常検出は独立して研究されている。 したがって、これらの研究の道は交差してはおらず、研究の障壁を生み出している。 これらのアプローチの概要を提供する調査もあるが、異なるドメイン間の関係を調べることなく、特定のドメインのみに焦点を当てているようだ。 本調査は,共通点を特定しつつ,各分野における多数の傑出した作品のクロスドメインかつ包括的レビューを行うことを目的とする。 研究者は、様々な分野の研究の進歩の概要から恩恵を受け、将来の方法論を相乗的に開発することができる。 さらに,我々の知る限りでは,異常検出や一級学習における調査は存在するものの,分散検出に関する包括的あるいは最新の調査は行われていない。 最後に、ドメイン間を統一した視点で、これらの分野をより緊密にすることを目的として、今後の研究線について議論し、光を当てる。

Machine learning models often encounter samples that are diverged from the training distribution. Failure to recognize an out-of-distribution (OOD) sample, and consequently assign that sample to an in-class label significantly compromises the reliability of a model. The problem has gained significant attention due to its importance for safety deploying models in open-world settings. Detecting OOD samples is challenging due to the intractability of modeling all possible unknown distributions. To date, several research domains tackle the problem of detecting unfamiliar samples, including anomaly detection, novelty detection, one-class learning, open set recognition, and out-of-distribution detection. Despite having similar and shared concepts, out-of-distribution, open-set, and anomaly detection have been investigated independently. Accordingly, these research avenues have not cross-pollinated, creating research barriers. While some surveys intend to provide an overview of these approaches, they seem to only focus on a specific domain without examining the relationship between different domains. This survey aims to provide a cross-domain and comprehensive review of numerous eminent works in respective areas while identifying their commonalities. Researchers can benefit from the overview of research advances in different fields and develop future methodology synergistically. Furthermore, to the best of our knowledge, while there are surveys in anomaly detection or one-class learning, there is no comprehensive or up-to-date survey on out-of-distribution detection, which our survey covers extensively. Finally, having a unified cross-domain perspective, we discuss and shed light on future lines of research, intending to bring these fields closer together.
翻訳日:2021-10-28 13:26:59 公開日:2021-10-26
# 片側共変量を用いた非パラメトリック行列推定

Nonparametric Matrix Estimation with One-Sided Covariates ( http://arxiv.org/abs/2110.13969v1 )

ライセンス: Link先を確認
Christina Lee Yu(参考訳) データセット $x \in \mathbb{r}^{n\times m}$ がスパーシティ $p$ で観測され、$\mathbb{e}[x]$, ここで$\mathbb{e}[x_{ui}] = f(\alpha_u, \beta_i)$ のある保留滑らかな関数 $f$ を推定したいとする行列推定のタスクを考える。 我々は、行 covariates $\alpha$ が観測されないが、列 covariates $\beta$ が観測されるような設定を考える。 本稿では,行数が小さすぎる場合に,各行を別々に推定することで,アルゴリズムの精度が向上することを示すアルゴリズムと解析手法を提案する。 さらに,行列が適度に比例すると,行の共変量を知っているオラクルアルゴリズムの極小最適非パラメトリックレートが達成される。 シミュレーション実験では,本アルゴリズムが低データ領域の他のベースラインよりも優れていることを示す。

Consider the task of matrix estimation in which a dataset $X \in \mathbb{R}^{n\times m}$ is observed with sparsity $p$, and we would like to estimate $\mathbb{E}[X]$, where $\mathbb{E}[X_{ui}] = f(\alpha_u, \beta_i)$ for some Holder smooth function $f$. We consider the setting where the row covariates $\alpha$ are unobserved yet the column covariates $\beta$ are observed. We provide an algorithm and accompanying analysis which shows that our algorithm improves upon naively estimating each row separately when the number of rows is not too small. Furthermore when the matrix is moderately proportioned, our algorithm achieves the minimax optimal nonparametric rate of an oracle algorithm that knows the row covariates. In simulated experiments we show our algorithm outperforms other baselines in low data regimes.
翻訳日:2021-10-28 13:09:53 公開日:2021-10-26
# NPハードルーティング問題を解決するための協調政策の学習

Learning Collaborative Policies to Solve NP-hard Routing Problems ( http://arxiv.org/abs/2110.13987v1 )

ライセンス: Link先を確認
Minsu Kim, Jinkyoo Park and Joungho Kim(参考訳) 近年、深層強化学習(DRL)フレームワークは、問題固有の専門知識のない旅行セールスマン問題(TSP)のようなNPハードルーティング問題を解く可能性を示している。 DRLは複雑な問題を解決するのに使えるが、DRLフレームワークは依然として最先端のヒューリスティックと競合するのに苦戦している。 本稿では,2つの反復型drlポリシ(シーダーとリバイザ)を用いて,最適に近い解を効果的に見つけることができる階層的問題解決戦略である学習協調政策(lcp)を提案する。 シーダーは、全組合せ作用空間(すなわち割当行動のシーケンス)を探索することに専念しながら、可能な限り多様化した候補解(シード)を生成する。 この目的のために、我々はシーダーのポリシーを、単純かつ効果的なエントロピー正規化報酬を用いて訓練し、シーダーが多様な解決策を見つけるように促す。 一方、リバイザはシーダーが生成する各候補解を修正し、全軌道をサブターに分割し、同時に各サブターを修正して走行距離を最小化する。 したがって、リバイザは、(利用に有利な)削減されたソリューション空間に焦点を当てて、候補ソリューションの品質を改善するために訓練される。 大規模実験により,TSP,PCTSP,キャパシタン化車両ルーティング問題(CVRP)など,NPハードルーティング問題に対する単一政治DRLフレームワークよりも優れた2都市協調方式が提案されている。

Recently, deep reinforcement learning (DRL) frameworks have shown potential for solving NP-hard routing problems such as the traveling salesman problem (TSP) without problem-specific expert knowledge. Although DRL can be used to solve complex problems, DRL frameworks still struggle to compete with state-of-the-art heuristics showing a substantial performance gap. This paper proposes a novel hierarchical problem-solving strategy, termed learning collaborative policies (LCP), which can effectively find the near-optimum solution using two iterative DRL policies: the seeder and reviser. The seeder generates as diversified candidate solutions as possible (seeds) while being dedicated to exploring over the full combinatorial action space (i.e., sequence of assignment action). To this end, we train the seeder's policy using a simple yet effective entropy regularization reward to encourage the seeder to find diverse solutions. On the other hand, the reviser modifies each candidate solution generated by the seeder; it partitions the full trajectory into sub-tours and simultaneously revises each sub-tour to minimize its traveling distance. Thus, the reviser is trained to improve the candidate solution's quality, focusing on the reduced solution space (which is beneficial for exploitation). Extensive experiments demonstrate that the proposed two-policies collaboration scheme improves over single-policy DRL framework on various NP-hard routing problems, including TSP, prize collecting TSP (PCTSP), and capacitated vehicle routing problem (CVRP).
翻訳日:2021-10-28 13:09:34 公開日:2021-10-26
# SurvITE: 時系列データによる不均一な治療効果の学習

SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event Data ( http://arxiv.org/abs/2110.14001v1 )

ライセンス: Link先を確認
Alicia Curth, Changhee Lee and Mihaela van der Schaar(参考訳) イベントデータから異種処理効果を推測する問題について検討する。 関連する2つの問題は (i)二次的又は連続的な結果に対する治療効果の推定 (II)近年の機械学習の文献では生存結果がよく研究されていると予測されているが、それらの組み合わせ(実際的な関連性が高いにもかかわらず)は、かなり注目を集めていない。 治療が瞬時リスクと生存確率に与える影響を確実に推定する究極の目標は、学習(離散時間)による治療固有の条件付ハザード関数の問題に焦点をあてる。 この文脈でユニークな課題が生じるのは、さまざまな共変量シフトの問題が、十分な調査と偏見の検閲の組み合わせを越えているからである。 ドメイン適応から治療効果推定までの最近の一般化境界を設定に適応させ,その効果を理論的に解析し,モデル設計への示唆について議論する。 得られた知見を用いて, バランス表現に基づく治療特異的ハザード推定のための新しい深層学習法を提案する。 本手法は,様々な実験環境における性能を検証し,様々なソースからの共変量シフトに対処し,ベースラインよりも優れていることを実証的に確認する。

We study the problem of inferring heterogeneous treatment effects from time-to-event data. While both the related problems of (i) estimating treatment effects for binary or continuous outcomes and (ii) predicting survival outcomes have been well studied in the recent machine learning literature, their combination -- albeit of high practical relevance -- has received considerably less attention. With the ultimate goal of reliably estimating the effects of treatments on instantaneous risk and survival probabilities, we focus on the problem of learning (discrete-time) treatment-specific conditional hazard functions. We find that unique challenges arise in this context due to a variety of covariate shift issues that go beyond a mere combination of well-studied confounding and censoring biases. We theoretically analyse their effects by adapting recent generalization bounds from domain adaptation and treatment effect estimation to our setting and discuss implications for model design. We use the resulting insights to propose a novel deep learning method for treatment-specific hazard estimation based on balancing representations. We investigate performance across a range of experimental settings and empirically confirm that our method outperforms baselines by addressing covariate shifts from various sources.
翻訳日:2021-10-28 13:09:06 公開日:2021-10-26
# CARMS:カテゴリ・アンティテティック・ReINFORCEマルチサンプル勾配推定器

CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator ( http://arxiv.org/abs/2110.14002v1 )

ライセンス: Link先を確認
Alek Dimitriev and Mingyuan Zhou(参考訳) カテゴリ変数による勾配の正確な再伝播は、離散潜在変数モデルのトレーニングなど、さまざまな領域で発生する課題である。 そこで本研究では, 相互に負に相関した複数のサンプルに基づく分類確率変数の非バイアス推定器であるCARMSを提案する。 CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。 2つのカテゴリのCARMSであるARMSアンチテーゼ推定器と、独立したサンプルを持つCARMSであるREINFORCE推定器であるLOORF/VarGradの両方を一般化する。 生成的モデリングタスクや構造化出力予測タスクにおける複数のベンチマークデータセットのカルムを評価し,強力な自己制御ベースラインを含む競合手法よりも優れることを示す。 コードは公開されている。

Accurately backpropagating the gradient through categorical variables is a challenging task that arises in various domains, such as training discrete latent variable models. To this end, we propose CARMS, an unbiased estimator for categorical random variables based on multiple mutually negatively correlated (jointly antithetic) samples. CARMS combines REINFORCE with copula based sampling to avoid duplicate samples and reduce its variance, while keeping the estimator unbiased using importance sampling. It generalizes both the ARMS antithetic estimator for binary variables, which is CARMS for two categories, as well as LOORF/VarGrad, the leave-one-out REINFORCE estimator, which is CARMS with independent samples. We evaluate CARMS on several benchmark datasets on a generative modeling task, as well as a structured output prediction task, and find it to outperform competing methods including a strong self-control baseline. The code is publicly available.
翻訳日:2021-10-28 13:08:46 公開日:2021-10-26
# Graph Posterior Network: ノード分類のためのベイジアン予測不確実性

Graph Posterior Network: Bayesian Predictive Uncertainty for Node Classification ( http://arxiv.org/abs/2110.14012v1 )

ライセンス: Link先を確認
Maximilian Stadler, Bertrand Charpentier, Simon Geisler, Daniel Z\"ugner, Stephan G\"unnemann(参考訳) グラフ内のノード間の相互依存は、ノードのクラス予測を改善する鍵であり、ラベル伝搬(LP)やグラフニューラルネットワーク(GNN)のようなアプローチで利用される。 それでも、非独立ノードレベルの予測に対する不確実性の推定は未探索である。 本研究では,ノード分類における不確かさの定量化について,(1)親和性帰属グラフの予測不確実性挙動を明示的に特徴付ける3つの公理を導出する。 2) 相互依存ノードの予測のためにベイズ後続更新を明示的に行う新しいモデルグラフ後続ネットワーク(gpn)を提案する。 GPNは確実に提案された公理に従う。 (3) GPNと強いベースラインを半教師付きノード分類に基づいて広範囲に評価し, 異常な特徴の検出, 左翼クラスの検出を行った。 gpnは実験における既存の不確実性推定手法を上回っている。

The interdependence between nodes in graphs is key to improve class predictions on nodes and utilized in approaches like Label Propagation (LP) or in Graph Neural Networks (GNN). Nonetheless, uncertainty estimation for non-independent node-level predictions is under-explored. In this work, we explore uncertainty quantification for node classification in three ways: (1) We derive three axioms explicitly characterizing the expected predictive uncertainty behavior in homophilic attributed graphs. (2) We propose a new model Graph Posterior Network (GPN) which explicitly performs Bayesian posterior updates for predictions on interdependent nodes. GPN provably obeys the proposed axioms. (3) We extensively evaluate GPN and a strong set of baselines on semi-supervised node classification including detection of anomalous features, and detection of left-out classes. GPN outperforms existing approaches for uncertainty estimation in the experiments.
翻訳日:2021-10-28 13:08:30 公開日:2021-10-26
# 多面体損失に対するサロゲートレグレト境界

Surrogate Regret Bounds for Polyhedral Losses ( http://arxiv.org/abs/2110.14031v1 )

ライセンス: Link先を確認
Rafael Frongillo, Bo Waggoner(参考訳) サロゲートリスク最小化は教師付き機械学習においてユビキタスなパラダイムであり、データセット上のサロゲート損失を最小化することでターゲット問題は解決される。 surrogate regret bounds(過度リスク境界とも呼ばれる)は、過度リスク最小化のための一般化率を証明する一般的なツールである。 損失関数の特定のクラス(例えば適切な損失など)に対して、サロゲート後悔境界が開発されたが、一般的な結果は比較的希薄である。 結果は2つある。 第一に、任意の多面体(一方向線型および凸体)のサロゲートに対して線形なサロゲート後悔を与えるので、サロゲート一般化率は直接ターゲットレートに変換される。 第二に、十分に非多面体サロゲートの場合、後悔の束縛は正方根であり、高速なサロゲート一般化速度はターゲットのスローレートに変換される。 これらの結果は多面体置換基が最適であることを示す。

Surrogate risk minimization is an ubiquitous paradigm in supervised machine learning, wherein a target problem is solved by minimizing a surrogate loss on a dataset. Surrogate regret bounds, also called excess risk bounds, are a common tool to prove generalization rates for surrogate risk minimization. While surrogate regret bounds have been developed for certain classes of loss functions, such as proper losses, general results are relatively sparse. We provide two general results. The first gives a linear surrogate regret bound for any polyhedral (piecewise-linear and convex) surrogate, meaning that surrogate generalization rates translate directly to target rates. The second shows that for sufficiently non-polyhedral surrogates, the regret bound is a square root, meaning fast surrogate generalization rates translate to slow rates for the target. Together, these results suggest polyhedral surrogates are optimal in many cases.
翻訳日:2021-10-28 13:08:14 公開日:2021-10-26
# CoFiNet:ロバストポイントクラウド登録のための信頼性の高い粗大な対応

CoFiNet: Reliable Coarse-to-fine Correspondences for Robust Point Cloud Registration ( http://arxiv.org/abs/2110.14076v1 )

ライセンス: Link先を確認
Hao Yu, Fu Li, Mahdi Saleh, Benjamin Busam, Slobodan Ilic(参考訳) 登録のための一対の点雲間の対応を抽出する問題について検討する。 対応検索のために、既存の作業は、密度の高い点から検出されたスパースキーポイントと一致するが、通常、その再現性を保証するのに苦労する。 この問題に対処するために,キーポイント検出を行なわずに,階層的な対応を粗から細に抽出するCoFiNetCoarse-to-Fineネットワークを提案する。 粗いスケールで重み付けスキームに導かれたモデルでは,まず,近傍点が重なり合うようなダウンサンプリングノードをマッチングすることを学び,連続ステージの探索空間を著しく縮小する。 より細かいスケールでは、ノードの提案は、関連する記述子とともにポイントのグループからなるパッチに連続的に拡張される。 ポイント対応は対応するパッチの重なり領域から洗練され、異なるポイント密度に対応する密度適応マッチングモジュールによって洗練される。 室内および屋外の標準ベンチマークにおけるcofinetの広範な評価は,既存の方法よりも優れていることを示している。 特に3DLoMatchでは、ポイントクラウドのオーバーラップが少ないため、CoFiNetは、登録リコール時に、少なくとも5%以上のパラメータで、最先端のアプローチを著しく上回ります。

We study the problem of extracting correspondences between a pair of point clouds for registration. For correspondence retrieval, existing works benefit from matching sparse keypoints detected from dense points but usually struggle to guarantee their repeatability. To address this issue, we present CoFiNet - Coarse-to-Fine Network which extracts hierarchical correspondences from coarse to fine without keypoint detection. On a coarse scale and guided by a weighting scheme, our model firstly learns to match down-sampled nodes whose vicinity points share more overlap, which significantly shrinks the search space of a consecutive stage. On a finer scale, node proposals are consecutively expanded to patches that consist of groups of points together with associated descriptors. Point correspondences are then refined from the overlap areas of corresponding patches, by a density-adaptive matching module capable to deal with varying point density. Extensive evaluation of CoFiNet on both indoor and outdoor standard benchmarks shows our superiority over existing methods. Especially on 3DLoMatch where point clouds share less overlap, CoFiNet significantly outperforms state-of-the-art approaches by at least 5% on Registration Recall, with at most two-third of their parameters.
翻訳日:2021-10-28 12:53:32 公開日:2021-10-26
# バイアスグラフ観察による非バイアスグラフ埋め込み

Unbiased Graph Embedding with Biased Graph Observations ( http://arxiv.org/abs/2110.13957v1 )

ライセンス: Link先を確認
Nan Wang, Lu Lin, Jundong Li, Hongning Wang(参考訳) グラフ埋め込み技術は、ソーシャルレコメンデーションやタンパク質構造モデリングなど、グラフ構造化データ上の現実の機械学習タスクにますます採用されている。 グラフの生成は、必然的にいくつかのセンシティブなノード属性(例えば、ソーシャルネットワークのユーザーの性別や年齢)に影響されるため、学習されたグラフ表現は、そのようなセンシティブな情報を継承し、下流タスクに望ましくないバイアスをもたらすことができる。 グラフ表現のデバイアスに関する既存の作業の多くは、その分布を制限するために学習された埋め込みにアドホックな制約を与えるが、ダウンストリームタスクにおけるグラフ表現の実用性は損なわれる。 本稿では,敏感な属性の影響を受けないバイアスフリーグラフから学習することにより,バイアスのない表現を得るための原理的な新しい方法を提案する。 この新たな視点に基づき,下流タスクにおける学習表現の有用性に最小の影響を導入することを目的として,基礎となるグラフを明らかにするための2つの補完的手法を提案する。 提案手法の有効性を実証し, 理論的正当性および最先端解との比較を行った。

Graph embedding techniques have been increasingly employed in real-world machine learning tasks on graph-structured data, such as social recommendations and protein structure modeling. Since the generation of a graph is inevitably affected by some sensitive node attributes (such as gender and age of users in a social network), the learned graph representations can inherit such sensitive information and introduce undesirable biases in downstream tasks. Most existing works on debiasing graph representations add ad-hoc constraints on the learned embeddings to restrict their distributions, which however compromise the utility of resulting graph representations in downstream tasks. In this paper, we propose a principled new way for obtaining unbiased representations by learning from an underlying bias-free graph that is not influenced by sensitive attributes. Based on this new perspective, we propose two complementary methods for uncovering such an underlying graph with the goal of introducing minimum impact on the utility of learned representations in downstream tasks. Both our theoretical justification and extensive experiment comparisons against state-of-the-art solutions demonstrate the effectiveness of our proposed methods.
翻訳日:2021-10-28 12:51:03 公開日:2021-10-26
# リカレント、畳み込み、連続時間モデルと線形状態空間層を組み合わせる

Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers ( http://arxiv.org/abs/2110.13985v1 )

ライセンス: Link先を確認
Albert Gu, Isys Johnson, Karan Goel, Khaled Saab, Tri Dao, Atri Rudra, Christopher R\'e(参考訳) recurrent neural network(rnn)、temporal convolutions(時相畳み込み)、neural differential equation(ndes)は、時系列データのためのディープラーニングモデルの一般的なファミリーであり、それぞれがモデリング能力と計算効率に特有の強みとトレードオフを持っている。 制御系にインスパイアされた単純なシーケンスモデルを導入し、それらの欠点に対処しながらこれらのアプローチを一般化する。 Linear State-Space Layer (LSSL) は、線形連続時間状態空間表現 $\dot{x} = Ax + Bu, y = Cx + Du$ を単純にシミュレートすることで、シーケンス $u \mapsto y$ をマッピングする。 理論的には、LSSLモデルは上記のモデルの3つのファミリーと密接な関係を示し、その強みを継承する。 例えば、畳み込みを連続時間に一般化し、一般的なRNNヒューリスティックを説明し、時間スケール適応のようなNDEの特徴を共有する。 次に、連続時間記憶に関する最近の理論を取り入れて一般化し、長いメモリを持つlsslを提供する構造化行列の訓練可能なサブセット$a$を導入する。 経験的に、単純なディープニューラルネットワークにLSSLレイヤを積み重ねることで、シーケンシャルなイメージ分類、現実のヘルスケアレグレッションタスク、スピーチにおける長い依存関係に関する時系列ベンチマークを通じて、最先端の結果が得られる。 長さ-16000列の難しい音声分類タスクでは、LSSLは従来のアプローチを24の精度ポイントで上回り、100倍の短いシーケンスで手作りの特徴を使用するベースラインよりも上回ります。

Recurrent neural networks (RNNs), temporal convolutions, and neural differential equations (NDEs) are popular families of deep learning models for time-series data, each with unique strengths and tradeoffs in modeling power and computational efficiency. We introduce a simple sequence model inspired by control systems that generalizes these approaches while addressing their shortcomings. The Linear State-Space Layer (LSSL) maps a sequence $u \mapsto y$ by simply simulating a linear continuous-time state-space representation $\dot{x} = Ax + Bu, y = Cx + Du$. Theoretically, we show that LSSL models are closely related to the three aforementioned families of models and inherit their strengths. For example, they generalize convolutions to continuous-time, explain common RNN heuristics, and share features of NDEs such as time-scale adaptation. We then incorporate and generalize recent theory on continuous-time memorization to introduce a trainable subset of structured matrices $A$ that endow LSSLs with long-range memory. Empirically, stacking LSSL layers into a simple deep neural network obtains state-of-the-art results across time series benchmarks for long dependencies in sequential image classification, real-world healthcare regression tasks, and speech. On a difficult speech classification task with length-16000 sequences, LSSL outperforms prior approaches by 24 accuracy points, and even outperforms baselines that use hand-crafted features on 100x shorter sequences.
翻訳日:2021-10-28 12:50:44 公開日:2021-10-26
# 疾患進行モデルのための連続時間隠れマルコフモデルの効率的な学習と復号

Efficient Learning and Decoding of the Continuous-Time Hidden Markov Model for Disease Progression Modeling ( http://arxiv.org/abs/2110.13998v1 )

ライセンス: Link先を確認
Yu-Ying Liu, Alexander Moreno, Maxwell A. Xu, Shuang Li, Jena C. McDaniel, Nancy C. Brady, Agata Rozga, Fuxin Li, Le Song, James M. Rehg(参考訳) 連続時間隠れマルコフモデル(ct-hmm)は、不規則に到着するノイズの観測を記述できるため、疾患の進行をモデル化する魅力的なアプローチである。 しかし、CT-HMMの効率的なパラメータ学習アルゴリズムが欠如していることは、その使用を非常に小さなモデルに制限したり、状態遷移に非現実的な制約を必要とする。 本稿では,CT-HMMモデルのための効率的なEMベースの学習手法の完全な特徴付けと,最適状態遷移シーケンスと対応する状態の居住時間を復号する最初のソリューションを提案する。 EMに基づく学習は,後状態確率の推定と終状態条件付き統計計算の2つの課題からなることを示す。 推定問題を等価な離散時間不均質隠れマルコフモデルとして再構成することにより,最初の課題を解決する。 第2の課題は、連続時間マルコフ連鎖(CTMC)文献からCT-HMMドメインへの3つの異なるアプローチを適用することで解決される。 さらに,最も効率的な手法の効率を,状態数の係数によってさらに向上させる。 次に,CTMC文献から最先端の手法を組み込んで,最終状態条件付き最適状態列デコーディングをCT-HMMケースに拡張し,予測状態の定時計算を行う。 我々は,100以上の状態を持つCT-HMMを用いて,緑内障データセットとアルツハイマー病データセットを用いて疾患の進行を可視化し,予測し,緑内障データセット上で個人にとって最も可能性の高い状態遷移軌跡をデコードし,視覚化することにより,進行する表現型を包括的に同定する。 最後に,CT-HMMモデリングと復号化手法を適用し,言語習得と開発の進展について検討する。

The Continuous-Time Hidden Markov Model (CT-HMM) is an attractive approach to modeling disease progression due to its ability to describe noisy observations arriving irregularly in time. However, the lack of an efficient parameter learning algorithm for CT-HMM restricts its use to very small models or requires unrealistic constraints on the state transitions. In this paper, we present the first complete characterization of efficient EM-based learning methods for CT-HMM models, as well as the first solution to decoding the optimal state transition sequence and the corresponding state dwelling time. We show that EM-based learning consists of two challenges: the estimation of posterior state probabilities and the computation of end-state conditioned statistics. We solve the first challenge by reformulating the estimation problem as an equivalent discrete time-inhomogeneous hidden Markov model. The second challenge is addressed by adapting three distinct approaches from the continuous time Markov chain (CTMC) literature to the CT-HMM domain. Additionally, we further improve the efficiency of the most efficient method by a factor of the number of states. Then, for decoding, we incorporate a state-of-the-art method from the (CTMC) literature, and extend the end-state conditioned optimal state sequence decoding to the CT-HMM case with the computation of the expected state dwelling time. We demonstrate the use of CT-HMMs with more than 100 states to visualize and predict disease progression using a glaucoma dataset and an Alzheimer's disease dataset, and to decode and visualize the most probable state transition trajectory for individuals on the glaucoma dataset, which helps to identify progressing phenotypes in a comprehensive way. Finally, we apply the CT-HMM modeling and decoding strategy to investigate the progression of language acquisition and development.
翻訳日:2021-10-28 12:50:12 公開日:2021-10-26
# グラフニューラルネットワークによるSAT解決の改善

Improving SAT Solving with Graph Neural Networks ( http://arxiv.org/abs/2110.14053v1 )

ライセンス: Link先を確認
Wenxi Wang, Yang Hu, Mohit Tiwari, Sarfraz Khurshid, Kenneth McMillan, Risto Miikkulainen(参考訳) 提案的満足度(SAT)は、計画、検証、セキュリティなど、多くの研究分野に影響を与えるNP完全問題である。 現代的なSATソルバの顕著な成功にもかかわらず、スケーラビリティは依然として課題である。 主要なストリーム SAT ソルバは Conflict-Driven Clause Learning (CDCL) アルゴリズムに基づいている。 グラフニューラルネットワーク(gnns)による予測による可変分岐ヒューリスティックの改善によるcdcl satソルバの向上を目的とした最近の研究 しかし、これまでのところこのアプローチは、解決をより効果的にしないか、あるいは大量のgpuリソースへの頻繁にオンラインアクセスを必要としていた。 本論文はgnnの改善を実用的にするためのアプローチとして,(1)重要な変数と節の予測を,より効果的な分岐戦略に動的分岐と組み合わせることが可能であり,(2)sat解の開始前に1回だけニューラルネットワークに問い合わせるだけで十分である,という2つの洞察に基づくneurocombを提案する。 古典的なMiniSatソルバの強化として実装されたNeuroCombは、最近のSATCOMP-2020の競合問題の18.5%の問題を解決した。 それゆえNeuroCombは、現代的な機械学習によるSAT問題解決のための実践的なアプローチである。

Propositional satisfiability (SAT) is an NP-complete problem that impacts many research fields, such as planning, verification, and security. Despite the remarkable success of modern SAT solvers, scalability still remains a challenge. Main stream modern SAT solvers are based on the Conflict-Driven Clause Learning (CDCL) algorithm. Recent work aimed to enhance CDCL SAT solvers by improving its variable branching heuristics through predictions generated by Graph Neural Networks (GNNs). However, so far this approach either has not made solving more effective, or has required frequent online accesses to substantial GPU resources. Aiming to make GNN improvements practical, this paper proposes an approach called NeuroComb, which builds on two insights: (1) predictions of important variables and clauses can be combined with dynamic branching into a more effective hybrid branching strategy, and (2) it is sufficient to query the neural model only once for the predictions before the SAT solving starts. Implemented as an enhancement to the classic MiniSat solver, NeuroComb allowed it to solve 18.5% more problems on the recent SATCOMP-2020 competition problem set. NeuroComb is therefore a practical approach to improving SAT solving through modern machine learning.
翻訳日:2021-10-28 12:49:42 公開日:2021-10-26
# 理論的保証によるフォールトトレラントフェデレーション強化学習

Fault-Tolerant Federated Reinforcement Learning with Theoretical Guarantee ( http://arxiv.org/abs/2110.14074v1 )

ライセンス: Link先を確認
Flint Xiaofeng Fan, Yining Ma, Zhongxiang Dai, Wei Jing, Cheston Tan, Bryan Kian Hsiang Low(参考訳) フェデレーション学習(fl)は近年,複数のエージェントが生のトラジェクタを共有することなく,より優れた意思決定ポリシをフェデレーション的に構築するように促すために,フェデレーション強化学習(frl)に影響を与えている。 その有望な応用にもかかわらず、FRLに関する既存の研究(I)は、その収束に関する理論的分析を提供し、II)はランダムなシステム障害と敵攻撃を考慮に入れている。 そこで本研究では,システム障害や敵攻撃による攻撃者の半分未満のエージェントに対して,その収束を保証し,許容できる最初のFRLフレームワークを提案する。 我々は,提案フレームワークのサンプル効率がエージェント数で向上することを保証し,そのような潜在的な障害や攻撃を考慮できることを実証する。 すべての理論的結果は様々なRLベンチマークタスクで実証的に検証される。

The growing literature of Federated Learning (FL) has recently inspired Federated Reinforcement Learning (FRL) to encourage multiple agents to federatively build a better decision-making policy without sharing raw trajectories. Despite its promising applications, existing works on FRL fail to I) provide theoretical analysis on its convergence, and II) account for random system failures and adversarial attacks. Towards this end, we propose the first FRL framework the convergence of which is guaranteed and tolerant to less than half of the participating agents being random system failures or adversarial attackers. We prove that the sample efficiency of the proposed framework is guaranteed to improve with the number of agents and is able to account for such potential failures or attacks. All theoretical results are empirically verified on various RL benchmark tasks.
翻訳日:2021-10-28 12:49:21 公開日:2021-10-26
# 遊戯・侵略ゲームにおける可変プレイによる対戦型オンライン学習 : 接続型・自動車両サイバーセキュリティの理論的基礎と応用

Adversarial Online Learning with Variable Plays in the Pursuit-Evasion Game: Theoretical Foundations and Application in Connected and Automated Vehicle Cybersecurity ( http://arxiv.org/abs/2110.14078v1 )

ライセンス: Link先を確認
Yiyang Wang, Neda Masoud(参考訳) 我々は,マルチアームバンディット(mpmab,adversarial/non-stochastic multi-armed bandit)を,アーム数が可変の場合まで拡張する。 この作業は、相互接続された輸送システム内の異なる重要な場所をスキャンするために割り当てられたリソースが、時間とともに環境によって動的に変化するという事実によって動機づけられる。 悪意あるハッカーと侵入監視システムをそれぞれ攻撃者および防御者としてモデル化することにより、両プレイヤーの問題を逐次追撃ゲームとして定式化する。 戦略ゲームのナッシュ均衡が存在する条件を導出する。 ディフェンダー側では,sublinear pseudo-regretを用いた指数重み付きアルゴリズムを提案する。 我々はさらに、我々のモデルを両プレイヤーの異種報酬に拡張し、攻撃者に対する平均報酬に対する下限と上限を得る。 可変アームプレイの有効性を示す数値実験を行う。

We extend the adversarial/non-stochastic multi-play multi-armed bandit (MPMAB) to the case where the number of arms to play is variable. The work is motivated by the fact that the resources allocated to scan different critical locations in an interconnected transportation system change dynamically over time and depending on the environment. By modeling the malicious hacker and the intrusion monitoring system as the attacker and the defender, respectively, we formulate the problem for the two players as a sequential pursuit-evasion game. We derive the condition under which a Nash equilibrium of the strategic game exists. For the defender side, we provide an exponential-weighted based algorithm with sublinear pseudo-regret. We further extend our model to heterogeneous rewards for both players, and obtain lower and upper bounds on the average reward for the attacker. We provide numerical experiments to demonstrate the effectiveness of a variable-arm play.
翻訳日:2021-10-28 12:49:07 公開日:2021-10-26
# (参考訳) CausalAF:ゴール指向型安全クリティカルシーン生成のための因果自己回帰流

CausalAF: Causal Autoregressive Flow for Goal-Directed Safety-Critical Scenes Generation ( http://arxiv.org/abs/2110.13939v1 )

ライセンス: CC BY 4.0
Wenhao Ding, Haohong Lin, Bo Li, Ding Zhao(参考訳) 多様なデータを生成することによって下流タスクの解決を目的としたゴール指向生成は、現実世界で幅広い応用が期待できる。 従来の研究は、目的を満たすサンプルの分布を直接検索または近似する純粋にデータ駆動問題としてゴール指向生成を定式化する傾向にある。 しかしながら、既存の作業の生成能力は、非効率なサンプリング、特に既成のデータセットにほとんど現れないスパース目標によって大きく制限されている。 例えば、衝突のリスクを高めることを目的として安全クリティカルな交通シーンを生成することは、自動運転車を評価する上で非常に重要であるが、そのようなシーンの稀さは最大の抵抗である。 本稿では,先行する因果関係を安全クリティカルシーン生成プロセスに統合し,causalaf(caous autoregressive flow)というフローベースの生成フレームワークを提案する。 CausalAFは、観測データのみからサンプルを検索する代わりに、新しい因果マスク操作によって生成されたオブジェクト間の因果関係を発見し、追跡することを生成モデルに推奨する。 生成したシーンが単にデータから相関を学習するだけでなく、目的を達成するための原因と効果のメカニズムを学ぶことで、CausalAFは学習効率を大幅に改善する。 ヘテロジニアスな3つの交通シーンに関する大規模な実験は、安全評価タスクのためにゴール指向のシーンを効果的に生成するために、CausalAFがはるかに少ない最適化リソースを必要とすることを示している。

Goal-directed generation, aiming for solving downstream tasks by generating diverse data, has a potentially wide range of applications in the real world. Previous works tend to formulate goal-directed generation as a purely data-driven problem, which directly searches or approximates the distribution of samples satisfying the goal. However, the generation ability of preexisting work is heavily restricted by inefficient sampling, especially for sparse goals that rarely show up in off-the-shelf datasets. For instance, generating safety-critical traffic scenes with the goal of increasing the risk of collision is critical to evaluate autonomous vehicles, but the rareness of such scenes is the biggest resistance. In this paper, we integrate causality as a prior into the safety-critical scene generation process and propose a flow-based generative framework - Causal Autoregressive Flow (CausalAF). CausalAF encourages the generative model to uncover and follow the causal relationship among generated objects via novel causal masking operations instead of searching the sample only from observational data. By learning the cause-and-effect mechanism of how the generated scene achieves the goal rather than just learning correlations from data, CausalAF significantly improves the learning efficiency. Extensive experiments on three heterogeneous traffic scenes illustrate that CausalAF requires much fewer optimization resources to effectively generate goal-directed scenes for safety evaluation tasks.
翻訳日:2021-10-28 12:47:03 公開日:2021-10-26
# オフライン強化学習のためのハイパーパラメータフリーポリシー選択に向けて

Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning ( http://arxiv.org/abs/2110.14000v1 )

ライセンス: Link先を確認
Siyuan Zhang, Nan Jiang(参考訳) オフライン強化学習(RL)において、異なるトレーニングアルゴリズムが生み出すポリシーと価値関数をどのように選択するか -- ハイパーパレーメータチューニングに欠かせない -- は、重要なオープンな問題である。 既存のオフ・ポリシー・アセスメント(OPE)に基づくアプローチは、しばしば追加の関数近似とハイパーパラメータを必要とするため、ニワトリと卵の状況が生じる。 本稿では、近年の値関数選択の理論的進歩であるBVFT[XJ21]に基づく政策選択のためのハイパーパラメータフリーアルゴリズムを設計し、アタリなどの離散作用ベンチマークにおいてその効果を実証する。 連続作用領域における批判の欠如による性能劣化に対処するため,BVFT と OPE を併用して両世界の長所を得るとともに,Q関数に基づく OPE のハイパーパラメータチューニング法を理論的に保証する。

How to select between policies and value functions produced by different training algorithms in offline reinforcement learning (RL) -- which is crucial for hyperpa-rameter tuning -- is an important open question. Existing approaches based on off-policy evaluation (OPE) often require additional function approximation and hence hyperparameters, creating a chicken-and-egg situation. In this paper, we design hyperparameter-free algorithms for policy selection based on BVFT [XJ21], a recent theoretical advance in value-function selection, and demonstrate their effectiveness in discrete-action benchmarks such as Atari. To address performance degradation due to poor critics in continuous-action domains, we further combine BVFT with OPE to get the best of both worlds, and obtain a hyperparameter-tuning method for Q-function based OPE with theoretical guarantees as a side product.
翻訳日:2021-10-28 12:30:33 公開日:2021-10-26
# Myelin: 極端なディープラーニングのための非同期メッセージ駆動並列フレームワーク

Myelin: An asynchronous, message-driven parallel framework for extreme-scale deep learning ( http://arxiv.org/abs/2110.13005v2 )

ライセンス: Link先を確認
Siddharth Singh, Abhinav Bhatele(参考訳) ここ数年、最先端のニューラルネットワークをトレーニングするためのメモリ要件は、現代のハードウェアアクセラレーターのDRAM能力を大きく超えてきた。 これにより、大規模なGPUベースのクラスタ上でこれらのニューラルネットワークを並列にトレーニングする効率的なアルゴリズムの開発が必要になった。 現代のgpuでは計算コストは比較的安価であるため、並列トレーニングアルゴリズムにおける極めて効率的な通信の設計と実装は、最大性能の抽出に不可欠である。 本稿では、各gpu上でのニューラルネットワーク操作をスケジュールするために、非同期およびメッセージ駆動実行を利用する並列ディープラーニングフレームワークmyelinを提案する。 トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、MyelinはGPUメモリ使用量を4倍削減することができる。 これにより、GPUあたりのパラメータ数を4倍に増やすことができ、通信量と性能を13%以上向上させることができる。 48-384 NVIDIA Tesla V100 GPU上で12-1000億のパラメータを持つ大きなトランスフォーマーモデルに対してテストすると、Myelinは理論ピークの49.4-54.78%のGPU当たりのスループットを達成し、最先端と比較して22-37日(15-25%のスピードアップ)のトレーニング時間を短縮する。

In the last few years, the memory requirements to train state-of-the-art neural networks have far exceeded the DRAM capacities of modern hardware accelerators. This has necessitated the development of efficient algorithms to train these neural networks in parallel on large-scale GPU-based clusters. Since computation is relatively inexpensive on modern GPUs, designing and implementing extremely efficient communication in these parallel training algorithms is critical for extracting the maximum performance. This paper presents Myelin, a parallel deep learning framework that exploits asynchrony and message-driven execution to schedule neural network operations on each GPU, thereby reducing GPU idle time and maximizing hardware efficiency. By using the CPU memory as a scratch space for offloading data periodically during training, Myelin is able to reduce GPU memory consumption by four times. This allows us to increase the number of parameters per GPU by four times, thus reducing the amount of communication and increasing performance by over 13%. When tested against large transformer models with 12-100 billion parameters on 48-384 NVIDIA Tesla V100 GPUs, Myelin achieves a per-GPU throughput of 49.4-54.78% of theoretical peak and reduces the training time by 22-37 days (15-25% speedup) as compared to the state-of-the-art.
翻訳日:2021-10-28 10:43:35 公開日:2021-10-26
# (参考訳) 物理学情報付きニューラルネットワークのロバスト学習

Robust Learning of Physics Informed Neural Networks ( http://arxiv.org/abs/2110.13330v1 )

ライセンス: CC BY 4.0
Chandrajit Bajaj, Luke McLennan, Timothy Andeen, Avik Roy(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、トレーニング損失関数の一部として物理誘起制約を捕捉することにより偏微分方程式の解法に有効であることが示されている。 本稿では、PINNがトレーニングデータのエラーに敏感であり、これらのエラーをPDEの解領域上で動的に伝播させるのに過度に適合していることを示す。 また、連続性基準と保存則に基づく物理正規化がこの問題にどのように対処できず、むしろ深層ネットワークが大域的最小値ではなく物理学的に観測される局所的最小値に収束する独自の問題を導入するかを示す。 本稿では、PINNの性能を回復し、計測におけるノイズ/エラーに対する堅牢なアーキテクチャを約束するガウスプロセス(GP)に基づくスムース化を提案する。 さらに,境界データに対するgpsの分散推定に基づいて不確実性の進化を定量化する安価な手法を提案する。 ロバストなPINN性能は、スパース的に誘導されるGPに基づく誘導点のスパースセットの選択によっても達成可能である。 提案手法の性能を実演し、時間依存型シュリンガー方程式とバーガース方程式の文献における既存のベンチマークモデルの結果を比較する。

Physics-informed Neural Networks (PINNs) have been shown to be effective in solving partial differential equations by capturing the physics induced constraints as a part of the training loss function. This paper shows that a PINN can be sensitive to errors in training data and overfit itself in dynamically propagating these errors over the domain of the solution of the PDE. It also shows how physical regularizations based on continuity criteria and conservation laws fail to address this issue and rather introduce problems of their own causing the deep network to converge to a physics-obeying local minimum instead of the global minimum. We introduce Gaussian Process (GP) based smoothing that recovers the performance of a PINN and promises a robust architecture against noise/errors in measurements. Additionally, we illustrate an inexpensive method of quantifying the evolution of uncertainty based on the variance estimation of GPs on boundary data. Robust PINN performance is also shown to be achievable by choice of sparse sets of inducing points based on sparsely induced GPs. We demonstrate the performance of our proposed methods and compare the results from existing benchmark models in literature for time-dependent Schr\"odinger and Burgers' equations.
翻訳日:2021-10-28 06:59:38 公開日:2021-10-26
# (参考訳) 指数グラフはおそらく分散深層学習に有効である

Exponential Graph is Provably Efficient for Decentralized Deep Training ( http://arxiv.org/abs/2110.13363v1 )

ライセンス: CC BY 4.0
Bicheng Ying, Kun Yuan, Yiming Chen, Hanbin Hu, Pan Pan, Wotao Yin(参考訳) 分散sgdは、平均化ステップを並列sgdで緩和し平均化を不可能にする、反復当たりの通信がはるかに少ない(非常に速い)ことで知られる、ディープラーニングのための新たなトレーニング方法である。 しかし平均化の正確さが低ければ低いほど、トレーニングに必要な総イテレーションはより多くなる。 したがって、分散sgdを効率的にするための鍵は、ほとんどコミュニケーションを使わずにほぼ実効的な平均化を実現することである。 これは分散最適化の未熟なトピックであるコミュニケーショントポロジーを巧みに選択する必要がある。 本稿では,すべてのノードが$O(\log(n))$ 近傍に連結され,$n$ がノードの総数であるようないわゆる指数グラフについて検討する。 この研究は、そのようなグラフが高速通信と効果的な平均化の両方を同時にもたらすことを証明している。 また、各ノードが反復ごとに1つの隣接ノードと通信する$\log(n)$ 1-peer指数グラフの列は、共に正確な平均化を達成することができる。 この好ましい性質により、1ピア指数グラフは静的グラフと同等に有効であるが、より効率的に通信できる。 我々は,これらの指数グラフを分散化(モーメント)sgdに応用し,文単位のコミュニケーションと一般に使用されるトポロジー間の反復複雑性との最先端のバランスを得る。 様々なタスクやモデルに関する実験結果は、指数グラフ上の分散(モメンタム)SGDが高速かつ高品質なトレーニングを約束することを示している。 私たちのコードはBlueFogを通じて実装され、https://github.com/Bluefog-Lib/NeurIPS2021-Exponential-Graphで利用可能です。

Decentralized SGD is an emerging training method for deep learning known for its much less (thus faster) communication per iteration, which relaxes the averaging step in parallel SGD to inexact averaging. The less exact the averaging is, however, the more the total iterations the training needs to take. Therefore, the key to making decentralized SGD efficient is to realize nearly-exact averaging using little communication. This requires a skillful choice of communication topology, which is an under-studied topic in decentralized optimization. In this paper, we study so-called exponential graphs where every node is connected to $O(\log(n))$ neighbors and $n$ is the total number of nodes. This work proves such graphs can lead to both fast communication and effective averaging simultaneously. We also discover that a sequence of $\log(n)$ one-peer exponential graphs, in which each node communicates to one single neighbor per iteration, can together achieve exact averaging. This favorable property enables one-peer exponential graph to average as effective as its static counterpart but communicates more efficiently. We apply these exponential graphs in decentralized (momentum) SGD to obtain the state-of-the-art balance between per-iteration communication and iteration complexity among all commonly-used topologies. Experimental results on a variety of tasks and models demonstrate that decentralized (momentum) SGD over exponential graphs promises both fast and high-quality training. Our code is implemented through BlueFog and available at https://github.com/Bluefog-Lib/NeurIPS2021-Exponential-Graph.
翻訳日:2021-10-28 06:41:24 公開日:2021-10-26
# (参考訳) 注意3D U-Netを用いた時空磁気共鳴血管造影画像における脳動脈瘤の自動検出法

An Automatic Detection Method Of Cerebral Aneurysms In Time-Of-Flight Magnetic Resonance Angiography Images Based On Attention 3D U-Net ( http://arxiv.org/abs/2110.13367v1 )

ライセンス: CC BY 4.0
Chen Geng, Meng Chen, Ruoyu Di, Dongdong Wang, Liqin Yang, Wei Xia, Yuxin Li, Daoying Geng(参考訳) Background:Subarachnoid hemorrhage caused by ruptured cerebral aneurysm often leads to fatal consequences.However,if the aneurysm can be found and treated during asymptomatic periods,the probability of rupture can be greatly reduced.At present,time-of-flight magnetic resonance angiography is one of the most commonly used non-invasive screening techniques for cerebral aneurysm,and the application of deep learning technology in aneurysm detection can effectively improve the screening effect of aneurysm.Existing studies have found that three-dimensional features play an important role in aneurysm detection,but they require a large amount of training data and have problems such as a high false positive rate. 方法:本論文では,脳動脈瘤検出のための新しい手法を提案する。第1に,訓練データを持たない完全自動脳動脈瘤分割アルゴリズムを用いて関心量を抽出するとともに,3次元senetモジュールにより3d u-netを改善し,動脈瘤検出モデルを構築した。 結果:本研究では,132セット,34セット,65セットの計231磁気共鳴血管造影画像データを用いて,5次元交差評価において97.89%の感度を示し,外部テストセットの検出において2.48例の偽陽性率/ケースで91.0%の感度を得た。 結論:本研究の手法は,これまでの研究や研究と対比して,より少ない訓練データで非常に競争力のある感度を得られ,偽陽性率を低く保ちつつ,動脈瘤検出に3d u-netを使用する唯一の手法として,動脈瘤検出におけるこのネットワークの有効性と優れた性能を示すとともに,この課題におけるチャネル注意メカニズムの可能性についても検討する。

Background:Subarachnoid hemorrhage caused by ruptured cerebral aneurysm often leads to fatal consequences.However,if the aneurysm can be found and treated during asymptomatic periods,the probability of rupture can be greatly reduced.At present,time-of-flight magnetic resonance angiography is one of the most commonly used non-invasive screening techniques for cerebral aneurysm,and the application of deep learning technology in aneurysm detection can effectively improve the screening effect of aneurysm.Existing studies have found that three-dimensional features play an important role in aneurysm detection,but they require a large amount of training data and have problems such as a high false positive rate. Methods:This paper proposed a novel method for aneurysm detection.First,a fully automatic cerebral artery segmentation algorithm without training data was used to extract the volume of interest,and then the 3D U-Net was improved by the 3D SENet module to establish an aneurysm detection model.Eventually a set of fully automated,end-to-end aneurysm detection methods have been formed. Results:A total of 231 magnetic resonance angiography image data were used in this study,among which 132 were training sets,34 were internal test sets and 65 were external test sets.The presented method obtained 97.89% sensitivity in the five-fold cross-validation and obtained 91.0% sensitivity with 2.48 false positives/case in the detection of the external test sets. Conclusions:Compared with the results of our previous studies and other studies,the method in this paper achieves a very competitive sensitivity with less training data and maintains a low false positive rate.As the only method currently using 3D U-Net for aneurysm detection,it proves the feasibility and superior performance of this network in aneurysm detection,and also explores the potential of the channel attention mechanism in this task.
翻訳日:2021-10-28 06:39:59 公開日:2021-10-26
# (参考訳) アスペクトベース感情分析のための統一インスタンスと知識アライメント事前学習

Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2110.13398v1 )

ライセンス: CC BY 4.0
Juhua Liu, Qihuang Zhong, Liang Ding, Hua Jin, Bo Du, Dacheng Tao(参考訳) Aspect-based Sentiment Analysis (ABSA)は、ある側面に対する感情の極性を決定することを目的としている。 ラベル付きデータが高価で制限されているため、プレトレーニング戦略はABSAのデファクトスタンダードになっている。 しかしながら、プレトレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在し、下流タスクを直接微調整し、下流タスクを準最適にする際の効果的な知識伝達を妨げる。 このようなドメインシフトを軽減するために,インスタンスレベルのアライメントと知識レベルのアライメントを併用した,バニラプレトレイン・ファインチューンパイプラインにアライメント事前トレーニングフレームワークを導入する。 具体的には、まず、大規模事前学習データセットから対象ドメイン関連インスタンスを選択するために、新しい粗大な検索サンプリング手法を考案し、事前学習と対象ドメインを整列させる(\textit{First Stage})。 次に、知識レベルでのドメインギャップをさらに橋渡しするための知識ガイダンスに基づく戦略を導入する。 実際に,サンプルインスタンス上で事前学習したモデルを,知識指導モデルと学習者モデルにそれぞれ定式化する。 対象データセットに基づいて,知識指導モデルから学習者モデル(\textit{Second Stage})に知識を段階的に伝達する,オンザフライの教師-学生共同微調整アプローチを設計する。 これにより、学習者モデルは、対象データセットから新たな知識を学習する際に、より多くのドメイン不変知識を維持できる。 textit{Third Stage} では、学習者は学習した知識をターゲットデータセットに適応させるために微調整される。 複数のabsaベンチマークにおける広範囲な実験と解析は、提案する事前学習フレームワークの有効性と普遍性を示している。 我々の事前トレーニングフレームワークは、いくつかの強力なベースラインモデルを新しい最先端レコードに押し上げる。 コードとモデルをリリースします。

Aspect-based Sentiment Analysis (ABSA) aims to determine the sentiment polarity towards an aspect. Because of the expensive and limited labelled data, the pretraining strategy has become the de-facto standard for ABSA. However, there always exists severe domain shift between the pretraining and downstream ABSA datasets, hindering the effective knowledge transfer when directly finetuning and making the downstream task performs sub-optimal. To mitigate such domain shift, we introduce a unified alignment pretraining framework into the vanilla pretrain-finetune pipeline with both instance- and knowledge-level alignments. Specifically, we first devise a novel coarse-to-fine retrieval sampling approach to select target domain-related instances from the large-scale pretraining dataset, thus aligning the instances between pretraining and target domains (\textit{First Stage}). Then, we introduce a knowledge guidance-based strategy to further bridge the domain gap at the knowledge level. In practice, we formulate the model pretrained on the sampled instances into a knowledge guidance model and a learner model, respectively. On the target dataset, we design an on-the-fly teacher-student joint fine-tuning approach to progressively transfer the knowledge from the knowledge guidance model to the learner model (\textit{Second Stage}). Thereby, the learner model can maintain more domain-invariant knowledge when learning new knowledge from the target dataset. In the \textit{Third Stage,} the learner model is finetuned to better adapt its learned knowledge to the target dataset. Extensive experiments and analyses on several ABSA benchmarks demonstrate the effectiveness and universality of our proposed pretraining framework. Notably, our pretraining framework pushes several strong baseline models up to the new state-of-the-art records. We release our code and models.
翻訳日:2021-10-28 06:30:58 公開日:2021-10-26
# (参考訳) 任意フィードバック遅延を有するスケールフリーの多元帯域

Scale-Free Adversarial Multi-Armed Bandit with Arbitrary Feedback Delays ( http://arxiv.org/abs/2110.13400v1 )

ライセンス: CC BY-SA 4.0
Jiatai Huang, Yan Dai, Longbo Huang(参考訳) 制限のないフィードバック遅延を伴うMAB(Scale-Free Adversarial Multi Armed Bandit)問題を考える。 すべての損失が$[0,1]$-boundedであるという標準的な仮定とは対照的に、我々の設定では、損失は一般に有界な区間$[-L, L]$に落ちる可能性がある。 さらに、各アームプルのフィードバックは任意の遅延を経験できる。 本稿では,近年のバンカーのオンラインミラー降下手法と,精巧に設計された二重化手法を組み合わせた新しい設定法を提案する。 すると、\textt{sfbanker} は$\mathcal o(\sqrt{k(d+t)}l)\cdot {\rm polylog}(t, l)$ total regret となり、ここで$t$ はステップの総数、$d$ は総フィードバック遅延となる。 \texttt{SFBanker} は、非遅延(すなわち$D=0$)スケールフリーのMAB問題インスタンスに対して、既存のアルゴリズムよりも優れている。 また、非負の損失を持つ問題インスタンスに対する \textt{sfbanker} の変種(例えば、いくつかの未知の $l$ に対して $[0, l]$ の範囲)を示し、$\tilde{\mathcal o}(\sqrt{k(d+t)}l)$ total regret が $\omega(\sqrt{kt}+\sqrt{d\log k}l)$ lower-bound ([cesa-bianchi et al., 2016]) とほぼ最適である。

We consider the Scale-Free Adversarial Multi Armed Bandit (MAB) problem with unrestricted feedback delays. In contrast to the standard assumption that all losses are $[0,1]$-bounded, in our setting, losses can fall in a general bounded interval $[-L, L]$, unknown to the agent before-hand. Furthermore, the feedback of each arm pull can experience arbitrary delays. We propose an algorithm named \texttt{SFBanker} for this novel setting, which combines a recent banker online mirror descent technique and elaborately designed doubling tricks. We show that \texttt{SFBanker} achieves $\mathcal O(\sqrt{K(D+T)}L)\cdot {\rm polylog}(T, L)$ total regret, where $T$ is the total number of steps and $D$ is the total feedback delay. \texttt{SFBanker} also outperforms existing algorithm for non-delayed (i.e., $D=0$) scale-free adversarial MAB problem instances. We also present a variant of \texttt{SFBanker} for problem instances with non-negative losses (i.e., they range in $[0, L]$ for some unknown $L$), achieving an $\tilde{\mathcal O}(\sqrt{K(D+T)}L)$ total regret, which is near-optimal compared to the $\Omega(\sqrt{KT}+\sqrt{D\log K}L)$ lower-bound ([Cesa-Bianchi et al., 2016]).
翻訳日:2021-10-28 06:10:01 公開日:2021-10-26
# (参考訳) タスク対応メタ学習に基づく難読マルウェア分類のためのシームズニューラルネットワーク

Task-Aware Meta Learning-based Siamese Neural Network for Classifying Obfuscated Malware ( http://arxiv.org/abs/2110.13409v1 )

ライセンス: CC BY 4.0
Jinting Zhu, Julian Jang-Jaccard, Amardeep Singh, Paul A. Watters, Seyit Camtepe(参考訳) マルウェアの作者は、マルウェアの一般的な機能(例えば、ユニークなマルウェアシグネチャ)に異なる難読化技術を適用して、検出を避けるために新しい変種を作成する。 既存のシームズニューラルネットワーク(SNN)ベースのマルウェア検出手法では、類似の汎用機能が複数のマルウェアで共有されている場合、偽陽性率の高い場合、異なるマルウェアファミリーを正しく分類できない。 そこで本研究では,1つまたは数個のトレーニングサンプルで訓練されたマルウェアを検出できると同時に,難読化マルウェアに対してレジリエントなタスクアウェアなメタ学習ベースのシアムニューラルネットワークを提案する。 画像特徴をタスク入力とする各マルウェア署名のエントロピー特徴を用いて,タスク認識メタレダは,特徴層に対するパラメータを生成し,異なるマルウェアファミリーに対する機能埋め込みをより正確に調整する。 さらに,本モデルでは,事前学習ネットワーク(例えばVGG-16)の特徴を抽出したメタラーニングを用いて,限られた数のトレーニングサンプルでトレーニングしたモデルに典型的なバイアスを回避する。 提案手法は, マルウェアに対する難読化技術が存在する場合でも, 同一のマルウェア群に属するマルウェアを正しく分類し, マルウェアの識別に極めて有効である。 n-wayをn-shot学習で検証した実験結果から,本モデルは他の類似法と比較して91%以上の精度で分類精度が高いことがわかった。

Malware authors apply different obfuscation techniques on the generic feature of malware (i.e., unique malware signature) to create new variants to avoid detection. Existing Siamese Neural Network (SNN) based malware detection methods fail to correctly classify different malware families when similar generic features are shared across multiple malware variants resulting in high false-positive rates. To address this issue, we propose a novel Task-Aware Meta Learning-based Siamese Neural Network resilient against obfuscated malware while able to detect malware trained with one or a few training samples. Using entropy features of each malware signature alongside image features as task inputs, our task-aware meta leaner generates the parameters for the feature layers to more accurately adjust the feature embedding for different malware families. In addition, our model utilizes meta-learning with the extracted features of a pre-trained network (e.g., VGG-16) to avoid the bias typically associated with a model trained with a limited number of training samples. Our proposed approach is highly effective in recognizing unique malware signatures, thus correctly classifying malware samples that belong to the same malware family even in the presence of obfuscation technique applied to malware. Our experimental results, validated with N-way on N-shot learning, show that our model is highly effective in classification accuracy exceeding the rate>91% compared to other similar methods.
翻訳日:2021-10-28 05:31:46 公開日:2021-10-26
# (参考訳) 表型ノード特徴を用いたグラフデータモデリングのためのconvergent boosted smoothing

Convergent Boosted Smoothing for Modeling Graph Data with Tabular Node Features ( http://arxiv.org/abs/2110.13413v1 )

ライセンス: CC BY 4.0
Jiuhai Chen, Jonas Mueller, Vassilis N. Ioannidis, Soji Adeshina, Yangkun Wang, Tom Goldstein, David Wipf(参考訳) 表形式のデータを用いた教師あり学習では、強化技術によって生成された決定木アンサンブルが、一般にidトレーニング/テストセットを含む現実世界のアプリケーションを支配している。 しかし, サンプル間の構造的関係から, iid仮定に違反するグラフデータについては, この構造を既存のブースティングパイプラインに組み込む方法が不明である。 そこで本研究では,関連するサンプルを接続するエッジ間でノード/サンプル情報を共有するグラフ伝搬ステップによるブースティングを反復する汎用フレームワークを提案する。 グラフベースのモデルとブースティングを統合する以前の取り組みとは異なり、このアプローチは、比較的穏やかな仮定の下で証明可能な収束を保証できるように、原則付きメタ損失関数に固定されている。 グラフノード特徴を持つ様々な非イドグラフデータセットに対して,本手法は,グラフニューラルネットワークモデルとグラフニューラルネットワークモデルの両方と同等あるいは優れた性能を実現するとともに,この2つを組み合わせた既存ハイブリッド戦略を実現する。 最近提案されたグラフモデルよりも優れた予測性能が得られるだけでなく、提案手法は実装が容易で、計算効率が良く、より強力な理論的保証を享受できます。

For supervised learning with tabular data, decision tree ensembles produced via boosting techniques generally dominate real-world applications involving iid training/test sets. However for graph data where the iid assumption is violated due to structured relations between samples, it remains unclear how to best incorporate this structure within existing boosting pipelines. To this end, we propose a generalized framework for iterating boosting with graph propagation steps that share node/sample information across edges connecting related samples. Unlike previous efforts to integrate graph-based models with boosting, our approach is anchored in a principled meta loss function such that provable convergence can be guaranteed under relatively mild assumptions. Across a variety of non-iid graph datasets with tabular node features, our method achieves comparable or superior performance than both tabular and graph neural network models, as well as existing hybrid strategies that combine the two. Beyond producing better predictive performance than recently proposed graph models, our proposed techniques are easy to implement, computationally more efficient, and enjoy stronger theoretical guarantees (which make our results more reproducible).
翻訳日:2021-10-28 05:14:33 公開日:2021-10-26
# (参考訳) セマンティック・ホストレストロイの木馬攻撃

Semantic Host-free Trojan Attack ( http://arxiv.org/abs/2110.13414v1 )

ライセンス: CC BY 4.0
Haripriya Harikumar, Kien Do, Santu Rana, Sunil Gupta, Svetha Venkatesh(参考訳) 本稿では,意味空間に固定されているが,必ずしもピクセル空間に固定されていないトリガーを用いた新規なホストフリートロイア攻撃を提案する。 クリーンな入力イメージをホストとして使用する既存のトロイの木馬攻撃とは対照的に、我々の攻撃はトリガーを意味論的に意味のあるオブジェクトクラスに属するフルサイズのイメージとみなす。 我々の攻撃では、バックドア分類器は特定の固定パターンよりもトリガー画像の抽象的な意味を記憶するよう奨励されるので、後で意味的に似ているが異なる外観の画像によってトリガーすることができる。 これにより、我々の攻撃は現実世界に適用され、防御が困難になる。 大規模実験の結果,訓練用トロイの木馬のパターンは少ないが,この攻撃は同一のトロイの木馬クラスの新しいパターンによく適応でき,最先端の防御手法をバイパスできることがわかった。

In this paper, we propose a novel host-free Trojan attack with triggers that are fixed in the semantic space but not necessarily in the pixel space. In contrast to existing Trojan attacks which use clean input images as hosts to carry small, meaningless trigger patterns, our attack considers triggers as full-sized images belonging to a semantically meaningful object class. Since in our attack, the backdoored classifier is encouraged to memorize the abstract semantics of the trigger images than any specific fixed pattern, it can be later triggered by semantically similar but different looking images. This makes our attack more practical to be applied in the real-world and harder to defend against. Extensive experimental results demonstrate that with only a small number of Trojan patterns for training, our attack can generalize well to new patterns of the same Trojan class and can bypass state-of-the-art defense methods.
翻訳日:2021-10-28 04:41:58 公開日:2021-10-26
# (参考訳) より一般化したワンショット視覚模倣学習に向けて

Towards More Generalizable One-shot Visual Imitation Learning ( http://arxiv.org/abs/2110.13423v1 )

ライセンス: CC BY 4.0
Zhao Mandi, Fangchen Liu, Kimin Lee, Pieter Abbeel(参考訳) 汎用ロボットは、過去の経験を活かして、幅広いタスクを習得し、新しいタスクを素早く学ぶことができるべきである。 ワンショット模倣学習(one-shot imitation learning, osil)は、(複数の)専門家によるデモンストレーションでエージェントを訓練することで、この目標にアプローチする。 しかしながら、これまでこのフレームワークは、1つのタスクの多くのバリエーションのトレーニングと、他の目に見えないが同じタスクの類似のバリエーションのテストに限定されてきた。 本研究では,より野心的なマルチタスク構成を探求することにより,より高度な一般化能力を実現する。 7つのタスク、61のバリエーション、各バリエーションにおけるインスタンスの連続からなる多様な視覚ベースのロボット操作タスクを紹介した。 一貫性と比較のために、まずはシングルタスクエージェントをトレーニングし、評価します。 次に、マルチタスクトレーニングをフォローするマルチタスク設定について検討する。 (i)訓練作業におけるバリエーションに関する一発の模倣 (ii)新規課題に対するワンショット模倣、及び (iii)新しい作業の微調整。 従来の最先端では、特定のタスクでうまく機能する一方で、これらの難しいマルチタスク設定で苦労しています。 これらの制約に対処するため,我々は,自己着脱モデルアーキテクチャと時間的コントラストモジュールを統合したモザイク(多タスクワンショット模倣と自己着脱とコントラスト学習)を提案する。 実験の結果,MOSAICは学習効率,最終性能において先行技術よりも優れており,新しいタスクを微調整することで,有望な一般化能力を持つマルチタスクポリシーを学習していることがわかった。

A general-purpose robot should be able to master a wide range of tasks and quickly learn a novel one by leveraging past experiences. One-shot imitation learning (OSIL) approaches this goal by training an agent with (pairs of) expert demonstrations, such that at test time, it can directly execute a new task from just one demonstration. However, so far this framework has been limited to training on many variations of one task, and testing on other unseen but similar variations of the same task. In this work, we push for a higher level of generalization ability by investigating a more ambitious multi-task setup. We introduce a diverse suite of vision-based robot manipulation tasks, consisting of 7 tasks, a total of 61 variations, and a continuum of instances within each variation. For consistency and comparison purposes, we first train and evaluate single-task agents (as done in prior few-shot imitation work). We then study the multi-task setting, where multi-task training is followed by (i) one-shot imitation on variations within the training tasks, (ii) one-shot imitation on new tasks, and (iii) fine-tuning on new tasks. Prior state-of-the-art, while performing well within some single tasks, struggles in these harder multi-task settings. To address these limitations, we propose MOSAIC (Multi-task One-Shot Imitation with self-Attention and Contrastive learning), which integrates a self-attention model architecture and a temporal contrastive module to enable better task disambiguation and more robust representation learning. Our experiments show that MOSAIC outperforms prior state of the art in learning efficiency, final performance, and learns a multi-task policy with promising generalization ability via fine-tuning on novel tasks.
翻訳日:2021-10-28 04:31:35 公開日:2021-10-26
# (参考訳) ニューラルネットワークを用いた高精度URLフィッシング検出

Precise URL Phishing Detection Using Neural Networks ( http://arxiv.org/abs/2110.13424v1 )

ライセンス: CC BY 4.0
Aman Rangapur, Dr Ajith Jubilson(参考訳) インターネットの発展に伴い、パスワードやログイン、機密データなどの重要なデータを取得する方法が増加している。 このような情報を抽出する方法の1つは、フィッシング(phishing)とも呼ばれるページ偽造である。 このようなWebサイトはサービスを提供しないが、ユーザから機密情報を収集する。 本稿では,このような悪質なurlをニューラルネットワークを用いて精度良く検出する方法を提案する。 Webコンテンツ、URL、トラフィック統計を検査する以前の研究とは異なり、私たちはURLテキストのみを分析し、より速く、ゼロデイ攻撃を検出する。 ネットワークは最適化され、ras-piのような小さなデバイスでも性能が変化せずに使用できる。

With the development of the Internet, ways of obtaining important data such as passwords and logins or sensitive personal data have increased. One of the ways to extract such information is page impersonation, also called phishing. Such websites do not provide service but collect sensitive details from the user. Here, we present you with ways to detect such malicious URLs with state of art accuracy with neural networks. Different from previous works, where web content, URL or traffic statistics are examined, we analyse only the URL text, making it faster and which detects zero-day attacks. The network is optimised and can be used even on small devices such as Ras-Pi without a change in performance.
翻訳日:2021-10-28 04:11:10 公開日:2021-10-26
# (参考訳) OCTA画像における容器分割のための画像拡大ネットワーク

Image Magnification Network for Vessel Segmentation in OCTA Images ( http://arxiv.org/abs/2110.13428v1 )

ライセンス: CC BY 4.0
Mingchao Li, Yerui Chen, Weiwei Zhang and Qiang Chen(参考訳) 光コヒーレンストモグラフィ(optical coherence tomography angiography、オクター)は、マイクロnレベルの解像度で網膜の微小血管を可視化できる新しい非侵襲的イメージングモードである。 OCTA画像における網膜血管のセグメンテーションは依然として未解決の問題であり,特に毛細血管の細い高密度構造はこの問題の重要な課題である。 本研究では,OCTA画像における血管分割のための新しい画像拡大ネットワーク(IMN)を提案する。 ダウンサンプリングエンコーダとアップサンプリングデコーダを備えたU-Net構造とは異なり、提案したIMNはアップサンプリングエンコーダとダウンサンプリングデコーダの設計を採用する。 この設計は、画像の詳細を捉え、薄くて小さな構造物の欠落を減らすことを目的としている。 3つのオープンOCTAデータセットによる実験結果から、平均ダイススコア90.2%のIMNが、OCTA画像の血管分割において最高の性能を発揮することが示された。 また,クロスフィールド画像の血管分割と血管骨格抽出におけるIMNの優れた性能を示す。

Optical coherence tomography angiography (OCTA) is a novel non-invasive imaging modality that allows micron-level resolution to visualize the retinal microvasculature. The retinal vessel segmentation in OCTA images is still an open problem, and especially the thin and dense structure of the capillary plexus is an important challenge of this problem. In this work, we propose a novel image magnification network (IMN) for vessel segmentation in OCTA images. Contrary to the U-Net structure with a down-sampling encoder and up-sampling decoder, the proposed IMN adopts the design of up-sampling encoding and then down-sampling decoding. This design is to capture more image details and reduce the omission of thin-and-small structures. The experimental results on three open OCTA datasets show that the proposed IMN with an average dice score of 90.2% achieves the best performance in vessel segmentation of OCTA images. Besides, we also demonstrate the superior performance of IMN in cross-field image vessel segmentation and vessel skeleton extraction.
翻訳日:2021-10-28 04:04:01 公開日:2021-10-26
# (参考訳) 3次元TOF-MRAにおける大脳動脈瘤の深い学習に基づく分節

Deep Learning-based Segmentation of Cerebral Aneurysms in 3D TOF-MRA using Coarse-to-Fine Framework ( http://arxiv.org/abs/2110.13432v1 )

ライセンス: CC0 1.0
Meng Chen, Chen Geng, Dongdong Wang, Jiajun Zhang, Ruoyu Di, Fengmei Li, Zhiyong Zhou, Sirong Piao, Yuxin Li, Yaikang Dai(参考訳) BACKGROUND and PURPOSE:脳動脈瘤は最も一般的な脳血管疾患の1つであり、その破裂によるSAHは極めて高い死亡率と障害率を有する。 既存のTOF-MRAモダリティを用いたDLMを用いた自動分節法では, エッジボクセルの分節化がうまく行えないため, DLMの助けを借りて, 3次元TOF-MRAにおける脳動脈瘤のより正確な分節化を実現することが目的である。 材料と方法:本研究では3DTOF-MRAにおける脳動脈瘤の自動分画フレームワークを提案する。 このフレームワークは粗いものから細かいものまで2つのセグメンテーションネットワークで構成されていた。 粗いセグメンテーションネットワーク、すなわちDeepMedicは、大脳動脈瘤の粗いセグメンテーションを完了し、処理結果を微細セグメンテーションネットワーク、すなわち、重み付き損失関数で訓練された2チャネルSE_3D U-Netに供給した。 ADAM2020(n=113)の画像はトレーニングと検証に使われ、別のセンター(n=45)の画像はテストに使用された。 DSC、HD、VS. RESULTS:訓練された脳動脈瘤セグメンテーションモデルは、DSC 0.75、HD 1.52、VS 0.91、バリデーションコホートで達成された。 完全独立テストコホートでは,最高dscが0.12,最低hdが11.61,最高vsが0.16であった。 ConCLUSIONS: DeepMedicとデュアルチャネルSE_3D U-Netから構成される粗粒間フレームワークは、3D TOF-MRAでより精度良く脳動脈瘤を分断することができる。

BACKGROUND AND PURPOSE: Cerebral aneurysm is one of the most common cerebrovascular diseases, and SAH caused by its rupture has a very high mortality and disability rate. Existing automatic segmentation methods based on DLMs with TOF-MRA modality could not segment edge voxels very well, so that our goal is to realize more accurate segmentation of cerebral aneurysms in 3D TOF-MRA with the help of DLMs. MATERIALS AND METHODS: In this research, we proposed an automatic segmentation framework of cerebral aneurysm in 3D TOF-MRA. The framework was composed of two segmentation networks ranging from coarse to fine. The coarse segmentation network, namely DeepMedic, completed the coarse segmentation of cerebral aneurysms, and the processed results were fed into the fine segmentation network, namely dual-channel SE_3D U-Net trained with weighted loss function, for fine segmentation. Images from ADAM2020 (n=113) were used for training and validation and images from another center (n=45) were used for testing. The segmentation metrics we used include DSC, HD, and VS. RESULTS: The trained cerebral aneurysm segmentation model achieved DSC of 0.75, HD of 1.52, and VS of 0.91 on validation cohort. On the totally independent test cohort, our method achieved the highest DSC of 0.12, the lowest HD of 11.61, and the highest VS of 0.16 in comparison with state-of-the-art segmentation networks. CONCLUSIONS: The coarse-to-fine framework, which composed of DeepMedic and dual-channel SE_3D U-Net can segment cerebral aneurysms in 3D TOF-MRA with a superior accuracy.
翻訳日:2021-10-28 03:56:44 公開日:2021-10-26
# (参考訳) 分散検出タスクにおける自己教師あり学習の役割の理解

Understanding the Role of Self-Supervised Learning in Out-of-Distribution Detection Task ( http://arxiv.org/abs/2110.13435v1 )

ライセンス: CC BY 4.0
Jiuhai Chen, Chen Zhu, Bin Dai(参考訳) 自己教師付き学習(SSL)は様々なコンピュータビジョンタスクで大きな成功を収めた。 しかし、これらのタスクにおけるSSLの仕組みは謎のままである。 本稿では,SSL がout-of-distriion (OOD) 検出タスクの性能を向上する方法について検討する。 まず、良いOOD検出器が持つべき2つの一般的な特性を指摘した。 1) 全体的な機能空間は、大きく、そして、 2)不利な特徴空間は小さくなければならない。 そして、SSLが機能空間全体の本質的な次元を実際に増加させることができることを示す。 一方SSLには、不適切な機能領域を縮小する可能性さえある。 その結果、OOD検出がより容易になるように、アウトリーチのためにより多くのスペースが確保されることになる。 SSLが不利な特徴空間を縮小できる条件についても議論し、検証する。 OOD検出タスクにおけるSSLの役割を理解することにより、より優れたOOD検出アルゴリズムを設計するためのガイドラインを提供することができる。 さらに、SSLがパフォーマンスを改善する他のタスクにも光を当てることができる。

Self-supervised learning (SSL) has achieved great success in a variety of computer vision tasks. However, the mechanism of how SSL works in these tasks remains a mystery. In this paper, we study how SSL can enhance the performance of the out-of-distribution (OOD) detection task. We first point out two general properties that a good OOD detector should have: 1) the overall feature space should be large and 2) the inlier feature space should be small. Then we demonstrate that SSL can indeed increase the intrinsic dimension of the overall feature space. In the meantime, SSL even has the potential to shrink the inlier feature space. As a result, there will be more space spared for the outliers, making OOD detection much easier. The conditions when SSL can shrink the inlier feature space is also discussed and validated. By understanding the role of SSL in the OOD detection task, our study can provide a guideline for designing better OOD detection algorithms. Moreover, this work can also shed light to other tasks where SSL can improve the performance.
翻訳日:2021-10-28 03:46:06 公開日:2021-10-26
# (参考訳) 深層学習による擬似スペクトルPCEに基づく複雑な組織のためのFFT均質化アルゴリズム

A deep learning driven pseudospectral PCE based FFT homogenization algorithm for complex microstructures ( http://arxiv.org/abs/2110.13440v1 )

ライセンス: CC BY 4.0
Alexander Henkes, Ismail Caylak, Rolf Mahnken(参考訳) 本研究は, 複合三次元構造を有する複合材料の均質化有効物性の不確かさの定量化に向けられた。 この不確実性は、単一成分の材料パラメータや繊維体積率にも生じる。 それらは多変量確率変数によって考慮される。 不確かさの定量化は、疑似スペクトル多項式カオス展開と人工ニューラルネットワークに基づく効率的なサロゲートモデルによって達成される。 人工ニューラルネットワークは、不確定な三次元構造、不確定な線形弾性材料パラメータ、異なる荷重方向を有する複合材料の合成二元ボクセル化単位セル上で訓練される。 ニューラルネットワークの予測目標は弾性テンソルの対応する有効成分であり、高速フーリエ変換に基づく数値均質化法によりトレーニング用ラベルを生成する。 訓練されたニューラルネットワークは、擬似スペクトル多項式カオス展開に基づくサロゲートモデルのための決定論的解法として使われ、有効特性の対応する統計量を達成する。 3つの数値的な例は、提案手法と文献の比較、および異なるミクロ構造への応用に対処する。 その結果,提案手法は従来の手法よりも高速に評価できると同時に,中心的関心モーメントを予測できることがわかった。

This work is directed to uncertainty quantification of homogenized effective properties for composite materials with complex, three dimensional microstructure. The uncertainties arise in the material parameters of the single constituents as well as in the fiber volume fraction. They are taken into account by multivariate random variables. Uncertainty quantification is achieved by an efficient surrogate model based on pseudospectral polynomial chaos expansion and artificial neural networks. An artificial neural network is trained on synthetic binary voxelized unit cells of composite materials with uncertain three dimensional microstructures, uncertain linear elastic material parameters and different loading directions. The prediction goals of the artificial neural network are the corresponding effective components of the elasticity tensor, where the labels for training are generated via a fast Fourier transform based numerical homogenization method. The trained artificial neural network is then used as a deterministic solver for a pseudospectral polynomial chaos expansion based surrogate model to achieve the corresponding statistics of the effective properties. Three numerical examples deal with the comparison of the presented method to the literature as well as the application to different microstructures. It is shown, that the proposed method is able to predict central moments of interest while being magnitudes faster to evaluate than traditional approaches.
翻訳日:2021-10-28 03:33:30 公開日:2021-10-26
# (参考訳) 最大平均差の最適化景観について

On the Optimization Landscape of Maximum Mean Discrepancy ( http://arxiv.org/abs/2110.13452v1 )

ライセンス: CC BY 4.0
Itai Alon and Amir Globerson and Ami Wiesel(参考訳) 生成モデルは現実的な信号の生成に成功している。 確率関数は典型的にはこれらのモデルの多くで難解であるため、一般的には「単純な」モデルを用いて、確率計算を避ける。 しかし、そのようなモデルに対する理論的保証を得るのは難しい。 特に,非凸目標をグローバルに最適化する方法については理解されていない。 ここでは、生成モデルの最大平均離散性(MMD)学習について、そのような分析を行う。 我々は、(可能性が適用できない)低階の共分散を持つガウス分布と、ガウス分布の混合を含む、いくつかの最適性結果を示す。 その結果,mmdの最適化環境は良好であり,勾配に基づく手法はmmdの目的をグローバルに最小化できることがわかった。

Generative models have been successfully used for generating realistic signals. Because the likelihood function is typically intractable in most of these models, the common practice is to use "implicit" models that avoid likelihood calculation. However, it is hard to obtain theoretical guarantees for such models. In particular, it is not understood when they can globally optimize their non-convex objectives. Here we provide such an analysis for the case of Maximum Mean Discrepancy (MMD) learning of generative models. We prove several optimality results, including for a Gaussian distribution with low rank covariance (where likelihood is inapplicable) and a mixture of Gaussians. Our analysis shows that that the MMD optimization landscape is benign in these cases, and therefore gradient based methods will globally minimize the MMD objective.
翻訳日:2021-10-28 03:32:06 公開日:2021-10-26
# (参考訳) インクリメンタル物体検出のための応答型蒸留

Response-based Distillation for Incremental Object Detection ( http://arxiv.org/abs/2110.13471v1 )

ライセンス: CC BY 4.0
Tao Feng, Mang Wang(参考訳) 従来のオブジェクト検出は、インクリメンタルな学習には不十分である。 しかし、新しいデータのみを訓練された検出モデルで直接微調整すると、破滅的な忘れることになる。 知識蒸留は壊滅的な忘れを和らげる簡単な方法である。 インクリメンタルオブジェクト検出(iod)では、従来の研究は主に機能レベルの知識の蒸留に焦点を当てているが、検出器の異なる反応はまだ完全には検討されていない。 本稿では,検出バウンディングボックスからの学習応答と分類予測に着目した完全応答型増分蒸留法を提案する。 まず,インクリメンタル学習中に,学習者モデルに局所的知識を保持する能力を持たせながらカテゴリ知識を伝達する手法を提案する。 さらに,すべての場所の特性をさらに評価し,aps(adaptive pseudo-label selection)戦略による有用な応答を提供する。 最後に,増分蒸留中に異なる応答からの知識を異なる重要性で割り当てるべきであることを解明した。 また,MS COCOを用いた大規模実験により,本手法の有意な利点が示され,フルトレーニングに向けた性能ギャップが著しく狭められた。

Traditional object detection are ill-equipped for incremental learning. However, fine-tuning directly on a well-trained detection model with only new data will leads to catastrophic forgetting. Knowledge distillation is a straightforward way to mitigate catastrophic forgetting. In Incremental Object Detection (IOD), previous work mainly focuses on feature-level knowledge distillation, but the different response of detector has not been fully explored yet. In this paper, we propose a fully response-based incremental distillation method focusing on learning response from detection bounding boxes and classification predictions. Firstly, our method transferring category knowledge while equipping student model with the ability to retain localization knowledge during incremental learning. In addition, we further evaluate the qualities of all locations and provides valuable response by adaptive pseudo-label selection (APS) strategies. Finally, we elucidate that knowledge from different responses should be assigned with different importance during incremental distillation. Extensive experiments conducted on MS COCO demonstrate significant advantages of our method, which substantially narrow the performance gap towards full training.
翻訳日:2021-10-28 02:36:35 公開日:2021-10-26
# (参考訳) 対称正定値行列の空間上のベクトル値距離とジャイロ係数

Vector-valued Distance and Gyrocalculus on the Space of Symmetric Positive Definite Matrices ( http://arxiv.org/abs/2110.13475v1 )

ライセンス: CC BY-SA 4.0
Federico L\'opez, Beatrice Pozzetti, Steve Trettel, Michael Strube, Anna Wienhard(参考訳) 本研究では,ベクトル値距離を用いて対称正定値行列(SPD)の多様体から距離を計算し,幾何学的情報を抽出し,この曲線空間におけるベクトル空間演算のアナログを構成するジャイロベクトル計算を開発する。 これらの操作を実装し,知識グラフの補完,項目推薦,質問応答といったタスクにおいて,それらの汎用性を示す。 実験では、spdモデルはユークリッド空間と双曲空間の等価値を上回る。 ベクトル値距離は埋め込みを可視化し、モデルが正のサンプルを負のサンプルから切り離すことを学ぶことを示す。

We propose the use of the vector-valued distance to compute distances and extract geometric information from the manifold of symmetric positive definite matrices (SPD), and develop gyrovector calculus, constructing analogs of vector space operations in this curved space. We implement these operations and showcase their versatility in the tasks of knowledge graph completion, item recommendation, and question answering. In experiments, the SPD models outperform their equivalents in Euclidean and hyperbolic space. The vector-valued distance allows us to visualize embeddings, showing that the models learn to disentangle representations of positive samples from negative ones.
翻訳日:2021-10-28 02:23:51 公開日:2021-10-26
# (参考訳) 構成ラベル予測を用いた同時ニューラルマシン翻訳

Simultaneous Neural Machine Translation with Constituent Label Prediction ( http://arxiv.org/abs/2110.13480v1 )

ライセンス: CC BY 4.0
Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 同時翻訳とは、話者が話す前に翻訳が始まるタスクであり、翻訳プロセスの開始時期を決定することが重要である。 しかし、英語や日本語などの単語順が異なる言語対では、より多くの入力語を読むか翻訳を始めるかは難しい。 事前注文の概念に動機づけられ,次成分のラベルをインクリメンタル成分ラベル予測によって予測する,いくつかの簡単な決定規則を提案する。 日英同時翻訳実験において,提案手法は品質・レイテンシトレードオフにおいてベースラインを上回った。

Simultaneous translation is a task in which translation begins before the speaker has finished speaking, so it is important to decide when to start the translation process. However, deciding whether to read more input words or start to translate is difficult for language pairs with different word orders such as English and Japanese. Motivated by the concept of pre-reordering, we propose a couple of simple decision rules using the label of the next constituent predicted by incremental constituent label prediction. In experiments on English-to-Japanese simultaneous translation, the proposed method outperformed baselines in the quality-latency trade-off.
翻訳日:2021-10-28 01:43:33 公開日:2021-10-26
# (参考訳) 結論生成による議論の不十分性の評価

Assessing the Sufficiency of Arguments through Conclusion Generation ( http://arxiv.org/abs/2110.13495v1 )

ライセンス: CC BY 4.0
Timon Gurcke, Milad Alshomary, Henning Wachsmuth(参考訳) 議論の前提は、結論を支持する証拠または他の理由を与える。 しかし、必要な支援の量は、結論の一般性、個々の前提の性質などによって異なる。 議論の品質研究において、その前提が引き出すに値する結論を合理的に示す論証は十分である。 これまでの研究は、前提と結論の関係をモデル化せず、標準テキスト分類問題として十分性評価に取り組んできた。 本稿では,その前提から十分な議論の結論を導き出すことができると仮定する。 この仮説を考察するために,大規模事前学習言語モデルの出力に基づいて,十分性を評価する可能性を検討する。 我々の最良のモデル変種は、.885のF1スコアを達成し、以前の最先端を上回り、人間の専門家と同等である。 手動による評価は生成した結論の品質を明らかにするが、その影響は最終的に低いままである。

The premises of an argument give evidence or other reasons to support a conclusion. However, the amount of support required depends on the generality of a conclusion, the nature of the individual premises, and similar. An argument whose premises make its conclusion rationally worthy to be drawn is called sufficient in argument quality research. Previous work tackled sufficiency assessment as a standard text classification problem, not modeling the inherent relation of premises and conclusion. In this paper, we hypothesize that the conclusion of a sufficient argument can be generated from its premises. To study this hypothesis, we explore the potential of assessing sufficiency based on the output of large-scale pre-trained language models. Our best model variant achieves an F1-score of .885, outperforming the previous state-of-the-art and being on par with human experts. While manual evaluation reveals the quality of the generated conclusions, their impact remains low ultimately.
翻訳日:2021-10-28 01:30:18 公開日:2021-10-26
# (参考訳) 大規模LS-SVMのためのテンソルネットワークカルマンフィルタ

Tensor Network Kalman Filtering for Large-Scale LS-SVMs ( http://arxiv.org/abs/2110.13501v1 )

ライセンス: CC BY 4.0
Maximilian Lucassen, Johan A.K. Suykens, Kim Batselier(参考訳) 最小二乗支援ベクトルマシンは、非線形回帰と分類のための教師あり学習法である。 それらは原始形または双対形に実装できる。 後者は、データの無限次元特徴空間への明示的なマッピングが避けられるという利点を持つ線形システムを解く必要がある。 しかし、大規模アプリケーションでは、現在の低ランク近似手法が不十分に実行可能である。 例えば、現在の手法はサンプリング手順のため確率的であり、そして/またはランクと近似パワーのトレードオフが貧弱である。 本稿では,テンソルネットワークに基づく再帰的ベイズフィルタフレームワークとカルマンフィルタを用いて,大規模二重問題を解く際の要求メモリと計算複雑性を緩和する。 提案手法は反復的であり,カーネルマトリクスの明示的な保存を必要とせず,早期停止条件の定式化を可能にする。 さらに、このフレームワークは代替手法とは異なり、得られたモデルの信頼度を推定する。 2つの回帰実験と3つの分類実験で実験を行い、Nystr\om法と固定サイズLS-SVM法と比較した。 提案手法は, カーネル行列スペクトルが緩やかに減衰しているため, 計算が不可能な場合に特に有用であることを示す。

Least squares support vector machines are a commonly used supervised learning method for nonlinear regression and classification. They can be implemented in either their primal or dual form. The latter requires solving a linear system, which can be advantageous as an explicit mapping of the data to a possibly infinite-dimensional feature space is avoided. However, for large-scale applications, current low-rank approximation methods can perform inadequately. For example, current methods are probabilistic due to their sampling procedures, and/or suffer from a poor trade-off between the ranks and approximation power. In this paper, a recursive Bayesian filtering framework based on tensor networks and the Kalman filter is presented to alleviate the demanding memory and computational complexities associated with solving large-scale dual problems. The proposed method is iterative, does not require explicit storage of the kernel matrix, and allows the formulation of early stopping conditions. Additionally, the framework yields confidence estimates of obtained models, unlike alternative methods. The performance is tested on two regression and three classification experiments, and compared to the Nystr\"om and fixed size LS-SVM methods. Results show that our method can achieve high performance and is particularly useful when alternative methods are computationally infeasible due to a slowly decaying kernel matrix spectrum.
翻訳日:2021-10-28 01:15:40 公開日:2021-10-26
# (参考訳) 伝達学習のためのモジュラーガウス過程

Modular Gaussian Processes for Transfer Learning ( http://arxiv.org/abs/2110.13515v1 )

ライセンス: CC BY 4.0
Pablo Moreno-Mu\~noz, Antonio Art\'es-Rodr\'iguez and Mauricio A. \'Alvarez(参考訳) 本稿では,モジュール変動ガウス過程(GP)に基づく移動学習フレームワークを提案する。 我々は,gpsによく適合した辞書を持つモジュールベースの手法を開発し,データを再訪することなくアンサンブルgpモデルを構築することができた。 各モデルはハイパーパラメータ、擬似入力、対応する後方密度によって特徴づけられる。 提案手法は,望ましくないデータの集中化を回避し,計算コストの増大を低減し,学習後の不確実性メトリクスの転送を可能にする。 確率過程間のkullback-leiblerの発散に基づく高次元積分作用素の強化を活用し,全てのばらばらな変分gpsの下で効率的な下界を導入する。 この手法は多出力GPにも有効であり、独立モジュール間の後続関係を学習する。 広範な結果から,大規模マルチタスク実験におけるフレームワークの有用性を示すとともに,文献における正確な推論手法との比較を行った。

We present a framework for transfer learning based on modular variational Gaussian processes (GP). We develop a module-based method that having a dictionary of well fitted GPs, one could build ensemble GP models without revisiting any data. Each model is characterised by its hyperparameters, pseudo-inputs and their corresponding posterior densities. Our method avoids undesired data centralisation, reduces rising computational costs and allows the transfer of learned uncertainty metrics after training. We exploit the augmentation of high-dimensional integral operators based on the Kullback-Leibler divergence between stochastic processes to introduce an efficient lower bound under all the sparse variational GPs, with different complexity and even likelihood distribution. The method is also valid for multi-output GPs, learning correlations a posteriori between independent modules. Extensive results illustrate the usability of our framework in large-scale and multi-task experiments, also compared with the exact inference methods in the literature.
翻訳日:2021-10-28 00:57:56 公開日:2021-10-26
# (参考訳) 知識グラフ上の連鎖推論のための確率的実体表現モデル

Probabilistic Entity Representation Model for Chain Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2110.13522v1 )

ライセンス: CC BY 4.0
Nurendra Choudhary, Nikhil Rao, Sumeet Katariya, Karthik Subbian, Chandan K. Reddy(参考訳) 知識グラフ(KG)に対する論理的推論は、大規模で不完全なデータベースに対して効率的なクエリメカニズムを提供するための基本的な技術である。 現在のアプローチでは、ボックスのような空間的ジオメトリを使用して、応答エンティティを包含するクエリ表現を学習し、投影と交叉の論理演算をモデル化している。 しかし、それらの幾何学は制限的であり、非スムースな厳密な境界につながり、さらに曖昧な答え実体をもたらす。 さらに、従来の研究は、非閉包となりストリームに連鎖できない結合を扱うための変換トリックを提案している。 本稿では,エンティティを平均と共分散パラメータを持つ多変量ガウス密度として符号化し,その意味的位置と滑らかな決定境界をそれぞれ捉える確率的実体表現モデル(perm)を提案する。 さらに、エンド・ツー・エンドの目的関数を使って集約できる射影、交叉、結合の閉論理演算も定義する。 論理的クエリ推論問題において,提案したPERMは,標準評価指標のKGデータセットに対して,最先端の手法よりも優れていることを示す。 また, PERMの薬剤再服用ケーススタディにおける能力を評価し, 提案された研究は, 現行の方法よりもはるかに優れたF1薬剤を推奨できることを示した。 最後に、ガウス表現の低次元可視化を通して、PERMの問合せ応答プロセスの動作を実演する。

Logical reasoning over Knowledge Graphs (KGs) is a fundamental technique that can provide efficient querying mechanism over large and incomplete databases. Current approaches employ spatial geometries such as boxes to learn query representations that encompass the answer entities and model the logical operations of projection and intersection. However, their geometry is restrictive and leads to non-smooth strict boundaries, which further results in ambiguous answer entities. Furthermore, previous works propose transformation tricks to handle unions which results in non-closure and, thus, cannot be chained in a stream. In this paper, we propose a Probabilistic Entity Representation Model (PERM) to encode entities as a Multivariate Gaussian density with mean and covariance parameters to capture its semantic position and smooth decision boundary, respectively. Additionally, we also define the closed logical operations of projection, intersection, and union that can be aggregated using an end-to-end objective function. On the logical query reasoning problem, we demonstrate that the proposed PERM significantly outperforms the state-of-the-art methods on various public benchmark KG datasets on standard evaluation metrics. We also evaluate PERM's competence on a COVID-19 drug-repurposing case study and show that our proposed work is able to recommend drugs with substantially better F1 than current methods. Finally, we demonstrate the working of our PERM's query answering process through a low-dimensional visualization of the Gaussian representations.
翻訳日:2021-10-28 00:40:56 公開日:2021-10-26
# (参考訳) 連続強化学習のための過大評価バイアスの自動制御

Automating Control of Overestimation Bias for Continuous Reinforcement Learning ( http://arxiv.org/abs/2110.13523v1 )

ライセンス: CC BY 4.0
Arsenii Kuznetsov, Alexander Grishin, Artem Tsypin, Arsenii Ashukha, Dmitry Vetrov(参考訳) バイアス補正技術は、オフポリシー強化学習の高パフォーマンス手法の多くで使用されている。 しかし、これらの手法は、十分に柔軟でない、あるいは環境固有のハイパーパラメータのチューニングを必要とする、事前に定義されたバイアス補正ポリシーに依存している。 本稿では,バイアス修正を導くための単純なデータ駆動アプローチを提案する。 我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsの有効性を実証する。 提案手法は,環境間のバイアス補正を自動的に調整する。 その結果、広範にハイパーパラメーター探索を行う必要がなくなり、実際の相互作用数や計算量が大幅に削減される。

Bias correction techniques are used by most of the high-performing methods for off-policy reinforcement learning. However, these techniques rely on a pre-defined bias correction policy that is either not flexible enough or requires environment-specific tuning of hyperparameters. In this work, we present a simple data-driven approach for guiding bias correction. We demonstrate its effectiveness on the Truncated Quantile Critics -- a state-of-the-art continuous control algorithm. The proposed technique can adjust the bias correction across environments automatically. As a result, it eliminates the need for an extensive hyperparameter search, significantly reducing the actual number of interactions and computation.
翻訳日:2021-10-28 00:23:57 公開日:2021-10-26
# (参考訳) てんかん、偶然、プロビデンスにおけるコヒーレント偽発作予測

Coherent False Seizure Prediction in Epilepsy, Coincidence or Providence? ( http://arxiv.org/abs/2110.13550v1 )

ライセンス: CC BY-SA 4.0
Jens M\"uller, Hongliu Yang, Matthias Eberlein, Georg Leonhardt, Ortrud Uckermann, Levin Kuhlmann, Ronald Tetzlaff(参考訳) 機械学習を用いた発作予測は可能であるが、多くの誤った予測と低い特異性によって示されるように、その性能は理想とは程遠い。 ここでは、長期データセット上の2つのアルゴリズムの誤報と欠落を検証し、制限が分類器や特徴とは関係がなく、データに固有の変化があることを示す。 偽予測の相関を計算し, 両分類法間の情報伝達を推定することで, 3つのデータセット上の2つのアルゴリズムを評価した。 12人中9人が、どちらの方法も、チャンスよりも優れたパフォーマンスを示した。 すべての個人に対して,予測に正の相関が認められた。 偽予測の相関が強い個人に対しては,第2の手法の結果に基づいてテストサンプルを除外することで,一つの手法の性能を高めることができた。 実質的に異なるアルゴリズムは、誤ったアラームと行方不明のアラームにおいて高い一貫性と強い一貫性を示す。 したがって、各発作前の固定時間長の事前状態の仮説を原状態に変更することは、より最適化された分類器よりも有用である。 この結果は連続データを用いた発作予測アルゴリズムの評価に重要である。

Seizure forecasting using machine learning is possible, but the performance is far from ideal, as indicated by many false predictions and low specificity. Here, we examine false and missing alarms of two algorithms on long-term datasets to show that the limitations are less related to classifiers or features, but rather to intrinsic changes in the data. We evaluated two algorithms on three datasets by computing the correlation of false predictions and estimating the information transfer between both classification methods. For 9 out of 12 individuals both methods showed a performance better than chance. For all individuals we observed a positive correlation in predictions. For individuals with strong correlation in false predictions we were able to boost the performance of one method by excluding test samples based on the results of the second method. Substantially different algorithms exhibit a highly consistent performance and a strong coherency in false and missing alarms. Hence, changing the underlying hypothesis of a preictal state of fixed time length prior to each seizure to a proictal state is more helpful than further optimizing classifiers. The outcome is significant for the evaluation of seizure prediction algorithms on continuous data.
翻訳日:2021-10-27 23:47:44 公開日:2021-10-26
# (参考訳) Few-Shot回帰のための非ガウスガウス過程

Non-Gaussian Gaussian Processes for Few-Shot Regression ( http://arxiv.org/abs/2110.13561v1 )

ライセンス: CC BY 4.0
Marcin Sendera, Jacek Tabor, Aleksandra Nowak, Andrzej Bedychaj, Massimiliano Patacchiola, Tomasz Trzci\'nski, Przemys{\l}aw Spurek, Maciej Zi\k{e}ba(参考訳) ガウス過程(GP)は、多モード回帰、時系列予測、少数ショット学習を含む、関数上の分布をモデル化するために機械学習で広く使われている。 GPは正規分布に依存し、後続確率関数の閉形式計算を可能にするため、最後のアプリケーションでは特に有用である。 残念ながら、結果として生じる後部は複雑な分布を捉えるのに十分な柔軟性がないため、GPはその後のタスクと高い類似性を仮定する。 本研究では,GPの後方予測分布を変調するために正規化フローの柔軟性を活用することで,この制限に対処する。 したがって、GP は局所的に非ガウス過程(英語版)(Non-Gaussian Gaussian Processes,NGGPs)と呼ばれる。 より正確には、確率変数ベクトルの各成分上で動作し、それらのパラメータを全て共有する可逆 ode-based mapping を提案する。 我々はnggpsの柔軟性を多種多種多様なマイズショット学習回帰データセットで実証的に検証し,周期関数の異なるノイズレベルをモデル化するためにコンテキスト埋め込み情報を組み込むことができることを示した。 その結果,本手法はタスク間の問題構造を共有するが,文脈化により相似性への適応が可能となる。 NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れている。

Gaussian Processes (GPs) have been widely used in machine learning to model distributions over functions, with applications including multi-modal regression, time-series prediction, and few-shot learning. GPs are particularly useful in the last application since they rely on Normal distributions and enable closed-form computation of the posterior probability function. Unfortunately, because the resulting posterior is not flexible enough to capture complex distributions, GPs assume high similarity between subsequent tasks - a requirement rarely met in real-world conditions. In this work, we address this limitation by leveraging the flexibility of Normalizing Flows to modulate the posterior predictive distribution of the GP. This makes the GP posterior locally non-Gaussian, therefore we name our method Non-Gaussian Gaussian Processes (NGGPs). More precisely, we propose an invertible ODE-based mapping that operates on each component of the random variable vectors and shares the parameters across all of them. We empirically tested the flexibility of NGGPs on various few-shot learning regression datasets, showing that the mapping can incorporate context embedding information to model different noise levels for periodic functions. As a result, our method shares the structure of the problem between subsequent tasks, but the contextualization allows for adaptation to dissimilarities. NGGPs outperform the competing state-of-the-art approaches on a diversified set of benchmarks and applications.
翻訳日:2021-10-27 23:26:58 公開日:2021-10-26
# (参考訳) ペアワイド半グラフ判別:事前学習型グラフニューラルネットワークのための簡易グラフレベル自己教師戦略

Pairwise Half-graph Discrimination: A Simple Graph-level Self-supervised Strategy for Pre-training Graph Neural Networks ( http://arxiv.org/abs/2110.13567v1 )

ライセンス: CC BY 4.0
Pengyong Li, Jun Wang, Ziliang Li, Yixuan Qiao, Xianggen Liu, Fei Ma, Peng Gao, Seng Song, Guotong Xie(参考訳) 自己教師付き学習はグラフ表現学習の強力な技術として徐々に現れてきた。 しかし、グラフデータの転送可能、一般化、堅牢な表現学習は、グラフニューラルネットワークの事前学習にとって依然として課題である。 本稿では,グラフレベルでグラフニューラルネットワークを明示的に事前学習するPairwise Half-graph Discrimination(PHD)という,シンプルで効果的な自己教師付き事前学習戦略を提案する。 PHDは、2つの半グラフが同じソースから来ているかどうかを識別するための単純なバイナリ分類タスクとして設計されている。 実験により、PHDは13のグラフ分類タスクに匹敵するあるいは優れたパフォーマンスを提供する効果的な事前学習戦略であり、ノードレベルの戦略と組み合わせた場合の顕著な改善が示されている。 さらに、学習表現の可視化により、phd戦略が実際にモデルに分子足場のようなグラフレベルの知識を学ぶ力を与えていることが明らかとなった。 これらの結果は,グラフレベルの表現学習において,PHDを強力かつ効果的な自己教師型学習戦略として確立した。

Self-supervised learning has gradually emerged as a powerful technique for graph representation learning. However, transferable, generalizable, and robust representation learning on graph data still remains a challenge for pre-training graph neural networks. In this paper, we propose a simple and effective self-supervised pre-training strategy, named Pairwise Half-graph Discrimination (PHD), that explicitly pre-trains a graph neural network at graph-level. PHD is designed as a simple binary classification task to discriminate whether two half-graphs come from the same source. Experiments demonstrate that the PHD is an effective pre-training strategy that offers comparable or superior performance on 13 graph classification tasks compared with state-of-the-art strategies, and achieves notable improvements when combined with node-level strategies. Moreover, the visualization of learned representation revealed that PHD strategy indeed empowers the model to learn graph-level knowledge like the molecular scaffold. These results have established PHD as a powerful and effective self-supervised learning strategy in graph-level representation learning.
翻訳日:2021-10-27 23:08:32 公開日:2021-10-26
# (参考訳) パーソナリティ自動認識のための視聴覚行動からの認知過程の学習グラフ表現

Learning Graph Representation of Person-specific Cognitive Processes from Audio-visual Behaviours for Automatic Personality Recognition ( http://arxiv.org/abs/2110.13570v1 )

ライセンス: CC0 1.0
Siyang Song, Zilong Shao, Shashank Jaiswal, Linlin Shen, Michel Valstar and Hatice Gunes(参考訳) このアプローチは認知科学における2つの発見に基づいている。 一 人間の認知が表現行動の一部を部分的に決定し、真人格の特徴に直接関連していること。 (ii) 対話行動における個人の非言語行動は会話相手の行動に影響される。 この文脈では、ディヤド相互作用の間、対象者の顔面反応は、その内的(人固有の)認知過程と、会話相手の外部化された非言語的行動という2つの主要な要因によって駆動されると仮定する。 そこで本研究では,対話相手(話者)が提示する聴覚的非言語的手がかりを入力とし,対象者の表情反応を再現可能な,ユニークなアーキテクチャパラメータと深さを有する人固有のcnnアーキテクチャを用いて対象対象者(聞き手として定義)の個人別認知を表現することを提案する。 それぞれの人物固有のCNNは、ニューラルネットワーク探索(NAS)と新しい適応損失関数によって探索され、対象者の真の性格を認識するグラフ表現として表現される。 実験の結果, 生成したグラフ表現は, 人間と機械の対話シナリオにおいて対象者の性格特性とよく関連し, 既存のアプローチを著しく上回るだけでなく, 適応損失やエンド・ツー・エンドの頂点・エッジ特徴学習といった新しい手法が, より信頼性の高いパーソナリティ表現を学ぶ上で有効であることが示された。

This approach builds on two following findings in cognitive science: (i) human cognition partially determines expressed behaviour and is directly linked to true personality traits; and (ii) in dyadic interactions individuals' nonverbal behaviours are influenced by their conversational partner behaviours. In this context, we hypothesise that during a dyadic interaction, a target subject's facial reactions are driven by two main factors, i.e. their internal (person-specific) cognitive process, and the externalised nonverbal behaviours of their conversational partner. Consequently, we propose to represent the target subjects (defined as the listener) person-specific cognition in the form of a person-specific CNN architecture that has unique architectural parameters and depth, which takes audio-visual non-verbal cues displayed by the conversational partner (defined as the speaker) as input, and is able to reproduce the target subject's facial reactions. Each person-specific CNN is explored by the Neural Architecture Search (NAS) and a novel adaptive loss function, which is then represented as a graph representation for recognising the target subject's true personality. Experimental results not only show that the produced graph representations are well associated with target subjects' personality traits in both human-human and human-machine interaction scenarios, and outperform the existing approaches with significant advantages, but also demonstrate that the proposed novel strategies such as adaptive loss, and the end-to-end vertices/edges feature learning, help the proposed approach in learning more reliable personality representations.
翻訳日:2021-10-27 22:57:18 公開日:2021-10-26
# (参考訳) ユニットテスト生成のための自動サポート:チュートリアルブック

Automated Support for Unit Test Generation: A Tutorial Book Chapter ( http://arxiv.org/abs/2110.13575v1 )

ライセンス: CC BY 4.0
Afonso Fontes, Gregory Gay, Francisco Gomes de Oliveira Neto, Robert Feldt(参考訳) 単体テストはテストの段階であり、システムの他の部分(しばしばクラス)から独立してテストできる最小のコードのセグメントがテストされる。 単体テストは通常実行可能なコードとして書かれ、Pythonのpytestのようなユニットテストフレームワークが提供する形式で書かれる。 単体テストの作成は、多くの反復的な手動要素を持つ時間と労力のかかるプロセスです。 この章では、AIがユニットテストをどのようにサポートするかを説明するために、検索ベースのユニットテスト生成の概念を紹介します。 この手法は,テスト入力の選択を最適化問題として,テスト担当者の目標を測る一連のテストケースを求め,制限された時間枠内で可能なテストケースを識別するために,強力なメタヒューリスティック検索アルゴリズムを導出する。 この章では、ソースコードステートメントのカバレッジに合わせて、pytest形式のユニットテストを生成する2つのアルゴリズムを紹介します。 この章は、より高度な概念について議論し、人工知能がソフトウェアを単体テストするときに開発者とテスターをどのようにサポートするか、さらに読むための指針を与える。

Unit testing is a stage of testing where the smallest segment of code that can be tested in isolation from the rest of the system - often a class - is tested. Unit tests are typically written as executable code, often in a format provided by a unit testing framework such as pytest for Python. Creating unit tests is a time and effort-intensive process with many repetitive, manual elements. To illustrate how AI can support unit testing, this chapter introduces the concept of search-based unit test generation. This technique frames the selection of test input as an optimization problem - we seek a set of test cases that meet some measurable goal of a tester - and unleashes powerful metaheuristic search algorithms to identify the best possible test cases within a restricted timeframe. This chapter introduces two algorithms that can generate pytest-formatted unit tests, tuned towards coverage of source code statements. The chapter concludes by discussing more advanced concepts and gives pointers to further reading for how artificial intelligence can support developers and testers when unit testing software.
翻訳日:2021-10-27 22:53:48 公開日:2021-10-26
# (参考訳) 確率モデルに基づくポリシー探索によるロバスト制御の学習

Learning Robust Controllers Via Probabilistic Model-Based Policy Search ( http://arxiv.org/abs/2110.13576v1 )

ライセンス: CC BY 4.0
Valentin Charvet, Bj{\o}rn Sand Jensen, Roderick Murray-Smith(参考訳) モデルに基づく強化学習は、最適なポリシーを近似するために、世界モデルを通して真の環境を推定する。 このアルゴリズムの族は通常、モデルなしのアルゴリズムよりもサンプル効率が良い。 このような方法で学習したコントローラが、環境の小さな摂動の下で頑健で一般化できるかどうかを検討する。 我々の研究は、確率的ポリシー探索の手法であるPILCOアルゴリズムにインスパイアされている。 ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。 シミュレーションベンチマークにおいて,本手法の利点を実証した。

Model-based Reinforcement Learning estimates the true environment through a world model in order to approximate the optimal policy. This family of algorithms usually benefits from better sample efficiency than their model-free counterparts. We investigate whether controllers learned in such a way are robust and able to generalize under small perturbations of the environment. Our work is inspired by the PILCO algorithm, a method for probabilistic policy search. We show that enforcing a lower bound to the likelihood noise in the Gaussian Process dynamics model regularizes the policy updates and yields more robust controllers. We demonstrate the empirical benefits of our method in a simulation benchmark.
翻訳日:2021-10-27 22:23:47 公開日:2021-10-26
# (参考訳) 類似関数としてのReLUネットワークにおける勾配表現

Gradient representations in ReLU networks as similarity functions ( http://arxiv.org/abs/2110.13581v1 )

ライセンス: CC BY 4.0
D\'aniel R\'acz, B\'alint Dar\'oczy(参考訳) フィードフォワードネットワークは、最後の層のレベルで線形決定曲面を持つマッピングとして解釈できる。 本稿では,ReLU(Rectified Linear Unit)アクティベート時にネットワークの接点空間をどのように利用して決定を洗練させるかを検討する。 ネットワークのパラメータにパラメトリ化された単純なリーマン計量は、少なくとも元のネットワークと同等の類似度関数を形成し、類似度ギャップを増加させるためのスパース計量を提案する。

Feed-forward networks can be interpreted as mappings with linear decision surfaces at the level of the last layer. We investigate how the tangent space of the network can be exploited to refine the decision in case of ReLU (Rectified Linear Unit) activations. We show that a simple Riemannian metric parametrized on the parameters of the network forms a similarity function at least as good as the original network and we suggest a sparse metric to increase the similarity gap.
翻訳日:2021-10-27 22:15:41 公開日:2021-10-26
# (参考訳) EDLaaS - ニューラルネットワークグラフの完全同型暗号化

EDLaaS; Fully Homomorphic Encryption Over Neural Network Graphs ( http://arxiv.org/abs/2110.13638v1 )

ライセンス: CC BY-SA 4.0
George Onoufriou, Marc Hanheide, Georgios Leontidis(参考訳) ニューラルネットワーク推論のためのFHE(Fully Homomorphic Encryption)を自動パラメータ化する。 我々は、FHE互換ニューラルネットワークに対する推論を、我々のオープンソースフレームワークと再現可能なステップバイステップの例で提示し、実証する。 我々は,Microsoft Simple Encrypted Arithmetic Library (MS-SEAL)が提供する固定点上で,第4世代Cheon,Kim,Kim,Song (CKKS) FHE方式を使用する。 我々は、深層学習におけるFHEのユーザビリティと適用性を大幅に向上させ、構成グラフ、トラバース、最適化に焦点を当てた。 FHEは、プライバシ保護機械学習(PPML)のすべての問題に対するパナセアではなく、モデルトレーニングのような特定の制限がまだ残っていることが分かっています。 しかし、ある文脈では、FHEは完全にプライベートな予測をニューラルネットワークで計算するのに適している。 我々は、畳み込みニューラルネットワーク(CNN)、ファッションMNIST、およびレベル付きFHE操作に焦点を当てる。 機密性のある問題をプライベートに計算しやすくすると同時に、侵入障壁を低くする能力によって、過度に敏感なフィールドが、パフォーマンスのよいサードパーティのニューラルネットワークのアドバンテージとなる。 最後に、Agri-foodのセンシティブな現実世界問題に適用された暗号化されたディープラーニングと、これが食品の無駄に大きく影響し、多くのデータ共有を促進する方法を示す。

We present automatically parameterised Fully Homomorphic Encryption (FHE), for encrypted neural network inference. We present and exemplify our inference over FHE compatible neural networks with our own open-source framework and reproducible step-by-step examples. We use the 4th generation Cheon, Kim, Kim and Song (CKKS) FHE scheme over fixed points provided by the Microsoft Simple Encrypted Arithmetic Library (MS-SEAL). We significantly enhance the usability and applicability of FHE in deep learning contexts, with a focus on the constituent graphs, traversal, and optimisation. We find that FHE is not a panacea for all privacy preserving machine learning (PPML) problems, and that certain limitations still remain, such as model training. However we also find that in certain contexts FHE is well suited for computing completely private predictions with neural networks. We focus on convolutional neural networks (CNNs), fashion-MNIST, and levelled FHE operations. The ability to privately compute sensitive problems more easily, while lowering the barriers to entry, can allow otherwise too-sensitive fields to begin advantaging themselves of performant third-party neural networks. Lastly we show encrypted deep learning, applied to a sensitive real world problem in agri-food, and how this can have a large positive impact on food-waste and encourage much-needed data sharing.
翻訳日:2021-10-27 22:09:12 公開日:2021-10-26
# (参考訳) ディープラーニングを用いた全スライディング画像の腎細胞癌の高精度診断フレームワーク

A Precision Diagnostic Framework of Renal Cell Carcinoma on Whole-Slide Images using Deep Learning ( http://arxiv.org/abs/2110.13652v1 )

ライセンス: CC BY 4.0
Jialun Wu, Haichuan Zhang, Zeyu Gao, Xinrui Bao, Tieliang Gong, Chunbao Wang, and Chen Li(参考訳) がん診断の基礎と金の基準である診断病理学は、疾患の予後と臨床治療のための重要な証拠に関する重要な情報を提供する。 腎細胞癌 (RCC) の診断には, 腫瘍領域の検出, サブタイプ, グレード分類が重要である。 しかし,病理診断は主観的であり,診断能力が不十分な病院では観察と診断の違いが一般的である。 ディープラーニングベースのRCC診断システムを開発する上での大きな課題は、正確なアノテーションを備えた大規模データセットの欠如である。 本研究では,腎細胞癌患者の病理像を分析するための深層学習に基づく枠組みを提案する。 深層畳み込みニューラルネットワーク (inceptionv3) を, 癌領域検出, rccサブタイプの分類, 明細胞癌サブタイプのisupグレード分類のための, 癌ゲノムアトラス(tcga)全スライダー病理像の高品質な注釈付きデータセットで訓練した。 以上より, 病理組織学的手法は, 癌領域の検出やサブタイプ, 等級の分類に有用であり, 診断の補助や臨床コンセンサスの促進に有用であることが示唆された。

Diagnostic pathology, which is the basis and gold standard of cancer diagnosis, provides essential information on the prognosis of the disease and vital evidence for clinical treatment. Tumor region detection, subtype and grade classification are the fundamental diagnostic indicators for renal cell carcinoma (RCC) in whole-slide images (WSIs). However, pathological diagnosis is subjective, differences in observation and diagnosis between pathologists is common in hospitals with inadequate diagnostic capacity. The main challenge for developing deep learning based RCC diagnostic system is the lack of large-scale datasets with precise annotations. In this work, we proposed a deep learning-based framework for analyzing histopathological images of patients with renal cell carcinoma, which has the potential to achieve pathologist-level accuracy in diagnosis. A deep convolutional neural network (InceptionV3) was trained on the high-quality annotated dataset of The Cancer Genome Atlas (TCGA) whole-slide histopathological image for accurate tumor area detection, classification of RCC subtypes, and ISUP grades classification of clear cell carcinoma subtypes. These results suggest that our framework can help pathologists in the detection of cancer region and classification of subtypes and grades, which could be applied to any cancer type, providing auxiliary diagnosis and promoting clinical consensus.
翻訳日:2021-10-27 21:46:53 公開日:2021-10-26
# (参考訳) 小型ニューラルネットワークにおけるブートストラップの概念形成

Bootstrapping Concept Formation in Small Neural Networks ( http://arxiv.org/abs/2110.13665v1 )

ライセンス: CC BY 4.0
Minija Tamosiunaite, Tomas Kulvicius, and Florentin W\"org\"otter(参考訳) 人間の)神経系がどのように推論を行うのかという問題は、まだ解決されていない。 我々は、概念形成のプロセスがそれに必要な基本的なステップであると仮定する。 まず、概念は閉じた表現として形成され、それらを相互に関連付けることで統合される。 本稿では,現実的な学習ルールを用いて,エージェントが仮想動作を行う環境からのみフィードバックを受ける,小さなニューラルネットワークを用いたモデルシステム(エージェント)を提案する。 第一に、エージェントの作用は反射的である。 学習の過程において、入力の統計的規則性は、エージェントが人工世界から観察した実体間の関係を表すニューロンプールの形成に繋がる。 この情報は、これらの関係表現によって駆動されるアクションによって初期反射を置き換えるフィードバック接続を介してエージェントの挙動に影響を与える。 我々は、関係情報を表すニューロンプールは原始的な概念と見なすことができると仮定する。 このようなシステムは、概念を構成するものに関する議論の形式化に役立ち、人工的な協調システム構築の出発点となる。

The question how neural systems (of humans) can perform reasoning is still far from being solved. We posit that the process of forming Concepts is a fundamental step required for this. We argue that, first, Concepts are formed as closed representations, which are then consolidated by relating them to each other. Here we present a model system (agent) with a small neural network that uses realistic learning rules and receives only feedback from the environment in which the agent performs virtual actions. First, the actions of the agent are reflexive. In the process of learning, statistical regularities in the input lead to the formation of neuronal pools representing relations between the entities observed by the agent from its artificial world. This information then influences the behavior of the agent via feedback connections replacing the initial reflex by an action driven by these relational representations. We hypothesize that the neuronal pools representing relational information can be considered as primordial Concepts, which may in a similar way be present in some pre-linguistic animals, too. We argue that systems such as this can help formalizing the discussion about what constitutes Concepts and serve as a starting point for constructing artificial cogitating systems.
翻訳日:2021-10-27 21:30:27 公開日:2021-10-26
# (参考訳) W-Net: 病理組織像における核検出のための2段階畳み込みネットワーク

W-Net: A Two-Stage Convolutional Network for Nucleus Detection in Histopathology Image ( http://arxiv.org/abs/2110.13670v1 )

ライセンス: CC BY 4.0
Anyu Mao, Jialun Wu, Xinrui Bao, Zeyu Gao, Tieliang Gong, and Chen Li(参考訳) 病理診断はがん診断における金の標準であるが、特に細胞検出、分類、計数などのタスクが顕著である労働集約型である。 これらのタスクを自動化する一般的な解決策は、核セグメンテーション技術である。 しかし、いくつかの困難な問題、核の接着、積み重ね、背景との過剰な融合などにより、堅牢な核分節モデルの訓練は困難である。 近年、いくつかの研究者が点アノテーションに基づく一連の核セグメンテーション手法を提案し、モデルの性能を著しく向上させた。 それにもかかわらず、ポイントアノテーションは経験豊富な病理学者によってマークされる必要がある。 ポイントアノテーションに基づくセグメンテーション手法の活用,手作業負荷の軽減,がん診断の効率化と精度向上のためには,病理画像中の核の位置を自動的にかつ効率的に検出し,病理医に有用な情報を抽出する自動核検出アルゴリズムを開発する必要がある。 本稿では,核自動検出のためのW字型ネットワークを提案する。 従来のu-netベースの手法と異なり、元の病理像をターゲットマスクに直接マッピングすることで、提案手法では検出タスクを2つのサブタスクに分割した。 最初のサブタスクは元の病理画像をバイナリマスクにマッピングし、次にバイナリマスクを第2サブタスクの密度マスクにマッピングする。 タスクが分割された後、タスクの難易度が大幅に低下し、ネットワーク全体のパフォーマンスが向上する。

Pathological diagnosis is the gold standard for cancer diagnosis, but it is labor-intensive, in which tasks such as cell detection, classification, and counting are particularly prominent. A common solution for automating these tasks is using nucleus segmentation technology. However, it is hard to train a robust nucleus segmentation model, due to several challenging problems, the nucleus adhesion, stacking, and excessive fusion with the background. Recently, some researchers proposed a series of automatic nucleus segmentation methods based on point annotation, which can significant improve the model performance. Nevertheless, the point annotation needs to be marked by experienced pathologists. In order to take advantage of segmentation methods based on point annotation, further alleviate the manual workload, and make cancer diagnosis more efficient and accurate, it is necessary to develop an automatic nucleus detection algorithm, which can automatically and efficiently locate the position of the nucleus in the pathological image and extract valuable information for pathologists. In this paper, we propose a W-shaped network for automatic nucleus detection. Different from the traditional U-Net based method, mapping the original pathology image to the target mask directly, our proposed method split the detection task into two sub-tasks. The first sub-task maps the original pathology image to the binary mask, then the binary mask is mapped to the density mask in the second sub-task. After the task is split, the task's difficulty is significantly reduced, and the network's overall performance is improved.
翻訳日:2021-10-27 21:09:12 公開日:2021-10-26
# (参考訳) 多元異種データに基づくパーソナライズされた診断生成フレームワーク

A Personalized Diagnostic Generation Framework Based on Multi-source Heterogeneous Data ( http://arxiv.org/abs/2110.13677v1 )

ライセンス: CC BY 4.0
Jialun Wu, Zeyu Gao, Haichuan Zhang, Ruonan Zhang, Tieliang Gong, Chunbao Wang, and Chen Li(参考訳) 個人化された診断は、データ病理医が日々のルーチンで耐える必要があるため不可能である。 これは、新しい発見が報告されるにつれて継続的に更新される現在の一般的な標準につながります。 これらの有効な基準が, 全身スライダー画像, 病理, 臨床報告を含む多元異種データに基づいて開発されていることは明らかである。 本研究では,病理画像と医療報告を組み合わせることで,個別の患者に対してパーソナライズされた診断結果を生成する枠組みを提案する。 核レベルの画像特徴の類似性と内容に基づく深層学習法を用いて、類似した病理特徴を持つパーソナライズされた集団を探索し、類似した患者の記述的病理報告から構造化された予後情報を抽出し、異なる予後因子の重要性を割り当て、パーソナライズされた病理診断結果を生成する。 TCGA(The Cancer Genome Atlas)データベースからのマルチソース異種データを用いる。 その結果,腎細胞癌の診断における病理組織学的手法の有用性が一致した。 このフレームワークは汎用的に設計されており、他の種類のがんにも適用できる。 体重は既知の予後因子の洞察を与え、さらに正確な治療プロトコルを導くことができる。

Personalized diagnoses have not been possible due to sear amount of data pathologists have to bear during the day-to-day routine. This lead to the current generalized standards that are being continuously updated as new findings are reported. It is noticeable that these effective standards are developed based on a multi-source heterogeneous data, including whole-slide images and pathology and clinical reports. In this study, we propose a framework that combines pathological images and medical reports to generate a personalized diagnosis result for individual patient. We use nuclei-level image feature similarity and content-based deep learning method to search for a personalized group of population with similar pathological characteristics, extract structured prognostic information from descriptive pathology reports of the similar patient population, and assign importance of different prognostic factors to generate a personalized pathological diagnosis result. We use multi-source heterogeneous data from TCGA (The Cancer Genome Atlas) database. The result demonstrate that our framework matches the performance of pathologists in the diagnosis of renal cell carcinoma. This framework is designed to be generic, thus could be applied for other types of cancer. The weights could provide insights to the known prognostic factors and further guide more precise clinical treatment protocols.
翻訳日:2021-10-27 20:55:12 公開日:2021-10-26
# (参考訳) BioIE:マルチヘッドアテンション強化グラフ畳み込みネットワークを用いた生体情報抽出

BioIE: Biomedical Information Extraction with Multi-head Attention Enhanced Graph Convolutional Network ( http://arxiv.org/abs/2110.13683v1 )

ライセンス: CC BY 4.0
Jialun Wu, Yang Liu, Zeyu Gao, Tieliang Gong, Chunbao Wang and Chen Li(参考訳) 大規模医療知識グラフの構築は、医療監視のための医療応用を著しく向上させる可能性がある。 大規模MKGの構築における重要なステップは、医療報告から情報を抽出することである。 近年,情報抽出技術が提案され,生体情報抽出において有望な性能を示した。 しかし,これらの手法は,複雑な実体相関を持つノイズの多いバイオメディカルテキストデータにより,限られた種類の実体と関係性しか考慮しない。 したがって、MKGの構築や下流アプリケーションを制限するのに十分な情報を提供していない。 本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。 本モデルでは,マルチヘッド注意強化グラフ畳み込みネットワークを用いて,データからの雑音に抵抗しながら複雑な関係と文脈情報をキャプチャする。 本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。 その結果,本手法はベースラインよりも優れた性能を示した。 さらに,移動学習環境下での本手法の適用性を評価し,BioIEが様々な書式や書体から医療用テキストを処理する上で有望な性能を発揮することを示す。

Constructing large-scaled medical knowledge graphs can significantly boost healthcare applications for medical surveillance, bring much attention from recent research. An essential step in constructing large-scale MKG is extracting information from medical reports. Recently, information extraction techniques have been proposed and show promising performance in biomedical information extraction. However, these methods only consider limited types of entity and relation due to the noisy biomedical text data with complex entity correlations. Thus, they fail to provide enough information for constructing MKGs and restrict the downstream applications. To address this issue, we propose Biomedical Information Extraction, a hybrid neural network to extract relations from biomedical text and unstructured medical reports. Our model utilizes a multi-head attention enhanced graph convolutional network to capture the complex relations and context information while resisting the noise from the data. We evaluate our model on two major biomedical relationship extraction tasks, chemical-disease relation and chemical-protein interaction, and a cross-hospital pan-cancer pathology report corpus. The results show that our method achieves superior performance than baselines. Furthermore, we evaluate the applicability of our method under a transfer learning setting and show that BioIE achieves promising performance in processing medical text from different formats and writing styles.
翻訳日:2021-10-27 20:39:22 公開日:2021-10-26
# (参考訳) 因果関係を有する議論における暗黙の推論

Annotating Implicit Reasoning in Arguments with Causal Links ( http://arxiv.org/abs/2110.13692v1 )

ライセンス: CC BY 4.0
Keshav Singh, Naoya Inoue, Farjana Sultana Mim, Shoichi Naitoh and Kentaro Inui(参考訳) 議論における暗黙の知識の同定に焦点を当てた既存の研究の多くは、一般的に、常識や事実の知識という形で暗黙の知識を表す。 しかし、そのような知識は個々の議論的要素(すなわちクレームと前提)の間の暗黙の推論リンクを理解するのに十分ではない。 本研究では,議論中の推論リンクを理解するのに役立つ議論知識の形で,暗黙の知識を識別することに焦点を当てる。 本稿では, 因果関係による議論における暗黙的推論を明示する議論知識を表現するための, 半構造化テンプレートを提案する。 簡易なガイドラインを用いた新しい2段階アノテーションプロセスを作成し,クラウドソーシングによる高品質な暗黙的推論の収集とフィルタリング方法を示す。 専門家間の品質評価について,実質的なアノテータ間の合意が得られたが,クラウドソーシングプロセスを通じて,高品質な半構造的暗黙的推論を収集できる可能性について,いくつかの疑問を投げかける証拠が見つかった。 我々は,議論知識の構造化表現に向けたさらなる研究を促進するために,資料(クラウドソーシングガイドラインと暗黙的推論)をリリースする。

Most of the existing work that focus on the identification of implicit knowledge in arguments generally represent implicit knowledge in the form of commonsense or factual knowledge. However, such knowledge is not sufficient to understand the implicit reasoning link between individual argumentative components (i.e., claim and premise). In this work, we focus on identifying the implicit knowledge in the form of argumentation knowledge which can help in understanding the reasoning link in arguments. Being inspired by the Argument from Consequences scheme, we propose a semi-structured template to represent such argumentation knowledge that explicates the implicit reasoning in arguments via causality. We create a novel two-phase annotation process with simplified guidelines and show how to collect and filter high-quality implicit reasonings via crowdsourcing. We find substantial inter-annotator agreement for quality evaluation between experts, but find evidence that casts a few questions on the feasibility of collecting high-quality semi-structured implicit reasoning through our crowdsourcing process. We release our materials(i.e., crowdsourcing guidelines and collected implicit reasonings) to facilitate further research towards the structured representation of argumentation knowledge.
翻訳日:2021-10-27 20:21:43 公開日:2021-10-26
# (参考訳) 海上監視のための水平検出アルゴリズム

A Horizon Detection Algorithm for Maritime Surveillance ( http://arxiv.org/abs/2110.13694v1 )

ライセンス: CC BY 4.0
Yassir Zardoua, Astito Abdelali, Boulaala Mohammed(参考訳) 地平線は他の特徴(海岸の角、波など)と比較して高い持続性を持つため、海洋環境において貴重な特徴である。 様々な用途、特に海上監視に用いられている。 地平線検出の作業は人間にとって容易であるが,海洋環境における色やテクスチャの変化が大きいため,コンピュータでは困難である。 さらに、計算複雑性はアルゴリズムの開発において考慮すべき重要な制約である。 本稿では,最先端技術の向上を期待する新しい手法を提案する。

The horizon line is a valuable feature in the maritime environment as it has a high persistence when compared to other features (e.g., shore corners, waves). It is used in several applications, especially in maritime surveillance. The task of horizon detection may be easy for humans, but it is hard on computers due to the high change of color and texture on maritime scenes. Moreover, the computational complexity is an important constraint to take into account while developing the algorithm. In this paper, we propose a new method that we expect to enhance the state-of-the-art.
翻訳日:2021-10-27 20:11:17 公開日:2021-10-26
# (参考訳) dasentimental:感情リコール、認知ネットワーク、機械学習によるテキスト中の抑うつ、不安、ストレスの検出

DASentimental: Detecting depression, anxiety and stress in texts via emotional recall, cognitive networks and machine learning ( http://arxiv.org/abs/2110.13710v1 )

ライセンス: CC BY 4.0
Asra Fatima, Li Ying, Thomas Hills and Massimo Stella(参考訳) 現在の影響尺度や文章の感情分析のほとんどは、感情の最も重要な次元である価(感性)の定量化に重点を置いている。 しかし、感情は原子価よりも広く複雑である。 類似の原子価による否定的な感情の排除は、メンタルヘルスのような文脈において重要である。 本稿では,文章から抑うつ,不安,ストレスを抽出する半教師付き機械学習モデル(DASentimental)を提案する。 まず,抑うつ不安ストレス尺度 (DASS-21) に対する反応と,N=200$の個人によるリコール感情単語のシーケンスがどのように相関しているかを学習した。 コグニティブ・ネットワーク・サイエンスの枠組みでは、リコールされた感情のすべてのリストを、人の記憶の自由な関連によって接続された感情と、意味記憶のネットワーク化された精神的表現のウォークとしてモデル化する。 テストされた機械学習アプローチのうち、単語シーケンスとセマンティックネットワーク距離に基づいてトレーニングされた多層パーセプトロンニューラルネットワークは、うつ病(R = 0.7$)、不安(R = 0.44$)、ストレス(R = 0.52$)の最先端、クロスバリデーション予測を実現することができる。 サンプルサイズによって制限されているが、この第一種アプローチは、DASレベルの背後にある重要な意味的次元の定量的な探索を可能にする。 想起された感情と「サド・ハッピー」のセマンティックな距離はうつ病レベルを推定する上で重要な特徴であるが、不安やストレスには重要でない。 また,"fear"からのリコールの意味的距離は不安の予測を増加させるが,"sad-happy"ダイナドを考慮すれば冗長になることがわかった。 半教師付き学習ツールとしてDASentimentalを用いてテキスト中のDASを推定し,142の自殺ノートのデータセットに適用する。 我々は、人工知能がストレス、不安、抑うつを検出できる将来の研究の鍵となる方向性について論じる。

Most current affect scales and sentiment analysis on written text focus on quantifying valence (sentiment) -- the most primary dimension of emotion. However, emotions are broader and more complex than valence. Distinguishing negative emotions of similar valence could be important in contexts such as mental health. This project proposes a semi-supervised machine learning model (DASentimental) to extract depression, anxiety and stress from written text. First, we trained the model to spot how sequences of recalled emotion words by $N=200$ individuals correlated with their responses to the Depression Anxiety Stress Scale (DASS-21). Within the framework of cognitive network science, we model every list of recalled emotions as a walk over a networked mental representation of semantic memory, with emotions connected according to free associations in people's memory. Among several tested machine learning approaches, we find that a multilayer perceptron neural network trained on word sequences and semantic network distances can achieve state-of-art, cross-validated predictions for depression ($R = 0.7$), anxiety ($R = 0.44$) and stress ($R = 0.52$). Though limited by sample size, this first-of-its-kind approach enables quantitative explorations of key semantic dimensions behind DAS levels. We find that semantic distances between recalled emotions and the dyad "sad-happy" are crucial features for estimating depression levels but are less important for anxiety and stress. We also find that semantic distance of recalls from "fear" can boost the prediction of anxiety but it becomes redundant when the "sad-happy" dyad is considered. Adopting DASentimental as a semi-supervised learning tool to estimate DAS in text, we apply it to a dataset of 142 suicide notes. We conclude by discussing key directions for future research enabled by artificial intelligence detecting stress, anxiety and depression.
翻訳日:2021-10-27 20:06:02 公開日:2021-10-26
# (参考訳) YOLO-ReT:エッジGPUにおける高精度リアルタイムオブジェクト検出を目指して

YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs ( http://arxiv.org/abs/2110.13713v1 )

ライセンス: CC BY 4.0
Prakhar Ganesh, Yao Chen, Yin Yang, Deming Chen, Marianne Winslett(参考訳) オブジェクト検出モデルの性能は、モデル精度と効率の2つの主要な面で急速に向上している。 しかし、ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、そのようなモデルを大幅に圧縮する必要があるため、モデルの精度が向上する。 本稿では,既存手法における様々な特徴尺度間の組合せ接続の欠如を利用して,マルチスケール機能インタラクションのためのエッジgpuフレンドリなモジュールを提案する。 さらに,様々なタスクにまたがる翻訳情報の流れの変化に触発されて,機能インタラクションモジュールを補完し,市場で利用可能なさまざまなエッジgpuデバイス上での精度と実行速度を両立させる,新しいトランスファーラーニングバックボーンを提案する。 例えば、MobileNetV2x0.75バックボーンのYOLO-ReTはJetson Nanoでリアルタイムに動作し、Pascal VOCで68.75 mAP、COCOで34.91 mAPを達成し、それぞれ3.05 mAPと0.91 mAPを上回り、高速に実行している。 さらに, YOLOv4-tiny と YOLOv4-tiny (3l) のマルチスケール機能相互作用モジュールの導入により, COCO 上での 41.5 と 48.1 mAP のパフォーマンスが向上し, オリジナルバージョンよりも 1.3 と 0.9 mAP が向上した。

Performance of object detection models has been growing rapidly on two major fronts, model accuracy and efficiency. However, in order to map deep neural network (DNN) based object detection models to edge devices, one typically needs to compress such models significantly, thus compromising the model accuracy. In this paper, we propose a novel edge GPU friendly module for multi-scale feature interaction by exploiting missing combinatorial connections between various feature scales in existing state-of-the-art methods. Additionally, we propose a novel transfer learning backbone adoption inspired by the changing translational information flow across various tasks, designed to complement our feature interaction module and together improve both accuracy as well as execution speed on various edge GPU devices available in the market. For instance, YOLO-ReT with MobileNetV2x0.75 backbone runs real-time on Jetson Nano, and achieves 68.75 mAP on Pascal VOC and 34.91 mAP on COCO, beating its peers by 3.05 mAP and 0.91 mAP respectively, while executing faster by 3.05 FPS. Furthermore, introducing our multi-scale feature interaction module in YOLOv4-tiny and YOLOv4-tiny (3l) improves their performance to 41.5 and 48.1 mAP respectively on COCO, outperforming the original versions by 1.3 and 0.9 mAP.
翻訳日:2021-10-27 19:48:28 公開日:2021-10-26
# (参考訳) ConE: 知識グラフ上のマルチホップ推論のためのコーン埋め込み

ConE: Cone Embeddings for Multi-Hop Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2110.13715v1 )

ライセンス: CC BY 4.0
Zhanqiu Zhang, Jie Wang, Jiajun Chen, Shuiwang Ji, Feng Wu(参考訳) 低次元空間にエンティティと一階論理的(FOL)クエリを埋め込むことを目的としたクエリ埋め込み(QE)は、知識グラフに対するマルチホップ推論において大きな力を示している。 近年、幾何学的形状の要素やクエリが有望な方向となり、幾何学的形状は問合せの解集合やそれらの間の論理的関係を自然に表現することができる。 しかし、既存の幾何モデルでは否定を伴うクエリのモデリングが困難であり、適用性が著しく制限されている。 この課題に対処するために,コラボレーション,切断,否定を含むすべてのfol操作を処理できる最初の幾何学ベースのqeモデルである,コーン埋め込み(conne embeddeds,cone)という新しいクエリ埋め込みモデルを提案する。 具体的には、コーンは2次元円錐の直交積として実体とクエリを表し、円錐の交叉と結合は自然に結合と連結演算をモデル化する。 さらにコーンの補集合の閉包がコーンであることに気付くことにより、ネゲーション演算の埋め込み空間における幾何学的補作用素を設計する。 実験により、ConEは既存の最先端メソッドをベンチマークデータセットで大幅に上回っていることが示された。

Query embedding (QE) -- which aims to embed entities and first-order logical (FOL) queries in low-dimensional spaces -- has shown great power in multi-hop reasoning over knowledge graphs. Recently, embedding entities and queries with geometric shapes becomes a promising direction, as geometric shapes can naturally represent answer sets of queries and logical relationships among them. However, existing geometry-based models have difficulty in modeling queries with negation, which significantly limits their applicability. To address this challenge, we propose a novel query embedding model, namely Cone Embeddings (ConE), which is the first geometry-based QE model that can handle all the FOL operations, including conjunction, disjunction, and negation. Specifically, ConE represents entities and queries as Cartesian products of two-dimensional cones, where the intersection and union of cones naturally model the conjunction and disjunction operations. By further noticing that the closure of complement of cones remains cones, we design geometric complement operators in the embedding space for the negation operations. Experiments demonstrate that ConE significantly outperforms existing state-of-the-art methods on benchmark datasets.
翻訳日:2021-10-27 19:30:31 公開日:2021-10-26
# (参考訳) HIST:マイニングコンセプト指向共有情報による株価トレンド予測のためのグラフベースのフレームワーク

HIST: A Graph-based Framework for Stock Trend Forecasting via Mining Concept-Oriented Shared Information ( http://arxiv.org/abs/2110.13716v1 )

ライセンス: CC BY 4.0
Wentao Xu, Weiqing Liu, Lewen Wang, Yingce Xia, Jiang Bian, Jian Yin, Tie-Yan Liu(参考訳) 株価の将来のトレンドを予測する株価予測は、投資において重要な役割を果たす。 市場の株価は情報を共有することができ、株価が極めて相関している。 近年,Webから抽出したストックコンセプト(技術,インターネット小売など)を用いて共有情報をマイニングし,予測結果を改善する手法が提案されている。 しかし、以前の研究では、株と概念のつながりは定常であり、株と概念のダイナミックな関連性を無視し、予測結果を制限している。 さらに,既存手法は,手動で定義した株式概念を超えて,株式の共通性を計測する,隠蔽概念が持つ貴重な共有情報を見落としている。 先行研究の欠点を克服するために,概念指向の共有情報を,事前定義された概念と隠れた概念から適切にマイニングできる,新たな株価トレンド予測フレームワークを提案する。 提案手法は,株の共有情報と個別情報とを併用して株価トレンド予測性能を向上させる。 実世界の課題に対する実験結果から,ストックトレンド予測におけるフレームワークの有効性が示された。 投資シミュレーションは、我々のフレームワークがベースラインよりも高い投資リターンを達成することを示す。

Stock trend forecasting, which forecasts stock prices' future trends, plays an essential role in investment. The stocks in a market can share information so that their stock prices are highly correlated. Several methods were recently proposed to mine the shared information through stock concepts (e.g., technology, Internet Retail) extracted from the Web to improve the forecasting results. However, previous work assumes the connections between stocks and concepts are stationary, and neglects the dynamic relevance between stocks and concepts, limiting the forecasting results. Moreover, existing methods overlook the invaluable shared information carried by hidden concepts, which measure stocks' commonness beyond the manually defined stock concepts. To overcome the shortcomings of previous work, we proposed a novel stock trend forecasting framework that can adequately mine the concept-oriented shared information from predefined concepts and hidden concepts. The proposed framework simultaneously utilize the stock's shared information and individual information to improve the stock trend forecasting performance. Experimental results on the real-world tasks demonstrate the efficiency of our framework on stock trend forecasting. The investment simulation shows that our framework can achieve a higher investment return than the baselines.
翻訳日:2021-10-27 19:03:46 公開日:2021-10-26
# (参考訳) エンドツーエンド分子特性予測のための幾何学変換器

Geometric Transformer for End-to-End Molecule Properties Prediction ( http://arxiv.org/abs/2110.13721v1 )

ライセンス: CC BY 4.0
Yoni Choukroun and Lior Wolf(参考訳) トランスフォーマーは、要素間の複雑な相互作用を表現する能力のおかげで、多くのアプリケーションで選択の方法となっている。 しかし、Transformerアーキテクチャを分子などの非逐次データに拡張し、小さなデータセットでのトレーニングを可能にすることは依然として課題である。 本稿では,分子の幾何構造を捉えることができる分子特性予測のためのトランスフォーマーアーキテクチャを提案する。 分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。 さらに,オーバーパラメータ化アーキテクチャによって引き起こされる過剰フィッティングを回避できる分子データの拡張手法を提案する。 提案手法は、純粋機械学習のみをベースにした最先端の手法よりも優れており、量子化学の分野知識を取り入れておらず、原子距離の両側に拡張された幾何学的入力を使用しない。

Transformers have become methods of choice in many applications thanks to their ability to represent complex interaction between elements. However, extending the Transformer architecture to non-sequential data such as molecules and enabling its training on small datasets remain a challenge. In this work, we introduce a Transformer-based architecture for molecule property prediction, which is able to capture the geometry of the molecule. We modify the classical positional encoder by an initial encoding of the molecule geometry, as well as a learned gated self-attention mechanism. We further suggest an augmentation scheme for molecular data capable of avoiding the overfitting induced by the overparameterized architecture. The proposed framework outperforms the state-of-the-art methods while being based on pure machine learning solely, i.e. the method does not incorporate domain knowledge from quantum chemistry and does not use extended geometric inputs beside the pairwise atomic distances.
翻訳日:2021-10-27 18:46:45 公開日:2021-10-26
# (参考訳) ヘテロジニアスデータセットを用いた心拍検出のためのディープラーニングモデルの有効性向上

Improving the efficacy of Deep Learning models for Heart Beat detection on heterogeneous datasets ( http://arxiv.org/abs/2110.13732v1 )

ライセンス: CC BY 4.0
Andrea Bizzego, Giulio Gabrieli, Michelle Jin-Yee Neoh and Gianluca Esposito(参考訳) 深層学習(DL)は生体電気信号処理、特に生理的マーカーの抽出に大きく貢献している。 しかし、文献で提案された結果の有効性と適用性は、しばしばモデルを訓練するために使用されるデータによって表される人口に制限される。 本研究では,異種データセットにDLモデルを適用する際の問題点について検討する。 特に心電図信号(ECG)から心拍を検出することで、心疾患患者や異なる装置で収集した信号に適用した場合、健常者からのデータに基づいてトレーニングしたモデルの性能が低下することを示す。 次に、異なるデータセットにモデルを適応させるために、Transfer Learning(TL)の使用を評価します。 特に,サンプルサイズが小さいデータセットであっても,分類性能が向上していることを示す。 これらの結果は, 生体電気信号に適用したdlモデルの一般化可能性, 特に代表データセットの検索において, さらなる努力が必要であることを示唆する。

Deep Learning (DL) have greatly contributed to bioelectric signals processing, in particular to extract physiological markers. However, the efficacy and applicability of the results proposed in the literature is often constrained to the population represented by the data used to train the models. In this study, we investigate the issues related to applying a DL model on heterogeneous datasets. In particular, by focusing on heart beat detection from Electrocardiogram signals (ECG), we show that the performance of a model trained on data from healthy subjects decreases when applied to patients with cardiac conditions and to signals collected with different devices. We then evaluate the use of Transfer Learning (TL) to adapt the model to the different datasets. In particular, we show that the classification performance is improved, even with datasets with a small sample size. These results suggest that a greater effort should be made towards generalizability of DL models applied on bioelectric signals, in particular by retrieving more representative datasets.
翻訳日:2021-10-27 18:34:24 公開日:2021-10-26
# (参考訳) ハーミング精度のない深層不確かさ推定

Disrupting Deep Uncertainty Estimation Without Harming Accuracy ( http://arxiv.org/abs/2110.13741v1 )

ライセンス: CC BY 4.0
Ido Galil, Ran El-Yaniv(参考訳) ディープニューラルネットワーク(dnn)は強力な予測器であり、様々なタスクに広く使われている。 しかし、その予測の信頼できる不確実性は、多くのリスクに敏感なアプリケーションへのデプロイに不可欠である。 本稿では,敵の攻撃と異なり,誤った予測を起こさず,ネットワークの不確実性推定能力に支障をきたす,新しい単純な攻撃を提案する。 その結果、攻撃後、DNNは正確さを低下させることなく、正しい予測よりも誤った予測を確信している。 攻撃の2つのバージョンを示す。 第1のシナリオはブラックボックスシステム(攻撃者はターゲットネットワークを知らない)に焦点を当て、第2のシナリオはホワイトボックス設定を攻撃します。 提案した攻撃は、重大な不確実性推定損傷を引き起こすために、その摂動の最小等級しか必要としないが、大きめの攻撃は、完全に使用不能な不確実性推定をもたらす。 我々は,バニラソフトマックススコア,ディープアンサンブル,MC-Dropoutの3つの最も一般的な不確実性評価手法に対する攻撃に成功した。 さらに,選択的分類アーキテクチャであるselectivenetへの攻撃を示す。 我々は,MobileNetV2 や EfficientNetB0 など,複数の現代的なアーキテクチャに対する攻撃をテストした。

Deep neural networks (DNNs) have proven to be powerful predictors and are widely used for various tasks. Credible uncertainty estimation of their predictions, however, is crucial for their deployment in many risk-sensitive applications. In this paper we present a novel and simple attack, which unlike adversarial attacks, does not cause incorrect predictions but instead cripples the network's capacity for uncertainty estimation. The result is that after the attack, the DNN is more confident of its incorrect predictions than about its correct ones without having its accuracy reduced. We present two versions of the attack. The first scenario focuses on a black-box regime (where the attacker has no knowledge of the target network) and the second scenario attacks a white-box setting. The proposed attack is only required to be of minuscule magnitude for its perturbations to cause severe uncertainty estimation damage, with larger magnitudes resulting in completely unusable uncertainty estimations. We demonstrate successful attacks on three of the most popular uncertainty estimation methods: the vanilla softmax score, Deep Ensembles and MC-Dropout. Additionally, we show an attack on SelectiveNet, the selective classification architecture. We test the proposed attack on several contemporary architectures such as MobileNetV2 and EfficientNetB0, all trained to classify ImageNet.
翻訳日:2021-10-27 18:23:34 公開日:2021-10-26
# (参考訳) ラプラス混合モデルによる点集合のロバスト多視点登録

Robust Multi-view Registration of Point Sets with Laplacian Mixture Model ( http://arxiv.org/abs/2110.13744v1 )

ライセンス: CC BY 4.0
Jin Zhang, Mingyang Zhao, Xin Jiang and Dong-Ming Yan(参考訳) ポイントセット登録は、3D再構成やSLAMといった多くのコンピュータビジョンアプリケーションにおいて重要なステップである。 異なる目的のための登録アルゴリズムは数多く存在するが、重騒音や異常汚染など、様々な現実世界のシナリオの複雑さが増すため、この話題は依然として困難である。 本論文では,重み付きラプラシアン分布に基づく複数点集合を同時に整列する新しい確率的生成法を提案する。 提案手法では,各データポイントはラプラス混合モデル(LMM)によって生成され,その中心は他の点集合の対応する点によって決定される。 ガウス確率密度の点と中心の間の2次距離を最小化するガウス混合モデル(GMM)に基づく従来の手法とは異なり、LMMはスパーシリティによって誘導されるL1距離を最小化し、ノイズや外れ値に対してより堅牢である。 我々は,LMMパラメータと剛性変換を解くために,期待最大化(EM)フレームワークを採用する。 我々は、L1最適化をリー代数の指数写像による線形計画問題として近似し、内部点法により効果的に解ける。 また,効率向上のために,alternating Direction Multiplier Method (ADMM) によるL1最適化も行う。 本手法の利点を,ロバスト性と正確性の観点から,データ集合のベンチマークにおける代表的な手法と比較することで実証する。

Point set registration is an essential step in many computer vision applications, such as 3D reconstruction and SLAM. Although there exist many registration algorithms for different purposes, however, this topic is still challenging due to the increasing complexity of various real-world scenarios, such as heavy noise and outlier contamination. In this paper, we propose a novel probabilistic generative method to simultaneously align multiple point sets based on the heavy-tailed Laplacian distribution. The proposed method assumes each data point is generated by a Laplacian Mixture Model (LMM), where its centers are determined by the corresponding points in other point sets. Different from the previous Gaussian Mixture Model (GMM) based method, which minimizes the quadratic distance between points and centers of Gaussian probability density, LMM minimizes the sparsity-induced L1 distance, thereby it is more robust against noise and outliers. We adopt Expectation-Maximization (EM) framework to solve LMM parameters and rigid transformations. We approximate the L1 optimization as a linear programming problem by exponential mapping in Lie algebra, which can be effectively solved through the interior point method. To improve efficiency, we also solve the L1 optimization by Alternating Direction Multiplier Method (ADMM). We demonstrate the advantages of our method by comparing it with representative state-of-the-art approaches on benchmark challenging data sets, in terms of robustness and accuracy.
翻訳日:2021-10-27 18:05:08 公開日:2021-10-26
# (参考訳) クリーンデータを用いない前処理レーザー誘起破壊分光信号の学習

Learning to Pre-process Laser Induced Breakdown Spectroscopy Signals Without Clean Data ( http://arxiv.org/abs/2110.13748v1 )

ライセンス: CC BY 4.0
Juan Castorena and Diane Oyen(参考訳) 本研究は, レーザー誘起分解分光法(LIBS)信号の浄化を, 悪質な生測値のみを用いて行うことができるかどうかを検証した。 この問題に対する我々の見解は、LIBSデータと提案した学習定式化の膨大な冗長性を活用することにより、興味の対象が(非ゼロ平均の)ニュアンス要因からの影響を逸脱することを考える。 これは、ターゲットの繰り返し測定ビュー間の一貫性を促進すると同時に、機器の歴史を通して取られた他のすべてのlibs測定とのコンピテンシーも同時に排除することを目的としている。 火星探査機キュリオシティに搭載されたChemCamの実際のデータによる評価は、ChemCamチームが使用している標準手法と比較して、LIBS信号のクリーニングにおいて優れた性能を示している。

This work tests whether deep neural networks can clean laser induced breakdown spectroscopy (LIBS) signals by using only uncleaned raw measurements. Our view of this problem considers a disentanglement of the effects of the target of interest from those of the nuisance factors (with non-zero mean) by leveraging the vast amounts of redundancies in LIBS data and our proposed learning formulation. This later aims at promoting consistency between repeated measurement views of a target while simultaneously removing consistencies with all other LIBS measurements taken throughout the history of the instrument. Evaluations on real data from the ChemCam instrument onboard the Martian Curiosity rover show a superior performance in cleaning LIBS signals compared to the standard approaches being used by the ChemCam team.
翻訳日:2021-10-27 17:51:56 公開日:2021-10-26
# (参考訳) SGLDにおける異方性雑音による情報理論一般化境界の最適化

Optimizing Information-theoretical Generalization Bounds via Anisotropic Noise in SGLD ( http://arxiv.org/abs/2110.13750v1 )

ライセンス: CC BY 4.0
Bohan Wang, Huishuai Zhang, Jieyu Zhang, Qi Meng, Wei Chen, Tie-Yan Liu(参考訳) 近年、情報理論の枠組みは、SGLD(Stochastic Gradient Langevin Dynamics)によって訓練された大きなモデルに対して、等方性雑音を伴う非空一般化境界が得られることが証明されている。 本稿では,SGLDにおける雑音構造を操作することにより,情報理論の一般化を最適化する。 実験的リスクを低く抑えるために制約を課すことで、前と後の両方が共同最適化された場合、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。 これは、最適雑音が経験的勾配共分散にかなり近いことを検証する。 技術的には、そのような最適化分析を可能にする新しい情報理論境界を開発する。 次に、最適雑音共分散の形式を導出するために行列解析を適用する。 提示された制約と結果は経験的観察によって検証される。

Recently, the information-theoretical framework has been proven to be able to obtain non-vacuous generalization bounds for large models trained by Stochastic Gradient Langevin Dynamics (SGLD) with isotropic noise. In this paper, we optimize the information-theoretical generalization bound by manipulating the noise structure in SGLD. We prove that with constraint to guarantee low empirical risk, the optimal noise covariance is the square root of the expected gradient covariance if both the prior and the posterior are jointly optimized. This validates that the optimal noise is quite close to the empirical gradient covariance. Technically, we develop a new information-theoretical bound that enables such an optimization analysis. We then apply matrix analysis to derive the form of optimal noise covariance. Presented constraint and results are validated by the empirical observations.
翻訳日:2021-10-27 17:43:24 公開日:2021-10-26
# (参考訳) DPCOVID:プライバシー保護のコビッドウイルス検出

DPCOVID: Privacy-Preserving Federated Covid-19 Detection ( http://arxiv.org/abs/2110.13760v1 )

ライセンス: CC BY 4.0
Trang-Thi Ho, Yennun-Huang(参考訳) コロナウイルス(COVID-19)は、世界経済と健康に対する有害な影響により、前例のない世界的な危機を経験している。 新型コロナウイルスの感染者は急速に増えており、停止の兆しはない。 これにより、テストキットと正確な検出モデルが大幅に不足する。 最近の研究では、胸部X線X線撮影は、新型コロナウイルス検出実験より優れていることが示されている。 したがって、胸部x線レントゲン分析は、新型コロナウイルスの疑いのある患者を早期に発見するのに役立つ。 さらに、患者データはセンシティブであり、悪意のある攻撃者からのモデル更新や再構築による暴露を避けるために保護されなければならない。 本稿では,胸部X線画像に基づく新型コロナウイルス検出のためのプライバシ保護フェデレーション学習システムを提案する。 まず,胸部X線画像からフェデレート学習システムを構築する。 主なアイデアは、複数の病院にまたがって、病院間でデータを共有せずに分散モデルを構築することだ。 第2に、covid-19識別のための連合学習の精度は、非iidデータにおいて著しく低下することを示した。 次に、クライアントの総数、並列性(クライアント数)、クライアント毎の計算量を増やすことにより、非IID COVID-19データのモデル精度を向上させる戦略を提案する。 最後に,差分プライバシ確率勾配勾配勾配(dp-sgd)を適用し,連合学習モデルにおける患者データプライバシの保存性を高める。 モデルの安全性と正確性を保証するために、連合学習の堅牢性を維持するための戦略も提案されている。

Coronavirus (COVID-19) has shown an unprecedented global crisis by the detrimental effect on the global economy and health. The number of COVID-19 cases has been rapidly increasing, and there is no sign of stopping. It leads to a severe shortage of test kits and accurate detection models. A recent study demonstrated that the chest X-ray radiography outperformed laboratory testing in COVID-19 detection. Therefore, using chest X-ray radiography analysis can help to screen suspected COVID-19 cases at an early stage. Moreover, the patient data is sensitive, and it must be protected to avoid revealing through model updates and reconstruction from the malicious attacker. In this paper, we present a privacy-preserving Federated Learning system for COVID-19 detection based on chest X-ray images. First, a Federated Learning system is constructed from chest X-ray images. The main idea is to build a decentralized model across multiple hospitals without sharing data among hospitals. Second, we first show that the accuracy of Federated Learning for COVID-19 identification reduces significantly for Non-IID data. We then propose a strategy to improve model's accuracy on Non-IID COVID-19 data by increasing the total number of clients, parallelism (client fraction), and computation per client. Finally, we apply a Differential Privacy Stochastic Gradient Descent (DP-SGD) to enhance the preserving of patient data privacy for our Federated Learning model. A strategy is also proposed to keep the robustness of Federated Learning to ensure the security and accuracy of the model.
翻訳日:2021-10-27 16:46:12 公開日:2021-10-26
# CS-Rep:再パラメータ化を考慮した話者検証ネットワークの構築

CS-Rep: Making Speaker Verification Networks Embracing Re-parameterization ( http://arxiv.org/abs/2110.13465v1 )

ライセンス: Link先を確認
Ruiteng Zhang, Jianguo Wei, Wenhuan Lu, Lin Zhang, Yantao Ji, Junhai Xu, Xugang Lu(参考訳) 2つの音声が同一話者であるかどうかを判定する自動話者照合(asv)システムは、主に推論速度を無視しながら検証精度に重点を置いている。 しかし、実際のアプリケーションでは、推論速度と検証精度の両方が不可欠である。 本研究では,マルチタイプネットワークのための新しいトポロジー再パラメータ化戦略であるcs-rep(cross-sequential re-parameterization)を提案する。 CS-Repは、既存の再パラメータ化手法が典型的なASVバックボーンには適さないという問題を解決する。 モデルがCS-Repを適用すると、トレーニング周期ネットワークは話者情報をキャプチャするためにマルチブランチトポロジを利用するが、推論周期モデルはTDNN層を積み重ねた時間遅延ニューラルネットワーク(TDNN)のようなプレーンバックボーンに変換して高速な推論速度を実現する。 CS-Repに基づいて、Rep-TDNNと呼ばれるフレンドリーなテストとデプロイメントを備えた改良されたTDNNを提案する。 業界で広く認知されている最先端のECAPA-TDNNと比較して、Rep-TDNNは実際の推論速度を約50%向上し、EERを10%削減する。 コードはリリースされます。

Automatic speaker verification (ASV) systems, which determine whether two speeches are from the same speaker, mainly focus on verification accuracy while ignoring inference speed. However, in real applications, both inference speed and verification accuracy are essential. This study proposes cross-sequential re-parameterization (CS-Rep), a novel topology re-parameterization strategy for multi-type networks, to increase the inference speed and verification accuracy of models. CS-Rep solves the problem that existing re-parameterization methods are unsuitable for typical ASV backbones. When a model applies CS-Rep, the training-period network utilizes a multi-branch topology to capture speaker information, whereas the inference-period model converts to a time-delay neural network (TDNN)-like plain backbone with stacked TDNN layers to achieve the fast inference speed. Based on CS-Rep, an improved TDNN with friendly test and deployment called Rep-TDNN is proposed. Compared with the state-of-the-art model ECAPA-TDNN, which is highly recognized in the industry, Rep-TDNN increases the actual inference speed by about 50% and reduces the EER by 10%. The code will be released.
翻訳日:2021-10-27 16:32:44 公開日:2021-10-26
# TUNet:変圧器と自己教師型事前学習に基づくブロックオンライン帯域拡張モデル

TUNet: A Block-online Bandwidth Extension Model based on Transformers and Self-supervised Pretraining ( http://arxiv.org/abs/2110.13492v1 )

ライセンス: Link先を確認
Viet-Anh Nguyen, Anh H. T. Nguyen, Andy W. H. Khong(参考訳) 帯域幅拡張を実現するために,時間的特徴軸線形変調(tfilm)モデルのブロックオンライン変種を提案する。 提案するアーキテクチャは,tfilm の unet バックボーンを単純化して推論時間を短縮し,性能劣化を緩和するためのボトルネックに効率的なトランスフォーマーを用いる。 また、自己教師付き事前学習とデータ拡張により帯域幅拡張信号の品質が向上し、ダウンサンプリング法に対する感度が低下する。 VCTKデータセットによる実験結果から,提案手法はスペクトル距離および音源歪み比において,近年のベースラインを上回っていることがわかった。 事前トレーニングとフィルタ拡張は、全体的なパフォーマンスの安定化と向上にも役立ちます。

We introduce a block-online variant of the temporal feature-wise linear modulation (TFiLM) model to achieve bandwidth extension. The proposed architecture simplifies the UNet backbone of the TFiLM to reduce inference time and employs an efficient transformer at the bottleneck to alleviate performance degradation. We also utilize self-supervised pretraining and data augmentation to enhance the quality of bandwidth extended signals and reduce the sensitivity with respect to downsampling methods. Experiment results on the VCTK dataset show that the proposed method outperforms several recent baselines in terms of spectral distance and source-to-distortion ratio. Pretraining and filter augmentation also help stabilize and enhance the overall performance.
翻訳日:2021-10-27 16:32:21 公開日:2021-10-26
# パラメトリック最適制御問題の予備解析のための拡張物理情報ニューラルネットワーク

An extended physics informed neural network for preliminary analysis of parametric optimal control problems ( http://arxiv.org/abs/2110.13530v1 )

ライセンス: Link先を確認
Nicola Demo, Maria Strazzullo and Gianluigi Rozza(参考訳) 本研究では,パラメトリック偏微分方程式に対する教師付き学習戦略の拡張を提案する。 実際、もし後者が多くのアプリケーションで不可分に有用であるとしても、そのほとんどがリアルタイムおよびマルチクエリ環境で計算的に高価である。 したがって、我々の主な目標は、短時間でパラメトリゼーション現象をシミュレートする物理学的インフォームド学習パラダイムを提供することです。 物理情報は、損失関数(標準物理学インフォームドニューラルネットワーク)、追加入力(極端な特徴雇用)、ニューラルネットワーク(物理インフォームドアーキテクチャ)の効果的な構造を構築するためのガイドラインとして、様々な方法で活用される。 これら3つの側面を組み合わせることで、より高速なトレーニングフェーズとより正確なパラメトリック予測が可能になる。 この手法はいくつかの方程式や最適制御フレームワークでテストされている。

In this work we propose an extension of physics informed supervised learning strategies to parametric partial differential equations. Indeed, even if the latter are indisputably useful in many applications, they can be computationally expensive most of all in a real-time and many-query setting. Thus, our main goal is to provide a physics informed learning paradigm to simulate parametrized phenomena in a small amount of time. The physics information will be exploited in many ways, in the loss function (standard physics informed neural networks), as an augmented input (extra feature employment) and as a guideline to build an effective structure for the neural network (physics informed architecture). These three aspects, combined together, will lead to a faster training phase and to a more accurate parametric prediction. The methodology has been tested for several equations and also in an optimal control framework.
翻訳日:2021-10-27 16:32:07 公開日:2021-10-26
# 多様体上の位相的ペナル化回帰

Topologically penalized regression on manifolds ( http://arxiv.org/abs/2110.13749v1 )

ライセンス: Link先を確認
Olympio Hacquard (LMO, DATASHAPE), Krishnakumar Balasubramanian (UC Davis), Gilles Blanchard (LMO, DATASHAPE), Wolfgang Polonik (UC Davis), Cl\'ement Levrard (LPSM (UMR\_8001))(参考訳) コンパクト多様体 M 上の回帰問題について検討し、データの基底幾何学と位相を利用するために、その回帰処理は、位相的ペナルティで正規化される多様体のラプラス・ベルトラミ作用素の最初の数個の固有関数に基づいて行われる。 提案するペナルティは、固有関数または推定関数のサブレベル集合のトポロジーに基づいている。 全体的なアプローチは、合成データと実データの両方に様々なアプリケーションで有望で競争力のあるパフォーマンスをもたらすことが示されています。 また,回帰関数推定の予測誤差と(位相的な意味で)滑らかさの両方について理論的に保証する。 これらの結果は,対象関数が「トポロジカルに滑らか」である場合のアプローチの妥当性を裏付けるものである。

We study a regression problem on a compact manifold M. In order to take advantage of the underlying geometry and topology of the data, the regression task is performed on the basis of the first several eigenfunctions of the Laplace-Beltrami operator of the manifold, that are regularized with topological penalties. The proposed penalties are based on the topology of the sub-level sets of either the eigenfunctions or the estimated function. The overall approach is shown to yield promising and competitive performance on various applications to both synthetic and real data sets. We also provide theoretical guarantees on the regression function estimates, on both its prediction error and its smoothness (in a topological sense). Taken together, these results support the relevance of our approach in the case where the targeted function is "topologically smooth".
翻訳日:2021-10-27 16:30:55 公開日:2021-10-26
# ニューラルネットワークの多様性と一般化

Diversity and Generalization in Neural Network Ensembles ( http://arxiv.org/abs/2110.13786v1 )

ライセンス: Link先を確認
Luis A. Ortega, Rafael Caba\~nas, Andr\'es R. Masegosa(参考訳) アンサンブルは機械学習で広く使われ、通常、多くの予測タスクで最先端のパフォーマンスを提供する。 初期から、アンサンブルの多様性は、これらのモデルの優れた性能の鍵要因として認識されてきた。 しかし、アンサンブルモデルにおいて多様性が果たす正確な役割は、特にニューラルネットワークの文脈では理解されていない。 本研究では,様々なアンサンブル手法の多様性とアンサンブル性能の関係を記述した理論的に健全な枠組みを用いて,先行した結果を合成・拡張する。 より正確には、多様性を測定する方法、アンサンブルの一般化誤差に多様性がどのように関係するか、そしてニューラルネットワークアンサンブルアルゴリズムによって多様性がどのように促進されるかである。 この分析は、二乗損失、クロスエントロピー損失、0-1損失という3つの広く使われている損失関数と、モデル平均化と重み付き多数決という2つの一般的なモデル組み合わせ戦略を含む。 ニューラルネットワークアンサンブルを用いた理論的解析を実証的に検証する。

Ensembles are widely used in machine learning and, usually, provide state-of-the-art performance in many prediction tasks. From the very beginning, the diversity of an ensemble has been identified as a key factor for the superior performance of these models. But the exact role that diversity plays in ensemble models is poorly understood, specially in the context of neural networks. In this work, we combine and expand previously published results in a theoretically sound framework that describes the relationship between diversity and ensemble performance for a wide range of ensemble methods. More precisely, we provide sound answers to the following questions: how to measure diversity, how diversity relates to the generalization error of an ensemble, and how diversity is promoted by neural network ensemble algorithms. This analysis covers three widely used loss functions, namely, the squared loss, the cross-entropy loss, and the 0-1 loss; and two widely used model combination strategies, namely, model averaging and weighted majority vote. We empirically validate this theoretical analysis with neural network ensembles.
翻訳日:2021-10-27 16:30:40 公開日:2021-10-26
# 格子QCDにおける機械学習スペクトル関数

Machine learning spectral functions in lattice QCD ( http://arxiv.org/abs/2110.13521v1 )

ライセンス: Link先を確認
S.-Y. Chen, H.-T. Ding, F.-Y. Liu, G. Papp, C.-B. Yang(参考訳) ユークリッド相関関数からのスペクトル関数を機械学習で再構成する逆問題について検討する。 本稿では,変分オートエンコーダ(vae)に基づく新しいニュートラルネットワークであるsveeを提案する。 svaeの特徴は、スペクトル関数の先行情報として基底真理値を持つシャノン・ジェインズエントロピー項が最小化される損失関数に含まれることである。 ガウス混合モデルから生成した一般スペクトル関数を用いてネットワークを訓練する。 実験では, 共振ピーク, 連続項, 摂動スペクトル関数の4種類の物理的モチベーションスペクトル関数から生成した相関子を用いて, 非相対論的qcdを用いた。 モックデータテストから、ほとんどの場合のsVAEはスペクトル関数を再構成する際の最大エントロピー法(MEM)に匹敵するものであり、スペクトル関数のピークが鋭く、コレレータ内のデータポイントが不足している場合にはMEMよりも優れることがわかった。 By applying to temporal correlation functions of charmonium in the pseudoscalar channel obtained in the quenched lattice QCD at 0.75 $T_c$ on $128^3\times96$ lattices and $1.5$ $T_c$ on $128^3\times48$ lattices, we find that the resonance peak of $\eta_c$ extracted from both the sVAE and MEM has a substantial dependence on the number of points in the temporal direction ($N_\tau$) adopted in the lattice simulation and $N_\tau$ larger than 48 is needed to resolve the fate of $\eta_c$ at 1.5 $T_c$.

We study the inverse problem of reconstructing spectral functions from Euclidean correlation functions via machine learning. We propose a novel neutral network, sVAE, which is based on the variational autoencoder (VAE) and can be naturally applied to the inverse problem. The prominent feature of the sVAE is that a Shannon-Jaynes entropy term having the ground truth values of spectral functions as prior information is included in the loss function to be minimized. We train the network with general spectral functions produced from a Gaussian mixture model. As a test, we use correlators generated from four different types of physically motivated spectral functions made of one resonance peak, a continuum term and perturbative spectral function obtained using non-relativistic QCD. From the mock data test we find that the sVAE in most cases is comparable to the maximum entropy method (MEM) in the quality of reconstructing spectral functions and even outperforms the MEM in the case where the spectral function has sharp peaks with insufficient number of data points in the correlator. By applying to temporal correlation functions of charmonium in the pseudoscalar channel obtained in the quenched lattice QCD at 0.75 $T_c$ on $128^3\times96$ lattices and $1.5$ $T_c$ on $128^3\times48$ lattices, we find that the resonance peak of $\eta_c$ extracted from both the sVAE and MEM has a substantial dependence on the number of points in the temporal direction ($N_\tau$) adopted in the lattice simulation and $N_\tau$ larger than 48 is needed to resolve the fate of $\eta_c$ at 1.5 $T_c$.
翻訳日:2021-10-27 16:30:24 公開日:2021-10-26
# (参考訳) 近代電力システム研究のためのデータ駆動時系列再構成

Data-Driven Time Series Reconstruction for Modern Power Systems Research ( http://arxiv.org/abs/2110.13772v1 )

ライセンス: CC BY 4.0
Minas Chatzos, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) 電力システム研究の重要な側面は、プライバシーの懸念とエネルギーインフラの繊細な性質によって制限される適切なデータの利用である。 このデータの欠如は、機械学習アプローチや確率的定式化のような近代的な研究の進路を妨げている。 この課題を克服するために,送信システムオペレータが公開するグリッドスナップショットと履歴データを用いて,高忠実度時系列を再構築するための体系的データ駆動型フレームワークを提案する。 提案手法は, 地理空間データから生成容量再構成, 時系列分解に至るまで, フランスの伝送網に適用できる。 これにより、各成分レベルでは5分間の粒度で複数年にまたがる合成だが高度に現実的な時系列データを生成する。

A critical aspect of power systems research is the availability of suitable data, access to which is limited by privacy concerns and the sensitive nature of energy infrastructure. This lack of data, in turn, hinders the development of modern research avenues such as machine learning approaches or stochastic formulations. To overcome this challenge, this paper proposes a systematic, data-driven framework for reconstructing high-fidelity time series, using publicly-available grid snapshots and historical data published by transmission system operators. The proposed approach, from geo-spatial data and generation capacity reconstruction, to time series disaggregation, is applied to the French transmission grid. Thereby, synthetic but highly realistic time series data, spanning multiple years with a 5-minute granularity, is generated at the individual component level.
翻訳日:2021-10-27 16:29:08 公開日:2021-10-26
# 自動エンコーダを用いたプライバシー保護型マルチドメインレコメンダシステム

Privacy-Preserving Multi-Target Multi-Domain Recommender Systems with Assisted AutoEncoders ( http://arxiv.org/abs/2110.13340v1 )

ライセンス: Link先を確認
Enmao Diao, Vahid Tarokh, Jie Ding(参考訳) Recommender Systems(RC)における長年の課題は、ユーザがほとんどアイテムを評価しないときにしばしば発生するデータ空間の問題である。 マルチターゲットマルチドメインレコメンダシステム(MTMDR)は,複数のドメインにおけるレコメンデーション性能を同時に向上することを目的としている。 既存の作業では、異なるドメインのデータを完全に共有でき、計算を集中的に行うことができると仮定している。 しかし、多くの現実的なシナリオでは、個別のレコメンデータシステムは異なる組織によって運用され、プライベートデータ、モデル、レコメンデーションタスクの共有は許可されない。 本研究は,組織学習者がセンシティブな資産を共有することなく,同時にレコメンデーション性能を向上させるための支援型オートエンコーダ(aae)と多目的学習(mtal)に基づくmtmdrを提案する。 さらに、AAEは、明示的または暗黙的なフィードバック、ユーザまたはアイテムベースのアライメント、およびサイド情報の有無を許容するため、幅広いアプリケーション範囲を持っています。 広範な実験により,各ドメインがローカルにトレーニングされている場合を有意に上回り,全データを共有する集中型トレーニングと競合することを示した。 その結果、AAEは異なるドメインの組織を効果的に統合し、共有関心のコミュニティを形成することができる。

A long-standing challenge in Recommender Systems (RCs) is the data sparsity problem that often arises when users rate very few items. Multi-Target Multi-Domain Recommender Systems (MTMDR) aim to improve the recommendation performance in multiple domains simultaneously. The existing works assume that the data of different domains can be fully shared, and the computation can be performed in a centralized manner. However, in many realistic scenarios, separate recommender systems are operated by different organizations, which do not allow the sharing of private data, models, and recommendation tasks. This work proposes an MTMDR based on Assisted AutoEncoders (AAE) and Multi-Target Assisted Learning (MTAL) to help organizational learners improve their recommendation performance simultaneously without sharing sensitive assets. Moreover, AAE has a broad application scope since it allows explicit or implicit feedback, user- or item-based alignment, and with or without side information. Extensive experiments demonstrate that our method significantly outperforms the case where each domain is locally trained, and it performs competitively with the centralized training where all data are shared. As a result, AAE can effectively integrate organizations from different domains to form a community of shared interest.
翻訳日:2021-10-27 16:13:59 公開日:2021-10-26
# パラメータ化PDEのための物理インフォームドニューラルネットワーク(PINN)-メタラーニングアプローチ

Physics-Informed Neural Networks (PINNs) for Parameterized PDEs: A Metalearning Approach ( http://arxiv.org/abs/2110.13361v1 )

ライセンス: Link先を確認
Michael Penwarden, Shandian Zhe, Akil Narayan, Robert M. Kirby(参考訳) 偏微分方程式(PDE)を離散化するための物理インフォームドニューラルネットワーク(PINN)は、CS&E(Computational Science and Engineering)の世界において注目されている。 現在、PINNには、調整可能なパラメータに対する精度と収束特性の理解と、PINNを他の計算科学ツールと同じくらい効率的にする最適化戦略の同定の2つの課題が存在する。 pinnsトレーニングのコストは、物理インフォームド機械学習(piml)や、マシンラーニング(ml)全般において、依然として大きな課題となっている。 本論文は、パラメータ化PDEのためのPINNの研究を通して、後者に対処することを目的としている。 ML の世界に続き,パラメータ化 PDE のための PINN のメタラーニングを導入する。 メタラーニングとトランスファー学習の概念を導入することで、pinns最適化プロセスを大幅に加速することができる。 本稿では,モデル非依存型メタラーニングに関する調査を行い,pinnに適用したモデル認識型メタラーニングについて述べる。 メタラーニングアプローチを可能にする理論的な動機付けと実証的な裏付けを提供する。 次に、新しいPINN文献で提示された様々な標準前方パラメータ化PDEについて、本手法を検証した。

Physics-informed neural networks (PINNs) as a means of discretizing partial differential equations (PDEs) are garnering much attention in the Computational Science and Engineering (CS&E) world. At least two challenges exist for PINNs at present: an understanding of accuracy and convergence characteristics with respect to tunable parameters and identification of optimization strategies that make PINNs as efficient as other computational science tools. The cost of PINNs training remains a major challenge of Physics-informed Machine Learning (PiML) -- and, in fact, machine learning (ML) in general. This paper is meant to move towards addressing the latter through the study of PINNs for parameterized PDEs. Following the ML world, we introduce metalearning of PINNs for parameterized PDEs. By introducing metalearning and transfer learning concepts, we can greatly accelerate the PINNs optimization process. We present a survey of model-agnostic metalearning, and then discuss our model-aware metalearning applied to PINNs. We provide theoretically motivated and empirically backed assumptions that make our metalearning approach possible. We then test our approach on various canonical forward parameterized PDEs that have been presented in the emerging PINNs literature.
翻訳日:2021-10-27 16:13:35 公開日:2021-10-26
# MarS-FL:Federated Learningに参加するためのマーケットシェアベースの意思決定支援フレームワーク

MarS-FL: A Market Share-based Decision Support Framework for Participation in Federated Learning ( http://arxiv.org/abs/2110.13464v1 )

ライセンス: Link先を確認
Xiaohu Wu and Han Yu(参考訳) フェデレートラーニング(FL)は、複数の参加者(PT)がデータを共有せずに集約的で強力な学習モデルを構築することを可能にする。 主要なアプリケーションシナリオの1つは、市場シェアがPTの競争力を表す競争市場である。 市場シェアの発展におけるflの役割を理解することは、ptsによるflの採用を進める上で重要な役割を果たす。 モデリングの面では、FLの状況に一般的な経済モデルを適用し、FLの生存可能性とFLの市場受容性を測定するために$\delta$-stable Marketとフレンドリーな2つの概念を導入する。 さらに,FLデザイナとPTの関連意思決定問題に対処する。 まず,各ptがflに参加する過程を非協力的ゲームとして特徴付け,その支配的戦略を証明する。 第2に、FLデザイナとして、各PTの最終的なモデルパフォーマンス改善は、特定のFLアプリケーションシナリオの市場条件に関係し、市場を維持するのに十分な条件である$Q$を与え、フレンドラインを$\kappa$に定量化する。 Q$という条件は特定の要件を与え、FLデザイナはPTのパフォーマンス改善を割り当てます。 oligopoly の典型的な場合、$q$ と $\kappa$ の閉形式式が与えられる。 最後に, 幅広い市場条件下でのflの有効性を示すために, 数値的な結果が得られた。 本研究は, 最適PT戦略, FLデザイナの実行可能な運用空間, FLが特に有益である市場条件の同定に有効である。

Federated learning (FL) enables multiple participants (PTs) to build an aggregate and more powerful learning model without sharing data, thus maintaining data privacy and security. Among the key application scenarios is a competitive market where market shares represent PTs' competitiveness. An understanding of the role of FL in evolving market shares plays a key role in advancing the adoption of FL by PTs. In terms of modeling, we adapt a general economic model to the FL context and introduce two notions of $\delta$-stable market and friendliness to measure the viability of FL and the market acceptability to FL. Further, we address related decision-making issues with FL designer and PTs. First, we characterize the process by which each PT participates in FL as a non-cooperative game and prove its dominant strategy. Second, as an FL designer, the final model performance improvement of each PT should be bounded, which relates to the market conditions of a particular FL application scenario; we give a sufficient and necessary condition $Q$ to maintain the market $\delta$-stability and quantify the friendliness $\kappa$. The condition $Q$ gives a specific requirement while an FL designer allocates performance improvements among PTs. In a typical case of oligopoly, closed-form expressions of $Q$ and $\kappa$ are given. Finally, numerical results are given to show the viability of FL in a wide range of market conditions. Our results help identify optimal PT strategies, the viable operational space of an FL designer, and the market conditions under which FL is especially beneficial.
翻訳日:2021-10-27 16:13:19 公開日:2021-10-26
# dpdkを用いた分散強化学習体験サンプリングのための高速化手法

A DPDK-Based Acceleration Method for Experience Sampling of Distributed Reinforcement Learning ( http://arxiv.org/abs/2110.13506v1 )

ライセンス: Link先を確認
Masaki Furukawa, Hiroki Matsutani(参考訳) 複数の計算ノードを相互接続するコンピューティングクラスタは、dqn(deep q-network)に基づく分散強化学習を加速するために使用される。 分散強化学習では、アクターノードは所定の環境と相互作用して経験を得、学習ノードはDQNモデルを最適化する。 アクタノードと学習ノード間のデータ転送はアクタノードの数とそのエクスペリエンスサイズによって増加するため、アクタノード間の通信オーバーヘッドは大きなパフォーマンスボトルネックの1つである。 本稿では, DPDKベースのネットワーク最適化により通信が高速化され, 40GbE (40Gbit Ethernet)ネットワークに接続されたActorノードとLearnerノードの間に, DPDKベースの低レイテンシ体験リプレイメモリサーバが配置される。 評価の結果、ネットワーク最適化手法として、DPDKによるカーネルバイパスは共有メモリサーバへのネットワークアクセスレイテンシを32.7%削減し58.9%に削減した。 別のネットワーク最適化手法として、アクタノードと学習ノード間のネットワーク内エクスペリエンスリプレイメモリサーバは、エクスペリエンスリプレイメモリへのアクセス遅延を11.7%から28.1%に削減し、優先されたエクスペリエンスサンプリングのための通信遅延を21.9%から29.1%に削減する。

A computing cluster that interconnects multiple compute nodes is used to accelerate distributed reinforcement learning based on DQN (Deep Q-Network). In distributed reinforcement learning, Actor nodes acquire experiences by interacting with a given environment and a Learner node optimizes their DQN model. Since data transfer between Actor and Learner nodes increases depending on the number of Actor nodes and their experience size, communication overhead between them is one of major performance bottlenecks. In this paper, their communication is accelerated by DPDK-based network optimizations, and DPDK-based low-latency experience replay memory server is deployed between Actor and Learner nodes interconnected with a 40GbE (40Gbit Ethernet) network. Evaluation results show that, as a network optimization technique, kernel bypassing by DPDK reduces network access latencies to a shared memory server by 32.7% to 58.9%. As another network optimization technique, an in-network experience replay memory server between Actor and Learner nodes reduces access latencies to the experience replay memory by 11.7% to 28.1% and communication latencies for prioritized experience sampling by 21.9% to 29.1%.
翻訳日:2021-10-27 16:12:04 公開日:2021-10-26
# Qu-ANTI-zation:敵対的成果を達成するための量子化アーティファクトの爆発

Qu-ANTI-zation: Exploiting Quantization Artifacts for Achieving Adversarial Outcomes ( http://arxiv.org/abs/2110.13541v1 )

ライセンス: Link先を確認
Sanghyun Hong, Michael-Andrei Panaitescu-Liess, Yi\u{g}itcan Kaya, Tudor Dumitra\c{s}(参考訳) 量子化(quantization)は、ニューラルネットワークのパラメータ表現を浮動小数点数から低い精度(例えば8ビット整数)に変換する一般的なテクニックである。 これにより、メモリフットプリントと推論の計算コストが削減され、リソースハングモデルのデプロイが容易になる。 しかし、この変換によって引き起こされるパラメータの摂動は、量子化前後のモデル間で$behavioral$$disparities$となる。 例えば、量子化モデルは、他の方法で正しく分類されたテスト時間サンプルを誤って分類することができる。 このような違いが新たなセキュリティ脆弱性につながるかどうかは不明だ。 我々は、敵対者がこの格差を制御し、量子化時に活性化する特定の行動を導入することができると仮定する。 この仮説を研究するために,量子化認識トレーニングを武器化し,逆量子化結果を実現するための新しい学習枠組みを提案する。 この枠組みに従うと、量子化で行う3つの攻撃を示す。 (i)相当な精度の損失に対する無差別な攻撃 (ii)特定の試料に対する標的攻撃 (iii)入力トリガーでモデルを制御するバックドア攻撃。 さらに,単一モデルが複数の量子化スキーム(ロバスト量子化手法を含む)を打ち破ることを示した。 さらに,フェデレーション学習シナリオでは,コンスパイアした悪意のある参加者が,量子化によって活性化されたバックドアを注入できることを実証する。 最後に,潜在的な対策策を議論し,再トレーニングのみが攻撃成果物を取り除くことを実証する。 私たちのコードはhttps://github.com/Secure-AI-Systems-Group/Qu-ANTI-zationで利用可能です。

Quantization is a popular technique that $transforms$ the parameter representation of a neural network from floating-point numbers into lower-precision ones ($e.g.$, 8-bit integers). It reduces the memory footprint and the computational cost at inference, facilitating the deployment of resource-hungry models. However, the parameter perturbations caused by this transformation result in $behavioral$ $disparities$ between the model before and after quantization. For example, a quantized model can misclassify some test-time samples that are otherwise classified correctly. It is not known whether such differences lead to a new security vulnerability. We hypothesize that an adversary may control this disparity to introduce specific behaviors that activate upon quantization. To study this hypothesis, we weaponize quantization-aware training and propose a new training framework to implement adversarial quantization outcomes. Following this framework, we present three attacks we carry out with quantization: (i) an indiscriminate attack for significant accuracy loss; (ii) a targeted attack against specific samples; and (iii) a backdoor attack for controlling the model with an input trigger. We further show that a single compromised model defeats multiple quantization schemes, including robust quantization techniques. Moreover, in a federated learning scenario, we demonstrate that a set of malicious participants who conspire can inject our quantization-activated backdoor. Lastly, we discuss potential counter-measures and show that only re-training consistently removes the attack artifacts. Our code is available at https://github.com/Secure-AI-Systems-Group/Qu-ANTI-zation
翻訳日:2021-10-27 16:11:39 公開日:2021-10-26
# 非インタラクティブデータ駆動モデル還元法を用いた実時間人間応答予測

Real-time Human Response Prediction Using a Non-intrusive Data-driven Model Reduction Scheme ( http://arxiv.org/abs/2110.13583v1 )

ライセンス: Link先を確認
Jonas Kneifl, Julian Hay, J\"org Fehr(参考訳) 近年の非侵入型データ駆動モデルオーダーリダクション(MOR)の研究は、パラメータ化常微分方程式(ODE)の正確かつ効率的な近似を可能にした。 しかし、以前の研究では定数パラメータに重点を置いていたが、時間依存パラメータは無視されている。 本稿では,この問題に取り組むために,新たな2段階モースキームを提案する。 最初のステップでは、シミュレーションデータの最も重要な特徴を抽出する高次元ODEソリューションの低次元表現を計算するために、古典的MORアプローチを適用した。 この表現に基づいて、長い短期記憶(LSTM)を訓練し、第2ステップで減少するダイナミクスを反復的に予測する。 これにより、各時間ステップ中にパラメータを考慮に入れることができる。 このアプローチのポテンシャルは、自動車運転シナリオ内の占有モデル上で実証される。 時間変動加速度に対する低減モデルの応答は、限られた時間で高い精度で参照データと一致する。 さらに、リアルタイム機能を実現する。 その結果,提案手法は近似パラメータ化ODEに適しており,共通手法と対照的に時間依存パラメータを扱えることがわかった。

Recent research in non-intrusive data-driven model order reduction (MOR) enabled accurate and efficient approximation of parameterized ordinary differential equations (ODEs). However, previous studies have focused on constant parameters, whereas time-dependent parameters have been neglected. The purpose of this paper is to introduce a novel two-step MOR scheme to tackle this issue. In a first step, classic MOR approaches are applied to calculate a low-dimensional representation of high-dimensional ODE solutions, i.e. to extract the most important features of simulation data. Based on this representation, a long short-term memory (LSTM) is trained to predict the reduced dynamics iteratively in a second step. This enables the parameters to be taken into account during the respective time step. The potential of this approach is demonstrated on an occupant model within a car driving scenario. The reduced model's response to time-varying accelerations matches the reference data with high accuracy for a limited amount of time. Furthermore, real-time capability is achieved. Accordingly, it is concluded that the presented method is well suited to approximate parameterized ODEs and can handle time-dependent parameters in contrast to common methods.
翻訳日:2021-10-27 16:11:18 公開日:2021-10-26
# スマートグリッドアプリケーションにおける自動機械学習の概念

Concepts for Automated Machine Learning in Smart Grid Applications ( http://arxiv.org/abs/2110.13585v1 )

ライセンス: Link先を確認
Stefan Meisenbacher, Janik Pinter, Tim Martin, Veit Hagenmeyer, Ralf Mikut(参考訳) 間違いなく、利用可能なデータと競合する機械学習アルゴリズムの増加は、エネルギーシステムにおけるデータ駆動モデリングの人気を高めている。 応用は再生可能エネルギーとエネルギー消費の予測である。 エネルギー消費セクターは電力システムに柔軟性を加えることで電力貯蔵の課題に対処するために発電セクターと相互接続される。 しかし、エネルギーシステムにおける機械学習手法の大規模適用は、機械学習の専門知識とアプリケーションプロセスの深い理解を網羅する専門家の知識の必要性に障害がある。 プロセス知識は、問題の形式化やモデルの検証、適用に必要です。 機械学習のスキルは、処理ステップを含む i) データ前処理 二 特色工学、抽出及び選択 iii)アルゴリズムの選択, 四 ハイパーパラメータの最適化及び可能 五 モデルの出力の後処理 特定のアプリケーションにモデルを配置するには、データの選択、さまざまな候補モデルの設計、処理ステップ間のデータフローの整理、最も適切なモデルの選択、運用中のモデル監視、反復的かつ時間を要する手順が必要です。 機械学習の自動設計と運用は、データ駆動モデルの需要増加に対応するための人的努力を減らすことを目的としている。 自動走行車両のSAE標準に沿った予測のための5つの自動化レベルを定義し、手動設計と応用は自動化レベル0を反映する。

Undoubtedly, the increase of available data and competitive machine learning algorithms has boosted the popularity of data-driven modeling in energy systems. Applications are forecasts for renewable energy generation and energy consumption. Forecasts are elementary for sector coupling, where energy-consuming sectors are interconnected with the power-generating sector to address electricity storage challenges by adding flexibility to the power system. However, the large-scale application of machine learning methods in energy systems is impaired by the need for expert knowledge, which covers machine learning expertise and a profound understanding of the application's process. The process knowledge is required for the problem formalization, as well as the model validation and application. The machine learning skills include the processing steps of i) data pre-processing, ii) feature engineering, extraction, and selection, iii) algorithm selection, iv) hyperparameter optimization, and possibly v) post-processing of the model's output. Tailoring a model for a particular application requires selecting the data, designing various candidate models and organizing the data flow between the processing steps, selecting the most suitable model, and monitoring the model during operation - an iterative and time-consuming procedure. Automated design and operation of machine learning aim to reduce the human effort to address the increasing demand for data-driven models. We define five levels of automation for forecasting in alignment with the SAE standard for autonomous vehicles, where manual design and application reflect Automation level 0.
翻訳日:2021-10-27 16:11:01 公開日:2021-10-26
# TME-BNA : 隣接アグリゲーションを用いた一時的モチフ保存ネットワーク

TME-BNA: Temporal Motif-Preserving Network Embedding with Bicomponent Neighbor Aggregation ( http://arxiv.org/abs/2110.13596v1 )

ライセンス: Link先を確認
Ling Chen, Da Wang, Dandan Lyu, Xing Tang, Hongyu Shi(参考訳) 時間ネットワークの進化は、ソーシャルネットワークやeコマースなど、多くの現実の動的システムの抽象化として機能する。 時間的ネットワーク埋め込みの目的は、リンク予測やノード分類など、下流タスクの時間発展する低次元ベクトルに各ノードをマッピングすることである。 時間的ネットワークの埋め込みの難しさは、時間的ネットワークの進化を捉えるためにトポロジーと時間情報を協調的に利用する方法にある。 この課題に対応するために,TME-BNA という2成分の隣接アグリゲーションを用いた時間的モチーフ保存ネットワーク埋め込み手法を提案する。 時間的モチーフが時間的ネットワークの位相法則や機能的性質の理解に不可欠であることを考えると、TME-BNAは時間的モチーフに基づいて追加のエッジ特徴を構築し、時間的情報とともに複雑なトポロジーを明示的に活用する。 ノードのトポロジのダイナミクスを捉えるため、TME-BNAはグラフニューラルネットワーク(GNN)を使用して、接続されたエッジのタイムスタンプに応じて、それぞれの履歴と現在の隣人を集約する。 3つの公共時間ネットワークデータセットを用いて実験を行い,TME-BNAの有効性を示した。

Evolving temporal networks serve as the abstractions of many real-life dynamic systems, e.g., social network and e-commerce. The purpose of temporal network embedding is to map each node to a time-evolving low-dimension vector for downstream tasks, e.g., link prediction and node classification. The difficulty of temporal network embedding lies in how to utilize the topology and time information jointly to capture the evolution of a temporal network. In response to this challenge, we propose a temporal motif-preserving network embedding method with bicomponent neighbor aggregation, named TME-BNA. Considering that temporal motifs are essential to the understanding of topology laws and functional properties of a temporal network, TME-BNA constructs additional edge features based on temporal motifs to explicitly utilize complex topology with time information. In order to capture the topology dynamics of nodes, TME-BNA utilizes Graph Neural Networks (GNNs) to aggregate the historical and current neighbors respectively according to the timestamps of connected edges. Experiments are conducted on three public temporal network datasets, and the results show the effectiveness of TME-BNA.
翻訳日:2021-10-27 16:10:40 公開日:2021-10-26
# PARIS:睡眠改善のための個人化活動勧告

PARIS: Personalized Activity Recommendation for Improving Sleep Quality ( http://arxiv.org/abs/2110.13745v1 )

ライセンス: Link先を確認
Meghna Singh, Saksham Goel, Abhiraj Mohan, Louis Kazaglis and Jaideep Srivastava(参考訳) 睡眠の質は人々の身体的および精神的な健康に大きな影響を及ぼす。 睡眠不足の人は、身体的および精神的な苦痛、活動の制限、不安、痛みを報告しやすい。 さらに、ここ数年、活動監視や健康管理のためのアプリケーションやデバイスが爆発的に増えている。 これらのウェアラブルデバイスから収集された信号は、睡眠品質の研究と改善に使用できる。 本稿では,身体活動と睡眠の質の関係を利用して,機械学習技術を用いて睡眠改善を支援する方法を提案する。 人は通常、生体機能を分割できるいくつかの行動モードを持っている。 アクティビティデータに基づいて時系列クラスタリングを行うと、特定の対象に対して最も明白な行動モードと相関するクラスタセンターが見つかる。 アクティビティレシピが生成されると、各クラスタ内の各動作モードの睡眠品質が向上する。 これらのアクティビティレシピはアクティビティレコメンデーションエンジンに提供され、日常のルーチン中に被験者にリラックスして集中的なアクティビティを混合することを提案します。 推奨は、睡眠の質の向上を目的とし、年齢、性別、体重指数(BMI)、安静時心拍数など、被験者のライフスタイルの制約に基づいてさらにパーソナライズされる。 これは、心拍数を下げたり、睡眠の全体的な品質を改善したりといった長期的な健康目標に役立ちます。

The quality of sleep has a deep impact on people's physical and mental health. People with insufficient sleep are more likely to report physical and mental distress, activity limitation, anxiety, and pain. Moreover, in the past few years, there has been an explosion of applications and devices for activity monitoring and health tracking. Signals collected from these wearable devices can be used to study and improve sleep quality. In this paper, we utilize the relationship between physical activity and sleep quality to find ways of assisting people improve their sleep using machine learning techniques. People usually have several behavior modes that their bio-functions can be divided into. Performing time series clustering on activity data, we find cluster centers that would correlate to the most evident behavior modes for a specific subject. Activity recipes are then generated for good sleep quality for each behavior mode within each cluster. These activity recipes are supplied to an activity recommendation engine for suggesting a mix of relaxed to intense activities to subjects during their daily routines. The recommendations are further personalized based on the subjects' lifestyle constraints, i.e. their age, gender, body mass index (BMI), resting heart rate, etc, with the objective of the recommendation being the improvement of that night's quality of sleep. This would in turn serve a longer-term health objective, like lowering heart rate, improving the overall quality of sleep, etc.
翻訳日:2021-10-27 16:09:07 公開日:2021-10-26
# 不均一時間グラフニューラルネットワーク

Heterogeneous Temporal Graph Neural Network ( http://arxiv.org/abs/2110.13889v1 )

ライセンス: Link先を確認
Yujie Fan, Mingxuan Ju, Chuxu Zhang, Liang Zhao, Yanfang Ye(参考訳) グラフニューラルネットワーク(gnns)は、その表現学習のために動的グラフに広く研究されており、その大半は空間領域に均質な構造を持つグラフに焦点を当てている。 しかし、多くの現実世界の graphsi.e。 ヘテロジニアス・テンポラルグラフ(HTG)は、ヘテロジニアス・グラフ構造において動的に進化する。 異種性に関連するダイナミクスは、htg表現学習に新たな課題をもたらした。 そこで本稿では,HTG上でノード表現を学習する不均一性を保ちながら,空間的および時間的依存を両立させるヘテロジニアス時間グラフニューラルネットワーク(HTGNN)を提案する。 具体的には,htgnnの各層において,ヘテロジニアスな空間的依存性と時間的次元を協調的にモデル化する階層的集約機構を提案する。 この不均一性を維持するために、まずHTGの各スライス上で相関内アグリゲーションを行い、同じ種類の関係を持つ隣人の情報を注意深く集約し、その後、相関内アグリゲーションを利用して異なる種類の関係に関する情報を収集し、時間的依存関係を処理するために、HTG上の異なるグラフスライス間で情報交換を行う。 提案したHTGNNは、HTG表現学習のための時間と空間の進化を伴う不均一性に適した全体論的フレームワークである。 実世界の異なるデータセットから構築したHTGに対して大規模な実験を行い、最先端のベースラインと比較して、HTGNNの優れた性能を示す有望な結果を得た。 私たちの構築したHTGとコードは、https://github.com/YesLab-Code/HTGNNで公開されています。

Graph neural networks (GNNs) have been broadly studied on dynamic graphs for their representation learning, majority of which focus on graphs with homogeneous structures in the spatial domain. However, many real-world graphs - i.e., heterogeneous temporal graphs (HTGs) - evolve dynamically in the context of heterogeneous graph structures. The dynamics associated with heterogeneity have posed new challenges for HTG representation learning. To solve this problem, in this paper, we propose heterogeneous temporal graph neural network (HTGNN) to integrate both spatial and temporal dependencies while preserving the heterogeneity to learn node representations over HTGs. Specifically, in each layer of HTGNN, we propose a hierarchical aggregation mechanism, including intra-relation, inter-relation, and across-time aggregations, to jointly model heterogeneous spatial dependencies and temporal dimensions. To retain the heterogeneity, intra-relation aggregation is first performed over each slice of HTG to attentively aggregate information of neighbors with the same type of relation, and then intra-relation aggregation is exploited to gather information over different types of relations; to handle temporal dependencies, across-time aggregation is conducted to exchange information across different graph slices over the HTG. The proposed HTGNN is a holistic framework tailored heterogeneity with evolution in time and space for HTG representation learning. Extensive experiments are conducted on the HTGs built from different real-world datasets and promising results demonstrate the outstanding performance of HTGNN by comparison with state-of-the-art baselines. Our built HTGs and code have been made publicly accessible at: https://github.com/YesLab-Code/HTGNN.
翻訳日:2021-10-27 16:08:45 公開日:2021-10-26
# deep dic: エンドツーエンド変位とひずみ測定のためのディープラーニングベースのデジタル画像相関

Deep DIC: Deep Learning-Based Digital Image Correlation for End-to-End Displacement and Strain Measurement ( http://arxiv.org/abs/2110.13720v1 )

ライセンス: Link先を確認
Ru Yang, Yang Li, Danielle Zeng, Ping Guo(参考訳) デジタル画像相関(DIC)は, 引張試験などの材料特性評価において, 正確な変位・ひずみ測定を行うための業界標準となっている。 従来のDICは、一般的な引張試験ケースの変形を高精度に推定するが、大きな変形やスペックルパターンが破れ始めると予測が不安定になる。 加えて、従来の dic は長い計算時間を必要とし、フィルタリングやスペックルパターンの品質に影響された低い空間分解能の出力をしばしば発生する。 そこで本研究では,2つの畳み込みニューラルネットワークであるdislocationnet と strainnet を併用して,変位・ひずみのエンドツーエンド予測を行うdeep dic 手法を提案する。 DisplacementNetは、変位場を予測し、関心領域の変化を適応的に追跡する。 strainnetは、変位予測に頼ることなく、画像入力から直接ひずみ場を予測し、ひずみ予測精度を大幅に向上させる。 人工スペックルパターン,ランダムに生成された変位・ひずみ場,与えられた変形に基づく変形画像を含む,現実的で包括的なデータセットを合成する新しいデータセット生成法を提案する。 提案されたDeep DICは、純粋に合成データセットに基づいて訓練されるが、シミュレーションデータと実験データの両方で実行されるように設計されている。 その性能は体系的に評価され、商用のdicソフトウェアと比較される。 ディープDICは、商業用DICソフトウェアから得られたものとの変位とひずみの高度に一貫した予測を提供する一方で、大規模かつ局所的な変形やパターン特性の異なる場合でも、非常に堅牢なひずみ予測で商業用ソフトウェアより優れている。

Digital image correlation (DIC) has become an industry standard to retrieve accurate displacement and strain measurement in tensile testing and other material characterization. Though traditional DIC offers a high precision estimation of deformation for general tensile testing cases, the prediction becomes unstable at large deformation or when the speckle patterns start to tear. In addition, traditional DIC requires a long computation time and often produces a low spatial resolution output affected by filtering and speckle pattern quality. To address these challenges, we propose a new deep learning-based DIC approach -- Deep DIC, in which two convolutional neural networks, DisplacementNet and StrainNet, are designed to work together for end-to-end prediction of displacements and strains. DisplacementNet predicts the displacement field and adaptively tracks the change of a region of interest. StrainNet predicts the strain field directly from the image input without relying on the displacement prediction, which significantly improves the strain prediction accuracy. A new dataset generation method is proposed to synthesize a realistic and comprehensive dataset including artificial speckle patterns, randomly generated displacement and strain fields, and deformed images based on the given deformation. Proposed Deep DIC is trained purely on a synthetic dataset, but designed to perform both on simulated and experimental data. Its performance is systematically evaluated and compared with commercial DIC software. Deep DIC gives highly consistent and comparable predictions of displacement and strain with those obtained from commercial DIC software, while it outperforms commercial software with very robust strain prediction even with large and localized deformation and varied pattern qualities.
翻訳日:2021-10-27 16:07:57 公開日:2021-10-26
# (参考訳) プログレッシブネットワークを用いたリアルタイム焦点偏光イメージングシステム

Real-time division-of-focal-plane polarization imaging system with progressive networks ( http://arxiv.org/abs/2110.13823v1 )

ライセンス: CC BY 4.0
Rongyuan Wu, Yongqiang Zhao, Ning Li, and Seong G.Kong(参考訳) 近年,多くの分野に焦点偏光イメージング技術が応用されている。 しかし、このようなセンサーが捉えた画像は、即時視野誤差や解像度の低い問題に悩まされるため、直接は利用できない。 本稿では,navidia jetson tx2のようなエッジサイドgpuデバイス用に特別に設計された,progressive polarization demosaicing convolutional neural network (ppdn)を提案する高速dofp復調システムを構築する。 提案するネットワークは,復元段階と精製段階の2つの部分からなる。 前者は、単一のDoFP画像から4つの分極チャネルを復元する。 後者は4つのチャネルを微調整し、より正確な分極情報を得る。 PPDNは別のバージョンで実装できる: PPDN-L (large) - ハイ・コンピューティング・リソースのプラットフォーム用。 実験により、PDNはパラメータが少なく、推論速度が速く、撮像システムのリアルタイム要求を満たす最も優れた既存の手法と競合できることが示された。

Division-of-focal-plane (DoFP) polarization imaging technical recently has been applied in many fields. However, the images captured by such sensors cannot be used directly because they suffer from instantaneous field-of-view errors and low resolution problem. This paper builds a fast DoFP demosaicing system with proposed progressive polarization demosaicing convolutional neural network (PPDN), which is specifically designed for edge-side GPU devices like Navidia Jetson TX2. The proposed network consists of two parts: reconstruction stage and refining stage. The former recovers four polarization channels from a single DoFP image. The latter fine-tune the four channels to obtain more accurate polarization information. PPDN can be implemented in another version: PPDN-L (large), for the platforms of high computing resources. Experiments show that PPDN can compete with the best existing methods with fewer parameters and faster inference speed and meet the real-time demands of imaging system.
翻訳日:2021-10-27 16:05:45 公開日:2021-10-26
# 変動情報ボトルネックを用いた因果効果推定

Causal Effect Estimation using Variational Information Bottleneck ( http://arxiv.org/abs/2110.13705v1 )

ライセンス: Link先を確認
Zhenyu Lu, Yurong Cheng, Mingjun Zhong, George Stoian, Ye Yuan and Guoren Wang(参考訳) 因果推論とは、介入が適用されるときの因果関係における因果効果を推定することである。 正確には、二元的介入(制御と治療)を伴う因果的モデルでは、因果的効果は単に事実と反事実の差である。 難しいのは、その反事実が決して得られないことであり、従って因果効果は推定値に過ぎなかったことである。 カウンターファクトを推定する上で重要な課題は、結果と治療の両方に影響を及ぼす共同ファウンダーを特定することだ。 典型的なアプローチは、教師付き学習問題として因果推論を定式化することである。 線形回帰やディープラーニングモデルを含む最近の機械学習手法は因果推論に適応している。 本稿では,変分情報ボトルネック(CEVIB)を用いて因果効果を推定する手法を提案する。 期待できる点は、VIBが自然にデータから共起変数を抽出することができ、観測データを用いて因果効果を推定できるということである。 我々は,CEVIBを3つのデータセットに適用することにより,CEVIBを他の手法と比較した。 また,本手法のロバスト性についても実験的に示した。

Causal inference is to estimate the causal effect in a causal relationship when intervention is applied. Precisely, in a causal model with binary interventions, i.e., control and treatment, the causal effect is simply the difference between the factual and counterfactual. The difficulty is that the counterfactual may never been obtained which has to be estimated and so the causal effect could only be an estimate. The key challenge for estimating the counterfactual is to identify confounders which effect both outcomes and treatments. A typical approach is to formulate causal inference as a supervised learning problem and so counterfactual could be predicted. Including linear regression and deep learning models, recent machine learning methods have been adapted to causal inference. In this paper, we propose a method to estimate Causal Effect by using Variational Information Bottleneck (CEVIB). The promising point is that VIB is able to naturally distill confounding variables from the data, which enables estimating causal effect by using observational data. We have compared CEVIB to other methods by applying them to three data sets showing that our approach achieved the best performance. We also experimentally showed the robustness of our method.
翻訳日:2021-10-27 15:49:38 公開日:2021-10-26
# コントラスト学習によるGNNの過剰処理

Tackling Oversmoothing of GNNs with Contrastive Learning ( http://arxiv.org/abs/2110.13798v1 )

ライセンス: Link先を確認
Lecheng Zheng, Dongqi Fu, Jingrui He(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータの包括的な関係とニューラルネットワークの表現学習能力を統合し、最も人気のあるディープラーニング手法のひとつであり、自然言語処理やコンピュータビジョンなどの多くのアプリケーションで最先端のパフォーマンスを達成する。 実世界のシナリオでは、GNNの深さ(すなわち層数)を増大させることで、入力データに対するより潜伏した知識を捉え、欠落した値による不確実性を軽減する必要がある。 しかし、より複雑な構造やパラメータを含むと、GNNモデルの性能は低下する。 オーバースムーシング(oversmoothing)と呼ばれる理由が最近紹介されているが、関連する研究はまだ始まったばかりである。 一般に、オーバースムーシングはノードの最終的な表現を識別不能にし、ノード分類とリンク予測性能を劣化させる。 本稿では,現状のデオーバ・スムーシング法をまず調査し,デオーバ・スムーシング法,すなわち一定発散指標,簡易発散指標,モデル非依存戦略を評価するための3つの主要な指標を提案する。 次に,3つの指標すべてを保持する最初のデオーバモーニング法であるtgclと呼ばれるトポロジー誘導グラフコントラスト層を提案する。 対照的な学習方法により,提案したTGCLの有効性を理論的に解析する。 最後に,最先端のベースラインと比較して,TGCLの実証性能を示す広範な実験を設計する。

Graph neural networks (GNNs) integrate the comprehensive relation of graph data and the representation learning capability of neural networks, which is one of the most popular deep learning methods and achieves state-of-the-art performance in many applications, such as natural language processing and computer vision. In real-world scenarios, increasing the depth (i.e., the number of layers) of GNNs is sometimes necessary to capture more latent knowledge of the input data to mitigate the uncertainty caused by missing values. However, involving more complex structures and more parameters will decrease the performance of GNN models. One reason called oversmoothing is recently introduced but the relevant research remains nascent. In general, oversmoothing makes the final representations of nodes indiscriminative, thus deteriorating the node classification and link prediction performance. In this paper, we first survey the current de-oversmoothing methods and propose three major metrics to evaluate a de-oversmoothing method, i.e., constant divergence indicator, easy-to-determine divergence indicator, and model-agnostic strategy. Then, we propose the Topology-guided Graph Contrastive Layer, named TGCL, which is the first de-oversmoothing method maintaining all three mentioned metrics. With the contrastive learning manner, we provide the theoretical analysis of the effectiveness of the proposed TGCL. Last but not least, we design extensive experiments to illustrate the empirical performance of TGCL comparing with state-of-the-art baselines.
翻訳日:2021-10-27 15:49:19 公開日:2021-10-26
# ヒンジ政策最適化:政策改善とPPOの再検討

Hinge Policy Optimization: Rethinking Policy Improvement and Reinterpreting PPO ( http://arxiv.org/abs/2110.13799v1 )

ライセンス: Link先を確認
Hsuan-Yu Yao, Ping-Chun Hsieh, Kuo-Hao Ho, Kai-Chun Hu, Liang-Chun Ouyang, I-Chen Wu(参考訳) 政策最適化は、強化学習アルゴリズムを設計するための基本原理であり、そのシンプルさと有効性から、深い強化学習に広く用いられているクリッピングサロゲート目的 (PPO-clip) を持つ近似的政策最適化アルゴリズムである。 優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。 本稿では,政策最適化を再考し,ヒンジ政策最適化(HPO)に基づくPPO-clip理論を再解釈し,ヒンジ損失による政策改善を訴える。 具体的には、まず国家政策改善の十分な条件を特定し、その後、政策更新をヒンジロスを伴う大規模分類問題の解決として再考する。 各種の分類器を活用することで、PPO-clipを含むポリシーベースのアルゴリズムの全く新しいファミリーを特別なケースとして開放する。 この構成に基づき、これらのアルゴリズムが漸近的にグローバルに最適なポリシーに達することを証明する。 我々の知る限り、これはPPO-clipの変種に対する最適ポリシーへのグローバル収束を証明できる初めてのものである。 我々は,実験とアブレーション研究を通じて,様々なHPOアルゴリズムの性能を相関づける。

Policy optimization is a fundamental principle for designing reinforcement learning algorithms, and one example is the proximal policy optimization algorithm with a clipped surrogate objective (PPO-clip), which has been popularly used in deep reinforcement learning due to its simplicity and effectiveness. Despite its superior empirical performance, PPO-clip has not been justified via theoretical proof up to date. This paper proposes to rethink policy optimization and reinterpret the theory of PPO-clip based on hinge policy optimization (HPO), called to improve policy by hinge loss in this paper. Specifically, we first identify sufficient conditions of state-wise policy improvement and then rethink policy update as solving a large-margin classification problem with hinge loss. By leveraging various types of classifiers, the proposed design opens up a whole new family of policy-based algorithms, including the PPO-clip as a special case. Based on this construct, we prove that these algorithms asymptotically attain a globally optimal policy. To our knowledge, this is the first ever that can prove global convergence to an optimal policy for a variant of PPO-clip. We corroborate the performance of a variety of HPO algorithms through experiments and an ablation study.
翻訳日:2021-10-27 15:48:53 公開日:2021-10-26
# 協調ポリシー最適化による自己駆動粒子システムシミュレーションの学習

Learning to Simulate Self-Driven Particles System with Coordinated Policy Optimization ( http://arxiv.org/abs/2110.13827v1 )

ライセンス: Link先を確認
Zhenghao Peng, Quanyi Li, Ka Ming Hui, Chunxiao Liu, Bolei Zhou(参考訳) 自己駆動粒子 (Self-Driven Particles, SDP) は、鳥類の群れや交通の流れなど、日常生活に共通するマルチエージェントシステムのカテゴリである。 SDPシステムでは、各エージェントは自身の目標を追求し、近くのエージェントと協調的または競争的な振る舞いを常に変更する。 このようなSDPシステムのコントローラを手動で設計するのは時間を要するが、結果として生じる行動は現実的で一般化できないことが多い。 したがって、SDPシステムの現実的なシミュレーションは依然として困難である。 強化学習は、SDP用コントローラの開発を自動化するための魅力的な代替手段を提供する。 しかし、従来のマルチエージェント強化学習(MARL)手法では、エージェントを手前のチームメイトや敵と定義しており、各エージェントの役割が1回でも協調的または競争的であるようなSDPの本質を捉えていない。 MARLでSDPをシミュレートするには、エージェントの行動を調整し、個々の目的を最大化する。 本研究は,交通シミュレーションをテストベッドとし,SDPの神経制御を学習するための社会心理学的原理を取り入れた,CoPO(Coordinated Policy Optimization)と呼ばれる新しいMARL手法を開発した。 実験により,提案手法は様々な指標においてMARLベースラインよりも優れた性能が得られることが示された。 訓練された車両は、人口全体のパフォーマンスと安全性を向上させる複雑な多様な社会的行動を示す。 デモビデオとソースコードは、https://decisionforce.github.io/copo/で入手できる。

Self-Driven Particles (SDP) describe a category of multi-agent systems common in everyday life, such as flocking birds and traffic flows. In a SDP system, each agent pursues its own goal and constantly changes its cooperative or competitive behaviors with its nearby agents. Manually designing the controllers for such SDP system is time-consuming, while the resulting emergent behaviors are often not realistic nor generalizable. Thus the realistic simulation of SDP systems remains challenging. Reinforcement learning provides an appealing alternative for automating the development of the controller for SDP. However, previous multi-agent reinforcement learning (MARL) methods define the agents to be teammates or enemies before hand, which fail to capture the essence of SDP where the role of each agent varies to be cooperative or competitive even within one episode. To simulate SDP with MARL, a key challenge is to coordinate agents' behaviors while still maximizing individual objectives. Taking traffic simulation as the testing bed, in this work we develop a novel MARL method called Coordinated Policy Optimization (CoPO), which incorporates social psychology principle to learn neural controller for SDP. Experiments show that the proposed method can achieve superior performance compared to MARL baselines in various metrics. Noticeably the trained vehicles exhibit complex and diverse social behaviors that improve performance and safety of the population as a whole. Demo video and source code are available at: https://decisionforce.github.io/CoPO/
翻訳日:2021-10-27 15:48:33 公開日:2021-10-26
# 平均回帰学習とオプションによる計画

Average-Reward Learning and Planning with Options ( http://arxiv.org/abs/2110.13855v1 )

ライセンス: Link先を確認
Yi Wan, Abhishek Naik, Richard S. Sutton(参考訳) 我々は,減算マルコフ決定過程(MDP)から平均回帰MDPへの強化学習における時間的抽象化の枠組みを拡張した。 コントリビューションには、一般の外部選択型学習アルゴリズム、学習値とモデルのためのオプション内アルゴリズム、および学習アルゴリズムのサンプルベースの計画バリエーションが含まれている。 我々のアルゴリズムと収束証明は、最近Wan, Naik, Suttonによって開発されたものを拡張する。 また,オプション中断行動の概念を,ディスカウントから平均回帰定式化まで拡張する。 本稿では,提案アルゴリズムの有効性を,Four-Roomドメインの継続バージョンに対する実験により示す。

We extend the options framework for temporal abstraction in reinforcement learning from discounted Markov decision processes (MDPs) to average-reward MDPs. Our contributions include general convergent off-policy inter-option learning algorithms, intra-option algorithms for learning values and models, as well as sample-based planning variants of our learning algorithms. Our algorithms and convergence proofs extend those recently developed by Wan, Naik, and Sutton. We also extend the notion of option-interrupting behavior from the discounted to the average-reward formulation. We show the efficacy of the proposed algorithms with experiments on a continuing version of the Four-Room domain.
翻訳日:2021-10-27 15:48:07 公開日:2021-10-26
# モーメント・コンディション・バリアを破る:超大型ペイオフバンドの非回帰アルゴリズム

Breaking the Moments Condition Barrier: No-Regret Algorithm for Bandits with Super Heavy-Tailed Payoffs ( http://arxiv.org/abs/2110.13876v1 )

ライセンス: Link先を確認
Han Zhong, Jiayi Huang, Lin F. Yang, Liwei Wang(参考訳) 機械学習における重み付きエラーの処理には多大な労力がかかるが、エラーのモーメントが存在しない場合はほとんど知られていない: ランダムノイズ $\eta$ satisfies Pr$\left[|\eta| > |y|\right] \le 1/|y|^{\alpha}$ for some $\alpha > 0$。 我々は,このような超重み付き雑音をバンディット学習問題において積極的に扱うための最初の試みとして,経験的中央値列の経験平均を計算し,確率変数を推定する新しい頑健な統計推定器,中央値平均を提案する。 次に,バンディット学習問題(多腕および線形バンディット問題を含む)を解決するための汎用的還元主義的アルゴリズムフレームワークを提案する。 報酬信号に対するブラックボックスフィルタリングとして,ほぼすべてのバンディット学習アルゴリズムに適用できる。 非常に重い音でも、後悔の限界はほぼ最適であることを示す。 また,提案アルゴリズムの有効性を実証的に実証し,理論的結果をさらに裏付ける。

Despite a large amount of effort in dealing with heavy-tailed error in machine learning, little is known when moments of the error can become non-existential: the random noise $\eta$ satisfies Pr$\left[|\eta| > |y|\right] \le 1/|y|^{\alpha}$ for some $\alpha > 0$. We make the first attempt to actively handle such super heavy-tailed noise in bandit learning problems: We propose a novel robust statistical estimator, mean of medians, which estimates a random variable by computing the empirical mean of a sequence of empirical medians. We then present a generic reductionist algorithmic framework for solving bandit learning problems (including multi-armed and linear bandit problem): the mean of medians estimator can be applied to nearly any bandit learning algorithm as a black-box filtering for its reward signals and obtain similar regret bound as if the reward is sub-Gaussian. We show that the regret bound is near-optimal even with very heavy-tailed noise. We also empirically demonstrate the effectiveness of the proposed algorithm, which further corroborates our theoretical results.
翻訳日:2021-10-27 15:47:58 公開日:2021-10-26
# 時系列の深部明示的継続時間切替モデル

Deep Explicit Duration Switching Models for Time Series ( http://arxiv.org/abs/2110.13878v1 )

ライセンス: Link先を確認
Abdul Fatir Ansari, Konstantinos Benidis, Richard Kurle, Ali Caner Turkmen, Harold Soh, Alexander J. Smola, Yuyang Wang, Tim Januschowski(参考訳) 多くの複雑な時系列は、永続力学を示す異なるレギュレーションに効果的に分割することができる。 これらのレジームにおけるスイッチング挙動と統計パターンの発見は、基礎となる力学系を理解する上で重要である。 本稿では,状態依存と時間依存の切り替えを両立できるフレキシブルモデルであるRecurrent Explicit Duration Switching Dynamical System (RED-SDS)を提案する。 状態依存スイッチングは、繰り返し状態-スイッチ接続によって可能となり、時間依存スイッチング動作を改善するために明示的な期間カウント変数が使用される。 提案手法は,連続状態の後部を推論ネットワークで近似し,離散スイッチとカウントの正確な推論を行うハイブリッドアルゴリズムを用いて,効率的な推論を行う方法を示す。 このモデルは、推論ルーチンの副産物として効率的に計算できる限界ログ類似性のモンテカルロ下限を最大化することによって訓練される。 複数のデータセットに対する実験結果から,RED-SDSは時系列セグメンテーションおよび競合予測性能において,技術状況に対する大幅な改善を実現することが示された。

Many complex time series can be effectively subdivided into distinct regimes that exhibit persistent dynamics. Discovering the switching behavior and the statistical patterns in these regimes is important for understanding the underlying dynamical system. We propose the Recurrent Explicit Duration Switching Dynamical System (RED-SDS), a flexible model that is capable of identifying both state- and time-dependent switching dynamics. State-dependent switching is enabled by a recurrent state-to-switch connection and an explicit duration count variable is used to improve the time-dependent switching behavior. We demonstrate how to perform efficient inference using a hybrid algorithm that approximates the posterior of the continuous states via an inference network and performs exact inference for the discrete switches and counts. The model is trained by maximizing a Monte Carlo lower bound of the marginal log-likelihood that can be computed efficiently as a byproduct of the inference routine. Empirical results on multiple datasets demonstrate that RED-SDS achieves considerable improvement in time series segmentation and competitive forecasting performance against the state of the art.
翻訳日:2021-10-27 15:47:35 公開日:2021-10-26
# 2層ネット上のグラディエントDescent:Margin MaximizationとSimplicity Bias

Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias ( http://arxiv.org/abs/2110.13905v1 )

ライセンス: Link先を確認
Kaifeng Lyu, Zhiyuan Li, Runzhe Wang, Sanjeev Arora(参考訳) 過度にパラメータ化されたディープネットの一般化ミステリーは、勾配降下(GD)がよく一般化される低損失解にどのように収束するかを理解するために動機づけられた。 実生活のニューラルネットワークは、小さなランダムな値から初期化され、分類のためのクロスエントロピー損失(分析がより成功した「怠慢」や「NTK」の体系とは違って)で訓練され、最近の一連の結果(Lyu and Li, 2020; Chizat and Bach, 2020; Ji and Telgarsky, 2020)は、GDがゼロ損失の「マックスマージン」解に収束できるという理論的証拠を提供する。 しかし、マージンのグローバルな最適性は、ニューラルネットが無限にまたは指数関数的に広い設定でのみ証明される。 本論文は, 線形分離性と対称性によらず, 勾配流で訓練された2層リーク型リルーネットのこの大域的最適性を確立することができる。 この分析はまた、gdが線形あるいは他の「単純」な解のクラス、特にトレーニングの早い段階に対して、いわゆる単純バイアスについて、最近の経験的知見(kalimeris et al., 2019)に対する理論的正当性も与えている。 悲観的な側面から、論文はそのような結果は壊れやすいことを示唆している。 単純なデータ操作により、勾配フローを最適化マージンの線形分類器に収束させることができる。

The generalization mystery of overparametrized deep nets has motivated efforts to understand how gradient descent (GD) converges to low-loss solutions that generalize well. Real-life neural networks are initialized from small random values and trained with cross-entropy loss for classification (unlike the "lazy" or "NTK" regime of training where analysis was more successful), and a recent sequence of results (Lyu and Li, 2020; Chizat and Bach, 2020; Ji and Telgarsky, 2020) provide theoretical evidence that GD may converge to the "max-margin" solution with zero loss, which presumably generalizes well. However, the global optimality of margin is proved only in some settings where neural nets are infinitely or exponentially wide. The current paper is able to establish this global optimality for two-layer Leaky ReLU nets trained with gradient flow on linearly separable and symmetric data, regardless of the width. The analysis also gives some theoretical justification for recent empirical findings (Kalimeris et al., 2019) on the so-called simplicity bias of GD towards linear or other "simple" classes of solutions, especially early in training. On the pessimistic side, the paper suggests that such results are fragile. A simple data manipulation can make gradient flow converge to a linear classifier with suboptimal margin.
翻訳日:2021-10-27 15:47:15 公開日:2021-10-26
# AIはルールをどう解釈すべきか? 最小限の解釈的議論の防御

How Should AI Interpret Rules? A Defense of Minimally Defeasible Interpretive Argumentation ( http://arxiv.org/abs/2110.13341v1 )

ライセンス: Link先を確認
John Licato(参考訳) 人工知能システムはルールに従うことができるか? すべての(現在)aiが、高度に形式化され、明確に定義されたルールセットで構築されたプログラミングコードに従って厳密に行動するという意味で、この答えは明白な‘yes’に思える。 しかし、ここでは、法律、規則、行動規範、倫理ガイドラインなどの基礎となる、人間の言語で表現される規則の種類について言及します。 そのようなルールに従う能力、そしてそれらを推論する能力は、最初の分析で見られるほど明確ではない。 現実世界の規則は必然的にオープンテクスチャ付き用語で区切られ、その規則はおそらく無限の解釈を持つ。 このセットを絞り込むには、現在のAIの範囲内にない複雑な推論プロセスが必要です。 これは自律aiにとって深刻な問題となる。オープンテキストの用語を推論できない場合、現実世界のルールに合致する(あるいは従う)ことはできない。 そして、もし現実世界の規則について説明できないなら、人間法に従うこと、規則に従うこと、書面による合意に従って行動すること、あるいは簡単なこと以上のミッション固有の命令に従うことさえできない。 しかし、これらの問題に取り組む前に、私たちはまず、より根本的な質問に答えなければならない。 それとももっと正確に言えば、我々の人工知能システムはどの解釈を正しいと判断すべきか? このエッセイにおいて、私は以下の答えを擁護する: ルールに従うAIは、最小限のデファシブル解釈論(MDIA)によって最も支持される解釈に従って行動すべきである。

Can artificially intelligent systems follow rules? The answer might seem an obvious `yes', in the sense that all (current) AI strictly acts in accordance with programming code constructed from highly formalized and well-defined rulesets. But here I refer to the kinds of rules expressed in human language that are the basis of laws, regulations, codes of conduct, ethical guidelines, and so on. The ability to follow such rules, and to reason about them, is not nearly as clear-cut as it seems on first analysis. Real-world rules are unavoidably rife with open-textured terms, which imbue rules with a possibly infinite set of possible interpretations. Narrowing down this set requires a complex reasoning process that is not yet within the scope of contemporary AI. This poses a serious problem for autonomous AI: If one cannot reason about open-textured terms, then one cannot reason about (or in accordance with) real-world rules. And if one cannot reason about real-world rules, then one cannot: follow human laws, comply with regulations, act in accordance with written agreements, or even obey mission-specific commands that are anything more than trivial. But before tackling these problems, we must first answer a more fundamental question: Given an open-textured rule, what is its correct interpretation? Or more precisely: How should our artificially intelligent systems determine which interpretation to consider correct? In this essay, I defend the following answer: Rule-following AI should act in accordance with the interpretation best supported by minimally defeasible interpretive arguments (MDIA).
翻訳日:2021-10-27 15:46:04 公開日:2021-10-26
# 音声音声翻訳における評価基準の評価

Assessing Evaluation Metrics for Speech-to-Speech Translation ( http://arxiv.org/abs/2110.13877v1 )

ライセンス: Link先を確認
Elizabeth Salesky, Julian M\"ader, Severin Klinger(参考訳) 音声音声翻訳は、機械翻訳と音声合成を組み合わせて、どちらのタスクにも存在しない評価課題を導入する。 音声から音声への翻訳を自動的に評価する方法は、これまで検討されていないオープンな質問である。 テキストではなく音声に翻訳することは、しばしば標準化された正書法を使わずに書かれた言語や言語によって動機づけられる。 しかし,本稿では,これまで使用されていた自動メトリクスが,標準化された高リソース言語のみに最も適していることを示す。 本研究では,まず音声音声翻訳の現在の指標を評価し,第2に,標準言語よりも方言変種への翻訳が様々な評価方法に与える影響を評価する。

Speech-to-speech translation combines machine translation with speech synthesis, introducing evaluation challenges not present in either task alone. How to automatically evaluate speech-to-speech translation is an open question which has not previously been explored. Translating to speech rather than to text is often motivated by unwritten languages or languages without standardized orthographies. However, we show that the previously used automatic metric for this task is best equipped for standardized high-resource languages only. In this work, we first evaluate current metrics for speech-to-speech translation, and second assess how translation to dialectal variants rather than to standardized languages impacts various evaluation methods.
翻訳日:2021-10-27 15:45:37 公開日:2021-10-26
# WavLM:フルスタック音声処理のための大規模自己監督型事前訓練

WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing ( http://arxiv.org/abs/2110.13900v1 )

ライセンス: Link先を確認
Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Micheal Zeng, Furu Wei(参考訳) 自己教師付き学習(SSL)は音声認識において大きな成功を収め、他の音声処理タスクに対しては限定的な探索が試みられている。 音声信号には、話者識別、パラ言語学、音声コンテンツなど多面的情報が含まれているため、全ての音声タスクの普遍表現を学ぶことは困難である。 本稿では,フルスタックのダウンストリーム音声タスクを解決するための新しい事前学習モデルwavlmを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。 まず, トランス構造にゲート相対位置バイアスを適用し, 認識タスクの能力を向上させる。 話者識別を改善するために,モデルの学習中に重なり合う発話を教師なしに生成し,組み込む発話混合訓練戦略を提案する。 最後に、トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、トレーニング手順を最適化して表現抽出を改善する。 WavLM LargeはSUPERBベンチマークで最先端のパフォーマンスを実現し、代表ベンチマークで様々な音声処理タスクに大幅な改善をもたらす。

Self-supervised learning (SSL) achieves great success in speech recognition, while limited exploration has been attempted for other speech processing tasks. As speech signal contains multi-faceted information including speaker identity, paralinguistics, spoken content, etc., learning universal representations for all speech tasks is challenging. In this paper, we propose a new pre-trained model, WavLM, to solve full-stack downstream speech tasks. WavLM is built based on the HuBERT framework, with an emphasis on both spoken content modeling and speaker identity preservation. We first equip the Transformer structure with gated relative position bias to improve its capability on recognition tasks. For better speaker discrimination, we propose an utterance mixing training strategy, where additional overlapped utterances are created unsupervisely and incorporated during model training. Lastly, we scale up the training dataset from 60k hours to 94k hours of public audio data, and optimize its training procedure for better representation extraction. WavLM Large achieves state-of-the-art performance on the SUPERB benchmark, and brings significant improvements for various speech processing tasks on their representative benchmarks.
翻訳日:2021-10-27 15:45:25 公開日:2021-10-26
# カメラを用いた生理センシング : 課題と今後の展望

Camera-Based Physiological Sensing: Challenges and Future Directions ( http://arxiv.org/abs/2110.13362v1 )

ライセンス: Link先を確認
Xin Liu, Shwetak Patel, Daniel McDuff(参考訳) 最近の人工知能(AI)のアルゴリズムの進歩によって、多くの現実世界の応用が推進されている。 ヘルスケアは例外ではなく、AI技術は業界に革命をもたらす大きな可能性を秘めている。 リモート光胸腺撮影(remote photoplethysmography, RPPG)は、通常のRGBカメラ(例えばウェブカメラやスマートフォンカメラ)を利用して、生理学的プロセスによって反射される身体からの電磁波(例えば、光)の微妙な変化を捉える画像のセットである。 カメラの相対的なユビキタス性のため、これらの方法は、身体に接触せずに信号を計測するだけでなく、同じセンサーから複数のモーダル情報(例えば、表情、アクティビティ、その他のコンテキスト)をキャプチャする機会を持っている。 しかし、アクセシブルで公平で有用なカメラベースの生理学的センシングシステムの開発には様々な課題が伴う。 本稿では、カメラベースの生理学的センシングとより広範なAI駆動型医療コミュニティの分野における4つの研究課題を特定し、これらに取り組むための今後の方向性を提案する。 これらの課題の解決は、現実と臨床の状況において実践的な医療のための正確で公平で汎用的なAIシステムを実現するのに役立ちます。

Numerous real-world applications have been driven by the recent algorithmic advancement of artificial intelligence (AI). Healthcare is no exception and AI technologies have great potential to revolutionize the industry. Non-contact camera-based physiological sensing, including remote photoplethysmography (rPPG), is a set of imaging methods that leverages ordinary RGB cameras (e.g., webcam or smartphone camera) to capture subtle changes in electromagnetic radiation (e.g., light) reflected by the body caused by physiological processes. Because of the relative ubiquity of cameras, these methods not only have the ability to measure the signals without contact with the body but also have the opportunity to capture multimodal information (e.g., facial expressions, activities and other context) from the same sensor. However, developing accessible, equitable and useful camera-based physiological sensing systems comes with various challenges. In this article, we identify four research challenges for the field of camera-based physiological sensing and broader AI driven healthcare communities and suggest future directions to tackle these. We believe solving these challenges will help deliver accurate, equitable and generalizable AI systems for healthcare that are practical in real-world and clinical contexts.
翻訳日:2021-10-27 15:43:29 公開日:2021-10-26
# 持続的エントロピーとニューラルネットワークを用いた音声映像における感情認識

Emotion recognition in talking-face videos using persistent entropy and neural networks ( http://arxiv.org/abs/2110.13571v1 )

ライセンス: Link先を確認
Eduardo Paluzo-Hidalgo, Guillermo Aguirre-Carrazana, Rocio Gonzalez-Diaz(参考訳) 人の感情状態の自動認識は、人工知能、コンピュータビジョン、心理学など、さまざまな分野の科学者が関与する非常に活発な研究分野となっている。 この研究の主な目的は、永続的エントロピーとニューラルネットワークを主要なツールとして、会話のビデオから感情を認識し分類する、新しいアプローチを開発することです。 具体的には、音声信号と画像シーケンス情報を組み合わせて、各ビデオのトポロジーシグネチャ(9次元ベクトル)を計算する。 ビデオの小さな変化は、署名に小さな変化をもたらすことを証明している。 これらのトポロジカルなシグネチャは、ニューラルネットワークに餌を与え、以下の感情を区別するために使用される: 中性、穏やか、幸福、悲しい、怒り、恐れ、嫌悪、驚き。 成果は有望で競争力があり、文献にある他の最先端作品のパフォーマンスを上回っています。

The automatic recognition of a person's emotional state has become a very active research field that involves scientists specialized in different areas such as artificial intelligence, computer vision or psychology, among others. Our main objective in this work is to develop a novel approach, using persistent entropy and neural networks as main tools, to recognise and classify emotions from talking-face videos. Specifically, we combine audio-signal and image-sequence information to compute a topology signature(a 9-dimensional vector) for each video. We prove that small changes in the video produce small changes in the signature. These topological signatures are used to feed a neural network to distinguish between the following emotions: neutral, calm, happy, sad, angry, fearful, disgust, and surprised. The results reached are promising and competitive, beating the performance reached in other state-of-the-art works found in the literature.
翻訳日:2021-10-27 15:42:12 公開日:2021-10-26
# NeRV: ビデオのためのニューラル表現

NeRV: Neural Representations for Videos ( http://arxiv.org/abs/2110.13903v1 )

ライセンス: Link先を確認
Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava(参考訳) 本稿では,ニューラルネットワークに映像をエンコードするビデオ用ニューラル表現(nerv)を提案する。 ビデオをフレームシーケンスとして扱う従来の表現とは異なり、ビデオはフレームインデックスを入力とするニューラルネットワークとして表現する。 フレームインデックスが与えられた場合、NeRVは対応するRGB画像を出力する。 NeRVのビデオ符号化は、単にニューラルネットワークをビデオフレームに適合させることであり、デコーディングプロセスは単純なフィードフォワード操作である。 画像単位の暗示表現として、NeRVは画像全体を出力し、ピクセル単位の暗示表現と比較して高い効率を示し、符号化速度を25倍から70倍、復号速度を38倍から132倍に改善し、画質の向上を実現した。 このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。 例えば、従来のビデオ圧縮手法は、タスク用に特別に設計された長く複雑なパイプラインによって制限される。 対照的に、NERVでは、任意のニューラルネットワーク圧縮をビデオ圧縮のプロキシとして使用することができ、従来のフレームベースのビデオ圧縮アプローチ(H.264, HEVC \etc)と同等のパフォーマンスを実現することができる。 圧縮に加えて,ビデオデノーミングのためのNeRVの一般化を示す。 ソースコードと事前トレーニングされたモデルはhttps://github.com/haochen-rye/NeRV.git.comにある。

We propose a novel neural representation for videos (NeRV) which encodes videos in neural networks. Unlike conventional representations that treat videos as frame sequences, we represent videos as neural networks taking frame index as input. Given a frame index, NeRV outputs the corresponding RGB image. Video encoding in NeRV is simply fitting a neural network to video frames and decoding process is a simple feedforward operation. As an image-wise implicit representation, NeRV output the whole image and shows great efficiency compared to pixel-wise implicit representation, improving the encoding speed by 25x to 70x, the decoding speed by 38x to 132x, while achieving better video quality. With such a representation, we can treat videos as neural networks, simplifying several video-related tasks. For example, conventional video compression methods are restricted by a long and complex pipeline, specifically designed for the task. In contrast, with NeRV, we can use any neural network compression method as a proxy for video compression, and achieve comparable performance to traditional frame-based video compression approaches (H.264, HEVC \etc). Besides compression, we demonstrate the generalization of NeRV for video denoising. The source code and pre-trained model can be found at https://github.com/haochen-rye/NeRV.git.
翻訳日:2021-10-27 15:41:55 公開日:2021-10-26
# (参考訳) x-cornerチェスボード検出器を用いたピラミッド型ぼやけ検出

Pyramidal Blur Aware X-Corner Chessboard Detector ( http://arxiv.org/abs/2110.13793v1 )

ライセンス: CC BY 4.0
Peter Abeles(参考訳) カメラの解像度が向上し、ロボットプラットフォームを理想的な環境以下で迅速に再調整する必要があるため、より高速で堅牢なチェスボードフィデューシャルマーカー検出器が必要である。 高分解能画像、焦点/動きのぼやき、厳しい照明条件、背景クラッタなどに特化した新しいチェス盤検出器が提案されている。 これは新しいx-corner検出器を使用して実現され、初めてぼかしを推定し、コーナーのローカライズ、エッジ検証、接続性を高める新しい方法で使用する。 パフォーマンスは、複数のサードパーティデータセットを組み合わせて作成された多様なイメージセットを使用して測定され、他のライブラリと比較される。 提案された検出器はF1-Scoreが0.97で、次の最速よりも1.9倍速く動作し、コーナー精度の最高性能であり、全てのシナリオで一貫した性能を持つ唯一の検出器である。

With camera resolution ever increasing and the need to rapidly recalibrate robotic platforms in less than ideal environments, there is a need for faster and more robust chessboard fiducial marker detectors. A new chessboard detector is proposed that is specifically designed for: high resolution images, focus/motion blur, harsh lighting conditions, and background clutter. This is accomplished using a new x-corner detector, where for the first time blur is estimated and used in a novel way to enhance corner localization, edge validation, and connectivity. Performance is measured and compared against other libraries using a diverse set of images created by combining multiple third party datasets and including new specially crafted scenarios designed to stress the state-of-the-art. The proposed detector has the best F1- Score of 0.97, runs 1.9x faster than next fastest, and is a top performer for corner accuracy, while being the only detector to have consistent good performance in all scenarios.
翻訳日:2021-10-27 15:39:00 公開日:2021-10-26
# H-NeRF:人間の動作におけるレンダリングと時間再構成のための神経放射場

H-NeRF: Neural Radiance Fields for Rendering and Temporal Reconstruction of Humans in Motion ( http://arxiv.org/abs/2110.13746v1 )

ライセンス: Link先を確認
Hongyi Xu, Thiemo Alldieck, Cristian Sminchisescu(参考訳) 本研究では,低周波カメラや単眼ビデオで捉えた人間の動作をレンダリング・時間的(4D)再構成するためのH-NeRF,神経放射場について述べる。 nerfにインスパイアされたアプローチは、ニューラルネットワークのシーン表現、新しい視点合成、暗黙の統計幾何学的人間表現からアイデアを組み合わせる。 h-nerfは、観察対象の画像を新しいカメラビューと人間のポーズで正確に合成することができる。 空の空間で放射場を学習する代わりに、符号付き距離関数を用いて表される暗黙の人体モデルにそれを付加する。 これにより、スパースビューから情報を堅牢に融合し、テスト時に観測されたポーズやビューを超えて外挿することが可能になります。 さらに, 観測対象の構造(体と衣服の両方を含む)を共学習し, 放射場を幾何学的可算解に正則化するために幾何学的制約を適用する。 複数のデータセットに関する広範囲な実験によって、我々のアプローチの堅牢性と正確性が、ポーズとビューのスパースなトレーニングセットを超えた一般化能力を示している。

We present H-NeRF, neural radiance fields for rendering and temporal (4D) reconstruction of a human in motion as captured by a sparse set of cameras or even from a monocular video. Our NeRF-inspired approach combines ideas from neural scene representation, novel-view synthesis, and implicit statistical geometric human representations. H-NeRF allows to accurately synthesize images of the observed subject under novel camera views and human poses. Instead of learning a radiance field in empty space, we attach it to a structured implicit human body model, represented using signed distance functions. This allows us to robustly fuse information from sparse views and, at test time, to extrapolate beyond the observed poses or views. Moreover, we apply geometric constraints to co-learn the structure of the observed subject (including both body and clothing) and to regularize the radiance field to geometrical plausible solutions. Extensive experiments on multiple datasets demonstrate the robustness and accuracy of our approach and its generalization capabilities beyond the sparse training set of poses and views.
翻訳日:2021-10-27 15:26:26 公開日:2021-10-26
# 核検出と弱教師付きセグメンテーションのための軽量解釈可能な合成ネットワーク

A Light-weight Interpretable CompositionalNetwork for Nuclei Detection and Weakly-supervised Segmentation ( http://arxiv.org/abs/2110.13846v1 )

ライセンス: Link先を確認
Yixiao Zhang, Adam Kortylewski, Qing Liu, Seyoun Park, Benjamin Green, Elizabeth Engle, Guillermo Almodovar, Ryan Walk, Sigfredo Soto-Diaz, Janis Taube, Alex Szalay, and Alan Yuille(参考訳) ディープニューラルネットワークが広く適用されて以来、計算病理学の分野は大きな進歩を遂げている。 これらの深層ニューラルネットワークは通常、膨大なパラメータをトレーニングするために大量の注釈付きデータを必要とする。 しかしながら、大きな病理組織学データセットに注釈をつけるにはかなりの労力を要する。 スライド画像全体ではなく,特に孤立した核に部分的なアノテーションのみを必要とするデータ効率モデルを構築することを提案する。 バックボーンとして浅い特徴を利用し、軽量であるため、少数のデータがトレーニングに十分である。 さらに、それは生成的構成モデルであり、その予測において解釈可能性を楽しむ。 提案手法は,深層学習におけるデータ・ハングリー問題に対する代替手法となる可能性がある。

The field of computational pathology has witnessed great advancements since deep neural networks have been widely applied. These deep neural networks usually require large numbers of annotated data to train vast parameters. However, it takes significant effort to annotate a large histopathology dataset. We propose to build a data-efficient model, which only requires partial annotation, specifically on isolated nucleus, rather than on the whole slide image. It exploits shallow features as its backbone and is light-weight, therefore a small number of data is sufficient for training. What's more, it is a generative compositional model, which enjoys interpretability in its prediction. The proposed method could be an alternative solution for the data-hungry problem of deep learning methods.
翻訳日:2021-10-27 15:26:05 公開日:2021-10-26
# HR-RCNN:オブジェクト検出のための階層的関係推論

HR-RCNN: Hierarchical Relational Reasoning for Object Detection ( http://arxiv.org/abs/2110.13892v1 )

ライセンス: Link先を確認
Hao Chen, Abhinav Shrivastava(参考訳) 物体認識のためのニューラルネットワークにリレーショナル推論を組み込むことは、未解決の問題である。 関係推論のために多くの試みがなされているが、一般的には1種類の関係のみを考える。 例えば、自己注意(例えば非局所ネットワーク)による画素関係、特徴融合(例えば、特徴ピラミッドネットワーク)によるスケール関係、グラフ畳み込み(例えば、推論-RCNN)によるオブジェクト関係などである。 これらの関係を推論できるより一般的なフレームワークにはほとんど注意が払われていない。 本稿では,新しいグラフアテンションモジュール(GAM)を用いたオブジェクト検出のための階層型リレーショナル推論フレームワーク(HR-RCNN)を提案する。 このGAMは、グラフエッジを直接操作することで、異種ノード間の推論を可能にする簡潔なモジュールである。 異種関係を利用したHR-RCNNでは,オブジェクト検出とインスタンスセグメンテーションの両方においてCOCOデータセットが大幅に改善されている。

Incorporating relational reasoning in neural networks for object recognition remains an open problem. Although many attempts have been made for relational reasoning, they generally only consider a single type of relationship. For example, pixel relations through self-attention (e.g., non-local networks), scale relations through feature fusion (e.g., feature pyramid networks), or object relations through graph convolutions (e.g., reasoning-RCNN). Little attention has been given to more generalized frameworks that can reason across these relationships. In this paper, we propose a hierarchical relational reasoning framework (HR-RCNN) for object detection, which utilizes a novel graph attention module (GAM). This GAM is a concise module that enables reasoning across heterogeneous nodes by operating on the graph edges directly. Leveraging heterogeneous relationships, our HR-RCNN shows great improvement on COCO dataset, for both object detection and instance segmentation.
翻訳日:2021-10-27 15:25:54 公開日:2021-10-26
# 正弦波流:高速非可逆自己回帰流

Sinusoidal Flow: A Fast Invertible Autoregressive Flow ( http://arxiv.org/abs/2110.13344v1 )

ライセンス: Link先を確認
Yumou Wei(参考訳) 正規化フローは連続確率分布をモデリングする柔軟な方法を提供する。 正規化フローが持つべき3つの望ましい性質として,表現性,高速反転,ジャコビアン行列式を考える。 しかし、これらの特性の中で適切なバランスをとることができるフローモデルはほとんどない。 二乗正弦関数の凸和の積分が単射残差変換をもたらすことを認識し、バナッハの不動点定理によって保証されながら完全自己回帰流から表現力と三角ヤコビアンを継承し、完全自己回帰流において通常必要とされる逐次インバージョンの必要性を回避できる新しいタイプの正弦波流を提案する。 実験の結果,Sinusoidal Flowは複雑な分布をモデル化できるだけでなく,多数の変換層を積み重ねた場合でも,現実的なサンプルを生成するために確実に逆転できることがわかった。

Normalising flows offer a flexible way of modelling continuous probability distributions. We consider expressiveness, fast inversion and exact Jacobian determinant as three desirable properties a normalising flow should possess. However, few flow models have been able to strike a good balance among all these properties. Realising that the integral of a convex sum of sinusoidal functions squared leads to a bijective residual transformation, we propose Sinusoidal Flow, a new type of normalising flows that inherits the expressive power and triangular Jacobian from fully autoregressive flows while guaranteed by Banach fixed-point theorem to remain fast invertible and thereby obviate the need for sequential inversion typically required in fully autoregressive flows. Experiments show that our Sinusoidal Flow is not only able to model complex distributions, but can also be reliably inverted to generate realistic-looking samples even with many layers of transformations stacked.
翻訳日:2021-10-27 15:22:25 公開日:2021-10-26
# 多次元関係を持つ多数のタスクに対する多面階層型マルチタスク学習

Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimensional Relations ( http://arxiv.org/abs/2110.13365v1 )

ライセンス: Link先を確認
Junning Liu, Zijie Xia, Yu Lei, Xinjian Li, Xu Wang(参考訳) マルチタスク学習(MTL)における共有学習の効率化に関する研究が数多く行われている。 以前の作業では、少数のタスクの"マイクロ"共有の観点から焦点を当てていたが、レコメンデータシステム(rs)や他のaiアプリケーションでは、多次元タスク関係を持つ多数のタスクをモデル化する必要がある場合が多い。 例えば、mtlを使ってrsの様々なユーザー動作をモデル化する場合、新しいユーザーと新しいアイテムを古いものと区別すると、多次元関係を持つタスクのデカルト的な製品スタイルが増加する。 本研究は,共有学習ネットワーク設計の「マクロ」視点を考察し,MFH(Multi-Faceted Hierarchical MTL model)を提案する。 MFHは、共有学習を最大化するネスト付き階層木構造とマルチ次元タスク関係を利用する。 我々は,100億サンプルの大規模産業ビデオプラットフォームにおけるmfhおよびsomaモデルを評価し,その結果,mfhは全ユーザグループにおけるオフラインおよびオンライン評価においてsata mtlモデルを大幅に上回り,特にオンラインユーザでは1ユーザあたりのアプリタイムが9.1\%,翌日の保持率は1.85\%と,特に顕著であった。 MFHは現在、大規模なオンラインビデオレコメンデーションシステムにデプロイされている。 MFHは、新しいユーザや新しいアイテムが"ローカルなオーバーフィット"現象に苦しむRSのコールドスタート問題に特に有益である。 しかし、このアイデアは実際には一般的なものであり、他のMTLシナリオにも広く適用できる。

There has been many studies on improving the efficiency of shared learning in Multi-Task Learning(MTL). Previous work focused on the "micro" sharing perspective for a small number of tasks, while in Recommender Systems(RS) and other AI applications, there are often demands to model a large number of tasks with multi-dimensional task relations. For example, when using MTL to model various user behaviors in RS, if we differentiate new users and new items from old ones, there will be a cartesian product style increase of tasks with multi-dimensional relations. This work studies the "macro" perspective of shared learning network design and proposes a Multi-Faceted Hierarchical MTL model(MFH). MFH exploits the multi-dimension task relations with a nested hierarchical tree structure which maximizes the shared learning. We evaluate MFH and SOTA models in a large industry video platform of 10 billion samples and results show that MFH outperforms SOTA MTL models significantly in both offline and online evaluations across all user groups, especially remarkable for new users with an online increase of 9.1\% in app time per user and 1.85\% in next-day retention rate. MFH now has been deployed in a large scale online video recommender system. MFH is especially beneficial to the cold-start problems in RS where new users and new items often suffer from a "local overfitting" phenomenon. However, the idea is actually generic and widely applicable to other MTL scenarios.
翻訳日:2021-10-27 15:22:06 公開日:2021-10-26
# 部分順序:不確実な特徴属性の一致を見つける

Partial order: Finding Consensus among Uncertain Feature Attributions ( http://arxiv.org/abs/2110.13369v1 )

ライセンス: Link先を確認
Gabriel Laberge, Yann Pequignot, Foutse Khomh, Mario Marchand, Alexandre Mathieu(参考訳) ポストホック機能の重要性は、複雑な機械学習モデルの決定を説明するために徐々に採用されている。 しかし、実際には、トレーニングアルゴリズムと/または説明器の再実行は、機能の重要性の矛盾するステートメントをもたらす可能性がある。 この問題に対処するための可能な手段は、機能の重要性に関するさまざまな説明を集約する戦略を開発することだ。 全順序を持つ算術平均は進歩してきたが、複数のモデル間のコンセンサスという別の方法を導入する。 この2つのアグリゲーション戦略を2つの回帰データセット上で統合的グラディエントとシェープリー値を用いて比較し、平均アグリゲーションが提供する情報の大部分は各モデルのコンセンサスによって支持されず、このプラクティスの信頼性に対する疑念を提起する。

Post-hoc feature importance is progressively being employed to explain decisions of complex machine learning models. Yet in practice, reruns of the training algorithm and/or the explainer can result in contradicting statements of feature importance, henceforth reducing trust in those techniques. A possible avenue to address this issue is to develop strategies to aggregate diverse explanations about feature importance. While the arithmetic mean, which yields a total order, has been advanced, we introduce an alternative: the consensus among multiple models, which results in partial orders. The two aggregation strategies are compared using Integrated Gradients and Shapley values on two regression datasets, and we show that a large portion of the information provided by the mean aggregation is not supported by the consensus of each individual model, raising suspicion on the trustworthiness of this practice.
翻訳日:2021-10-27 15:21:40 公開日:2021-10-26
# EnTRPO: エントロピー規則化による信頼領域政策最適化手法

EnTRPO: Trust Region Policy Optimization Method with Entropy Regularization ( http://arxiv.org/abs/2110.13373v1 )

ライセンス: Link先を確認
Sahar Roostaie, Mohammad Mehdi Ebadzadeh(参考訳) 信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、強化学習(RL)における政策探索アルゴリズムである。 連立政策を互いに近いものに制限する代理問題を反復的に解決した。 trpoはオンポリシーアルゴリズムである。 オンポリシーメソッドには、それぞれのポリシーを評価できるなど、多くのメリットがある。 しかし、彼らは通常、それまで存在した政策に関するすべての知識を捨てる。 本研究では、リプレイバッファを用いて、政治以外の学習環境からTRPOに借用する。 エントロピー正則化は通常、強化学習におけるポリシー最適化を改善するために使われる。 よりランダムな政策選択を奨励することで、探索と一般化を支援すると考えられている。 時間ステップで蓄積された {\pi} よりも有利なエントロピー正規化項をtrpoに付加する。 このアップデートをEnTRPOと呼びます。 実験により,entrpoはオリジナルのtrpoと比較してカートポール制御性能が向上することを示した。

Trust Region Policy Optimization (TRPO) is a popular and empirically successful policy search algorithm in reinforcement learning (RL). It iteratively solved the surrogate problem which restricts consecutive policies to be close to each other. TRPO is an on-policy algorithm. On-policy methods bring many benefits, like the ability to gauge each resulting policy. However, they typically discard all the knowledge about the policies which existed before. In this work, we use a replay buffer to borrow from the off-policy learning setting to TRPO. Entropy regularization is usually used to improve policy optimization in reinforcement learning. It is thought to aid exploration and generalization by encouraging more random policy choices. We add an Entropy regularization term to advantage over {\pi}, accumulated over time steps, in TRPO. We call this update EnTRPO. Our experiments demonstrate EnTRPO achieves better performance for controlling a Cart-Pole system compared with the original TRPO
翻訳日:2021-10-27 15:21:24 公開日:2021-10-26
# 非IIDデータを用いた半教師付きフェデレーション学習:アルゴリズムとシステム設計

Semi-Supervised Federated Learning with non-IID Data: Algorithm and System Design ( http://arxiv.org/abs/2110.13388v1 )

ライセンス: Link先を確認
Zhe Zhang, Shiyao Ma, Jiangtian Nie, Yi Wu, Qiang Yan, Xiaoke Xu and Dusit Niyato(参考訳) フェデレートラーニング(FL)は、エッジデバイス(またはクライアント)がデータをローカルに保持し、同時に高品質なグローバルモデルをトレーニングすることを可能にする。 しかし、現在の研究は一般的に、現地のクライアントのトレーニングデータが真面目であるという仮定に基づいている。 さらに、flは、統計的不均一性の課題、すなわち、クライアントのローカルトレーニングデータの分布は、非独立な同一分散(非iid)である。 本稿では,FLにおけるデータ可用性と非IIDの問題を解決することを目的とした,堅牢な半教師付きFLシステム設計を提案する。 特に本稿では,サーバ上のラベル付きデータとクライアント上のラベル付きデータのみを限定する,ラベル付きサーバのシナリオについて検討する。 本システム設計では,フェデレート混合 (fedmix) と呼ばれる問題に対処する新しい手法を提案する。 FedMix は、FL と半教師付き学習手法の単純な組み合わせを改善し、ラベル付き、ラベルなし、グローバルなモデルの解離学習のためのパラメータ分解戦略を設計する。 非iid問題を緩和するため,我々は,その頻度に応じて対応する局所モデルの重みを調整可能なfeedfreqアグリゲーションアルゴリズムという,クライアントのトレーニング参加頻度に基づく新しいアグリゲーションルールを提案する。 CIFAR-10データセットを総合評価した結果,提案手法の性能は現在のベースラインよりも有意に向上した。 当社のシステムは,非IIDレベルのクライアントデータに対して堅牢である点に注意が必要だ。

Federated Learning (FL) allows edge devices (or clients) to keep data locally while simultaneously training a shared high-quality global model. However, current research is generally based on an assumption that the training data of local clients have ground-truth. Furthermore, FL faces the challenge of statistical heterogeneity, i.e., the distribution of the client's local training data is non-independent identically distributed (non-IID). In this paper, we present a robust semi-supervised FL system design, where the system aims to solve the problem of data availability and non-IID in FL. In particular, this paper focuses on studying the labels-at-server scenario where there is only a limited amount of labeled data on the server and only unlabeled data on the clients. In our system design, we propose a novel method to tackle the problems, which we refer to as Federated Mixing (FedMix). FedMix improves the naive combination of FL and semi-supervised learning methods and designs parameter decomposition strategies for disjointed learning of labeled, unlabeled data, and global models. To alleviate the non-IID problem, we propose a novel aggregation rule based on the frequency of the client's participation in training, namely the FedFreq aggregation algorithm, which can adjust the weight of the corresponding local model according to this frequency. Extensive evaluations conducted on CIFAR-10 dataset show that the performance of our proposed method is significantly better than those of the current baseline. It is worth noting that our system is robust to different non-IID levels of client data.
翻訳日:2021-10-27 15:21:10 公開日:2021-10-26
# マルチサブジェクトニューロイメージングのための共有独立成分分析

Shared Independent Component Analysis for Multi-Subject Neuroimaging ( http://arxiv.org/abs/2110.13502v1 )

ライセンス: Link先を確認
Hugo Richard, Pierre Ablin, Bertrand Thirion, Alexandre Gramfort, Aapo Hyv\"arinen(参考訳) 共有応答モデリングは、複数のデータセットやビューから共通コンポーネントを識別したいという多視点学習問題である。 我々は,各ビューを混合ガウス雑音によって汚染された共有独立成分の線形変換としてモデル化する共有独立成分分析(shica)を提案する。 このモデルは, 成分が非ガウス的であるか, 雑音分散の多様性が十分ある場合, 同定可能であることを示す。 そこで, マルチセット正準相関解析により, 正しい混合行列を復元できることが示されるが, 少量のサンプリングノイズでも, マルチセットCCAは失敗する。 そこで本研究では,マルチセットCAA後の共同対角化手法を提案し,ShICA-Jと呼ばれる新しいアプローチを提案する。 シミュレーションにより,ShICA-Jは極めて高速に適合し,良好な結果が得られることを示す。 また,ShICA-Jは2次統計量に基づくものであるが,より正確かつ高コストなShICA-MLを用いて,コンポーネントの非ガウス性を活用することを提案する。 さらに、ShICAは共有コンポーネント推定の原則的な方法を備えている。 最後に,fmri と meg データセットにおいて,shica が代替品よりも正確な成分推定をもたらすことを実証的に示す。

We consider shared response modeling, a multi-view learning problem where one wants to identify common components from multiple datasets or views. We introduce Shared Independent Component Analysis (ShICA) that models each view as a linear transform of shared independent components contaminated by additive Gaussian noise. We show that this model is identifiable if the components are either non-Gaussian or have enough diversity in noise variances. We then show that in some cases multi-set canonical correlation analysis can recover the correct unmixing matrices, but that even a small amount of sampling noise makes Multiset CCA fail. To solve this problem, we propose to use joint diagonalization after Multiset CCA, leading to a new approach called ShICA-J. We show via simulations that ShICA-J leads to improved results while being very fast to fit. While ShICA-J is based on second-order statistics, we further propose to leverage non-Gaussianity of the components using a maximum-likelihood method, ShICA-ML, that is both more accurate and more costly. Further, ShICA comes with a principled method for shared components estimation. Finally, we provide empirical evidence on fMRI and MEG datasets that ShICA yields more accurate estimation of the components than alternatives.
翻訳日:2021-10-27 15:20:07 公開日:2021-10-26
# autodeuq: 不確実性定量化による自動ディープアンサンブル

AutoDEUQ: Automated Deep Ensemble with Uncertainty Quantification ( http://arxiv.org/abs/2110.13511v1 )

ライセンス: Link先を確認
Romain Egele, Romit Maulik, Krishnan Raghavan, Prasanna Balaprakash, Bethany Lusch(参考訳) ディープニューラルネットワークは、さまざまなタスクの強力な予測手段である。 しかし、直接不確かさを捉えていない。 ニューラルネットワークアンサンブルを使って不確実性を定量化することは、ベイジアンニューラルネットワークに基づくアプローチと競合すると同時に、より良い計算スケーラビリティの恩恵を受ける。 しかしながら、ニューラルネットワークのアンサンブルの構築は、アンサンブルの各メンバーに対して適切なニューラルネットワークアーキテクチャやハイパーパラメータを選択することに加えて、各モデルをトレーニングするコストが加算されるため、難しい作業である。 本稿では,深層ニューラルネットワークのアンサンブルを生成するための自動アプローチであるAutoDEUQを提案する。 提案手法は,結合型ニューラルアーキテクチャとハイパーパラメータ探索を利用してアンサンブルを生成する。 総分散の法則を用いて、深層アンサンブルの予測分散をアレエータ(データ)と認識(モデル)の不確かさに分解する。 我々は,AutoDEUQが確率論的バックプロパゲーション,モンテカルロのドロップアウト,ディープアンサンブル,分布自由アンサンブル,ハイパーアンサンブルメソッドを多くの回帰ベンチマークで上回ることを示す。

Deep neural networks are powerful predictors for a variety of tasks. However, they do not capture uncertainty directly. Using neural network ensembles to quantify uncertainty is competitive with approaches based on Bayesian neural networks while benefiting from better computational scalability. However, building ensembles of neural networks is a challenging task because, in addition to choosing the right neural architecture or hyperparameters for each member of the ensemble, there is an added cost of training each model. We propose AutoDEUQ, an automated approach for generating an ensemble of deep neural networks. Our approach leverages joint neural architecture and hyperparameter search to generate ensembles. We use the law of total variance to decompose the predictive variance of deep ensembles into aleatoric (data) and epistemic (model) uncertainties. We show that AutoDEUQ outperforms probabilistic backpropagation, Monte Carlo dropout, deep ensemble, distribution-free ensembles, and hyper ensemble methods on a number of regression benchmarks.
翻訳日:2021-10-27 15:19:44 公開日:2021-10-26
# 多次元リワード関数に対する分布強化学習

Distributional Reinforcement Learning for Multi-Dimensional Reward Functions ( http://arxiv.org/abs/2110.13578v1 )

ライセンス: Link先を確認
Pushi Zhang, Xiaoyu Chen, Li Zhao, Wei Xiong, Tao Qin, Tie-Yan Liu(参考訳) 値ベース強化学習(RL)アルゴリズムのトレンドは、値ネットワーク内のスカラー値関数よりも多くの情報を取得することである。 このブランチで最もよく知られている方法の1つは分布RLであり、スカラー値の代わりに分布をモデルとして返却する。 別の研究で、RLのハイブリッド報酬アーキテクチャ(HRA)は、各報酬源のソース固有値関数をモデル化し、性能にも有益であることを示した。 分散RLとハイブリッド報酬アーキテクチャの利点を完全に継承するために,分散RLを拡張した多次元分散DQN(MD3QN)を導入する。 共同分布モデリングの副産物として、MD3QNは報酬源ごとのリターンのランダム性だけでなく、異なるソースのランダム性の間のリッチな報酬相関も捉えることができる。 結合分布演算子の収束性を証明し、結合戻り分布とベルマン目標との最大平均差を最小化して経験的アルゴリズムを構築する。 実験では,多次元報酬関数を用いた前回のrl法と比較して,報奨関数が豊富な環境下での合同リターン分布を正確にモデル化した。

A growing trend for value-based reinforcement learning (RL) algorithms is to capture more information than scalar value functions in the value network. One of the most well-known methods in this branch is distributional RL, which models return distribution instead of scalar value. In another line of work, hybrid reward architectures (HRA) in RL have studied to model source-specific value functions for each source of reward, which is also shown to be beneficial in performance. To fully inherit the benefits of distributional RL and hybrid reward architectures, we introduce Multi-Dimensional Distributional DQN (MD3QN), which extends distributional RL to model the joint return distribution from multiple reward sources. As a by-product of joint distribution modeling, MD3QN can capture not only the randomness in returns for each source of reward, but also the rich reward correlation between the randomness of different sources. We prove the convergence for the joint distributional Bellman operator and build our empirical algorithm by minimizing the Maximum Mean Discrepancy between joint return distribution and its Bellman target. In experiments, our method accurately models the joint return distribution in environments with richly correlated reward functions, and outperforms previous RL methods utilizing multi-dimensional reward functions in the control setting.
翻訳日:2021-10-27 15:19:25 公開日:2021-10-26
# リアルタイム入札広告における検閲による任意分布モデリング

Arbitrary Distribution Modeling with Censorship in Real-Time Bidding Advertising ( http://arxiv.org/abs/2110.13587v1 )

ライセンス: Link先を確認
Xu Li, Michelle Ma Zhang, Youjun Tong, Zhenya Wang(参考訳) 在庫価格の目的は、オンライン広告の機会に適切な価格を入札することであり、リアルタイム入札(rtb)で広告オークションに勝つために需要側プラットフォーム(dsp)にとって重要である。 計画段階では、広告主は入札決定を行うために確率モデルを予測する必要がある。 しかし、以前の作品の多くは、勝利価格の分配形式を強く仮定しており、その正確さを低下させ、一般化する能力を弱めていた。 最近、いくつかの作品が直接分布に適合させようとしたが、その複雑な構造はオンライン推論の効率に欠けていた。 本稿では,新たな損失関数であるNLL(Neighborhood Likelihood Loss)を考案し,提案フレームワークである任意分布モデリング(Arbitrary Distribution Modeling, ADM)と協調して,事前推定なしで検閲下での勝利価格分布を予測する。 実世界の2つの実験データセットと大規模で非シミュレーションされた1つの生産データセットについて実験を行った。 実験の結果、ADMはアルゴリズムとビジネスメトリクスの両方でベースラインを上回った。 本手法は,生産環境の履歴データを再生することにより,システムに良好な収量をもたらすことを示した。 予測された特定の分布形式がなければ、ADMは有効性と効率に大きな利点を示し、洗練された価格景観をモデル化する優れた能力を示した。

The purpose of Inventory Pricing is to bid the right prices to online ad opportunities, which is crucial for a Demand-Side Platform (DSP) to win advertising auctions in Real-Time Bidding (RTB). In the planning stage, advertisers need the forecast of probabilistic models to make bidding decisions. However, most of the previous works made strong assumptions on the distribution form of the winning price, which reduced their accuracy and weakened their ability to make generalizations. Though some works recently tried to fit the distribution directly, their complex structure lacked efficiency on online inference. In this paper, we devise a novel loss function, Neighborhood Likelihood Loss (NLL), collaborating with a proposed framework, Arbitrary Distribution Modeling (ADM), to predict the winning price distribution under censorship with no pre-assumption required. We conducted experiments on two real-world experimental datasets and one large-scale, non-simulated production dataset in our system. Experiments showed that ADM outperformed the baselines both on algorithm and business metrics. By replaying historical data of the production environment, this method was shown to lead to good yield in our system. Without any pre-assumed specific distribution form, ADM showed significant advantages in effectiveness and efficiency, demonstrating its great capability in modeling sophisticated price landscapes.
翻訳日:2021-10-27 15:19:01 公開日:2021-10-26
# 階層型強化学習におけるランドマーク誘導サブゴアル生成

Landmark-Guided Subgoal Generation in Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2110.13625v1 )

ライセンス: Link先を確認
Junsu Kim, Younggyo Seo, Jinwoo Shin(参考訳) 目標条件付き階層強化学習(hrl)は,複雑かつ長期のrlタスクを解決するための有望な結果を示している。 しかし、目標条件付きHRLにおける高レベル政策の行動空間は、しばしば大きいため、探索が不十分になり、訓練の効率が低下する。 本稿では,ランドマーク(higl)に導かれる階層的強化学習について述べる。ランドマークに導かれるアクション空間を縮小したハイレベルなポリシーを学習するための新しい枠組みである。 HIGLのキーコンポーネントは2つです。 (a)調査や調査に有用なランドマークを採集すること (b)選択されたランドマークに向かってサブゴールを生成するよう高水準の政策を奨励する。 のために a) 訪問状態空間全体(すなわち状態の分散)のカバレッジと状態の新規性(すなわち状態の予測誤差)の2つの基準を考慮する。 のために b) ノードがランドマークであるグラフにおいて,最短経路における最初のランドマークとしてランドマークを選択する。 私たちの実験では、ランドマークによる効率的な探索によって、フレームワークがさまざまなコントロールタスクで先行技術を上回ることが示されています。

Goal-conditioned hierarchical reinforcement learning (HRL) has shown promising results for solving complex and long-horizon RL tasks. However, the action space of high-level policy in the goal-conditioned HRL is often large, so it results in poor exploration, leading to inefficiency in training. In this paper, we present HIerarchical reinforcement learning Guided by Landmarks (HIGL), a novel framework for training a high-level policy with a reduced action space guided by landmarks, i.e., promising states to explore. The key component of HIGL is twofold: (a) sampling landmarks that are informative for exploration and (b) encouraging the high-level policy to generate a subgoal towards a selected landmark. For (a), we consider two criteria: coverage of the entire visited state space (i.e., dispersion of states) and novelty of states (i.e., prediction error of a state). For (b), we select a landmark as the very first landmark in the shortest path in a graph whose nodes are landmarks. Our experiments demonstrate that our framework outperforms prior-arts across a variety of control tasks, thanks to efficient exploration guided by landmarks.
翻訳日:2021-10-27 15:18:37 公開日:2021-10-26
# (参考訳) CloudFindr:衛星DEMデータのためのディープラーニングクラウドアーティファクトマスク

CloudFindr: A Deep Learning Cloud Artifact Masker for Satellite DEM Data ( http://arxiv.org/abs/2110.13819v1 )

ライセンス: CC BY 4.0
Kalina Borkiewicz, Viraj Shah, J.P. Naiman, Chuanyue Shen, Stuart Levy, Jeff Carpenter(参考訳) アーティファクトの除去は、映画の科学的な視覚化に不可欠な要素であり、特にアーティファクトの定義が難しいビッグデータでは難しい。 本稿では,従来の画像処理とu-netに基づくディープラーニングを組み合わせて,衛星画像からアーティファクトを除去するためのクラウドアーティファクトマスクの作成手法について述べる。 従来の手法と比較して,本手法はマルチチャンネルスペクトル画像を必要としないが,シングルチャンネルディジタル標高モデル(DEM)ではうまく機能する。 DEMは地球の地形の表現であり、惑星科学、地質学、洪水モデリング、都市計画など様々な応用がある。

Artifact removal is an integral component of cinematic scientific visualization, and is especially challenging with big datasets in which artifacts are difficult to define. In this paper, we describe a method for creating cloud artifact masks which can be used to remove artifacts from satellite imagery using a combination of traditional image processing together with deep learning based on U-Net. Compared to previous methods, our approach does not require multi-channel spectral imagery but performs successfully on single-channel Digital Elevation Models (DEMs). DEMs are a representation of the topography of the Earth and have a variety applications including planetary science, geology, flood modeling, and city planning.
翻訳日:2021-10-27 15:16:08 公開日:2021-10-26
# フーリエ位相検索のための参照学習について

A Closer Look at Reference Learning for Fourier Phase Retrieval ( http://arxiv.org/abs/2110.13688v1 )

ライセンス: Link先を確認
Tobias Uelwer, Nick Rucks, Stefan Harmeling(参考訳) フーリエマグニチュード測定から画像を再構成することは、異なる研究領域でしばしば発生する問題である。 この過程は位相探索とも呼ばれる。 本研究では、フーリエ等級が測定される前に、画像に参照画像を追加することができる位相検索問題の修正版について検討する。 我々は、データセットから良い参照画像を学ぶのに使用できる未学習のGerchberg-Saxton(GS)アルゴリズムを解析する。 さらに、学習した参照画像についてより詳しく検討し、参照画像を構築するための単純で効率的なヒューリスティックを提案する。 私たちのコードはhttps://github.com/tuelwer/reference-learningで利用可能です。

Reconstructing images from their Fourier magnitude measurements is a problem that often arises in different research areas. This process is also referred to as phase retrieval. In this work, we consider a modified version of the phase retrieval problem, which allows for a reference image to be added onto the image before the Fourier magnitudes are measured. We analyze an unrolled Gerchberg-Saxton (GS) algorithm that can be used to learn a good reference image from a dataset. Furthermore, we take a closer look at the learned reference images and propose a simple and efficient heuristic to construct reference images that, in some cases, yields reconstructions of comparable quality as approaches that learn references. Our code is available at https://github.com/tuelwer/reference-learning.
翻訳日:2021-10-27 15:05:02 公開日:2021-10-26
# タスク依存型単語埋め込み手法

Task-Specific Dependency-based Word Embedding Methods ( http://arxiv.org/abs/2110.13376v1 )

ライセンス: Link先を確認
Chengwei Wei, Bin Wang, C.-C. Jay Kuo(参考訳) 本研究では,2つのタスク依存型単語埋め込み手法を提案する。 汎用タスクに適した普遍的な単語埋め込み方式とは対照的に,タスク固有の単語埋め込み方式を設計し,タスクの性能を向上させる。 提案手法はPPMI行列分解フレームワークに従って,依存関係解析木から単語コンテキストを導出する。 最初のものは依存性ベースの単語埋め込み(dwe)と呼ばれ、依存構文解析ツリー内の対象単語のキーワードと隣接単語をコンテキストとして選択し、単語コンテキストマトリックスを構築する。 CEDWE(class-enhanced dependency-based word embedded)と呼ばれる2つ目の方法は、単語コンテキストと単語クラス共起統計から学習する。 DWEとCEDWEは、一般的なテキスト分類データセットで評価され、その有効性を示す。 実験結果により, 最先端の単語埋め込み法よりも優れた性能を示した。

Two task-specific dependency-based word embedding methods are proposed for text classification in this work. In contrast with universal word embedding methods that work for generic tasks, we design task-specific word embedding methods to offer better performance in a specific task. Our methods follow the PPMI matrix factorization framework and derive word contexts from the dependency parse tree. The first one, called the dependency-based word embedding (DWE), chooses keywords and neighbor words of a target word in the dependency parse tree as contexts to build the word-context matrix. The second method, named class-enhanced dependency-based word embedding (CEDWE), learns from word-context as well as word-class co-occurrence statistics. DWE and CEDWE are evaluated on popular text classification datasets to demonstrate their effectiveness. It is shown by experimental results they outperform several state-of-the-art word embedding methods.
翻訳日:2021-10-27 15:04:38 公開日:2021-10-26
# AVocaDo: 下流ドメインへの語彙適応戦略

AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain ( http://arxiv.org/abs/2110.13434v1 )

ライセンス: Link先を確認
Jimin Hong, Taehee Kim, Hyesu Lim and Jaegul Choo(参考訳) 転写学習の微調整段階では、事前訓練された語彙は変化せず、モデルパラメータは更新される。 事前訓練されたデータに基づいて生成された語彙は、ドメインの相違が存在する場合、下流データに最適である。 我々は,この語彙を最適化可能なパラメータとして考慮し,トークン化統計に基づいたドメイン固有語彙に拡張することで,語彙の更新を可能にすることを提案する。 さらに,正規化項を持つ事前学習された言語モデルから学習した知識を活用して,追加単語の埋め込みを下流データへの過剰適合から保存する。 本手法は多様な領域(生物医学,コンピュータ科学,ニュース,レビュー)において一貫した性能改善を達成した。

During the fine-tuning phase of transfer learning, the pretrained vocabulary remains unchanged, while model parameters are updated. The vocabulary generated based on the pretrained data is suboptimal for downstream data when domain discrepancy exists. We propose to consider the vocabulary as an optimizable parameter, allowing us to update the vocabulary by expanding it with domain-specific vocabulary based on a tokenization statistic. Furthermore, we preserve the embeddings of the added words from overfitting to downstream data by utilizing knowledge learned from a pretrained language model with a regularization term. Our method achieved consistent performance improvements on diverse domains (i.e., biomedical, computer science, news, and reviews).
翻訳日:2021-10-27 15:04:25 公開日:2021-10-26
# 複雑な質問を分解することで、マルチホップqaがより簡単に解釈できるようになる

Decomposing Complex Questions Makes Multi-Hop QA Easier and More Interpretable ( http://arxiv.org/abs/2110.13472v1 )

ライセンス: Link先を確認
Ruiliu Fu, Han Wang, Xuejun Zhang, Jun Zhou and Yonghong Yan(参考訳) マルチホップQAでは、複数の手がかりと推論を見つけ、マシンの推論過程を実証するための説明的証拠を提供することによって、複雑な質問に答える必要がある。 本稿では,複雑な質問分解に基づく3段階のフレームワークであるRelation Extractor-Reader and Comparator(RERC)を提案する。 リレーション・エクストラクタは複雑な質問を分解し、次に読者は順番にサブクエストに答え、最後にコンパレータは数値比較を行い、最終回答を得るために全てを要約する。 2WikiMultiHopQAデータセットでは、我々のRERCモデルは最も高度なパフォーマンスを達成し、勝利した合同F1スコアはリーダーボード上で53.58である。 我々のRERCの指標はすべて人的パフォーマンスに近く、F1の支持率において人間レベルの差はわずか1.95である。 同時に、RERCフレームワークが提供するエビデンスパスは、可読性と忠実性に優れています。

Multi-hop QA requires the machine to answer complex questions through finding multiple clues and reasoning, and provide explanatory evidence to demonstrate the machine reasoning process. We propose Relation Extractor-Reader and Comparator (RERC), a three-stage framework based on complex question decomposition, which is the first work that the RERC model has been proposed and applied in solving the multi-hop QA challenges. The Relation Extractor decomposes the complex question, and then the Reader answers the sub-questions in turn, and finally the Comparator performs numerical comparison and summarizes all to get the final answer, where the entire process itself constitutes a complete reasoning evidence path. In the 2WikiMultiHopQA dataset, our RERC model has achieved the most advanced performance, with a winning joint F1 score of 53.58 on the leaderboard. All indicators of our RERC are close to human performance, with only 1.95 behind the human level in F1 score of support fact. At the same time, the evidence path provided by our RERC framework has excellent readability and faithfulness.
翻訳日:2021-10-27 15:04:14 公開日:2021-10-26
# パート&全体抽出:テキスト中のパーセンテージの量的事実の深い理解に向けて

Part & Whole Extraction: Towards A Deep Understanding of Quantitative Facts for Percentages in Text ( http://arxiv.org/abs/2110.13505v1 )

ライセンス: Link先を確認
Lei Fang and Jian-Guang Lou(参考訳) テキストの量的事実抽出の問題点について検討した。 例えば、「アメリカ人の30%がサッカーが好きであり、20%がNBAを好んでいる」という文を考えると、我々のゴールは、その量的事実を抽出することで、その割合(「30%」と「20%」)を深く理解することである。 これらの定量的事実は、自動インフォグラフィック生成のような新しい応用に役立つ。 シーケンスタギング問題として,部分抽出と全体抽出を定式化する。 パーシャル/ホールと対応するパーセンテージとの間に大きなギャップがあるため、シーケンスモデリングにおけるスキップ機構を導入し、我々のタスクとCoNLL-2003の名前付きエンティティ認識タスクの両方で性能改善を実現した。 実験の結果,シーケンスタギングをスキップする学習が有望であることが判明した。

We study the problem of quantitative facts extraction for text with percentages. For example, given the sentence "30 percent of Americans like watching football, while 20% prefer to watch NBA.", our goal is to obtain a deep understanding of the percentage numbers ("30 percent" and "20%") by extracting their quantitative facts: part ("like watching football" and "prefer to watch NBA") and whole ("Americans). These quantitative facts can empower new applications like automated infographic generation. We formulate part and whole extraction as a sequence tagging problem. Due to the large gap between part/whole and its corresponding percentage, we introduce skip mechanism in sequence modeling, and achieved improved performance on both our task and the CoNLL-2003 named entity recognition task. Experimental results demonstrate that learning to skip in sequence tagging is promising.
翻訳日:2021-10-27 15:02:32 公開日:2021-10-26
# オープンルール誘導

Open Rule Induction ( http://arxiv.org/abs/2110.13577v1 )

ライセンス: Link先を確認
Wanyun Cui, Xingran Chen(参考訳) 規則には多くの望ましい性質がある。 理解し、新しい知識を推論し、他の推論システムと通信するのは簡単です。 従来のルール誘導システムの弱点の1つは、知識ベース(KB)内でのみルールを見つけ、したがってよりオープンで複雑な現実世界のルールに一般化できないことである。 近年,ルールの表現力を高めるために,言語モデル(lm)に基づくルール生成が提案されている。 本稿では,KBベースのルール生成とLMベースのルール生成の違いを再考する。 KBベースの手法は、データの共通点を発見することによってルールを誘導するが、現在のLMベースの手法は「ルールからの学習ルール」である。 これにより、これらの手法は、注釈付き規則によって制約されたパターンを持つ「缶詰」ルールのみを生成するのに制限される。 そこで本稿では,LMにおける知識を活用したオープンルールの導出を目的としたオープンルール誘導問題を提案する。 さらに,アノテーション付きルールの監督なしにLMからオープンルールを自動的にマイニングするOrion(\underline{o}pen \underline{r}ule \underline{i}nducti\underline{on})システムを提案する。 インダクタンスしたオープンルールの品質と量を検証するための広範な実験を行った。 驚いたことに、下流のタスク(つまり関係抽出)にオープンルールを適用すると、自動的に誘導されたルールは手動で注釈付けされたルールよりも優れていた。

Rules have a number of desirable properties. It is easy to understand, infer new knowledge, and communicate with other inference systems. One weakness of the previous rule induction systems is that they only find rules within a knowledge base (KB) and therefore cannot generalize to more open and complex real-world rules. Recently, the language model (LM)-based rule generation are proposed to enhance the expressive power of the rules. In this paper, we revisit the differences between KB-based rule induction and LM-based rule generation. We argue that, while KB-based methods inducted rules by discovering data commonalities, the current LM-based methods are "learning rules from rules". This limits these methods to only produce "canned" rules whose patterns are constrained by the annotated rules, while discarding the rich expressive power of LMs for free text. Therefore, in this paper, we propose the open rule induction problem, which aims to induce open rules utilizing the knowledge in LMs. Besides, we propose the Orion (\underline{o}pen \underline{r}ule \underline{i}nducti\underline{on}) system to automatically mine open rules from LMs without supervision of annotated rules. We conducted extensive experiments to verify the quality and quantity of the inducted open rules. Surprisingly, when applying the open rules in downstream tasks (i.e. relation extraction), these automatically inducted rules even outperformed the manually annotated rules.
翻訳日:2021-10-27 15:02:16 公開日:2021-10-26
# s2s-ft:シーケンス列学習のための微調整事前学習トランスエンコーダ

s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning ( http://arxiv.org/abs/2110.13640v1 )

ライセンス: Link先を確認
Hangbo Bao, Li Dong, Wenhui Wang, Nan Yang, Furu Wei(参考訳) BERTのような事前訓練された双方向トランスフォーマーは、様々な言語理解タスクにおいて大幅に改善されているが、自然言語生成に直接適用することは容易ではない。 本稿では,条件付き生成タスクにプリトレーニングトランスを用いたs2s-ftについて述べる。 unilmに触発され,因果的微調整,マスク付き微調整,擬似マスク微調整という3つの逐次的微調整アルゴリズムを実装した。 既存の事前訓練された双方向変換器を利用することで、s2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を発揮することを示す。 さらに、s2s-ftパッケージは単言語および多言語NLGタスクの両方をサポートすることを示した。 s2s-ftツールキットはhttps://github.com/microsoft/unilm/tree/master/s2s-ftで入手できる。

Pretrained bidirectional Transformers, such as BERT, have achieved significant improvements in a wide variety of language understanding tasks, while it is not straightforward to directly apply them for natural language generation. In this paper, we present a sequence-to-sequence fine-tuning toolkit s2s-ft, which adopts pretrained Transformers for conditional generation tasks. Inspired by UniLM, we implement three sequence-to-sequence fine-tuning algorithms, namely, causal fine-tuning, masked fine-tuning, and pseudo-masked fine-tuning. By leveraging the existing pretrained bidirectional Transformers, experimental results show that s2s-ft achieves strong performance on several benchmarks of abstractive summarization, and question generation. Moreover, we demonstrate that the package s2s-ft supports both monolingual and multilingual NLG tasks. The s2s-ft toolkit is available at https://github.com/microsoft/unilm/tree/master/s2s-ft.
翻訳日:2021-10-27 15:01:48 公開日:2021-10-26
# 期待最大化によるロバスト楕円体特異的フィッティング

Robust Ellipsoid-specific Fitting via Expectation Maximization ( http://arxiv.org/abs/2110.13337v1 )

ライセンス: Link先を確認
Zhao Mingyang, Jia Xiaohong, Ma Lei, Qiu Xinlin, Jiang Xin, and Yan Dong-Ming(参考訳) 楕円体フィッティングは、物体検出や形状近似など、機械視覚に一般的に興味を持つ。 既存のアプローチのほとんどは二次の最小二乗法に依存し、代数的あるいは幾何学的距離を最小化し、二次を楕円体として強制する追加の制約を課している。 しかし、軸比が一定のしきい値を超えると、異常値や非楕円型や偏りのある結果に影響を受けやすい。 これらの問題に対処するため, 騒音に富んだ3次元環境下での楕円体フィッティング法を提案する。 入力データのカーネル密度推定(KDE)により楕円体を明示的にモデル化する。 楕円型フィッティングは、余分な制約なく最大度推定(mle)問題としてキャスティングされ、重み付け項が加わり、減圧外乱項が加わり、期待最大化(em)フレームワークによって効果的に解決される。 さらに、元のEMの収束を加速するベクトル {\epsilon} 技術を導入する。 提案手法は,広範囲な実験により代表的な最先端手法と比較し,本手法は楕円型でパラメータフリーであり,雑音,異常値,大軸比に対してより頑健であることを示した。 実装はhttps://zikai1.github.io/で利用可能です。

Ellipsoid fitting is of general interest in machine vision, such as object detection and shape approximation. Most existing approaches rely on the least-squares fitting of quadrics, minimizing the algebraic or geometric distances, with additional constraints to enforce the quadric as an ellipsoid. However, they are susceptible to outliers and non-ellipsoid or biased results when the axis ratio exceeds certain thresholds. To address these problems, we propose a novel and robust method for ellipsoid fitting in a noisy, outlier-contaminated 3D environment. We explicitly model the ellipsoid by kernel density estimation (KDE) of the input data. The ellipsoid fitting is cast as a maximum likelihood estimation (MLE) problem without extra constraints, where a weighting term is added to depress outliers, and then effectively solved via the Expectation-Maximization (EM) framework. Furthermore, we introduce the vector {\epsilon} technique to accelerate the convergence of the original EM. The proposed method is compared with representative state-of-the-art approaches by extensive experiments, and results show that our method is ellipsoid-specific, parameter free, and more robust against noise, outliers, and the large axis ratio. Our implementation is available at https://zikai1.github.io/.
翻訳日:2021-10-27 15:01:30 公開日:2021-10-26
# メタ戦略と明示的位置推定を用いたプラグ・アンド・プレイ物体検出

Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit Localization Inference ( http://arxiv.org/abs/2110.13377v1 )

ライセンス: Link先を確認
Junying Huang, Fan Chen, Liang Lin, Dongyu Zhang(参考訳) いくつかの参照サンプルによる新しいカテゴリのオブジェクトの認識とローカライズを目指して、少数ショットオブジェクト検出は非常に難しい作業である。 以前の作品は、モデルを新しいカテゴリに移すための微調整プロセスに依存しており、微調整の欠陥をほとんど考慮しないため、多くの欠点が生じる。 例えば、オブジェクト検出の微調整プロセスには多くの時間と高ショットのサポートデータが必要であるため、これらの手法は低ショットやエピソードベースのシナリオでは満足できない。 そこで本研究では,新しいカテゴリのオブジェクトを精密かつ直接検出できるPnP-FSOD(Plug-and-play few-shot Object Detection)フレームワークを提案する。 この目的を達成するために、PnP-FSODフレームワークには、2つの並列技術が含まれており、いくつかのショット学習におけるコア課題に対処している。 具体的には,まず,ボックス分類器とrpnモジュールの2つの簡易かつ効果的なメタ戦略を提案する。 次に,局所化プロセスに2つの明示的な推論を導入することで,明示的局所化スコアや半指数ボックス回帰といった注釈付きデータへの依存度を低減する。 pnp-fsodフレームワークに加えて,微調整の欠陥を回避するための新しい一段階チューニング手法を提案する。 提案手法とチューニング手法は,従来のFSOD法と容易に互換性があるため,他の手法を使わずに汎用オブジェクト検出器をベースとしている。 広範な実験により、pnp-fsodフレームワークは、チューニング方法なしで最先端の少数ショットオブジェクト検出性能を達成した。 ワンステップチューニング法を適用した結果,様々な評価プロトコルにおいて,効率,精度,リコールともに有意なリードを示した。

Aiming at recognizing and localizing the object of novel categories by a few reference samples, few-shot object detection is a quite challenging task. Previous works often depend on the fine-tuning process to transfer their model to the novel category and rarely consider the defect of fine-tuning, resulting in many drawbacks. For example, these methods are far from satisfying in the low-shot or episode-based scenarios since the fine-tuning process in object detection requires much time and high-shot support data. To this end, this paper proposes a plug-and-play few-shot object detection (PnP-FSOD) framework that can accurately and directly detect the objects of novel categories without the fine-tuning process. To accomplish the objective, the PnP-FSOD framework contains two parallel techniques to address the core challenges in the few-shot learning, i.e., across-category task and few-annotation support. Concretely, we first propose two simple but effective meta strategies for the box classifier and RPN module to enable the across-category object detection without fine-tuning. Then, we introduce two explicit inferences into the localization process to reduce its dependence on the annotated data, including explicit localization score and semi-explicit box regression. In addition to the PnP-FSOD framework, we propose a novel one-step tuning method that can avoid the defects in fine-tuning. It is noteworthy that the proposed techniques and tuning method are based on the general object detector without other prior methods, so they are easily compatible with the existing FSOD methods. Extensive experiments show that the PnP-FSOD framework has achieved the state-of-the-art few-shot object detection performance without any tuning method. After applying the one-step tuning method, it further shows a significant lead in both efficiency, precision, and recall, under varied evaluation protocols.
翻訳日:2021-10-27 15:00:58 公開日:2021-10-26
# ViDA-MAN: デジタル人間を用いたビジュアルダイアログ

ViDA-MAN: Visual Dialog with Digital Humans ( http://arxiv.org/abs/2110.13384v1 )

ライセンス: Link先を確認
Tong Shen, Jiawei Zuo, Fan Shi, Jin Zhang, Liqin Jiang, Meng Chen, Zhengchen Zhang, Wei Zhang, Xiaodong He, Tao Mei(参考訳) 提案するvida-manは,マルチモーダルインタラクションのためのディジタル・ヒューマンエージェントであり,即時音声問合せに対してリアルタイムの音声・視覚応答を提供する。 従来のテキストや音声ベースのシステムと比較して、ViDA-MANは人間のようなインタラクション(例えば、鮮やかな声、自然な表情、身体のジェスチャー)を提供する。 音声要求が与えられたら、デモは秒以下のレイテンシで高品質なビデオに応答できる。 没入型ユーザエクスペリエンスを実現するために、ViDA-MANは、音響音声認識(ASR)、マルチターンダイアログ、テキスト音声(TTS)、音声ヘッドビデオ生成などのマルチモーダル技術をシームレスに統合する。 vida-manには大きな知識ベースがあり、chit-chat、天気予報、デバイスコントロール、ニュースレコメンデーション、ホテル予約、構造化された知識による質問に答えるなど、さまざまなトピックのユーザとチャットできる。

We demonstrate ViDA-MAN, a digital-human agent for multi-modal interaction, which offers realtime audio-visual responses to instant speech inquiries. Compared to traditional text or voice-based system, ViDA-MAN offers human-like interactions (e.g, vivid voice, natural facial expression and body gestures). Given a speech request, the demonstration is able to response with high quality videos in sub-second latency. To deliver immersive user experience, ViDA-MAN seamlessly integrates multi-modal techniques including Acoustic Speech Recognition (ASR), multi-turn dialog, Text To Speech (TTS), talking heads video generation. Backed with large knowledge base, ViDA-MAN is able to chat with users on a number of topics including chit-chat, weather, device control, News recommendations, booking hotels, as well as answering questions via structured knowledge.
翻訳日:2021-10-27 15:00:25 公開日:2021-10-26
# IIP変換器:骨格に基づく行動認識のためのインターパート変換器

IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2110.13385v1 )

ライセンス: Link先を確認
Qingtian Wang, Jianlin Peng, Shuze Shi, Tingxi Liu, Jiabin He, Renliang Weng(参考訳) 近年、トランスフォーマーベースのネットワークは、スケルトンベースのアクション認識タスクに大きな期待を寄せている。 グローバルとローカルの依存関係をキャプチャする能力は成功の鍵であり、二次計算とメモリコストももたらす。 もう一つの問題は、センサのノイズ入力や不正確な推定によって生じるノイズの多い骨格関節に悩まされる個々の関節間の関係に主に焦点が当てられていることである。 上記の課題に対処するため,新しいトランスフォーマーネットワーク(IIP-Transformer)を提案する。 我々のIIP-Transformerは、個々の関節間の相互作用を利用する代わりに、ボディジョイントとパーツインタラクションを同時に組み込むことで、ジョイントレベル(イントラパート)とパートレベル(インターパート)の両方の依存関係を効率的に効果的にキャプチャすることができる。 データの観点から、計算複雑性を著しく低減し、関節レベルのスケルトンノイズに対してより堅牢な部分レベルスケルトンデータ符号化を導入する。 さらに、モデルの性能を向上させるために、新しい部分レベルのデータ拡張を提案する。 NTU-RGB+D 60 と NTU RGB+D 120 の2つの大規模データセットにおいて、提案した IIP-Transformer は、SOTA Transformer ベースの手法である DSTA-Net よりも8倍以上の計算量で、最先端の性能を達成する。

Recently, Transformer-based networks have shown great promise on skeleton-based action recognition tasks. The ability to capture global and local dependencies is the key to success while it also brings quadratic computation and memory cost. Another problem is that previous studies mainly focus on the relationships among individual joints, which often suffers from the noisy skeleton joints introduced by the noisy inputs of sensors or inaccurate estimations. To address the above issues, we propose a novel Transformer-based network (IIP-Transformer). Instead of exploiting interactions among individual joints, our IIP-Transformer incorporates body joints and parts interactions simultaneously and thus can capture both joint-level (intra-part) and part-level (inter-part) dependencies efficiently and effectively. From the data aspect, we introduce a part-level skeleton data encoding that significantly reduces the computational complexity and is more robust to joint-level skeleton noise. Besides, a new part-level data augmentation is proposed to improve the performance of the model. On two large-scale datasets, NTU-RGB+D 60 and NTU RGB+D 120, the proposed IIP-Transformer achieves the-state-of-art performance with more than 8x less computational complexity than DSTA-Net, which is the SOTA Transformer-based method.
翻訳日:2021-10-27 14:58:54 公開日:2021-10-26
# 微小物体検出のための正規化ガウス距離

A Normalized Gaussian Wasserstein Distance for Tiny Object Detection ( http://arxiv.org/abs/2110.13389v1 )

ライセンス: Link先を確認
Jinwang Wang, Chang Xu, Wen Yang, Lei Yu(参考訳) 小さなオブジェクトはサイズが数ピクセルしかないため、小さなオブジェクトの検出は非常に難しい問題である。 現状の検出器は外観情報の欠如により、小さな物体に対して良好な結果が得られないことを実証する。 我々の重要な観察は、IoU(Intersection over Union)に基づく測定値とその拡張値が、微小物体の位置偏差に非常に敏感であり、アンカーベース検出器での使用時の検出性能を劇的に低下させることである。 そこで本研究では,Wasserstein 距離を用いた微小物体検出のための新しい評価指標を提案する。 具体的には、まず境界ボックスを2次元ガウス分布としてモデル化し、それに対応するガウス分布によってそれらの類似性を計算するために正規化ワッサーシュタイン距離(NWD)と呼ばれる新しい計量を提案する。 提案するnwdメトリックは、一般的なiouメトリックを置き換えるアンカーベースの検出器の割り当て、非最大抑制、損失関数に容易に組み込むことができる。 我々は、既存のオブジェクト検出データセットよりも平均オブジェクトサイズがはるかに小さい、小さなオブジェクト検出(ai-tod)のための新しいデータセットでメトリクスを評価する。 広汎な実験により,NWD測定器を装着すると,標準的な微調整ベースラインよりも6.7APポイント,最先端の競合他社より6.0APポイント高い性能が得られることがわかった。

Detecting tiny objects is a very challenging problem since a tiny object only contains a few pixels in size. We demonstrate that state-of-the-art detectors do not produce satisfactory results on tiny objects due to the lack of appearance information. Our key observation is that Intersection over Union (IoU) based metrics such as IoU itself and its extensions are very sensitive to the location deviation of the tiny objects, and drastically deteriorate the detection performance when used in anchor-based detectors. To alleviate this, we propose a new evaluation metric using Wasserstein distance for tiny object detection. Specifically, we first model the bounding boxes as 2D Gaussian distributions and then propose a new metric dubbed Normalized Wasserstein Distance (NWD) to compute the similarity between them by their corresponding Gaussian distributions. The proposed NWD metric can be easily embedded into the assignment, non-maximum suppression, and loss function of any anchor-based detector to replace the commonly used IoU metric. We evaluate our metric on a new dataset for tiny object detection (AI-TOD) in which the average object size is much smaller than existing object detection datasets. Extensive experiments show that, when equipped with NWD metric, our approach yields performance that is 6.7 AP points higher than a standard fine-tuning baseline, and 6.0 AP points higher than state-of-the-art competitors.
翻訳日:2021-10-27 14:58:28 公開日:2021-10-26
# スケルトンとシルエットの統合による歩行認識のための豊富な特徴の学習

Learning Rich Features for Gait Recognition by Integrating Skeletons and Silhouettes ( http://arxiv.org/abs/2110.13408v1 )

ライセンス: Link先を確認
Yunjie Peng, Saihui Hou, Kang Ma, Yang Zhang, Yongzhen Huang, Zhiqiang He(参考訳) 歩行認識は、個人の歩行シーケンスから歩行パターンをキャプチャして識別する。 既存の歩容認識法は、衣服、運搬、その他の外部要因に対する頑健さのためにシルエットや骨格から特徴を学ぶ。 しかし、2つのデータモダリティの組み合わせは、完全には悪用されていない。 本稿では,骨格とシルエットの相補的な手がかりをマイニングし,歩行識別のための豊富な特徴を学習する,単純で効果的なバイモーダル融合(BiFusion)ネットワークを提案する。 特に、骨格における身体関節の固有の階層的意味論を利用して、骨格の特徴抽出のための新しいマルチスケールゲイトグラフ(MSGG)ネットワークを設計する。 CASIA-BとOUMVLPの広範囲にわたる実験により、骨格モデリングにおける提案したMSGGネットワークの優位性と歩行認識におけるバイモーダル融合の有効性が示された。 CASIA-B上を歩行する最も困難な条件下では,ランク1の精度は92.1%である。

Gait recognition captures gait patterns from the walking sequence of an individual for identification. Most existing gait recognition methods learn features from silhouettes or skeletons for the robustness to clothing, carrying, and other exterior factors. The combination of the two data modalities, however, is not fully exploited. This paper proposes a simple yet effective bimodal fusion (BiFusion) network, which mines the complementary clues of skeletons and silhouettes, to learn rich features for gait identification. Particularly, the inherent hierarchical semantics of body joints in a skeleton is leveraged to design a novel Multi-scale Gait Graph (MSGG) network for the feature extraction of skeletons. Extensive experiments on CASIA-B and OUMVLP demonstrate both the superiority of the proposed MSGG network in modeling skeletons and the effectiveness of the bimodal fusion for gait recognition. Under the most challenging condition of walking in different clothes on CASIA-B, our method achieves the rank-1 accuracy of 92.1%.
翻訳日:2021-10-27 14:58:03 公開日:2021-10-26
# TriBERT:視覚分離のための人中心型音声視覚表現学習

TriBERT: Full-body Human-centric Audio-visual Representation Learning for Visual Sound Separation ( http://arxiv.org/abs/2110.13412v1 )

ライセンス: Link先を確認
Tanzila Rahman, Mengyu Yang, Leonid Sigal(参考訳) BERTのような言語におけるトランスフォーマーモデルの成功は、マルチモーダルな特徴学習やタスクにそのようなアーキテクチャを使うことを動機付けている。 しかし、ほとんどのマルチモーダル変種(例えば、ViLBERT)は視覚言語データに制限されている。 音声と視覚のモダリティでの利用を探求した者は比較的少なく、我々の知る限りでは、音源分離やローカライゼーションのような粒度のオーディオ・ビジュアル検出やセグメンテーションタスクの文脈でそれらを説明する者はいない。 本研究では,VLBERTにヒントを得たトランスフォーマーベースのアーキテクチャであるTriBERTを紹介し,視覚,ポーズ,オーディオの3つのモードにわたるコンテキスト的特徴学習を実現する。 ポーズキーポイントの使用は、そのような表現が、しばしば1人または複数の人が明示的に音(例えば、会話)または暗黙的に(例えば、物体を操作する人間の機能として生成される音)に責任を負う多くの音声視覚シナリオにおいて、パフォーマンスを著しく向上させることができることを示す最近の作品に触発されたものである。 技術的観点からは、TriBERTアーキテクチャの一部として、空間的注意に基づく学習された視覚的トークン化スキームを導入し、弱スーパービジョンを活用して、視覚的およびポーズ的モダリティのための粒度のクロスモーダルな相互作用を可能にする。 さらに,3つのストリームにまたがって構成された音源分離損失による学習を補完する。 我々は、大規模なmusic21データセットでモデルを事前学習し、そのデータセットと他のデータセットの微調整による音声-視覚音源分離の性能向上を実証する。 さらに,学習したTriBERT表現は汎用的であり,音声-視覚間検索などの他の音響-視覚的タスクの性能を最大66.7%向上させることを示す。

The recent success of transformer models in language, such as BERT, has motivated the use of such architectures for multi-modal feature learning and tasks. However, most multi-modal variants (e.g., ViLBERT) have limited themselves to visual-linguistic data. Relatively few have explored its use in audio-visual modalities, and none, to our knowledge, illustrate them in the context of granular audio-visual detection or segmentation tasks such as sound source separation and localization. In this work, we introduce TriBERT -- a transformer-based architecture, inspired by ViLBERT, which enables contextual feature learning across three modalities: vision, pose, and audio, with the use of flexible co-attention. The use of pose keypoints is inspired by recent works that illustrate that such representations can significantly boost performance in many audio-visual scenarios where often one or more persons are responsible for the sound explicitly (e.g., talking) or implicitly (e.g., sound produced as a function of human manipulating an object). From a technical perspective, as part of the TriBERT architecture, we introduce a learned visual tokenization scheme based on spatial attention and leverage weak-supervision to allow granular cross-modal interactions for visual and pose modalities. Further, we supplement learning with sound-source separation loss formulated across all three streams. We pre-train our model on the large MUSIC21 dataset and demonstrate improved performance in audio-visual sound source separation on that dataset as well as other datasets through fine-tuning. In addition, we show that the learned TriBERT representations are generic and significantly improve performance on other audio-visual tasks such as cross-modal audio-visual-pose retrieval by as much as 66.7% in top-1 accuracy.
翻訳日:2021-10-27 14:57:47 公開日:2021-10-26
# 視覚的再分類のための自己注意を伴う文脈的類似性集約

Contextual Similarity Aggregation with Self-attention for Visual Re-ranking ( http://arxiv.org/abs/2110.13430v1 )

ライセンス: Link先を確認
Jianbo Ouyang, Hui Wu, Min Wang, Wengang Zhou, Houqiang Li(参考訳) コンテンツに基づく画像検索では、単純な視覚的特徴比較による第1ラウンドの検索結果に満足できない場合がある。 画像検索において,トップランク画像間の文脈的類似性は,意味的関連性を識別するための重要な手がかりとなる。 本稿では,この観察に触発されて,文脈的類似性集約と自己注意による視覚的再評価手法を提案する。 我々のアプローチでは、トップkランキングリストの各画像に対して、アンカー画像の集合と比較することにより、アフィニティ特徴ベクトルとして表現する。 そして、コンテクスト情報を変換器エンコーダで集約することにより、トップK画像の親和性特性を洗練する。 最後に、親和性機能はクエリとトップKイメージの類似点を再計算し、後者を再ランク付けするために使用される。 再ランクモデルの堅牢性をさらに向上し,提案手法の性能を向上させるため,新しいデータ拡張方式を設計した。 我々の再ランク付けモデルは初期検索で使用される視覚的特徴に直接関係しないので、様々な検索アルゴリズムから得られた検索結果リストに適用できる。 提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。

In content-based image retrieval, the first-round retrieval result by simple visual feature comparison may be unsatisfactory, which can be refined by visual re-ranking techniques. In image retrieval, it is observed that the contextual similarity among the top-ranked images is an important clue to distinguish the semantic relevance. Inspired by this observation, in this paper, we propose a visual re-ranking method by contextual similarity aggregation with self-attention. In our approach, for each image in the top-K ranking list, we represent it into an affinity feature vector by comparing it with a set of anchor images. Then, the affinity features of the top-K images are refined by aggregating the contextual information with a transformer encoder. Finally, the affinity features are used to recalculate the similarity scores between the query and the top-K images for re-ranking of the latter. To further improve the robustness of our re-ranking model and enhance the performance of our method, a new data augmentation scheme is designed. Since our re-ranking model is not directly involved with the visual feature used in the initial retrieval, it is ready to be applied to retrieval result lists obtained from various retrieval algorithms. We conduct comprehensive experiments on four benchmark datasets to demonstrate the generality and effectiveness of our proposed visual re-ranking method.
翻訳日:2021-10-27 14:57:13 公開日:2021-10-26
# 異種オブジェクトシーン構成からのゼロショット動作認識

Zero-Shot Action Recognition from Diverse Object-Scene Compositions ( http://arxiv.org/abs/2110.13479v1 )

ライセンス: Link先を確認
Carlo Bretti and Pascal Mettes(参考訳) 本稿では,実写映像が存在しない場面において,ゼロショット動作認識の問題点について検討する。 この困難なシナリオのために、現在の主要なアプローチは、事前学習されたネットワークを使用してビデオ内のオブジェクトを認識し、オブジェクトとアクション間のセマンティックマッチングによって、画像ドメインから知識を転送することだ。 オブジェクトがビデオの内容のローカルなビューを提供する場合、この作業では、アクションが発生するシーンのグローバルなビューも含もうとしています。 また,シーンの認識能力は物体よりも微妙に向上し,オブジェクトベースとシーンベースのスコアの直接的な組み合わせにより,動作認識性能が低下することが分かった。 オブジェクトとシーンから最高のものを得るため、我々はそれらを全ての可能な構成のデカルト積として構成することを提案する。 ビデオにおけるオブジェクトシーン構成の可能性の判定方法と、アクションごとに最も関連性の高い構成の多様性を強制するアクションへのオブジェクトシーン構成のセマンティックマッチングについて概説する。 私たちのコンポジションベースのアプローチはシンプルですが、オブジェクトベースのアプローチや、トレーニングや知識の転送に何百ものアクションを持つ大規模なビデオデータセットに依存する最先端のゼロショットアプローチよりも優れています。

This paper investigates the problem of zero-shot action recognition, in the setting where no training videos with seen actions are available. For this challenging scenario, the current leading approach is to transfer knowledge from the image domain by recognizing objects in videos using pre-trained networks, followed by a semantic matching between objects and actions. Where objects provide a local view on the content in videos, in this work we also seek to include a global view of the scene in which actions occur. We find that scenes on their own are also capable of recognizing unseen actions, albeit more marginally than objects, and a direct combination of object-based and scene-based scores degrades the action recognition performance. To get the best out of objects and scenes, we propose to construct them as a Cartesian product of all possible compositions. We outline how to determine the likelihood of object-scene compositions in videos, as well as a semantic matching from object-scene compositions to actions that enforces diversity among the most relevant compositions for each action. While simple, our composition-based approach outperforms object-based approaches and even state-of-the-art zero-shot approaches that rely on large-scale video datasets with hundreds of seen actions for training and knowledge transfer.
翻訳日:2021-10-27 14:56:51 公開日:2021-10-26
# マルチラベルフットショット分類のためのメタラーニング

Meta-Learning for Multi-Label Few-Shot Classification ( http://arxiv.org/abs/2110.13494v1 )

ライセンス: Link先を確認
Christian Simon, Piotr Koniusz, Mehrtash Harandi(参考訳) 豊富なデータを持つという豪華さにもかかわらず、マルチラベル分類は対処すべき課題として広く知られている。 この研究は、モデルがクエリ内の複数のラベル(例えば画像)を、サポート対象のサンプルを観察するだけで予測できることを学ぶマルチラベルメタラーニングの問題をターゲットにしている。 そこで我々はまず,Few-Shot Learning (FSL) のベンチマークをサンプル毎に複数のラベルで提案する。 次に,従来のfslと単一ラベルfslに対応するために特別に設計された複数のソリューションについて議論し,拡張する。 最後に,関係推論を活用し,与えられたサンプルのラベル数を推定するニューラルモジュールを提案する。 我々は,MS-COCO,iMaterialist,Open MICの3つの挑戦データセットに対して,ラベルカウントモジュール,ラベル伝搬アルゴリズム,従来のFSL手法の拡張のメリットを実証的に示す。 総合的な実験により,提案手法とニューラルラベルカウントモジュール(NLC)を併用したラベルプロパゲーションアルゴリズムが選択方法として検討されることが示唆された。

Even with the luxury of having abundant data, multi-label classification is widely known to be a challenging task to address. This work targets the problem of multi-label meta-learning, where a model learns to predict multiple labels within a query (e.g., an image) by just observing a few supporting examples. In doing so, we first propose a benchmark for Few-Shot Learning (FSL) with multiple labels per sample. Next, we discuss and extend several solutions specifically designed to address the conventional and single-label FSL, to work in the multi-label regime. Lastly, we introduce a neural module to estimate the label count of a given sample by exploiting the relational inference. We will show empirically the benefit of the label count module, the label propagation algorithm, and the extensions of conventional FSL methods on three challenging datasets, namely MS-COCO, iMaterialist, and Open MIC. Overall, our thorough experiments suggest that the proposed label-propagation algorithm in conjunction with the neural label count module (NLC) shall be considered as the method of choice.
翻訳日:2021-10-27 14:56:29 公開日:2021-10-26
# 特徴選択と相互情報に基づく視覚化を用いた単一モーフィング攻撃検出

Single Morphing Attack Detection using Feature Selection and Visualisation based on Mutual Information ( http://arxiv.org/abs/2110.13552v1 )

ライセンス: Link先を確認
Juan Tapia and Christoph Busch(参考訳) 顔のモーフィング攻撃検出は難しい課題である。 自動分類法と手動検査は自動境界制御ゲートで実現され、モーフィング攻撃を検出する。 機械学習システムが、変形した顔と最も関連する顔領域をどのように検出できるかを理解することは重要である。 関連する領域にはテクスチャ信号が含まれており、ボナファイドとモルフイメージを分離することができます。 また、手動検査でモルヒド画像で生成されたパスポートを検出するのに役立つ。 本稿では,強度,形状,テクスチャから抽出した特徴を探索し,相互情報フィルタに基づく特徴選択ステージを提案する。 この選択により、作業量を削減し、そのような領域の正確な局所化を知り、モーフィングの影響を理解し、堅牢な分類器を作成することができる。 その結果,feret画像では500点,frgcv2画像では800点,1,048点では800点の条件付き相互情報と形状特徴が得られた。 目と鼻は、分析される最も重要な領域として識別される。

Face morphing attack detection is a challenging task. Automatic classification methods and manual inspection are realised in automatic border control gates to detect morphing attacks. Understanding how a machine learning system can detect morphed faces and the most relevant facial areas is crucial. Those relevant areas contain texture signals that allow us to separate the bona fide and the morph images. Also, it helps in the manual examination to detect a passport generated with morphed images. This paper explores features extracted from intensity, shape, texture, and proposes a feature selection stage based on the Mutual Information filter to select the most relevant and less redundant features. This selection allows us to reduce the workload and know the exact localisation of such areas to understand the morphing impact and create a robust classifier. The best results were obtained for the method based on Conditional Mutual Information and Shape features using only 500 features for FERET images and 800 features for FRGCv2 images from 1,048 features available. The eyes and nose are identified as the most critical areas to be analysed.
翻訳日:2021-10-27 14:56:10 公開日:2021-10-26
# リスク画像強化のための方向性自己教師型学習

Directional Self-supervised Learning for Risky Image Augmentations ( http://arxiv.org/abs/2110.13555v1 )

ライセンス: Link先を確認
Yalong Bai, Yifan Yang, Wei Zhang, Tao Mei(参考訳) チェリーピックされた頑健な拡大政策は、大規模な拡大家族にもかかわらず、標準的な自己監督型画像表現学習にとって有益である。 本稿では,より一層の強化と互換性のある指向性自己教師付き学習パラダイム(dssl)を提案する。 具体的には、ロバストな拡張によって強化された標準ビューの後にリスクの増大ポリシーを適用し、より困難なリスクビュー(RV)を生成する。 リスク・ビューは通常、標準のロバスト・ビュー(SV)よりも原画像との偏差が大きい。 対称的自己教師型トレーニングのためのすべての拡張ビューを等しく組み合わせてそれらの類似性を最大化する従来の方法とは異なり、DSSLは、部分的に順序付けられた集合(SV$\leftrightarrow $SV, SV$\leftarrow$RV)と同じインスタンスの強化ビューを扱い、ビュー間の派生関係に関する目的目的関数を割り当てる。 DSSLは数行のPseudocodeで簡単に実装でき、SimCLR、SimSiam、BYOLといった一般的な自己教師型学習フレームワークに非常に柔軟である。 CIFARとImageNetの広範な実験結果は、DSSLがこれらのフレームワークをより広範な拡張に互換性を持って安定的に改善できることを示した。

Only a few cherry-picked robust augmentation policies are beneficial to standard self-supervised image representation learning, despite the large augmentation family. In this paper, we propose a directional self-supervised learning paradigm (DSSL), which is compatible with significantly more augmentations. Specifically, we adapt risky augmentation policies after standard views augmented by robust augmentations, to generate harder risky view (RV). The risky view usually has a higher deviation from the original image than the standard robust view (SV). Unlike previous methods equally pairing all augmented views for symmetrical self-supervised training to maximize their similarities, DSSL treats augmented views of the same instance as a partially ordered set (SV$\leftrightarrow $SV, SV$\leftarrow$RV), and then equips directional objective functions respecting to the derived relationships among views. DSSL can be easily implemented with a few lines of Pseudocode and is highly flexible to popular self-supervised learning frameworks, including SimCLR, SimSiam, BYOL. The extensive experimental results on CIFAR and ImageNet demonstrated that DSSL can stably improve these frameworks with compatibility to a wider range of augmentations.
翻訳日:2021-10-27 14:55:50 公開日:2021-10-26
# 対数整合性を利用した衛星画像のクロスリージョン化

Cross-Region Building Counting in Satellite Imagery using Counting Consistency ( http://arxiv.org/abs/2110.13558v1 )

ライセンス: Link先を確認
Muaaz Zakria, Hamza Rawal, Waqas Sultani, Mohsen Ali(参考訳) 地理的な地域における建物数の推定は、都市分析、防災管理、公共政策決定の重要な要素である。 衛星画像のローカライズとカウントのためのディープラーニング手法は、実現可能で安価な代替手段として機能する。 しかし、これらのアルゴリズムは、訓練されていない領域に適用した場合、性能劣化に悩まされる。 現在の大規模なデータセットは、主に開発済みのリージョンをカバーし、すべてのリージョンでそのようなデータセットを収集している。 本稿では,ラベル付きソースドメイン(開発領域)を用いて建物を数え,ラベル付きターゲットドメイン(開発領域)にトレーニングされたモデルを適応させる,教師なしドメイン適応手法を提案する。 まず、逆損失を通して出力空間分布を整列することで、領域間の分布マップを整列する。 次に、ドメインシフトを減らすために、カウント一貫性の制約、イン・イメージカウントの一貫性、およびクロス・イメージカウントの一貫性を利用する。 イメージ内の一貫性は、イメージ全体のビルド数は、そのサブイメージのいずれかのカウントよりも大きいか等しいべきであることを強制する。 画像間の整合性制約は、ある画像が他の画像よりもかなり多くの建物を含む場合、それらのサブイメージも同じ順序を持つように強制する。 これらの2つの制約は、スケールに関係なく、行動が画像全体と内部に一貫性を持つように促します。 提案手法の性能を評価するため,既存のデータセットと比較して高い建物密度と不規則構造を有する南アジア地域を挑戦する大規模データセットを収集,注釈した。 提案手法の有効性を検証するために広範な実験を行い,競合ベースライン法と比較して約7%から20%の改善を報告した。

Estimating the number of buildings in any geographical region is a vital component of urban analysis, disaster management, and public policy decision. Deep learning methods for building localization and counting in satellite imagery, can serve as a viable and cheap alternative. However, these algorithms suffer performance degradation when applied to the regions on which they have not been trained. Current large datasets mostly cover the developed regions and collecting such datasets for every region is a costly, time-consuming, and difficult endeavor. In this paper, we propose an unsupervised domain adaptation method for counting buildings where we use a labeled source domain (developed regions) and adapt the trained model on an unlabeled target domain (developing regions). We initially align distribution maps across domains by aligning the output space distribution through adversarial loss. We then exploit counting consistency constraints, within-image count consistency, and across-image count consistency, to decrease the domain shift. Within-image consistency enforces that building count in the whole image should be greater than or equal to count in any of its sub-image. Across-image consistency constraint enforces that if an image contains considerably more buildings than the other image, then their sub-images shall also have the same order. These two constraints encourage the behavior to be consistent across and within the images, regardless of the scale. To evaluate the performance of our proposed approach, we collected and annotated a large-scale dataset consisting of challenging South Asian regions having higher building densities and irregular structures as compared to existing datasets. We perform extensive experiments to verify the efficacy of our approach and report improvements of approximately 7% to 20% over the competitive baseline methods.
翻訳日:2021-10-27 14:55:06 公開日:2021-10-26
# RBF k-DPPを用いた動物行動推定のためのインクリメンタルラーニング

Incremental Learning for Animal Pose Estimation using RBF k-DPP ( http://arxiv.org/abs/2110.13598v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Het Shah, Anirban Chakraborty(参考訳) ポーズ推定は、画像に興味のある対象のキーポイントを特定するタスクである。 動物のポーズ推定は、動物における種間および種内変動が高いため、人間のポーズを推定するよりも難しい。 既存の研究は、あらかじめ定義された動物カテゴリーの固定された集合に対してこの問題を解決する。 このようなセットでトレーニングされたモデルは、通常、新しい動物カテゴリではうまく機能しない。 新しいカテゴリでモデルを再トレーニングすることで、モデルが過度に適合し、破滅的な忘れることになる。 そこで本研究では,「動物のポーズ推定のためのインクリメンタルラーニング」という新しい問題を提案する。 提案手法は,DPP(Determinantal Point Processes)を用いてサンプル化したメモリを用いて,古いものを忘れずに新しい動物カテゴリーに継続的に適応する。 さらに,従来のk-DPPよりも性能が向上するRBFカーネル(RBF k-DPP)を用いたk-DPPの新たな変種を提案する。 メモリの制約のため、新しいクラスのデータとともに、限られた数の例がクラス不均衡を引き起こす可能性がある。 画像ウォーピングを補足技術として行うことで緩和する。 これは多彩なポーズの作成に役立ち、過剰フィッティングを減らし、パフォーマンスをさらに向上させる。 提案手法の有効性は,最先端のベースライン法よりも大幅に向上した,広範囲な実験と改善によって実証された。

Pose estimation is the task of locating keypoints for an object of interest in an image. Animal Pose estimation is more challenging than estimating human pose due to high inter and intra class variability in animals. Existing works solve this problem for a fixed set of predefined animal categories. Models trained on such sets usually do not work well with new animal categories. Retraining the model on new categories makes the model overfit and leads to catastrophic forgetting. Thus, in this work, we propose a novel problem of "Incremental Learning for Animal Pose Estimation". Our method uses an exemplar memory, sampled using Determinantal Point Processes (DPP) to continually adapt to new animal categories without forgetting the old ones. We further propose a new variant of k-DPP that uses RBF kernel (termed as "RBF k-DPP") which gives more gain in performance over traditional k-DPP. Due to memory constraints, the limited number of exemplars along with new class data can lead to class imbalance. We mitigate it by performing image warping as an augmentation technique. This helps in crafting diverse poses, which reduces overfitting and yields further improvement in performance. The efficacy of our proposed approach is demonstrated via extensive experiments and ablations where we obtain significant improvements over state-of-the-art baseline methods.
翻訳日:2021-10-27 14:54:37 公開日:2021-10-26
# Alpha-IoU: ボックス回帰をバウンディングするためのユニオン損失に対するパワーインターセクションの家族

Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression ( http://arxiv.org/abs/2110.13675v1 )

ライセンス: Link先を確認
Jiabo He, Sarah Erfani, Xingjun Ma, James Bailey, Ying Chi, Xian-Sheng Hua(参考訳) バウンディングボックス(bbox regression)は、コンピュータビジョンにおける基本的なタスクである。 これまでのところ、bbox回帰の最もよく使われる損失関数は、結合損失(iou)とその変種との交叉である。 本稿では、既存のIoUベースの損失を、パワーIoU項と1つのパワーパラメータ$\alpha$を持つ追加のパワー正規化項を有する新しいIoU損失ファミリーに一般化する。 我々はこの損失のファミリーを$\alpha$-iou損失と呼び、秩序保持性や損失/段階的重み付けなどの特性を分析する。 複数のオブジェクト検出ベンチマークとモデルの実験では、$\alpha$-IoUの損失が示されている。 1) 既存のIoUベースの損失を顕著なパフォーマンスマージンで上回ることができる。 2)bboxのレグレッション精度の異なるレベルを$\alpha$を変調することで、検出器の柔軟性を高める。 3)小さなデータセットや騒がしいbboxに対して、より堅牢である。

Bounding box (bbox) regression is a fundamental task in computer vision. So far, the most commonly used loss functions for bbox regression are the Intersection over Union (IoU) loss and its variants. In this paper, we generalize existing IoU-based losses to a new family of power IoU losses that have a power IoU term and an additional power regularization term with a single power parameter $\alpha$. We call this new family of losses the $\alpha$-IoU losses and analyze properties such as order preservingness and loss/gradient reweighting. Experiments on multiple object detection benchmarks and models demonstrate that $\alpha$-IoU losses, 1) can surpass existing IoU-based losses by a noticeable performance margin; 2) offer detectors more flexibility in achieving different levels of bbox regression accuracy by modulating $\alpha$; and 3) are more robust to small datasets and noisy bboxes.
翻訳日:2021-10-27 14:54:18 公開日:2021-10-26
# web ラベルデータにおける分散ラベルノイズの解消

Addressing out-of-distribution label noise in webly-labelled data ( http://arxiv.org/abs/2110.13699v1 )

ライセンス: Link先を確認
Paul Albert and Diego Ortego and Eric Arazo and Noel O'Connor and Kevin McGuinness(参考訳) ディープラーニングコミュニティの繰り返しの焦点は、ラベル付けの労力を減らすことだ。 検索エンジンを用いたデータ収集とアノテーションは、完全な人間アノテーションと人集合データセットを生成するための単純な代替手段である。 ウェブクローリングは非常に時間効率が良いが、検索された画像のいくつかは避けられないほどノイズが多い。 webから収集したノイズの多いデータをトレーニングするためのロバストなアルゴリズムを設計することは、データセットの構築を容易にする重要な研究視点である。 本稿では,検索エンジンを用いたデータセット構築時に期待されるラベルノイズの種類を理解するための研究を行う。 本稿では,Webノイズ分布における画像分類タスクのノイズラベル処理における最先端手法の限界について概説する。 我々は、CIFAR-100データセットの破損したバージョンを設計したDynamic Softening of Out-of-distriion Samples (DSOS) を用いて、完全にクリーンなデータセットでギャップを埋める簡単なソリューションを提案し、Webノイズを乱したMiniImageNetとStanfordデータセット、および実際のラベルノイズデータセットであるWebVision 1.0とCloting1Mの最先端アルゴリズムと比較した。 私たちの仕事は、完全に再現できます https://git.io/JKGcj

A recurring focus of the deep learning community is towards reducing the labeling effort. Data gathering and annotation using a search engine is a simple alternative to generating a fully human-annotated and human-gathered dataset. Although web crawling is very time efficient, some of the retrieved images are unavoidably noisy, i.e. incorrectly labeled. Designing robust algorithms for training on noisy data gathered from the web is an important research perspective that would render the building of datasets easier. In this paper we conduct a study to understand the type of label noise to expect when building a dataset using a search engine. We review the current limitations of state-of-the-art methods for dealing with noisy labels for image classification tasks in the case of web noise distribution. We propose a simple solution to bridge the gap with a fully clean dataset using Dynamic Softening of Out-of-distribution Samples (DSOS), which we design on corrupted versions of the CIFAR-100 dataset, and compare against state-of-the-art algorithms on the web noise perturbated MiniImageNet and Stanford datasets and on real label noise datasets: WebVision 1.0 and Clothing1M. Our work is fully reproducible https://git.io/JKGcj
翻訳日:2021-10-27 14:54:02 公開日:2021-10-26
# TNTC:歩行に基づく感情認識のためのトランスフォーマーを用いた2ストリームネットワーク

TNTC: two-stream network with transformer-based complementarity for gait-based emotion recognition ( http://arxiv.org/abs/2110.13708v1 )

ライセンス: Link先を確認
Chuanfei Hu, Weijie Sheng, Bo Dong, Xinde Li(参考訳) 視覚特性から自動的に人間の感情を認識することは、多くの知的アプリケーションにおいて重要な役割を果たす。 近年,歩行に基づく感情認識,特に歩行骨格に基づく特徴が注目されている。 一般的なパイプラインは、まず関節骨格から感情的特徴を抽出し、その後、感情を分類する特徴ベクトルとして、骨格的特徴と感情的特徴を集約する。 しかし、これらの出現した方法の凝集手順は堅いため、骨格関節と情緒的特徴の相補的な関係を十分に活用できない。 一方、歩行シーケンスの空間領域と時間領域の長い範囲依存性はほとんど考慮されていない。 そこで本稿では,tntcと呼ばれる変圧器に基づく相補性を持つ新しい2ストリームネットワークを提案する。 骨格関節と情緒的特徴はそれぞれ2つのストリームの入力として2つの個別画像に符号化される。 TCM(Transformer-based complementarity Module)は、2つのストリーム間の相補性を階層的に橋渡しする。 実験により、TNTCは最新のデータセットの最先端手法よりも精度が高いことを示した。

Recognizing the human emotion automatically from visual characteristics plays a vital role in many intelligent applications. Recently, gait-based emotion recognition, especially gait skeletons-based characteristic, has attracted much attention, while many available methods have been proposed gradually. The popular pipeline is to first extract affective features from joint skeletons, and then aggregate the skeleton joint and affective features as the feature vector for classifying the emotion. However, the aggregation procedure of these emerged methods might be rigid, resulting in insufficiently exploiting the complementary relationship between skeleton joint and affective features. Meanwhile, the long range dependencies in both spatial and temporal domains of the gait sequence are scarcely considered. To address these issues, we propose a novel two-stream network with transformer-based complementarity, termed as TNTC. Skeleton joint and affective features are encoded into two individual images as the inputs of two streams, respectively. A new transformer-based complementarity module (TCM) is proposed to bridge the complementarity between two streams hierarchically via capturing long range dependencies. Experimental results demonstrate TNTC outperforms state-of-the-art methods on the latest dataset in terms of accuracy.
翻訳日:2021-10-27 14:53:41 公開日:2021-10-26
# 自動データと合成画像を用いた半教師付き乾草量推定

Semi-supervised dry herbage mass estimation using automatic data and synthetic images ( http://arxiv.org/abs/2110.13719v1 )

ライセンス: Link先を確認
Paul Albert and Mohamed Saadeldin and Badri Narayanan and Brian Mac Namee and Deirdre Hennessy and Aisling O'Connor and Noel O'Connor and Kevin McGuinness(参考訳) 種別乾燥草本バイオマスのモニタリングは、牧草地ベースの乳生産システムにおいて重要な側面である。 畑の草本バイオマスに気付いて、農家は草本供給の余剰と不足を管理し、必要に応じて窒素の施肥を標的とする。 コンピュータビジョンのためのディープラーニングは、ポータブルデバイスを用いて撮影された草の天蓋の画像を用いて、草原の乾いたバイオマスを正確に推定できるため、この文脈において強力なツールである。 しかし、ディープラーニングのパフォーマンスは、広範囲で、この場合、破壊的なデータ収集プロセスのコストがかかる。 本研究は, 草本パルセルの正確な種別バイオマス推定は, 労働集約的かつ破壊的であるため, コンピュータビジョンを用いた乾性バイオマス推定の低監督手法について検討する。 提案手法は, 草本高さを考慮したセマンティクスセグメンテーションタスクのためのデータを生成する合成データ生成アルゴリズム, セマンティクスセグメンテーションマップを用いたデータラベル付けのための自動処理, 近似バイオマスラベルとゴールド標準ラベルを用いた小型信頼データセットを用いた乾燥バイオマス予測を訓練したロバスト回帰ネットワークである。 我々は,アイルランドで収集した草本量推定データセットのアプローチをデザインし,デンマークから公開された草本量推定データセットについて最新結果を報告する。 私たちのコードはhttps://git.io/j0l2aで利用可能です。

Monitoring species-specific dry herbage biomass is an important aspect of pasture-based milk production systems. Being aware of the herbage biomass in the field enables farmers to manage surpluses and deficits in herbage supply, as well as using targeted nitrogen fertilization when necessary. Deep learning for computer vision is a powerful tool in this context as it can accurately estimate the dry biomass of a herbage parcel using images of the grass canopy taken using a portable device. However, the performance of deep learning comes at the cost of an extensive, and in this case destructive, data gathering process. Since accurate species-specific biomass estimation is labor intensive and destructive for the herbage parcel, we propose in this paper to study low supervision approaches to dry biomass estimation using computer vision. Our contributions include: a synthetic data generation algorithm to generate data for a herbage height aware semantic segmentation task, an automatic process to label data using semantic segmentation maps, and a robust regression network trained to predict dry biomass using approximate biomass labels and a small trusted dataset with gold standard labels. We design our approach on a herbage mass estimation dataset collected in Ireland and also report state-of-the-art results on the publicly released Grass-Clover biomass estimation dataset from Denmark. Our code is available at https://git.io/J0L2a
翻訳日:2021-10-27 14:53:22 公開日:2021-10-26
# DP-SSL: ラベル付きサンプルによるロバストな半教師あり学習を目指して

DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples ( http://arxiv.org/abs/2110.13740v1 )

ライセンス: Link先を確認
Yi Xu, Jiandong Ding, Lu Zhang, Shuigeng Zhou(参考訳) ラベル付きデータの不足は、ディープラーニングにとって重要な障害である。 semi-supervised learning (ssl)は、擬似ラベルによるラベルなしデータを活用する有望な方法を提供する。 しかし、ラベル付きデータのサイズが非常に小さい場合(例えばクラスごとのいくつかのラベル付きサンプル)、sslは貧弱で不安定であり、おそらく学習済みの擬似ラベルの低品質のためである。 本稿では,非ラベルデータに対する確率的ラベルを生成するための革新的なデータプログラミング(dp)方式を採用する,dp-sslと呼ばれる新しいssl手法を提案する。 人手による初期ラベリング機能(LF)を提供する既存のDPメソッドとは違い,SSLスタイルでLFをスクラッチから自動生成するマルチチョイス学習(MCL)ベースのアプローチを開発した。 LFが生成するノイズラベルを用いて,ノイズラベル間の競合を解消し重なり合うラベルモデルを設計し,最終的にラベル付きサンプルに対して確率ラベルを推定する。 4つの標準SSLベンチマークの大規模な実験は、DP-SSLが既存のSSLメソッドよりも信頼性の高いラベルを提供し、テストセットの分類性能が向上していることを示している。 具体的には、40のラベル付きサンプルしか持たないcifar-10では、dp-sslはラベルなしデータでは93.82%、テストデータでは93.46%の分類精度を達成している。

The scarcity of labeled data is a critical obstacle to deep learning. Semi-supervised learning (SSL) provides a promising way to leverage unlabeled data by pseudo labels. However, when the size of labeled data is very small (say a few labeled samples per class), SSL performs poorly and unstably, possibly due to the low quality of learned pseudo labels. In this paper, we propose a new SSL method called DP-SSL that adopts an innovative data programming (DP) scheme to generate probabilistic labels for unlabeled data. Different from existing DP methods that rely on human experts to provide initial labeling functions (LFs), we develop a multiple-choice learning~(MCL) based approach to automatically generate LFs from scratch in SSL style. With the noisy labels produced by the LFs, we design a label model to resolve the conflict and overlap among the noisy labels, and finally infer probabilistic labels for unlabeled samples. Extensive experiments on four standard SSL benchmarks show that DP-SSL can provide reliable labels for unlabeled data and achieve better classification performance on test sets than existing SSL methods, especially when only a small number of labeled samples are available. Concretely, for CIFAR-10 with only 40 labeled samples, DP-SSL achieves 93.82% annotation accuracy on unlabeled data and 93.46% classification accuracy on test data, which are higher than the SOTA results.
翻訳日:2021-10-27 14:52:55 公開日:2021-10-26
# (参考訳) インターバル型2ファジィ推論システムと複数専門家意思決定を用いた運転スタイル認識

Driving Style Recognition Using Interval Type-2 Fuzzy Inference System and Multiple Experts Decision Making ( http://arxiv.org/abs/2110.13805v1 )

ライセンス: CC BY 4.0
Iago Pach\^eco Gomes and Denis Fernando Wolf(参考訳) 運転スタイルは、車両の動きを反映する様々な運転行動を要約する。 これらの行動は、よりリスクの高い操作を行い、より多くの燃料やエネルギーを消費し、交通規則を破り、慎重に運転する傾向を示す。 そこで本稿では,運転者を穏やか・中等・アグレッシブに分類するために,複数専門家によるファジィ推論システムを用いた運転スタイル認識を提案する。 本システムは車両運動の縦・横運動パラメータを入力として受信する。 タイプ2ファジィ集合は、そのメンバーシップ関数もファジィ集合であるため、ノイズデータを扱うときのタイプ1ファジィ集合よりも頑丈である。 さらに、複数の専門家のアプローチにより、ファジィシステムの知識を格納するファジィルールベースを構築しながら、バイアスと不正確性を低減できる。 提案手法は記述統計解析を用いて評価し,クラスタリングアルゴリズムとタイプ1ファジィ推論システムと比較した。 その結果、他のアルゴリズムと比較すると、2型ファジィ推論システムに分類された運転スタイルの低体型プロファイルを関連付ける傾向を示し、これは専門家の意見の集約に採用されるより保守的なアプローチと一致している。

Driving styles summarize different driving behaviors that reflect in the movements of the vehicles. These behaviors may indicate a tendency to perform riskier maneuvers, consume more fuel or energy, break traffic rules, or drive carefully. Therefore, this paper presents a driving style recognition using Interval Type-2 Fuzzy Inference System with Multiple Experts Decision-Making for classifying drivers into calm, moderate and aggressive. This system receives as input features longitudinal and lateral kinematic parameters of the vehicle motion. The type-2 fuzzy sets are more robust than type-1 fuzzy sets when handling noisy data, because their membership function are also fuzzy sets. In addition, a multiple experts approach can reduce the bias and imprecision while building the fuzzy rulebase, which stores the knowledge of the fuzzy system. The proposed approach was evaluated using descriptive statistics analysis, and compared with clustering algorithms and a type-1 fuzzy inference system. The results show the tendency to associate lower kinematic profiles for the driving styles classified with the type-2 fuzzy inference system when compared to other algorithms, which is in line with the more conservative approach adopted in the aggregation of the experts' opinions.
翻訳日:2021-10-27 14:50:54 公開日:2021-10-26
# 周期的活性化関数は定常性を引き起こす

Periodic Activation Functions Induce Stationarity ( http://arxiv.org/abs/2110.13572v1 )

ライセンス: Link先を確認
Lassi Meronen, Martin Trapp, Arno Solin(参考訳) ニューラルネットワークモデルは、隠されたデータのバイアスを強化することで知られ、信頼性が低く、解釈が難しい。 関数空間に帰納バイアスを導入することによって、'彼らが知らないことを知る'モデルを構築したいのです。 ベイジアンニューラルネットワークにおける周期的活性化関数は、ネットワーク重みの事前と翻訳不変な定常ガウス過程の事前の接続を確立する。 さらに、このリンクは三角波と周期的ReLU活性化関数をカバーし、正弦波(フーリエ)の活性化を超えることを示す。 一連の実験において、周期的アクティベーション関数はドメイン内のデータに匹敵する性能を示し、ドメイン外検出のための深層ニューラルネットワークにおける摂動入力に対する感度を捉える。

Neural network models are known to reinforce hidden data biases, making them unreliable and difficult to interpret. We seek to build models that `know what they do not know' by introducing inductive biases in the function space. We show that periodic activation functions in Bayesian neural networks establish a connection between the prior on the network weights and translation-invariant, stationary Gaussian process priors. Furthermore, we show that this link goes beyond sinusoidal (Fourier) activations by also covering triangular wave and periodic ReLU activation functions. In a series of experiments, we show that periodic activation functions obtain comparable performance for in-domain data and capture sensitivity to perturbed inputs in deep neural networks for out-of-domain detection.
翻訳日:2021-10-27 14:24:54 公開日:2021-10-26
# Wasserstein-GANによる機械的サブモデルの不確かさ定量化

Uncertainty quantification in a mechanical submodel driven by a Wasserstein-GAN ( http://arxiv.org/abs/2110.13680v1 )

ライセンス: Link先を確認
Hamza Boukraichi, Nissrine Akkari, Fabien Casenave, David Ryckelynck(参考訳) 非常に大きな力学系のパラメトリックおよび非パラメトリック不確実性の解析には、その系の確率モデルを構築する必要がある。 ランダム行列理論と主共振解析に依存する線形アプローチは、システムが低周波振動を受けるときに使用できる。 高速ダイナミクスと波動伝搬の場合には、機械学習を用いて高速サブモデルの境界条件のランダム生成について検討する。 機械学習やデータ駆動手法における非線形手法の利用は極めて重要であることを示す。 物理インフォームドニューラルネットワークは、線形モーダル解析を置き換えるデータ駆動方式の選択肢である。 非パラメトリック不確実性のための物理系の確率モデルを構築するためには、ランダムなコンポーネントをサポートするアーキテクチャが必要である。 このような応用にはGAN(Generative Adversarial Networks)が適しており、Wasserstein-GANは勾配ペナルティの変種である。 本研究の目的は,有限要素法符号(Fenics)のデータに基づいてGANを訓練し,より高速な有限要素予測のための確率境界条件を抽出することである。 サブモデルとトレーニングデータはどちらも同じ幾何学的支持を有する。 不確実性定量化の分野であり、工学的な目的に関係している。 搾取フェーズでは、このフレームワークは、モンテカルロ推定器として使用できるサブモデル上のランダム化およびパラメータ化されたシミュレーションジェネレータと見なすことができる。

The analysis of parametric and non-parametric uncertainties of very large dynamical systems requires the construction of a stochastic model of said system. Linear approaches relying on random matrix theory and principal componant analysis can be used when systems undergo low-frequency vibrations. In the case of fast dynamics and wave propagation, we investigate a random generator of boundary conditions for fast submodels by using machine learning. We show that the use of non-linear techniques in machine learning and data-driven methods is highly relevant. Physics-informed neural networks is a possible choice for a data-driven method to replace linear modal analysis. An architecture that support a random component is necessary for the construction of the stochastic model of the physical system for non-parametric uncertainties, since the goal is to learn the underlying probabilistic distribution of uncertainty in the data. Generative Adversarial Networks (GANs) are suited for such applications, where the Wasserstein-GAN with gradient penalty variant offers improved convergence results for our problem. The objective of our approach is to train a GAN on data from a finite element method code (Fenics) so as to extract stochastic boundary conditions for faster finite element predictions on a submodel. The submodel and the training data have both the same geometrical support. It is a zone of interest for uncertainty quantification and relevant to engineering purposes. In the exploitation phase, the framework can be viewed as a randomized and parametrized simulation generator on the submodel, which can be used as a Monte Carlo estimator.
翻訳日:2021-10-27 14:24:40 公開日:2021-10-26
# 再発性ED患者と入院患者の過去の相同性同定のための類似性関連ルール

Min-similarity association rules for identifying past comorbidities of recurrent ED and inpatient patients ( http://arxiv.org/abs/2110.13769v1 )

ライセンス: Link先を確認
Luoluo Liu, Eran Simhon, Chaitanya Kulkarni, Ronny Mans(参考訳) 病院では, 頻繁な患者の割合が, 医療資源の利用量に比例する割合に寄与する。 さらに, 薬物乱用, メンタルヘルス, および社会的行動介入, 外来医療, 予防医療によって改善される医療要因に関連がある場合において, 再来院を減らし, 患者の成果を大幅に改善することができる。 そこで我々は,高利用率の反復性患者を同定し,反復的訪問に最も寄与する相補性を決定する,計算効率が高く解釈可能なフレームワークを開発した。 具体的には,最少類似度関連規則 (MSAR) と呼ばれる新たなアルゴリズムを提案する。 大規模な電気健康記録(EHR)データセット上でMSARを検証する。 ソリューションの一部はPhilips製品であるPatent Flow Capacity Suite (PFCS)にデプロイされている。

In the hospital setting, a small percentage of recurrent frequent patients contribute to a disproportional amount of healthcare resource usage. Moreover, in many of these cases, patient outcomes can be greatly improved by reducing reoccurring visits, especially when they are associated with substance abuse, mental health, and medical factors that could be improved by social-behavioral interventions, outpatient or preventative care. To address this, we developed a computationally efficient and interpretable framework that both identifies recurrent patients with high utilization and determines which comorbidities contribute most to their recurrent visits. Specifically, we present a novel algorithm, called the minimum similarity association rules (MSAR), balancing confidence-support trade-off, to determine the conditions most associated with reoccurring Emergency department (ED) and inpatient visits. We validate MSAR on a large Electric Health Record (EHR) dataset. Part of the solution is deployed in Philips product Patient Flow Capacity Suite (PFCS).
翻訳日:2021-10-27 14:24:19 公開日:2021-10-26
# 個別公正のためのポストプロセッシング

Post-processing for Individual Fairness ( http://arxiv.org/abs/2110.13796v1 )

ライセンス: Link先を確認
Felix Petersen, Debarghya Mukherjee, Yuekai Sun, Mikhail Yurochkin(参考訳) アルゴリズムフェアネスにおける後処理は、既にプロダクションで使用されているMLシステムのバイアスを修正するための汎用的なアプローチである。 後処理の主な魅力は、高価な再トレーニングを避けることである。 本研究では,個別公平性(IF)のための一般的なポストプロセッシングアルゴリズムを提案する。 我々は、学習者が元のモデルと個人間の類似性グラフの予測のみにアクセスし、所望の公平さの制約を導くような設定を考える。 我々はIF後処理問題をグラフ平滑化問題として、所望の「類似した個人を同様に扱う」解釈を保存するラプラシアン正規化問題とした。 理論的な結果は,新しい目的関数と元の個人的公正の局所的緩和の関連性を示すものである。 実験的に,我々の後処理アルゴリズムは,BERTなどの大規模NLPモデルにおいて,精度を保ちながら個々のバイアスを補正する。

Post-processing in algorithmic fairness is a versatile approach for correcting bias in ML systems that are already used in production. The main appeal of post-processing is that it avoids expensive retraining. In this work, we propose general post-processing algorithms for individual fairness (IF). We consider a setting where the learner only has access to the predictions of the original model and a similarity graph between individuals, guiding the desired fairness constraints. We cast the IF post-processing problem as a graph smoothing problem corresponding to graph Laplacian regularization that preserves the desired "treat similar individuals similarly" interpretation. Our theoretical results demonstrate the connection of the new objective function to a local relaxation of the original individual fairness. Empirically, our post-processing algorithms correct individual biases in large-scale NLP models such as BERT, while preserving accuracy.
翻訳日:2021-10-27 14:24:02 公開日:2021-10-26
# 動的因果ベイズ最適化

Dynamic Causal Bayesian Optimization ( http://arxiv.org/abs/2110.13891v1 )

ライセンス: Link先を確認
Virginia Aglietti, Neil Dhir, Javier Gonz\'alez, Theodoros Damoulas(参考訳) 本稿では,対象変数と入力値の両方が時間とともに進化する因果力学系において,最適介入の系列を行う問題について検討する。 この問題は、システム生物学や運用研究など、さまざまな領域で発生する。 動的因果ベイズ最適化(DCBO)は、逐次意思決定、因果推論、ガウス過程(GP)エミュレーションのアイデアをまとめる。 DCBOは、グラフ内のすべての因果効果が時間とともに変化するシナリオで有用である。 ステップ毎のDCBOは、システムから収集された観測データと過去の干渉データの両方を統合することにより、局所的な最適な介入を特定する。 時間ステップをまたいで介入情報を伝達し、不確かさを定量化し、実際に最適な介入を見つけるために使用できる動的因果gpモデルを定義するための理論的結果を与える。 我々は、DCBOが複数の設定やアプリケーションにおいて競合するアプローチよりも迅速に最適な介入を特定する方法を示す。

This paper studies the problem of performing a sequence of optimal interventions in a causal dynamical system where both the target variable of interest and the inputs evolve over time. This problem arises in a variety of domains e.g. system biology and operational research. Dynamic Causal Bayesian Optimization (DCBO) brings together ideas from sequential decision making, causal inference and Gaussian process (GP) emulation. DCBO is useful in scenarios where all causal effects in a graph are changing over time. At every time step DCBO identifies a local optimal intervention by integrating both observational and past interventional data collected from the system. We give theoretical results detailing how one can transfer interventional information across time steps and define a dynamic causal GP model which can be used to quantify uncertainty and find optimal interventions in practice. We demonstrate how DCBO identifies optimal interventions faster than competing approaches in multiple settings and applications.
翻訳日:2021-10-27 14:23:36 公開日:2021-10-26
# AugMax:ロバストトレーニングのためのランダム拡張の逆合成

AugMax: Adversarial Composition of Random Augmentations for Robust Training ( http://arxiv.org/abs/2110.13771v1 )

ライセンス: Link先を確認
Haotao Wang, Chaowei Xiao, Jean Kossaifi, Zhiding Yu, Anima Anandkumar, Zhangyang Wang(参考訳) データ拡張は、ディープニューラルネットワーク(dnn)の堅牢性を改善するためのシンプルかつ効果的な方法である。 多様性と硬さは、堅牢性を達成するためのデータ拡張の相補的な2つの次元である。 例えば、AugMixは多種多様な拡張のランダムな構成を探索して範囲を広げ、一方、敵の訓練は弱さを見つけるために逆向きに硬いサンプルを生成する。 そこで本研究では,多様性と硬さの両面を統合するために,AugMaxと呼ばれるデータ拡張フレームワークを提案する。 AugMaxはまず複数の拡張演算子をランダムにサンプリングし、選択した演算子の逆混合を学習する。 augmaxはデータ拡張のより強固な形式であるため、モデルのトレーニングをより難しくする入力分布が大幅に増大する。 この問題を解決するために、AugMaxから生じるインスタンスワイド特徴の不均一性を解消するDuBIN(Dual-Batch-and-Instance Normalization)と呼ばれる非絡み付き正規化モジュールをさらに設計する。 AugMax-DuBINは、CIFAR10-C、CIFAR100-C、Tiny ImageNet-C、ImageNet-Cで、前作より3.03%、3.49%、1.82%、0.71%向上した。 コードと事前訓練されたモデルは、https://github.com/VITA-Group/AugMax.comで入手できる。

Data augmentation is a simple yet effective way to improve the robustness of deep neural networks (DNNs). Diversity and hardness are two complementary dimensions of data augmentation to achieve robustness. For example, AugMix explores random compositions of a diverse set of augmentations to enhance broader coverage, while adversarial training generates adversarially hard samples to spot the weakness. Motivated by this, we propose a data augmentation framework, termed AugMax, to unify the two aspects of diversity and hardness. AugMax first randomly samples multiple augmentation operators and then learns an adversarial mixture of the selected operators. Being a stronger form of data augmentation, AugMax leads to a significantly augmented input distribution which makes model training more challenging. To solve this problem, we further design a disentangled normalization module, termed DuBIN (Dual-Batch-and-Instance Normalization), that disentangles the instance-wise feature heterogeneity arising from AugMax. Experiments show that AugMax-DuBIN leads to significantly improved out-of-distribution robustness, outperforming prior arts by 3.03%, 3.49%, 1.82% and 0.71% on CIFAR10-C, CIFAR100-C, Tiny ImageNet-C and ImageNet-C. Codes and pretrained models are available: https://github.com/VITA-Group/AugMax.
翻訳日:2021-10-27 14:22:13 公開日:2021-10-26
# HVAC制御のための分散マルチエージェント深部強化学習フレームワーク

Distributed Multi-Agent Deep Reinforcement Learning Framework for Whole-building HVAC Control ( http://arxiv.org/abs/2110.13450v1 )

ライセンス: Link先を確認
Vinay Hanumaiah, Sahika Genc(参考訳) 商業ビルにおける総電力消費量の約40%-50%は、暖房・換気・空調(HVAC)システムによるものと推定されている。 居住者の熱的快適性を考慮したエネルギーコストの最小化は、様々な空調制御と建物内の熱力学の関係が不明で複雑なため、非常に困難である。 この目的のために,商業ビルにおけるHVACを最適化するためのEnergy Plusシミュレーション環境に基づく多エージェント分散深部強化学習(DRL)フレームワークを提案する。 この枠組みは建物内の複雑な熱力学を学習し、建物内の冷却と暖房システムの異なる効果を利用してエネルギーコストを低減し、居住者の熱的快適性を維持している。 適応的なペナルティにより、RLアルゴリズムは省エネや熱的快適性を維持するために優先順位付けすることができる。 DRLを用いることで、エネルギー消費の75%以上を節約できる。 分散DRLフレームワークは、異種タイプの複数のGPUとCPUにスケールすることができる。

It is estimated that about 40%-50% of total electricity consumption in commercial buildings can be attributed to Heating, Ventilation, and Air Conditioning (HVAC) systems. Minimizing the energy cost while considering the thermal comfort of the occupants is very challenging due to unknown and complex relationships between various HVAC controls and thermal dynamics inside a building. To this end, we present a multi-agent, distributed deep reinforcement learning (DRL) framework based on Energy Plus simulation environment for optimizing HVAC in commercial buildings. This framework learns the complex thermal dynamics in the building and takes advantage of the differential effect of cooling and heating systems in the building to reduce energy costs, while maintaining the thermal comfort of the occupants. With adaptive penalty, the RL algorithm can be prioritized for energy savings or maintaining thermal comfort. Using DRL, we achieve more than 75\% savings in energy consumption. The distributed DRL framework can be scaled to multiple GPUs and CPUs of heterogeneous types.
翻訳日:2021-10-27 14:18:37 公開日:2021-10-26
# 次世代インターネットにおけるマルチエージェント強化学習の応用:包括的調査

Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey ( http://arxiv.org/abs/2110.13484v1 )

ライセンス: Link先を確認
Tianxu Li, Kun Zhu, Nguyen Cong Luong, Dusit Niyato, Qihui Wu, Yang Zhang, Bing Chen(参考訳) 将来のインターネットには、5G以降の5Gネットワーク、車両ネットワーク、無人航空機(UAV)ネットワーク、IoT(Internet of Things)など、いくつかの新興技術が含まれている。 さらに、将来のインターネットは、多数のネットワークエンティティを持つ異質で分散化される。 各エンティティは、動的かつ不確定なネットワーク環境下でのネットワークパフォーマンスを改善するために、ローカルな決定を行う必要がある。 シングルエージェント強化学習(RL)やディープ強化学習(DRL)のような標準学習アルゴリズムは、エージェントとして各ネットワークエンティティが未知の環境と対話することで最適な意思決定ポリシーを適応的に学習できるようにするために最近使用されている。 しかし、そのようなアルゴリズムはネットワークエンティティ間の協調や競合のモデル化に失敗し、他のエンティティを非定常問題の原因となる可能性のある環境の一部として扱う。 マルチエージェント強化学習(MARL)により、各ネットワークエンティティは環境だけでなく、他のエンティティのポリシーも観察することで、最適なポリシーを学ぶことができる。 その結果、marlはネットワークエンティティの学習効率を大幅に向上させ、近年、新興ネットワークにおける様々な問題を解決するために使用されている。 本稿では,新興ネットワークにおけるMARLの適用について概説する。 特に、MARLのチュートリアルと次世代インターネットにおけるMARLの応用に関する総合的な調査を提供する。 特に,まず単一エージェントRLとMARLを紹介する。 そこで我々は,今後のインターネットの課題を解決するために,MARLの多くの応用をレビューする。 問題は、ネットワークアクセス、送信電力制御、計算オフロード、コンテンツキャッシュ、パケットルーティング、UAV支援ネットワークの軌道設計、ネットワークセキュリティの問題である。

Future Internet involves several emerging technologies such as 5G and beyond 5G networks, vehicular networks, unmanned aerial vehicle (UAV) networks, and Internet of Things (IoTs). Moreover, future Internet becomes heterogeneous and decentralized with a large number of involved network entities. Each entity may need to make its local decision to improve the network performance under dynamic and uncertain network environments. Standard learning algorithms such as single-agent Reinforcement Learning (RL) or Deep Reinforcement Learning (DRL) have been recently used to enable each network entity as an agent to learn an optimal decision-making policy adaptively through interacting with the unknown environments. However, such an algorithm fails to model the cooperations or competitions among network entities, and simply treats other entities as a part of the environment that may result in the non-stationarity issue. Multi-agent Reinforcement Learning (MARL) allows each network entity to learn its optimal policy by observing not only the environments, but also other entities' policies. As a result, MARL can significantly improve the learning efficiency of the network entities, and it has been recently used to solve various issues in the emerging networks. In this paper, we thus review the applications of MARL in the emerging networks. In particular, we provide a tutorial of MARL and a comprehensive survey of applications of MARL in next generation Internet. In particular, we first introduce single-agent RL and MARL. Then, we review a number of applications of MARL to solve emerging issues in future Internet. The issues consist of network access, transmit power control, computation offloading, content caching, packet routing, trajectory design for UAV-aided networks, and network security issues.
翻訳日:2021-10-27 14:18:22 公開日:2021-10-26
# オンライン変動フィルタリングとパラメータ学習

Online Variational Filtering and Parameter Learning ( http://arxiv.org/abs/2110.13549v1 )

ライセンス: Link先を確認
Andrew Campbell, Yuyang Shi, Tom Rainforth, Arnaud Doucet(参考訳) 逐次データに対する潜在変数モデルのユビキタスクラスである状態空間モデル(SSM)におけるオンライン状態推定とパラメータ学習のための変分法を提案する。 標準バッチ変分法と同様に、我々は確率勾配を用いて、モデルパラメータと状態の後方分布の変動近似の両方に関して、ログエビデンス上の下限を同時に最適化する。 しかし,従来の手法とは違って,過去の観測では組み込まれてから修正する必要がなく,各段階の更新コストが一定でありながら,共同後続分布の次元が増大しているため,完全にオンラインで運用することが可能である。 これは、この結合後部分布と変分近似の後方分解と、証拠の下界とその勾配に対するベルマン型再帰を併用することにより達成される。 高次元ssmや逐次変分オートエンコーダなど,いくつかの例でこの手法の性能を示す。

We present a variational method for online state estimation and parameter learning in state-space models (SSMs), a ubiquitous class of latent variable models for sequential data. As per standard batch variational techniques, we use stochastic gradients to simultaneously optimize a lower bound on the log evidence with respect to both model parameters and a variational approximation of the states' posterior distribution. However, unlike existing approaches, our method is able to operate in an entirely online manner, such that historic observations do not require revisitation after being incorporated and the cost of updates at each time step remains constant, despite the growing dimensionality of the joint posterior distribution of the states. This is achieved by utilizing backward decompositions of this joint posterior distribution and of its variational approximation, combined with Bellman-type recursions for the evidence lower bound and its gradients. We demonstrate the performance of this methodology across several examples, including high-dimensional SSMs and sequential Variational Auto-Encoders.
翻訳日:2021-10-27 14:17:19 公開日:2021-10-26
# 多目的追跡アルゴリズムを評価するための軌道集合の時間重み付き計量

A time-weighted metric for sets of trajectories to assess multi-object tracking algorithms ( http://arxiv.org/abs/2110.13444v1 )

ライセンス: Link先を確認
\'Angel F. Garc\'ia-Fern\'andez, Abu Sajana Rahmathullah, Lennart Svensson(参考訳) 本稿では,誤検出された対象の局所化誤差に対する時間重み付きコストを含む複数対象追従アルゴリズムを評価するためのトラジェクタ集合の指標を提案する。 提案した計量は、異なる時間ステップに関連するコストに対する重みを含めることで、[1]で計量を拡張する。 時間重み付きコストはメトリック[1]の柔軟性を高め、より多くのアプリケーションとユーザーの好みに合うようにします。 まず、多次元代入に基づく計量を導入し、次に多項式時間で計算可能で計量でもある線形計画緩和を導入する。 メトリクスは無作為な有限軌跡の測度にまで拡張することができ、異なるシナリオでアルゴリズムを評価し、ランク付けすることができる。

This paper proposes a metric for sets of trajectories to evaluate multi-object tracking algorithms that includes time-weighted costs for localisation errors of properly detected targets, for false targets, missed targets and track switches. The proposed metric extends the metric in [1] by including weights to the costs associated to different time steps. The time-weighted costs increase the flexibility of the metric [1] to fit more applications and user preferences. We first introduce a metric based on multi-dimensional assignments, and then its linear programming relaxation, which is computable in polynomial time and is also a metric. The metrics can also be extended to metrics on random finite sets of trajectories to evaluate and rank algorithms across different scenarios, each with a ground truth set of trajectories.
翻訳日:2021-10-27 14:17:02 公開日:2021-10-26
# (参考訳) 低リソースおよびノイズの多い言語シナリオにおいて、文字ベースの言語モデルはダウンストリームタスクパフォーマンスを改善することができるか?

Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? ( http://arxiv.org/abs/2110.13658v1 )

ライセンス: CC BY 4.0
Arij Riabi, Beno\^it Sagot, Djam\'e Seddah(参考訳) 最近のnlpの印象的な改善は、主に文脈ニューラル言語モデルの成功に基づいているが、多くの高リソース言語で実証されている。 言語モデルやより一般的には、標準化されていない低リソース言語のためのNLPシステムの構築は、依然として困難な課題である。 本研究では、主にソーシャルメディアやメッセージ通信で見られるラテン文字の拡張であるNArabiziを用いて、北アフリカ方言のアラビア語に焦点をあてる。 高いレベルの可変性を示すデータを含むこの低リソースシナリオでは、文字ベースの言語モデルの下流のパフォーマンスを、単言語および多言語モデルのそれと比較する。 ナラビジの99k文のみをトレーニングし,この言語の小さな木バンクで微調整した文字ベースモデルが,大規模多言語および単言語モデルで事前学習した同じアーキテクチャで得られたものに近い性能を示すことを示す。 これらの結果が、ノイズの多いフランスのユーザ生成コンテンツのデータセットであることを確認した上で、このような文字ベースの言語モデルは、低リソースおよび高言語可変セットにおけるNLPの資産になり得ると論じる。

Recent impressive improvements in NLP, largely based on the success of contextual neural language models, have been mostly demonstrated on at most a couple dozen high-resource languages. Building language models and, more generally, NLP systems for non-standardized and low-resource languages remains a challenging task. In this work, we focus on North-African colloquial dialectal Arabic written using an extension of the Latin script, called NArabizi, found mostly on social media and messaging communication. In this low-resource scenario with data displaying a high level of variability, we compare the downstream performance of a character-based language model on part-of-speech tagging and dependency parsing to that of monolingual and multilingual models. We show that a character-based model trained on only 99k sentences of NArabizi and fined-tuned on a small treebank of this language leads to performance close to those obtained with the same architecture pre-trained on large multilingual and monolingual models. Confirming these results a on much larger data set of noisy French user-generated content, we argue that such character-based language models can be an asset for NLP in low-resource and high language variability set-tings.
翻訳日:2021-10-27 14:14:35 公開日:2021-10-26
# FL-WBC: クライアントの視点からのフェデレート学習におけるモデル中毒攻撃に対するロバスト性向上

FL-WBC: Enhancing Robustness against Model Poisoning Attacks in Federated Learning from a Client Perspective ( http://arxiv.org/abs/2110.13864v1 )

ライセンス: Link先を確認
Jingwei Sun, Ang Li, Louis DiValentin, Amin Hassanzadeh, Yiran Chen, Hai Li(参考訳) Federated Learning(FL)は,中央サーバとエッジデバイス間の反復的な通信を通じてグローバルモデルをトレーニングする,人気のある分散学習フレームワークである。 近年の研究では、FLはモデル中毒攻撃に弱いことが示されている。 いくつかのサーバベースの防御アプローチ(例えばロバストアグリゲーション)がそのような攻撃を軽減するために提案されている。 しかし,極めて強い攻撃下では,これらの防御手法はFLの堅牢性を保証できないことを実証的に示す。 さらに重要なことは、グローバルモデルが汚染されている限り、その後の攻撃がなくても、グローバルモデルへの攻撃の影響は続くラウンドにとどまることである。 本研究では,すでにグローバルモデルに汚染されているモデル中毒攻撃を緩和するクライアントベースの防御手法であるWhite Blood Cell for Federated Learning (FL-WBC)を提案する。 FL-WBCの鍵となる考え方は、パラメータに対する長期間の攻撃効果が局所訓練中にその空間を摂動させるパラメータ空間を特定することである。 さらに, FL-WBCの適用後, モデル中毒に対する堅牢性保証とFedAvgの収束保証を導出した。 本研究はFasionMNISTとCIFAR10の実験を行い,最先端のモデル中毒に対する防御効果を評価する。 以上の結果から,IIDおよび非IID条件下での精度低下がほとんどなく,グローバルモデルに対するモデル中毒攻撃の影響を効果的に軽減できることが示唆された。 我々の防御は、既存のサーバベースのロバストアグリゲーションアプローチを補完するものであり、非常に強力な攻撃の下でflのロバスト性をさらに改善することができる。

Federated learning (FL) is a popular distributed learning framework that trains a global model through iterative communications between a central server and edge devices. Recent works have demonstrated that FL is vulnerable to model poisoning attacks. Several server-based defense approaches (e.g. robust aggregation), have been proposed to mitigate such attacks. However, we empirically show that under extremely strong attacks, these defensive methods fail to guarantee the robustness of FL. More importantly, we observe that as long as the global model is polluted, the impact of attacks on the global model will remain in subsequent rounds even if there are no subsequent attacks. In this work, we propose a client-based defense, named White Blood Cell for Federated Learning (FL-WBC), which can mitigate model poisoning attacks that have already polluted the global model. The key idea of FL-WBC is to identify the parameter space where long-lasting attack effect on parameters resides and perturb that space during local training. Furthermore, we derive a certified robustness guarantee against model poisoning attacks and a convergence guarantee to FedAvg after applying our FL-WBC. We conduct experiments on FasionMNIST and CIFAR10 to evaluate the defense against state-of-the-art model poisoning attacks. The results demonstrate that our method can effectively mitigate model poisoning attack impact on the global model within 5 communication rounds with nearly no accuracy drop under both IID and Non-IID settings. Our defense is also complementary to existing server-based robust aggregation approaches and can further improve the robustness of FL under extremely strong attacks.
翻訳日:2021-10-27 13:53:13 公開日:2021-10-26
# Few-Shot Intent Classification and Slot Fillingのための明示的・教師付きコントラスト学習フレームワーク

An Explicit-Joint and Supervised-Contrastive Learning Framework for Few-Shot Intent Classification and Slot Filling ( http://arxiv.org/abs/2110.13691v1 )

ライセンス: Link先を確認
Han Liu, Feng Zhang, Xiaotong Zhang, Siyang Zhao and Xianchao Zhang(参考訳) Intent Classification (IC) と slot fill (SF) はタスク指向対話システムにおいて重要なビルディングブロックである。 これら2つのタスクは密接に関連しており、互いに繁栄することができる。 高速に出現する新しい意図やスロットを特定するために、わずかな発話しか利用できないため、ICやSFを実装する際にデータ不足の問題が発生することが多い。 しかし、クラスごとのトレーニングサンプルの数が非常に少ない場合、IC/SFモデルはほとんど機能しない。 本稿では,数ショットの意図分類とスロットフィリングのための,新しい明示的結合と教師付きコントラスト学習フレームワークを提案する。 ハイライトは以下の通り。 (i)このモデルは双方向インタラクションを通じて意図やスロット表現を抽出し、プロトタイプネットワークを拡張して明示的な協調学習を実現し、icとsfのタスクが相互に強化できることを保証する。 (ii)このモデルは教師付きコントラスト学習と統合され、同じクラスからのサンプルがまとめられ、異なるクラスからのサンプルが押しつぶされるようにする。 さらに、このモデルは、伝統的な設定を固定的な方法とショットで取り除き、バランスのとれないデータセットを可能にする、エピソードを構築するための一般的で実用的な方法に従う。 3つのパブリックデータセットに関する広範な実験は、モデルが有望なパフォーマンスを達成できることを示しています。

Intent classification (IC) and slot filling (SF) are critical building blocks in task-oriented dialogue systems. These two tasks are closely-related and can flourish each other. Since only a few utterances can be utilized for identifying fast-emerging new intents and slots, data scarcity issue often occurs when implementing IC and SF. However, few IC/SF models perform well when the number of training samples per class is quite small. In this paper, we propose a novel explicit-joint and supervised-contrastive learning framework for few-shot intent classification and slot filling. Its highlights are as follows. (i) The model extracts intent and slot representations via bidirectional interactions, and extends prototypical network to achieve explicit-joint learning, which guarantees that IC and SF tasks can mutually reinforce each other. (ii) The model integrates with supervised contrastive learning, which ensures that samples from same class are pulled together and samples from different classes are pushed apart. In addition, the model follows a not common but practical way to construct the episode, which gets rid of the traditional setting with fixed way and shot, and allows for unbalanced datasets. Extensive experiments on three public datasets show that our model can achieve promising performance.
翻訳日:2021-10-27 13:52:31 公開日:2021-10-26
# ショット学習のための自己否定型ニューラルネットワーク

Self-Denoising Neural Networks for Few Shot Learning ( http://arxiv.org/abs/2110.13386v1 )

ライセンス: Link先を確認
Steven Schwarcz, Sai Saketh Rambhatla, Rama Chellappa(参考訳) 本稿では,1つまたは5つのラベル付き例からニューラルネットワークを教えるタスクである,ショット学習の少ない新しいアーキテクチャを提案する。 Alaineらの理論的な結果から着想を得たオートエンコーダは、真のデータ多様体に近い特徴を洗練し、既存のニューラルアーキテクチャの複数段階でノイズを付加すると同時に、この付加ノイズに頑健であることを学習する新たなトレーニングスキームを提案する。 このアーキテクチャは、SDNN(Self-Denoising Neural Network)と呼ばれ、現代のほとんどの畳み込みニューラルネットワークに容易に適用でき、既存の数発の学習技術の補足として使用することができる。 SDNNが従来の画像認識手法より優れていることを実証的に示しており、Wide-ResNetアーキテクチャは、‘textit{mini} ImageNet, tiered-ImageNet, CIFAR-FS few shot learning data で示している。 また,SDNNアーキテクチャの構築を実証的に正当化するために,一連のアブレーション実験を行った。 最後に, SDNNは, ActEV SDLサプライズアクティビティ(SDLサプライズアクティビティ)の課題において, ビデオ中のヒューマンアクション検出のタスクにおいて, ショット性能が向上することを示した。

In this paper, we introduce a new architecture for few shot learning, the task of teaching a neural network from as few as one or five labeled examples. Inspired by the theoretical results of Alaine et al that Denoising Autoencoders refine features to lie closer to the true data manifold, we present a new training scheme that adds noise at multiple stages of an existing neural architecture while simultaneously learning to be robust to this added noise. This architecture, which we call a Self-Denoising Neural Network (SDNN), can be applied easily to most modern convolutional neural architectures, and can be used as a supplement to many existing few-shot learning techniques. We empirically show that SDNNs out-perform previous state-of-the-art methods for few shot image recognition using the Wide-ResNet architecture on the \textit{mini}ImageNet, tiered-ImageNet, and CIFAR-FS few shot learning datasets. We also perform a series of ablation experiments to empirically justify the construction of the SDNN architecture. Finally, we show that SDNNs even improve few shot performance on the task of human action detection in video using experiments on the ActEV SDL Surprise Activities challenge.
翻訳日:2021-10-27 13:51:39 公開日:2021-10-26
# ビデオ質問応答におけるドメインに依存しない知識の伝達

Transferring Domain-Agnostic Knowledge in Video Question Answering ( http://arxiv.org/abs/2110.13395v1 )

ライセンス: Link先を確認
Tianran Wu, Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima and Haruo Takemura(参考訳) ビデオ質問応答(Video QA)は、関連するビデオクリップに基づいて所定の質問に答えるように設計されている。 現在利用可能な大規模なデータセットにより、視覚情報と言語情報の合同理解としてVideoQAを定式化することが可能になった。 しかし、この訓練手順は費用がかかり、人間の能力には及ばない。 本稿では,ドメインに依存しない知識とドメイン固有の知識を導入することによって,伝達学習手法を検討する。 まず,ドメインに依存しない知識を媒体として,事前学習モデルの微調整を行う。 第2に,21,412個の人間生成質問応答サンプルを用いた新たなビデオqaデータセットを構築し,それと同等の知識の伝達を行う。 私たちの実験では、 (i)ドメインに依存しない知識は伝達可能で、 (II)提案する転送学習フレームワークは,ビデオQA性能を効果的に向上させることができる。

Video question answering (VideoQA) is designed to answer a given question based on a relevant video clip. The current available large-scale datasets have made it possible to formulate VideoQA as the joint understanding of visual and language information. However, this training procedure is costly and still less competent with human performance. In this paper, we investigate a transfer learning method by the introduction of domain-agnostic knowledge and domain-specific knowledge. First, we develop a novel transfer learning framework, which finetunes the pre-trained model by applying domain-agnostic knowledge as the medium. Second, we construct a new VideoQA dataset with 21,412 human-generated question-answer samples for comparable transfer of knowledge. Our experiments show that: (i) domain-agnostic knowledge is transferable and (ii) our proposed transfer learning framework can boost VideoQA performance effectively.
翻訳日:2021-10-27 13:51:17 公開日:2021-10-26
# 適応型脳波に基づく視覚認識

Subject Adaptive EEG-based Visual Recognition ( http://arxiv.org/abs/2110.13470v1 )

ライセンス: Link先を確認
Pilhyeon Lee, Sunhee Hwang, Seogkyu Jeon, Hyeran Byun(参考訳) 本稿では,脳波信号に基づいて被験者が観察する視覚物体クラスを予測することを目的とした,脳波に基づく視覚認識について述べる。 主な課題の1つは、異なる主題からの信号の大きなばらつきである。 認識システムは、モデルトレーニングに関わる被験者のみに限るが、これは、新しい被験者が頻繁に追加される現実のシナリオでは望ましくない。 この制限は、新しいユーザーごとに大量のデータを集めることで緩和できるが、コストがかかり、時には実現できない。 タスクをより実用的なものにするために,適応型脳波に基づく視覚認識という新たな問題設定を導入する。 この設定では、既存のユーザ(ソース)の事前記録されたデータの束が利用可能であり、新しいユーザ(ターゲット)からのトレーニングデータのみが提供される。 推定時には、モデルが対象ユーザからの信号のみに基づいて評価される。 この設定は、特に、対象者からのデータ上でモデルを評価する際に、情報源からのトレーニングサンプルが役に立たないため、難しい。 新たな問題に取り組むため,我々は,異なる対象からの特徴分布間の不一致を最小限に抑える,単純かつ効果的なベースラインを設計した。 これにより,対象者間で共有される共通知識を学習でき,対象者の認識性能が大幅に向上する。 実験では,様々な条件下で本手法の有効性を示す。 私たちのコードはhttps://github.com/DeepBCI/Deep-BCI/tree/master/1_Intelligent_BCI/Subject_Adaptive_EEG_based_Visual_ Recognitionで利用可能です。

This paper focuses on EEG-based visual recognition, aiming to predict the visual object class observed by a subject based on his/her EEG signals. One of the main challenges is the large variation between signals from different subjects. It limits recognition systems to work only for the subjects involved in model training, which is undesirable for real-world scenarios where new subjects are frequently added. This limitation can be alleviated by collecting a large amount of data for each new user, yet it is costly and sometimes infeasible. To make the task more practical, we introduce a novel problem setting, namely subject adaptive EEG-based visual recognition. In this setting, a bunch of pre-recorded data of existing users (source) is available, while only a little training data from a new user (target) are provided. At inference time, the model is evaluated solely on the signals from the target user. This setting is challenging, especially because training samples from source subjects may not be helpful when evaluating the model on the data from the target subject. To tackle the new problem, we design a simple yet effective baseline that minimizes the discrepancy between feature distributions from different subjects, which allows the model to extract subject-independent features. Consequently, our model can learn the common knowledge shared among subjects, thereby significantly improving the recognition performance for the target subject. In the experiments, we demonstrate the effectiveness of our method under various settings. Our code is available at https://github.com/DeepBCI/Deep-BCI/tree/master/1_Intelligent_BCI/Subject_Adaptive_EEG_based_Visual_ Recognition.
翻訳日:2021-10-27 13:51:05 公開日:2021-10-26
# CTRN:行動検出のためのクラス時間関係ネットワーク

CTRN: Class-Temporal Relational Network for Action Detection ( http://arxiv.org/abs/2110.13473v1 )

ライセンス: Link先を確認
Rui Dai, Srijan Das, Francois Bremond(参考訳) アクション検出は、特に未トリミングビデオの密にラベル付けされたデータセットにおいて、必須かつ困難なタスクである。 これらのデータセットには、複合アクション、共起アクション、インスタンス持続時間の時間的変動など、多くの現実世界の課題がある。 これらの課題に対処するため,検出された行動のクラスと時間的関係について検討する。 本研究では,エンドツーエンドネットワークであるCTRN(Class-Temporal Relational Network)を紹介する。 1) Representation Transform Moduleは、混合表現からクラス固有の機能をフィルタリングし、グラフ構造化データを構築する。 2) クラステンポラルモジュールは、クラスと時間的関係を逐次的にモデル化する。 3) g分類器は、スニペットワイズ共起動作ペアの特権知識を活用して、共起動作検出をさらに改善する。 我々は,3つの難解なラベル付きデータセット上でCTRNを評価し,提案手法の有効性とロバスト性を反映して最先端の性能を実現する。

Action detection is an essential and challenging task, especially for densely labelled datasets of untrimmed videos. There are many real-world challenges in those datasets, such as composite action, co-occurring action, and high temporal variation of instance duration. For handling these challenges, we propose to explore both the class and temporal relations of detected actions. In this work, we introduce an end-to-end network: Class-Temporal Relational Network (CTRN). It contains three key components: (1) The Representation Transform Module filters the class-specific features from the mixed representations to build graph-structured data. (2) The Class-Temporal Module models the class and temporal relations in a sequential manner. (3) G-classifier leverages the privileged knowledge of the snippet-wise co-occurring action pairs to further improve the co-occurring action detection. We evaluate CTRN on three challenging densely labelled datasets and achieve state-of-the-art performance, reflecting the effectiveness and robustness of our method.
翻訳日:2021-10-27 13:50:40 公開日:2021-10-26
# 階層型トランスフォーマーはより効率的な言語モデルである

Hierarchical Transformers Are More Efficient Language Models ( http://arxiv.org/abs/2110.13711v1 )

ライセンス: Link先を確認
Piotr Nawrot, Szymon Tworkowski, Micha{\l} Tyrolski, {\L}ukasz Kaiser, Yuhuai Wu, Christian Szegedy, Henryk Michalewski(参考訳) トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。 注目すべきなのは、Transformerは長いシーケンスを処理して、長いコヒーレントな出力を生成することができることだ。 これらの大きな言語モデルは印象的だが、非常に非効率でコストがかかり、アプリケーションとアクセシビリティが制限される。 我々は、明示的な階層構造を持つことが、長いシーケンスを効率的に処理するトランスフォーマーの鍵であると仮定する。 この主張を検証するために、まずトランスフォーマーのアクティベーションを階層的にするために、ダウンサンプルとアップサンプルの異なる方法を研究します。 最高のパフォーマンスアップサンプリングとダウンサンプリングレイヤを使用して、階層的トランスフォーマー言語モデルであるhourglassを作成します。 hourglassは、同じ計算量でトランスフォーマーのベースラインを改善し、トランスフォーマーと同じ結果をより効率的に得ることができる。 特に、HourglassはImageNet32生成タスクでTransformerモデルの最先端を新たに設定し、広く研究されているenwik8ベンチマークで言語モデリングの効率を改善する。

Transformer models yield impressive results on many NLP and sequence modeling tasks. Remarkably, Transformers can handle long sequences which allows them to produce long coherent outputs: full paragraphs produced by GPT-3 or well-structured images produced by DALL-E. These large language models are impressive but also very inefficient and costly, which limits their applications and accessibility. We postulate that having an explicit hierarchical architecture is the key to Transformers that efficiently handle long sequences. To verify this claim, we first study different ways to downsample and upsample activations in Transformers so as to make them hierarchical. We use the best performing upsampling and downsampling layers to create Hourglass - a hierarchical Transformer language model. Hourglass improves upon the Transformer baseline given the same amount of computation and can yield the same results as Transformers more efficiently. In particular, Hourglass sets new state-of-the-art for Transformer models on the ImageNet32 generation task and improves language modeling efficiency on the widely studied enwik8 benchmark.
翻訳日:2021-10-27 13:48:57 公開日:2021-10-26
# c$^2$sp-net:てんかん発作予測のための統合圧縮分類ネットワーク

C$^2$SP-Net: Joint Compression and Classification Network for Epilepsy Seizure Prediction ( http://arxiv.org/abs/2110.13674v1 )

ライセンス: Link先を確認
Di Wu, Yi Shi, Ziyu Wang, Jie Yang, Mohamad Sawan(参考訳) 脳-機械インタフェース技術の最近の進歩は発作予測を可能にした。 しかし,センサと処理装置間の大量の電気生理学的信号の通信と関連する計算は,特にウェアラブル・組込み医療機器において,帯域の制限と計算資源の制限により,発作予測システムにおいて2つの大きなボトルネックとなる。 コンプレッシブセンシング(cs)は、通信帯域幅の要求を減らすために信号を圧縮するために用いられるが、信号が発作予測に使用される前に複雑な再構成手順が必要である。 本稿では,単一のニューラルネットワークを用いて圧縮,予測,再構成を共同で解くc$^2$sp-netを提案する。 伝送帯域幅要求を低減するために、プラグアンドプレイインセンサ圧縮マトリックスを構築する。 圧縮信号は、追加の再構成ステップなしで発作予測に使用できる。 元の信号の再構成も高忠実度で行うことができる。 提案フレームワークの予測精度,感度,偽予測率,再構成品質を,種々の圧縮比で評価した。 実験の結果,本モデルは予測精度の大きな差で競争状態のベースラインを上回っていることがわかった。 特に,提案手法では,予測精度が1/2から1/16の圧縮比で0.35 %の損失を発生させる。

Recent development in brain-machine interface technology has made seizure prediction possible. However, the communication of large volume of electrophysiological signals between sensors and processing apparatus and related computation become two major bottlenecks for seizure prediction systems due to the constrained bandwidth and limited computation resource, especially for wearable and implantable medical devices. Although compressive sensing (CS) can be adopted to compress the signals to reduce communication bandwidth requirement, it needs a complex reconstruction procedure before the signal can be used for seizure prediction. In this paper, we propose C$^2$SP-Net, to jointly solve compression, prediction, and reconstruction with a single neural network. A plug-and-play in-sensor compression matrix is constructed to reduce transmission bandwidth requirement. The compressed signal can be used for seizure prediction without additional reconstruction steps. Reconstruction of the original signal can also be carried out in high fidelity. Prediction accuracy, sensitivity, false prediction rate, and reconstruction quality of the proposed framework are evaluated under various compression ratios. The experimental results illustrate that our model outperforms the competitive state-of-the-art baselines by a large margin in prediction accuracy. In particular, our proposed method produces an average loss of 0.35 % in prediction accuracy with a compression ratio ranging from 1/2 to 1/16.
翻訳日:2021-10-27 13:46:21 公開日:2021-10-26
# MaxSAT を用いた最適決定木学習

Learning Optimal Decision Trees Using MaxSAT ( http://arxiv.org/abs/2110.13854v1 )

ライセンス: Link先を確認
Josep Alos, Carlos Ansotegui, Eduard Torres(参考訳) 本稿では, 最小決定木(mpdts)を計算するための最大充足可能性技術に基づく組合せ最適化手法を提案する。 我々は,MPDTを計算するための従来の実行時アプローチにおいて,我々のアプローチが明らかに優れていることを示す。 また,これらのMPDTはスケルンで生成したDT分類器の平均値よりも精度が高いことを示す。 したがって,本手法は解釈可能性と精度のバランスをとるという課題に対処する。

We present a Combinatorial Optimization approach based on Maximum Satisfiability technology to compute Minimum Pure Decision Trees (MPDTs) for the sake of interpretability. We show that our approach outperforms clearly in terms of runtime previous approaches to compute MPDTs. We additionally show that these MPDTs can outperform on average the DT classifiers generated with sklearn in terms of accuracy. Therefore, our approach tackles favourably the challenge of balancing interpretability and accuracy.
翻訳日:2021-10-27 13:46:03 公開日:2021-10-26
# 孤立林におけるランダム選択の再検討

Revisiting randomized choices in isolation forests ( http://arxiv.org/abs/2110.13402v1 )

ライセンス: Link先を確認
David Cortes(参考訳) アイソレーションフォレスト(英: isolation forest)または「iforest」は、単純かつ効果的なアイデアに従う、直感的で広く使用される異常検出のアルゴリズムであり、与えられたデータ分布において、ある変数の範囲内でランダムに閾値(スリット点)が選択され、その閾値よりも大きいか小さいかに応じてデータポイントが分割された場合、外れ点が単独かより小さい分割で終わる可能性が高い。 元々の手順では,変数内の分割点と分割点を各ステップでランダムに選択することを提案したが,本論文では,変数やしきい値の非一様ランダムな選択を適用することで,多種多様な外れ点 – しばしば他の方法よりも興味深い外れ値のクラス – がより容易に識別できることを示す。 異なる分割誘導基準が比較され、あるクラスの外れ値のクラスに対して、より優れた外れ値識別をもたらすことが判明している。

Isolation forest or "iForest" is an intuitive and widely used algorithm for anomaly detection that follows a simple yet effective idea: in a given data distribution, if a threshold (split point) is selected uniformly at random within the range of some variable and data points are divided according to whether they are greater or smaller than this threshold, outlier points are more likely to end up alone or in the smaller partition. The original procedure suggested the choice of variable to split and split point within a variable to be done uniformly at random at each step, but this paper shows that "clustered" diverse outliers - oftentimes a more interesting class of outliers than others - can be more easily identified by applying a non-uniformly-random choice of variables and/or thresholds. Different split guiding criteria are compared and some are found to result in significantly better outlier discrimination for certain classes of outliers.
翻訳日:2021-10-27 13:45:36 公開日:2021-10-26
# (参考訳) 協調合理化の連動ダイナミクスの理解

Understanding Interlocking Dynamics of Cooperative Rationalization ( http://arxiv.org/abs/2110.13880v1 )

ライセンス: CC BY 4.0
Mo Yu, Yang Zhang, Shiyu Chang, Tommi S. Jaakkola(参考訳) 選択的合理化は、ニューラルネットワークの出力を予測するのに十分な入力の小さなサブセットを見つけることによって、複雑なニューラルネットワークの予測を説明する。 選択機構は、入力特徴(論理)の2元選択を行うrationeジェネレータと、選択された特徴のみに基づいて出力を予測する予測器とからなる2成分カスケードシステムを指定することで、モデル自体に一般的に統合される。 コンポーネントは共同でトレーニングされ、予測性能を最適化する。 本稿では、このような協調合理化パラダイム(モデルインターロック)の大きな問題を明らかにする。 インターロックは、予測者がジェネレータによって選択された特徴に過度に適合すると発生し、選択された論理が準最適であってもジェネレータの選択を補強する。 インターロッキング問題の根本的な原因は、最小化される合理化の目的が発電機の選択方針に関して凹凸になっていることである。 A2Rと呼ばれる新しい合理化フレームワークを提案し、アーキテクチャに第3のコンポーネントを導入し、選択とは対照的にソフトアテンションによって駆動される予測器を提案する。 ジェネレータは、特徴に対してソフトとハードの両方の注意を払っており、これらは2つの異なる予測器に供給される。 ジェネレータは依然として元の予測器のパフォーマンスをサポートしようとしているが、2つの予測器間のギャップを最小化している。 理論的に示すように、注意に基づく予測器はより良い凸性を示すので、A2Rは凹性障壁を克服できる。 2つのベンチマークと2つの実際のデータセットに関する実験は、A2Rがインターロック問題を著しく軽減し、人間の判断によく適合する説明を見つけることを実証している。 私たちはコードをhttps://github.com/gorov/understanding_interlockingでリリースします。

Selective rationalization explains the prediction of complex neural networks by finding a small subset of the input that is sufficient to predict the neural model output. The selection mechanism is commonly integrated into the model itself by specifying a two-component cascaded system consisting of a rationale generator, which makes a binary selection of the input features (which is the rationale), and a predictor, which predicts the output based only on the selected features. The components are trained jointly to optimize prediction performance. In this paper, we reveal a major problem with such cooperative rationalization paradigm -- model interlocking. Interlocking arises when the predictor overfits to the features selected by the generator thus reinforcing the generator's selection even if the selected rationales are sub-optimal. The fundamental cause of the interlocking problem is that the rationalization objective to be minimized is concave with respect to the generator's selection policy. We propose a new rationalization framework, called A2R, which introduces a third component into the architecture, a predictor driven by soft attention as opposed to selection. The generator now realizes both soft and hard attention over the features and these are fed into the two different predictors. While the generator still seeks to support the original predictor performance, it also minimizes a gap between the two predictors. As we will show theoretically, since the attention-based predictor exhibits a better convexity property, A2R can overcome the concavity barrier. Our experiments on two synthetic benchmarks and two real datasets demonstrate that A2R can significantly alleviate the interlock problem and find explanations that better align with human judgments. We release our code at https://github.com/Gorov/Understanding_Interlocking.
翻訳日:2021-10-27 13:42:48 公開日:2021-10-26
# リレー変分推論:エンコーダレスVIの高速化手法

Relay Variational Inference: A Method for Accelerated Encoderless VI ( http://arxiv.org/abs/2110.13422v1 )

ライセンス: Link先を確認
Amir Zadeh, Santiago Benoit, Louis-Philippe Morency(参考訳) 変分推論(vi)は、難解な確率を近似する方法を提供する。 ニューラルVIでは、近似後部の推論は通常エンコーダを用いて行われる。 あるいは、エンコーダレスVIは、エンコーダ(例えば、欠落または不確実なデータが存在する場合)による償却によって生じる過度な最適化に遭遇することなく、データから生成モデルを学習するためのフレームワークを提供する。 しかし、エンコーダが存在しない場合、近似後続パラメータの学習に必要な勾配ステップの遅い性質のため、このような手法は収束することが多い。 本稿では,エンコーダレスVIの収束と性能を劇的に向上させるフレームワークであるRelay VI(RVI)を紹介する。 複数のデータセットに対する実験では、収束速度、損失、表現力、欠落データ計算の観点からRVIの有効性を検討した。 rviは,従来提案していたエンコーダレスモデルやvaeモデル(amortized vi model)よりも性能と収束速度に優れる,ユニークなツールであると考えられる。

Variational Inference (VI) offers a method for approximating intractable likelihoods. In neural VI, inference of approximate posteriors is commonly done using an encoder. Alternatively, encoderless VI offers a framework for learning generative models from data without encountering suboptimalities caused by amortization via an encoder (e.g. in presence of missing or uncertain data). However, in absence of an encoder, such methods often suffer in convergence due to the slow nature of gradient steps required to learn the approximate posterior parameters. In this paper, we introduce Relay VI (RVI), a framework that dramatically improves both the convergence and performance of encoderless VI. In our experiments over multiple datasets, we study the effectiveness of RVI in terms of convergence speed, loss, representation power and missing data imputation. We find RVI to be a unique tool, often superior in both performance and convergence speed to previously proposed encoderless as well as amortized VI models (e.g. VAE).
翻訳日:2021-10-27 13:22:12 公開日:2021-10-26
# 防御テンソル化

Defensive Tensorization ( http://arxiv.org/abs/2110.13859v1 )

ライセンス: Link先を確認
Adrian Bulat and Jean Kossaifi and Sourav Bhattacharya and Yannis Panagakis and Timothy Hospedales and Georgios Tzimiropoulos and Nicholas D Lane and Maja Pantic(参考訳) ネットワークの遅延高次分解を利用した対角防御技術である防御的テンソル化を提案する。 ネットワークの層はまず因子化されたテンソル層として表される。 テンソル・ドロップアウトは潜伏部分空間に適用されるため、通常ランダム化によって引き起こされるスパーシティや摂動を伴わずに、密に再構成された重量となり、我々のアプローチは任意のニューラルネットワークアーキテクチャと容易に統合でき、敵の訓練のような技術と組み合わせることができる。 標準画像分類ベンチマークにおける提案手法の有効性を実証的に実証する。 我々は,音声分類タスクとバイナリネットワークを考慮して,ドメイン間および低精度アーキテクチャ間のアプローチの汎用性を検証する。 いずれの場合も,従来の作業よりも性能が向上したことを示す。

We propose defensive tensorization, an adversarial defence technique that leverages a latent high-order factorization of the network. The layers of a network are first expressed as factorized tensor layers. Tensor dropout is then applied in the latent subspace, therefore resulting in dense reconstructed weights, without the sparsity or perturbations typically induced by the randomization.Our approach can be readily integrated with any arbitrary neural architecture and combined with techniques like adversarial training. We empirically demonstrate the effectiveness of our approach on standard image classification benchmarks. We validate the versatility of our approach across domains and low-precision architectures by considering an audio classification task and binary networks. In all cases, we demonstrate improved performance compared to prior works.
翻訳日:2021-10-27 13:21:05 公開日:2021-10-26
# 勾配に基づく擬似多形分離

Gradient-based Quadratic Multiform Separation ( http://arxiv.org/abs/2110.13006v2 )

ライセンス: Link先を確認
Wen-Teng Chang(参考訳) 教師付き学習概念としての分類は、機械学習において重要なコンテンツである。 データのセットをクラスに分類することを目的としている。 現在、k-アネレスト隣人、ランダムフォレスト、サポートベクターマシンなどの一般的な分類方法がいくつかある。 それぞれに独自の長所と短所があり、あらゆる種類の問題に対して無敵ではない。 本稿では,Michael Fan et al. (2019) が最近提案した分類法である Quadratic Multiform separation (QMS) に焦点を当てる。 その新しい概念、リッチな数学的構造、および損失関数の革新的な定義は、既存の分類法とは分離した。 QMSにインスパイアされた我々は、QMS固有の損失関数を最小限に抑える分類器を得るために勾配に基づく最適化手法Adamを提案する。 さらに,ハイパーパラメータとアキュラティシーの関係を探究し,モデルチューニングに関する提案を行う。 実験の結果,QMSは精度の点で,ほとんどの分類法に匹敵する性能を示した。 その優れたパフォーマンスは、大規模な機械学習コンペで優勝した勾配向上アルゴリズムにほぼ匹敵する。

Classification as a supervised learning concept is an important content in machine learning. It aims at categorizing a set of data into classes. There are several commonly-used classification methods nowadays such as k-nearest neighbors, random forest, and support vector machine. Each of them has its own pros and cons, and none of them is invincible for all kinds of problems. In this thesis, we focus on Quadratic Multiform Separation (QMS), a classification method recently proposed by Michael Fan et al. (2019). Its fresh concept, rich mathematical structure, and innovative definition of loss function set it apart from the existing classification methods. Inspired by QMS, we propose utilizing a gradient-based optimization method, Adam, to obtain a classifier that minimizes the QMS-specific loss function. In addition, we provide suggestions regarding model tuning through explorations of the relationships between hyperparameters and accuracies. Our empirical result shows that QMS performs as good as most classification methods in terms of accuracy. Its superior performance is almost comparable to those of gradient boosting algorithms that win massive machine learning competitions.
翻訳日:2021-10-27 11:47:17 公開日:2021-10-26
# 多目的強化学習のためのゴール対応クロスエントロピー

Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning ( http://arxiv.org/abs/2110.12985v2 )

ライセンス: Link先を確認
Kibeom Kim, Min Whoo Lee, Yoonsung Kim, Je-Hwan Ryu, Minsu Lee, Byoung-Tak Zhang(参考訳) 対象に関する事前知識のないマルチターゲット環境で学習するには,大量のサンプルが必要となるため,一般化が困難になる。 この問題を解決するには、意味理解を通じて目標を判別することが重要である。 本稿では,強化学習と共に自動ラベルされた目標状態を用いて自己教師あり方式で活用できる目標認識クロスエントロピー(gace)損失を提案する。 この損失に基づいて、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。 マルチターゲット環境下での視覚ナビゲーションとロボットアーム操作タスクに関する提案手法を評価し,タスク成功率,サンプル効率,一般化の観点から,GDANが最先端の手法より優れていることを示す。 さらに質的分析により,提案手法はエージェントが与えられた指示を明確に認識し,目標指向行動を促進するのに役立つことを示した。

Learning in a multi-target environment without prior knowledge about the targets requires a large amount of samples and makes generalization difficult. To solve this problem, it is important to be able to discriminate targets through semantic understanding. In this paper, we propose goal-aware cross-entropy (GACE) loss, that can be utilized in a self-supervised way using auto-labeled goal states alongside reinforcement learning. Based on the loss, we then devise goal-discriminative attention networks (GDAN) which utilize the goal-relevant information to focus on the given instruction. We evaluate the proposed methods on visual navigation and robot arm manipulation tasks with multi-target environments and show that GDAN outperforms the state-of-the-art methods in terms of task success ratio, sample efficiency, and generalization. Additionally, qualitative analyses demonstrate that our proposed method can help the agent become aware of and focus on the given instruction clearly, promoting goal-directed behavior.
翻訳日:2021-10-27 11:47:01 公開日:2021-10-26
# 非凸分布ロバスト最適化:非漸近解析

Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis ( http://arxiv.org/abs/2110.12459v2 )

ライセンス: Link先を確認
Jikai Jin and Bohang Zhang and Haiyang Wang and Liwei Wang(参考訳) 分散ロバスト最適化(DRO)は、分散シフトに対して堅牢なモデルを学ぶために広く利用されている手法である。 標準最適化設定と比較すると、DROの目的関数の最適化は困難であり、既存の理論結果のほとんどは損失関数について強い仮定を下している。 本研究はDROアルゴリズムを用いて,一般の滑らかな非凸損失に対するギャップを埋めるものである。 DRO対象の特定の形式を慎重に活用することにより、目的関数が非凸で非滑らかであり、非有界勾配雑音を持つとしても、非漸近収束を保証することができる。 特に、運動量を持つミニバッチ正規化勾配降下と呼ばれる特別なアルゴリズムは、$o( \epsilon^{-4} )$勾配複雑性内で$\epsilon$ 1次定常点を見つけることができる。 また,条件付き値-値-リスク(CVaR)の設定についても論じるとともに,CVaRのスムーズなバージョンに基づいて,同様の収束保証が得られるようなDRO目標を提案する。 最終的にいくつかのタスクにおいて理論結果を検証し,提案アルゴリズムが連続的に顕著な加速を達成できることを示す。

Distributionally robust optimization (DRO) is a widely-used approach to learn models that are robust against distribution shift. Compared with the standard optimization setting, the objective function in DRO is more difficult to optimize, and most of the existing theoretical results make strong assumptions on the loss function. In this work we bridge the gap by studying DRO algorithms for general smooth non-convex losses. By carefully exploiting the specific form of the DRO objective, we are able to provide non-asymptotic convergence guarantees even though the objective function is possibly non-convex, non-smooth and has unbounded gradient noise. In particular, we prove that a special algorithm called the mini-batch normalized gradient descent with momentum, can find an $\epsilon$ first-order stationary point within $O( \epsilon^{-4} )$ gradient complexity. We also discuss the conditional value-at-risk (CVaR) setting, where we propose a penalized DRO objective based on a smoothed version of the CVaR that allows us to obtain a similar convergence guarantee. We finally verify our theoretical results in a number of tasks and find that the proposed algorithm can consistently achieve prominent acceleration.
翻訳日:2021-10-27 11:46:44 公開日:2021-10-26
# 画像ベースCLIP-Guided Essence Transfer

Image-Based CLIP-Guided Essence Transfer ( http://arxiv.org/abs/2110.12427v2 )

ライセンス: Link先を確認
Hila Chefer, Sagie Benaim, Roni Paiss, Lior Wolf(参考訳) 2つの信号の概念的混合は、創造性と知性の両方を基盤とする意味的タスクである。 本稿では,生成ネットワークと意味ネットワークの2つの潜在空間を組み込んだブレンド手法を提案する。 第1のネットワークは強力なStyleGANジェネレータを使用し、第2のネットワークはCLIPの強力な画像言語マッチングネットワークである。 この新しい方法は、両方の潜在空間に同時に加法されるように最適化されたブレンディング演算子を生成する。 その結果、各空間で個別に得られるものよりもずっと自然なブレンドに繋がることが示された。

The conceptual blending of two signals is a semantic task that may underline both creativity and intelligence. We propose to perform such blending in a way that incorporates two latent spaces: that of the generator network and that of the semantic network. For the first network, we employ the powerful StyleGAN generator, and for the second, the powerful image-language matching network of CLIP. The new method creates a blending operator that is optimized to be simultaneously additive in both latent spaces. Our results demonstrate that this leads to blending that is much more natural than what can be obtained in each space separately.
翻訳日:2021-10-27 11:46:23 公開日:2021-10-26
# hSDB-Instrument: 腹腔鏡下・ロボット用計器位置データベース

hSDB-instrument: Instrument Localization Database for Laparoscopic and Robotic Surgeries ( http://arxiv.org/abs/2110.12555v2 )

ライセンス: Link先を確認
Jihun Yoon, Jiwon Lee, Sunghwan Heo, Hayeong Yu, Jayeon Lim, Chi Hyun Song, SeulGi Hong, Seungbum Hong, Bokyung Park, SungHyun Park, Woo Jin Hyung and Min-Kook Choi(参考訳) 自動手術器具の定位は手術過程を理解する上で重要な技術であり、手術中や手術後の手術指標に有意義な指導を与えるために分析を行う。 そこで本研究では,手術映像の自動計測のための手術器具の運動特性を反映する新しいデータセットを提案する。 hSDB (hutom Surgery DataBase)-Instrument データセットは腹腔鏡下胆嚢摘出術24例と腹腔鏡下胆嚢摘出術24例からなる。 すべての機器のローカライズ情報は、オブジェクト検出のためのバウンディングボックスの形式で提供される。 楽器間のクラス不均衡問題に対処するために、訓練データとして3dモデルのユニティでモデル化された合成機器を含む。 さらに、3D機器データには、ツールのインスタンスセグメンテーションを可能にするポリゴンアノテーションが提供される。 全ての楽器のキネマティックな特性を反映するために、腹腔鏡機器の頭部と体部、ロボット機器の頭、手首、体部を別々にアノテートする。 手術に頻繁に使用される補助具(特別袋、針等)の注釈データも含む。 さらに,hSDB-Instrumentデータセットの統計情報と,MMDetectionライブラリでトレーニングしたオブジェクト検出ネットワークのベースラインローカライゼーション性能について分析を行った。

Automated surgical instrument localization is an important technology to understand the surgical process and in order to analyze them to provide meaningful guidance during surgery or surgical index after surgery to the surgeon. We introduce a new dataset that reflects the kinematic characteristics of surgical instruments for automated surgical instrument localization of surgical videos. The hSDB(hutom Surgery DataBase)-instrument dataset consists of instrument localization information from 24 cases of laparoscopic cholecystecomy and 24 cases of robotic gastrectomy. Localization information for all instruments is provided in the form of a bounding box for object detection. To handle class imbalance problem between instruments, synthesized instruments modeled in Unity for 3D models are included as training data. Besides, for 3D instrument data, a polygon annotation is provided to enable instance segmentation of the tool. To reflect the kinematic characteristics of all instruments, they are annotated with head and body parts for laparoscopic instruments, and with head, wrist, and body parts for robotic instruments separately. Annotation data of assistive tools (specimen bag, needle, etc.) that are frequently used for surgery are also included. Moreover, we provide statistical information on the hSDB-instrument dataset and the baseline localization performances of the object detection networks trained by the MMDetection library and resulting analyses.
翻訳日:2021-10-27 11:46:13 公開日:2021-10-26
# インスタンス依存部分ラベル学習

Instance-Dependent Partial Label Learning ( http://arxiv.org/abs/2110.12911v2 )

ライセンス: Link先を確認
Ning Xu, Congyu Qiao, Xin Geng, Min-Ling Zhang(参考訳) 部分ラベル学習(pll)は典型的な弱い教師付き学習問題であり、各トレーニングサンプルは1つだけが真である候補ラベルの集合に関連付けられている。 既存のPLLアプローチの多くは、トレーニングサンプルの誤りラベルがランダムに候補ラベルとして選択されていると仮定している。 しかし、候補ラベルは常にインスタンス依存であるため、この仮定は現実的ではない。 本稿では,インスタンス依存型PLLについて考察し,各例が各ラベルの実数で構成された潜在ラベル分布と関連付けられていると仮定し,特徴を記述した各ラベルの次数を表す。 高いレベルの誤ラベルは、候補ラベルとして注釈付けされることが多い。 したがって、潜在ラベル分布は部分的にラベル付けされた例において必須ラベル情報であり、予測モデルトレーニングに活用する価値がある。 そこで本研究では,ラベル拡張(LE)プロセスとしてラベル分布を復元し,各エポックにおいて予測モデルを反復的に訓練する新しいPLL手法を提案する。 具体的には、潜在ラベル分布の真の後続密度は、推論モデルによりパラメータ化された変分近似ディリクレ密度を仮定する。 そして、推定モデルを最適化するために下限の証拠を導出し、変動後段から生成されたラベル分布を予測モデルのトレーニングに利用する。 ベンチマークおよび実世界のデータセットを用いた実験により,提案手法の有効性が検証された。 ソースコードはhttps://github.com/palm-ml/valen.comで入手できる。

Partial label learning (PLL) is a typical weakly supervised learning problem, where each training example is associated with a set of candidate labels among which only one is true. Most existing PLL approaches assume that the incorrect labels in each training example are randomly picked as the candidate labels. However, this assumption is not realistic since the candidate labels are always instance-dependent. In this paper, we consider instance-dependent PLL and assume that each example is associated with a latent label distribution constituted by the real number of each label, representing the degree to each label describing the feature. The incorrect label with a high degree is more likely to be annotated as the candidate label. Therefore, the latent label distribution is the essential labeling information in partially labeled examples and worth being leveraged for predictive model training. Motivated by this consideration, we propose a novel PLL method that recovers the label distribution as a label enhancement (LE) process and trains the predictive model iteratively in every epoch. Specifically, we assume the true posterior density of the latent label distribution takes on the variational approximate Dirichlet density parameterized by an inference model. Then the evidence lower bound is deduced for optimizing the inference model and the label distributions generated from the variational posterior are utilized for training the predictive model. Experiments on benchmark and real-world datasets validate the effectiveness of the proposed method. Source code is available at https://github.com/palm-ml/valen.
翻訳日:2021-10-27 11:45:49 公開日:2021-10-26
# 強化学習における動的アウェア報酬を用いた教師なしドメイン適応

Unsupervised Domain Adaptation with Dynamics-Aware Rewards in Reinforcement Learning ( http://arxiv.org/abs/2110.12997v2 )

ライセンス: Link先を確認
Jinxin Liu, Hao Shen, Donglin Wang, Yachen Kang, Qiangxing Tian(参考訳) 教師なし強化学習は、エージェントが目標を表現し、目標条件を学習するためのオープンな環境を自動で探索する、事前の目標表現なしでスキルを獲得することを目的としている。 しかし、この手順はしばしば時間がかかり、潜在的に高価なターゲット環境でのロールアウトを制限する。 他の相互作用に富んだ環境におけるトレーニングの直感的なアプローチは、ダイナミックスシフトによる目標環境におけるトレーニングスキルの再現性を阻害し、直接の転送を阻害する。 ソース環境への自由アクセスを仮定し、動的にスキルを識別し獲得するための教師なしドメイン適応手法を提案する。 特に,KLの正規化の対象は,スキルの出現を奨励し,エージェントにスキルの発見とダイナミックスシフトに関する行動の整合を報いる。 これは、ダイナミクス(ソースとターゲット)が報酬を形作り、適応スキルの学習を促進することを示唆している。 また,本手法が目標にスムーズに展開できるスキルを効果的に学習できることを実証する実験を行った。

Unsupervised reinforcement learning aims to acquire skills without prior goal representations, where an agent automatically explores an open-ended environment to represent goals and learn the goal-conditioned policy. However, this procedure is often time-consuming, limiting the rollout in some potentially expensive target environments. The intuitive approach of training in another interaction-rich environment disrupts the reproducibility of trained skills in the target environment due to the dynamics shifts and thus inhibits direct transferring. Assuming free access to a source environment, we propose an unsupervised domain adaptation method to identify and acquire skills across dynamics. Particularly, we introduce a KL regularized objective to encourage emergence of skills, rewarding the agent for both discovering skills and aligning its behaviors respecting dynamics shifts. This suggests that both dynamics (source and target) shape the reward to facilitate the learning of adaptive skills. We also conduct empirical experiments to demonstrate that our method can effectively learn skills that can be smoothly deployed in target.
翻訳日:2021-10-27 11:45:26 公開日:2021-10-26
# サンプル通信のためのアルゴリズム

Algorithms for the Communication of Samples ( http://arxiv.org/abs/2110.12805v2 )

ライセンス: Link先を確認
Lucas Theis, Noureldin Yosri(参考訳) 本稿では,ディジタルチャネル上のノイズチャネルを効率的にシミュレートする方法という,逆チャネル符号化の問題を考える。 従来の手法よりも実用上有利な2つの新しい符号化方式を提案する。 まず,従来の手法の符号化コストを重要度サンプリングに基づいて削減するために,単純なトリックを用いた順序付きランダム符号化(orc)を導入する。 我々の導出はまた、これらのスキームといわゆるポアソン汎函数表現の間の接続を照らしている。 第2に,ディザド量子化(dithered quantization)を応用したハイブリッド符号化方式について述べる。

We consider the problem of reverse channel coding, that is, how to simulate a noisy channel over a digital channel efficiently. We propose two new coding schemes with practical advantages over previous approaches. First, we introduce ordered random coding (ORC) which uses a simple trick to reduce the coding cost of previous approaches based on importance sampling. Our derivation also illuminates a connection between these schemes and the so-called Poisson functional representation. Second, we describe a hybrid coding scheme which uses dithered quantization to efficiently communicate samples from distributions with bounded support.
翻訳日:2021-10-27 11:45:07 公開日:2021-10-26
# ランクワン原子分解(ROAD)を用いた辞書学習

Dictionary Learning Using Rank-One Atomic Decomposition (ROAD) ( http://arxiv.org/abs/2110.12786v2 )

ライセンス: Link先を確認
Cheng Cheng and Wei Dai(参考訳) 辞書学習は、訓練データを疎に表現できる辞書を求めることを目的としている。 文献の方法は通常、辞書学習問題を2つの変数、すなわち辞書とスパース係数として定式化し、スパース符号と辞書更新の2つの段階を交互に交互に組み合わせて解決する。 この研究の重要な貢献は、ランク1の原子分解(road)形式であり、辞書学習をランク1の行列の集合である1つの変数の最適化w.r.t.としてキャストする。 結果として得られるアルゴリズムは単段である。 2段階のアルゴリズムと比較して、ROADは学習プロセス全体を通してデータ一貫性の制約を保ちながら係数の空間性を最小化する。 最適化問題を解くために乗算器の交互方向法(ADMM)を導出し、最適化定式化の非凸性にもかかわらず大域収束を保証するためにペナルティパラメータの下限を計算する。 実用的な観点からすると、ROADは他のベンチマークアルゴリズムに必要なチューニングパラメータの数を減らすことができる。 数値テストでは、特にトレーニングサンプルの数が少ない場合には、ロードが合成データと実データの両方のベンチマークアルゴリズムを上回っていることが示されている。

Dictionary learning aims at seeking a dictionary under which the training data can be sparsely represented. Methods in the literature typically formulate the dictionary learning problem as an optimization w.r.t. two variables, i.e., dictionary and sparse coefficients, and solve it by alternating between two stages: sparse coding and dictionary update. The key contribution of this work is a Rank-One Atomic Decomposition (ROAD) formulation where dictionary learning is cast as an optimization w.r.t. a single variable which is a set of rank one matrices. The resulting algorithm is hence single-stage. Compared with two-stage algorithms, ROAD minimizes the sparsity of the coefficients whilst keeping the data consistency constraint throughout the whole learning process. An alternating direction method of multipliers (ADMM) is derived to solve the optimization problem and the lower bound of the penalty parameter is computed to guarantees a global convergence despite non-convexity of the optimization formulation. From practical point of view, ROAD reduces the number of tuning parameters required in other benchmark algorithms. Numerical tests demonstrate that ROAD outperforms other benchmark algorithms for both synthetic data and real data, especially when the number of training samples is small.
翻訳日:2021-10-27 11:44:20 公開日:2021-10-26
# チャネル獲得とハイブリッドプリコーディングのための2段階エンドツーエンド学習

Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid Precoding ( http://arxiv.org/abs/2110.12059v2 )

ライセンス: Link先を確認
Qiyu Hu, Yunlong Cai, Kai Kang, Guanding Yu, Jakob Hoydis, Yonina C. Eldar(参考訳) 本稿では,deep neural network (dnn) 支援パイロットトレーニング,チャネルフィードバック,ハイブリッドアナログデジタル(had)プリコーディングからなるミリ波多入力多重出力(mimo)システムのための,エンドツーエンドのディープラーニングに基づく統合トランシーバ設計アルゴリズムを提案する。 具体的には、受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発する。 送信遅延に起因する信号処理オーバーヘッドとチャネル状態情報(CSI)ミスマッチを低減するため、長期DNNと短期DNNからなる2時間DNNを開発する。 アナログプリコーダは、CSI統計に基づいて長期DNNによって設計され、複数のタイムスロットからなるフレームで一度更新される。 一方、ディジタルプリコーダは、推定された低次元等価csi行列に基づいて、各タイムスロットにおける短期dnnにより最適化される。 また,二層構造を持つDNNに対して2段階の訓練手法を開発した。 次に,提案したDNNアルゴリズムの一般化能力とシグナリングオーバーヘッドを解析する。 シミュレーションの結果,提案手法は,信号のオーバーヘッドを低減し,パイロットシーケンスの短いビット誤り率性能において,従来の手法よりも大幅に優れていた。

In this paper, we propose an end-to-end deep learning-based joint transceiver design algorithm for millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems, which consists of deep neural network (DNN)-aided pilot training, channel feedback, and hybrid analog-digital (HAD) precoding. Specifically, we develop a DNN architecture that maps the received pilots into feedback bits at the receiver, and then further maps the feedback bits into the hybrid precoder at the transmitter. To reduce the signaling overhead and channel state information (CSI) mismatch caused by the transmission delay, a two-timescale DNN composed of a long-term DNN and a short-term DNN is developed. The analog precoders are designed by the long-term DNN based on the CSI statistics and updated once in a frame consisting of a number of time slots. In contrast, the digital precoders are optimized by the short-term DNN at each time slot based on the estimated low-dimensional equivalent CSI matrices. A two-timescale training method is also developed for the proposed DNN with a binary layer. We then analyze the generalization ability and signaling overhead for the proposed DNN based algorithm. Simulation results show that our proposed technique significantly outperforms conventional schemes in terms of bit-error rate performance with reduced signaling overhead and shorter pilot sequences.
翻訳日:2021-10-27 11:43:57 公開日:2021-10-26