このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210516となっている論文です。

PDF登録状況(公開日: 20210516)

TitleAuthorsAbstract論文公表日・翻訳日
# 正確な量子クエリアルゴリズムはパリティを上回る -- 対称関数を超えて

Exact Quantum Query Algorithms Outperforming Parity -- Beyond The Symmetric functions ( http://arxiv.org/abs/2008.06317v5 )

ライセンス: Link先を確認
Chandra Sekhar Mukherjee, Subhamoy Maitra(参考訳) Exact Quantum Queryモデルでは、非自明なクエリアルゴリズムが存在するブール関数のほとんどすべてが本質的に対称である。 この領域で最もよく知られているテクニックはパリティ決定木を利用しており、2ビットのパリティを単一のクエリで得ることができる。 したがって、パリティ決定木を上回る正確な量子クエリアルゴリズムはまれである。 本稿では、まず、$\Omega \left(2^{\frac{\sqrt{n}}{2}} \right)$非対称関数の直和に基づくクラスに対して、最適な正確な量子クエリアルゴリズム(Q_{algo}(f)$)を得る。 これらのアルゴリズムは、代数正規形を新しいアンタングリング戦略と共に解析することで構築する。 次に、ウォルシュスペクトルを分析する一般化パリティ決定木複雑性(d_{\oplus}(f)$)を得る。 最後に、$Q_{algo}$ のクエリ複雑性は $\lceil \frac{3n}{4} \rceil$ であるのに対し、$D_{\oplus}(f)$ は $n-1$ と $\lceil \frac{3n}{4} \rceil+1$ によって異なるクラスに対して異なる。 我々の知る限りでは、これは非対称関数の大きなクラスに対する一般化パリティ(つまりパリティ)を超えたアルゴリズムの最初のファミリーである。 また、maiorana-mcfarland型関数のより大きい(ほぼ指数関数の$\frac{n}{4}$)クラスに対してこれらの手法を実装したが、類似のアルゴリズム技術を用いてのみ部分的な結果を得ることができた。

In Exact Quantum Query model, almost all of the Boolean functions for which non-trivial query algorithms exist are symmetric in nature. The most well known techniques in this domain exploit parity decision trees, in which the parity of two bits can be obtained by a single query. Thus, exact quantum query algorithms outperforming parity decision trees are rare. In this paper we first obtain optimal exact quantum query algorithms ($Q_{algo}(f)$) for a direct sum based class of $\Omega \left( 2^{\frac{\sqrt{n}}{2}} \right)$ non-symmetric functions. We construct these algorithms by analyzing the algebraic normal form together with a novel untangling strategy. Next we obtain the generalized parity decision tree complexity ($D_{\oplus}(f)$) analysing the Walsh Spectrum. Finally, we show that query complexity of $Q_{algo}$ is $\lceil \frac{3n}{4} \rceil$ whereas $D_{\oplus}(f)$ varies between $n-1$ and $\lceil \frac{3n}{4} \rceil+1$ for different classes, underlining linear separation between the two measures in many cases. To the best of our knowledge, this is the first family of algorithms beyond generalized parity (and thus parity) for a large class of non-symmetric functions. We also implement these techniques for a larger (doubly exponential in $\frac{n}{4}$) class of Maiorana-McFarland type functions, but could only obtain partial results using similar algorithmic techniques.
翻訳日:2023-05-06 07:10:01 公開日:2021-05-16
# 強非退化パラメトリックダウン変換におけるアジムタール固有モード

Azimuthal eigenmodes at strongly non-degenerate parametric down-conversion ( http://arxiv.org/abs/2009.11396v4 )

ライセンス: Link先を確認
Lev S. Dvernik, Pavel A. Prudkovskii(参考訳) パラメトリック光ダウン変換に基づく量子光学技術はまだテラヘルツ周波数範囲で適用されていない。 これはテラヘルツ周波数範囲における単一光子の検出の複雑さと光テラヘルツ複光子のモードの強い絡み合いのためである。 本研究では, アイドラー放射の周波数が数テラヘルツを超えない場合, 非縮退パラメトリックダウンコンバージョンにより発生する散乱放射の角構造について検討した。 ある種の近似の下では、非線形相互作用作用素に対するアジムタル固有モードを得ることができる。 これらの固有モジュラーにおける場作用素の進化方程式の解はボゴリューボフ変換の形式を持ち、パラメトリックゲインの任意の値に対して散乱行列が得られる。 この散乱行列は、双光子対の生成と、2つのスペクトル範囲の放射のマクロな量子状態を形成する相関光テラヘルツ場の生成の両方を記述する。

Quantum-optical technologies based on parametric light down-conversion are not yet applied in the terahertz frequency range. This is owing to the complexity of detecting single photons in the terahertz frequency range and the strong entanglement of modes of optical-terahertz biphotons. This study investigates the angular structure of scattered radiation generated by strongly non-degenerate parametric down-conversion when the frequency of the idler radiation does not exceed several terahertz. We demonstrate that under certain approximations, it is possible to obtain azimuthal eigenmodes for the nonlinear-interaction operator. The solution of the evolution equations for the field operators in these eigenmodes has the form of the Bogolyubov transformation, which allows a scattering matrix to be obtained for arbitrary values of the parametric gain. This scattering matrix describes both the production of biphoton pairs and the generation of intense fluxes of correlated optical-terahertz fields that form a macroscopic quantum state of radiation in two spectral ranges.
翻訳日:2023-05-01 04:37:40 公開日:2021-05-16
# 閉じ込められた原子アンサンブルから放射される放射の最適収集

Optimal collection of radiation emitted by a trapped atomic ensemble ( http://arxiv.org/abs/2011.07094v2 )

ライセンス: Link先を確認
A. Kurk\'o, P. Domokos, A. Vukics, T. B{\ae}kkegaard, N.T. Zinner, J. Fort\'agh, and D. Petrosyan(参考訳) 閉じ込められた原子アンサンブルは、電子基底状態の長寿命サブレベルにおける量子情報保存と、刺激されたラマン過程による光子伝播への変換のための便利なシステムである。 ここでは、コヒーレントに調製された原子アンサンブルからの光子の位相整合放出について検討する。 通常の密度分布を持つ長方形高調波トラップにおける低温原子のアンサンブルを考察し、放射される放射のモード形状に合わせるために同軸光のパラメータを決定し、光導波路に最適に収集する。

Trapped atomic ensembles are convenient systems for quantum information storage in the long-lived sublevels of the electronic ground state and its conversion to propagating optical photons via stimulated Raman processes. Here we investigate a phase-matched emission of photons from a coherently prepared atomic ensemble. We consider an ensemble of cold atoms in an elongated harmonic trap with normal density distribution, and determine the parameters of paraxial optics to match the mode geometry of the emitted radiation and optimally collect it into an optical waveguide.
翻訳日:2023-04-24 05:20:00 公開日:2021-05-16
# 時間外相関器を用いた量子情報伝搬の探索

Probing quantum information propagation with out-of-time-ordered correlators ( http://arxiv.org/abs/2102.11751v2 )

ライセンス: Link先を確認
Jochen Braum\"uller, Amir H. Karamlou, Yariv Yanay, Bharath Kannan, David Kim, Morten Kjaergaard, Alexander Melville, Bethany M. Niedzielski, Youngkyu Sung, Antti Veps\"al\"ainen, Roni Winik, Jonilyn L. Yoder, Terry P. Orlando, Simon Gustavsson, Charles Tahan, William D. Oliver(参考訳) 相互作用する多体量子系は、物理現象と力学特性の豊富な配列を示すが、研究は非常に難しいことで知られており、古典的なコンピュータ上で解析的に、指数関数的にシミュレートすることが困難である。 小型量子情報プロセッサは、これらのシステムを効率的にエミュレートする約束を持っているが、そのダイナミクスを特徴付けることは実験的に困難であり、単純な相関関数や多体断層法以上のプローブを必要とする。 ここでは,量子系の進化や量子熱化などの過程を研究するための最も効果的なツールの一つである,時間外秩序相関器(otocs)の測定を実証する。 超伝導回路で3x3の2次元ハードコアBose-Hubbard格子を実装し,その時間可逆性をLoschmidtエコーで測定し,量子情報の伝播を観測できるOTOCを測定する。 実験の中心となる要件は、デジタル・アナログ・シミュレーション・スキームで実現した時間進化をコヒーレントに逆転させる能力である。 周波数障害の存在下では, 2次元における多体局在のシグネチャとして, 局所化がより多くの粒子の存在によって部分的に克服可能であることを観察した。

Interacting many-body quantum systems show a rich array of physical phenomena and dynamical properties, but are notoriously difficult to study: they are challenging analytically and exponentially difficult to simulate on classical computers. Small-scale quantum information processors hold the promise to efficiently emulate these systems, but characterizing their dynamics is experimentally challenging, requiring probes beyond simple correlation functions and multi-body tomographic methods. Here, we demonstrate the measurement of out-of-time-ordered correlators (OTOCs), one of the most effective tools for studying quantum system evolution and processes like quantum thermalization. We implement a 3x3 two-dimensional hard-core Bose-Hubbard lattice with a superconducting circuit, study its time-reversibility by performing a Loschmidt echo, and measure OTOCs that enable us to observe the propagation of quantum information. A central requirement for our experiments is the ability to coherently reverse time evolution, which we achieve with a digital-analog simulation scheme. In the presence of frequency disorder, we observe that localization can partially be overcome with more particles present, a possible signature of many-body localization in two dimensions.
翻訳日:2023-04-10 03:25:32 公開日:2021-05-16
# 連続可変多成分振動絡み合い

Continuous variable multipartite vibrational entanglement ( http://arxiv.org/abs/2102.13082v2 )

ライセンス: Link先を確認
Mehdi Abdi(参考訳) マクロ多成分エンタングルメント作成のためのコンパクトスキームを提案し,解析を行った。 このスキームでは、機械共振器の振動モードは、2レベルシステム(TLS)との相互作用によって互いに絡み合う連続変数(CV)サブシステムを構成する。 TLSを適切に駆動することにより、選択されたモードのセットを活性化し、マルチパーティの絡み合った状態で準備できることが示される。 まず, 3モードシステムのエンタングルメント特性を, 真のマルチパーティタイトエンタングルメントの評価により検討した。 量子フィッシャー情報を用いて量子資源としての有用性を調べる。 さらに, 量子および熱雑音に対する状態のロバスト性について検討し, 長寿命の絡み合いを証明した。 本手法のスケーラビリティと構造特性を検討するため,tlsダイナミクスの除去により,マルチモードシステムに対して有効なモデルを導出する。 この研究は、CV量子メトロジー、量子通信、量子計算のリソースとして、振動モードにおける多部雑音耐性の絡み合った状態を生成するためのコンパクトで汎用的な装置へのステップを提供する。

A compact scheme for the preparation of macroscopic multipartite entanglement is proposed and analyzed. In this scheme the vibrational modes of a mechanical resonator constitute continuous variable (CV) subsystems that entangle to each other as a result of their interaction with a two-level system (TLS). By properly driving the TLS, we show that a selected set of modes can be activated and prepared in a multipartite entangled state. We first study entanglement properties of a three-mode system by evaluating the genuine multipartite entanglement. And investigate its usefulness as a quantum resource by computing the quantum Fisher information. Moreover, the robustness of the state against the qubit and thermal noises is studied, proving a long-lived entanglement. To examine the scalability and structural properties of the scheme, we derive an effective model for the multimode system through elimination of the TLS dynamics. This work provides a step towards a compact and versatile device for creating multipartite noise-resilient entangled state in vibrational modes as a resource for CV quantum metrology, quantum communication, and quantum computation.
翻訳日:2023-04-09 22:42:24 公開日:2021-05-16
# 相互作用する平面配列における光子誘起原子再コイル

Photon induced atom recoil in collectively interacting planar arrays ( http://arxiv.org/abs/2102.13354v2 )

ライセンス: Link先を確認
Deepak A. Suresh, F. Robicheaux(参考訳) 光子の放出または吸収による配列内の原子の反動は、サブ波長の原子間間隔のために研究されている。 アレイ内の原子は集団双極子-双極子相互作用を通じて相互作用し、低強度のレーザー場と相互作用する。 アレイに均一な光を照らすと、配列内の励起パターンと再コイルが発生する。 これらは励起の異なる固有モードの干渉によって生じる。 リコイルと崩壊ダイナミクスの関係は、配列がその励起固有状態にあるときに研究される。 亜ラジアント集団崩壊によって経験される反動は、独立な原子崩壊よりもかなり大きい。 また、一定の光子の流入で定常状態が達成された際のリコイル率を計算する方法についても述べる。

The recoil of atoms in arrays due to the emission or absorption of photons is studied for sub-wavelength interatomic spacing. The atoms in the array interact with each other through collective dipole-dipole interactions and with the incident laser field in the low intensity limit. Shining uniform light on the array gives rise to patterns of excitation and recoil in the array. These arise due to the interference of different eigenmodes of excitation. The relation between the recoil and the decay dynamics is studied when the array is in its excitation eigenstates. The recoil experienced by a subradiant collective decay is substantially larger than from independent atom decay. A method to calculate the rate of recoil when steady state has been achieved with a constant influx of photons is also described.
翻訳日:2023-04-09 20:40:03 公開日:2021-05-16
# 量子チャンネルにおける射影測定

Projective measurements under qubit quantum channels ( http://arxiv.org/abs/2103.00974v2 )

ライセンス: Link先を確認
Javid Naikoo, Subhashish Banerjee, A. K. Pan, Sibasish Ghosh(参考訳) キュービット状態における射影測定に対するキュービットチャネルの作用は、偏りと鋭さパラメータによって特徴づけられる一般化された測定のチャネルと性質の等価性を確立するために用いられる。 これは、測定力学の記述をシュロディンガーからハイゼンベルク図形にシフトさせるものとして解釈できる。 特に、ユニタリ量子チャネルは非バイアス測定を誘導する。 マルコフチャネルは、シャープネスが時間の単調な減少関数である測定値と同値であることが分かる。 これらの結果は,様々なノイズチャネルを考慮したものである。 さらに、偏りと鋭さパラメータが測定のエネルギーコストおよび力学の非マルコビアン性との相互作用に及ぼす影響についても論じる。

The action of qubit channels on projective measurements on a qubit state is used to establish an equivalence between channels and properties of generalized measurements characterized by bias and sharpness parameters. This can be interpreted as shifting the description of measurement dynamics from the Schrodinger to the Heisenberg picture. In particular, unital quantum channels are shown to induce unbiased measurements. The Markovian channels are found to be equivalent to measurements for which sharpness is a monotonically decreasing function of time. These results are illustrated by considering various noise channels. Further, the effect of bias and sharpness parameters on the energy cost of a measurement and its interplay with non-Markovianity of dynamics is also discussed
翻訳日:2023-04-09 14:44:08 公開日:2021-05-16
# Android医療アプリケーションから保護された健康情報漏洩の調査

Investigating Protected Health Information Leakage from Android Medical Applications ( http://arxiv.org/abs/2105.07360v1 )

ライセンス: Link先を確認
George Grispos and Talon Flynn and William Glisson and Kim-Kwang Raymond Choo(参考訳) スマートフォンやスマートフォンのアプリケーションは医療の状況(例えば遠隔医療)で広く使われているため、これらのデバイスやアプリケーションは1996年の健康保険可搬性会計法(HIPAA)に従う必要がある。 言い換えれば、ユーザの機密情報(例えば個人識別可能な情報や医療履歴)を保護するための適切な保護は、そのようなデバイスやアプリケーションに強制される必要がある。 本研究では,Android の医療アプリケーションから残留データを回収する可能性に着目し,そのようなアプリケーションに対する初期リスクアセスメントを提供することを目的とする。 私たちの調査結果(例えば、アーティファクトの文書)は、デジタル法医学調査においてこれらの応用から回収できる可能性のある証拠品の種類や場所をよりよく理解するのにも役立ちます。

As smartphones and smartphone applications are widely used in a healthcare context (e.g., remote healthcare), these devices and applications may need to comply with the Health Insurance Portability and Accountability Act (HIPAA) of 1996. In other words, adequate safeguards to protect the user's sensitive information (e.g., personally identifiable information and/or medical history) are required to be enforced on such devices and applications. In this study, we forensically focus on the potential of recovering residual data from Android medical applications, with the objective of providing an initial risk assessment of such applications. Our findings (e.g., documentation of the artifacts) also contribute to a better understanding of the types and location of evidential artifacts that can, potentially, be recovered from these applications in a digital forensic investigation.
翻訳日:2023-03-31 00:11:33 公開日:2021-05-16
# 光ボトルビームの高効率生成

Efficient generation of optical bottle beams ( http://arxiv.org/abs/2105.07355v1 )

ライセンス: Link先を確認
Yuzhe Xiao, Zhaoning Yu, Raymond A. Wambold, Hongyan Mei, Garrett Hickman, Randall H. Goldsmith, Mark Saffman, and Mikhail A. Kats(参考訳) 光ボトルビームは、原子と小さな低インデックス粒子をトラップするために使用できる。 本稿では,光トラップの文脈において,光ボトルビームの長所の図式を紹介し,光ボトルトラップを3つの異なる手法で比較する。 本手法と最適化アルゴリズムを用いて,既存の手法よりも高効率な準表面を照らすガウスビームに基づいて,光ボトルビームトラップを同定した。 光ボトルビームトラップを作るためのシリコンメタサーフェスを数値的に示す。

Optical bottle beams can be used to trap atoms and small low-index particles. We introduce a figure of merit for optical bottle beams, specifically in the context of optical traps, and use it to compare optical bottle-beam traps obtained by three different methods. Using this figure of merit and an optimization algorithm, we identified optical bottle-beam traps based on a Gaussian beam illuminating a metasurface that are superior in terms of power efficiency than existing approaches. We numerically demonstrate a silicon metasurface for creating an optical bottle-beam trap.
翻訳日:2023-03-31 00:11:18 公開日:2021-05-16
# 忠実性に基づく量子状態の最適凸近似

Optimal convex approximations of quantum states based on fidelity ( http://arxiv.org/abs/2105.07336v1 )

ライセンス: Link先を確認
Huaqi Zhou, Ting Gao, and Fengli Yan(参考訳) 利用可能な状態の集合の凸混合により所望の状態を最適に近似する問題を考察する。 この問題は、有用状態の凸集合において、対象状態から最小距離の最適状態を見つけるために再キャストされる。 忠実度に基づいて、期待状態の最適凸近似を定義し、任意の量子ビット状態に対する完全な正確な解を示す。 多くの領域におけるトレースノルムに基づく最適状態よりも、忠実度に基づく最適状態が目標状態に近いことが判明した。 最後に, 対象状態の幾何学的性質を分析し, 実験可能な状態の集合で完全に表現できることを示す。 凸結合の特徴を用いて,この対象状態のクラスを3つの可利用状態の観点から表現する。

We investigate the problem of optimally approximating a desired state by the convex mixing of a set of available states. The problem is recasted as finding the optimal state with the minimum distance from target state in a convex set of usable states. Based on the fidelity, we define the optimal convex approximation of an expected state and present the complete exact solutions with respect to an arbitrary qubit state. We find that the optimal state based on fidelity is closer to the target state than the optimal state based on trace norm in many ranges. Finally, we analyze the geometrical properties of the target states which can be completely represented by a set of practicable states. Using the feature of convex combination, we express this class of target states in terms of three available states.
翻訳日:2023-03-31 00:11:10 公開日:2021-05-16
# 3次元均一磁場中における荷電等方性振動子の非可換位相空間によるエネルギー補正

Energy corrections due to the noncommutative phase-space of the charged isotropic harmonic oscillator in a uniform magnetic field in 3D ( http://arxiv.org/abs/2105.08516v1 )

ライセンス: Link先を確認
Muhittin Cenk Eser and Mustafa Riza(参考訳) 本研究では,z方向における一様磁場の存在下での荷電等方性調和振動子のエネルギーレベルに対する3次元の非可換量子力学の影響について検討する。 この問題を3次元に拡張することは、非自明であることが証明される。 弱非可換性の低エネルギー限界における閉形式のエネルギーレベルに対する一階補正を得る。 最も重要な結果は、非可換性によるすべてのエネルギー補正が負であり、量子数や磁場の増加とともにその大きさが増加することである。

In this study, we investigate the effects of noncommutative Quantum Mechanics in three dimensions on the energy levels of a charged isotropic harmonic oscillator in the presence of a uniform magnetic field in the z-direction. The extension of this problem to three dimensions proves to be non-trivial. We obtain the first-order corrections to the energy-levels in closed form in the low energy limit of weak noncommutativity. The most important result we can note is that all energy corrections due to noncommutativity are negative and their magnitude increase with increasing Quantum numbers and magnetic field.
翻訳日:2023-03-31 00:08:27 公開日:2021-05-16
# 全次元ループ量子重力における重ね合わせ型コヒーレント状態

Superposition type coherent states in all dimensional loop quantum gravity ( http://arxiv.org/abs/2105.07493v1 )

ライセンス: Link先を確認
Gaoping Long, Cong Zhang and Xiangdong Zhang(参考訳) 1+D)$次元時空におけるループ量子重力の一般の$SO(D+1)$定式化のための新しい種類のコヒーレント状態を提案する。 ティーマンの$SO(D+1)$ゲージ理論のコヒーレント状態の代わりに、コヒーレントスピンネットワーク状態は、コヒーレントインターツウィナーによってラベル付けされた頂点を持つスピンネットワークの量子数上の適切な重ね合わせを構築することで与えられる。 このような重ね合わせ型コヒーレント状態は、いわゆる一般相対性理論の幾何学的意味を捉えた一般化ツイスト幾何変数によってラベル付けされる。 この種のコヒーレントな状態、すなわち完全性とピーク性の基礎的性質について検討する。 さらに、重ね合わせ型コヒーレント状態は、大きな$\eta$極限において、SO(D+1)$ゲージ理論に対してティーマンのコヒーレント状態と一致することを示す。

We propose a new kind of coherent state for the general $SO(D+1)$ formulation of loop quantum gravity in the $(1+D)$-dimensional space-time. Instead of Thiemann's coherent state for $SO(D+1)$ gauge theory, our coherent spin-network state is given by constructing proper superposition over quantum numbers of the spin-networks with vertices labelled by the coherent intertwiners. Such superposition type coherent states are labelled by the so-called generalized twisted geometric variables which capture the geometric meaning of discretized general relativity. We study the basic properties of this kind of coherent states, i.e., the completeness and peakedness property. Moreover, we show that the superposition type coherent states are consistent with Thiemann's coherent state for $SO(D+1)$ gauge theory in large $\eta$ limit.
翻訳日:2023-03-31 00:07:24 公開日:2021-05-16
# 回転量子スピン浴における異方性電子核相互作用

Anisotropic electron-nuclear interactions in a rotating quantum spin bath ( http://arxiv.org/abs/2105.07365v1 )

ライセンス: Link先を確認
Alexander A. Wood, Russell M. Goldblatt, Russell P. Anderson, Lloyd C. L. Hollenberg, Robert E. Scholten, Andy M. Martin(参考訳) 中心量子ビットスピンと周囲のスピン浴との相互作用は、スピンベースの固体量子センシングと量子情報処理にとって重要である。 スピン-バス相互作用は典型的には強い異方性であり、高速な物理的回転は核スピン間の双極子結合のような異方性相互作用の運動平均化をシミュレートするために長い間固体核磁気共鳴において用いられてきた。 ここでは, 最大300,000rpmで回転するダイヤモンド中の窒素空洞中心の電子スピンと$^{13}$cの原子核スピンの相互作用が, 原子核の原子核分裂の周波数変調によって系内へのデコヒーレンスをもたらすことを示す。 双極子カップリングの平均化に必要なオフ軸磁場の存在は、実験的に達成可能な回転速度で平均化できない電子核-超微粒子相互作用の回転依存性をもたらす。 本研究は, 量子制御における物理回転の利用に関する新たな知見を提供するとともに, 運動と回転の自由度が固定されていない量子系に対する示唆を与える。

The interaction between a central qubit spin and a surrounding bath of spins is critical to spin-based solid state quantum sensing and quantum information processing. Spin-bath interactions are typically strongly anisotropic, and rapid physical rotation has long been used in solid-state nuclear magnetic resonance to simulate motional averaging of anisotropic interactions, such as dipolar coupling between nuclear spins. Here, we show that the interaction between electron spins of nitrogen-vacancy centers and a bath of $^{13}$C nuclear spins in a diamond rotated at up to 300,000rpm introduces decoherence into the system via frequency-modulation of the nuclear spin Larmor precession. The presence of an off-axis magnetic field necessary for averaging of the dipolar coupling leads to a rotational dependence of the electron-nuclear hyperfine interaction, which cannot be averaged out with experimentally achievable rotation speeds. Our findings offer new insights into the use of physical rotation for quantum control with implications for quantum systems having motional and rotational degrees of freedom that are not fixed.
翻訳日:2023-03-31 00:06:11 公開日:2021-05-16
# SEERL: 効率的なエンサンブル強化学習

SEERL: Sample Efficient Ensemble Reinforcement Learning ( http://arxiv.org/abs/2001.05209v2 )

ライセンス: Link先を確認
Rohan Saphal, Balaraman Ravindran, Dheevatsa Mudigere, Sasikanth Avancha, Bharat Kaul(参考訳) アンサンブル学習は機械学習で非常に一般的な方法である。 アンサンブル手法の相対的な成功は、様々な低レベルアプローチを必要とする幅広いインスタンスや複雑な問題に取り組む能力に起因している。 しかし,多種多様なアンサンブルを得るのに必要なサンプル複雑性や計算コストが高いため,強化学習ではアンサンブル法が比較的一般的ではない。 本稿では,1回のトレーニング実行から得られるポリシのアンサンブルを用いたモデルフリー強化アルゴリズムのための新しいトレーニングおよびモデル選択フレームワークを提案する。 これらのポリシーは自然界において多様であり、モデルパラメータの正規区間での有向摂動を通じて学習される。 優れたアンサンブルには適切な多様性のあるポリシーセットの学習と選択が必要である一方で、極端な多様性は全体的なパフォーマンスに有害であることを示す。 適切な多様なポリシーの選択は、新しいポリシー選択フレームワークを通じて行われます。 我々は,離散的および連続的な制御タスクに挑戦するアプローチを評価し,様々なセンシング戦略について論じる。 Atari 2600 と Mujoco では,本フレームワークはサンプリング効率が高く,計算コストも高く,SOTA(State-of-the-art)スコアよりも優れていた。

Ensemble learning is a very prevalent method employed in machine learning. The relative success of ensemble methods is attributed to their ability to tackle a wide range of instances and complex problems that require different low-level approaches. However, ensemble methods are relatively less popular in reinforcement learning owing to the high sample complexity and computational expense involved in obtaining a diverse ensemble. We present a novel training and model selection framework for model-free reinforcement algorithms that use ensembles of policies obtained from a single training run. These policies are diverse in nature and are learned through directed perturbation of the model parameters at regular intervals. We show that learning and selecting an adequately diverse set of policies is required for a good ensemble while extreme diversity can prove detrimental to overall performance. Selection of an adequately diverse set of policies is done through our novel policy selection framework. We evaluate our approach on challenging discrete and continuous control tasks and also discuss various ensembling strategies. Our framework is substantially sample efficient, computationally inexpensive and is seen to outperform state-of-the-art (SOTA) scores in Atari 2600 and Mujoco.
翻訳日:2023-01-11 05:48:23 公開日:2021-05-16
# Node Masking: グラフニューラルネットワークの一般化とスケール向上

Node Masking: Making Graph Neural Networks Generalize and Scale Better ( http://arxiv.org/abs/2001.07524v4 )

ライセンス: Link先を確認
Pushkar Mishra, Aleksandra Piktus, Gerard Goossen, Fabrizio Silvestri(参考訳) グラフニューラルネットワーク(GNN)は近年,多くの関心を集めている。 トランスダクティブ学習パラダイム当たりの非方向性グラフのみを操作できる初期のスペクトルアーキテクチャから、任意のグラフに誘導的に適用可能なアート空間グラフの現在の状態に至るまで、GNNは研究コミュニティから多大な貢献をしている。 本稿では,芸術空間のGNNが行う操作をよりよく視覚化するために,いくつかの理論ツールを利用する。 これらのアーキテクチャの内部構造を分析し、Node Maskingというシンプルな概念を導入し、より一般化し、スケールできるようにする。 この概念を実証的に検証するために,我々は,帰納的および帰納的両方のノード分類に広く用いられているデータセットについて,いくつかの実験を行った。

Graph Neural Networks (GNNs) have received a lot of interest in the recent times. From the early spectral architectures that could only operate on undirected graphs per a transductive learning paradigm to the current state of the art spatial ones that can apply inductively to arbitrary graphs, GNNs have seen significant contributions from the research community. In this paper, we utilize some theoretical tools to better visualize the operations performed by state of the art spatial GNNs. We analyze the inner workings of these architectures and introduce a simple concept, Node Masking, that allows them to generalize and scale better. To empirically validate the concept, we perform several experiments on some widely-used datasets for node classification in both the transductive and inductive settings, hence laying down strong benchmarks for future research.
翻訳日:2023-01-10 09:51:22 公開日:2021-05-16
# バイアス付き雑音勾配オラクルを用いた確率最適化のための非漸近境界

Non-asymptotic bounds for stochastic optimization with biased noisy gradient oracles ( http://arxiv.org/abs/2002.11440v2 )

ライセンス: Link先を確認
Nirav Bhavsar and Prashanth L.A(参考訳) 我々は,関数の測定値がバッチサイズパラメータを介して制御可能な推定誤差を持つような設定をキャプチャするために,バイアスドグラデーションオラクルを導入する。 提案するオラクルは, 計算制約により関数測定が「バイアス」となるような, 独立および同一分布のサンプルのバッチからのリスク計測推定, あるいはシミュレーション最適化など, いくつかの実践的文脈で注目されている。 いずれの場合も、バッチサイズの増加は推定エラーを減らす。 我々は、リスクに敏感な強化学習環境におけるバイアスドグラデーションオラクルの適用性を強調した。 確率的非凸最適化の文脈において、偏りの偏りを持つランダム化確率勾配(RSG)アルゴリズムの変種を解析する。 このアルゴリズムの性能について非漸近境界を導出することにより収束率を定量化する。 次に、確率凸最適化設定において、偏勾配オラクルを持つ確率勾配降下(sgd)アルゴリズムの最後の反復に対する非漸近境界を導出する。

We introduce biased gradient oracles to capture a setting where the function measurements have an estimation error that can be controlled through a batch size parameter. Our proposed oracles are appealing in several practical contexts, for instance, risk measure estimation from a batch of independent and identically distributed (i.i.d.) samples, or simulation optimization, where the function measurements are `biased' due to computational constraints. In either case, increasing the batch size reduces the estimation error. We highlight the applicability of our biased gradient oracles in a risk-sensitive reinforcement learning setting. In the stochastic non-convex optimization context, we analyze a variant of the randomized stochastic gradient (RSG) algorithm with a biased gradient oracle. We quantify the convergence rate of this algorithm by deriving non-asymptotic bounds on its performance. Next, in the stochastic convex optimization setting, we derive non-asymptotic bounds for the last iterate of a stochastic gradient descent (SGD) algorithm with a biased gradient oracle.
翻訳日:2022-12-28 14:43:11 公開日:2021-05-16
# 予算の提言:ランダム・アクティブサンプリングによる部分観測点からのカラム空間の回復

Recommendation on a Budget: Column Space Recovery from Partially Observed Entries with Random or Active Sampling ( http://arxiv.org/abs/2002.11589v2 )

ライセンス: Link先を確認
Carolyn Kim, Mohsen Bayati(参考訳) カラム数の増加とカラム当たりの観測予算が一定である部分観測された略低ランク行列の列空間復元のための交互最小化解析を行った。 この研究で、予算が行列のランクより大きい場合、列空間の回復は成功し、列の数が増加するにつれて、交互に最小化される推定値が1の確率で真の列空間に収束する。 提案手法から,一様ランダムサンプリング手法よりも理論的,経験的に(合成および実データ上で)優れた列のエントリを選択するためのアクティブサンプリング戦略を自然に定式化する。

We analyze alternating minimization for column space recovery of a partially observed, approximately low rank matrix with a growing number of columns and a fixed budget of observations per column. In this work, we prove that if the budget is greater than the rank of the matrix, column space recovery succeeds -- as the number of columns grows, the estimate from alternating minimization converges to the true column space with probability tending to one. From our proof techniques, we naturally formulate an active sampling strategy for choosing entries of a column that is theoretically and empirically (on synthetic and real data) better than the commonly studied uniformly random sampling strategy.
翻訳日:2022-12-28 14:42:30 公開日:2021-05-16
# clocs:空間,時間,患者間における心臓信号のコントラスト学習

CLOCS: Contrastive Learning of Cardiac Signals Across Space, Time, and Patients ( http://arxiv.org/abs/2005.13249v3 )

ライセンス: Link先を確認
Dani Kiyasseh, Tingting Zhu, David A. Clifton(参考訳) 医療産業は、未発達の生理的データを生み出している。 このデータは、インスタンスの表現を互いに類似させる自己教師あり事前学習法であるコントラスト学習によって活用できる。 そこで我々は,空間,時間, \textit{and} 患者間での表現を相互に類似させる,コントラスト学習法であるclocs のファミリーを提案する。 ダウンストリームタスクの線形評価や微調整を行う場合,clocsは最先端手法であるbyolとsimclrを一貫して上回っていることを示す。 また,CLOCSはラベル付きトレーニングデータの25倍の精度で高い一般化性能を達成できることを示した。 さらに,訓練は自然に患者固有の表現を生成し,患者間の類似性を定量化する。

The healthcare industry generates troves of unlabelled physiological data. This data can be exploited via contrastive learning, a self-supervised pre-training method that encourages representations of instances to be similar to one another. We propose a family of contrastive learning methods, CLOCS, that encourages representations across space, time, \textit{and} patients to be similar to one another. We show that CLOCS consistently outperforms the state-of-the-art methods, BYOL and SimCLR, when performing a linear evaluation of, and fine-tuning on, downstream tasks. We also show that CLOCS achieves strong generalization performance with only 25\% of labelled training data. Furthermore, our training procedure naturally generates patient-specific representations that can be used to quantify patient-similarity.
翻訳日:2022-11-28 08:29:50 公開日:2021-05-16
# 運動推定システム評価のためのマルチスペクトルデータセット

A Multi-spectral Dataset for Evaluating Motion Estimation Systems ( http://arxiv.org/abs/2007.00622v2 )

ライセンス: Link先を確認
Weichen Dai, Yu Zhang, Shenzhou Chen, Donglei Sun, Da Kong(参考訳) 可視画像は運動推定に広く使われている。 対照的に、熱画像は、通常より解像度が低く、テクスチャが小さく、ノイズも大きいため、運動推定に使用されることがより困難である。 本稿では,マルチスペクトル運動推定システムの性能評価のための新しいデータセットを提案する。 すべてのシーケンスはハンドヘルドマルチスペクトルデバイスから記録される。 標準の可視光カメラ、長波赤外線カメラ、RGB-Dカメラ、慣性測定ユニット(IMU)で構成されている。 フルセンサ解像度(640×480)のカラー画像とサーマル画像を含むマルチスペクトル画像は、ハードウェア同期による32Hzの標準および長波長赤外線カメラから得られる。 深度画像はMicrosoft Kinect2でキャプチャされ、モダリティ間のステレオマッチングを学習するメリットがある。 軌道評価のために、モーションキャプチャシステムから得られる正確な地中カメラポーズを提供する。 明るい照明のシーケンスに加えて、データセットにはディム、変色、複雑な照明シーンも含まれている。 詳細なデータフォーマット仕様の生データとキャリブレーションデータを含む、完全なデータセットが公開されている。

Visible images have been widely used for motion estimation. Thermal images, in contrast, are more challenging to be used in motion estimation since they typically have lower resolution, less texture, and more noise. In this paper, a novel dataset for evaluating the performance of multi-spectral motion estimation systems is presented. All the sequences are recorded from a handheld multi-spectral device. It consists of a standard visible-light camera, a long-wave infrared camera, an RGB-D camera, and an inertial measurement unit (IMU). The multi-spectral images, including both color and thermal images in full sensor resolution (640 x 480), are obtained from a standard and a long-wave infrared camera at 32Hz with hardware-synchronization. The depth images are captured by a Microsoft Kinect2 and can have benefits for learning cross-modalities stereo matching. For trajectory evaluation, accurate ground-truth camera poses obtained from a motion capture system are provided. In addition to the sequences with bright illumination, the dataset also contains dim, varying, and complex illumination scenes. The full dataset, including raw data and calibration data with detailed data format specifications, is publicly available.
翻訳日:2022-11-14 23:37:33 公開日:2021-05-16
# クロスレベルインスタンス群識別による教師なし特徴学習

Unsupervised Feature Learning by Cross-Level Instance-Group Discrimination ( http://arxiv.org/abs/2008.03813v5 )

ライセンス: Link先を確認
Xudong Wang, Ziwei Liu, Stella X. Yu(参考訳) 教師なしの機能学習は、計算済みのクラスバランスデータセットでベンチマークされるように、インスタンスの識別と不変マッピングに基づく対照的な学習で大きな進歩を遂げた。 しかし、自然データは高い相関関係があり、長い尾の分布がある。 インスタンス間の自然な類似性は、想定されるインスタンスの区別と矛盾し、不安定なトレーニングとパフォーマンスの低下を引き起こす。 我々の考えは、インスタンスグループ化ではなく、インスタンスとローカルインスタンスグループ間のクロスレベル識別(CLD)によって、インスタンス間の類似性を対照的な学習に発見し、統合することである。 各インスタンスの不変写像は拡張ビュー内のアトラクションによって課されるが、インスタンス群に対する共通の反発から、インスタンス間の類似性が生じる可能性がある。 バッチ別およびクロスビュー比較は,コントラスト学習の正・負のサンプル比を大幅に改善し,不変マッピングも向上した。 グループ化と識別の目的の両方に影響を及ぼすため、共有表現から分離した特徴にそれらを課す。 さらに,正規化投影ヘッドと教師なしハイパーパラメータチューニングを初めて提案する。 広範な実験により,cld が npid,moco,infomin,byol などの既存メソッドに対する,高度に相関した,ロングテール,あるいはバランスの取れたデータセットに対するリーンかつ強力なアドオンであることを実証した。 セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングのベンチマークで新しい最先端を達成するだけでなく、はるかに大きな計算で得られた報告されたパフォーマンスでMoCo v2とSimCLRに勝っている。 cldは、教師なし学習を自然データや現実世界のアプリケーションに近づける。 私たちのコードは、https://github.com/frank-xwang/CLD-UnsupervisedLearningで公開されています。

Unsupervised feature learning has made great strides with contrastive learning based on instance discrimination and invariant mapping, as benchmarked on curated class-balanced datasets. However, natural data could be highly correlated and long-tail distributed. Natural between-instance similarity conflicts with the presumed instance distinction, causing unstable training and poor performance. Our idea is to discover and integrate between-instance similarity into contrastive learning, not directly by instance grouping, but by cross-level discrimination (CLD) between instances and local instance groups. While invariant mapping of each instance is imposed by attraction within its augmented views, between-instance similarity could emerge from common repulsion against instance groups. Our batch-wise and cross-view comparisons also greatly improve the positive/negative sample ratio of contrastive learning and achieve better invariant mapping. To effect both grouping and discrimination objectives, we impose them on features separately derived from a shared representation. In addition, we propose normalized projection heads and unsupervised hyper-parameter tuning for the first time. Our extensive experimentation demonstrates that CLD is a lean and powerful add-on to existing methods such as NPID, MoCo, InfoMin, and BYOL on highly correlated, long-tail, or balanced datasets. It not only achieves new state-of-the-art on self-supervision, semi-supervision, and transfer learning benchmarks, but also beats MoCo v2 and SimCLR on every reported performance attained with a much larger compute. CLD effectively brings unsupervised learning closer to natural data and real-world applications. Our code is publicly available at: https://github.com/frank-xwang/CLD-UnsupervisedLearning.
翻訳日:2022-11-01 04:00:25 公開日:2021-05-16
# 画像変換を用いたソースフリードメイン適応

Source Free Domain Adaptation with Image Translation ( http://arxiv.org/abs/2008.07514v2 )

ライセンス: Link先を確認
Yunzhong Hou, Liang Zheng(参考訳) 大規模なデータセットのリリースは、プライバシと知的財産の考慮によって損なわれる可能性がある。 実現可能な選択肢は、トレーニング済みモデルをリリースすることです。 これらのモデルは元のタスク(ソースドメイン)に強く依存するが、現実的な環境でのトレーニングのためのラベルを含まない新しい環境(ターゲットドメイン)に直接デプロイすると、パフォーマンスが大幅に低下する可能性がある。 ドメイン適応(DA)はドメインギャップ問題の既知の解決策であるが、通常はラベル付きソースデータを必要とする。 本稿では,ソース領域が事前学習されたモデルのみを提供するが,ソースデータがないという特徴を持つ,ソース自由領域適応問題(sfda)について検討する。 ソースフリーであることは、特にターゲットデータセットがラベル無しであることを考えると、daに重大な課題をもたらす。 SFDAの問題を解決するために,ターゲット画像のスタイルを未知のソース画像に転送する画像翻訳手法を提案する。 そこで本研究では,生成画像のバッチ的特徴統計を,事前学習したモデルのバッチ正規化層に格納した特徴量と整合させる。 対象画像の直接分類と比較すると, 予め学習したモデルを用いて, これらのスタイル転送画像を用いて高い精度が得られる。 いくつかの画像分類データセットにおいて、上記の改善は一貫性があり統計的に有意であることを示す。

Effort in releasing large-scale datasets may be compromised by privacy and intellectual property considerations. A feasible alternative is to release pre-trained models instead. While these models are strong on their original task (source domain), their performance might degrade significantly when deployed directly in a new environment (target domain), which might not contain labels for training under realistic settings. Domain adaptation (DA) is a known solution to the domain gap problem, but usually requires labeled source data. In this paper, we study the problem of source free domain adaptation (SFDA), whose distinctive feature is that the source domain only provides a pre-trained model, but no source data. Being source free adds significant challenges to DA, especially when considering that the target dataset is unlabeled. To solve the SFDA problem, we propose an image translation approach that transfers the style of target images to that of unseen source images. To this end, we align the batch-wise feature statistics of generated images to that stored in batch normalization layers of the pre-trained model. Compared with directly classifying target images, higher accuracy is obtained with these style transferred images using the pre-trained model. On several image classification datasets, we show that the above-mentioned improvements are consistent and statistically significant.
翻訳日:2022-10-28 03:33:14 公開日:2021-05-16
# 幾何学的ベクトルパーセプトロンによるタンパク質構造からの学習

Learning from Protein Structure with Geometric Vector Perceptrons ( http://arxiv.org/abs/2009.01411v3 )

ライセンス: Link先を確認
Bowen Jing, Stephan Eismann, Patricia Suriana, Raphael J.L. Townshend, Ron Dror(参考訳) 大規模生体分子の3次元構造を学習することは、機械学習において別の分野として現れつつあるが、問題領域のグラフ構造と幾何学的側面を同時に活用する統一ネットワークアーキテクチャは、まだ登場していない。 このギャップに対処するために、標準密度層を拡張しユークリッドベクトルの集合を操作する幾何学的ベクトルパーセプトロンを導入する。 このような層を備えたグラフニューラルネットワークは、マクロ分子構造の効率的および自然な表現に基づいて幾何学的および関係的推論を行うことができる。 タンパク質構造から学ぶ上で重要な課題であるモデル品質評価と計算タンパク質設計の2つについて検討を行った。 我々のアプローチは、最先端のグラフベースおよびボクセルベースの手法を含む、既存のアーキテクチャのクラスを改善する。 コードはhttps://github.com/drorlab/gvpでリリースします。

Learning on 3D structures of large biomolecules is emerging as a distinct area in machine learning, but there has yet to emerge a unifying network architecture that simultaneously leverages the graph-structured and geometric aspects of the problem domain. To address this gap, we introduce geometric vector perceptrons, which extend standard dense layers to operate on collections of Euclidean vectors. Graph neural networks equipped with such layers are able to perform both geometric and relational reasoning on efficient and natural representations of macromolecular structure. We demonstrate our approach on two important problems in learning from protein structure: model quality assessment and computational protein design. Our approach improves over existing classes of architectures, including state-of-the-art graph-based and voxel-based methods. We release our code at https://github.com/drorlab/gvp.
翻訳日:2022-10-22 07:16:20 公開日:2021-05-16
# 軌道最適化と強化学習による難解な操作課題の解法

Solving Challenging Dexterous Manipulation Tasks With Trajectory Optimisation and Reinforcement Learning ( http://arxiv.org/abs/2009.05104v2 )

ライセンス: Link先を確認
Henry Charlesworth and Giovanni Montana(参考訳) 人工的なロボットの手の使い方を自律的に学習する訓練エージェントは、非構造的で不確定な環境で複雑な操作タスクを多種多様なシステムで実行できる可能性を持っている。 本稿では,まず,現在の強化学習と軌道最適化手法が困難になるような,シミュレーションによる操作課題の組を導入する。 これには、2つのシミュレートされた手が互いにオブジェクトを渡したり投げたりする必要のある環境や、エージェントが指の間に長いペンを回転させることを学ぶ環境が含まれる。 次に,これらの環境における既存手法よりもはるかに優れた単純な軌道最適化を提案する。 最後に、挑戦的なpenspinタスクでは、軌道最適化によって生成されたサブオプティマイズと、オフポリティカル強化学習を組み合わせることで、これらのアプローチを個別に超えたパフォーマンスを得て、環境を効果的に解決します。 結果の全ビデオは、https://dexterous-manipulation.github.io/で閲覧できます。

Training agents to autonomously learn how to use anthropomorphic robotic hands has the potential to lead to systems capable of performing a multitude of complex manipulation tasks in unstructured and uncertain environments. In this work, we first introduce a suite of challenging simulated manipulation tasks that current reinforcement learning and trajectory optimisation techniques find difficult. These include environments where two simulated hands have to pass or throw objects between each other, as well as an environment where the agent must learn to spin a long pen between its fingers. We then introduce a simple trajectory optimisation that performs significantly better than existing methods on these environments. Finally, on the challenging PenSpin task we combine sub-optimal demonstrations generated through trajectory optimisation with off-policy reinforcement learning, obtaining performance that far exceeds either of these approaches individually, effectively solving the environment. Videos of all of our results are available at: https://dexterous-manipulation.github.io/
翻訳日:2022-10-20 11:47:22 公開日:2021-05-16
# 強化学習からの表現学習の分離

Decoupling Representation Learning from Reinforcement Learning ( http://arxiv.org/abs/2009.08319v3 )

ライセンス: Link先を確認
Adam Stooke, Kimin Lee, Pieter Abbeel, and Michael Laskin(参考訳) 画像からの強化学習(RL)における報酬駆動型特徴学習の限界を克服するために,政策学習からの表現学習の分離を提案する。 そこで本研究では,コンボリューションエンコーダを訓練し,画像拡張とコントラスト損失を用いて,短い時間差で分離された観測ペアを関連付ける,教師なし学習(ul)タスクであるargance temporal contrast (atc)を導入する。 オンラインRL実験では,ほとんどの環境において,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。 さらに、専門家によるデモンストレーションでエンコーダを事前訓練し、それをRLエージェントで凍結して使用することにより、いくつかの主要なULアルゴリズムをベンチマークする。 また、複数の環境のデータに基づいてマルチタスクエンコーダを訓練し、異なる下流RLタスクへの一般化を示す。 最後に、ATCのコンポーネントをアブレーションし、新しいデータ拡張を導入し、RLが拡張を必要とする場合、事前訓練されたエンコーダから(圧縮された)遅延画像の再生を可能にする。 実験はDeepMind Control、DeepMind Lab、AtariのさまざまなRLベンチマークにまたがっており、完全なコードはhttps://github.com/astooke/rlpyt/tree/master/rlpyt/ulで利用可能です。

In an effort to overcome limitations of reward-driven feature learning in deep reinforcement learning (RL) from images, we propose decoupling representation learning from policy learning. To this end, we introduce a new unsupervised learning (UL) task, called Augmented Temporal Contrast (ATC), which trains a convolutional encoder to associate pairs of observations separated by a short time difference, under image augmentations and using a contrastive loss. In online RL experiments, we show that training the encoder exclusively using ATC matches or outperforms end-to-end RL in most environments. Additionally, we benchmark several leading UL algorithms by pre-training encoders on expert demonstrations and using them, with weights frozen, in RL agents; we find that agents using ATC-trained encoders outperform all others. We also train multi-task encoders on data from multiple environments and show generalization to different downstream RL tasks. Finally, we ablate components of ATC, and introduce a new data augmentation to enable replay of (compressed) latent images from pre-trained encoders when RL requires augmentation. Our experiments span visually diverse RL benchmarks in DeepMind Control, DeepMind Lab, and Atari, and our complete code is available at https://github.com/astooke/rlpyt/tree/master/rlpyt/ul.
翻訳日:2022-10-18 11:15:41 公開日:2021-05-16
# リカレントニューラルネットワークにおけるメモリ曲線について:近似と最適化解析

On the Curse of Memory in Recurrent Neural Networks: Approximation and Optimization Analysis ( http://arxiv.org/abs/2009.07799v2 )

ライセンス: Link先を確認
Zhong Li, Jiequn Han, Weinan E, Qianxiao Li(参考訳) 時間的データの入出力関係を学習するために,再帰的ニューラルネットワーク(rnn)の近似特性と最適化ダイナミクスについて検討した。 線形関係から生成されたデータから連続時間線形RNNを学習するための単純だが代表的な設定を考える。 数学的には、後者は線型汎関数の列として理解することができる。 このような線形汎函数の普遍近似定理を証明し、近似率とそのメモリとの関係を特徴づける。 さらに,トレーニング線形rnnのきめ細かな動的解析を行い,記憶と学習の複雑な相互作用を明らかにする。 統一されたテーマはメモリの非自明な効果であり、この概念は我々のフレームワークで正確に近似と最適化に有効である: ターゲットに長期記憶がある場合、それを近似するために多数のニューロンが必要となる。 さらに、トレーニングプロセスは遅いダウンに苦しむでしょう。 特に、これら2つの効果は、記憶によって指数関数的により発音され、私たちが「記憶の波」と呼ぶ現象になる。 これらの分析は、繰り返しアーキテクチャを用いて時間的関係を学習する際に生じる新しい現象を数学的に理解するための基本的なステップである。

We study the approximation properties and optimization dynamics of recurrent neural networks (RNNs) when applied to learn input-output relationships in temporal data. We consider the simple but representative setting of using continuous-time linear RNNs to learn from data generated by linear relationships. Mathematically, the latter can be understood as a sequence of linear functionals. We prove a universal approximation theorem of such linear functionals, and characterize the approximation rate and its relation with memory. Moreover, we perform a fine-grained dynamical analysis of training linear RNNs, which further reveal the intricate interactions between memory and learning. A unifying theme uncovered is the non-trivial effect of memory, a notion that can be made precise in our framework, on approximation and optimization: when there is long term memory in the target, it takes a large number of neurons to approximate it. Moreover, the training process will suffer from slow downs. In particular, both of these effects become exponentially more pronounced with memory - a phenomenon we call the "curse of memory". These analyses represent a basic step towards a concrete mathematical understanding of new phenomenon that may arise in learning temporal relationships using recurrent architectures.
翻訳日:2022-10-17 23:36:33 公開日:2021-05-16
# マルチスケールフォアグラウンド-背景統合による協調的ビデオオブジェクトセグメンテーション

Collaborative Video Object Segmentation by Multi-Scale Foreground-Background Integration ( http://arxiv.org/abs/2010.06349v2 )

ライセンス: Link先を確認
Zongxin Yang, Yunchao Wei, Yi Yang(参考訳) 本稿では,半教師付き映像オブジェクトセグメンテーションに挑戦するために,組込み学習の原理を検討する。 前景オブジェクト(s)の埋め込み学習を探求する従来のプラクティスとは異なり、背景は同じように扱われるべきである。 そこで我々は,前景背景統合(CFBI)アプローチによる協調的ビデオオブジェクトセグメンテーションを提案する。 CFBIは、前景オブジェクト領域とその対応する背景領域に埋め込まれた特徴を分離し、暗黙的にそれらをよりコントラストにし、それに応じてセグメンテーション結果を改善する。 さらに、CFBIは、参照と予測シーケンスの間の画素レベルのマッチングプロセスとインスタンスレベルのアテンション機構の両方を実行し、さまざまなオブジェクトスケールに対して堅牢である。 CFBIをベースとして,マルチスケールのマッチング構造を導入し,より堅牢で効率的なフレームワークであるCFBI+を実現するAtrous Matching戦略を提案する。 DAVISとYouTube-VOSという2つの人気のあるベンチマークで広範な実験を行った。 プリトレーニングにシミュレーションデータを適用することなく、cfbi+は82.9%と82.8%のパフォーマンス(j&f)を達成し、他の最先端の手法を上回っています。 コード:https://github.com/z-x-yang/CFBI

This paper investigates the principles of embedding learning to tackle the challenging semi-supervised video object segmentation. Unlike previous practices that focus on exploring the embedding learning of foreground object (s), we consider background should be equally treated. Thus, we propose a Collaborative video object segmentation by Foreground-Background Integration (CFBI) approach. CFBI separates the feature embedding into the foreground object region and its corresponding background region, implicitly promoting them to be more contrastive and improving the segmentation results accordingly. Moreover, CFBI performs both pixel-level matching processes and instance-level attention mechanisms between the reference and the predicted sequence, making CFBI robust to various object scales. Based on CFBI, we introduce a multi-scale matching structure and propose an Atrous Matching strategy, resulting in a more robust and efficient framework, CFBI+. We conduct extensive experiments on two popular benchmarks, i.e., DAVIS and YouTube-VOS. Without applying any simulated data for pre-training, our CFBI+ achieves the performance (J&F) of 82.9% and 82.8%, outperforming all the other state-of-the-art methods. Code: https://github.com/z-x-yang/CFBI.
翻訳日:2022-10-08 00:06:00 公開日:2021-05-16
# 10人の同時聴取に向けて:シンクホーンのアルゴリズムを用いた音源分離の効率的な変分学習

Towards Listening to 10 People Simultaneously: An Efficient Permutation Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm ( http://arxiv.org/abs/2010.11871v2 )

ライセンス: Link先を確認
Hideyuki Tachibana(参考訳) ニューラルネットワークに基づくモノーラル音声分離手法では,近年,permutation invariant training (pit) 損失を用いて損失を評価することが一般的である。 しかし、通常のPITはすべての$Nを試す必要がある。 は$N$の真理と$N$の見積もりの間にある。 因子的複雑性はN$が増加するにつれて急速に爆発するので、PITベースのトレーニングは、N = 2$や3$のようなソース信号の数が少ない場合にのみ機能する。 この制限を克服するために,N$が大きければ通常のPIT損失よりもはるかに効率的である新しいPIT損失の変種であるSinkPITを提案する。 SinkPITはシンクホーンの行列バランスアルゴリズムに基づいており、このアルゴリズムは2倍確率行列を効率よく見つけ、最適な置換を微分可能な方法で近似する。 筆者らは,SinkPITを用いてニューラルネットワークモデルを用いて,単一チャネル混合物を10ソースに分解する実験を行い,有望な結果を得た。

In neural network-based monaural speech separation techniques, it has been recently common to evaluate the loss using the permutation invariant training (PIT) loss. However, the ordinary PIT requires to try all $N!$ permutations between $N$ ground truths and $N$ estimates. Since the factorial complexity explodes very rapidly as $N$ increases, a PIT-based training works only when the number of source signals is small, such as $N = 2$ or $3$. To overcome this limitation, this paper proposes a SinkPIT, a novel variant of the PIT losses, which is much more efficient than the ordinary PIT loss when $N$ is large. The SinkPIT is based on Sinkhorn's matrix balancing algorithm, which efficiently finds a doubly stochastic matrix which approximates the best permutation in a differentiable manner. The author conducted an experiment to train a neural network model to decompose a single-channel mixture into 10 sources using the SinkPIT, and obtained promising results.
翻訳日:2022-10-04 08:37:12 公開日:2021-05-16
# マルチモードコアテンソル因子化に基づく低ランク化とテンソル完了への応用

Multi-mode Core Tensor Factorization based Low-Rankness and Its Applications to Tensor Completion ( http://arxiv.org/abs/2012.01918v2 )

ライセンス: Link先を確認
Haijin Zeng(参考訳) 低ランクテンソル補完はコンピュータビジョンや機械学習で広く使われている。 本稿では,マルチモーダルコアテンソル因子分解法(mctf法)を,テンソル低ランク性測度とより優れた非凸緩和形式(nonmctf)とともに開発する。 提案モデルでは,Tucker と T-SVD によって提供される一般テンソルの低ランクインサイトを符号化し,複数方向のスペクトル低ランク性を同時にモデル化し,観測値の少ない固有低ランク構造を正確に復元することが期待される。 さらに,MCTF と NonMCTF の正則化最小化問題について検討し,BSUM アルゴリズムを設計して解く。 この効率的な解法は、MCTFをテンソル完備化など様々なタスクに拡張することができる。 ハイパースペクトル画像(HSI)やビデオ,MRIなどの実験により,提案手法の優れた性能が確認された。

Low-rank tensor completion has been widely used in computer vision and machine learning. This paper develops a kind of multi-modal core tensor factorization (MCTF) method together with a tensor low-rankness measure and a better nonconvex relaxation form of it (NonMCTF). The proposed models encode low-rank insights for general tensors provided by Tucker and T-SVD, and thus are expected to simultaneously model spectral low-rankness in multiple orientations and accurately restore the data of intrinsic low-rank structure based on few observed entries. Furthermore, we study the MCTF and NonMCTF regularization minimization problem, and design an effective BSUM algorithm to solve them. This efficient solver can extend MCTF to various tasks, such as tensor completion. A series of experiments, including hyperspectral image (HSI), video and MRI completion, confirm the superior performance of the proposed method.
翻訳日:2021-05-23 14:38:40 公開日:2021-05-16
# 高分解能空中画像の半教師あり分類とセグメンテーション

Semi-Supervised Classification and Segmentation on High Resolution Aerial Images ( http://arxiv.org/abs/2105.08655v1 )

ライセンス: Link先を確認
Sahil Khose, Abhiraj Tiwari, Ankita Ghosh(参考訳) FloodNetは、小さなUAVプラットフォームであるDJI Mavic ProクワッドコプターによってHurricane Harveyにちなんで取得された高解像度の画像データセットである。 このデータセットはラベルなしかつ限定されたラベル付きデータセットを使用して、障害後のシナリオの損傷評価プロセスを前進させるユニークな課題を示す。 分類とセマンティックセグメンテーションの課題に対処する解決策を提案する。 学習中の分類とセグメンテーションの両方に擬似ラベルを生成し,擬似ラベル損失が最終損失に与える影響を緩やかに増やすことでこの問題にアプローチする。 この半教師付きトレーニング手法を用いることで、分類のための巨大なマージンによってベースラインの教師付き損失を改善することができ、モデルがデータセットの検証とテストの分割を一般化し、より良く行うことができる。 本稿では,FloodNetデータセット上の画像分類とセマンティックセグメンテーションのための様々な手法とモデルを比較し,比較する。

FloodNet is a high-resolution image dataset acquired by a small UAV platform, DJI Mavic Pro quadcopters, after Hurricane Harvey. The dataset presents a unique challenge of advancing the damage assessment process for post-disaster scenarios using unlabeled and limited labeled dataset. We propose a solution to address their classification and semantic segmentation challenge. We approach this problem by generating pseudo labels for both classification and segmentation during training and slowly incrementing the amount by which the pseudo label loss affects the final loss. Using this semi-supervised method of training helped us improve our baseline supervised loss by a huge margin for classification, allowing the model to generalize and perform better on the validation and test splits of the dataset. In this paper, we compare and contrast the various methods and models for image classification and semantic segmentation on the FloodNet dataset.
翻訳日:2021-05-19 14:14:49 公開日:2021-05-16
# 2次元および3次元アプローチによるct画像中のcovid-19検出

COVID-19 Detection in Computed Tomography Images with 2D and 3D Approaches ( http://arxiv.org/abs/2105.08506v1 )

ライセンス: Link先を確認
Sara Atito Ali Ahmed and Mehmet Can Yavuz and Mehmet Umut Sen and Fatih Gulsen and Onur Tutar and Bora Korkmazer and Cesur Samanci and Sabri Sirolu and Rauf Hamid and Ali Ergun Eryurekli and Toghrul Mammadov and Berrin Yanikoglu(参考訳) RT-PCR検査のサプリメントとしてCT(Computed tomography)やラジオグラフィー画像中のCOVID-19の検出が提案されている。 本稿では,スライスベース(2D)とボリュームベース(3D)を組み合わせた,新型コロナウイルス感染症検出のための深層学習アンサンブルを提案する。 2Dシステムは各CTスライスへの感染を個別に検出し、それらを組み合わせて、異なる方法(長期記憶ネットワークの拡張)によって患者レベルの決定を得る。 3dシステムは、ctの全容を1ステップで患者レベルの判断に到達させる。 IST-Cデータセットと呼ばれる新しい高解像度胸部CTスキャンデータセットもこの研究で収集されている。 提案されたアンサンブルは、IST-CovNetと呼ばれ、通常のコントロールやその他の種類の肺病理の新型コロナウイルスを検出するIST-Cデータセットで90.80%の精度と0.95のAUCスコア、および、COVID-19スキャンと通常のコントロールのみからなる一般公開されたMosMedデータセットで93.69%の精度と0.99のAUCスコアを得る。 Istanbul University Cerrahpasa School of Medicineで運用されている。

Detecting COVID-19 in computed tomography (CT) or radiography images has been proposed as a supplement to the definitive RT-PCR test. We present a deep learning ensemble for detecting COVID-19 infection, combining slice-based (2D) and volume-based (3D) approaches. The 2D system detects the infection on each CT slice independently, combining them to obtain the patient-level decision via different methods (averaging and long-short term memory networks). The 3D system takes the whole CT volume to arrive to the patient-level decision in one step. A new high resolution chest CT scan dataset, called the IST-C dataset, is also collected in this work. The proposed ensemble, called IST-CovNet, obtains 90.80% accuracy and 0.95 AUC score overall on the IST-C dataset in detecting COVID-19 among normal controls and other types of lung pathologies; and 93.69% accuracy and 0.99 AUC score on the publicly available MosMed dataset that consists of COVID-19 scans and normal controls only. The system is deployed at Istanbul University Cerrahpasa School of Medicine.
翻訳日:2021-05-19 14:06:30 公開日:2021-05-16
# (参考訳) ドメイン内データは本当に必要か? ネットワーク量子化のためのクロスドメイン校正の試み

Is In-Domain Data Really Needed? A Pilot Study on Cross-Domain Calibration for Network Quantization ( http://arxiv.org/abs/2105.07331v1 )

ライセンス: CC BY 4.0
Haichao Yu, Linjie Yang, Humphrey Shi(参考訳) トレーニング後の量子化法は、キャリブレーションデータを用いて、ネットワークパラメータとアクティベーションの量子化範囲を計算する。 キャリブレーションデータは通常、データの感度のためにアクセスできないトレーニングデータセットから取得される。 ドメイン外のデータを使ってトレーニングされたネットワークを、元のデータセットを知らずに校正できるだろうか? 具体的には、自然画像の領域を超えて、X線画像、衛星画像、超音波画像など、大きく異なる領域を含む。 クロスドメインキャリブレーションは、13の異なるキャリブレーションデータセットを持つ異なる画像領域における10タスクの量子化モデルの驚くほど安定した性能をもたらす。 また、量子化モデルの性能は、ソースとキャリブレーション領域間のグラマー行列の類似性と相関しており、キャリブレーションセットを選択する基準として使用することができる。 我々の研究は、ネットワーク量子化と圧縮のためにクロスドメインの知識を借りる扉を開くと信じています。

Post-training quantization methods use a set of calibration data to compute quantization ranges for network parameters and activations. The calibration data usually comes from the training dataset which could be inaccessible due to sensitivity of the data. In this work, we want to study such a problem: can we use out-of-domain data to calibrate the trained networks without knowledge of the original dataset? Specifically, we go beyond the domain of natural images to include drastically different domains such as X-ray images, satellite images and ultrasound images. We find cross-domain calibration leads to surprisingly stable performance of quantized models on 10 tasks in different image domains with 13 different calibration datasets. We also find that the performance of quantized models is correlated with the similarity of the Gram matrices between the source and calibration domains, which can be used as a criterion to choose calibration set for better performance. We believe our research opens the door to borrow cross-domain knowledge for network quantization and compression.
翻訳日:2021-05-19 07:45:42 公開日:2021-05-16
# (参考訳) 概念解析とILPを組み合わせたDNNの表現的説明

Expressive Explanations of DNNs by Combining Concept Analysis with ILP ( http://arxiv.org/abs/2105.07371v1 )

ライセンス: CC BY 4.0
Johannes Rabold, Gesina Schwalbe, Ute Schmid(参考訳) 説明可能なAIは、信頼性や透明性の要求の高いドメインにおいて、ブラックボックス機械学習アプローチの重要なコンポーネントとして現れている。 例えば、医療補助システムや、透明性を基盤とする欧州連合の一般データ保護規則(General Data Protection Regulation)に関する応用などがある。 このような要求は、分類者の決定の背後にある根拠を監査する能力を必要とする。 ヴィジュアライゼーションは説明のデファクトスタンダードであるが、多くの点で表現性の点で不足している: 視覚的特徴(例えば、)の異なる属性の表示を区別することはできない。 eye open vs. closed) であり、特徴の欠如、特徴間の関係の影響を正確に記述することはできない。 もう一つの選択肢はより表現力のある記号的代理モデルである。 しかしこれらは、ほとんどのコンピュータビジョンタスクでは利用できないシンボリックインプットを必要とする。 本稿では、この問題を解決する方法を検討する。我々は、ネットワークによって学習された固有の特徴を用いて、フィードフォワード畳み込みディープニューラルネットワーク(DNN)の理論的根拠のグローバルで表現力豊かな言葉による説明を構築する。 特徴のセマンティクスは、人間の理解可能な視覚概念のセットで訓練された概念分析アプローチによって掘り起こされる。 この説明はインダクティブ論理プログラミング(ILP)メソッドによって発見され、一階ルールとして提示される。 我々の説明は元のブラックボックスモデルに忠実であることを示す。 私たちの実験のコードはhttps://github.com/mc-lovin-mlem/concept-embeddings-and-ilp/tree/ki2020で利用可能です。

Explainable AI has emerged to be a key component for black-box machine learning approaches in domains with a high demand for reliability or transparency. Examples are medical assistant systems, and applications concerned with the General Data Protection Regulation of the European Union, which features transparency as a cornerstone. Such demands require the ability to audit the rationale behind a classifier's decision. While visualizations are the de facto standard of explanations, they come short in terms of expressiveness in many ways: They cannot distinguish between different attribute manifestations of visual features (e.g. eye open vs. closed), and they cannot accurately describe the influence of absence of, and relations between features. An alternative would be more expressive symbolic surrogate models. However, these require symbolic inputs, which are not readily available in most computer vision tasks. In this paper we investigate how to overcome this: We use inherent features learned by the network to build a global, expressive, verbal explanation of the rationale of a feed-forward convolutional deep neural network (DNN). The semantics of the features are mined by a concept analysis approach trained on a set of human understandable visual concepts. The explanation is found by an Inductive Logic Programming (ILP) method and presented as first-order rules. We show that our explanation is faithful to the original black-box model. The code for our experiments is available at https://github.com/mc-lovin-mlem/concept-embeddings-and-ilp/tree/ki2020.
翻訳日:2021-05-19 07:30:21 公開日:2021-05-16
# (参考訳) 類似性を考慮した半教師付きコントラスト学習

Semi-supervised Contrastive Learning with Similarity Co-calibration ( http://arxiv.org/abs/2105.07387v1 )

ライセンス: CC BY 4.0
Yuhang Zhang and Xiaopeng Zhang and Robert.C.Qiu and Jie Li and Haohang Xu and Qi Tian(参考訳) 半教師付き学習は、大量のラベルのないデータを活用する効果的な方法として機能する。 本稿では,半教師付きコントラスト学習(SsCL)と呼ばれる,自己教師型学習におけるよく知られたコントラスト学習の損失と,半教師型学習におけるクロスエントロピー損失を組み合わせ,両目標をエンドツーエンドで協調的に最適化する新たな学習戦略を提案する。 ssclは,同じモデル重みで予測と再トレーニングを行う自己学習ベースの半教師付き学習とは異なり,2つのブランチ間のラベルなしデータ上での予測を交換し,より優れた予測と局所的最小化を避けるために有効な共校手順を定式化する。 この目的に向けて、対比損失枝は、クロスエントロピー分岐から生成した最も近い近傍を用いて、サンプル間のペアワイズ類似性をモデル化し、その対比類似度でクロスエントロピー分岐の予測分布を校正する。 SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。 特に、ResNet50をバックボーンとしたImageNetでは、SsCLは、それぞれ1%と10%のラベル付きサンプルで、60.2%と72.1%のトップ-1の精度を達成した。

Semi-supervised learning acts as an effective way to leverage massive unlabeled data. In this paper, we propose a novel training strategy, termed as Semi-supervised Contrastive Learning (SsCL), which combines the well-known contrastive loss in self-supervised learning with the cross entropy loss in semi-supervised learning, and jointly optimizes the two objectives in an end-to-end way. The highlight is that different from self-training based semi-supervised learning that conducts prediction and retraining over the same model weights, SsCL interchanges the predictions over the unlabeled data between the two branches, and thus formulates a co-calibration procedure, which we find is beneficial for better prediction and avoid being trapped in local minimum. Towards this goal, the contrastive loss branch models pairwise similarities among samples, using the nearest neighborhood generated from the cross entropy branch, and in turn calibrates the prediction distribution of the cross entropy branch with the contrastive similarity. We show that SsCL produces more discriminative representation and is beneficial to few shot learning. Notably, on ImageNet with ResNet50 as the backbone, SsCL achieves 60.2% and 72.1% top-1 accuracy with 1% and 10% labeled samples, respectively, which significantly outperforms the baseline, and is better than previous semi-supervised and self-supervised methods.
翻訳日:2021-05-19 07:17:38 公開日:2021-05-16
# (参考訳) 新たな多層アルジェリア方言コーパスにおける形態的タイポロジーとスクリプトの相互作用

The interplay between morphological typology and script on a novel multi-layer Algerian dialect corpus ( http://arxiv.org/abs/2105.07400v1 )

ライセンス: CC BY 4.0
Samia Touileb and Jeremy Barnes(参考訳) 近年、類似の類型を持つ言語間、および様々なスクリプトの言語間における言語間移動への関心が高まっている。 しかし, 言語間移動における形態的類型と文字の相違は, あまり研究されていない問題である。 本稿では,2つの教師付きタスクに対する言語間伝達に関するこのインタープレイ,すなわちパーシャル・オブ・スパイチ・タギングと感情分析について検討する。 本稿では,ラテン文字,アラビア文字,コード切り換えスクリプトで記述されたアルジェリア語の並列アノテーションと,感情や話題カテゴリのアノテーションを含む,新たにアノテートされたalgerianユーザ生成コメントコーパスを紹介する。 多言語モデルの微調整によるベースライン実験を行う。 さらに、a)形態的に異なる言語に対する微調整多言語モデルによる言語間移動におけるスクリプト対形態素変換の効果について検討するが、b)形態学的に類似しているが、c)形態学的に類似しており、同一のスクリプトを使用する。 感情分析の感度は低かったが,文章と音韻には微妙な関係があることがわかった。

Recent years have seen a rise in interest for cross-lingual transfer between languages with similar typology, and between languages of various scripts. However, the interplay between morphological typology and difference in script on cross-lingual transfer is a less studied problem. We explore this interplay on cross-lingual transfer for two supervised tasks, namely part-of-speech tagging and sentiment analysis. We introduce a newly annotated corpus of Algerian user-generated comments comprising parallel annotations of Algerian written in Latin, Arabic, and code-switched scripts, as well as annotations for sentiment and topic categories. We perform baseline experiments by fine-tuning multi-lingual language models. We further explore the effect of script vs. morphological typology in cross-lingual transfer by fine-tuning multi-lingual models on languages which are a) morphologically distinct, but use the same script, b) morphologically similar, but use a distinct script, or c) are morphologically similar and use the same script. We find there is a delicate relationship between script and typology for part-of-speech, while sentiment analysis is less sensitive.
翻訳日:2021-05-19 07:03:19 公開日:2021-05-16
# (参考訳) 好奇心駆動型直観的物理学習

Curiosity-driven Intuitive Physics Learning ( http://arxiv.org/abs/2105.07426v1 )

ライセンス: CC BY 4.0
Tejas Gaikwad, Romi Banerjee(参考訳) 生物学的な幼児は自然に好奇心を持ち、様々な物体(主に巨視的な固体)と相互作用することで、物理的環境を理解しようとする。 様々な相互作用を通じて仮説と予測を構築し、最終的にはこれらの物体の物理的特性や振る舞いの性質を学習し、推論し、理解する。 そこで我々は、現実世界のAIエージェントに対する好奇心駆動学習と推論のモデルを提案する。 このモデルは好奇心の喚起に基づくもので、基本的な巨視的固体物理学パラメータ、すなわち形状定数、空間-時間的連続性、オブジェクトの永続性における不連続性に関する観察に由来する。 我々は、固体の基本的な性質を表現するために、ボディ予算という用語を用いる。 このモデルは、現実世界のAIエージェントにおけるドメインに関係なく、経験を通じてサブストラテテーションを経験することで、スクラッチから学習のエミュレーションをサポートすることを目的としている。

Biological infants are naturally curious and try to comprehend their physical surroundings by interacting, in myriad multisensory ways, with different objects - primarily macroscopic solid objects - around them. Through their various interactions, they build hypotheses and predictions, and eventually learn, infer and understand the nature of the physical characteristics and behavior of these objects. Inspired thus, we propose a model for curiosity-driven learning and inference for real-world AI agents. This model is based on the arousal of curiosity, deriving from observations along discontinuities in the fundamental macroscopic solid-body physics parameters, i.e., shape constancy, spatial-temporal continuity, and object permanence. We use the term body-budget to represent the perceived fundamental properties of solid objects. The model aims to support the emulation of learning from scratch followed by substantiation through experience, irrespective of domain, in real-world AI agents.
翻訳日:2021-05-19 06:45:48 公開日:2021-05-16
# (参考訳) 条件付き平均埋め込みのためのソボレフノルム学習率

Sobolev Norm Learning Rates for Conditional Mean Embeddings ( http://arxiv.org/abs/2105.07446v1 )

ライセンス: CC BY 4.0
Prem Talwai, Ali Shameli, David Simchi-Levi(参考訳) カーネルヒルベルト空間 (RKHS) の補間理論を適用し, 条件付き平均埋め込みの学習率を向上させる。 我々の学習速度は、サンプル推定器が最先端技術よりも大幅に弱い仮定の下で整合性を示し、無限次元RKHSと連続状態空間を含むより複雑なML/RL設定への条件平均埋め込みのより広範な適用を可能にした。

We develop novel learning rates for conditional mean embeddings by applying the theory of interpolation for reproducing kernel Hilbert spaces (RKHS). Our learning rates demonstrate consistency of the sample estimator under drastically weaker assumptions than the state-of-the art, allowing the much broader application of conditional mean embeddings to more complex ML/RL settings involving infinite dimensional RKHS and continuous state spaces.
翻訳日:2021-05-19 06:36:53 公開日:2021-05-16
# (参考訳) MSRF-Net:バイオメディカルイメージセグメンテーションのためのマルチスケール残留核融合ネットワーク

MSRF-Net: A Multi-Scale Residual Fusion Network for Biomedical Image Segmentation ( http://arxiv.org/abs/2105.07451v1 )

ライセンス: CC BY 4.0
Abhishek Srivastava, Debesh Jha, Sukalpa Chanda, Umapada Pal, H{\aa}vard D. Johansen, Dag Johansen, Michael A. Riegler, Sharib Ali, P{\aa}l Halvorsen(参考訳) 畳み込みニューラルネットワークに基づく手法により,バイオメディカルイメージセグメンテーションの性能が向上した。 しかし、これらの手法のほとんどは、生物医学的なユースケースで一般的な、可変サイズのオブジェクトを効率的に分割し、小さな偏りのあるデータセットで訓練することができない。 可変サイズに起因する課題に対処するために、マルチスケールの融合アプローチを取り入れた手法が存在するが、一般的には、一般的なセマンティックセグメンテーションコンピュータビジョン問題に適した複雑なモデルを使用する。 本稿では,医用画像分割タスク用に特別に設計されたMSRF-Netという新しいアーキテクチャを提案する。 提案したMSRF-Netは,デュアルスケール高密度核融合ブロック(DSDF)を用いて,様々な受容場のマルチスケール特徴を交換できる。 DSDFブロックは2つの解像度スケールで情報交換を行うことができ、MSRFサブネットワークは複数のDSDFブロックを順次使用してマルチスケール融合を行う。 これにより、解像度の保存、情報フローの改善、高レベルの特徴と低レベルの特徴の伝播が可能になり、正確なセグメンテーションマップが得られる。 提案したMSRF-Netは、オブジェクトの変動をキャプチャし、異なるバイオメディカルデータセットで改善された結果を提供する。 MSRF-Netにおける広範囲な実験により,提案手法は最先端の医用画像分割法よりも優れていることが示された。 MSRF-Netは4つの公開データセットのパフォーマンスを向上し、また最先端の手法に比べてMSRF-Netはより一般化可能である。

Methods based on convolutional neural networks have improved the performance of biomedical image segmentation. However, most of these methods cannot efficiently segment objects of variable sizes and train on small and biased datasets, which are common in biomedical use cases. While methods exist that incorporate multi-scale fusion approaches to address the challenges arising with variable sizes, they usually use complex models that are more suitable for general semantic segmentation computer vision problems. In this paper, we propose a novel architecture called MSRF-Net, which is specially designed for medical image segmentation tasks. The proposed MSRF-Net is able to exchange multi-scale features of varying receptive fields using a dual-scale dense fusion block (DSDF). Our DSDF block can exchange information rigorously across two different resolution scales, and our MSRF sub-network uses multiple DSDF blocks in sequence to perform multi-scale fusion. This allows the preservation of resolution, improved information flow, and propagation of both high- and low-level features to obtain accurate segmentation maps. The proposed MSRF-Net allows to capture object variabilities and provides improved results on different biomedical datasets. Extensive experiments on MSRF-Net demonstrate that the proposed method outperforms most of the cutting-edge medical image segmentation state-of-the-art methods. MSRF-Net advances the performance on four publicly available datasets, and also, MSRF-Net is more generalizable as compared to state-of-the-art methods.
翻訳日:2021-05-19 06:14:36 公開日:2021-05-16
# (参考訳) ランドマークによる3次元から4次元の表情生成

3D to 4D Facial Expressions Generation Guided by Landmarks ( http://arxiv.org/abs/2105.07463v1 )

ライセンス: CC BY 4.0
Naima Otberdout, Claudio Ferrari, Mohamed Daoudi, Stefano Berretti, Alberto Del Bimbo(参考訳) 近年,深層学習に基づく3D顔生成が進展しているが,動的3D (4D)表情合成の問題点は少ない。 本稿では,1つの入力3Dニュートラル顔から動的3D (4D) 表情を生成できるかという問題に対して,新しい解法を提案する。 この問題に対処するために,まず,メッシュエンコーダ・デコーダアーキテクチャ(expr-ed)を提案する。 そして,表現ラベル(Motion3DGAN)から3Dランドマークのシーケンスを生成することができる多様体値GANを用いて,表情の時間ダイナミクスをモデル化し,これを4Dに拡張する。 生成されたランドマークはメッシュエンコーダデコーダに入力され、最終的に3D表現顔のシーケンスを生成する。 2つのステップを分離することで、メッシュ変形と運動ダイナミクスによって引き起こされる非線形性に別々に対処できる。 CoMAデータセットの実験結果は、ランドマークでガイドされたメッシュエンコーダデコーダが、他のランドマークベースの3Dフィッティングアプローチに対して大幅に改善され、高品質な動的表情を生成することができることを示している。 この枠組みにより、3D表現強度を低強度から高強度に連続的に適応させることができる。 最後に,2D-3Dの表情伝達など他のタスクにも適用可能であることを示す。

While deep learning-based 3D face generation has made a progress recently, the problem of dynamic 3D (4D) facial expression synthesis is less investigated. In this paper, we propose a novel solution to the following question: given one input 3D neutral face, can we generate dynamic 3D (4D) facial expressions from it? To tackle this problem, we first propose a mesh encoder-decoder architecture (Expr-ED) that exploits a set of 3D landmarks to generate an expressive 3D face from its neutral counterpart. Then, we extend it to 4D by modeling the temporal dynamics of facial expressions using a manifold-valued GAN capable of generating a sequence of 3D landmarks from an expression label (Motion3DGAN). The generated landmarks are fed into the mesh encoder-decoder, ultimately producing a sequence of 3D expressive faces. By decoupling the two steps, we separately address the non-linearity induced by the mesh deformation and motion dynamics. The experimental results on the CoMA dataset show that our mesh encoder-decoder guided by landmarks brings a significant improvement with respect to other landmark-based 3D fitting approaches, and that we can generate high quality dynamic facial expressions. This framework further enables the 3D expression intensity to be continuously adapted from low to high intensity. Finally, we show our framework can be applied to other tasks, such as 2D-3D facial expression transfer.
翻訳日:2021-05-19 05:52:16 公開日:2021-05-16
# (参考訳) slgpt: transfer learningを使用してsimulinkモデルファイルを直接生成し、simulinkツールチェーンのバグを見つける

SLGPT: Using Transfer Learning to Directly Generate Simulink Model Files and Find Bugs in the Simulink Toolchain ( http://arxiv.org/abs/2105.07465v1 )

ライセンス: CC BY 4.0
Sohil Lal Shrestha and Christoph Csallner(参考訳) Simulinkのような商用サイバー物理システム(CPS)開発ツールのバグを見つけることは、コードベースに数百万行のコードが含まれており、完全な形式言語仕様が利用できないため難しい。 ディープラーニング技術は、サンプルモデルからそのような言語仕様を学ぶことを約束する一方で、ディープラーニングは、うまく機能するために多数のトレーニングデータが必要です。 SLGPTは、転送学習を用いて、大規模なトレーニングデータに基づいて事前学習された強力な生成事前学習トランスフォーマ2(GPT-2)モデルを活用することでこの問題に対処する。 SLGPTは、オープンソースリポジトリから抽出されたランダムに生成されたモデルとモデルの両方でGPT-2をSimulinkに適合させる。 SLGPTは、最も近い競合であるDeepFuzzSLよりもオープンソースモデルに近いSimulinkモデルを作成し、DeepFuzzSLが発見したSimulink開発ツールチェーンのスーパーセットを発見した。

Finding bugs in a commercial cyber-physical system (CPS) development tool such as Simulink is hard as its codebase contains millions of lines of code and complete formal language specifications are not available. While deep learning techniques promise to learn such language specifications from sample models, deep learning needs a large number of training data to work well. SLGPT addresses this problem by using transfer learning to leverage the powerful Generative Pre-trained Transformer 2 (GPT-2) model, which has been pre-trained on a large set of training data. SLGPT adapts GPT-2 to Simulink with both randomly generated models and models mined from open-source repositories. SLGPT produced Simulink models that are both more similar to open-source models than its closest competitor, DeepFuzzSL, and found a super-set of the Simulink development toolchain bugs found by DeepFuzzSL.
翻訳日:2021-05-19 05:38:06 公開日:2021-05-16
# (参考訳) 大腸内視鏡検査におけるポリープミス率低減のための人工知能の進歩

Advances in Artificial Intelligence to Reduce Polyp Miss Rates during Colonoscopy ( http://arxiv.org/abs/2105.07467v1 )

ライセンス: CC BY 4.0
Michael Yeung, Evis Sala, Carola-Bibiane Sch\"onlieb, Leonardo Rundo(参考訳) BACKGROUND and CONTEXT: 大腸癌の大腸内視鏡検診においてポリプミス検出率を低下させることで、人工知能が消化器科医を助ける可能性がある。 NEW FINDINGS:新しいディープニューラルネットワークアーキテクチャであるFocus U-Netを導入し,大腸内視鏡で得られたポリプの画像を含む5つの公開データセットに対して,ポリプセグメンテーションの最先端のパフォーマンスを実現する。 LIMITATIONS: このモデルは大腸内視鏡撮影時に撮影された画像に対して検証されているが, 汎用性を確保するためにはライブビデオデータに対する検証が必要である。 IMPACT: ライブビデオデータで検証すれば,大腸内視鏡検査にポリープ分画アルゴリズムを組み込むことができ,ポリープの欠落を減らすことで消化器科医を支援することができる。

BACKGROUND AND CONTEXT: Artificial intelligence has the potential to aid gastroenterologists by reducing polyp miss detection rates during colonoscopy screening for colorectal cancer. NEW FINDINGS: We introduce a new deep neural network architecture, the Focus U-Net, which achieves state-of-the-art performance for polyp segmentation across five public datasets containing images of polyps obtained during colonoscopy. LIMITATIONS: The model has been validated on images taken during colonoscopy but requires validation on live video data to ensure generalisability. IMPACT: Once validated on live video data, our polyp segmentation algorithm could be integrated into colonoscopy practice and assist gastroenterologists by reducing the number of polyps missed
翻訳日:2021-05-19 05:28:27 公開日:2021-05-16
# (参考訳) Fast-GANFIT:高忠実度3次元顔再構成のための生成的対向ネットワーク

Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face Reconstruction ( http://arxiv.org/abs/2105.07474v1 )

ライセンス: CC BY 4.0
Baris Gecer, Stylianos Ploumpis, Irene Kotsia, Stefanos Zafeiriou(参考訳) ディープ畳み込みニューラルネットワーク(DCNN)の力を生かして,単一の画像から3次元顔構造を再構築する作業が数多く行われている。 最近の研究では、テクスチャの特徴は線形テクスチャ空間の構成要素に対応するか、あるいは、線内画像から直接オートエンコーダによって学習される。 いずれにしても、顔のテクスチャ再構築の品質は、高頻度で顔のテクスチャをモデル化することができない。 本稿では,画像から顔のテクスチャと形状を再構築するために,gans(generative adversarial network)とdcnns(generative adversarial network)のパワーを根本的に異なるアプローチで活用する。 すなわち,大規模な3次元テクスチャデータセットから,非常に強力な顔テクスチャをトレーニングするためにGANを使用する。 そこで,本研究では, 非線形最適化を応用したオリジナルの3次元モルファブルモデル(3DMM)を再検討し, テストイメージを最適に再構成する最適潜伏パラメータを, 新しい視点で探索する。 初期化に頑健であり, 適合プロセスの迅速化を図るために, 自己教師あり回帰に基づく新しいアプローチを提案する。 3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し,その知識を最大限に活用し,高精度な顔テクスチャ再構成を実現する。

A lot of work has been done towards reconstructing the 3D facial structure from single images by capitalizing on the power of Deep Convolutional Neural Networks (DCNNs). In the recent works, the texture features either correspond to components of a linear texture space or are learned by auto-encoders directly from in-the-wild images. In all cases, the quality of the facial texture reconstruction is still not capable of modeling facial texture with high-frequency details. In this paper, we take a radically different approach and harness the power of Generative Adversarial Networks (GANs) and DCNNs in order to reconstruct the facial texture and shape from single images. That is, we utilize GANs to train a very powerful facial texture prior \edit{from a large-scale 3D texture dataset}. Then, we revisit the original 3D Morphable Models (3DMMs) fitting making use of non-linear optimization to find the optimal latent parameters that best reconstruct the test image but under a new perspective. In order to be robust towards initialisation and expedite the fitting process, we propose a novel self-supervised regression based approach. We demonstrate excellent results in photorealistic and identity preserving 3D face reconstructions and achieve for the first time, to the best of our knowledge, facial texture reconstruction with high-frequency details.
翻訳日:2021-05-19 05:12:24 公開日:2021-05-16
# (参考訳) 手話グロス翻訳のためのデータ拡張

Data Augmentation for Sign Language Gloss Translation ( http://arxiv.org/abs/2105.07476v1 )

ライセンス: CC BY 4.0
Amit Moryossef, Kayo Yin, Graham Neubig, Yoav Goldberg(参考訳) 手話翻訳(英: sign language translation、slt)は、しばしばビデオから音声への認識とテキストへの翻訳(英: gloss-to-text translation)に分解される。 ここでは低リソースニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。 しかし、従来の低リソースのnmtとは異なり、用語対テキストのペアは、話し言葉のペアよりも語彙的重複度が高く、構文的重複度が低いため、用語間翻訳は異なる。 この語彙重なりを利用して、単言語音声テキストから擬パラレルなグロステキストペアを生成する2つのルールベースのヒューリスティックを提案する。 得られた合成データを事前学習することにより、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)への翻訳を最大3.14 BLEUと2.20 BLEUで改善する。

Sign language translation (SLT) is often decomposed into video-to-gloss recognition and gloss-to-text translation, where a gloss is a sequence of transcribed spoken-language words in the order in which they are signed. We focus here on gloss-to-text translation, which we treat as a low-resource neural machine translation (NMT) problem. However, unlike traditional low-resource NMT, gloss-to-text translation differs because gloss-text pairs often have a higher lexical overlap and lower syntactic overlap than pairs of spoken languages. We exploit this lexical overlap and handle syntactic divergence by proposing two rule-based heuristics that generate pseudo-parallel gloss-text pairs from monolingual spoken language text. By pre-training on the thus obtained synthetic data, we improve translation from American Sign Language (ASL) to English and German Sign Language (DGS) to German by up to 3.14 and 2.20 BLEU, respectively.
翻訳日:2021-05-19 04:48:45 公開日:2021-05-16
# (参考訳) atomai:(走査型)透過型電子顕微鏡における画像および分光データの分析のためのディープラーニングフレームワーク

AtomAI: A Deep Learning Framework for Analysis of Image and Spectroscopy Data in (Scanning) Transmission Electron Microscopy and Beyond ( http://arxiv.org/abs/2105.07485v1 )

ライセンス: CC BY 4.0
Maxim Ziatdinov, Ayana Ghosh, Tommy Wong, and Sergei V. Kalinin(参考訳) AtomAIは、楽器固有のPythonライブラリ、ディープラーニング、シミュレーションツールを単一のエコシステムにブリッジする、オープンソースのソフトウェアパッケージである。 AtomAIは、原子・メソスコピック画像セグメンテーションのための深層畳み込みニューラルネットワークの直接的な応用を可能にし、画像と分光データを統計やグラフ解析などの下流タスクのためのクラスベースの局所記述子に変換する。 原子分解イメージングデータの場合、出力は原子種のタイプと位置であり、その後の精製の選択肢となる。 AtomAIはさらに、不変変分オートエンコーダ(VAE)を含む幅広い画像およびスペクトル分析機能の実装を可能にしている。 後者は、カテゴリーデータ表現と連続データ表現の教師なしおよびクラス条件のアンタングルに対する回転不変かつ(任意に)翻訳不変のVAEからなる。 さらにAtomAIは、im2specと spec2imタイプのエンコーダ-デコーダモデルを通じて構造-プロパティ関係をマッピングするためのユーティリティを提供する。 最後に、AtomAIは、分子動力学や密度汎関数理論計算を含むPythonインターフェースでモデリングする第一原理へのシームレスな接続を可能にする。 これまでのほとんどのアプリケーションは原子分解電子顕微鏡に基づいていたが、AtomAIの柔軟性は、ラベルや特徴識別ワークフローが確立/利用可能になると、メソスコピックイメージングデータの解析への直接的な拡張を可能にする。 ソースコードとサンプルノートブックはhttps://github.com/pycroscopy/atomaiで入手できる。

AtomAI is an open-source software package bridging instrument-specific Python libraries, deep learning, and simulation tools into a single ecosystem. AtomAI allows direct applications of the deep convolutional neural networks for atomic and mesoscopic image segmentation converting image and spectroscopy data into class-based local descriptors for downstream tasks such as statistical and graph analysis. For atomically-resolved imaging data, the output is types and positions of atomic species, with an option for subsequent refinement. AtomAI further allows the implementation of a broad range of image and spectrum analysis functions, including invariant variational autoencoders (VAEs). The latter consists of VAEs with rotational and (optionally) translational invariance for unsupervised and class-conditioned disentanglement of categorical and continuous data representations. In addition, AtomAI provides utilities for mapping structure-property relationships via im2spec and spec2im type of encoder-decoder models. Finally, AtomAI allows seamless connection to the first principles modeling with a Python interface, including molecular dynamics and density functional theory calculations on the inferred atomic position. While the majority of applications to date were based on atomically resolved electron microscopy, the flexibility of AtomAI allows straightforward extension towards the analysis of mesoscopic imaging data once the labels and feature identification workflows are established/available. The source code and example notebooks are available at https://github.com/pycroscopy/atomai.
翻訳日:2021-05-19 04:38:51 公開日:2021-05-16
# (参考訳) 説明可能な人工知能の抽象化・検証・一般化

Abstraction, Validation, and Generalization for Explainable Artificial Intelligence ( http://arxiv.org/abs/2105.07508v1 )

ライセンス: CC BY 4.0
Scott Cheng-Hsin Yang, Tomas Folke, and Patrick Shafto(参考訳) ニューラルネットワークアーキテクチャは、幅広いタスクで超人的なパフォーマンスを実現している。 これらのシステムを効果的かつ安全にデプロイするには、意思決定は幅広い利害関係者に理解されなければならない。 この課題に答えるためにAIを説明する方法が提案されているが、理論の欠如は累積的な知識獲得に必要な体系的な抽象化の開発を妨げる。 機械学習と人間の学習を統合することで、説明可能なAI(XAI)を統合するためのフレームワークとしてベイズ教育を提案する。 ベイズ教育は説明人のコミュニケーション行為として説明を形式化し、説明人の信念を変える。 この形式化は、任意のxai法を(1)説明すべき推論、(2)説明媒体、(3)説明者モデル、(4)説明者モデルという4つの構成要素に分解する。 ベイズ教養によって与えられた抽象概念は、XAI法を分解することで、それらの相違を解明する。 XAIシステムの分解は、リストされている最初の3つのコンポーネントが半独立にテストできるため、モジュラー検証を可能にする。 この分解はまた、異なるXAIシステムからのコンポーネントの再結合を通じて一般化を促進し、新しい変種の生成を促進する。 これらの新しいバリエーションは、各コンポーネントが検証され、開発時間が指数関数的に減少するので、1つずつ評価する必要はない。 最後に、明確な説明をすることで、Bayesian Teachingは開発者がXAIシステムが現実世界のユースケースにどの程度適しているかを評価するのに役立つ。 このようにベイズ教養は、XAIの体系的、科学的調査を促進する理論的枠組みを提供する。

Neural network architectures are achieving superhuman performance on an expanding range of tasks. To effectively and safely deploy these systems, their decision-making must be understandable to a wide range of stakeholders. Methods to explain AI have been proposed to answer this challenge, but a lack of theory impedes the development of systematic abstractions which are necessary for cumulative knowledge gains. We propose Bayesian Teaching as a framework for unifying explainable AI (XAI) by integrating machine learning and human learning. Bayesian Teaching formalizes explanation as a communication act of an explainer to shift the beliefs of an explainee. This formalization decomposes any XAI method into four components: (1) the inference to be explained, (2) the explanatory medium, (3) the explainee model, and (4) the explainer model. The abstraction afforded by Bayesian Teaching to decompose any XAI method elucidates the invariances among them. The decomposition of XAI systems enables modular validation, as each of the first three components listed can be tested semi-independently. This decomposition also promotes generalization through recombination of components from different XAI systems, which facilitates the generation of novel variants. These new variants need not be evaluated one by one provided that each component has been validated, leading to an exponential decrease in development time. Finally, by making the goal of explanation explicit, Bayesian Teaching helps developers to assess how suitable an XAI system is for its intended real-world use case. Thus, Bayesian Teaching provides a theoretical framework that encourages systematic, scientific investigation of XAI.
翻訳日:2021-05-19 04:11:20 公開日:2021-05-16
# (参考訳) Doc2Dict:テキスト生成としての情報抽出

Doc2Dict: Information Extraction as Text Generation ( http://arxiv.org/abs/2105.07510v1 )

ライセンス: CC BY 4.0
Benjamin Townsend, Eamon Ito-Fisher, Lily Zhang and Madison May(参考訳) 一般的に、情報抽出(ie)はパイプラインアプローチを必要とする: まず、シーケンスラベリングモデルは、関連するスパンを抽出するために手動で注釈付きドキュメントに訓練され、その後、新しいドキュメントが到着すると、モデルがスパンを予測する。 既存のデータベースレコードでトレーニングされたトランスフォーマー言語モデルに置き換えて、構造化されたjsonを直接生成します。 当社のソリューションでは,トークンレベルのアノテーション生成に伴うワークロードを取り除き,一般的に非常に豊富な(例えば)データソースを活用する。 データベース・レコード)。 情報抽出タスクでは長いドキュメントが一般的であるので、勾配チェックポイントとチャンク符号化を用いて、1つのGPU上の最大32,000トークンのシーケンスに適用する。 我々のDoc2Dictアプローチは、より複雑で手書きのパイプラインと競合し、文書レベルの情報抽出のためのシンプルで効果的なベースラインを提供します。 Doc2Dictモデルとコードを公開し、実験を再現し、将来の作業を促進する。

Typically, information extraction (IE) requires a pipeline approach: first, a sequence labeling model is trained on manually annotated documents to extract relevant spans; then, when a new document arrives, a model predicts spans which are then post-processed and standardized to convert the information into a database entry. We replace this labor-intensive workflow with a transformer language model trained on existing database records to directly generate structured JSON. Our solution removes the workload associated with producing token-level annotations and takes advantage of a data source which is generally quite plentiful (e.g. database records). As long documents are common in information extraction tasks, we use gradient checkpointing and chunked encoding to apply our method to sequences of up to 32,000 tokens on a single GPU. Our Doc2Dict approach is competitive with more complex, hand-engineered pipelines and offers a simple but effective baseline for document-level information extraction. We release our Doc2Dict model and code to reproduce our experiments and facilitate future work.
翻訳日:2021-05-19 03:56:02 公開日:2021-05-16
# (参考訳) グラフニューラルネットワークのためのグラフフリー知識蒸留

Graph-Free Knowledge Distillation for Graph Neural Networks ( http://arxiv.org/abs/2105.07519v1 )

ライセンス: CC BY 4.0
Xiang Deng and Zhongfei Zhang(参考訳) 知識蒸留(KD)は、教師ネットワークから学生に、訓練済みの教師の学習データに模倣するように強制して知識を伝達する。 しかし、データサンプルは、多くの場合、大きなデータサイズ、プライバシー、機密性のため、常にアクセス可能であるとは限らない。 画像やビデオのような連続した空間内のグリッド領域に入力を配置する畳み込みニューラルネットワーク(CNN)では、この問題に対処する多くの取り組みがなされているが、主に離散空間内の異なるトポロジ構造を持つ非グリッドデータを処理するグラフニューラルネットワーク(GNN)を見落としている。 これらの入力に固有の違いがあるため、これらのCNNベースのアプローチはGNNには適用できない。 本稿では,グラフデータなしでgnnから知識を蒸留する最初の専門的アプローチとして,最良の知識を提案する。 グラフフリーkd (gfkd) は知識伝達のためのグラフトポロジ構造を多項分布でモデル化することで学習する。 次に、このフレームワークを最適化するための勾配推定器を導入する。 基本的に 勾配は w. r. t. グラフ構造は、バックプロパゲーションなしでGNNフォワードプロパゲーションのみを使用することで得られ、つまりGFKDはDGLやGeometricといった現代のGNNライブラリと互換性がある。 さらに、グラフデータやGNNにおいて、様々な種類の事前知識を扱うための戦略を提供する。 GFKDは、GNNから知識を抽出する上で、訓練データなしで最先端の性能を達成することを実証した。

Knowledge distillation (KD) transfers knowledge from a teacher network to a student by enforcing the student to mimic the outputs of the pretrained teacher on training data. However, data samples are not always accessible in many cases due to large data sizes, privacy, or confidentiality. Many efforts have been made on addressing this problem for convolutional neural networks (CNNs) whose inputs lie in a grid domain within a continuous space such as images and videos, but largely overlook graph neural networks (GNNs) that handle non-grid data with different topology structures within a discrete space. The inherent differences between their inputs make these CNN-based approaches not applicable to GNNs. In this paper, we propose to our best knowledge the first dedicated approach to distilling knowledge from a GNN without graph data. The proposed graph-free KD (GFKD) learns graph topology structures for knowledge transfer by modeling them with multinomial distribution. We then introduce a gradient estimator to optimize this framework. Essentially, the gradients w.r.t. graph structures are obtained by only using GNN forward-propagation without back-propagation, which means that GFKD is compatible with modern GNN libraries such as DGL and Geometric. Moreover, we provide the strategies for handling different types of prior knowledge in the graph data or the GNNs. Extensive experiments demonstrate that GFKD achieves the state-of-the-art performance for distilling knowledge from GNNs without training data.
翻訳日:2021-05-19 03:42:35 公開日:2021-05-16
# (参考訳) 動的プーリングによるナノホールベース呼び出し精度の向上

Dynamic Pooling Improves Nanopore Base Calling Accuracy ( http://arxiv.org/abs/2105.07520v1 )

ライセンス: CC BY 4.0
Vladim\'ir Bo\v{z}a, Peter Pere\v{s}\'ini, Bro\v{n}a Brejov\'a, Tom\'a\v{s} Vina\v{r}(参考訳) ナノ孔シークエンシングでは、DNA分子がシークエンシング孔を通過すると電気信号が測定される。 これらの信号をdna塩基(ベースコール)に変換することは極めて簡単な作業であり、その品質はシークエンシング精度に大きな影響を与えます。 これまで最も成功したナノホールベース呼び出し者は、畳み込みニューラルネットワーク(cnn)を使用してタスクを実行している。 CNNの畳み込み層は通常、一定のウィンドウサイズを持つフィルタで構成され、均一な速度で信号を分析するのに最適である。 しかし、ナノ孔シークエンシングの速度は、読み出しとシークエンシング実行の間に大きく異なる。 本稿では、この問題に対処する新しいニューラルネットワークコンポーネントである動的プーリングについて、プーリング比を適応的に調整することによって述べる。 動的プールの有用性を示すため,HeronとOspreyの2つのベースコールを開発した。 Heronは、Oxford Nanoporeが開発した実験的な高精度ベースコールのBonitoを超えて精度を向上する。 Ospreyは高速ベースコールで、Guppyの高精度モードと精度で競合するが、GPUアクセラレーションを必要とせず、一般的なデスクトップCPU上でほぼリアルタイムの速度を達成する。 アベイラビリティ: https://github.com/fmfi-compbio/osprey, https://github.com/fmfi-compbio/heronキーワード:ナノポーラシークエンシング、ベース呼び出し、畳み込みニューラルネットワーク、プール

In nanopore sequencing, electrical signal is measured as DNA molecules pass through the sequencing pores. Translating these signals into DNA bases (base calling) is a highly non-trivial task, and its quality has a large impact on the sequencing accuracy. The most successful nanopore base callers to date use convolutional neural networks (CNN) to accomplish the task. Convolutional layers in CNNs are typically composed of filters with constant window size, performing best in analysis of signals with uniform speed. However, the speed of nanopore sequencing varies greatly both within reads and between sequencing runs. Here, we present dynamic pooling, a novel neural network component, which addresses this problem by adaptively adjusting the pooling ratio. To demonstrate the usefulness of dynamic pooling, we developed two base callers: Heron and Osprey. Heron improves the accuracy beyond the experimental high-accuracy base caller Bonito developed by Oxford Nanopore. Osprey is a fast base caller that can compete in accuracy with Guppy high-accuracy mode, but does not require GPU acceleration and achieves a near real-time speed on common desktop CPUs. Availability: https://github.com/fmfi-compbio/osprey, https://github.com/fmfi-compbio/heron Keywords: nanopore sequencing, base calling, convolutional neural networks, pooling
翻訳日:2021-05-19 03:28:27 公開日:2021-05-16
# (参考訳) パーキンソンDBS治療評価のためのエッジサービスとしての私的顔面診断

Private Facial Diagnosis as an Edge Service for Parkinson's DBS Treatment Valuation ( http://arxiv.org/abs/2105.07533v1 )

ライセンス: CC BY 4.0
Richard Jiang, Paul Chazot, Danny Crookes, Ahmed Bouridane and M Emre Celebi(参考訳) 顔の表現型は、遺伝子や医学上の原因と豊富な関連があることが判明した、様々な疾患を診断するための新しい方法として、医療診断に成功している。 本稿では、パーキンソン病(PD)を症例として、PD患者に対する深部脳刺激(DBS)治療を解析するための、エッジ指向のプライバシ保存顔診断フレームワークAIoT(Artificial-Intelligence-of-Things)を提案する。 提案するフレームワークでは,プライバシ保存型aiot指向のマルチパーティ通信方式において,プライバシ保護型深部顔診断を直接暗号化された顔パターン上で実現するために,プライバシ保護型顔診断(phe)を活用するための,エッジベース情報理論的にセキュアな新たな枠組みが提案されている。 pd患者から採取した顔データを用いた実験で,dbs治療中のpd患者の改善を評価するために顔パターンが利用できることを示した。 さらに,非暗号化画像と同じ精度を達成できる,プライバシー保護の深い顔診断フレームワークを実装し,患者のPDの重症度を評価するための信頼できるエッジサービスとして,プライバシー保護の顔診断の可能性を示した。

Facial phenotyping has recently been successfully exploited for medical diagnosis as a novel way to diagnose a range of diseases, where facial biometrics has been revealed to have rich links to underlying genetic or medical causes. In this paper, taking Parkinson's Diseases (PD) as a case study, we proposed an Artificial-Intelligence-of-Things (AIoT) edge-oriented privacy-preserving facial diagnosis framework to analyze the treatment of Deep Brain Stimulation (DBS) on PD patients. In the proposed framework, a new edge-based information theoretically secure framework is proposed to implement private deep facial diagnosis as a service over a privacy-preserving AIoT-oriented multi-party communication scheme, where partial homomorphic encryption (PHE) is leveraged to enable privacy-preserving deep facial diagnosis directly on encrypted facial patterns. In our experiments with a collected facial dataset from PD patients, for the first time, we demonstrated that facial patterns could be used to valuate the improvement of PD patients undergoing DBS treatment. We further implemented a privacy-preserving deep facial diagnosis framework that can achieve the same accuracy as the non-encrypted one, showing the potential of our privacy-preserving facial diagnosis as an trustworthy edge service for grading the severity of PD in patients.
翻訳日:2021-05-19 03:11:59 公開日:2021-05-16
# Few-NERD: エンティティ認識データセット

Few-NERD: A Few-Shot Named Entity Recognition Dataset ( http://arxiv.org/abs/2105.07464v1 )

ライセンス: Link先を確認
Ning Ding, Guangwei Xu, Yulin Chen, Xiaobin Wang, Xu Han, Pengjun Xie, Hai-Tao Zheng, Zhiyuan Liu(参考訳) 近年,エンティティ認識(ner)のテーマを中心に多くの文献が登場しているが,実用的かつ難解な課題に注目したベンチマークデータはほとんど公開されていない。 現在のアプローチでは、既存の教師付きNERデータセットを収集し、経験的研究のために数ショット設定に再編成している。 これらの戦略は、通常、大まかなエンティティタイプを少数の例で認識することを目的としている。 本稿では,大まかな粒度と細粒度66の階層構造を持つ大規模人手用少数ショットNERデータセットであるFew-NERDを提案する。 Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。 私たちの知る限りでは、これが最初の数発のNERデータセットであり、人造NERデータセットとしては最大です。 我々は,モデルの一般化能力を包括的に評価するために,異なる段階のベンチマークタスクを構築した。 大規模な実験結果と分析により、Few-NERDは困難であり、さらなる研究が必要であることが示された。 Few-NERDはhttps://ningding97.github.io/fewnerd/で公開しています。

Recently, considerable literature has grown up around the theme of few-shot named entity recognition (NER), but little published benchmark data specifically focused on the practical and challenging task. Current approaches collect existing supervised NER datasets and re-organize them to the few-shot setting for empirical study. These strategies conventionally aim to recognize coarse-grained entity types with few examples, while in practice, most unseen entity types are fine-grained. In this paper, we present Few-NERD, a large-scale human-annotated few-shot NER dataset with a hierarchy of 8 coarse-grained and 66 fine-grained entity types. Few-NERD consists of 188,238 sentences from Wikipedia, 4,601,160 words are included and each is annotated as context or a part of a two-level entity type. To the best of our knowledge, this is the first few-shot NER dataset and the largest human-crafted NER dataset. We construct benchmark tasks with different emphases to comprehensively assess the generalization capability of models. Extensive empirical results and analysis show that Few-NERD is challenging and the problem requires further research. We make Few-NERD public at https://ningding97.github.io/fewnerd/.
翻訳日:2021-05-18 15:11:39 公開日:2021-05-16
# 現実的普遍的摂動のリアルタイム検出

Real-time Detection of Practical Universal Adversarial Perturbations ( http://arxiv.org/abs/2105.07334v1 )

ライセンス: Link先を確認
Kenneth T. Co, Luis Mu\~noz-Gonz\'alez, Leslie Kanthan, Emil C. Lupu(参考訳) UAP(Universal Adversarial Perturbations)は、システムの脆弱性を悪用し、Deep Neural Networks(DNN)に対する物理的に実現可能で堅牢な攻撃を可能にする、著名な敵のクラスである。 UAPは多くの異なる入力にまたがって一般化され、これは大規模に適用可能な現実的で効果的な攻撃につながる。 本稿では,疑わしいニューロンのハイパーアクティベーションを同定することで,uapをリアルタイムに検出できる効率的でスケーラブルなアルゴリズムであるhyperneuronを提案する。 以上の結果から,複数のタスク(画像分類,オブジェクト検出)におけるハイパーニューロンの有効性,およびパーセプショナル・アドブロッキングや敵対的パッチといった現実的シナリオに対する効果が示された。 HyperNeuronは、既存のUAPディフェンスに匹敵する、あるいは優れたパフォーマンスでUAPのマスクとパッチの両方を同時に検出すると同時に、画像当たり0.86ミリ秒のレイテンシを大幅に削減する。 これは、多くの現実的で実用的な普遍的な攻撃が、リアルタイムに確実に軽減できることを示唆している。

Universal Adversarial Perturbations (UAPs) are a prominent class of adversarial examples that exploit the systemic vulnerabilities and enable physically realizable and robust attacks against Deep Neural Networks (DNNs). UAPs generalize across many different inputs; this leads to realistic and effective attacks that can be applied at scale. In this paper we propose HyperNeuron, an efficient and scalable algorithm that allows for the real-time detection of UAPs by identifying suspicious neuron hyper-activations. Our results show the effectiveness of HyperNeuron on multiple tasks (image classification, object detection), against a wide variety of universal attacks, and in realistic scenarios, like perceptual ad-blocking and adversarial patches. HyperNeuron is able to simultaneously detect both adversarial mask and patch UAPs with comparable or better performance than existing UAP defenses whilst introducing a significantly reduced latency of only 0.86 milliseconds per image. This suggests that many realistic and practical universal attacks can be reliably mitigated in real-time, which shows promise for the robust deployment of machine learning systems.
翻訳日:2021-05-18 15:10:15 公開日:2021-05-16
# 画像・動き分割のための最小コストマルチカットの不確かさ

Uncertainty in Minimum Cost Multicuts for Image and Motion Segmentation ( http://arxiv.org/abs/2105.07469v1 )

ライセンス: Link先を確認
Amirhossein Kardoost and Margret Keuper(参考訳) 最小コスト引き上げマルチカットアプローチは、画像分解、メッシュセグメンテーション、複数オブジェクト追跡、モーションセグメンテーションといった幅広いアプリケーションにおいて、実質的に優れた性能を示している。 グラフベースのモデルでは、最小カットがグラフを最適なセグメント数に分解するように、エンティティ間のエッジに実際の値のコストを割り当てる。 最小コストのマルチカットを確率論的に定式化することで,最適化時の決定の不確実性を評価する。 画像分解(bsds-500)とモーションセグメンテーション(davis2016,fbms59)の文脈において,情報変動(vi)とランド指数(ri)の3つの異なる広範に使用されるデータセットのスパーシフィケーションによって,このような不確実性へのアクセスは,多くの実用的応用において不可欠である。

The minimum cost lifted multicut approach has proven practically good performance in a wide range of applications such as image decomposition, mesh segmentation, multiple object tracking, and motion segmentation. It addresses such problems in a graph-based model, where real-valued costs are assigned to the edges between entities such that the minimum cut decomposes the graph into an optimal number of segments. Driven by a probabilistic formulation of minimum cost multicuts, we provide a measure for the uncertainties of the decisions made during the optimization. We argue that access to such uncertainties is crucial for many practical applications and conduct an evaluation by means of sparsifications on three different, widely used datasets in the context of image decomposition (BSDS-500) and motion segmentation (DAVIS2016 and FBMS59) in terms of variation of information (VI) and Rand index (RI).
翻訳日:2021-05-18 15:07:27 公開日:2021-05-16
# グラフの自己管理: 対照的に、生成的、予測的

Self-supervised on Graphs: Contrastive, Generative,or Predictive ( http://arxiv.org/abs/2105.07342v1 )

ライセンス: Link先を確認
Lirong Wu, Haitao Lin, Zhangyang Gao, Cheng Tan, Stan.Z.Li(参考訳) グラフの深層学習は、最近様々なタスクにおいて顕著な成功を収め、そのような成功は大規模で慎重にラベル付けされたデータに大きく依存している。 しかし、正確なアノテーションは一般的に非常に高価で時間を要する。 この問題に対処するため、手動ラベルに頼ることなく、よく設計されたプレテキストタスクを通じて情報的知識を抽出する新たなパラダイムとして、自己教師付き学習(SSL)が登場している。 本稿では,コンピュータビジョンと自然言語処理の分野で最初に登場したSSLの概念を拡張し,グラフデータのための既存のSSL技術について,タイムリーかつ包括的なレビューを行う。 具体的には、既存のグラフSSLメソッドを、コントラスト、生成、予測の3つのカテゴリに分割する。 さらに重要なことは、公表された研究の高レベルな記述のみを提供する他の多くの調査とは異なり、既存の研究の数学的概要を統一されたフレームワークで示すことである。 さらに,方法論的開発と経験的比較を容易にするため,一般的なデータセット,評価指標,下流タスク,各種アルゴリズムのオープンソース実装についてもまとめる。 最後に,グラフ自己教師付き学習を改善するための技術的課題と今後の方向性について述べる。

Deep learning on graphs has recently achieved remarkable success on a variety of tasks while such success relies heavily on the massive and carefully labeled data. However, precise annotations are generally very expensive and time-consuming. To address this problem, self-supervised learning (SSL) is emerging as a new paradigm for extracting informative knowledge through well-designed pretext tasks without relying on manual labels. In this survey, we extend the concept of SSL, which first emerged in the fields of computer vision and natural language processing, to present a timely and comprehensive review of the existing SSL techniques for graph data. Specifically, we divide existing graph SSL methods into three categories: contrastive, generative, and predictive. More importantly, unlike many other surveys that only provide a high-level description of published research, we present an additional mathematical summary of the existing works in a unified framework. Furthermore, to facilitate methodological development and empirical comparisons, we also summarize the commonly used datasets, evaluation metrics, downstream tasks, and open-source implementations of various algorithms. Finally, we discuss the technical challenges and potential future directions for improving graph self-supervised learning.
翻訳日:2021-05-18 15:05:58 公開日:2021-05-16
# 深部異常検出におけるバイアスの影響の理解

Understanding the Effect of Bias in Deep Anomaly Detection ( http://arxiv.org/abs/2105.07346v1 )

ライセンス: Link先を確認
Ziyu Ye, Yuxin Chen and Haitao Zheng(参考訳) 異常検出はラベル付き異常データの不足のため、機械学習においてユニークな課題となる。 最近の研究は、追加のラベル付き異常サンプルによる深部異常検出モデルのトレーニングを増強することで、このような問題を緩和しようとするものである。 しかし、ラベル付きデータはしばしば対象の分布と一致せず、訓練されたモデルに有害なバイアスをもたらす。 本稿では,異常検出に対するバイアス付き異常集合の効果を理解することを目的とする。 具体的には,異常検出を,与えられた偽陽性率でリコールを最適化することを目的とした教師付き学習課題とみなす。 本稿では, 異常検出器の性能差として定義される異常検出器の相対的評価バイアスについて, 正式に検討する。 深部異常検出のための相対的採点バイアスを推定するための最初の有限標本率を確立し, 合成および実世界の両方のデータセットに関する理論的結果を実証的に検証した。 また、偏りのあるトレーニング異常セットが異常スコア関数にどのように影響するか、また、異なる異常クラスにおける検出性能について広範な実証的研究を行った。 本研究は,バイアス付き異常集合が有用あるいは問題となるシナリオを示し,今後の研究に確かなベンチマークを提供する。

Anomaly detection presents a unique challenge in machine learning, due to the scarcity of labeled anomaly data. Recent work attempts to mitigate such problems by augmenting training of deep anomaly detection models with additional labeled anomaly samples. However, the labeled data often does not align with the target distribution and introduces harmful bias to the trained model. In this paper, we aim to understand the effect of a biased anomaly set on anomaly detection. Concretely, we view anomaly detection as a supervised learning task where the objective is to optimize the recall at a given false positive rate. We formally study the relative scoring bias of an anomaly detector, defined as the difference in performance with respect to a baseline anomaly detector. We establish the first finite sample rates for estimating the relative scoring bias for deep anomaly detection, and empirically validate our theoretical results on both synthetic and real-world datasets. We also provide an extensive empirical study on how a biased training anomaly set affects the anomaly score function and therefore the detection performance on different anomaly classes. Our study demonstrates scenarios in which the biased anomaly set can be useful or problematic, and provides a solid benchmark for future research.
翻訳日:2021-05-18 15:05:40 公開日:2021-05-16
# 置換型ニューラルイメージ圧縮

Substitutional Neural Image Compression ( http://arxiv.org/abs/2105.07512v1 )

ライセンス: Link先を確認
Xiao Wang, Wei Jiang, Wei Wang, Shan Liu, Brian Kulis, Peter Chin(参考訳) 本稿では,学習モデルのデータや追加チューニングを必要とせず,任意の画像圧縮モデルを拡張する一般的なアプローチである置換型ニューラルネットワーク圧縮(snic)について述べる。 フレキシブルな歪みメトリックに向けて圧縮性能を高め、単一のモデルインスタンスを使用したビットレート制御を可能にする。 鍵となるアイデアは、圧縮されるイメージを、元のイメージを望ましい方法で上回る置換イメージに置き換えることである。 このような代替物を見つけることは、従来のコーデックには本質的に難しいが、完全に微分可能な構造のおかげで、ニューラルネットワークモデルには驚くほど好ましい。 特定の損失の勾配を入力にバックプロパゲーションすることで、望ましい代替品を反復的に効率的に作成することができる。 本研究では,様々なニューラル圧縮モデルとターゲットメトリクスを組み合わせることで,snicの有効性を実証し,圧縮品質の向上とレート歪曲線によるビットレート制御を行う。 制御精度と生成速度の実証結果についても論じる。

We describe Substitutional Neural Image Compression (SNIC), a general approach for enhancing any neural image compression model, that requires no data or additional tuning of the trained model. It boosts compression performance toward a flexible distortion metric and enables bit-rate control using a single model instance. The key idea is to replace the image to be compressed with a substitutional one that outperforms the original one in a desired way. Finding such a substitute is inherently difficult for conventional codecs, yet surprisingly favorable for neural compression models thanks to their fully differentiable structures. With gradients of a particular loss backpropogated to the input, a desired substitute can be efficiently crafted iteratively. We demonstrate the effectiveness of SNIC, when combined with various neural compression models and target metrics, in improving compression quality and performing bit-rate control measured by rate-distortion curves. Empirical results of control precision and generation speed are also discussed.
翻訳日:2021-05-18 15:05:22 公開日:2021-05-16
# 医療における時間事象予測のための補助テキストを用いた協調グラフ学習

Collaborative Graph Learning with Auxiliary Text for Temporal Event Prediction in Healthcare ( http://arxiv.org/abs/2105.07542v1 )

ライセンス: Link先を確認
Chang Lu, Chandan K. Reddy, Prithwish Chakraborty, Samantha Kleinberg, Yue Ning(参考訳) 医療提供者が患者のケア計画を策定する上で、正確かつ説明可能な健康イベントの予測が重要になっている。 電子健康記録(EHR)の可用性は、これらの予測を提供する機械学習の進歩を可能にした。 しかし,1)疾患領域の知識を効果的に活用すること,2)患者と疾患の表現を協調的に学習すること,3)非構造化テキストを取り入れること,といった課題を解決するには,深層学習に基づく手法が不十分である。 これらの課題に対処するために,患者と患者との相互作用と医療領域の知識を探索するグラフ学習モデルを提案する。 我々のソリューションは、患者と疾患の両方の構造的特徴を捉えることができる。 提案モデルは,注意規制戦略を用いて非構造化テキストデータを使用し,注意テキストの特徴を逐次学習プロセスに統合する。 提案手法の競争予測性能を示すために, 2つの重要な医療問題に関する広範な実験を行った。 また,一連のアブレーションとケーススタディにより,学習表現の有効性とモデル解釈可能性を確認した。

Accurate and explainable health event predictions are becoming crucial for healthcare providers to develop care plans for patients. The availability of electronic health records (EHR) has enabled machine learning advances in providing these predictions. However, many deep learning based methods are not satisfactory in solving several key challenges: 1) effectively utilizing disease domain knowledge; 2) collaboratively learning representations of patients and diseases; and 3) incorporating unstructured text. To address these issues, we propose a collaborative graph learning model to explore patient-disease interactions and medical domain knowledge. Our solution is able to capture structural features of both patients and diseases. The proposed model also utilizes unstructured text data by employing an attention regulation strategy and then integrates attentive text features into a sequential learning process. We conduct extensive experiments on two important healthcare problems to show the competitive prediction performance of the proposed method compared with various state-of-the-art models. We also confirm the effectiveness of learned representations and model interpretability by a set of ablation and case studies.
翻訳日:2021-05-18 15:05:07 公開日:2021-05-16
# 教員・学生ネットワークを用いた連続学習におけるカタストロフィック・フォーミングの統計的解析

Statistical Mechanical Analysis of Catastrophic Forgetting in Continual Learning with Teacher and Student Networks ( http://arxiv.org/abs/2105.07385v1 )

ライセンス: Link先を確認
Haruka Asanuma, Shiro Takagi, Yoshihiro Nagano, Yuki Yoshida, Yasuhiko Igarashi, and Masato Okada(参考訳) 計算システムが絶えず変化する環境から学習すると、その過去の経験を急速に忘れてしまう。 この現象は破滅的な忘れ物と呼ばれる。 壊滅的な忘れることを避けるために一連の研究が提案されているが、ほとんどの方法は現象に対する直感的な洞察に基づいており、その性能はベンチマークデータセットを用いた数値実験によって評価されている。 そこで本研究では,教師の学習を用いて破滅的忘れを解析するための理論的枠組みを提案する。 教師学習は2つのニューラルネットワークを導入するフレームワークである。1つのニューラルネットワークは教師学習のターゲット関数であり、もう1つは学習ニューラルネットワークである。 教師/学生のフレームワークにおける連続学習を解析するために,課題の類似性として,対象関数の入力分布と入力出力関係の類似性を導入する。 この理論的枠組みでは、単層線形学習ニューラルネットワークがいかにタスクを忘れるかを定性的に理解する。 分析の結果,入力分布間の類似度が小さく,対象関数の入出力関係が大きい場合,ネットワークは壊滅的な記憶を回避できることがわかった。 また,システムがオーバーシュートと呼ばれる特徴的現象を呈することが多いことを示唆する。つまり,たとえ学習ネットワークが一度壊滅的な忘れ方を経験したとしても,現在のタスクのさらなる学習によって,ネットワークが合理的に機能する可能性がある。

When a computational system continuously learns from an ever-changing environment, it rapidly forgets its past experiences. This phenomenon is called catastrophic forgetting. While a line of studies has been proposed with respect to avoiding catastrophic forgetting, most of the methods are based on intuitive insights into the phenomenon, and their performances have been evaluated by numerical experiments using benchmark datasets. Therefore, in this study, we provide the theoretical framework for analyzing catastrophic forgetting by using teacher-student learning. Teacher-student learning is a framework in which we introduce two neural networks: one neural network is a target function in supervised learning, and the other is a learning neural network. To analyze continual learning in the teacher-student framework, we introduce the similarity of the input distribution and the input-output relationship of the target functions as the similarity of tasks. In this theoretical framework, we also provide a qualitative understanding of how a single-layer linear learning neural network forgets tasks. Based on the analysis, we find that the network can avoid catastrophic forgetting when the similarity among input distributions is small and that of the input-output relationship of the target functions is large. The analysis also suggests that a system often exhibits a characteristic phenomenon called overshoot, which means that even if the learning network has once undergone catastrophic forgetting, it is possible that the network may perform reasonably well after further learning of the current task.
翻訳日:2021-05-18 15:03:38 公開日:2021-05-16
# ExSinGAN: 単一画像から説明可能な生成モデルを学ぶ

ExSinGAN: Learning an Explainable Generative Model from a Single Image ( http://arxiv.org/abs/2105.07350v1 )

ライセンス: Link先を確認
ZiCheng Zhang, CongYing Han, TianDe Guo(参考訳) 画像合成の新たな分野として, 単一のサンプルから画像を生成することが注目されている。 本稿では, 単一画像の条件分布からのサンプリングとしてこの問題を定式化し, 構造, 意味, テクスチャに関する分布の連続的な学習を通じて, 複雑な条件分布の学習を単純化し, 学習と生成の過程を分かりやすくする階層的枠組みを提案する。 そこで我々は,解析可能な生成モデルを与えられた画像から学習するための3つのカスケードGANからなるExSinGANを設計し,そのカスケードGANは構造,意味,テクスチャに関する分布を連続的にモデル化する。 ExSinGANは、前述のように画像の内部パッチからだけでなく、GANインバージョン技術によって得られた外部の先行データからも学習される。 内部情報と外部情報を適切に組み合わせることで、ExSinGANは以前の作業と比べて画像操作タスクの生成と競合的な一般化能力の強化を実現している。

Generating images from a single sample, as a newly developing branch of image synthesis, has attracted extensive attention. In this paper, we formulate this problem as sampling from the conditional distribution of a single image, and propose a hierarchical framework that simplifies the learning of the intricate conditional distributions through the successive learning of the distributions about structure, semantics and texture, making the process of learning and generation comprehensible. On this basis, we design ExSinGAN composed of three cascaded GANs for learning an explainable generative model from a given image, where the cascaded GANs model the distributions about structure, semantics and texture successively. ExSinGAN is learned not only from the internal patches of the given image as the previous works did, but also from the external prior obtained by the GAN inversion technique. Benefiting from the appropriate combination of internal and external information, ExSinGAN has a more powerful capability of generation and competitive generalization ability for the image manipulation tasks compared with prior works.
翻訳日:2021-05-18 15:02:38 公開日:2021-05-16
# 胸部X線撮影による肺結核検出のための深層学習 : 10カ国にわたる国際的研究

Deep learning for detecting pulmonary tuberculosis via chest radiography: an international study across 10 countries ( http://arxiv.org/abs/2105.07540v1 )

ライセンス: Link先を確認
Sahar Kazemzadeh, Jin Yu, Shahar Jamshy, Rory Pilgrim, Zaid Nabulsi, Christina Chen, Neeral Beladia, Charles Lau, Scott Mayer McKinney, Thad Hughes, Atilla Kiraly, Sreenivasa Raju Kalidindi, Monde Muyoyeta, Jameson Malemela, Ting Shih, Greg S. Corrado, Lily Peng, Katherine Chou, Po-Hsuan Cameron Chen, Yun Liu, Krish Eswaran, Daniel Tse, Shravya Shetty, Shruthi Prabhakara(参考訳) 結核(tb)は世界トップ10の死因である。 WHOはTB検診に胸部X線撮影(CXR)を推奨しているが、CXR解釈の限界は障壁である。 我々は,アフリカ,アジア,ヨーロッパ9カ国のCXRを用いて,アクティブ肺TBを検出するための深層学習システム(DLS)を訓練し,大規模CXRプレトレーニング,アテンションプール,ノイズの多い学生半教師あり学習を利用した。 1)中国,インド,米国,ザンビアにまたがる総合試験と,(2)南アフリカの独立した鉱業人口に関する評価を行った。 WHOの目標の90%の感度と70%の特異性を考慮し、DLSの運用ポイントは特異性よりも感度を優先するように予め規定された。 総合的なテストセットでは、DLSのROC曲線は9人のインド在住の放射線学者を上回り、AUCは95%CI 0.87-0.92である。 dlsの感度 (88%) は, インド系放射線科医 (75%平均感度), p<0.001よりも高く, 特異度 (79%) は放射線科医 (84%平均特異度), p=0.004。 同様の傾向はhiv陽性群とsputum smear positive sub-groups、南アフリカ試験群で見られた。 5人の米国系放射線科医(TBは内因性ではない)がインド系放射線科医(TBは内因性である)よりも敏感で特異ではないことがわかった。 dlsは米国に本拠を置く放射線科医にも不服従のままであった。 シミュレーションでは, DLSを確認試験の優先順位付けツールとして使用することにより, 確認試験単独の使用と比較して40~80%の陽性症例当たりのコストを低減した。 結論として, DLSは5か国に一般化し, 放射線技師限定環境での費用対効果スクリーニングの取り組みを支援するため, 将来的な評価が期待できる。 運用点の柔軟性により、DLSのカスタマイズは、TBの有病率、人口統計、臨床資源、慣習的な実践パターンなどのサイト固有の要因を考慮できる。

Tuberculosis (TB) is a top-10 cause of death worldwide. Though the WHO recommends chest radiographs (CXRs) for TB screening, the limited availability of CXR interpretation is a barrier. We trained a deep learning system (DLS) to detect active pulmonary TB using CXRs from 9 countries across Africa, Asia, and Europe, and utilized large-scale CXR pretraining, attention pooling, and noisy student semi-supervised learning. Evaluation was on (1) a combined test set spanning China, India, US, and Zambia, and (2) an independent mining population in South Africa. Given WHO targets of 90% sensitivity and 70% specificity, the DLS's operating point was prespecified to favor sensitivity over specificity. On the combined test set, the DLS's ROC curve was above all 9 India-based radiologists, with an AUC of 0.90 (95%CI 0.87-0.92). The DLS's sensitivity (88%) was higher than the India-based radiologists (75% mean sensitivity), p<0.001 for superiority; and its specificity (79%) was non-inferior to the radiologists (84% mean specificity), p=0.004. Similar trends were observed within HIV positive and sputum smear positive sub-groups, and in the South Africa test set. We found that 5 US-based radiologists (where TB isn't endemic) were more sensitive and less specific than the India-based radiologists (where TB is endemic). The DLS also remained non-inferior to the US-based radiologists. In simulations, using the DLS as a prioritization tool for confirmatory testing reduced the cost per positive case detected by 40-80% compared to using confirmatory testing alone. To conclude, our DLS generalized to 5 countries, and merits prospective evaluation to assist cost-effective screening efforts in radiologist-limited settings. Operating point flexibility may permit customization of the DLS to account for site-specific factors such as TB prevalence, demographics, clinical resources, and customary practice patterns.
翻訳日:2021-05-18 15:00:55 公開日:2021-05-16
# フェアネスレンズによる差分プライバシーによる意思決定

Decision Making with Differential Privacy under a Fairness Lens ( http://arxiv.org/abs/2105.07513v1 )

ライセンス: Link先を確認
Ferdinando Fioretto, Cuong Tran, Pascal Van Hentenryck(参考訳) アメリカ国勢調査局のような機関は、多くの決定プロセスの入力として使用される個人のグループに関するデータセットと統計を公表している。 プライバシーと機密性要件に従うために、これらの機関は、しばしばデータのプライバシー保存バージョンをリリースする必要がある。 本稿では,差分的プライベートデータセットのリリースについて検討し,公平性の観点から重要な資源配分タスクに与える影響を分析する。 論文は、この決定が入力を異なるプライベートデータとして取ると、プライバシーを不均等に達成するためのノイズが、一部のグループに悪影響を及ぼすことを示している。 論文は,これらの不釣り合いな影響の原因を分析し,これらの影響を軽減するためのガイドラインを提案する。 提案手法は,個別の国勢調査データを用いた臨界決定問題に基づいて評価される。

Agencies, such as the U.S. Census Bureau, release data sets and statistics about groups of individuals that are used as input to a number of critical decision processes. To conform to privacy and confidentiality requirements, these agencies are often required to release privacy-preserving versions of the data. This paper studies the release of differentially private data sets and analyzes their impact on some critical resource allocation tasks under a fairness perspective. {The paper shows that, when the decisions take as input differentially private data}, the noise added to achieve privacy disproportionately impacts some groups over others. The paper analyzes the reasons for these disproportionate impacts and proposes guidelines to mitigate these effects. The proposed approaches are evaluated on critical decision problems that use differentially private census data.
翻訳日:2021-05-18 14:58:50 公開日:2021-05-16
# 高次元クラスタデータ可視化のためのt-SNEの理論基礎

Theoretical Foundations of t-SNE for Visualizing High-Dimensional Clustered Data ( http://arxiv.org/abs/2105.07536v1 )

ライセンス: Link先を確認
T. Tony Cai and Rong Ma(参考訳) 本研究では,一般的な非線形次元低減・データ可視化手法であるt-distributed stochastic neighbor embedded(t-sne)の理論的基礎について検討する。 勾配降下法に基づく t-SNE の解析のための新しい理論的枠組みを提案する。 t-SNEの初期の誇張段階において、基礎となるグラフであるラプラシアンに基づく電力反復に対する漸近的同値性を示し、その制限挙動を特徴づけ、ラプラシアンスペクトルクラスタリングとの深い関係、および暗黙の正則化として早期停止を含む基本原理を明らかにする。 結果は,このような計算戦略の固有機構と経験的利点を説明する。 t-SNEの埋め込み段階では, 繰り返しを通して低次元写像の運動特性を特徴づけ, クラスタ間反発と低次元写像の拡張挙動を特徴とする増幅位相を同定する。 一般的な理論では、クラスタ化されたデータを視覚化するためのt-SNEの高速収束率と例外的な経験的性能を説明し、t-SNE出力の解釈をもたらし、様々なアプリケーションでチューニングパラメータを選択するための理論的ガイダンスを提供する。

This study investigates the theoretical foundations of t-distributed stochastic neighbor embedding (t-SNE), a popular nonlinear dimension reduction and data visualization method. A novel theoretical framework for the analysis of t-SNE based on the gradient descent approach is presented. For the early exaggeration stage of t-SNE, we show its asymptotic equivalence to a power iteration based on the underlying graph Laplacian, characterize its limiting behavior, and uncover its deep connection to Laplacian spectral clustering, and fundamental principles including early stopping as implicit regularization. The results explain the intrinsic mechanism and the empirical benefits of such a computational strategy. For the embedding stage of t-SNE, we characterize the kinematics of the low-dimensional map throughout the iterations, and identify an amplification phase, featuring the intercluster repulsion and the expansive behavior of the low-dimensional map. The general theory explains the fast convergence rate and the exceptional empirical performance of t-SNE for visualizing clustered data, brings forth the interpretations of the t-SNE output, and provides theoretical guidance for selecting tuning parameters in various applications.
翻訳日:2021-05-18 14:57:52 公開日:2021-05-16
# 高忠実性材料ラベル転送のための衛星画像の教師なし超解像

Unsupervised Super-Resolution of Satellite Imagery for High Fidelity Material Label Transfer ( http://arxiv.org/abs/2105.07322v1 )

ライセンス: Link先を確認
Arthita Ghosh, Max Ehrlich, Larry Davis, Rama Chellappa(参考訳) リモートセンシング画像における都市物質認識は、特に低解像度の衛星画像において、人間のアノテーションを得るのが困難であるため、非常に重要な問題である。 そこで本研究では,逆学習を用いた教師なしドメイン適応型アプローチを提案する。 我々は,少量の高解像度データ(ソースドメイン)から情報を抽出し,それを用いて低解像度画像(ターゲットドメイン)を超解くことを目的とする。 これはセマンティックや、リッチな注釈付きソースからターゲットドメインへのマテリアルラベルの転送に役立つ可能性がある。

Urban material recognition in remote sensing imagery is a highly relevant, yet extremely challenging problem due to the difficulty of obtaining human annotations, especially on low resolution satellite images. To this end, we propose an unsupervised domain adaptation based approach using adversarial learning. We aim to harvest information from smaller quantities of high resolution data (source domain) and utilize the same to super-resolve low resolution imagery (target domain). This can potentially aid in semantic as well as material label transfer from a richly annotated source to a target domain.
翻訳日:2021-05-18 14:56:43 公開日:2021-05-16
# BDANet:衛星画像による建物被害評価のための双方向注意型マルチスケール畳み込みニューラルネットワーク

BDANet: Multiscale Convolutional Neural Network with Cross-directional Attention for Building Damage Assessment from Satellite Images ( http://arxiv.org/abs/2105.07364v1 )

ライセンス: Link先を確認
Yu Shen, Sijie Zhu, Taojiannan Yang, Chen Chen, Delu Pan, Jianyu Chen, Liang Xiao, Qian Du(参考訳) 自然災害(地震、ハリケーンなど)の際には、迅速かつ効果的な対応が必要である。 ストライク 衛星画像からの損傷評価は、救援活動が展開される前に重要となる。 災害前の衛星画像と災害後の衛星画像により、建物被害評価は建物被害の程度を予測することを目的としている。 特徴表現の強力な能力により、ディープニューラルネットワークは損傷評価の構築に成功している。 既存のほとんどの研究は、相関を考慮せずにディープニューラルネットワークの入力として、単に事前イメージと後イメージを結合している。 本稿では,BDANetと呼ばれる建物被害評価のための2段階畳み込みニューラルネットワークを提案する。 最初の段階では、U-Netを使って建物の場所を抽出する。 そして、第1段階からのネットワーク重みを第2段階に分けて建物損傷評価を行う。 第2段階では、2分岐のマルチスケールu-netがバックボーンとして採用され、プリおよびポストディスタスターイメージがネットワークに別々に供給される。 先行画像と後画像の相関関係を調べるために, 双方向アテンションモジュールを提案する。 さらに、cutmixデータ拡張は難しいクラスの課題に取り組むために利用される。 提案手法は,大規模データセット-xBD上での最先端性能を実現する。 コードはhttps://github.com/ShaneShen/BDANet-Building-Damage-Assessmentで公開されている。

Fast and effective responses are required when a natural disaster (e.g., earthquake, hurricane, etc.) strikes. Building damage assessment from satellite imagery is critical before relief effort is deployed. With a pair of pre- and post-disaster satellite images, building damage assessment aims at predicting the extent of damage to buildings. With the powerful ability of feature representation, deep neural networks have been successfully applied to building damage assessment. Most existing works simply concatenate pre- and post-disaster images as input of a deep neural network without considering their correlations. In this paper, we propose a novel two-stage convolutional neural network for Building Damage Assessment, called BDANet. In the first stage, a U-Net is used to extract the locations of buildings. Then the network weights from the first stage are shared in the second stage for building damage assessment. In the second stage, a two-branch multi-scale U-Net is employed as backbone, where pre- and post-disaster images are fed into the network separately. A cross-directional attention module is proposed to explore the correlations between pre- and post-disaster images. Moreover, CutMix data augmentation is exploited to tackle the challenge of difficult classes. The proposed method achieves state-of-the-art performance on a large-scale dataset -- xBD. The code is available at https://github.com/ShaneShen/BDANet-Building-Damage-Assessment.
翻訳日:2021-05-18 14:56:34 公開日:2021-05-16
# BERTはどのように驚きましたか。 言語異常の階層的検出

How is BERT surprised? Layerwise detection of linguistic anomalies ( http://arxiv.org/abs/2105.07452v1 )

ライセンス: Link先を確認
Bai Li, Zining Zhu, Guillaume Thomas, Yang Xu, Frank Rudzicz(参考訳) トランスフォーマー言語モデルでは、単語が文脈で異常である場合の検出能力は顕著だが、確率スコアは異常の原因に関する情報を提供していない。 本研究では,3つの言語モデル(BERT,RoBERTa,XLNet)の中間層における密度推定にガウスモデルを用い,文法性判定ベンチマークであるBLiMPの評価を行った。 下層では, 副次性は低いトークン周波数に強く相関するが, この相関は上層では低下する。 次に、精神言語学的な研究から、形態素性、意味、コモンセンスの異常のデータセットを収集し、最も優れた性能モデルであるRoBERTaは、その異常が意味論的である場合よりも、それ以前の層で副次的に現れるのに対し、コモンセンスの異常は任意の中間層で副次的でないことを示す。 これらの結果は、言語モデルが異なる種類の言語異常を検出するために異なるメカニズムを用いることを示唆している。

Transformer language models have shown remarkable ability in detecting when a word is anomalous in context, but likelihood scores offer no information about the cause of the anomaly. In this work, we use Gaussian models for density estimation at intermediate layers of three language models (BERT, RoBERTa, and XLNet), and evaluate our method on BLiMP, a grammaticality judgement benchmark. In lower layers, surprisal is highly correlated to low token frequency, but this correlation diminishes in upper layers. Next, we gather datasets of morphosyntactic, semantic, and commonsense anomalies from psycholinguistic studies; we find that the best performing model RoBERTa exhibits surprisal in earlier layers when the anomaly is morphosyntactic than when it is semantic, while commonsense anomalies do not exhibit surprisal at any intermediate layer. These results suggest that language models employ separate mechanisms to detect different types of linguistic anomalies.
翻訳日:2021-05-18 14:51:35 公開日:2021-05-16
# エビデンス理論における近似エントロピーに基づく基本確率割当て積分の不確かさの測定

Uncertainty Measurement of Basic Probability Assignment Integrity Based on Approximate Entropy in Evidence Theory ( http://arxiv.org/abs/2105.07382v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Yuanpeng He, Hanwen Li, Fuyuan Xiao(参考訳) 証拠理論は、確率の延長は未知や不正確な情報にうまく対処できるというものである。 不確かさの測定は証拠理論と確率理論の両方において重要な役割を果たす。 近似エントロピー (ApEn) は、複素系の不規則性を記述するためにピンカスによって提案されている。 時系列が不規則であればあるほど、近似エントロピーは大きくなる。 ネットワークのApEnは、ネットワークが新しいノードを生成する能力、または未発見ノードの可能性を表す。 ネットワーク特性と基本確率割当(BPA)の関連付けにより、完全性に関するBPAの不確実性の尺度を得ることができる。 論文の主な貢献は、基本確率割り当ての完全性を定義することであり、BPAの近似エントロピーは、BPAの完全性の不確実性を測定するために提案される。 提案手法は,証拠理論におけるBPAの不確実性を計算するための論理ネットワーク構造に基づく。 提案手法に基づく不確実性は,BPAの完全性の不確実性を表し,BPAの信頼性の同定に寄与する。

Evidence theory is that the extension of probability can better deal with unknowns and inaccurate information. Uncertainty measurement plays a vital role in both evidence theory and probability theory. Approximate Entropy (ApEn) is proposed by Pincus to describe the irregularities of complex systems. The more irregular the time series, the greater the approximate entropy. The ApEn of the network represents the ability of a network to generate new nodes, or the possibility of undiscovered nodes. Through the association of network characteristics and basic probability assignment (BPA) , a measure of the uncertainty of BPA regarding completeness can be obtained. The main contribution of paper is to define the integrity of the basic probability assignment then the approximate entropy of the BPA is proposed to measure the uncertainty of the integrity of the BPA. The proposed method is based on the logical network structure to calculate the uncertainty of BPA in evidence theory. The uncertainty based on the proposed method represents the uncertainty of integrity of BPA and contributes to the identification of the credibility of BPA.
翻訳日:2021-05-18 14:50:03 公開日:2021-05-16
# 咬合者再同定のための近隣誘導型特徴再建

Neighbourhood-guided Feature Reconstruction for Occluded Person Re-Identification ( http://arxiv.org/abs/2105.07345v1 )

ライセンス: Link先を確認
Shijie Yu and Dapeng Chen and Rui Zhao and Haobin Chen and Yu Qiao(参考訳) 監視カメラが捉えた人物画像は、しばしば様々な障害物によって遮蔽され、欠陥のある特徴表現と人体再識別(Re-ID)のパフォーマンスを損なう。 この課題に対処するために, ギャラリー画像セットにおいて, 周辺地域の情報をフル活用して, 隠蔽部品の特徴表現を再構築することを提案する。 具体的には、まず、人物画像ごとにボディマスクによる可視部分ベースの特徴を導入する。 次に, 周辺サンプルを可視的特徴を用いて識別し, 周辺サンプルを全て入力として外乱除去可能なグラフニューラルネットワークを用いて全身の表現を再構築する。 広範な実験により,提案手法は大幅な改善が得られた。 大規模 Occluded-DukeMTMC ベンチマークでは,64.2% mAP と67.6% のランク-1 の精度を達成し,それぞれの手法が Occluded Re-ID 問題に対する有効性を示す。

Person images captured by surveillance cameras are often occluded by various obstacles, which lead to defective feature representation and harm person re-identification (Re-ID) performance. To tackle this challenge, we propose to reconstruct the feature representation of occluded parts by fully exploiting the information of its neighborhood in a gallery image set. Specifically, we first introduce a visible part-based feature by body mask for each person image. Then we identify its neighboring samples using the visible features and reconstruct the representation of the full body by an outlier-removable graph neural network with all the neighboring samples as input. Extensive experiments show that the proposed approach obtains significant improvements. In the large-scale Occluded-DukeMTMC benchmark, our approach achieves 64.2% mAP and 67.6% rank-1 accuracy which outperforms the state-of-the-art approaches by large margins, i.e.,20.4% and 12.5%, respectively, indicating the effectiveness of our method on occluded Re-ID problem.
翻訳日:2021-05-18 14:47:40 公開日:2021-05-16
# ゼロショット画像検索のための視覚意味埋め込み法の検討

Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval ( http://arxiv.org/abs/2105.07391v1 )

ライセンス: Link先を確認
Kazuya Ueki(参考訳) 視覚-意味的埋め込みは、視覚質問応答(vqa)、画像テキスト検索、画像キャプション、シーングラフ生成などの様々なタスクに有用であるため、興味深い研究テーマである。 本稿では,文をクエリとして用いたゼロショット画像検索に着目し,この分野の技術動向に関する調査を行う。 まず、画像とテキストのマッチングに関する初期の研究と、この技術が時間とともにどのように進化してきたかについての議論から、技術の歴史を包括的に概観する。 さらに,実験で一般的に使用されるデータセットの記述と,各手法の評価結果の比較を行った。 また,実験の精度確認やさらなる改善のためにgithubで利用可能な実装についても紹介する。 この調査論文が、画像や言語をブリッジする研究をさらに発展させることを期待している。

Visual-semantic embedding is an interesting research topic because it is useful for various tasks, such as visual question answering (VQA), image-text retrieval, image captioning, and scene graph generation. In this paper, we focus on zero-shot image retrieval using sentences as queries and present a survey of the technological trends in this area. First, we provide a comprehensive overview of the history of the technology, starting with a discussion of the early studies of image-to-text matching and how the technology has evolved over time. In addition, a description of the datasets commonly used in experiments and a comparison of the evaluation results of each method are presented. We also introduce the implementation available on github for use in confirming the accuracy of experiments and for further improvement. We hope that this survey paper will encourage researchers to further develop their research on bridging images and languages.
翻訳日:2021-05-18 14:47:19 公開日:2021-05-16
# 画像サイズは重要か? マルチスケールセル画像分類タスクにおける深層学習手法のロバスト性比較:畳み込みニューラルネットワークから視覚変換器へ

Is Image Size Important? A Robustness Comparison of Deep Learning Methods for Multi-scale Cell Image Classification Tasks: from Convolutional Neural Networks to Visual Transformers ( http://arxiv.org/abs/2105.07402v1 )

ライセンス: Link先を確認
Wanli Liu, Chen Li, Hongzan Sun, Weiming Hu, Haoyuan Chen, Changhao Sun, Marcin Grzegorzek(参考訳) 子宮頸癌は女性にとって非常に一般的で致命的ながんであるが、早期検査や治療によって予防することができる。 細胞病理画像はがんのスクリーニングによく用いられる。 そこで,本手法の多用による人工的誤りの可能性から,深層学習に基づくコンピュータ支援診断システムを開発した。 深層学習法で求められる画像入力は通常一貫性があるが,臨床医用画像のサイズは一致しない。 画像のリサイズ後に内部情報が失われるので、不合理である。 多くの研究は、画像を直接サイズ変更することであり、結果はまだ堅牢である。 合理的な説明を得るために、22のディープラーニングモデルを用いて異なるスケールの画像を処理し、SIPaKMeDデータセット上で実験を行う。 その結果,深層学習法は画像のサイズ変化に対して非常に頑健であることがわかった。 この結論はHerlevデータセットでも検証されている。

Cervical cancer is a very common and fatal cancer in women, but it can be prevented through early examination and treatment. Cytopathology images are often used to screen for cancer. Then, because of the possibility of artificial errors due to the large number of this method, the computer-aided diagnosis system based on deep learning is developed. The image input required by the deep learning method is usually consistent, but the size of the clinical medical image is inconsistent. The internal information is lost after resizing the image directly, so it is unreasonable. A lot of research is to directly resize the image, and the results are still robust. In order to find a reasonable explanation, 22 deep learning models are used to process images of different scales, and experiments are conducted on the SIPaKMeD dataset. The conclusion is that the deep learning method is very robust to the size changes of images. This conclusion is also validated on the Herlev dataset.
翻訳日:2021-05-18 14:47:06 公開日:2021-05-16
# multisports: 時空間的局所化スポーツ行動のマルチパーソンビデオデータセット

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions ( http://arxiv.org/abs/2105.07404v1 )

ライセンス: Link先を確認
Yixuan Li, Lei Chen, Runyu He, Zhenzhi Wang, Gangshan Wu, Limin Wang(参考訳) 時空間行動検出はビデオ理解において重要かつ困難な問題である。 既存のアクション検出ベンチマークは、トリミングされたビデオや比較的低レベルのアトミックアクションの少数のインスタンスの側面で制限されている。 本稿では, 時空間的局所化スポーツ行動の多人数データセットを, マルチスポーツとして提案する。 我々はまず,(1)動き依存識別,(2)境界が明確に定義された,(3)比較的高レベルな3つの基準を提案することによって,時空間行動検出のための現実的で挑戦的なデータセットを構築する重要な要素を分析する。 これらのガイドラインに基づいて,4つのスポーツクラスを選択し,約3200のビデオクリップを収集し,約37790のアクションインスタンスに907kバウンドボックスをアノテートすることにより,マルチスポーツv1.0のデータセットを構築する。 我々のデータセットは、強力な多様性、詳細なアノテーション、高品質の点で特徴付けられる。 リアルな設定と密集したアノテーションを備えたマルチスポーツは、アクションローカライズという本質的な課題を露呈しています。 これを評価するために、データセットにいくつかの代表的手法を適用し、データセットにおけるアクションローカライゼーションの難しさを詳細に分析する。 我々のMultiSportsが将来、時空間行動検出の標準ベンチマークとして機能することを願っている。 データセットのWebサイトはhttps://deeperaction.github.io/multisports/にあります。

Spatio-temporal action detection is an important and challenging problem in video understanding. The existing action detection benchmarks are limited in aspects of small numbers of instances in a trimmed video or relatively low-level atomic actions. This paper aims to present a new multi-person dataset of spatio-temporal localized sports actions, coined as MultiSports. We first analyze the important ingredients of constructing a realistic and challenging dataset for spatio-temporal action detection by proposing three criteria: (1) motion dependent identification, (2) with well-defined boundaries, (3) relatively high-level classes. Based on these guidelines, we build the dataset of Multi-Sports v1.0 by selecting 4 sports classes, collecting around 3200 video clips, and annotating around 37790 action instances with 907k bounding boxes. Our datasets are characterized with important properties of strong diversity, detailed annotation, and high quality. Our MultiSports, with its realistic setting and dense annotations, exposes the intrinsic challenge of action localization. To benchmark this, we adapt several representative methods to our dataset and give an in-depth analysis on the difficulty of action localization in our dataset. We hope our MultiSports can serve as a standard benchmark for spatio-temporal action detection in the future. Our dataset website is at https://deeperaction.github.io/multisports/.
翻訳日:2021-05-18 14:46:51 公開日:2021-05-16
# 野生における映像に基づく視覚的感情認識のための文脈的アプローチによるセマンティックシーン特性とマルチストリーム畳み込みアーキテクチャの活用

Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild ( http://arxiv.org/abs/2105.07484v1 )

ライセンス: Link先を確認
Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos(参考訳) 本研究では,野生における映像に基づく視覚的感情認識の課題に取り組む。 身体と顔の特徴の抽出のみに依存する標準的な方法論は、頭/身体の向き、解像度の低さ、照明の低さなどにより、前述の感情情報の源に到達できない場合、正確な感情予測に不足することが多い。 我々は、より広い感情認識フレームワークの一部として、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。 時間セグメントネットワーク(TSN)は,提案モデルのバックボーンを構成する。 RGB入力のモダリティとは別に、より効率的な動作符号化のための直感的なマルチストリームアプローチに従って、高密度光フローを利用する。 さらに,感情認識のための空間-時間グラフ畳み込みネットワーク(st-gcn)を事前学習する手段として,スケルトンベース学習に注目を移し,行動中心データを活用する。 ボディーランゲージデータセット(BoLD)に関する広範な実験により、既存のアプローチよりもメソッドの優位性を検証するとともに、上記の全てのモジュールをネットワークアンサンブルに適切に組み込むことで、これまでで最も優れた認識スコアを大きなマージンで達成することに成功した。

In this work we tackle the task of video-based visual emotion recognition in the wild. Standard methodologies that rely solely on the extraction of bodily and facial features often fall short of accurate emotion prediction in cases where the aforementioned sources of affective information are inaccessible due to head/body orientation, low resolution and poor illumination. We aspire to alleviate this problem by leveraging visual context in the form of scene characteristics and attributes, as part of a broader emotion recognition framework. Temporal Segment Networks (TSN) constitute the backbone of our proposed model. Apart from the RGB input modality, we make use of dense Optical Flow, following an intuitive multi-stream approach for a more effective encoding of motion. Furthermore, we shift our attention towards skeleton-based learning and leverage action-centric data as means of pre-training a Spatial-Temporal Graph Convolutional Network (ST-GCN) for the task of emotion recognition. Our extensive experiments on the challenging Body Language Dataset (BoLD) verify the superiority of our methods over existing approaches, while by properly incorporating all of the aforementioned modules in a network ensemble, we manage to surpass the previous best published recognition scores, by a large margin.
翻訳日:2021-05-18 14:46:30 公開日:2021-05-16
# カメラによる呼吸運動抽出のアルゴリズム原理

Algorithmic Principles of Camera-based Respiratory Motion Extraction ( http://arxiv.org/abs/2105.07537v1 )

ライセンス: Link先を確認
Wenjin Wang, Albertus C. den Brinker(参考訳) 身体運動に基づく映像からの呼吸信号の測定が提案され,近年,ビデオヘルスモニタリング製品が成熟している。 この測定の核となるアルゴリズムは、呼吸によって引き起こされる小さな胸・腹部運動の推定であり、基本的な課題は運動感度である。 先行技術は実際の被験者による検証を報告しているが、動画フレーム間のサブピクセル変位を測定するモーションベースコア呼吸アルゴリズムの感度と境界条件を定量化するための徹底的・厳密なベンチマークは存在しない。 本稿では,2つの動作推定戦略と3つの空間表現を組み込んだ数学的モデルとともに,コアアルゴリズムの本質を解明する,完全制御可能な物理ファントムを用いたセットアップを設計し,呼吸信号抽出のための6つのアルゴリズムの組み合わせを導出した。 彼らの約束と制限はファントムベンチマークを通じて議論され、明確化されます。 本研究で得られた知見は、健康モニタリングにおけるカメラによる呼吸測定の理解と応用を改善することを目的としている。

Measuring the respiratory signal from a video based on body motion has been proposed and recently matured in products for video health monitoring. The core algorithm for this measurement is the estimation of tiny chest/abdominal motions induced by respiration, and the fundamental challenge is motion sensitivity. Though prior arts reported on the validation with real human subjects, there is no thorough/rigorous benchmark to quantify the sensitivities and boundary conditions of motion-based core respiratory algorithms that measure sub-pixel displacement between video frames. In this paper, we designed a setup with a fully-controllable physical phantom to investigate the essence of core algorithms, together with a mathematical model incorporating two motion estimation strategies and three spatial representations, leading to six algorithmic combinations for respiratory signal extraction. Their promises and limitations are discussed and clarified via the phantom benchmark. The insights gained in this paper are intended to improve the understanding and applications of camera-based respiration measurement in health monitoring.
翻訳日:2021-05-18 14:46:07 公開日:2021-05-16
# ccmn : クラス条件付きマルチラベル雑音学習のための汎用フレームワーク

CCMN: A General Framework for Learning with Class-Conditional Multi-Label Noise ( http://arxiv.org/abs/2105.07338v1 )

ライセンス: Link先を確認
Ming-Kun Xie and Sheng-Jun Huang(参考訳) クラス条件ノイズは一般的に機械学習タスクに存在し、クラスラベルは基底値に応じて確率で破壊される。 クラス条件雑音に対するモデルのロバスト性を改善するための研究が数多く行われている。 しかし、通常は単一のラベルケースに焦点を合わせ、1つのラベルだけが破損していると仮定する。 実アプリケーションでは、インスタンスは通常複数のラベルに関連付けられ、それぞれの条件確率と同時に破損する可能性がある。 本稿では,この問題をCCMN(Class-Conditional Multi-label Noise)を用いた学習の一般的な枠組みとして定式化する。 我々は,ccmn問題を解くための誤差境界付き非バイアス推定器を2つ確立し,これらが一般に用いられるマルチラベル損失関数と整合性があることをさらに証明した。 最後に,ccmnの枠組みにより,非偏差推定器を用いて部分的マルチラベル学習を行う新しい手法を実装した。 複数のデータセットと各種評価指標に関する実証研究により,提案手法の有効性が検証された。

Class-conditional noise commonly exists in machine learning tasks, where the class label is corrupted with a probability depending on its ground-truth. Many research efforts have been made to improve the model robustness against the class-conditional noise. However, they typically focus on the single label case by assuming that only one label is corrupted. In real applications, an instance is usually associated with multiple labels, which could be corrupted simultaneously with their respective conditional probabilities. In this paper, we formalize this problem as a general framework of learning with Class-Conditional Multi-label Noise (CCMN for short). We establish two unbiased estimators with error bounds for solving the CCMN problems, and further prove that they are consistent with commonly used multi-label loss functions. Finally, a new method for partial multi-label learning is implemented with unbiased estimator under the CCMN framework. Empirical studies on multiple datasets and various evaluation metrics validate the effectiveness of the proposed method.
翻訳日:2021-05-18 14:39:39 公開日:2021-05-16
# 前立腺MRI超解像のためのカプセルガン

Capsule GAN for Prostate MRI Super-Resolution ( http://arxiv.org/abs/2105.07495v1 )

ライセンス: Link先を確認
Mahdiyar Molahasani Majdabadi and S. Deivalakshmi and Seokbum Ko(参考訳) 前立腺癌は成人男性によく見られる疾患である。 カナダ人男性7人に1人がこのがんと診断された。 スーパーレゾリューション(sr)は早期診断を容易にし、多くの命を救える。 本稿では,前立腺MRI SRに対して頑健で正確なモデルを提案する。 このモデルは Prostate-Diagnosis と PROSTATEx データセットに基づいてトレーニングされている。 提案モデルでは,有意なマージンを持つすべての類似度指標において,最先端のプレステートSRモデルよりも優れていた。 新しいタスク固有の類似性評価も導入されている。 重度癌検出のために分類器を訓練し、高分解能画像を扱う際のこのモデルの精度の低下をsrモデルの医療的詳細化能力の評価に利用する。 提案したSRモデルは、効率的で正確な一般医療SRプラットフォームに向けたステップである。

Prostate cancer is a very common disease among adult men. One in seven Canadian men is diagnosed with this cancer in their lifetime. Super-Resolution (SR) can facilitate early diagnosis and potentially save many lives. In this paper, a robust and accurate model is proposed for prostate MRI SR. The model is trained on the Prostate-Diagnosis and PROSTATEx datasets. The proposed model outperformed the state-of-the-art prostate SR model in all similarity metrics with notable margins. A new task-specific similarity assessment is introduced as well. A classifier is trained for severe cancer detection and the drop in the accuracy of this model when dealing with super-resolved images is used for evaluating the ability of medical detail reconstruction of the SR models. The proposed SR model is a step towards an efficient and accurate general medical SR platform.
翻訳日:2021-05-18 14:39:25 公開日:2021-05-16
# フレア予測のための合成多変量時系列生成に向けて

Towards Synthetic Multivariate Time Series Generation for Flare Forecasting ( http://arxiv.org/abs/2105.07532v1 )

ライセンス: Link先を確認
Yang Chen, Dustin J. Kempton, Azim Ahmadzadeh and Rafal A. Angryk(参考訳) データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、興味のあるイベントの不足がデータの極端な不均衡をもたらすことである。 アンダーサンプリングとオーバーサンプリングによる単純なデータ操作、コスト感受性学習アルゴリズムの利用、あるいは既存のデータの配布に続く合成データポイントの生成など、この問題を克服するための多くの方法が文献で紹介されている。 近年, 合成データ生成は注目されているが, 多変量時系列などの高次元データに対しては, 真の課題がある。 本研究では,多変量時系列の大規模データセットのバランスをとるために,データインフォームオーバーサンプリングを行う手段として条件付き生成逆ネットワーク(cgan)の有用性を検討する。 SWAN-SFと呼ばれるフレア予測ベンチマークデータセットを用いて,生成したマイノリティと接地トラストの類似性を定量的かつ質的に評価する2つの検証手法を設計する。 さらに, 古典的教師付き機械学習アルゴリズムを合成データに訓練し, 実データを用いた学習モデルをテストすることにより, 生成したサンプルの品質を評価する。 その結果, 合成多変量時系列で強化したデータに基づいて訓練した分類器は, 増大しない場合に比べ, 大幅な改善が得られた。 一般的なフレア予測評価指標であるTSSとSSは,それぞれ20倍と5倍の改善を報告し,その顕著な統計的類似点と,フレア予測などの複雑なタスクに対するCGANベースのデータ生成の有用性を示した。

One of the limiting factors in training data-driven, rare-event prediction algorithms is the scarcity of the events of interest resulting in an extreme imbalance in the data. There have been many methods introduced in the literature for overcoming this issue; simple data manipulation through undersampling and oversampling, utilizing cost-sensitive learning algorithms, or by generating synthetic data points following the distribution of the existing data. While synthetic data generation has recently received a great deal of attention, there are real challenges involved in doing so for high-dimensional data such as multivariate time series. In this study, we explore the usefulness of the conditional generative adversarial network (CGAN) as a means to perform data-informed oversampling in order to balance a large dataset of multivariate time series. We utilize a flare forecasting benchmark dataset, named SWAN-SF, and design two verification methods to both quantitatively and qualitatively evaluate the similarity between the generated minority and the ground-truth samples. We further assess the quality of the generated samples by training a classical, supervised machine learning algorithm on synthetic data, and testing the trained model on the unseen, real data. The results show that the classifier trained on the data augmented with the synthetic multivariate time series achieves a significant improvement compared with the case where no augmentation is used. The popular flare forecasting evaluation metrics, TSS and HSS, report 20-fold and 5-fold improvements, respectively, indicating the remarkable statistical similarities, and the usefulness of CGAN-based data generation for complicated tasks such as flare forecasting.
翻訳日:2021-05-18 14:39:15 公開日:2021-05-16
# ロボットドリンク注ぐための説明可能な階層的模倣学習

Explainable Hierarchical Imitation Learning for Robotic Drink Pouring ( http://arxiv.org/abs/2105.07348v1 )

ライセンス: Link先を確認
Dandan Zhang, Yu Zheng, Qiang Li, Lei Wei, Dongsheng Zhang, Zhengyou Zhang(参考訳) さまざまな容器に飲み物を正確に注ぐことは、サービスロボットにとって必須の技術である。 しかし、飲み物を注ぐことはダイナミックなプロセスであり、モデル化が難しい。 自律型ロボットインダクションを実装するための従来の深い模倣学習技術は、固有のブラックボックス効果を持ち、モデルトレーニングに大量の実演データを必要とする。 そこで,本稿では,ロボットが高水準の一般知識を学習し,複数のドリンク注水シナリオで低レベルな行動を行うように,説明可能な階層的模倣学習(ehil)手法を提案する。 さらに、ehilを用いてタスク実行のための論理グラフを構築し、ユーザに対してアクション生成の意思決定プロセスを説明可能にし、失敗の原因を突き止めることができる。 論理グラフに基づいて、フレームワークは異なる目標を達成するために操作可能であり、見えないシナリオへの適応性は説明可能な方法で達成できる。 提案手法の有効性を検証するため,いくつかの実験を行った。 その結果, ehilは, 成功率, 適応性, マニピュラビリティ, 説明可能性の観点から, 従来の行動クローニング法よりも優れていた。

To accurately pour drinks into various containers is an essential skill for service robots. However, drink pouring is a dynamic process and difficult to model. Traditional deep imitation learning techniques for implementing autonomous robotic pouring have an inherent black-box effect and require a large amount of demonstration data for model training. To address these issues, an Explainable Hierarchical Imitation Learning (EHIL) method is proposed in this paper such that a robot can learn high-level general knowledge and execute low-level actions across multiple drink pouring scenarios. Moreover, with EHIL, a logical graph can be constructed for task execution, through which the decision-making process for action generation can be made explainable to users and the causes of failure can be traced out. Based on the logical graph, the framework is manipulable to achieve different targets while the adaptability to unseen scenarios can be achieved in an explainable manner. A series of experiments have been conducted to verify the effectiveness of the proposed method. Results indicate that EHIL outperforms the traditional behavior cloning method in terms of success rate, adaptability, manipulability and explainability.
翻訳日:2021-05-18 14:37:20 公開日:2021-05-16
# ベイズ更新における順序効果

Order Effects in Bayesian Updates ( http://arxiv.org/abs/2105.07354v1 )

ライセンス: Link先を確認
Catarina Moreira and Jose Acacio de Barros(参考訳) 順序効果は、情報列が与えられた仮説の確率に関する判断が、情報の反転時に同じ仮説の確率と等しくないときに起こる。 順序効果の証拠を裏付ける様々な実験が文献で実施されている。 我々は,各質問を,回答者が信念を反映したミニ実験と考えることができる順序効果のベイズ更新モデルを提案した。 その結果,2つの質問が相関しているという,応答者の事前の信念という,単純な認知的説明が得られた。 提案したベイズモデルでは,(1)順序効果の存在を制限する先行条件,(2)モデルに対して,QQの等式が必ずしも満たされていないこと(対称性仮定による),(3)提案したベイズモデルは,その量子効果よりも少ないパラメータを持つという利点があることを示す。

Order effects occur when judgments about a hypothesis's probability given a sequence of information do not equal the probability of the same hypothesis when the information is reversed. Different experiments have been performed in the literature that supports evidence of order effects. We proposed a Bayesian update model for order effects where each question can be thought of as a mini-experiment where the respondents reflect on their beliefs. We showed that order effects appear, and they have a simple cognitive explanation: the respondent's prior belief that two questions are correlated. The proposed Bayesian model allows us to make several predictions: (1) we found certain conditions on the priors that limit the existence of order effects; (2) we show that, for our model, the QQ equality is not necessarily satisfied (due to symmetry assumptions); and (3) the proposed Bayesian model has the advantage of possessing fewer parameters than its quantum counterpart.
翻訳日:2021-05-18 14:37:03 公開日:2021-05-16
# Set2setRank: インシシットフィードバックベースのレコメンデーションのためにランキングを設定する共同セット

Set2setRank: Collaborative Set to Set Ranking for Implicit Feedback based Recommendation ( http://arxiv.org/abs/2105.07377v1 )

ライセンス: Link先を確認
Lei Chen, Le Wu, Kun Zhang, Richang Hong, Meng Wang(参考訳) ユーザーは、アイテムのクリックや商品の購入など、二進的行動データ~(単純なフィードバック)で好みを表現することが多いため、暗黙的なフィードバックベースの協調フィルタリング~(CF)モデルは、暗黙的なユーザとイテムのインタラクションデータを活用することで、ユーザーが好む上位のアイテムを予測する。 各ユーザに対して、暗黙的なフィードバックは、観察された行動に制限のある観察項目セットと、否定的な行動と未知の行動に混ざった大きな未観測項目セットの2つのセットに分けられる。 ユーザの選好予測モデルを考えると、研究者はランキングベースの最適化目標を設計するか、より優れた最適化のためにネガティブなアイテムマイニング技術に依存した。 これらの暗黙的なフィードバックベースモデルの性能向上にもかかわらず、各ユーザ毎の観測項目の間隔のため、推奨結果はまだまだ満足できない。 そこで本稿では,暗黙的なフィードバックの特徴を考察し,推薦のためのset2setrankフレームワークを提案する。 set2setrankの最適化基準は2つの折りたたみ式である: まず、観測された集合から観測された各項目を推奨する項目セット比較の項目を、サンプリングされた非観測集合から得られた非観測項目よりも上位に設計する。 第2に、観測項目集合から要約された距離と、サンプリングされた負集合から最も「硬い」観測されていない項目との差を緩和するセットレベル比較をモデル化する。 さらに,これら2つの目標を実現するために適応サンプリング手法を考案した。 提案するフレームワークはモデルに依存しず、ほとんどの推奨予測アプローチに容易に適用でき、実際は時間効率が良いことに留意する必要がある。 最後に、3つの実世界のデータセットに対する広範な実験により、提案手法の優位性を実証した。

As users often express their preferences with binary behavior data~(implicit feedback), such as clicking items or buying products, implicit feedback based Collaborative Filtering~(CF) models predict the top ranked items a user might like by leveraging implicit user-item interaction data. For each user, the implicit feedback is divided into two sets: an observed item set with limited observed behaviors, and a large unobserved item set that is mixed with negative item behaviors and unknown behaviors. Given any user preference prediction model, researchers either designed ranking based optimization goals or relied on negative item mining techniques for better optimization. Despite the performance gain of these implicit feedback based models, the recommendation results are still far from satisfactory due to the sparsity of the observed item set for each user. To this end, in this paper, we explore the unique characteristics of the implicit feedback and propose Set2setRank framework for recommendation. The optimization criteria of Set2setRank are two folds: First, we design an item to an item set comparison that encourages each observed item from the sampled observed set is ranked higher than any unobserved item from the sampled unobserved set. Second, we model set level comparison that encourages a margin between the distance summarized from the observed item set and the most "hard" unobserved item from the sampled negative set. Further, an adaptive sampling technique is designed to implement these two goals. We have to note that our proposed framework is model-agnostic and can be easily applied to most recommendation prediction approaches, and is time efficient in practice. Finally, extensive experiments on three real-world datasets demonstrate the superiority of our proposed approach.
翻訳日:2021-05-18 14:36:49 公開日:2021-05-16
# 新型コロナウイルス(covid-19)パンデミックを考慮した病院の資源計画--最適化と感度分析

Resource Planning for Hospitals Under Special Consideration of the COVID-19 Pandemic: Optimization and Sensitivity Analysis ( http://arxiv.org/abs/2105.07420v1 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein, Marcel Dr\"oscher, Alpar G\"ur, Alexander Hinterleitner, Olaf Mersmann, Dessislava Peeva, Lennard Reese, Nicolas Rehbach, Frederik Rehbach, Amrita Sen, Aleksandr Subbotin, Martin Zaefferer(参考訳) 新型コロナウイルス(covid-19)パンデミックのような危機は、医療機関にとって深刻な課題となる。 病院のベッドや換気器など、負荷の増加に対処するために必要なリソースを計画する必要がある。 ケルン地域の地方保健機関の資源計画を支援するため,個別イベントシミュレーションに基づく容量計画ツールBaBSim.Hospitalを開発した。 シミュレーションの予測品質は29のパラメータによって決定される。 これらのパラメータの既定値は、医療専門家との詳細な議論で得られた。 BaBSim.Hospitalを改善するためにこれらのパラメータを調査し最適化することを目指している。 最適化アルゴリズムを使った最初のアプローチは失敗した。 surrogateベースの最適化アプローチの実装は、合理的な時間で有用な結果を生み出した。 アルゴリズムの挙動を把握し,フィットネス環境に関する貴重な洞察を得るために,詳細な感度分析を行った。 感度解析は、最も重要なパラメータに最適化を集中させることができるため、最適化プロセスに不可欠である。 結果の精度を損なうことなく問題次元を小さくする方法を述べる。 提案手法は,ラストマイルをカバーする新しいエレベータシステムの開発や,学業期間における学生フローのシミュレーションなど,実世界の多くの問題に適用できる。

Crises like the COVID-19 pandemic pose a serious challenge to health-care institutions. They need to plan the resources required for handling the increased load, for instance, hospital beds and ventilators. To support the resource planning of local health authorities from the Cologne region, BaBSim.Hospital, a tool for capacity planning based on discrete event simulation, was created. The predictive quality of the simulation is determined by 29 parameters. Reasonable default values of these parameters were obtained in detailed discussions with medical professionals. We aim to investigate and optimize these parameters to improve BaBSim.Hospital. First approaches with "out-of-the-box" optimization algorithms failed. Implementing a surrogate-based optimization approach generated useful results in a reasonable time. To understand the behavior of the algorithm and to get valuable insights into the fitness landscape, an in-depth sensitivity analysis was performed. The sensitivity analysis is crucial for the optimization process because it allows focusing the optimization on the most important parameters. We illustrate how this reduces the problem dimension without compromising the resulting accuracy. The presented approach is applicable to many other real-world problems, e.g., the development of new elevator systems to cover the last mile or simulation of student flow in academic study periods.
翻訳日:2021-05-18 14:36:18 公開日:2021-05-16
# DRAS-CQSim:HPCクラスタスケジューリングのための強化学習ベースのフレームワーク

DRAS-CQSim: A Reinforcement Learning based Framework for HPC Cluster Scheduling ( http://arxiv.org/abs/2105.07526v1 )

ライセンス: Link先を確認
Yuping Fan and Zhiling Lan(参考訳) システム管理者は、ハイパフォーマンスコンピューティング(HPC)システムの性能を改善するために、クラスタスケジューリングポリシーの設計とチューニングに努めてきた。 しかし、ますます複雑なHPCシステムと非常に多様なワークロードが組み合わさって、このような手動のプロセスは困難で、時間がかかり、エラーが発生しやすい。 DRAS-CQSimと呼ばれる強化学習に基づくHPCスケジューリングフレームワークを提案し、最適なスケジューリングポリシーを自動的に学習する。 DRAS-CQSimはシミュレーション環境、エージェント、ハイパーパラメータチューニングオプション、および異なる強化学習アルゴリズムをカプセル化し、システム管理者は迅速にカスタマイズされたスケジューリングポリシーを取得できる。

For decades, system administrators have been striving to design and tune cluster scheduling policies to improve the performance of high performance computing (HPC) systems. However, the increasingly complex HPC systems combined with highly diverse workloads make such manual process challenging, time-consuming, and error-prone. We present a reinforcement learning based HPC scheduling framework named DRAS-CQSim to automatically learn optimal scheduling policy. DRAS-CQSim encapsulates simulation environments, agents, hyperparameter tuning options, and different reinforcement learning algorithms, which allows the system administrators to quickly obtain customized scheduling policies.
翻訳日:2021-05-18 14:36:02 公開日:2021-05-16
# IWSLT 2021のためのVolctransニューラル音声翻訳システム

The Volctrans Neural Speech Translation System for IWSLT 2021 ( http://arxiv.org/abs/2105.07319v1 )

ライセンス: Link先を確認
Chengqi Zhao and Zhicheng Liu and Jian Tong and Tao Wang and Mingxuan Wang and Rong Ye and Qianqian Dong and Jun Cao and Lei Li(参考訳) 本稿では,Volctrans チームが IWSLT 2021 に提出したシステムについて述べる。 オフライン音声翻訳とテキストからテキストへの同時翻訳に参画する。 オフライン音声翻訳では、MST-Cテストセットのベンチマークよりも8.1BLEUの改善を実現し、強力なカスケードソリューションの結果に近づいている。 テキスト間同時翻訳では,wait-kモデルを最適化する最善の方法を検討する。 その結果、最終提出されたシステムは、同じレイテンシーで約7 BLEUのベンチマークを上回った。 今後の研究作業と産業応用を促進するため、コードとモデルを公開します。

This paper describes the systems submitted to IWSLT 2021 by the Volctrans team. We participate in the offline speech translation and text-to-text simultaneous translation tracks. For offline speech translation, our best end-to-end model achieves 8.1 BLEU improvements over the benchmark on the MuST-C test set and is even approaching the results of a strong cascade solution. For text-to-text simultaneous translation, we explore the best practice to optimize the wait-k model. As a result, our final submitted systems exceed the benchmark at around 7 BLEU on the same latency regime. We will publish our code and model to facilitate both future research works and industrial applications.
翻訳日:2021-05-18 14:34:35 公開日:2021-05-16
# LocalNewton: 分散学習のための通信基盤の削減

LocalNewton: Reducing Communication Bottleneck for Distributed Learning ( http://arxiv.org/abs/2105.07320v1 )

ライセンス: Link先を確認
Vipul Gupta, Avishek Ghosh, Michal Derezinski, Rajiv Khanna, Kannan Ramchandran, Michael Mahoney(参考訳) マスタ-ワーカー・フレームワークにおける分散最適化における通信ボトルネック問題に対処するため,ローカル平均化を用いた分散2次アルゴリズムであるLocalNewtonを提案する。 LocalNewtonでは、ワーカマシンが各イテレーションでモデルを更新し、自身のローカルメモリに格納されているデータとモデルのみを使用して適切な2階降下方向を見つける。 ワーカがこのようなイテレーションを複数ローカルに実行して,数回(例えばl)のイテレーションでのみ,マスタノードにモデルを伝えるようにしています。 LocalNewtonは非常に実用的であり、1つのハイパーパラメータ、ローカルイテレーションの数 Lしか必要としない。 我々は,新しいマトリックス濃度に基づく手法を用いて局所ニュートンの理論的保証を行い,詳細な実験評価を行った。 実用性を高めるため,Lを選択する適応型スキームを考案し,トレーニングが進むにつれて2つのモデル同期間の作業機械の局所的なイテレーション数を削減し,マスタのモデル品質を連続的に改善することを示した。 AWS LambdaのワーカとAWS EC2のマスタを使って、複数の実世界のデータセットを使用して広範な実験を行った結果、LocalNewtonでは、通信ラウンド(マスタとワーカ)の60%未満と、最先端のアルゴリズムと比較して、エンドツーエンドの実行時間の40%未満を必要としていることがわかった。

To address the communication bottleneck problem in distributed optimization within a master-worker framework, we propose LocalNewton, a distributed second-order algorithm with local averaging. In LocalNewton, the worker machines update their model in every iteration by finding a suitable second-order descent direction using only the data and model stored in their own local memory. We let the workers run multiple such iterations locally and communicate the models to the master node only once every few (say L) iterations. LocalNewton is highly practical since it requires only one hyperparameter, the number L of local iterations. We use novel matrix concentration-based techniques to obtain theoretical guarantees for LocalNewton, and we validate them with detailed empirical evaluation. To enhance practicability, we devise an adaptive scheme to choose L, and we show that this reduces the number of local iterations in worker machines between two model synchronizations as the training proceeds, successively refining the model quality at the master. Via extensive experiments using several real-world datasets with AWS Lambda workers and an AWS EC2 master, we show that LocalNewton requires fewer than 60% of the communication rounds (between master and workers) and less than 40% of the end-to-end running time, compared to state-of-the-art algorithms, to reach the same training~loss.
翻訳日:2021-05-18 14:34:10 公開日:2021-05-16
# 軌道プルーニングを用いたモデルベースオフライン計画

Model-Based Offline Planning with Trajectory Pruning ( http://arxiv.org/abs/2105.07351v1 )

ライセンス: Link先を確認
Xianyuan Zhan, Xiangyu Zhu, Haoran Xu(参考訳) オフライン強化学習(rl)は、環境インタラクションなしで事前に収集されたデータセットを使用した学習ポリシーを可能にする。 最近のオフラインRL研究は多くの進歩を遂げているが、既存の手法はエージェント訓練中の計算制限や余分な制御柔軟性の要求など、現実のシステム制御タスクにおいて多くの実践的な課題に直面している。 モデルベースの計画フレームワークは、そのようなタスクに魅力的なソリューションを提供します。 しかし、モデルベースの計画アルゴリズムの多くはオフライン設定用に設計されていない。 オフラインのRLの要素と既存の手法を組み合わせるだけで、過剰な制限的な計画や性能低下につながる。 本稿では,オフライン学習の制約とハイパフォーマンス計画とのジレンマに対処する,軽量モデルに基づくオフライン計画フレームワークmoppを提案する。 MOPPは、データから学んだ行動ポリシーによって導かれるより積極的な軌道展開を奨励し、潜在的な分布外サンプルを避けるために問題のある軌道を抽出する。 実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと競合する性能を示し,様々な目的や制約に容易に適応できることがわかった。

Offline reinforcement learning (RL) enables learning policies using pre-collected datasets without environment interaction, which provides a promising direction to make RL useable in real-world systems. Although recent offline RL studies have achieved much progress, existing methods still face many practical challenges in real-world system control tasks, such as computational restriction during agent training and the requirement of extra control flexibility. Model-based planning framework provides an attractive solution for such tasks. However, most model-based planning algorithms are not designed for offline settings. Simply combining the ingredients of offline RL with existing methods either provides over-restrictive planning or leads to inferior performance. We propose a new light-weighted model-based offline planning framework, namely MOPP, which tackles the dilemma between the restrictions of offline learning and high-performance planning. MOPP encourages more aggressive trajectory rollout guided by the behavior policy learned from data, and prunes out problematic trajectories to avoid potential out-of-distribution samples. Experimental results show that MOPP provides competitive performance compared with existing model-based offline planning and RL approaches, and allows easy adaptation to varying objectives and extra constraints.
翻訳日:2021-05-18 14:33:25 公開日:2021-05-16
# ロボットはお互いを信頼できるのか? 相対的必要エントロピーに基づく信頼評価モデル

How Can Robots Trust Each Other? A Relative Needs Entropy Based Trust Assessment Models ( http://arxiv.org/abs/2105.07443v1 )

ライセンス: Link先を確認
Qin Yang and Ramviyas Parasuraman(参考訳) マルチエージェントとマルチロボットシステムの協力は、エージェントが様々な状況に対応する機能や目的を示す様々な形成、形状、パターンを構築するのに役立つ。 その空間的近接性や機能的類似性などのエージェント間の関係は、エージェント間の協調において重要な役割を果たす。 エージェント間の信頼レベルは、人間と同じように、関係の信頼性と安定性を評価する上で重要な要素である。 本稿では,ロボットエージェント間の信頼度を評価するために,Relative Needs Entropy (RNE) と呼ばれる新しいモデルを提案する。 RNEは、個々のエージェントまたはエージェントのグループ間のニーズ分布の距離を測定する。 その有用性を示すために,我々は2段階の難易度を有する課題からなる永続的な都市探索救助ミッションにおいて,異種多ロボットグループ化タスクをシミュレートする実験を行い,信頼モデルを実装し,実証する。 その結果,rne信頼に基づくロボットグループ化は,最先端のエネルギーベースや距離ベースのグループ化モデルと比較して,多様なタスク実行に対するパフォーマンスと適応性が向上することが示唆された。

Cooperation in multi-agent and multi-robot systems can help agents build various formations, shapes, and patterns presenting corresponding functions and purposes adapting to different situations. Relationship between agents such as their spatial proximity and functional similarities could play a crucial role in cooperation between agents. Trust level between agents is an essential factor in evaluating their relationships' reliability and stability, much as people do. This paper proposes a new model called Relative Needs Entropy (RNE) to assess trust between robotic agents. RNE measures the distance of needs distribution between individual agents or groups of agents. To exemplify its utility, we implement and demonstrate our trust model through experiments simulating a heterogeneous multi-robot grouping task in a persistent urban search and rescue mission consisting of tasks at two levels of difficulty. The results suggest that RNE trust-Based grouping of robots can achieve better performance and adaptability for diverse task execution compared to the state-of-the-art energy-based or distance-based grouping models.
翻訳日:2021-05-18 14:33:05 公開日:2021-05-16
# 空間符号化勾配情報に基づく教師なしMMRegNet

Unsupervised MMRegNet based on Spatially Encoded Gradient Information ( http://arxiv.org/abs/2105.07392v1 )

ライセンス: Link先を確認
Wangbin Ding, Lei Li, Xiahai Zhuang, Liqin Huang(参考訳) マルチモダリティ医療画像は、標的(オルガン、腫瘍、組織)に関連し補完的な解剖情報を提供することができる。 マルチモダリティ画像を共通の空間に登録することは、これらの包括的情報を融合させ、臨床応用に利便性をもたらすことができる。 近年、登録方法を強化するためにニューラルネットワークが広く研究されている。 しかし,ネットワークトレーニングの堅牢な基準が欠如しているため,マルチモダリティ登録ネットワークの開発は依然として困難である。 さらに、既存の登録ネットワークの多くは、主にペアワイズ登録にフォーカスしており、複数の画像シナリオに適用できない。 本研究では,異なるモダリティを持つ複数の画像を対象画像に共同登録可能なマルチモーダル登録ネットワーク(MMRegNet)を提案する。 一方、MMRegNetを教師なしで訓練するために、空間的に符号化された勾配情報を提示する。 提案したネットワークは、MM-WHS 2017とCHAOS 2019の2つのデータセットで評価された。 その結果, 左心室および肝の登録作業において, 提案ネットワークが有望な性能を達成できることが示唆された。 ソースコードはgithubで公開されている。

Multi-modality medical images can provide relevant and complementary anatomical information for a target (organ, tumor or tissue). Registering the multi-modality images to a common space can fuse these comprehensive information, and bring convenience for clinical application. Recently, neural networks have been widely investigated to boost registration methods. However, it is still challenging to develop a multi-modality registration network due to the lack of robust criteria for network training. Besides, most existing registration networks mainly focus on pairwise registration, and can hardly be applicable for multiple image scenarios. In this work, we propose a multi-modality registration network (MMRegNet), which can jointly register multiple images with different modalities to a target image. Meanwhile, we present spatially encoded gradient information to train the MMRegNet in an unsupervised manner. The proposed network was evaluated on two datasets, i.e, MM-WHS 2017 and CHAOS 2019. The results show that the proposed network can achieve promising performance for cardiac left ventricle and liver registration tasks. Source code is released publicly on github.
翻訳日:2021-05-18 14:30:10 公開日:2021-05-16
# TSDF++:動的オブジェクト追跡と再構成のためのマルチオブジェクト定式化

TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and Reconstruction ( http://arxiv.org/abs/2105.07468v1 )

ライセンス: Link先を確認
Margarita Grinvald, Federico Tombari, Roland Siegwart, Juan Nieto(参考訳) シーン内を移動する複数の物体を同時に追跡および再構築する能力は、自律的なナビゲーションやインタラクションといったロボット作業において最も重要である。 事実上、複数の動的オブジェクトをマップする以前の試みはすべて、個々のオブジェクトを別々のレコンストラクションボリュームに格納し、それらの間の相対的なポーズを追跡するように進化しました。 シンプルで直感的ではあるが、このような定式化はシーン内のオブジェクト数に関してうまくスケールせず、明示的なオクルージョンハンドリング戦略の必要性をもたらす。 対照的に,シーン全体とそれに含まれるすべてのオブジェクトに対して,単一のボリュームを維持できるマップ表現を提案する。 この目的のために,地図上の任意の位置に複数の物体表面をエンコード可能な,新しい多目的TSDF定式化を導入する。 複数の動的オブジェクト追跡および再構成シナリオにおいて,本表現は,近接して移動する他のオブジェクトによって一時的にオクルードされても,表面の正確な再構成を維持できる。 提案したTSDF++の定式化を公開合成データセット上で評価し,標準のTSDFマップ表現と比較した場合の閉塞面の復元性を示す。

The ability to simultaneously track and reconstruct multiple objects moving in the scene is of the utmost importance for robotic tasks such as autonomous navigation and interaction. Virtually all of the previous attempts to map multiple dynamic objects have evolved to store individual objects in separate reconstruction volumes and track the relative pose between them. While simple and intuitive, such formulation does not scale well with respect to the number of objects in the scene and introduces the need for an explicit occlusion handling strategy. In contrast, we propose a map representation that allows maintaining a single volume for the entire scene and all the objects therein. To this end, we introduce a novel multi-object TSDF formulation that can encode multiple object surfaces at any given location in the map. In a multiple dynamic object tracking and reconstruction scenario, our representation allows maintaining accurate reconstruction of surfaces even while they become temporarily occluded by other objects moving in their proximity. We evaluate the proposed TSDF++ formulation on a public synthetic dataset and demonstrate its ability to preserve reconstructions of occluded surfaces when compared to the standard TSDF map representation.
翻訳日:2021-05-18 14:29:54 公開日:2021-05-16
# ニューラルネットワークに記憶された記憶のベイズ的再構成

Bayesian reconstruction of memories stored in neural networks from their connectivity ( http://arxiv.org/abs/2105.07416v1 )

ライセンス: Link先を確認
Sebastian Goldt, Florent Krzakala, Lenka Zdeborov\'a, Nicolas Brunel(参考訳) 大規模神経回路の包括的シナプス配線図の出現はコネクトミクスの分野を生み出し、多くのオープン研究の疑問を生み出した。 そのような問題の1つは、シナプス接続マトリックスを前提に、ニューロンの繰り返しのネットワークに格納された情報を再構築できるかどうかである。 本稿では,特定のアトラクタネットワークモデルにおいて,そのような推論問題の解法が理論的に可能であるかどうかを判断し,実用的なアルゴリズムを提供することにより,この問題に対処する。 このアルゴリズムは統計物理学のアイデアに基づいて近似ベイズ推論を行い、正確な解析に適している。 3つの異なるモデルでその性能を調べ,シナプス接続からストアドパターンを再構築する限界について検討した。

The advent of comprehensive synaptic wiring diagrams of large neural circuits has created the field of connectomics and given rise to a number of open research questions. One such question is whether it is possible to reconstruct the information stored in a recurrent network of neurons, given its synaptic connectivity matrix. Here, we address this question by determining when solving such an inference problem is theoretically possible in specific attractor network models and by providing a practical algorithm to do so. The algorithm builds on ideas from statistical physics to perform approximate Bayesian inference and is amenable to exact analysis. We study its performance on three different models and explore the limitations of reconstructing stored patterns from synaptic connectivity.
翻訳日:2021-05-18 14:28:05 公開日:2021-05-16
# マルチリファレンスアライメントのための高速化期待最大化

An accelerated expectation-maximization for multi-reference alignment ( http://arxiv.org/abs/2105.07372v1 )

ライセンス: Link先を確認
Noam Janco and Tamir Bendory(参考訳) マルチ参照アライメント(MRA)問題は、複数のノイズと回転した自身のコピーから画像を推定することを必要とする。 ノイズレベルが低い場合には、欠落した回転を推定し、画像をアライメントし、ノイズを平均化することにより、イメージを再構成することができる。 ノイズレベルが高い場合には正確な回転推定は不可能であるが、回転を近似することができ、必然的な情報を提供できる。 特に、近似誤差の学習は、効率的な画像推定に利用できる。 本稿では,角度同期と予測最大化(EM)を組み合わせたSynch-EMという新しい計算フレームワークを提案する。 同期ステップは回転の集中分布となり、この分布は学習され、ベイズ前駆体としてemに組み込まれる。 学習された分布はまた、emイテレーションの探索空間と計算負荷を劇的に減少させる。 大規模数値実験により,提案手法は,高い騒音レベルにおいて,場合によっては数桁程度の音量で,再構成品質を低下させることなく,mraのemを著しく加速できることを示した。

The multi-reference alignment (MRA) problem entails estimating an image from multiple noisy and rotated copies of itself. If the noise level is low, one can reconstruct the image by estimating the missing rotations, aligning the images, and averaging out the noise. While accurate rotation estimation is impossible if the noise level is high, the rotations can still be approximated, and thus can provide indispensable information. In particular, learning the approximation error can be harnessed for efficient image estimation. In this paper, we propose a new computational framework, called Synch-EM, that consists of angular synchronization followed by expectation-maximization (EM). The synchronization step results in a concentrated distribution of rotations; this distribution is learned and then incorporated into the EM as a Bayesian prior. The learned distribution also dramatically reduces the search space, and thus the computational load, of the EM iterations. We show by extensive numerical experiments that the proposed framework can significantly accelerate EM for MRA in high noise levels, occasionally by a few orders of magnitude, without degrading the reconstruction quality.
翻訳日:2021-05-18 14:26:11 公開日:2021-05-16
# 未蒸留:生徒に教えられない厄介な教師を作る

Undistillable: Making A Nasty Teacher That CANNOT teach students ( http://arxiv.org/abs/2105.07381v1 )

ライセンス: Link先を確認
Haoyu Ma, Tianlong Chen, Ting-Kuei Hu, Chenyu You, Xiaohui Xie, Zhangyang Wang(参考訳) 知識蒸留(英: knowledge distillation, kd)は、教師モデルから(通常より軽量な)生徒モデルへ知識を移す手法である。 しかし、ある場面では、この技は祝福というよりは呪いである。 例えば、KDは知的財産権(IP)を暴露する可能性があり、たとえ訓練された機械学習モデルを'ブラックボックス'(例えば、オープンソースコードのない実行可能なソフトウェアやAPI)でリリースしても、入力出力の振る舞いを模倣してKDによって複製することができる。 このKDの不要な影響を避けるため、本研究では、通常の教師ネットワークとほぼ同等の性能を持つ特別に訓練された教師ネットワークである「ナスティ教師(Nasty Teacher)」という概念を紹介し、検討する。 本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。 具体的には,教師の出力と通常の事前学習ネットワークとの差を最大化することを目的としている。 いくつかのデータセットにおいて,本手法が標準KDとデータフリーKDの両方に有効であることを示し,モデル所有者に好適なKD免疫を提供する。 われわれの予備研究は、社会的および法的に重要な、この新しい実用的問題に対する認識と関心をより高めることを願っている。

Knowledge Distillation (KD) is a widely used technique to transfer knowledge from pre-trained teacher models to (usually more lightweight) student models. However, in certain situations, this technique is more of a curse than a blessing. For instance, KD poses a potential risk of exposing intellectual properties (IPs): even if a trained machine learning model is released in 'black boxes' (e.g., as executable software or APIs without open-sourcing code), it can still be replicated by KD through imitating input-output behaviors. To prevent this unwanted effect of KD, this paper introduces and investigates a concept called Nasty Teacher: a specially trained teacher network that yields nearly the same performance as a normal one, but would significantly degrade the performance of student models learned by imitating it. We propose a simple yet effective algorithm to build the nasty teacher, called self-undermining knowledge distillation. Specifically, we aim to maximize the difference between the output of the nasty teacher and a normal pre-trained network. Extensive experiments on several datasets demonstrate that our method is effective on both standard KD and data-free KD, providing the desirable KD-immunity to model owners for the first time. We hope our preliminary study can draw more awareness and interest in this new practical problem of both social and legal importance.
翻訳日:2021-05-18 14:25:53 公開日:2021-05-16
# タンパク質配列から構造への学習:これが終わり(エンドツーエンド革命)か?

Protein sequence-to-structure learning: Is this the end(-to-end revolution)? ( http://arxiv.org/abs/2105.07407v1 )

ライセンス: Link先を確認
Elodie Laine, Stephan Eismann, Arne Elofsson, and Sergei Grudinin(参考訳) 深層学習の可能性はかなり前からタンパク質構造予測コミュニティで認識されており、CASP13以降は議論の余地がなくなった。 CASP14では、ディープラーニングにより、予想外のレベルがほぼ実験精度に達するまで、フィールドが強化された。 この成功は、他の機械学習分野から移行した進歩と、タンパク質配列や構造、それらの抽象化を扱うために特別に設計された方法から来ている。 新しいアプローチには、(i)幾何学的学習、すなわち、 グラフ、3dボロノイテッセレーション、ポイントクラウドといった表現について学ぶ; (ii)注意力を利用した事前学習されたタンパク質言語モデル; (iii) 3d空間の対称性を保つ等変的アーキテクチャ; (iv)大規模なメタゲノムデータベースの使用; (v)タンパク質表現の組み合わせ; (vi) 究極のエンドツーエンドアーキテクチャ。 シーケンスから始まり、3D構造を返す微分可能なモデル。 本稿では,過去2年間に開発され,casp14で広く使用されている新しいディープラーニングアプローチの概要と意見を紹介する。

The potential of deep learning has been recognized in the protein structure prediction community for some time, and became indisputable after CASP13. In CASP14, deep learning has boosted the field to unanticipated levels reaching near-experimental accuracy. This success comes from advances transferred from other machine learning areas, as well as methods specifically designed to deal with protein sequences and structures, and their abstractions. Novel emerging approaches include (i) geometric learning, i.e. learning on representations such as graphs, 3D Voronoi tessellations, and point clouds; (ii) pre-trained protein language models leveraging attention; (iii) equivariant architectures preserving the symmetry of 3D space; (iv) use of large meta-genome databases; (v) combinations of protein representations; (vi) and finally truly end-to-end architectures, i.e. differentiable models starting from a sequence and returning a 3D structure. Here, we provide an overview and our opinion of the novel deep learning approaches developed in the last two years and widely used in CASP14.
翻訳日:2021-05-18 14:25:29 公開日:2021-05-16
# 頑健なチーム確率ゲームの最適制御

Optimal control of robust team stochastic games ( http://arxiv.org/abs/2105.07405v1 )

ライセンス: Link先を確認
Feng Huang, Ming Cao, and Long Wang(参考訳) 確率力学環境では、完全協調型マルチエージェントシステムの逐次決定問題を研究するための多目的パラダイムとして、チーム確率ゲームが出現している。 しかしながら、導出ポリシーの最適性は通常モデルパラメータに敏感であり、モデルパラメータは一般に未知であり、実際のノイズデータから推定する必要がある。 本稿では,これらの不確実なパラメータに対する最適ポリシーの感度を緩和するために,選手が頑健な最適化アプローチを用いて決定を行う「ロバスト」チーム確率ゲームモデルを提案する。 このモデルは、チームの確率ゲームを不完全な情報シナリオに拡張し、一方、堅牢なチームの最適性の代替ソリューション概念を提供する。 このような解を求めるために,ガウス・セイデル修正政策反復という形で学習アルゴリズムを開発し,その収束性を証明する。 このアルゴリズムは、ロバストな動的プログラミングと比較して、より高速な収束率を持つだけでなく、近似計算を用いて次元の呪いを軽減することができる。 さらに,ソーシャルジレンマのゲームモデルを逐次ロバストなシナリオに一般化することにより,アルゴリズムの有効性を示す数値シミュレーションを行った。

In stochastic dynamic environments, team stochastic games have emerged as a versatile paradigm for studying sequential decision-making problems of fully cooperative multi-agent systems. However, the optimality of the derived policies is usually sensitive to the model parameters, which are typically unknown and required to be estimated from noisy data in practice. To mitigate the sensitivity of the optimal policy to these uncertain parameters, in this paper, we propose a model of "robust" team stochastic games, where players utilize a robust optimization approach to make decisions. This model extends team stochastic games to the scenario of incomplete information and meanwhile provides an alternative solution concept of robust team optimality. To seek such a solution, we develop a learning algorithm in the form of a Gauss-Seidel modified policy iteration and prove its convergence. This algorithm, compared with robust dynamic programming, not only possesses a faster convergence rate, but also allows for using approximation calculations to alleviate the curse of dimensionality. Moreover, some numerical simulations are presented to demonstrate the effectiveness of the algorithm by generalizing the game model of social dilemmas to sequential robust scenarios.
翻訳日:2021-05-18 14:22:17 公開日:2021-05-16
# 大型ハドロン衝突型加速器の新物理探索のための高度多変量解析法

Advanced Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider ( http://arxiv.org/abs/2105.07530v1 )

ライセンス: Link先を確認
Anna Stakia, Tommaso Dorigo, Giovanni Banelli, Daniela Bortoletto, Alessandro Casa, Pablo de Castro, Christophe Delaere, Julien Donini, Livio Finos, Michele Gallinaro, Andrea Giammanco, Alexander Held, Fabricio Jim\'enez Morales, Grzegorz Kotkowski, Seng Pei Liew, Fabio Maltoni, Giovanna Menardi, Ioanna Papavergou, Alessia Saggio, Bruno Scarpa, Giles C. Strong, Cecilia Tosciri, Jo\~ao Varela, Pietro Vischia, Andreas Weiler(参考訳) 2015年から2019年にかけて、horizon 2020が出資するイノベーティブトレーニングネットワークamva4newphysicsのメンバーは、高度な多変量解析手法と統計学習ツールの高エネルギー物理学問題へのカスタマイズと応用を研究し、全く新しいものを開発した。 これらの手法の多くは、CERN大型ハドロン衝突型加速器(英語版)におけるATLASおよびCMS実験によるデータ解析の感度向上に成功し、試験段階にある他のいくつかは、基礎物理学パラメータの測定精度の向上と新しい現象の探索の到達を約束している。 本稿では,研究・開発において最も関連性の高い新ツールについて,その性能評価とともに紹介する。

Between the years 2015 and 2019, members of the Horizon 2020-funded Innovative Training Network named "AMVA4NewPhysics" studied the customization and application of advanced multivariate analysis methods and statistical learning tools to high-energy physics problems, as well as developed entirely new ones. Many of those methods were successfully used to improve the sensitivity of data analyses performed by the ATLAS and CMS experiments at the CERN Large Hadron Collider; several others, still in the testing phase, promise to further improve the precision of measurements of fundamental physics parameters and the reach of searches for new phenomena. In this paper, the most relevant new tools, among those studied and developed, are presented along with the evaluation of their performances.
翻訳日:2021-05-18 14:20:22 公開日:2021-05-16