このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210318となっている論文です。

PDF登録状況(公開日: 20210318)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子力学半群の非線形拡大

Nonlinear extension of the quantum dynamical semigroup ( http://arxiv.org/abs/2003.09170v3 )

ライセンス: Link先を確認
Jakub Rembieli\'nski and Pawe{\l} Caban(参考訳) 本稿では,いわゆる凸準線型条件を満たす決定論的非線形時間発展を考える。 このような進化はアンサンブルの等価性を保ち、したがってシグナリングの問題がない。 線形非トレース保存写像の族が半群性を満たすならば、凸準線型作用素の生成族も半群性を持つことを示す。 次に,gorini-kossakowski-sudarshan-lindblad型方程式を一般化する。 例えば、我々のモデルにおける一般的な量子ビットの進化とjaynes-cummingsモデルの拡張について論じます。 我々は電磁場を移動する荷電粒子のスピン密度行列と太陽ニュートリノのフレーバー進化にフォーマリズムを適用した。

In this paper we consider deterministic nonlinear time evolutions satisfying so called convex quasi-linearity condition. Such evolutions preserve the equivalence of ensembles and therefore are free from problems with signaling. We show that if family of linear non-trace-preserving maps satisfies the semigroup property then the generated family of convex quasi-linear operations also possesses the semigroup property. Next we generalize the Gorini-Kossakowski-Sudarshan-Lindblad type equation for the considered evolution. As examples we discuss the general qubit evolution in our model as well as an extension of the Jaynes-Cummings model. We apply our formalism to spin density matrix of a charged particle moving in the electromagnetic field as well as to flavor evolution of solar neutrinos.
翻訳日:2023-05-28 15:47:38 公開日:2021-03-18
# 深部異常検出による無監督位相検出

Unsupervised phase discovery with deep anomaly detection ( http://arxiv.org/abs/2003.09905v2 )

ライセンス: Link先を確認
Korbinian Kottmann, Patrick Huembeli, Maciej Lewenstein, Antonio Acin(参考訳) 我々は、自動化された教師なしの機械学習でフェーズ図を探索し、新しいフェーズの興味のある領域を見つける方法を示します。 教師付き学習とは対照的に、データは所定のラベルで分類されるが、ここでは異常検出を行い、1つまたは複数のクラスからなる通常のデータセットと異常データとを区別する。 Asaパラダイム的な例では、拡張されたボース・ハバードモデルの位相図を1次元の整数充填で探索し、深層ニューラルネットワークを用いて完全に教師なしかつ自動化された方法で位相図全体を決定する。 学習用入力データとして,まずテンソルネットワークアルゴリズムから得られる絡み合いスペクトルと中心テンソルを基底状態計算に利用し,その後,提案手法を拡張し,低次相関関数などの実験的にアクセス可能なデータを入力として利用する。 本手法では, 標準超流動, モット絶縁体, ハルデン絶縁相, 密度波相に加えて, 予期せぬ特性を持つ超固相と超流動相の相分離領域を明らかにすることができる。

We demonstrate how to explore phase diagrams with automated and unsupervised machine learning to find regions of interest for possible new phases. In contrast to supervised learning, where data is classified using predetermined labels, we here perform anomaly detection, where the task is to differentiate a normal data set, composed of one or several classes, from anomalous data. Asa paradigmatic example, we explore the phase diagram of the extended Bose Hubbard model in one dimension at exact integer filling and employ deep neural networks to determine the entire phase diagram in a completely unsupervised and automated fashion. As input data for learning, we first use the entanglement spectra and central tensors derived from tensor-networks algorithms for ground-state computation and later we extend our method and use experimentally accessible data such as low-order correlation functions as inputs. Our method allows us to reveal a phase-separated region between supersolid and superfluid parts with unexpected properties, which appears in the system in addition to the standard superfluid, Mott insulator, Haldane-insulating, and density wave phases.
翻訳日:2023-05-28 11:44:08 公開日:2021-03-18
# キセノンによる全身麻酔におけるラジカル対の役割

Radical pairs may play a role in xenon-induced general anesthesia ( http://arxiv.org/abs/2009.01661v2 )

ライセンス: Link先を確認
Jordan Smith, Hadi Zadeh Haghighi, Dennis Salahub, and Christoph Simon(参考訳) 全身麻酔のメカニズムを理解することは、意識を理解するための重要なステップである。 キセノンによる全身麻酔の過程は電子移動を伴うことが示されており、一般的な麻酔薬としてのキセノンの効力はイソトピック依存を示す。 これらの観測は、キセノン核スピンが自然発生のラジカル電子対の組換えダイナミクスに影響を及ぼすメカニズムによって説明できる。 本研究は, 鳥類磁気受容の文脈において, クリプトクロムのラジカル対機構に着想を得た簡単なモデルを構築し, マウスにおけるキセノンの全身麻酔効果の同位体依存性を再現できることを示した。 我々の結果は、絡み合ったスピンを持つ電子のラジカル対が意識にとって重要であるという考えと一致している。

Understanding the mechanisms underlying general anesthesia would be a key step towards understanding consciousness. The process of xenon-induced general anesthesia has been shown to involve electron transfer, and the potency of xenon as a general anesthetic exhibits isotopic dependence. We propose that these observations can be explained by a mechanism in which the xenon nuclear spin influences the recombination dynamics of a naturally occurring radical pair of electrons. We develop a simple model inspired by the body of work on the radical-pair mechanism in cryptochrome in the context of avian magnetoreception, and we show that our model can reproduce the observed isotopic dependence of the general anesthetic potency of xenon in mice. Our results are consistent with the idea that radical pairs of electrons with entangled spins could be important for consciousness.
翻訳日:2023-05-04 03:05:22 公開日:2021-03-18
# 連続可変量子資源の操作量子化

Operational quantification of continuous-variable quantum resources ( http://arxiv.org/abs/2009.11302v3 )

ライセンス: Link先を確認
Bartosz Regula, Ludovico Lami, Giovanni Ferrari, Ryuji Takagi(参考訳) 実用的なタスクにおける量子状態の有用性を裏付ける多様な資源は、様々な種類の資源を計測し比較するための普遍的に適用可能な手法の開発を動機付ける。 しかし、そのようなアプローチの多くは有限次元の設定に制限されたり、運用上のタスクとは無関係であった。 光非古典性、絡み合い、真の非ゲージ性、コヒーレンスといった物理関連資源の多用に適用可能な、ロバストネス尺度に基づく連続変数量子システムのためのリソースの定量化の一般的な方法を導入することで、これを克服した。 特に,チャネル識別タスクのクラスにおいて,与えられた状態によって実現されるアドバンテージとして,直接的操作解釈を持つことを実証する。 標準ロバスト性(standard robustness)として知られる関連するネガティビティに基づく尺度とは対照的に、ロバスト性は任意の凸資源理論において、十分に整備されたボナフィデ資源量化器を構成する。 さらに、直接観測可能なロバスト性 -- 単一の証人演算子の期待値として計算できる -- を示し、その尺度を評価する一般的な方法を確立する。 関連するリソースに結果を明示的に適用することにより、複数の状態のクラスに対するロバスト性の正確な計算可能性を示す。

The diverse range of resources which underlie the utility of quantum states in practical tasks motivates the development of universally applicable methods to measure and compare resources of different types. However, many of such approaches were hitherto limited to the finite-dimensional setting or were not connected with operational tasks. We overcome this by introducing a general method of quantifying resources for continuous-variable quantum systems based on the robustness measure, applicable to a plethora of physically relevant resources such as optical nonclassicality, entanglement, genuine non-Gaussianity, and coherence. We demonstrate in particular that the measure has a direct operational interpretation as the advantage enabled by a given state in a class of channel discrimination tasks. We show that the robustness constitutes a well-behaved, bona fide resource quantifier in any convex resource theory, contrary to a related negativity-based measure known as the standard robustness. Furthermore, we show the robustness to be directly observable -- it can be computed as the expectation value of a single witness operator -- and establish general methods for evaluating the measure. Explicitly applying our results to the relevant resources, we demonstrate the exact computability of the robustness for several classes of states.
翻訳日:2023-05-01 04:46:50 公開日:2021-03-18
# 無限次元一般確率論における資源量化の枠組み

Framework for resource quantification in infinite-dimensional general probabilistic theories ( http://arxiv.org/abs/2009.11313v3 )

ライセンス: Link先を確認
Ludovico Lami, Bartosz Regula, Ryuji Takagi, Giovanni Ferrari(参考訳) 資源理論は、量子力学などにおける物理系の特性を特徴づけるための一般的な枠組みを提供する。 本稿では、一般確率論(GPT)における資源の定量化手法を紹介し、特に無限次元状態空間に関連する技術的な問題に焦点を当てる。 我々は、ロバスト性尺度に基づいて普遍的資源量化器を定義し、直接的な操作的意味を許容することを示す:任意のgptにおいて、与えられた資源状態がすべての無資源状態に対してチャネル識別タスクで可能となる利点を定量化する。 自由状態の凸および閉集合によって記述される任意の資源理論において、ロバスト性は忠実かつ強い単調な測度として作用し、凸最適化問題を通じて計算できることを示した。 連続可変量子力学に特化して、さらなる境界と関係を求め、測定値の効率的な計算と、他のモノトンとの比較を可能にする。 我々は、光学的非古典性、絡み合い、真の非ゲージ性、コヒーレンスといった物理的関連性の資源に対するロバスト性の適用を示す。 特に、非古典性の資源理論におけるフォック状態や圧縮状態、絡み合いの資源理論における一般純粋状態、一般の場合における厳密な境界など、様々な種類の状態に対して正確な表現を確立する。

Resource theories provide a general framework for the characterization of properties of physical systems in quantum mechanics and beyond. Here, we introduce methods for the quantification of resources in general probabilistic theories (GPTs), focusing in particular on the technical issues associated with infinite-dimensional state spaces. We define a universal resource quantifier based on the robustness measure, and show it to admit a direct operational meaning: in any GPT, it quantifies the advantage that a given resource state enables in channel discrimination tasks over all resourceless states. We show that the robustness acts as a faithful and strongly monotonic measure in any resource theory described by a convex and closed set of free states, and can be computed through a convex conic optimization problem. Specializing to continuous-variable quantum mechanics, we obtain additional bounds and relations, allowing an efficient computation of the measure and comparison with other monotones. We demonstrate applications of the robustness to several resources of physical relevance: optical nonclassicality, entanglement, genuine non-Gaussianity, and coherence. In particular, we establish exact expressions for various classes of states, including Fock states and squeezed states in the resource theory of nonclassicality and general pure states in the resource theory of entanglement, as well as tight bounds applicable in general cases.
翻訳日:2023-05-01 04:35:07 公開日:2021-03-18
# 1+1)次元自由共形場理論における絡み合いと浄化の複雑さ

Entanglement and Complexity of Purification in (1+1)-dimensional free Conformal Field Theories ( http://arxiv.org/abs/2009.11881v2 )

ライセンス: Link先を確認
Hugo A. Camargo, Lucas Hackl, Michal P. Heller, Alexander Jahn, Tadashi Takayanagi, Bennet Windt(参考訳) 量子場理論の混合状態を部分的トレースとしてエンコードする拡大ヒルベルト空間で純粋な状態を見つけることは、必然的に困難な課題である。 しかしながら、これらの浄化は、混合状態の量子情報理論的性質を、絡み合いと精製の複雑さによって特徴づける上で重要な役割を担っている。 本稿では,自由ボソニック場とイジング共形場の理論の真空中の2つの間隔で,これら量を初めて,ほぼ一般ガウス浄化法を用いて解析する。 既存の結果と包括的に比較し,普遍性を同定する。 我々はさらに,自由ボソニック理論の質量的限界と相互情報の対応する挙動,およびイジング共形場理論のスピンチェーンモデルにおけるヨルダン・ウィグナー写像下のヒルベルト空間構造について論じる。

Finding pure states in an enlarged Hilbert space that encode the mixed state of a quantum field theory as a partial trace is necessarily a challenging task. Nevertheless, such purifications play the key role in characterizing quantum information-theoretic properties of mixed states via entanglement and complexity of purifications. In this article, we analyze these quantities for two intervals in the vacuum of free bosonic and Ising conformal field theories using, for the first time, the~most general Gaussian purifications. We provide a comprehensive comparison with existing results and identify universal properties. We further discuss important subtleties in our setup: the massless limit of the free bosonic theory and the corresponding behaviour of the mutual information, as well as the Hilbert space structure under the Jordan-Wigner mapping in the spin chain model of the Ising conformal field theory.
翻訳日:2023-05-01 02:25:04 公開日:2021-03-18
# 任意光-マター結合強度におけるキャビティ量子電磁力学

Cavity Quantum Electrodynamics at Arbitrary Light-Matter Coupling Strengths ( http://arxiv.org/abs/2010.03583v3 )

ライセンス: Link先を確認
Yuto Ashida, Atac Imamoglu, Eugene Demler(参考訳) 強い結合状態にある量子光物質系は、結合モードごとに多くの励起状態を含む必要があるため、分析が困難であることが知られている。 あらゆる相互作用強度における光・物質相関を非摂動論的に解析する手法を提案する。 我々のアプローチの鍵となる要素は、光-物質相互作用が支配的なエネルギースケールとなる極限において、光と物質の自由の漸近的な分離を達成するユニタリ変換である。 変換フレームでは、物質/光子ヒルベルト空間の切り離しはより大きく結合することで、強結合ハミルトニアンのような低エネルギー有効モデルを体系的に導出することができる。 結晶電位の電子とキャビティモードと相互作用する電気双極子に関する具体的なモデルに適用することで、我々のアプローチの汎用性を実証する。 空間的に変化する電磁モードの一般化についても論じる。

Quantum light-matter systems at strong coupling are notoriously challenging to analyze due to the need to include states with many excitations in every coupled mode. We propose a nonperturbative approach to analyze light-matter correlations at all interaction strengths. The key element of our approach is a unitary transformation that achieves asymptotic decoupling of light and matter degrees of freedom in the limit where light-matter interaction becomes the dominant energy scale. In the transformed frame, truncation of the matter/photon Hilbert space is increasingly well-justified at larger coupling, enabling one to systematically derive low-energy effective models, such as tight-binding Hamiltonians. We demonstrate the versatility of our approach by applying it to concrete models relevant to electrons in crystal potential and electric dipoles interacting with a cavity mode. A generalization to the case of spatially varying electromagnetic modes is also discussed.
翻訳日:2023-04-29 17:49:55 公開日:2021-03-18
# 不誠実な状態における絡み合いの検出

Detecting Entanglement in Unfaithful States ( http://arxiv.org/abs/2010.06054v2 )

ライセンス: Link先を確認
Yongtao Zhan and Hoi-Kwong Lo(参考訳) エンタングルメント証人は、フルトモグラフィーを行うことなく未知の状態のエンタングルメントを検出する効果的な方法である。 エンタングルメントを目撃する最も一般的なスキームの1つは、純粋なエンタングル状態に対するその忠実度を測定することである。 近年, phys.rev.lett \textbf{124}, 200502(2020) において, 忠実性証人が検出できない多数の状態が発見された。 それらは不利な状態と呼ばれる。 本稿では, 測定結果を用いて下界の絡み合いを計算し, 絡み合いを検出する新しい方法を提案する。 数値シミュレーションにより,本手法は少ない測定値で不完全状態の絡みを検出できることを示す。 さらに,本手法をマルチパーティタイト状態に一般化し,同数の計測条件を持つ従来の係留証人演算子よりも高い雑音を許容できることを示す。

Entanglement witness is an effective method to detect entanglement in unknown states without doing full tomography. One of the most widespread schemes of witnessing entanglement is measuring its fidelity with respect to a pure entangled state. Recently, a large class of states whose entanglement can not be detected with the fidelity witness has been discovered in Phys.Rev.Lett \textbf{124},200502(2020). They are called unfaithful states. In this paper we propose a new way to detect entanglement by calculating the lower bound of entanglement using measurement results. Numerical simulation shows our method can detect entanglement in unfaithful states with a small number of measurements. Moreover, we generalize our scheme to multipartite states and show that it can tolerate higher noise than previous entanglement witness operators with same number of measurement settings.
翻訳日:2023-04-29 06:59:48 公開日:2021-03-18
# ノイズ駆動型拡張量子システムにおけるカオスとエルゴディディティ

Chaos and Ergodicity in Extended Quantum Systems with Noisy Driving ( http://arxiv.org/abs/2010.12494v2 )

ライセンス: Link先を確認
Pavel Kos, Bruno Bertini, Toma\v{z} Prosen(参考訳) 固定方向のランダム場を持つ局所量子回路群における時間発展演算子について検討する。 量子カオスの存在は、時間発展作用素が多体ヒルベルト空間において実質的にランダム行列となることを意味する。 この現象を定量化するために、進化作用素(一般化スペクトル形状因子)のトレースの2乗の大きさを解析的に計算し、ランダム行列理論(RMT)の予測と比較する。 一般化されたスペクトル形状係数を無限温度状態における局所可観測物の動的相関関数で表すことができ、システムのカオス的特性とエルゴード的特性を関連付けることができることを示す。 これはまた、多体Thouless time $\tau_{\rm th}$ -- 一般化されたスペクトル形成因子がランダム行列理論の予測に従って開始する時間 -- とシステムの保存法則との間の接続も提供する。 さらに,保存法則を満たさないシステムで観測されるシステムサイズで,$\tau_{\rm th}$の異なるスケーリングについて説明する。

We study the time evolution operator in a family of local quantum circuits with random fields in a fixed direction. We argue that the presence of quantum chaos implies that at large times the time evolution operator becomes effectively a random matrix in the many-body Hilbert space. To quantify this phenomenon we compute analytically the squared magnitude of the trace of the evolution operator -- the generalised spectral form factor -- and compare it with the prediction of Random Matrix Theory (RMT). We show that for the systems under consideration the generalised spectral form factor can be expressed in terms of dynamical correlation functions of local observables in the infinite temperature state, linking chaotic and ergodic properties of the systems. This also provides a connection between the many-body Thouless time $\tau_{\rm th}$ -- the time at which the generalised spectral form factor starts following the random matrix theory prediction -- and the conservation laws of the system. Moreover, we explain different scalings of $\tau_{\rm th}$ with the system size, observed for systems with and without the conservation laws.
翻訳日:2023-04-27 22:44:40 公開日:2021-03-18
# 超低温原子またはボース・アインシュタイン凝縮体を含む非線形ハイブリッド光学系に基づく超精密量子センシングと測定

Ultra-precision quantum sensing and measurement based on nonlinear hybrid optomechanical systems containing ultracold atoms or atomic Bose-Einstein condensate ( http://arxiv.org/abs/2011.01336v2 )

ライセンス: Link先を確認
Ali Motazedifard, and A. Dalafi, and M. H. Naderi(参考訳) 本稿では、超低温原子のアンサンブルまたは原子ボース・アインシュタイン凝縮体(bec)からなる電磁的(em)放射圧に量子マイクロまたはナノメカニカル発振器(mo)を結合したハイブリッド光機械システム(oms)を、非常に弱い信号を測定するための超精密量子センサとして用いる方法を検討する。 正確な量子測定においてよく知られているように、ショットノイズ(sn)とバックアクションノイズとの競合は、いわゆる標準量子限界(sql)である測定精度の制限を実行する。 信号の強度がsqlよりさらに低い場合は、sqlを打ち負かすために超精密な量子センシングを実行する必要がある。 この目的のために、ハイブリッドOMSでSQLを超える3つの重要な方法についてレビューする。 (i)系の量子非退化(qnd)変数の測定を回避したバックアクション (ii)コヒーレント量子バックアクションノイズキャンセラ(cqnc)、及び (iii)パラメトリックセンシング(parametric sensing)、同時信号増幅(amplification)、雑音抑圧( noise reduction)など。 さらに、本論文では、駆動レーザ位相の古典的なゆらぎ、いわゆるレーザー位相ノイズ(LPN)が、標準OMSの出力光場のパワースペクトルにどのように影響するかを初めて示し、SQLより総合的なシステムノイズを増大させる付加的な印象ノイズを誘導する。 また、このレビューで初めて、標準のOMSでは、SQLの下のノイズを同時に抑制しながら信号を増幅することは不可能であることが示されている。

In this review, we study how a hybrid optomechanical system (OMS), in which a quantum micro- or nano-mechanical oscillator (MO) is coupled to the electromagnetic (EM) radiation pressure, consisting of an ensemble of ultracold atoms or an atomic Bose-Einstein condensate (BEC), can be used as an ultra precision quantum sensor for measuring very weak signals. As is well-known in any precise quantum measurement the competition between the shot noise (SN) and the backaction noise of measurement executes a limitation on the measurement precision which is the so-called standard quantum limit (SQL). In the case where the intensity of the signal is even lower than the SQL, one needs to perform an ultra precision quantum sensing to beat the SQL. For this purpose, we review three important methods for surpassing the SQL in a hybrid OMS: (i) the backaction evading measurement of a quantum nondemolition (QND) variable of the system, (ii) the coherent quantum backaction noise cancellation (CQNC), and (iii) the so-called parametric sensing, the simultaneous signal amplification and added noise suppression below the SQL. Furthermore, we have shown in this article for the first time how the classical fluctuation of the driving laser phase, the so-called laser phase noise (LPN), affects the power spectrum of the output optical field in a standard OMS and induces an additional impression noise which makes the total system noise increase above the SQL. Also, for the first time in this review it has been shown that in the standard OMSs, it is impossible to amplify signal while suppressing the noise below the SQL simultaneously.
翻訳日:2023-04-26 01:20:27 公開日:2021-03-18
# ランダム状態に対する高密度符号化とテレポーテーションの性能 --前処理による推定-

Performance of Dense Coding and Teleportation for Random States --Augmentation via Pre-processing ( http://arxiv.org/abs/2012.05865v2 )

ライセンス: Link先を確認
Rivu Gupta, Shashank Gupta, Shiladitya Mal, Aditi Sen De(参考訳) 量子通信タスクにおける自然量子システムの資源性を理解するために,haarの一様生成した様々な階層のランダム多成分状態の高密度符号化能力 (dcc) とテレポーテーション忠実性 (tf) について検討する。 ランク2の2量子状態、werner状態、およびpure状態が同一量の絡み合いを持つ場合、ランク2状態のdccは、pureおよびwerner状態によって作成された封筒に属することを証明する。 同様に、2つの送信機と1つの受信機との密な符号化を行い、送信機:受信機分岐において絡み合いを測定する場合、ランク2の3ビット状態に対する一般化グリーンベルガー・ホーネ・ザイリンガー状態を介して上限を求める。 ランダムに生成された2-, 3-, 4-qubit密度行列に対するDCCの正規化周波数分布と受信機の端の局所復号を報告する。 2量子ビット状態の平均dccの推定は数値シミュレーションとよく一致していることがわかった。 一般には,プロトコル開始前に共有状態上で実施した局所前処理操作によって克服された状態のランクが,状態のランクによらず増大するにつれて,高密度符号化とテレポーテーションのための乱数状態の性能が低下するのを観察している。 ここで採用する局所前処理は,古典的通信とともに正の演算子値の測定に基づいており,2キュービットの確率状態を持つ密閉符号化とは異なり,送信者の操作は,テレポーテーションと同様に密閉符号化を実装する能力を確率的に向上させるのに役立つ。

In order to understand the resourcefulness of a natural quantum system in quantum communication tasks, we study the dense coding capacity (DCC) and teleportation fidelity (TF) of Haar uniformly generated random multipartite states of various ranks. We prove that when a rank-2 two-qubit state, a Werner state, and a pure state possess the same amount of entanglement, the DCC of a rank-2 state belongs to the envelope made by pure and Werner states. In a similar way, we obtain an upper bound via the generalized Greenberger-Horne-Zeilinger state for rank-2 three-qubit states when the dense coding with two senders and a single receiver is performed and entanglement is measured in the senders:receiver bipartition. The normalized frequency distribution of DCC for randomly generated two-, three- and four-qubit density matrices with global as well as local decodings at the receiver's end are reported. The estimation of mean DCC for two-qubit states is found to be in good agreement with the numerical simulations. Universally, we observe that the performance of random states for dense coding as well as teleportation decreases with the increase of the rank of states which we have shown to be surmounted by the local pre-processing operations performed on the shared states before starting the protocols, irrespective of the rank of the states. The local pre-processing employed here is based on positive operator valued measurements along with classical communication and we show that unlike dense coding with two-qubit random states, senders' operations are always helpful to probabilistically enhance the capabilities of implementing dense coding as well as teleportation.
翻訳日:2023-04-21 05:35:57 公開日:2021-03-18
# 多極RFトラップにおける対称性の破れの解析的アプローチ

An analytical approach to symmetry breaking in multipole RF-traps ( http://arxiv.org/abs/2012.08198v3 )

ライセンス: Link先を確認
Marylise Marchenay and Jofre Pedregosa-Gutierrez and Martina Knoop and Marie Houssin and Caroline Champenois(参考訳) 高周波線形多重極トラップは電極の誤配置に非常に敏感であることが示されており、これは対称性の破れを引き起こし、トラップの動作を妨害するトラップ電位 \cite{pedregosa17} の局所的極小化を引き起こす。 本研究では, 完全に対称なオクタポールトラップに対して, 低次項を含む現実的なオクタポールトラップのRFポテンシャルを解析的に記述する。 単純な解析表現によって特徴付けられる,特定された欠陥の組み合わせによって幾何学を記述する。 欠陥が個別に取られる単純なケースの組み合わせに依存する電極偏差のあるトラップに対して、完全な方程式が提案される。 本手法は, トラップ半径の最大4倍の欠陥径に対する解析的および数値的結果の比較により検証した。 cip{pedregosa18}に記述されているように、各電極に印加されるRF電圧の振幅を独立に微調整することで、現実的なトラップの幾何学的欠陥を軽減することができる。 in \cite{pedregosa18}と異なる方法では、ポテンシャルの解析方程式の知識は、トラップ内のイオン位置の実験的測定に基づいて、各電極の正確な位置や少数の反復に関する情報なしに、この補償に必要なrf-電圧の集合を設計することができる。 本プロトコルの要件,性能,限界については,数値シミュレーションと解析結果の比較を通じて論じる。

Radio-frequency linear multipole traps have been shown to be very sensitive to mis-positioning of their electrodes, which results in a symmetry breaking and leads to extra local minima in the trapping potential \cite{pedregosa17} disturbing the operation of the trap. In this work, we analytically describe the RF-potential of a realistic octupole trap by including lower order terms to the well-established equation for a perfectly symmetric octupole trap. We describe the geometry by a combination of identified defects, characterised by simple analytical expressions. A complete equation is proposed for a trap with any electrode deviation relying on a combination of the simple cases where the defects are taken individually. Our approach is validated by comparison between analytical and numerical results for defect sizes up to 4\% of the trap radius. As described in \cite{pedregosa18}, an independent fine-tuning of the amplitude of the RF voltage applied on each electrode can be used to mitigate the geometrical defects of a realistic trap. In a different way than in \cite{pedregosa18}, the knowledge of an analytical equation for the potential allows to design the set of RF-voltages required for this compensation, based on the experimental measurement of the ion position in the trap, without information concerning the exact position of each electrode, and with a small number of iterations. The requirements, performances and limitations of this protocol are discussed via comparison of numerical simulations and analytical results.
翻訳日:2023-04-20 19:03:28 公開日:2021-03-18
# ド・ジッター時空のための「オディンジャーの猫」

Schr\"odinger's cat for de Sitter spacetime ( http://arxiv.org/abs/2012.10025v2 )

ライセンス: Link先を確認
Joshua Foo, Robert B. Mann and Magdalena Zych(参考訳) 量子重力は、量子重ね合わせにおける半古典時空幾何の記述を含むと期待されている。 これまでにそのような重ね合わせをモデル化する枠組みは考案されていない。 ここでは、量子重ね合わせにおける時空多様体上の量子プローブ(すなわちunruh-dewitt検出器)の応答に関する新しい現象論的記述を提供する。 追加の自由度を導入することで、ヒルベルト空間を時空に割り当てることができ、空間的あるいは曲率的状態の重ね合わせの中に存在させることができる。 このアプローチを静的ド・ジッター空間に適用することにより、ミンコフスキー時空におけるリンドラー軌道の重ね合わせによって引き起こされるものと、量子時空による効果が操作的に区別できないシナリオを発見する。 このような量子時空と平坦な空間における軌道の重ね合わせとの区別性は、重ねられた振幅間の場相関の同値または非同値に減少する。

Quantum gravity is expected to contain descriptions of semiclassical spacetime geometries in quantum superpositions. To date, no framework for modelling such superpositions has been devised. Here, we provide a new phenomenological description for the response of quantum probes (i.e. Unruh-deWitt detectors) on a spacetime manifold in quantum superposition. By introducing an additional control degree of freedom, one can assign a Hilbert space to the spacetime, allowing it to exist in a superposition of spatial or curvature states. Applying this approach to static de Sitter space, we discover scenarios in which the effects produced by the quantum spacetime are operationally indistinguishable from those induced by superpositions of Rindler trajectories in Minkowski spacetime. The distinguishability of such quantum spacetimes from superpositions of trajectories in flat space reduces to the equivalence or non-equivalence of the field correlations between the superposed amplitudes.
翻訳日:2023-04-20 06:30:40 公開日:2021-03-18
# 光原子トラップ統合プラットフォームに向けた懸濁膜導波路のキャラクタリゼーション

Characterization of Suspended Membrane Waveguides towards a Photonic Atom Trap Integrated Platform ( http://arxiv.org/abs/2101.00386v2 )

ライセンス: Link先を確認
Michael Gehl, William Kindel, Nicholas Karl, Adrian Orozco, Katherine Musick, Douglas Trotter, Christina Dallo, Andrew Starbuck, Andrew Leenheer, Christopher DeRose, Grant Biedermann, Yuan-Yu Jau, and Jongmin Lee(参考訳) 単一原子または冷間原子アンサンブルをエバネッセンスフィールドでトラップするために必要な高、真空中、光パワーをサポートすることができる光導波路装置を実証する。 懸濁膜導波路を用いたフォトニック集積プラットフォームは, 波長が6mW (500 um span) から30mW (125 um span) に近い光学パワーを導電性導波路で制御することに成功した。 このプラットフォームは、懸架導波路近傍のレーザー冷却と磁気光学トラップ(MOT)と互換性があり、膜MOTと針MOTと呼ばれる、効率的なトラップローディングの鍵となる要素である。 我々は,この大規模電力処理を可能にする重要な熱管理機能を探求する2つの新しい設計を評価する。 この研究は、中性原子量子系とシリコン上のフォトニックおよび電子集積回路を結合する統合プラットフォームに向けた重要なステップである。

We demonstrate an optical waveguide device, capable of supporting the high, in-vacuum, optical power necessary for trapping a single atom or a cold atom ensemble with evanescent fields. Our photonic integrated platforms, with suspended membrane waveguides, successfully manages optical powers of 6 mW (500 um span) to nearly 30 mW (125 um span) over an un-tethered waveguide span. This platform is compatible with laser cooling and magneto-optical traps (MOTs) in the vicinity of the suspended waveguide, called the membrane MOT and the needle MOT, a key ingredient for efficient trap loading. We evaluate two novel designs that explore critical thermal management features that enable this large power handling. This work represents a significant step toward an integrated platform for coupling neutral atom quantum systems to photonic and electronic integrated circuits on silicon.
翻訳日:2023-04-18 01:53:59 公開日:2021-03-18
# 平面時空と曲面時空における重ね合わせ検出器間の絡み合い増幅

Entanglement amplification between superposed detectors in flat and curved spacetimes ( http://arxiv.org/abs/2101.01912v2 )

ライセンス: Link先を確認
Joshua Foo, Robert B. Mann and Magdalena Zych(参考訳) 静的デシッターおよびミンコフスキー時空における静的軌道の量子重ね合わせにおける2つのUnruh-deWitt検出器間の絡み合い回収プロトコルを考える。 それぞれの検出器の経路の空間的重ね合わせにより、古典的な軌道上の検出器ではそうでなければ不可能なレジームの量子場から絡み合うことができることを示す。 驚くべきことに、熱浴中の十分に非局在化された軌道の検出器では、収穫された絡み合いの量は磁場の温度とともに増加し、シミジヤらによって導かれたノーゴー定理に反する。 al. (phys. rev. d 98, 085007)。 また,各検出器の経路間の重畳された軌道間の非局所相関に依存する相互情報収集に対する興味深い効果を見出した。

We consider an entanglement harvesting protocol between two Unruh-deWitt detectors in quantum superpositions of static trajectories in the static de Sitter and thermal Minkowski spacetimes. We demonstrate for the first time that the spatial superposition of each detector's path allows entanglement to be harvested from the quantum field in regimes where it would be otherwise impossible for detectors on classical trajectories. Surprisingly, for detectors on sufficiently delocalised trajectories in a thermal bath, the amount of harvested entanglement grows with the temperature of the field, violating a no-go theorem derived by Simidzija et. al. (Phys. Rev. D 98, 085007). We also discover interesting effects for mutual information harvesting, which depends sensitively on the nonlocal correlations between the superposed trajectories between the paths of the respective detectors.
翻訳日:2023-04-17 17:59:24 公開日:2021-03-18
# パリティソートを用いた部分コヒーレント光源の超解像実験

Experimental demonstration of superresolution of partially coherent light sources using parity sorting ( http://arxiv.org/abs/2102.01603v3 )

ライセンス: Link先を確認
S. A. Wadood, Kevin Liang, Yiyu Zhou, Jing Yang, M. A. Alonso, X.-F. Qian, T. Malhotra, S.M. Hashemi Rafsanjani, Andrew N. Jordan, Robert W. Boyd, and A. N. Vamivakas(参考訳) 量子距離論に基づく分析により、2つの不整点源の位置をローカライズする能力はモードソートにより著しく向上できることが示された。 ここでは、パリティソートに基づく2つのソースのサブ回折極限局在に対する部分コヒーレンスの影響を理論的および実験的に検討する。 負かつ実数値のコヒーレンス度の先行情報により、非コヒーレントの場合よりも高いフィッシャー情報が得られる。 量子リミテッド気象学におけるコヒーレンスの役割を明らかにするための道を開いた。

Analyses based on quantum metrology have shown that the ability to localize the positions of two incoherent point sources can be significantly enhanced through the use of mode sorting. Here we theoretically and experimentally investigate the effect of partial coherence on the sub-diffraction limit localization of two sources based on parity sorting. With the prior information of a negative and real-valued degree of coherence, higher Fisher information is obtained than that for the incoherent case. Our results pave the way to clarifying the role of coherence in quantum limited metrology.
翻訳日:2023-04-13 00:27:32 公開日:2021-03-18
# ステアリング組立における絡み合いコスト

Entanglement Cost for Steering Assemblages ( http://arxiv.org/abs/2102.02333v2 )

ライセンス: Link先を確認
Thomas Cope(参考訳) 本稿では,与えられたステアリングの組み立てに必要な絡み合い量を,元の状態や測定値が不明な場合にどのように定量化できるかという疑問を提起する。 そこで我々は, アンタングル化コストと形成の絡み合いの概念を拡張し, 半定値プログラミングによる上界化の方法を示す。 本研究では, 集合体形成の絡み合いは一般に連続ではなく, 平坦な屋根延長ではないことを証明し, これらの特性を数値解析により示す。 最後に,これらの結果が組み立てから組み立てへの変換に与える影響と今後の研究の方向性について考察する。

In this paper we pose the question of how one can quantify the amount of entanglement necessary to create a given steering assemblage, when the original state and measurements are unknown. To do this, we extend the concepts of entanglement cost and entanglement of formation to steering assemblages, and show how to upper bound them with semidefinite programming. We prove that the entanglement of formation for assemblages is not generally continuous and not a flat roof extension; and use numerical analysis to illustrate these properties. Finally, we discuss the consequences of these results for assemblage-to-assemblage conversion and directions for further research.
翻訳日:2023-04-12 22:04:07 公開日:2021-03-18
# パーソナルサイエンスのポートフォリオ開発に焦点を当てた早期研究者のための研修プログラム

A training programme for early-stage researchers that focuses on developing personal science outreach portfolios ( http://arxiv.org/abs/2103.03109v2 )

ライセンス: Link先を確認
Shaeema Zaman Ahmed, Arthur Hjorth, Janet Frances Rafner, Carrie Ann Weidner, Gitte Kragh, Jesper Hasseriis Mohr Jensen, Julien Bobroff, Kristian Hvidtfelt Nielsen, Jacob Friis Sherson(参考訳) アウトリーチスキルの開発は、専門家でない聴衆に仕事を伝える際、研究者にとって重要である。 しかし、正式なトレーニングがないため、研究者は通常、アウトリーチトレーニングの利点に気付いておらず、しばしばアウトリーチを過小評価する。 本稿では,量子物理学の博士課程生の国際ネットワークを用いて,様々な実装可能なアウトリーチ製品からなるアウトリーチポートフォリオを作成することにより,アウトリーチスキルと関連する専門的メリットの理解に焦点をあてたトレーニングプログラムを提案する。 我々は,我々のアプローチを解説し,影響を評価し,将来的な科学分野にまたがる同様のプログラムを設計するためのガイドラインのリストを提供する。

Development of outreach skills is critical for researchers when communicating their work to non-expert audiences. However, due to the lack of formal training, researchers are typically unaware of the benefits of outreach training and often under-prioritize outreach. We present a training programme conducted with an international network of PhD students in quantum physics, which focused on developing outreach skills and an understanding of the associated professional benefits by creating an outreach portfolio consisting of a range of implementable outreach products. We describe our approach, assess the impact, and provide a list of guidelines for designing similar programmes across scientific disciplines in the future.
翻訳日:2023-04-09 02:28:27 公開日:2021-03-18
# 静的非結合型マルチキュービットキャビティQEDシステムにおける強パラメトリック分散シフト

Strong parametric dispersive shifts in a statically decoupled multi-qubit cavity QED system ( http://arxiv.org/abs/2103.09277v2 )

ライセンス: Link先を確認
T. Noh and Z. Xiao and K. Cicak and X. Y. Jin and E. Doucet and J. Teufel and J. Aumentado and L. C. G. Govia and L. Ranzani and A. Kamal and R. W. Simmonds(参考訳) Cavity Quant Electrodynamics (QED) は量子シミュレーションと計算のための新しいシステムを開発する上で重要である。 キャビティQEDシステムの分散シフトを調整する能力は、量子測定や論理的な操作を行うためのより多くの機能を提供する。 ここでは、共有dc-squidを介して、2つのトランスモンキュービットを一括要素キャビティに結合する。 我々の設計では、両キュービットがキャビティから高度に分離され、デコヒーレンスプロセスから保護されるように、相互の容量的および誘導的回路コンポーネントのバランスをとる。 振動流束でsquidをパラメトリックに駆動することで、量子ビットとキャビティとの相互作用を動的に独立に調整できることを示す。 この空洞QED相互作用の強度と変形は、パラメトリックポンプ周波数と振幅の選択によって完全に制御できる。 実演として,両キュービットのパルスパラメトリック分散読み出しを行い,キャビティから静的に分離した。 キャビティモードの分散周波数シフトは、より詳細な理論調査によって支持される単純な理論に基づく期待の大きさと符号に従う。 このパラメトリックアプローチは、マルチキュービットパリティ読み出し、状態と絡み合いの安定化、パラメトリック論理ゲートによる絡み合いや誤り訂正など、将来の様々な応用で量子情報システムを開発するための新しい調整可能なキャビティQEDフレームワークを作成する。

Cavity quantum electrodynamics (QED) with in-situ tunable interactions is important for developing novel systems for quantum simulation and computing. The ability to tune the dispersive shifts of a cavity QED system provides more functionality for performing either quantum measurements or logical manipulations. Here, we couple two transmon qubits to a lumped-element cavity through a shared dc-SQUID. Our design balances the mutual capacitive and inductive circuit components so that both qubits are highly decoupled from the cavity, offering protection from decoherence processes. We show that by parametrically driving the SQUID with an oscillating flux it is possible to independently tune the interactions between either of the qubits and the cavity dynamically. The strength and detuning of this cavity QED interaction can be fully controlled through the choice of the parametric pump frequency and amplitude. As a practical demonstration, we perform pulsed parametric dispersive readout of both qubits while statically decoupled from the cavity. The dispersive frequency shifts of the cavity mode follow the expected magnitude and sign based on simple theory that is supported by a more thorough theoretical investigation. This parametric approach creates a new tunable cavity QED framework for developing quantum information systems with various future applications, such as entanglement and error correction via multi-qubit parity readout, state and entanglement stabilization, and parametric logical gates.
翻訳日:2023-04-07 23:23:57 公開日:2021-03-18
# 有限次元近似特性を持つ量子状態について

On quantum states with a finite-dimensional approximation property ( http://arxiv.org/abs/2103.09626v2 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) 我々は、すべての有限の階数状態と無限の階数状態を含む量子状態のクラス(凸集合)を、固有値(特にすべてのガウス状態)を減少させるのに十分な速度で考える。 このクラスの量子状態は、量子系とチャネルの基本的なエントロピーおよび情報特性の有限次元近似に関するいくつかの結果が得られる特性(FA-プロパティと呼ばれる)によって特徴づけられる。 FA-プロパティの簡単な条件を得る。 この性質はフォン・ノイマンのエントロピーの有限性を意味するが、逆の含意に関する問題は未解決である。 我々は,ペア(チャネル,入力状態)とペア(チャネル,入力アンサンブル)による特性の均一な近似結果を得る。 FA-プロパティが入力状態または入力アンサンブルの平均状態に保たれるような強い収束性を持つチャネルw.r.t.の関数として上記の特性の均一連続性を確立する。

We consider a class (convex set) of quantum states containing all finite rank states and infinite rank states with the sufficient rate of decreasing of eigenvalues (in particular, all Gaussian states). Quantum states from this class are characterized by the property (called the FA-property) that allows to obtain several results concerning finite-dimensional approximation of basic entropic and information characteristics of quantum systems and channels. We obtain a simple sufficient condition of the FA-property. We show that this property implies finiteness of the von Neumann entropy, but leave unsolved the question concerning the converse implication. We obtain uniform approximation results for characteristics depending on a pair (channel, input state) and for characteristics depending on a pair (channel, input ensemble). We establish the uniform continuity of the above characteristics as functions of a channel w.r.t. the strong convergence provided that the FA-property holds either for the input state or for the average state of input ensemble.
翻訳日:2023-04-07 21:21:11 公開日:2021-03-18
# 無限次元量子状態の実験スワップ試験

Experimental SWAP test of infinite dimensional quantum states ( http://arxiv.org/abs/2103.10219v1 )

ライセンス: Link先を確認
Chi-Huan Nguyen, Ko-Wei Tseng, Gleb Maslennikov, H. C. J. Gan, and Dzmitry Matsukevich(参考訳) 高次元量子状態の効率的な重なり推定は、量子情報において重要なタスクであり、量子機械学習の計算スピードアップにおけるコア要素である。 ここでは、捕捉された$^{171}\mathrm{Yb}^+$イオン系の2つの運動状態の重なりを測定するSWAP試験を実験的に実証する。 実装の汎用性を説明するために、フォック状態、コヒーレント状態、圧縮真空状態、キャット状態といった様々な量子状態の重なり測定を報告する。 混合状態の純度を測定することでSWAP試験の適用性を強調した。 その結果,高次元量子状態を用いた量子情報処理が可能となった。

Efficient overlap estimation of high-dimensional quantum states is an important task in quantum information and a core element in computational speedups of quantum machine learning. Here we experimentally demonstrate the SWAP test that measures the overlap of two motional states in a system of trapped $^{171}\mathrm{Yb}^+$ ions. To illustrate the versatility of our implementation, we report the overlap measurement of a variety of quantum states: Fock states, coherent states, squeezed vacuum states, and cat states. We highlight applications of the SWAP test by measuring the purity of mixed states. Our results enable quantum information processing with high dimensional quantum states.
翻訳日:2023-04-07 18:59:10 公開日:2021-03-18
# 限られた資源と信頼できないTPを用いた半量子インスパイアされた軽量量子キー分布

Semi-Quantum Inspired Lightweight Mediated Quantum Key Distribution with Limited Resource and Untrusted TP ( http://arxiv.org/abs/2103.10119v1 )

ライセンス: Link先を確認
Cheng-Ching Kuo and Tzonelih Hwang(参考訳) 半量子インスパイアされた軽量プロトコルは、量子プロトコルの実現において重要な研究課題である。 しかしながら、以前の半量子論に触発された軽量媒介量子鍵分布(sqil-mqkd)プロトコルはベル状態を使用するかベル状態を測定する必要がある。 ベル状態の生成と測定は単一の光子よりも困難で高価である。 この問題を解決するために,リソースプロトコルを限定した半量子インスパイアされた軽量量子鍵分布を提案する。 このプロトコルでは、信頼できない第三者(TP)は単一の光子に関連する量子演算のみを実行する必要があり、参加者は2つの量子演算のみを実行する必要がある。 さらに、このプロトコルは集団攻撃下で堅牢であることが示されている。

Semi-quantum inspired lightweight protocol is an important research issue in realization of quantum protocols. However, the previous semi-quantum inspired lightweight mediated quantum key distribution (SQIL-MQKD) protocols need to use the Bell states or measure the Bell states. The generation and measurement of Bell states are more difficult and expensive than those of single photons. To solve this problem, a semi-quantum inspired lightweight mediated quantum key distribution with limited resource protocol is proposed. In this protocol, an untrusted third party (TP) only needs to perform the quantum operations related to single photons and the participants only have to perform two quantum operations: (1) reflecting qubits without disturbance (2) performing unitary operations on single photons. In addition, this protocol is showed to be robust under the collective attack.
翻訳日:2023-04-07 18:58:58 公開日:2021-03-18
# 絡み合った2光子分光の実験的要件

Experimental requirements for entangled two-photon spectroscopy ( http://arxiv.org/abs/2103.10079v1 )

ライセンス: Link先を確認
Stefan Lerch and Andr\'e Stefanov(参考訳) 絡み合った2光子分光法は、古典的プロトコルと比較して利点が期待できる。 エネルギー絡み合った光子のスペクトル特性をコヒーレントに制御することで達成される。 ここでは,エンタングル光子のスペクトル形状を高分解能で表現する実験を行う。 非線型結晶中の総和周波数を検知してその性能を評価する。 プロセスの効率は、古典的または絡み合った光で行う際に比較される。

Entangled two-photon spectroscopy is expected to provide advantages compared with classical protocols. It is achieved by coherently controlling the spectral properties of energy-entangled photons. We present here an experimental setup that allows the spectral shaping of entangled photons with high resolution. We evaluate its performances by detecting sum frequency generation in a non-linear crystal. The efficiency of the process is compared when performed with classical or entangled light.
翻訳日:2023-04-07 18:58:26 公開日:2021-03-18
# スーパーバンチング擬熱光を生成するシンプルで効率的な方法

Simple and efficient way to generate superbunching pseudothermal light ( http://arxiv.org/abs/2103.09981v1 )

ライセンス: Link先を確認
Jianbin Liu, Rui Zhuang, Xuexing Zhang, Chaoqi Wei, Huaibin Zheng, Yu Zhou, Hui Chen, Yuchen He, and Zhuo Xu(参考訳) 回転するグラウンドグラスの前にレーザー光の強度を変調することにより、よく知られた擬似熱光源を、散乱光の2次コヒーレンス度が2より大きいスーパーバンチング擬似熱光源に変えることができる。 二元分布に追従した変調強度により、熱光や擬熱光よりもはるかに大きい20.45と227.07の2次コヒーレンスと3次コヒーレンスの程度を実験的に観測した。 数値シミュレーションにより、二進分布のパラメータをチューニングすることで、二階コヒーレンスの程度をさらに改善できると予測される。 また、この重畳された擬熱光により、時間的ゴーストイメージングの質を向上させることができると予測されている。 この単純で効率的な擬似熱源は、熱的または擬熱的光源が使用されるこれらのシナリオにおいて、光の二階および高階の干渉を研究するための興味深い代替手段を提供する。

By modulating the intensity of laser light before the rotating groundglass, the well-known pseudothermal light source can be modified into superbunching pseudothermal light source, in which the degree of second-order coherence of the scattered light is larger than 2. With the modulated intensities following binary distribution, we experimentally observed the degree of second- and third-order coherence equaling 20.45 and 227.07, which is much larger than the value of thermal or pseudothermal light, 2 and 6, respectively. Numerical simulation predicts that the degree of second-order coherence can be further improved by tuning the parameters of binary distribution. It is also predicted that the quality of temporal ghost imaging can be improved with this superbunching pseudothermal light. This simple and efficient superbunching pseudothermal light source provides an interesting alternative to study the second- and higher-order interference of light in these scenarios where thermal or pseudothermal light source were employed.
翻訳日:2023-04-07 18:57:56 公開日:2021-03-18
# 真のマルチモード絡み合いの局所化:非ガウス性による非対称ゲイン

Localizing genuine multimode entanglement: Asymmetric gains via non-Gaussianity ( http://arxiv.org/abs/2103.10388v1 )

ライセンス: Link先を確認
Ratul Banerjee, Saptarshi Roy, Tamoghna Das, Aditi Sen De(参考訳) 測定に基づく量子相関は、多部量子相関のいくつかの特性を模倣すると同時に、親系をより小さなサブシステムに還元する。 一方で、真の多成分絡み合い測度は、二成分量子相関量子化子を介してアクセスできない多成分複合系の特定の特徴を捉えることができる。 連続変数系に対して局所化可能な真のマルチモード絡み合いを導入することで,これら2つの概念を融合する。 本稿では,複数モードのガウス状態に対する局所化可能な一般化幾何測度のコンパクトな形式について報告する。 非ガウス測度はガウス測度よりも真の多モード絡み合いに集中できることを示す。 非ガウス測度を持つ非ガウス測度の場合、第1モードと第3モード、第2モードと第4モードの交換に関して4モードの圧縮真空状態は置換対称性を持つが、この対称性は減算時に追加モードの1つのモードで測定を行うことによって破れることが判明し、そのような対称性は局所化によって多重モードの光子付加状態と減算状態の区別方法を提供する。

Measurement-based quantum correlation mimics several characteristics of multipartite quantum correlations and at the same time, it reduces the parent system to a smaller subsystem. On the other hand, genuine multipartite entanglement measures can capture certain features of a multisite composite system that are inaccessible via bipartite quantum correlation quantifiers. We merge these two concepts by introducing localizable genuine multimode entanglement for continuous variable systems, both for Gaussian and non-Gaussian multimode parent states. We report a compact form of localizable generalized geometric measure for multimode Gaussian states when Gaussian measurements are performed in some of the modes. We show that non-Gaussian measurements can concentrate more genuine multimode entanglement compared to the Gaussian ones. For non-Gaussian states with non-Gaussian measurements, we find that although four-mode squeezed vacuum state has permutation symmetry with respect to the exchange of first and third modes as well as the second and the fourth modes, the symmetry can be broken by performing measurements in one of the modes in case of addition while for subtraction, such symmetry is preserved, thereby providing a method for distinguishing multimode photon-added and -subtracted states via localizations.
翻訳日:2023-04-07 18:50:30 公開日:2021-03-18
# 技術レビュー:ナノスケールの弱い磁場パターンのイメージングと2次元材料への応用

Technical Review: Imaging weak magnetic field patterns on the nanometer-scale and its application to 2D materials ( http://arxiv.org/abs/2103.10382v1 )

ライセンス: Link先を確認
Estefani Marchiori, Lorenzo Ceccarelli, Nicola Rossi, Luca Lorenzelli, Christian L. Degen, and Martino Poggio(参考訳) 磁化と電流密度のナノメータスケールイメージングは、様々な新しい、理解が不十分な物質現象の背後にあるメカニズムを解読する鍵となる。 ツイスト二層グラフェンやファンデルワールスヘテロ構造などの原子層材料にホストされている最近発見された相関状態は注目すべき例である。 これらの状態は超伝導から高い絶縁状態、磁性まで様々である。 空間的不均一性に対する脆弱さと感受性は、その巨視的な発現を制限し、試料全体を統合する従来の輸送または磁化測定を複雑化する。 対照的に、高空間分解能の弱い磁場パターンを撮像する技術は、磁化と電流密度によって生じる局所磁場を測定することによって不均一性を克服する。 既にそのようなイメージング技術は、ツイスト二層グラフェンのツイストアングル障害に対する相関状態の脆弱性を示し、量子ホール状態における複雑な電流の流れを明らかにしている。 本稿では, 磁気力顕微鏡, 超伝導量子干渉素子顕微鏡, 窒素空孔中心顕微鏡など, 高い磁場感度と高い空間分解能を両立させ, 最小限の侵襲性を有するため, それらの研究に最も寄与する最先端技術について概説する。 これらの手法の能力と必要な動作条件を比較し,異なる種類のソースコントラスト,特に磁化および電流密度に対する適合性を評価する。 最後に,2次元材料(2次元)の急速に成長する分野において,各技術の改善に焦点をあて,その潜在的な影響を推察する。

Nanometer-scale imaging of magnetization and current density is the key to deciphering the mechanisms behind a variety of new and poorly understood condensed matter phenomena. The recently discovered correlated states hosted in atomically layered materials such as twisted bilayer graphene or van der Waals heterostructures are noteworthy examples. Manifestations of these states range from superconductivity, to highly insulating states, to magnetism. Their fragility and susceptibility to spatial inhomogeneities limits their macroscopic manifestation and complicates conventional transport or magnetization measurements, which integrate over an entire sample. In contrast, techniques for imaging weak magnetic field patterns with high spatial resolution overcome inhomogeneity by measuring the local fields produced by magnetization and current density. Already, such imaging techniques have shown the vulnerability of correlated states in twisted bilayer graphene to twist-angle disorder and revealed the complex current flows in quantum Hall edge states. Here, we review the state-of-the-art techniques most amenable to the investigation of such systems, because they combine the highest magnetic field sensitivity with the highest spatial resolution and are minimally invasive: magnetic force microscopy, scanning superconducting quantum interference device microscopy, and scanning nitrogen-vacancy center microscopy. We compare the capabilities of these techniques, their required operating conditions, and assess their suitability to different types of source contrast, in particular magnetization and current density. Finally, we focus on the prospects for improving each technique and speculate on its potential impact, especially in the rapidly growing field of two-dimensional (2D) materials.
翻訳日:2023-04-07 18:50:05 公開日:2021-03-18
# 量子ゲートへの$\sqrt{\mathrm {\mathrm{SWAP}}} 適用時の劣化雑音に対するクラウス作用素の可視化

Visualizing Kraus operators for dephasing noise during application of the $\sqrt{\mathrm{\mathrm{SWAP}}}$ quantum gate ( http://arxiv.org/abs/2103.10375v1 )

ライセンス: Link先を確認
Nicolas Andr\'e da Costa Morazotti and Reginaldo de Jesus Napolitano(参考訳) 我々は、量子ゲートが$\sqrt{\mathrm{SWAP}}$の場合と、その最適化されたエンタングリング動作を連続的動的デカップリングを介して、デフォーカスノイズの存在下で考える。 2量子ビット演算のみが制御され、1量子ビット演算が記述に含まれない特定の場合の手順を説明する。 雑音の存在下での最適化されたダイナミクスと理想的な場合を比較するために、標準忠実度尺度を用いる。 次に,量子演算確率理論における最適化ゲートの利用の重要性について考察する。 操作を表す完全正の写像を明示的に構築することの重要性から、この特定の場合において最適化されたクラウス作用素を導出し、絡み合い演算に焦点をあてる。 次に、各クラウス作用素の時間発展を3次元ユークリッド空間の曲線として視覚化する方法を示す。 最後に、この定式化を量子力学の操作の枠組みと結びつけて、クラウス作用素を得るために実行可能な測定のセットを記述する。

We consider the case of a $\sqrt{\mathrm{SWAP}}$ quantum gate and its optimized entangling action, via continuous dynamical decoupling, in the presence of dephasing noise. We illustrate the procedure in the specific case where only the two-qubit operation is controlled and no single-qubit operations are included in the description. To compare the optimized dynamics in the presence of noise with the ideal case, we use the standard fidelity measure. Then we discuss the importance of using optimized gates in the quantum operational-probabilistic theory. Because of their importance for the explicit construction of the completely positive maps representing the operations, we derive optimized Kraus operators in this specific case, focusing on the entanglement operation. We then show how to visualize the time evolution of each Kraus operator as a curve in a three-dimensional Euclidean space. Finally, we connect this formalism with the operational framework of quantum mechanics by describing a possible set of measurements that could be performed to obtain the Kraus operators.
翻訳日:2023-04-07 18:49:37 公開日:2021-03-18
# 格子モデルに対するワイル・ウィグナー計算へのコメント

Comments on the Weyl-Wigner calculus for lattice models ( http://arxiv.org/abs/2103.10351v1 )

ライセンス: Link先を確認
Felix A. Buot(参考訳) 本稿では、凝縮体物理学でよく発達した離散ワイルウィグナー(w-w)形式論と、最近文献に登場したいわゆる「格子モデルのための先行ワイルウィグナー計算」の物理的側面を明らかにする。 離散格子モデルに対するコンパクトな連続運動量空間の使用は非物理的に確立される。 非可換位相空間を持ち、非常に非物理的であり、固体物理学のコンパクト化されたブラヴェイ格子のボルン=ヴォン・カルマン境界条件で示されるような有限体面を欠いている。 この新しいW-W形式は単に単射フーリエ変換を欠き、量子物理学の正準共役動的変数の不確実性原理を支持することが知られている。 さらに、格子モデルのこの新しいW-W形式は、2つの離散格子場を表す量子物理学の扱いに失敗した。

Here, we clarify the physical aspects between the discrete Weyl-Wigner (W-W) formalism, well developed in condensed matter physics, and the so-called 'precise Weyl-Wigner calculus for lattice models' recently appearing in the literature. We point out that the use of compact continuous momentum space for a discrete lattice model is unphysically founded. It has an incommensurate phase space, highly unphysical, lacks the finite fields aspects, as exemplified by the Born-von Karman boundary condition of compactified Bravais lattice of solid-state physics, and leads to several ambiguities. This new W-W formalism simply lacks bijective Fourier transformation, which is well-known to support the uncertainty principle of canonical conjugate dynamical variables of quantum physics. Moreover, this new W-W formalism for lattice models failed to handle the quantum physics of qubits, representing two discrete lattice sites.
翻訳日:2023-04-07 18:49:17 公開日:2021-03-18
# モジュラー準ループモデルを用いた回路量子電磁力学(cQED)

Circuit quantum electrodynamics (cQED) with modular quasi-lumped models ( http://arxiv.org/abs/2103.10344v1 )

ライセンス: Link先を確認
Zlatko K. Minev, Thomas G. McConkey, Maika Takita, Antonio D. Corcoles, Jay M. Gambetta(参考訳) 相互作用する量子情報処理システムのハミルトニアンの抽出は、複雑な現象や大規模量子コンピュータの実現において重要な問題である。 磁場の顕著な成長は、物理回路の量子電磁力学をモデル化できる正確で広く応用可能なモジュラー法や、より部分的な再正規化効果でさえますます必要となる。 本稿では,これらの基準を満たす計算効率の高い手法を提案する。 この方法は、量子デバイスをコンパクトなラッピングまたは準分散セルに分割する。 それぞれが個別にシミュレートされる。 その後、複合システムは縮小され、単純なサブシステム構築ブロックとそのペアの相互作用にマッピングされる。 この方法は準結合近似内で動作し、さらに近似することなく、制約、カップリング、パラメータ再正規化、非摂動負荷効果を体系的に考慮する。 本手法を大規模かつ最先端の超伝導量子プロセッサで実験的に検証する。 本手法は, 測定装置の最も敏感で服装のよいハミルトニアンパラメータに対して, 標準カップリング近似を2倍超えることで, 実験結果の一致性を向上させることを見出した。

Extracting the Hamiltonian of interacting quantum-information processing systems is a keystone problem in the realization of complex phenomena and large-scale quantum computers. The remarkable growth of the field increasingly requires precise, widely-applicable, and modular methods that can model the quantum electrodynamics of the physical circuits, and even of their more-subtle renormalization effects. Here, we present a computationally-efficient method satisfying these criteria. The method partitions a quantum device into compact lumped or quasi-distributed cells. Each is first simulated individually. The composite system is then reduced and mapped to a set of simple subsystem building blocks and their pairwise interactions. The method operates within the quasi-lumped approximation and, with no further approximation, systematically accounts for constraints, couplings, parameter renormalizations, and non-perturbative loading effects. We experimentally validate the method on large-scale, state-of-the-art superconducting quantum processors. We find that the full method improves the experimental agreement by a factor of two over taking standard coupling approximations when tested on the most sensitive and dressed Hamiltonian parameters of the measured devices.
翻訳日:2023-04-07 18:48:58 公開日:2021-03-18
# maxvolアルゴリズムに基づく土壌サンプリングの最適設計

Optimal soil sampling design based on the maxvol algorithm ( http://arxiv.org/abs/2103.10337v1 )

ライセンス: Link先を確認
Anna Petrovskaia, Gleb Ryzhakov, Ivan Oseledets(参考訳) 空間土壌サンプリングは土壌マップの作成を目的とした土壌調査の不可欠な部分である。 最適設計の課題として土壌サンプリング手法を提案する。 実用的には、最適な実験は実験のコストを削減し、研究者は一つの最適な点を得ることができる。 マキシブルアルゴリズムと呼ばれる最適な設計手法により,サンプル位置を選択するという基本的な考え方に基づくサンプリング設計を提案する。 その結果,maxvol-baseアルゴリズムは実用的利用の可能性が高いことがわかった。 本手法は,現地の地形的特徴に基づく土壌分類学的予測における一般的なサンプリング手法を上回り,合理的な時間内に大規模農業データセットを扱う。

Spatial soil sampling is an integral part of a soil survey aimed at creating a soil map. We propose considering the soil sampling procedure as a task of optimal design. In practical terms, optimal experiments can reduce experimentation costs, as they allow the researcher to obtain one optimal set of points. We present a sampling design, based on the fundamental idea of selecting sample locations by performing an optimal design method called the maxvol algorithm. It is shown that the maxvol-base algorithm has a high potential for practical usage. Our method outperforms popular sampling methods in soil taxa prediction based on topographical features of the site and deals with massive agricultural datasets in a reasonable time.
翻訳日:2023-04-07 18:48:38 公開日:2021-03-18
# 線形系を解くための高速量子インスパイアアルゴリズム

Faster quantum-inspired algorithms for solving linear systems ( http://arxiv.org/abs/2103.10309v1 )

ライセンス: Link先を確認
Changpeng Shao and Ashley Montanaro(参考訳) 量子線形解法で用いられるQRAMに類似したモデルで線形系を解くための古典的アルゴリズムを改良した。 正確には、線形システム $A\x = \b$ に対して、$\x$ に対してデータ構造を出力する古典的アルゴリズムがあることを示し、$\x$ は$\|\x - A^{-1}\b\|\leq \epsilon \|A^{-1}\b\|$ である。 この出力は量子線形解法の出力の古典的な類似物と見なすことができる。 アルゴリズムの複雑さは$\widetilde{O}(\kappa_F^6 \kappa^2/\epsilon^2 )$, $\kappa_F = \|A\|_F\|A^{-1}\|$, $\kappa = \|A\|\|A^{-1}\|$である。 これにより、以前の最良のアルゴリズム (Gily{\'e}n, Song and Tang, arXiv:2009.07268] の複雑さ$\widetilde{O}(\kappa_F^6 \kappa^6/\epsilon^4)$ が改善される。 このアルゴリズムは確率勾配降下の特別な場合であるランダム化Kaczmarz法に基づいている。 また、$a$ が行スパースである場合、このメソッドはすでに近似解 $\x$ in time $\widetilde{o}(\kappa_f^2)$ を返しますが、既知の最良の量子アルゴリズムは$\ket{\x}$ in time $\widetilde{o}(\kappa_f)$ をqramデータ構造に格納すると返します。 その結果、QRAMへのアクセスと$A$が行スパースであれば、現在の量子アルゴリズムに基づくスピードアップは二次的である。

We establish an improved classical algorithm for solving linear systems in a model analogous to the QRAM that is used by quantum linear solvers. Precisely, for the linear system $A\x = \b$, we show that there is a classical algorithm that outputs a data structure for $\x$ allowing sampling and querying to the entries, where $\x$ is such that $\|\x - A^{-1}\b\|\leq \epsilon \|A^{-1}\b\|$. This output can be viewed as a classical analogue to the output of quantum linear solvers. The complexity of our algorithm is $\widetilde{O}(\kappa_F^6 \kappa^2/\epsilon^2 )$, where $\kappa_F = \|A\|_F\|A^{-1}\|$ and $\kappa = \|A\|\|A^{-1}\|$. This improves the previous best algorithm [Gily{\'e}n, Song and Tang, arXiv:2009.07268] of complexity $\widetilde{O}(\kappa_F^6 \kappa^6/\epsilon^4)$. Our algorithm is based on the randomized Kaczmarz method, which is a particular case of stochastic gradient descent. We also find that when $A$ is row sparse, this method already returns an approximate solution $\x$ in time $\widetilde{O}(\kappa_F^2)$, while the best quantum algorithm known returns $\ket{\x}$ in time $\widetilde{O}(\kappa_F)$ when $A$ is stored in the QRAM data structure. As a result, assuming access to QRAM and if $A$ is row sparse, the speedup based on current quantum algorithms is quadratic.
翻訳日:2023-04-07 18:48:22 公開日:2021-03-18
# 視力に基づく転倒検出システムのための深層学習:光学ダイナミックフローの強化

Deep Learning for Vision-Based Fall Detection System: Enhanced Optical Dynamic Flow ( http://arxiv.org/abs/2104.05744v1 )

ライセンス: Link先を確認
Sagar Chhetri, Abeer Alsadoon, Thair Al Dala in, P. W. C. Prasad, Tarik A. Rashid, Angelika Maag(参考訳) 転倒による死亡・負傷事故を減らすためには,高齢者支援のための正確な転倒検出が重要である。 一方、視覚に基づく転倒検出システムは、転倒を検出するための重要な結果を示している。 それでも、多くの課題を解決する必要がある。 深層学習の影響は、行動認識のような視覚ベースのシステムの景観を変えた。 ディープラーニング技術は,大量の計算パワーと大量のサンプルトレーニングデータを必要とするため,視覚に基づく転倒検出システムでは実現されていない。 本研究は,室内の光条件の変化など複雑な環境下での転倒検出の精度を向上させる視覚に基づく転倒検出システムを提案する。 また,本研究の目的は,映像の前処理性能の向上である。 提案方式は,光学フロービデオの時間データをランクプーリング法で符号化し,転倒検出の処理時間を短縮し,動的照明条件における分類精度を向上する拡張動的光学フロー技術により構成される。 その結果, 落下検出の分類精度は約3%向上し, 処理時間は40~50ms向上した。 提案システムは,転倒検出の処理時間を短縮し,分類精度を向上させることに集中する。 一方、ダイナミック光学フロー技術を用いて、映像を単一の画像に要約する機構を提供し、画像前処理のステップの性能を向上させるのに役立つ。

Accurate fall detection for the assistance of older people is crucial to reduce incidents of deaths or injuries due to falls. Meanwhile, a vision-based fall detection system has shown some significant results to detect falls. Still, numerous challenges need to be resolved. The impact of deep learning has changed the landscape of the vision-based system, such as action recognition. The deep learning technique has not been successfully implemented in vision-based fall detection systems due to the requirement of a large amount of computation power and the requirement of a large amount of sample training data. This research aims to propose a vision-based fall detection system that improves the accuracy of fall detection in some complex environments such as the change of light condition in the room. Also, this research aims to increase the performance of the pre-processing of video images. The proposed system consists of the Enhanced Dynamic Optical Flow technique that encodes the temporal data of optical flow videos by the method of rank pooling, which thereby improves the processing time of fall detection and improves the classification accuracy in dynamic lighting conditions. The experimental results showed that the classification accuracy of the fall detection improved by around 3% and the processing time by 40 to 50ms. The proposed system concentrates on decreasing the processing time of fall detection and improving classification accuracy. Meanwhile, it provides a mechanism for summarizing a video into a single image by using a dynamic optical flow technique, which helps to increase the performance of image pre-processing steps.
翻訳日:2023-04-07 18:40:09 公開日:2021-03-18
# I型SPDCにおける周波数アンタングル双光子ビームを用いたDNAとメチレンブルーの高精度量子透過率

High-precision Quantum Transmitometry of DNA and Methylene-Blue using a Frequency-Entangled Twin-Photon Beam in Type-I SPDC ( http://arxiv.org/abs/2103.10955v1 )

ライセンス: Link先を確認
Ali Motazedifard and S. A. Madani(参考訳) Using the coincidence-count (CC) measurement of the generated frequency-entangled twin-photons beam (TWB) via the process of type-I spontaneous parametric-down conversion (SPDC) in BBO nonlinear crystal (NLC), we have precisely measured the transmittance of very diluted Rabbit- and Human-DNA, Methylene-Blue (MB), as a disinfectant, and thin-film multilayer at near IR wavelength 810nm with an accuracy in order of $\% 0.01 $ due to the quantum correlation, while accuracy of classical-like measurement, single-count (SC), is in order of $\% 0.1 $ in our setup. さらに、透過率の量子測定により、同じ濃度の異なるDNAの種類と、非常に希薄な(pg/$ \mu $lの順に)異なるDNAとMB溶液の濃度を区別し、高い信頼性で検出する。 興味深いことに、人間-dnaサンプルの場合、古典的な測定とは対照的に、2つの非常に希薄な濃度である 0.01\rm ng/\mu l $ と 0.1\rm ng/\mu l $ を高い信頼性で正確に検出し識別することができた。 驚くべきことに、薄膜多層膜の測定は、この研究で導入された方法ががん治療のためにがん/脳組織または幹細胞に行われる可能性を示しており、将来的には非侵襲的な量子診断のための舗装とプラットフォームを開くことを願っている。

Using the coincidence-count (CC) measurement of the generated frequency-entangled twin-photons beam (TWB) via the process of type-I spontaneous parametric-down conversion (SPDC) in BBO nonlinear crystal (NLC), we have precisely measured the transmittance of very diluted Rabbit- and Human-DNA, Methylene-Blue (MB), as a disinfectant, and thin-film multilayer at near IR wavelength 810nm with an accuracy in order of $\% 0.01 $ due to the quantum correlation, while accuracy of classical-like measurement, single-count (SC), is in order of $\% 0.1 $ in our setup. Moreover, using quantum measurement of the transmittance, the different types of DNA with the same concentration, and also very diluted (in order of pg/$ \mu $l) different concentrations of DNA and MB solutions are distinguished and detected with high-reliability. Interestingly, in case of Human-DNA samples in contrast to our classical-like measurement we could precisely detect and distinguish two very diluted concentrations $ 0.01\rm ng/\mu l $ and $ 0.1\rm ng/\mu l $ with high reliability while commercial standard spectrometer device of our DNA-manufacturer never could detect and distinguish them. Surprisingly, measurement on the thin-film multilayer illustrates that the introduced method in this work might be performed to cancer/brain tissues or Stem cells for cancer therapy, and may hopefully open a pave and platform for non-invasive quantum diagnosis in future.
翻訳日:2023-04-07 18:39:48 公開日:2021-03-18
# スペクトル時間絡みによる2光子吸収の増強の定量化

Quantifying the enhancement of two-photon absorption due to spectral-temporal entanglement ( http://arxiv.org/abs/2103.10530v1 )

ライセンス: Link先を確認
Tiemo Landes, Michael G. Raymer, Markus Allgaier, Sofiane Merkouche, Brian J. Smith, and Andrew H. Marcus(参考訳) 時間周波数エンタングル光子対(epp)の低フラックスが2光子遷移を照らすと、光子数相関と周波数相関の量子特性により、2光子吸収率(tpa)を大きく向上させることができる。 本稿では、絡み合ったTPA(ETPA)の量子論的導出を行い、そのようなシステムで可能な量子拡張量の上限を計算する。 導出境界は、ETPAを観測するためには、典型的な実験よりもEPP照明率、分子濃度、従来のTPA断面積のかなり高い組み合わせで実験を行う必要があることを示唆している。

When a low flux of time-frequency-entangled photon pairs (EPP) illuminates a two-photon transition, the rate of two-photon absorption (TPA) can be enhanced considerably by the quantum nature of photon number correlations and frequency correlations. We present a quantum-theoretic derivation of entangled TPA (ETPA) and calculate an upper bound on the amount of quantum enhancement that is possible in such systems. The derived bounds indicate that in order to observe ETPA the experiments would need to operate at a combination of significantly higher rates of EPP illumination, molecular concentrations, and conventional TPA cross sections than are achieved in typical experiments.
翻訳日:2023-04-07 18:39:21 公開日:2021-03-18
# 構造化環境における駆動二部量子系の量子相関と幾何位相の促進

Enhancement of quantum correlations and geometric phase for a driven bipartite quantum system in a structured environment ( http://arxiv.org/abs/2103.10528v1 )

ライセンス: Link先を確認
Paula I. Villar and Alejandro Soba(参考訳) 本研究は, 弱強体制下における構造環境下で発達する初期最大絡み状態における運転の役割について考察する。 我々は,系が一般進化の共振と脱共振によって駆動される場合の最大共起の増大と劣化に焦点をあて,モデルの粒子間に横結合を加える効果について検討した。 さらに,最大絡み合い状態に対する幾何位相獲得における駆動の役割についても検討した。 ここで研究されたモデルは、現在の技術で実現可能なハイブリッド量子古典システムのような実験的な状況のモデル化に利用できるため、この知識は、散逸力学の下で量子特性を最もよく保持する物理装置の探索に役立つ。

We study the role of driving in an initial maximally entangled state evolving under the presence of a structured environment in a weak and strong regime. We focus on the enhancement and degradation of maximal Concurrence when the system is driven on and out of resonance for a general evolution, as well as the effect of adding a transverse coupling among the particles of the model. We further investigate the role of driving in the acquisition of a geometric phase for the maximally entangled state. As the model studied herein can be used to model experimental situations such as hybrid quantum classical systems feasible with current technologies, this knowledge can aid the search for physical setups that best retain quantum properties under dissipative dynamics.
翻訳日:2023-04-07 18:39:09 公開日:2021-03-18
# ソリトンマイクロコンボの量子光学

Quantum optics of soliton microcombs ( http://arxiv.org/abs/2103.10517v1 )

ライセンス: Link先を確認
Melissa A. Guidry, Daniil M. Lukin, Ki Youl Yang, Rahul Trivedi, Jelena Vu\v{c}kovi\'c(参考訳) 位相同期マイクロキャビティ周波数コムのソリトン・マイクロコムは、分光法、LiDAR、光コンピューティングなど、いくつかの古典的な技術の基礎となっている。 予測されたマルチモードの絡み合いにもかかわらず、ソリトン・マイクロコムの量子光学の実験は明らかにされている。 本研究では,二階光子相関を用いて,シリコン炭化物マイクロ共振器におけるソリトンマイクロコンブの量子過程の研究を行う。 ソリトンの安定な時間格子は、コヒーレント光の任意の混和から、threshold gaussian状態のマルチモードを分離することができ、その状態に対して全対全の絡み合いを実現できることを予測できる。 我々の研究はソリトンベースのマルチモード量子資源への道を開く。

Soliton microcombs -- phase-locked microcavity frequency combs -- have become the foundation of several classical technologies in integrated photonics, including spectroscopy, LiDAR, and optical computing. Despite the predicted multimode entanglement across the comb, experimental study of the quantum optics of the soliton microcomb has been elusive. In this work, we use second-order photon correlations to study the underlying quantum processes of soliton microcombs in an integrated silicon carbide microresonator. We show that a stable temporal lattice of solitons can isolate a multimode below-threshold Gaussian state from any admixture of coherent light, and predict that all-to-all entanglement can be realized for the state. Our work opens a pathway toward a soliton-based multimode quantum resource.
翻訳日:2023-04-07 18:38:56 公開日:2021-03-18
# データサイエンスによるヘイトスピーチへの取り組み--コンピュータサイエンスの視点から

Addressing Hate Speech with Data Science: An Overview from Computer Science Perspective ( http://arxiv.org/abs/2103.10489v1 )

ライセンス: Link先を確認
Ivan Srba, Gabriele Lenzini, Matus Pikuliak, Samuel Pecar(参考訳) コンピュータサイエンスの観点では、オンラインヘイトスピーチに対処することは、業界(主にソーシャルメディアプラットフォーム所有者)と学界の両方の注目を集める難しい課題である。 この章では、最先端のデータサイエンスアプローチ - 彼らがヘイトスピーチをどのように定義するか、その現象を緩和するために解決するタスク、そしてこれらのタスクにどのように対処するか - の概要を説明します。 私たちは調査を主にヘイトスピーチの(半)自動検出に制限しています。 最後に、現在のデータサイエンス研究における課題とオープンな課題と、この分野における今後の方向性について要約する。 本研究の目的は,ヘイトスピーチ研究の多分野特性を促進できる,理解しやすいレポートを作成することである。 他の分野(心理学や社会学など)の研究者は、コンピュータサイエンスの領域で達成された知識を活用でき、また、ソーシャルメディアにおけるヘイトスピーチの流行である緊急かつ社会的に関連する問題に対するコンピュータサイエンスの対処方法の改善にも貢献できる。

From a computer science perspective, addressing on-line hate speech is a challenging task that is attracting the attention of both industry (mainly social media platform owners) and academia. In this chapter, we provide an overview of state-of-the-art data-science approaches - how they define hate speech, which tasks they solve to mitigate the phenomenon, and how they address these tasks. We limit our investigation mostly to (semi-)automatic detection of hate speech, which is the task that the majority of existing computer science works focus on. Finally, we summarize the challenges and the open problems in the current data-science research and the future directions in this field. Our aim is to prepare an easily understandable report, capable to promote the multidisciplinary character of hate speech research. Researchers from other domains (e.g., psychology and sociology) can thus take advantage of the knowledge achieved in the computer science domain but also contribute back and help improve how computer science is addressing that urgent and socially relevant issue which is the prevalence of hate speech in social media.
翻訳日:2023-04-07 18:38:42 公開日:2021-03-18
# 「なぜこの仕事を彼らに割り当てなかったのですか。」 ネゴシエーション・アウェアなタスク割当と対比的説明生成

`Why didn't you allocate this task to them?' Negotiation-Aware Task Allocation and Contrastive Explanation Generation ( http://arxiv.org/abs/2002.01640v3 )

ライセンス: Link先を確認
Zahra Zahedi, Sailik Sengupta, Subbarao Kambhampati(参考訳) タスクアロケーションはマルチエージェントシステムにおいて重要な問題である。 チームメンバーがチームメイトのコストと全体的なパフォーマンス指標について不完全な知識を持つ人間である場合、より難しくなります。 分散タスクアロケーションメソッドは、チームメンバーがコンセンサスに達するために反復的な対話を行うことができるが、プロセスにはかなりの時間とコミュニケーションが必要となる。 一方、アロケーションを単純に出力する集中型手法は、不完全な知識と限られた計算能力のために、アロケーションが不公平であると感じている人間のチームメンバーに不満をもたらす可能性がある。 これらの課題に対処するために,我々は,交渉をシミュレートし,公正な交渉対応タスクアロケーションを生成する,集中型人工知能タスクアロケーション(aita)を提案する。 チームメンバーが提案された割り当てに不満であれば、反事実を使って、提案された割り当てに疑問を投げかけることができます。 模擬交渉の一部を利用することで、他人の費用について最小限の情報を提供するという対照的な説明をすることができる。 人間の研究では,(1)本手法を用いて提案したアロケーションは,実際に多数派に公平に見え,(2)反事実が生じると,生成した説明は理解し,説得し易いことを示す。 最後に、異なる種類の不完全性が説明長に及ぼす影響を実証的に研究し、チームメイトのコストの過小評価がしばしばそれを増加させることを見出します。

Task-allocation is an important problem in multi-agent systems. It becomes more challenging when the team-members are humans with imperfect knowledge about their teammates' costs and the overall performance metric. While distributed task-allocation methods let the team-members engage in iterative dialog to reach a consensus, the process can take a considerable amount of time and communication. On the other hand, a centralized method that simply outputs an allocation may result in discontented human team-members who, due to their imperfect knowledge and limited computation capabilities, perceive the allocation to be unfair. To address these challenges, we propose a centralized Artificial Intelligence Task Allocation (AITA) that simulates a negotiation and produces a negotiation-aware task allocation that is fair. If a team-member is unhappy with the proposed allocation, we allow them to question the proposed allocation using a counterfactual. By using parts of the simulated negotiation, we are able to provide contrastive explanations that providing minimum information about other's costs to refute their foil. With human studies, we show that (1) the allocation proposed using our method does indeed appear fair to the majority, and (2) when a counterfactual is raised, explanations generated are easy to comprehend and convincing. Finally, we empirically study the effect of different kinds of incompleteness on the explanation-length and find that underestimation of a teammate's costs often increases it.
翻訳日:2023-01-03 21:28:06 公開日:2021-03-18
# 深層学習と生理的時系列と臨床ノートの統合によるICU死亡予測の改善

Integrating Physiological Time Series and Clinical Notes with Deep Learning for Improved ICU Mortality Prediction ( http://arxiv.org/abs/2003.11059v2 )

ライセンス: Link先を確認
Satya Narayan Shukla, Benjamin M. Marlin(参考訳) Intensive Care Unit Electronic Health Records (ICU EHRs)は、臨床ノート、スパース、不規則にサンプリングされた生理的時系列、実験結果などを含む患者のマルチモーダルデータを格納する。 ICU EHRデータから予測モデルを学習するために設計されたほとんどの手法は、これまで単一のモダリティに重点を置いてきた。 本稿では,最近提案された補間予測型ディープラーニングアーキテクチャ(ShuklaとMarlin 2019)を,生理的時系列データと臨床ノートを統合的死亡予測モデルに組み込むための基礎として活用する。 早期および後期の融合アプローチについて検討し,臨床テキストと生理データの相対的予測値が時間とともにどのように変化するかを示す。 以上の結果から, 晩期融合アプローチは, 個体差を分離した場合と比較して, 死亡予測性能を統計的に有意に向上できることが示唆された。

Intensive Care Unit Electronic Health Records (ICU EHRs) store multimodal data about patients including clinical notes, sparse and irregularly sampled physiological time series, lab results, and more. To date, most methods designed to learn predictive models from ICU EHR data have focused on a single modality. In this paper, we leverage the recently proposed interpolation-prediction deep learning architecture(Shukla and Marlin 2019) as a basis for exploring how physiological time series data and clinical notes can be integrated into a unified mortality prediction model. We study both early and late fusion approaches and demonstrate how the relative predictive value of clinical text and physiological data change over time. Our results show that a late fusion approach can provide a statistically significant improvement in mortality prediction performance over using individual modalities in isolation.
翻訳日:2022-12-20 08:41:47 公開日:2021-03-18
# 意味保存変換における神経プログラムアナライザの一般化可能性の評価

Evaluation of Generalizability of Neural Program Analyzers under Semantic-Preserving Transformations ( http://arxiv.org/abs/2004.07313v2 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin, Mohammad Amin Alipour(参考訳) 公開されているソースコードリポジトリは、ニューラルネットワークの進歩とともに、プログラム分析のためのデータ駆動アプローチを可能にした。 ニューラルプログラムアナライザと呼ばれるこれらのアプローチは、ニューラルネットワークを使用して、開発生産性からプログラム推論まで、プログラムのパターンを抽出する。 ニューラルプログラムアナライザの人気は高まっているが、その結果が一般化される程度は不明である。 本稿では,7つの意味論的等価なプログラム変換を用いた2つのニューラルネットワーク解析器の一般化可能性の大規模評価を行う。 その結果、多くの場合、ニューラルプログラムアナライザは、しばしば無視可能なテキスト差のあるプログラムに対して、うまく一般化できないことに注意した。 その結果,ニューラルプログラムアナライザのロバスト性を定量化するための最初のステップ石が得られた。

The abundance of publicly available source code repositories, in conjunction with the advances in neural networks, has enabled data-driven approaches to program analysis. These approaches, called neural program analyzers, use neural networks to extract patterns in the programs for tasks ranging from development productivity to program reasoning. Despite the growing popularity of neural program analyzers, the extent to which their results are generalizable is unknown. In this paper, we perform a large-scale evaluation of the generalizability of two popular neural program analyzers using seven semantically-equivalent transformations of programs. Our results caution that in many cases the neural program analyzers fail to generalize well, sometimes to programs with negligible textual differences. The results provide the initial stepping stones for quantifying robustness in neural program analyzers.
翻訳日:2022-12-13 04:23:17 公開日:2021-03-18
# ニューラルアーキテクチャ探索のための幾何アウェア勾配アルゴリズム

Geometry-Aware Gradient Algorithms for Neural Architecture Search ( http://arxiv.org/abs/2004.07802v5 )

ライセンス: Link先を確認
Liam Li, Mikhail Khodak, Maria-Florina Balcan, Ameet Talwalkar(参考訳) ニューラル・アーキテクチャ・サーチ(NAS)の最近の最先端手法は、問題をアーキテクチャや共有重みに対する継続的な最適化に緩和することで勾配に基づく最適化を利用する。 我々は,単一レベルの経験的リスク最小化による重量共有によるnasを理解すること,nas法の設計を最適化器や正規化器に還元することで,この問題に対する高速に高品質な解を得ることができることを議論する。 ミラー降下理論を提唱し、この最適化の基盤となる構造を利用してスパースアーキテクチャパラメータを返却し、高速収束保証を享受し、最新のnasベンチマークで最先端の精度を達成する、単純で新しいアルゴリズムを導出する幾何認識フレームワークを提案する。 特に、DARTS検索空間とNAS-Bench201の両方において、CIFARとImageNetの両方で最も優れた結果が得られ、後者では、CIFAR-10とCIFAR-100のほぼ最適性能を達成する。 この理論と実験により、離散NAS探索空間の最適化と連続緩和を共同設計する方法が実証された。

Recent state-of-the-art methods for neural architecture search (NAS) exploit gradient-based optimization by relaxing the problem into continuous optimization over architectures and shared-weights, a noisy process that remains poorly understood. We argue for the study of single-level empirical risk minimization to understand NAS with weight-sharing, reducing the design of NAS methods to devising optimizers and regularizers that can quickly obtain high-quality solutions to this problem. Invoking the theory of mirror descent, we present a geometry-aware framework that exploits the underlying structure of this optimization to return sparse architectural parameters, leading to simple yet novel algorithms that enjoy fast convergence guarantees and achieve state-of-the-art accuracy on the latest NAS benchmarks in computer vision. Notably, we exceed the best published results for both CIFAR and ImageNet on both the DARTS search space and NAS-Bench201; on the latter we achieve near-oracle-optimal performance on CIFAR-10 and CIFAR-100. Together, our theory and experiments demonstrate a principled way to co-design optimizers and continuous relaxations of discrete NAS search spaces.
翻訳日:2022-12-12 20:44:14 公開日:2021-03-18
# 視覚自己スーパービジョンは感情認識のための音声表現の学習を改善するか?

Does Visual Self-Supervision Improve Learning of Speech Representations for Emotion Recognition? ( http://arxiv.org/abs/2005.01400v3 )

ライセンス: Link先を確認
Abhinav Shukla, Stavros Petridis, Maja Pantic(参考訳) 自己指導型学習は近年多くの研究関心を集めている。 しかし、音声における自己スーパービジョンのためのほとんどの作品は、通常ユニモーダルであり、クロスモーダルな自己スーパービジョンのための音声と視覚のモダリティの相互作用を研究する限定的な研究がある。 This work (1) investigates visual self-supervision via face reconstruction to guide the learning of audio representations; (2) proposes an audio-only self-supervision approach for speech representation learning; (3) shows that a multi-task combination of the proposed visual and audio self-supervision is beneficial for learning richer features that are more robust in noisy conditions; (4) shows that self-supervised pretraining can outperform fully supervised training and is especially useful to prevent overfitting on smaller sized datasets. 個別感情認識,連続的感情認識,自動音声認識のための学習音声表現の評価を行った。 テストされた下流タスクすべてに対して、既存の自己管理手法より優れています。 本研究は,音声特徴学習における視覚自己スーパービジョンの可能性を示し,視覚と音声の自己スーパービジョンが音声と感情認識のためのより有意義な音声表現につながることを示唆する。

Self-supervised learning has attracted plenty of recent research interest. However, most works for self-supervision in speech are typically unimodal and there has been limited work that studies the interaction between audio and visual modalities for cross-modal self-supervision. This work (1) investigates visual self-supervision via face reconstruction to guide the learning of audio representations; (2) proposes an audio-only self-supervision approach for speech representation learning; (3) shows that a multi-task combination of the proposed visual and audio self-supervision is beneficial for learning richer features that are more robust in noisy conditions; (4) shows that self-supervised pretraining can outperform fully supervised training and is especially useful to prevent overfitting on smaller sized datasets. We evaluate our learned audio representations for discrete emotion recognition, continuous affect recognition and automatic speech recognition. We outperform existing self-supervised methods for all tested downstream tasks. Our results demonstrate the potential of visual self-supervision for audio feature learning and suggest that joint visual and audio self-supervision leads to more informative audio representations for speech and emotion recognition.
翻訳日:2022-12-06 23:53:12 公開日:2021-03-18
# 確率的セキュリティ:エネルギーベースモデルの長期ダイナミクスを用いた敵防衛

Stochastic Security: Adversarial Defense Using Long-Run Dynamics of Energy-Based Models ( http://arxiv.org/abs/2005.13525v2 )

ライセンス: Link先を確認
Mitch Hill, Jonathan Mitchell, Song-Chun Zhu(参考訳) 敵の攻撃に対するディープネットワークの脆弱性は、認知とセキュリティの両方の観点からディープラーニングの中心的な問題である。 現在最も成功した防御方法は、学習中に作成された逆画像を用いて分類器を訓練することである。 もうひとつの防御アプローチは、画像が分類される前に相手信号を除去するために元の入力を変換または浄化することである。 我々は, マルコフ連鎖モンテカルロ (mcmc) サンプリングを用いた自然学習型分類器の保護と, エネルギーベースモデル (ebm) による相反浄化について検討した。 対人訓練とは対照的に,本手法は既存かつ脆弱な分類器の確保を目的としている。 長期MCMCサンプリングのメモリレス動作は、最終的には逆信号を取り除き、メタスタブル動作は、正確な長期予測を可能にするために多くのステップを経てMCMCサンプルの一貫性のある外観を保持する。 これらの要因のバランスは、効果的な浄化とロバストな分類につながる可能性がある。 EBMによる敵防御は, 浄化に対する最強の攻撃を用いて評価した。 私たちの貢献は 1)現実的なMCMCサンプルを用いたEMMの訓練方法の改善。 2 確率的防御の理論的あいまいさを解決し、かつ、EOT攻撃が自然に続く期待外変換(EOT)防衛 3)cifar-10,svhn,cifar-100のadversarial classifierと比較して,自然訓練された分類器と競合防御に対する最先端の防御力。 コードと事前トレーニングされたモデルは、https://github.com/point0bar1/ebm-defenseで利用可能である。

The vulnerability of deep networks to adversarial attacks is a central problem for deep learning from the perspective of both cognition and security. The current most successful defense method is to train a classifier using adversarial images created during learning. Another defense approach involves transformation or purification of the original input to remove adversarial signals before the image is classified. We focus on defending naturally-trained classifiers using Markov Chain Monte Carlo (MCMC) sampling with an Energy-Based Model (EBM) for adversarial purification. In contrast to adversarial training, our approach is intended to secure pre-existing and highly vulnerable classifiers. The memoryless behavior of long-run MCMC sampling will eventually remove adversarial signals, while metastable behavior preserves consistent appearance of MCMC samples after many steps to allow accurate long-run prediction. Balancing these factors can lead to effective purification and robust classification. We evaluate adversarial defense with an EBM using the strongest known attacks against purification. Our contributions are 1) an improved method for training EBM's with realistic long-run MCMC samples, 2) an Expectation-Over-Transformation (EOT) defense that resolves theoretical ambiguities for stochastic defenses and from which the EOT attack naturally follows, and 3) state-of-the-art adversarial defense for naturally-trained classifiers and competitive defense compared to adversarially-trained classifiers on Cifar-10, SVHN, and Cifar-100. Code and pre-trained models are available at https://github.com/point0bar1/ebm-defense.
翻訳日:2022-11-28 08:39:13 公開日:2021-03-18
# L1/L2最小化によるリミテッドアングルCT再構成

Limited-angle CT reconstruction via the L1/L2 minimization ( http://arxiv.org/abs/2006.00601v4 )

ライセンス: Link先を確認
Chao Wang, Min Tao, James Nagy, Yifei Lou(参考訳) 本稿では,CT (Computed tomography) 再構成における限定角度走査問題に対する勾配のL1/L2項の最小化について検討する。 我々は,制約のない最適化モデルに対して,乗算器の交互方向法(ADMM)が一定の条件下で収束することを保証できるように,特定の分割フレームワークを設計する。 さらに,撮像応用に合理的なボックス制約を取り入れ,追加のボックス制約に対する収束性も確立できる。 提案手法の有効性と有効性は, 合成データセットと実験データセットの双方で数値的に示し, 限定角度CT再構成における最先端手法よりも有意な改善が見られた。

In this paper, we consider minimizing the L1/L2 term on the gradient for a limited-angle scanning problem in computed tomography (CT) reconstruction. We design a specific splitting framework for an unconstrained optimization model so that the alternating direction method of multipliers (ADMM) has guaranteed convergence under certain conditions. In addition, we incorporate a box constraint that is reasonable for imaging applications, and the convergence for the additional box constraint can also be established. Numerical results on both synthetic and experimental datasets demonstrate the effectiveness and efficiency of our proposed approaches, showing significant improvements over the state-of-the-art methods in the limited-angle CT reconstruction.
翻訳日:2022-11-26 13:16:02 公開日:2021-03-18
# 胸部x線画像を用いた新型コロナウイルスの予知手法

Advance Warning Methodologies for COVID-19 using Chest X-Ray Images ( http://arxiv.org/abs/2006.05332v6 )

ライセンス: Link先を確認
Mete Ahishali, Aysen Degerli, Mehmet Yamac, Serkan Kiranyaz, Muhammad E. H. Chowdhury, Khalid Hameed, Tahir Hamid, Rashid Mazhar, Moncef Gabbouj(参考訳) 2019年12月に初めて検出された新型コロナウイルス(covid-19)は、世界的な健康問題となっている。 その結果、新型コロナウイルスの早期診断のための正確かつ信頼性の高い事前警報システムが優先されている。 感染の痕跡は中程度から重度の段階に進行した時にのみ見られるため、医師によると、早期に新型コロナウイルスが検出されるのは胸部x線画像からの直接的な作業ではない。 本研究の目的は,胸部X線画像からCOVID-19を早期に検出するための,最近の「textit{state-of-the-art} Machine Learning」技術の有効性を評価することである。 本研究では,コンパクト分類器と深層学習の両手法が検討されている。 さらに,近年のコンパクトな分類器であるCSEN(Convolutional Support Estimator Network)を提案する。 最後に、医療医がラベル付けした1065の初期段階の肺炎サンプル(非常に限定的または全く感染の兆候がない)と、コントロールのための12の544のサンプルからなる、early-qata-cov19と呼ばれる新しいベンチマークデータセットを紹介します。 詳細な実験の結果、CSENは95.5%以上の特異性を持つ最高感度(97%以上)を達成した。 さらに、drknet-121ネットワークは95%の感度と99.74%の特異性を持つ他のディープネットワークの中で主要な性能を発揮する。

Coronavirus disease 2019 (COVID-19) has rapidly become a global health concern after its first known detection in December 2019. As a result, accurate and reliable advance warning system for the early diagnosis of COVID-19 has now become a priority. The detection of COVID-19 in early stages is not a straightforward task from chest X-ray images according to expert medical doctors because the traces of the infection are visible only when the disease has progressed to a moderate or severe stage. In this study, our first aim is to evaluate the ability of recent \textit{state-of-the-art} Machine Learning techniques for the early detection of COVID-19 from chest X-ray images. Both compact classifiers and deep learning approaches are considered in this study. Furthermore, we propose a recent compact classifier, Convolutional Support Estimator Network (CSEN) approach for this purpose since it is well-suited for a scarce-data classification task. Finally, this study introduces a new benchmark dataset called Early-QaTa-COV19, which consists of 1065 early-stage COVID-19 pneumonia samples (very limited or no infection signs) labelled by the medical doctors and 12 544 samples for control (normal) class. A detailed set of experiments shows that the CSEN achieves the top (over 97%) sensitivity with over 95.5% specificity. Moreover, DenseNet-121 network produces the leading performance among other deep networks with 95% sensitivity and 99.74% specificity.
翻訳日:2022-11-24 08:30:33 公開日:2021-03-18
# 手がかりを得る:不確実性推定を説明する方法

Getting a CLUE: A Method for Explaining Uncertainty Estimates ( http://arxiv.org/abs/2006.06848v2 )

ライセンス: Link先を確認
Javier Antor\'an, Umang Bhatt, Tameem Adel, Adrian Weller, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 不確実性の推定と解釈は、信頼できる機械学習システムにとって重要な要素である。 しかし、この2つの領域の交点にはほとんど作業がない。 本稿では,ベイズニューラルネットワーク (BNN) のような微分可能確率モデルからの不確実性推定を解釈する新しい手法を提案する。 提案手法は,BNNが入力の予測に自信を持つようになるように,データ多様体上に保持しながら入力を変更する方法を示す。 CLUEを通した検証 1)不確実性の事実的説明を評価するための新しい枠組み 2)一連のアブレーション実験、及び 3) 利用者の学習。 実験の結果,CLUEはベースラインよりも優れており,どの入力パターンが予測の不確実性の原因であるかをよりよく理解することができることがわかった。

Both uncertainty estimation and interpretability are important factors for trustworthy machine learning systems. However, there is little work at the intersection of these two areas. We address this gap by proposing a novel method for interpreting uncertainty estimates from differentiable probabilistic models, like Bayesian Neural Networks (BNNs). Our method, Counterfactual Latent Uncertainty Explanations (CLUE), indicates how to change an input, while keeping it on the data manifold, such that a BNN becomes more confident about the input's prediction. We validate CLUE through 1) a novel framework for evaluating counterfactual explanations of uncertainty, 2) a series of ablation experiments, and 3) a user study. Our experiments show that CLUE outperforms baselines and enables practitioners to better understand which input patterns are responsible for predictive uncertainty.
翻訳日:2022-11-22 12:48:12 公開日:2021-03-18
# ベイジアン量子回帰以前のホースシュー

Horseshoe Prior Bayesian Quantile Regression ( http://arxiv.org/abs/2006.07655v2 )

ライセンス: Link先を確認
David Kohns and Tibor Szendrei(参考訳) 本稿では,carvalho et al. (2010) に先立って,bayesian quantile regression (hs-bqr) を拡張し,高次元計算のための高速サンプリングアルゴリズムを提案する。 提案するHS-BQRの性能はモンテカルロシミュレーションと高次元Growth-at-Risk(GaR)予測を用いて評価した。 モンテカルロの設計はいくつかのスパーシティとエラー構造を考慮している。 代替収縮前処理と比較して,提案するhs-bqrは,係数バイアスと予測誤差において良好な(あるいは最悪の場合)性能をもたらす。 HS-BQRは特にスパース設計や極端量子化を推定するのに強力である。 予想通り、シミュレーションは密度の高いDGPにおける個々の回帰器の量子的特定の位置とスケール効果を特定するには、かなりのデータが必要であることも強調した。 GaRアプリケーションでは、McCracken and Ng (2020) データベースを用いて、テールリスクと完全な予測密度を予測します。 量子比および密度校正スコア関数は、HS-BQRが特に短距離および中距離の水平線において最高の性能を提供することを示す。 高度に校正された密度予測と、大規模なデータコンテキストにおける正確なダウンサイドリスク対策を作成できる能力により、hs-bqrは、現在のアプリケーションとリセッションモデリングの有望なツールとなる。

This paper extends the horseshoe prior of Carvalho et al. (2010) to Bayesian quantile regression (HS-BQR) and provides a fast sampling algorithm for computation in high dimensions. The performance of the proposed HS-BQR is evaluated on Monte Carlo simulations and a high dimensional Growth-at-Risk (GaR) forecasting application for the U.S. The Monte Carlo design considers several sparsity and error structures. Compared to alternative shrinkage priors, the proposed HS-BQR yields better (or at worst similar) performance in coefficient bias and forecast error. The HS-BQR is particularly potent in sparse designs and in estimating extreme quantiles. As expected, the simulations also highlight that identifying quantile specific location and scale effects for individual regressors in dense DGPs requires substantial data. In the GaR application, we forecast tail risks as well as complete forecast densities using the McCracken and Ng (2020) database. Quantile specific and density calibration score functions show that the HS-BQR provides the best performance, especially at short and medium run horizons. The ability to produce well calibrated density forecasts and accurate downside risk measures in large data contexts makes the HS-BQR a promising tool for nowcasting applications and recession modelling.
翻訳日:2022-11-21 21:27:30 公開日:2021-03-18
# 画像分類のための明示的モデル付き注意マップ

Explicitly Modeled Attention Maps for Image Classification ( http://arxiv.org/abs/2006.07872v2 )

ライセンス: Link先を確認
Andong Tan, Duc Tam Nguyen, Maximilian Dax, Matthias Nie{\ss}ner, Thomas Brox(参考訳) 自己追跡ネットワークは、画像分類などのコンピュータビジョンタスクにおいて著しく進歩している。 セルフアテンション機構の主な利点は、アテンションマップで長距離特徴インタラクションをキャプチャできることだ。 しかしながら、アテンションマップの計算には学習可能な鍵、クエリ、位置エンコーディングが必要であり、その使用はしばしば直感的ではなく、計算的に高価である。 この問題を軽減するために,1つの学習可能なパラメータのみを用いて,注意マップを明示的にモデル化した新しい自己注意モジュールを提案する。 幾何学的事前を用いた明示的にモデル化されたアテンションマップの設計は、画像内の与えられたピクセルの空間的コンテキストが主にその隣人によって支配されるのに対して、より遠いピクセルは小さな寄与を持つという観察に基づいている。 具体的には、注意マップは単純な関数(例えばガウス核)を通じて学習可能な半径でパラメータ化され、入力内容とは独立にモデル化される。 評価の結果,imagenet ilsvrcのresnetベースラインよりも最大2.2%精度が向上し,aa-resnet152などの他のセルフアテンション手法を0.9%,パラメータが6.4%,gflopsが6.7%向上した。 この結果は、画像分類に適用した場合、幾何学的事前を自己認識機構に組み込むことの価値を実証的に示す。

Self-attention networks have shown remarkable progress in computer vision tasks such as image classification. The main benefit of the self-attention mechanism is the ability to capture long-range feature interactions in attention-maps. However, the computation of attention-maps requires a learnable key, query, and positional encoding, whose usage is often not intuitive and computationally expensive. To mitigate this problem, we propose a novel self-attention module with explicitly modeled attention-maps using only a single learnable parameter for low computational overhead. The design of explicitly modeled attention-maps using geometric prior is based on the observation that the spatial context for a given pixel within an image is mostly dominated by its neighbors, while more distant pixels have a minor contribution. Concretely, the attention-maps are parametrized via simple functions (e.g., Gaussian kernel) with a learnable radius, which is modeled independently of the input content. Our evaluation shows that our method achieves an accuracy improvement of up to 2.2% over the ResNet-baselines in ImageNet ILSVRC and outperforms other self-attention methods such as AA-ResNet152 in accuracy by 0.9% with 6.4% fewer parameters and 6.7% fewer GFLOPs. This result empirically indicates the value of incorporating geometric prior into self-attention mechanism when applied in image classification.
翻訳日:2022-11-21 13:13:51 公開日:2021-03-18
# 部分移動条件付き逆数分布によるブラックボックス攻撃の増強

Boosting Black-Box Attack with Partially Transferred Conditional Adversarial Distribution ( http://arxiv.org/abs/2006.08538v4 )

ライセンス: Link先を確認
Yan Feng, Baoyuan Wu, Yanbo Fan, Li Liu, Zhifeng Li, Shutao Xia(参考訳) 本研究は、ディープニューラルネットワーク(dnn)に対するブラックボックスの逆攻撃について研究し、攻撃者は攻撃されたdnnモデルによって返されたクエリフィードバックのみにアクセスできるが、モデルパラメータやトレーニングデータセットなどの他の情報は未知である。 攻撃性能を改善するための有望なアプローチの1つは、いくつかのホワイトボックスサーロゲートモデルとターゲットモデル(すなわち攻撃モデル)の間の敵対的な転送可能性を利用することである。 しかしながら、サロゲートモデルとターゲットモデルの間のモデルアーキテクチャの違いやトレーニングデータセットが「サロゲートバイアス」と呼ばれるため、攻撃性能を改善するための敵の移動可能性の寄与が弱まる可能性がある。 この問題に対処するため,我々は,代理バイアスにロバストな新たな逆移動性メカニズムを考案し,ブラックボックス攻撃法を革新的に提案する。 一般的な考え方は、サロゲートモデルの条件逆分布(CAD)の部分パラメータを、ターゲットモデルへのクエリに基づく未参照パラメータを学習しながら、新しい良性サンプル上でターゲットモデルのCADを調整する柔軟性を維持することである。 ベンチマークデータセットの大規模な実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。

This work studies black-box adversarial attacks against deep neural networks (DNNs), where the attacker can only access the query feedback returned by the attacked DNN model, while other information such as model parameters or the training datasets are unknown. One promising approach to improve attack performance is utilizing the adversarial transferability between some white-box surrogate models and the target model (i.e., the attacked model). However, due to the possible differences on model architectures and training datasets between surrogate and target models, dubbed "surrogate biases", the contribution of adversarial transferability to improving the attack performance may be weakened. To tackle this issue, we innovatively propose a black-box attack method by developing a novel mechanism of adversarial transferability, which is robust to the surrogate biases. The general idea is transferring partial parameters of the conditional adversarial distribution (CAD) of surrogate models, while learning the untransferred parameters based on queries to the target model, to keep the flexibility to adjust the CAD of the target model on any new benign sample. Extensive experiments on benchmark datasets and attacking against real-world API demonstrate the superior attack performance of the proposed method.
翻訳日:2022-11-21 04:09:51 公開日:2021-03-18
# 動的テンソル再材料化

Dynamic Tensor Rematerialization ( http://arxiv.org/abs/2006.09616v4 )

ライセンス: Link先を確認
Marisa Kirisame, Steven Lyubomirsky, Altan Haan, Jennifer Brennan, Mike He, Jared Roesch, Tianqi Chen, and Zachary Tatlock(参考訳) チェックポイントにより、メモリから中間活性化を解放し、必要に応じて再計算することで、制限されたメモリ予算の下でディープラーニングモデルのトレーニングが可能になる。 現在のチェックポイント技術は、これらの再計算をオフラインで静的に計画し、静的な計算グラフを仮定する。 我々は,単純なオンラインアルゴリズムが,拡張可能で汎用的なチェックポイントのための欲望のあるオンラインアルゴリズムであるdynamic tensor rematerialization (dtr)を導入することで,同等の性能を達成できることを実証する。 我々はDTRが$\mathcal{O}(N)$tensor演算だけで$\Omega(\sqrt{N})$メモリ予算で$N$層線形フィードフォワードネットワークをトレーニングできることを証明した。 DTRはシミュレーション実験における最適静的チェックポイントの性能と密接に一致している。 DTRのプロトタイプをPyTorchに組み込むには、テンソルアロケーションと演算子コールを介し、テンソル上の軽量メタデータを収集するだけでよい。

Checkpointing enables the training of deep learning models under restricted memory budgets by freeing intermediate activations from memory and recomputing them on demand. Current checkpointing techniques statically plan these recomputations offline and assume static computation graphs. We demonstrate that a simple online algorithm can achieve comparable performance by introducing Dynamic Tensor Rematerialization (DTR), a greedy online algorithm for checkpointing that is extensible and general, is parameterized by eviction policy, and supports dynamic models. We prove that DTR can train an $N$-layer linear feedforward network on an $\Omega(\sqrt{N})$ memory budget with only $\mathcal{O}(N)$ tensor operations. DTR closely matches the performance of optimal static checkpointing in simulated experiments. We incorporate a DTR prototype into PyTorch merely by interposing on tensor allocations and operator calls and collecting lightweight metadata on tensors.
翻訳日:2022-11-19 20:18:55 公開日:2021-03-18
# tent: エントロピー最小化によるテスト時間適応

Tent: Fully Test-time Adaptation by Entropy Minimization ( http://arxiv.org/abs/2006.10726v3 )

ライセンス: Link先を確認
Dequan Wang, Evan Shelhamer, Shaoteng Liu, Bruno Olshausen, Trevor Darrell(参考訳) モデルは、テスト中に新しく異なるデータに一般化するために適応する必要があります。 この完全なテスト時間適応の設定では、モデルはテストデータとそのパラメータしか持たない。 実験エントロピー最小化(tent): 予測のエントロピーによって測定された信頼度に対するモデルを最適化する。 本手法は,正規化統計を推定し,チャネルワイドアフィン変換を最適化し,バッチ毎にオンライン更新する。 Tentは、破損したImageNetとCIFAR-10/100の画像分類の一般化エラーを低減し、ImageNet-Cで新しい最先端エラーに達する。 Tentは、SVHNからMNIST/MNIST-M/USPS、GTAからCityscapesへのセマンティックセグメンテーション、VisDA-Cベンチマークへのソースフリードメイン適応を扱う。 これらの結果は、トレーニングを変更することなく、テスト時間最適化の一時期において達成される。

A model must adapt itself to generalize to new and different data during testing. In this setting of fully test-time adaptation the model has only the test data and its own parameters. We propose to adapt by test entropy minimization (tent): we optimize the model for confidence as measured by the entropy of its predictions. Our method estimates normalization statistics and optimizes channel-wise affine transformations to update online on each batch. Tent reduces generalization error for image classification on corrupted ImageNet and CIFAR-10/100 and reaches a new state-of-the-art error on ImageNet-C. Tent handles source-free domain adaptation on digit recognition from SVHN to MNIST/MNIST-M/USPS, on semantic segmentation from GTA to Cityscapes, and on the VisDA-C benchmark. These results are achieved in one epoch of test-time optimization without altering training.
翻訳日:2022-11-19 09:49:30 公開日:2021-03-18
# 階層型強化学習における隣接制約付きサブゴールの生成

Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2006.11485v4 )

ライセンス: Link先を確認
Tianren Zhang, Shangqi Guo, Tian Tan, Xiaolin Hu, Feng Chen(参考訳) 目標条件付き階層型強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。 しかし、高レベルのアクション空間、すなわちゴール空間がしばしば大きいため、トレーニングの非効率さに悩まされることが多い。 大きな目標空間での探索は、ハイレベルなサブゴール生成と低レベルなポリシー学習の両方に困難をもたらす。 本稿では,高レベルな動作空間を目標空間全体から,隣接制約を用いて現在状態の$k$-step隣接領域に制限することにより,この問題を効果的に軽減できることを示す。 提案する随伴制約は決定論的mdpにおいて最適な階層的ポリシーを保ち、隣接部分と非隣接部分の区別が可能な随伴ネットワークを訓練することで実際に実装できることを理論的に証明する。 離散的かつ連続的な制御タスクの実験結果は、隣接制約を組み込むことで、決定論的および確率的環境における最先端のHRLアプローチの性能が向上することを示している。

Goal-conditioned hierarchical reinforcement learning (HRL) is a promising approach for scaling up reinforcement learning (RL) techniques. However, it often suffers from training inefficiency as the action space of the high-level, i.e., the goal space, is often large. Searching in a large goal space poses difficulties for both high-level subgoal generation and low-level policy learning. In this paper, we show that this problem can be effectively alleviated by restricting the high-level action space from the whole goal space to a $k$-step adjacent region of the current state using an adjacency constraint. We theoretically prove that the proposed adjacency constraint preserves the optimal hierarchical policy in deterministic MDPs, and show that this constraint can be practically implemented by training an adjacency network that can discriminate between adjacent and non-adjacent subgoals. Experimental results on discrete and continuous control tasks show that incorporating the adjacency constraint improves the performance of state-of-the-art HRL approaches in both deterministic and stochastic environments.
翻訳日:2022-11-18 22:11:47 公開日:2021-03-18
# not-miwae: ランダムデータに欠落した深い生成モデル

not-MIWAE: Deep Generative Modelling with Missing not at Random Data ( http://arxiv.org/abs/2006.12871v2 )

ライセンス: Link先を確認
Niels Bruun Ipsen, Pierre-Alexandre Mattei, Jes Frellsen(参考訳) 欠落したプロセスが欠落した値自体に依存する場合、確率に基づく推論を行う際に明示的にモデル化され、考慮される必要があります。 本稿では、欠落したプロセスが欠落したデータに依存する場合に、DLVM(Deep Latent variable Model)を構築し、適合させるアプローチを提案する。 具体的には、深層ニューラルネットワークにより、データから得られる欠損パターンの条件分布を柔軟にモデル化することができる。 これにより、モデルの欠落の種類(例えば自己検閲)に関する事前情報を組み込むことができる。 本手法は,重要度重み付き変分推定に基づいて,関節の限界を最大化する。 境界の確率的勾配は、潜在空間とデータ空間の両方で再パラメータ化トリックを用いて得られる。 欠落したプロセスを明示的にモデル化する様々なデータセットと欠落パターンが有用であることを示す。

When a missing process depends on the missing values themselves, it needs to be explicitly modelled and taken into account while doing likelihood-based inference. We present an approach for building and fitting deep latent variable models (DLVMs) in cases where the missing process is dependent on the missing data. Specifically, a deep neural network enables us to flexibly model the conditional distribution of the missingness pattern given the data. This allows for incorporating prior information about the type of missingness (e.g. self-censoring) into the model. Our inference technique, based on importance-weighted variational inference, involves maximising a lower bound of the joint likelihood. Stochastic gradients of the bound are obtained by using the reparameterisation trick both in latent space and data space. We show on various kinds of data sets and missingness patterns that explicitly modelling the missing process can be invaluable.
翻訳日:2022-11-17 22:34:03 公開日:2021-03-18
# CNNアーキテクチャの入出力凸正規化器:多項式時間における2層および3層ネットワークの凸最適化

Implicit Convex Regularizers of CNN Architectures: Convex Optimization of Two- and Three-Layer Networks in Polynomial Time ( http://arxiv.org/abs/2006.14798v3 )

ライセンス: Link先を確認
Tolga Ergen, Mert Pilanci(参考訳) reluアクティベーションを用いた畳み込みニューラルネットワーク(cnns)のトレーニングを行い、データサンプル数、ニューロン数、データ次元に関して多項式複雑性を伴う完全凸最適化定式化を導入する。 具体的には、半無限双対性を利用した凸解析フレームワークを開発し、2層および3層CNNアーキテクチャの等価凸最適化問題を求める。 最初に、2層CNNが$\ell_2$の正規化凸プログラムによってグローバルに最適化可能であることを証明した。 次に、単一ReLU層を用いた多層円形CNNトレーニング問題は、スペクトル領域の間隔を助長する$\ell_1$正規化凸プログラムと等価であることを示す。 また、これらの結果を2つのReLU層を持つ3層CNNに拡張する。 さらに,本手法を様々なプーリング法に拡張し,凸正則化器としてアーキテクチャバイアスを明らかにする。

We study training of Convolutional Neural Networks (CNNs) with ReLU activations and introduce exact convex optimization formulations with a polynomial complexity with respect to the number of data samples, the number of neurons, and data dimension. More specifically, we develop a convex analytic framework utilizing semi-infinite duality to obtain equivalent convex optimization problems for several two- and three-layer CNN architectures. We first prove that two-layer CNNs can be globally optimized via an $\ell_2$ norm regularized convex program. We then show that multi-layer circular CNN training problems with a single ReLU layer are equivalent to an $\ell_1$ regularized convex program that encourages sparsity in the spectral domain. We also extend these results to three-layer CNNs with two ReLU layers. Furthermore, we present extensions of our approach to different pooling methods, which elucidates the implicit architectural bias as convex regularizers.
翻訳日:2022-11-16 21:31:53 公開日:2021-03-18
# ディープパーティショニングアグリゲーション:一般的な中毒攻撃に対する防御性

Deep Partition Aggregation: Provable Defense against General Poisoning Attacks ( http://arxiv.org/abs/2006.14768v2 )

ライセンス: Link先を確認
Alexander Levine, Soheil Feizi(参考訳) 逆毒は、分類器の試験時間挙動を損なうために歪んだ訓練データを攻撃する。 証明可能な防御は、各テストサンプルの証明書を提供するが、これは、テストサンプルの分類を損なう可能性のあるトレーニングセットの敵対的歪みの大きさに対する下限である。 我々は2つの新たな防犯策を提案する。 (i) 一般中毒脅威モデルに対する認定防御である深層分割集約(dpa)は、トレーニングセットへの有界なサンプル数の挿入または削除として定義されており、この脅威モデルは、有界な画像及び/又はラベルに対する任意の歪みを含む。 (ii)半監督dpa(ss-dpa)は、ラベルを貼る毒殺攻撃に対する認定防御である。 dpaは、ハッシュ関数によって決定されるトレーニングセットのパーティションに基づいてベースモデルをトレーニングするアンサンブル手法である。 dpaは、古典的な機械学習でよく研究されたアンサンブルであるサブセットアグリゲーションと、回避攻撃に対する一般的な証明可能な防御であるランダム化スムージングの両方に関連している。 SS-DPAは半教師付き学習アルゴリズムをベース分類器モデルとして使用しており、各基本分類器は分割のためのラベルに加えてラベル付きトレーニングセット全体を用いて訓練される。 SS-DPAは、MNISTとCIFAR-10の双方に対するラベルフリップ攻撃に対する既存の認証された防御よりも、MNIST上の600以上のラベルフリップ(vs. < 200のラベルフリップ)と、CIFAR-10上の300以上のラベルフリップ(vs. 175のラベルフリップ)において、確実に許容できる。 事前に認証された防御が存在しない一般的な中毒攻撃に対して、dpaはテスト画像の50%以上をmnistに500以上の毒画像が挿入され、cifar-10に9回挿入されたことを証明できる。 これらの結果は、毒殺攻撃に対する新しい最先端証明可能な防御を確立する。

Adversarial poisoning attacks distort training data in order to corrupt the test-time behavior of a classifier. A provable defense provides a certificate for each test sample, which is a lower bound on the magnitude of any adversarial distortion of the training set that can corrupt the test sample's classification. We propose two novel provable defenses against poisoning attacks: (i) Deep Partition Aggregation (DPA), a certified defense against a general poisoning threat model, defined as the insertion or deletion of a bounded number of samples to the training set -- by implication, this threat model also includes arbitrary distortions to a bounded number of images and/or labels; and (ii) Semi-Supervised DPA (SS-DPA), a certified defense against label-flipping poisoning attacks. DPA is an ensemble method where base models are trained on partitions of the training set determined by a hash function. DPA is related to both subset aggregation, a well-studied ensemble method in classical machine learning, as well as to randomized smoothing, a popular provable defense against evasion attacks. Our defense against label-flipping attacks, SS-DPA, uses a semi-supervised learning algorithm as its base classifier model: each base classifier is trained using the entire unlabeled training set in addition to the labels for a partition. SS-DPA significantly outperforms the existing certified defense for label-flipping attacks on both MNIST and CIFAR-10: provably tolerating, for at least half of test images, over 600 label flips (vs. < 200 label flips) on MNIST and over 300 label flips (vs. 175 label flips) on CIFAR-10. Against general poisoning attacks, where no prior certified defenses exists, DPA can certify >= 50% of test images against over 500 poison image insertions on MNIST, and nine insertions on CIFAR-10. These results establish new state-of-the-art provable defenses against poisoning attacks.
翻訳日:2022-11-16 20:55:15 公開日:2021-03-18
# プライベートSGDにおけるグラディエントクリッピングの理解:幾何学的視点

Understanding Gradient Clipping in Private SGD: A Geometric Perspective ( http://arxiv.org/abs/2006.15429v2 )

ライセンス: Link先を確認
Xiangyi Chen, Zhiwei Steven Wu, Mingyi Hong(参考訳) ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで人気が高まっている。 形式的かつ厳密なプライバシ保証を提供するため、多くの学習システムは、モデルを(異なる)プライベートなsgdでトレーニングすることによって、ディファレンシャルプライバシを取り入れている。 各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。 まず,傾斜クリッピングによりsgdが定常点に収束することを防止する方法を示す。 次に, 勾配分布と幾何対称分布との差係数を用いて, 収束におけるクリップングバイアスを完全に定量化する理論的解析を行う。 また, sgdの軌道に沿った勾配分布は, 収束に有利な対称構造を示すことが示唆された。 その結果, クリッピングバイアスがあるにもかかわらず, クリッピングによるプライベートSGDが実際に有効である理由が示唆された。 最後に,高度に非対称な勾配分布を持つ場合であってもクリッピングバイアスを確実に補正できる摂動に基づく新しい手法を開発した。

Deep learning models are increasingly popular in many machine learning applications where the training data may contain sensitive information. To provide formal and rigorous privacy guarantee, many learning systems now incorporate differential privacy by training their models with (differentially) private SGD. A key step in each private SGD update is gradient clipping that shrinks the gradient of an individual example whenever its L2 norm exceeds some threshold. We first demonstrate how gradient clipping can prevent SGD from converging to stationary point. We then provide a theoretical analysis that fully quantifies the clipping bias on convergence with a disparity measure between the gradient distribution and a geometrically symmetric distribution. Our empirical evaluation further suggests that the gradient distributions along the trajectory of private SGD indeed exhibit symmetric structure that favors convergence. Together, our results provide an explanation why private SGD with gradient clipping remains effective in practice despite its potential clipping bias. Finally, we develop a new perturbation-based technique that can provably correct the clipping bias even for instances with highly asymmetric gradient distributions.
翻訳日:2022-11-16 07:41:39 公開日:2021-03-18
# 適応正規化を伴うヘテロスケダストと不均衡深層学習

Heteroskedastic and Imbalanced Deep Learning with Adaptive Regularization ( http://arxiv.org/abs/2006.15766v2 )

ライセンス: Link先を確認
Kaidi Cao, Yining Chen, Junwei Lu, Nikos Arechiga, Adrien Gaidon, Tengyu Ma(参考訳) 現実世界の大規模データセットはヘテロスパイク的かつ不均衡である -- ラベルは不確実性のレベルが異なり、ラベルの分布は長い。 不均一性と不均衡は、誤記、曖昧、稀な例の区別が難しいため、ディープラーニングアルゴリズムに挑戦する。 ヘテロ共起性と不均衡を同時に解決することは未検討である。 本稿では,入力空間の異なる領域を異なる規則化するヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。 1次元非パラメトリック分類設定における最適正則化強度の理論的導出に触発されて,本手法は,より精度の高い低密度領域におけるデータポイントを適応的に正則化する。 実世界のヘテロスケダティックと不均衡なデータセットであるWebVisionを含む,いくつかのベンチマークタスクで本手法をテストする。 我々の実験は我々の理論を裏付け、ノイズロスト深層学習における他の手法よりも大幅に改善した。

Real-world large-scale datasets are heteroskedastic and imbalanced -- labels have varying levels of uncertainty and label distributions are long-tailed. Heteroskedasticity and imbalance challenge deep learning algorithms due to the difficulty of distinguishing among mislabeled, ambiguous, and rare examples. Addressing heteroskedasticity and imbalance simultaneously is under-explored. We propose a data-dependent regularization technique for heteroskedastic datasets that regularizes different regions of the input space differently. Inspired by the theoretical derivation of the optimal regularization strength in a one-dimensional nonparametric classification setting, our approach adaptively regularizes the data points in higher-uncertainty, lower-density regions more heavily. We test our method on several benchmark tasks, including a real-world heteroskedastic and imbalanced dataset, WebVision. Our experiments corroborate our theory and demonstrate a significant improvement over other methods in noise-robust deep learning.
翻訳日:2022-11-15 13:38:34 公開日:2021-03-18
# POMDPの準安定化

Enforcing Almost-Sure Reachability in POMDPs ( http://arxiv.org/abs/2007.00085v3 )

ライセンス: Link先を確認
Sebastian Junges, Nils Jansen, Sanjit A. Seshia(参考訳) 部分観測可能なマルコフ決定過程 (POMDP) は、限られた情報の下での逐次決定のための確率的モデルとしてよく知られている。 我々は,まずい状態に足を踏み入れることなく目標状態にほぼ確実に到達する,合成ポリシの時間的困難問題を考える。 特に、我々は、到達可能性仕様を満たすポリシーが存在するシステム構成の集合、すなわち勝利する領域の計算に興味があります。 このような勝利領域の直接的な応用は、例えば、強化学習剤の領域への挙動を制限することによって、PMDPの安全な探索である。 SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。 実証的な評価は、アプローチの有効性と有効性を示している。

Partially-Observable Markov Decision Processes (POMDPs) are a well-known stochastic model for sequential decision making under limited information. We consider the EXPTIME-hard problem of synthesising policies that almost-surely reach some goal state without ever visiting a bad state. In particular, we are interested in computing the winning region, that is, the set of system configurations from which a policy exists that satisfies the reachability specification. A direct application of such a winning region is the safe exploration of POMDPs by, for instance, restricting the behavior of a reinforcement learning agent to the region. We present two algorithms: A novel SAT-based iterative approach and a decision-diagram based alternative. The empirical evaluation demonstrates the feasibility and efficacy of the approaches.
翻訳日:2022-11-15 06:14:43 公開日:2021-03-18
# 圧縮による線形収束分散最適化

Linear Convergent Decentralized Optimization with Compression ( http://arxiv.org/abs/2007.00232v2 )

ライセンス: Link先を確認
Xiaorui Liu, Yao Li, Rongrong Wang, Jiliang Tang, Ming Yan(参考訳) 通信圧縮は分散最適化をスピードアップするための重要な戦略になっている。 しかし、圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。 これらは収束率、安定性、異種データを扱う能力という点では不十分である。 本稿では, 第一次双対アルゴリズムをベースとして, LEAD を用いた最初の分散アルゴリズムである \underline{L}in\underline{EA}r を提案する。 本理論では, 初期値と二値更新値の結合力学と圧縮誤差を記述し, 境界勾配を仮定することなく, そのような設定で有界な最初のコンセンサス誤差を与える。 対流問題の実験は理論解析を検証し、ディープニューラルネットに関する実証研究は鉛が非凸問題に適用できることを示した。

Communication compression has become a key strategy to speed up distributed optimization. However, existing decentralized algorithms with compression mainly focus on compressing DGD-type algorithms. They are unsatisfactory in terms of convergence rate, stability, and the capability to handle heterogeneous data. Motivated by primal-dual algorithms, this paper proposes the first \underline{L}in\underline{EA}r convergent \underline{D}ecentralized algorithm with compression, LEAD. Our theory describes the coupled dynamics of the inexact primal and dual update as well as compression error, and we provide the first consensus error bound in such settings without assuming bounded gradients. Experiments on convex problems validate our theoretical analysis, and empirical study on deep neural nets shows that LEAD is applicable to non-convex problems.
翻訳日:2022-11-14 22:35:01 公開日:2021-03-18
# ハード探索問題に対する適応的手続き型タスク生成

Adaptive Procedural Task Generation for Hard-Exploration Problems ( http://arxiv.org/abs/2007.00350v3 )

ライセンス: Link先を確認
Kuan Fang, Yuke Zhu, Silvio Savarese, Li Fei-Fei(参考訳) 難解展開問題における強化学習を容易にするために,逐次的タスク列をカリキュラムとして生成する手法であるadaptive procedural task generation (apt-gen)を提案する。 我々のアプローチの核心では、タスクジェネレータはブラックボックスの手続き生成モジュールを介してパラメータ化されたタスク空間からタスクを作成することを学びます。 学習進行の直接的な指標がない場合にカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと対象タスクとの類似性をバランスしてタスクジェネレータを訓練することを提案する。 逆行訓練により、タスク類似性はエージェントの経験に基づいて定義されたタスク判別器によって適応的に推定され、生成されたタスクは未知のパラメータ化のターゲットタスクや予め定義されたタスク空間の外部で近似することができる。 グリッド・ワールドとロボット操作タスク領域における実験により,apt-genは多様な既存ベースラインよりも優れた性能を実現していることが示された。

We introduce Adaptive Procedural Task Generation (APT-Gen), an approach to progressively generate a sequence of tasks as curricula to facilitate reinforcement learning in hard-exploration problems. At the heart of our approach, a task generator learns to create tasks from a parameterized task space via a black-box procedural generation module. To enable curriculum learning in the absence of a direct indicator of learning progress, we propose to train the task generator by balancing the agent's performance in the generated tasks and the similarity to the target tasks. Through adversarial training, the task similarity is adaptively estimated by a task discriminator defined on the agent's experiences, allowing the generated tasks to approximate target tasks of unknown parameterization or outside of the predefined task space. Our experiments on the grid world and robotic manipulation task domains show that APT-Gen achieves substantially better performance than various existing baselines by generating suitable tasks of rich variations.
翻訳日:2022-11-14 22:34:41 公開日:2021-03-18
# 持続性ニューロン

Persistent Neurons ( http://arxiv.org/abs/2007.01419v2 )

ライセンス: Link先を確認
Yimeng Min(参考訳) ニューラルネットワーク(NN)ベースの学習アルゴリズムは、初期化とデータ分散の選択に強く影響を受ける。 学習軌跡を改善するための最適化手法が提案されている。 しかし,従来のランドスケープ・ビューでは,改良された最適化戦略の設計は難しい課題である。 そこで本研究では,従来の収束解の情報を用いて学習タスクを最適化する軌道ベース戦略である永続ニューロンを提案する。 より正確には、軌道の終端を利用して、同じ初期化の下でモデルが収束することから前の解へとペナルティ化することで、パラメータに新しい風景を探索させる。 永続ニューロンは、決定論的誤差項によって個々の更新が破損する情報バイアスを持つ確率勾配法とみなすことができる。 特に,特定のデータ分布下での持続的なニューロンは,より最適な解に収束するが,一般的なフレームワークでは局所的な極小さが認められない。 さらに, 持続性ニューロンは, 初期化と貧弱化の両方において, モデルの性能向上に寄与することを示した。 完全かつ部分的な永続モデルを評価し,AlexNetや残留ニューラルネットワーク(ResNet)など,NN構造の性能向上に有効であることを示す。

Neural networks (NN)-based learning algorithms are strongly affected by the choices of initialization and data distribution. Different optimization strategies have been proposed for improving the learning trajectory and finding a better optima. However, designing improved optimization strategies is a difficult task under the conventional landscape view. Here, we propose persistent neurons, a trajectory-based strategy that optimizes the learning task using information from previous converged solutions. More precisely, we utilize the end of trajectories and let the parameters explore new landscapes by penalizing the model from converging to the previous solutions under the same initialization. Persistent neurons can be regarded as a stochastic gradient method with informed bias where individual updates are corrupted by deterministic error terms. Specifically, we show that persistent neurons, under certain data distribution, is able to converge to more optimal solutions while initializations under popular framework find bad local minima. We further demonstrate that persistent neurons helps improve the model's performance under both good and poor initializations. We evaluate the full and partial persistent model and show it can be used to boost the performance on a range of NN structures, such as AlexNet and residual neural network (ResNet).
翻訳日:2022-11-14 12:50:29 公開日:2021-03-18
# 説明可能なディープワンクラス分類

Explainable Deep One-Class Classification ( http://arxiv.org/abs/2007.01760v3 )

ライセンス: Link先を確認
Philipp Liznerski, Lukas Ruff, Robert A. Vandermeulen, Billy Joe Franks, Marius Kloft, and Klaus-Robert M\"uller(参考訳) 異常検出のための深い1クラス分類変種は、異常をマッピングする特徴空間に名目サンプルを集中させるマッピングを学ぶ。 この変換は非常に非線形であるため、解釈を見つけることは大きな課題となる。 本稿では, マッピングされたサンプル自体が説明ヒートマップである深層1クラス分類法である完全畳み込みデータ記述法(fcdd)を提案する。 FCDDは競合検出性能を示し、CIFAR-10とImageNetによる一般的な異常検出ベンチマークについて合理的な説明を提供する。 最近の製造データセットであるMVTec-ADでは、FCDDは教師なしの設定で新しい最先端の技術を設定している。 本手法では, トレーニング中に地中不規則マップを組み込むことができ, 一部(〜5)でも性能が大幅に向上する。 最後に、FCDDの説明を用いて、画像透かしなどの画像特徴を刺激する深層一階分類モデルの脆弱性を示す。

Deep one-class classification variants for anomaly detection learn a mapping that concentrates nominal samples in feature space causing anomalies to be mapped away. Because this transformation is highly non-linear, finding interpretations poses a significant challenge. In this paper we present an explainable deep one-class classification method, Fully Convolutional Data Description (FCDD), where the mapped samples are themselves also an explanation heatmap. FCDD yields competitive detection performance and provides reasonable explanations on common anomaly detection benchmarks with CIFAR-10 and ImageNet. On MVTec-AD, a recent manufacturing dataset offering ground-truth anomaly maps, FCDD sets a new state of the art in the unsupervised setting. Our method can incorporate ground-truth anomaly maps during training and using even a few of these (~5) improves performance significantly. Finally, using FCDD's explanations we demonstrate the vulnerability of deep one-class classification models to spurious image features such as image watermarks.
翻訳日:2022-11-14 04:26:50 公開日:2021-03-18
# 意味保存型プログラム変換に関するニューラルプログラムモデルの一般化可能性について

On the Generalizability of Neural Program Models with respect to Semantic-Preserving Program Transformations ( http://arxiv.org/abs/2008.01566v3 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin, Nghi D. Q. Bui, Ke Wang, Yijun Yu, Lingxiao Jiang, Mohammad Amin Alipour(参考訳) ディープニューラルネットワークモデルをトレーニングするための公開ソースコードリポジトリが普及しているため、ニューラルプログラムモデルは、従来のプログラム分析技術では不可能な、与えられたプログラムのメソッド名を予測するなどのソースコード解析タスクでうまく機能する。 このようなニューラルプログラムモデルは、さまざまな既存のデータセットでテストされてきたが、予測できないソースコードに一般化する範囲は、ほとんど知られていない。 本稿では,神経プログラムモデルの汎用性を,意味保存変換に関して評価することを提案する。 一般化可能な神経プログラムモデルは,同じ意味を持つが,語彙的外観や構文構造が異なるプログラムに対して,等しく機能するべきである。 自動意味保存変換の前後のプログラムにおけるメソッド名予測タスクに対する様々なニューラルプログラムモデルの結果を比較した。 異なるサイズの3つのJavaデータセットと、コードのための最先端ニューラルネットワークモデル、すなわちcode2vec、code2seq、GGNNを使用して、評価のための9つのニューラルネットワークモデルを構築します。 その結果,プログラムのセマンティックな変化が小さい場合でも,これらのニューラルプログラムモデルは性能の一般化に失敗することが多いことがわかった。 また,プログラム内のデータと制御依存に基づくニューラルプログラムモデルは,抽象構文木のみに基づくニューラルプログラムモデルよりも一般化することが示唆された。 ポジティブな面では、トレーニングデータセットのサイズが大きくなるにつれて、神経プログラムモデルによって生成された正しい予測の一般化可能性も向上できると観察する。 ニューラルプログラムモデルの一般化可能性に関する結果は,その限界を測定するための洞察を与え,その改善のための足場を提供する。

With the prevalence of publicly available source code repositories to train deep neural network models, neural program models can do well in source code analysis tasks such as predicting method names in given programs that cannot be easily done by traditional program analysis techniques. Although such neural program models have been tested on various existing datasets, the extent to which they generalize to unforeseen source code is largely unknown. Since it is very challenging to test neural program models on all unforeseen programs, in this paper, we propose to evaluate the generalizability of neural program models with respect to semantic-preserving transformations: a generalizable neural program model should perform equally well on programs that are of the same semantics but of different lexical appearances and syntactical structures. We compare the results of various neural program models for the method name prediction task on programs before and after automated semantic-preserving transformations. We use three Java datasets of different sizes and three state-of-the-art neural network models for code, namely code2vec, code2seq, and GGNN, to build nine such neural program models for evaluation. Our results show that even with small semantically preserving changes to the programs, these neural program models often fail to generalize their performance. Our results also suggest that neural program models based on data and control dependencies in programs generalize better than neural program models based only on abstract syntax trees. On the positive side, we observe that as the size of the training dataset grows and diversifies the generalizability of correct predictions produced by the neural program models can be improved too. Our results on the generalizability of neural program models provide insights to measure their limitations and provide a stepping stone for their improvement.
翻訳日:2022-11-04 07:20:07 公開日:2021-03-18
# f*: f-測度の解釈可能な変換

F*: An Interpretable Transformation of the F-measure ( http://arxiv.org/abs/2008.00103v3 )

ライセンス: Link先を確認
David J. Hand, Peter Christen, Nishadi Kirielle(参考訳) F-measureはF1スコアとしても知られ、分類アルゴリズムの性能を評価するために広く使われている。 しかし、ある研究者は直感的な解釈に欠けており、パフォーマンスの2つの側面を組み合わせることが、概念的に精度とリコールと区別されるかどうかを疑問視し、調和平均がそれらを組み合わせる最良の方法であるかどうかを疑問視している。 この懸念を緩和するために、我々はF*(F-star)と呼ばれるF測度の簡単な変換を記述し、即時的な解釈を持つ。

The F-measure, also known as the F1-score, is widely used to assess the performance of classification algorithms. However, some researchers find it lacking in intuitive interpretation, questioning the appropriateness of combining two aspects of performance as conceptually distinct as precision and recall, and also questioning whether the harmonic mean is the best way to combine them. To ease this concern, we describe a simple transformation of the F-measure, which we call F* (F-star), which has an immediate practical interpretation.
翻訳日:2022-11-04 05:37:53 公開日:2021-03-18
# テンソル処理ユニットの学習性能モデル

A Learned Performance Model for Tensor Processing Units ( http://arxiv.org/abs/2008.01040v2 )

ライセンス: Link先を確認
Samuel J. Kaufman, Phitchaya Mangpo Phothilimthana, Yanqi Zhou, Charith Mendis, Sudip Roy, Amit Sabne, and Mike Burrows(参考訳) 正確なハードウェアパフォーマンスモデルは、効率的なコード生成に不可欠である。 コンパイラはヒューリスティックな決定をしたり、スーパーオプティマイザを最小化の目的にしたり、オートチューナーが特定のプログラムの最適な構成を見つけるために使うことができる。 しかし、現代のプロセッサは複雑であり、近年のディープラーニングアクセラレータの普及により開発負担が増大しているため、開発は困難である。 本稿では,テンソル処理ユニット(TPU)インスタンスのためのテンソル計算グラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。 我々の学習モデルは、タイルサイズの選択と演算子融合という2つのタスクにおいて、最適化された分析性能モデルよりも優れており、TPUへのアクセスが制限されたりコストがかかる環境で、オートチューニング者がより高速なプログラムを見つけるのに役立ちます。

Accurate hardware performance models are critical to efficient code generation. They can be used by compilers to make heuristic decisions, by superoptimizers as a minimization objective, or by autotuners to find an optimal configuration for a specific program. However, they are difficult to develop because contemporary processors are complex, and the recent proliferation of deep learning accelerators has increased the development burden. We demonstrate a method of learning performance models from a corpus of tensor computation graph programs for Tensor Processing Unit (TPU) instances. We show that our learned model outperforms a heavily-optimized analytical performance model on two tasks -- tile-size selection and operator fusion -- and that it helps an autotuner discover faster programs in a setting where access to TPUs is limited or expensive.
翻訳日:2022-11-03 07:16:26 公開日:2021-03-18
# 基礎画像を用いた糖尿病網膜症に対するパッチレベルおよび画像レベルのロバスト協調学習

Robust Collaborative Learning of Patch-level and Image-level Annotations for Diabetic Retinopathy Grading from Fundus Image ( http://arxiv.org/abs/2008.00610v2 )

ライセンス: Link先を確認
Yehui Yang, Fangxin Shang, Binghong Wu, Dalu Yang, Lei Wang, Yanwu Xu, Wensheng Zhang, Tianzhu Zhang(参考訳) 基礎画像からの糖尿病網膜症 (DR) は, 学術的, 産業的にも関心を集めている。 ほとんどの畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムは、DRグレーディングを画像レベルのアノテーションによる分類タスクとして扱う。 しかし,これらのアルゴリズムは,dr関連病変の貴重な情報を十分に検討していない。 本稿では,パッチレベルのアノテーションと画像レベルのアノテーションを協調的に利用するロバストなフレームワークを提案する。 エンドツーエンドの最適化により、このフレームワークは微細な病変と画像レベルのグレード情報を双方向に交換することができる。 その結果、DRグレーディングにおいてより差別的な特徴を活用できる。 提案手法は、9年以上の経験を持つ最新のアルゴリズムや3人の臨床眼科医よりも優れた性能を示している。 ラベルやカメラなど)の異なる分布のデータセットをテストすることで、実際の実践で一般的に見られる画質や分布の変化に直面すると、アルゴリズムが堅牢であることを証明する。 提案手法を広範囲にわたるアブレーション研究により検討し,それぞれのモチベーションの有効性と必要性を示す。 コードと貴重なアノテーションが公開されている。

Diabetic retinopathy (DR) grading from fundus images has attracted increasing interest in both academic and industrial communities. Most convolutional neural network (CNN) based algorithms treat DR grading as a classification task via image-level annotations. However, these algorithms have not fully explored the valuable information in the DR-related lesions. In this paper, we present a robust framework, which collaboratively utilizes patch-level and image-level annotations, for DR severity grading. By an end-to-end optimization, this framework can bi-directionally exchange the fine-grained lesion and image-level grade information. As a result, it exploits more discriminative features for DR grading. The proposed framework shows better performance than the recent state-of-the-art algorithms and three clinical ophthalmologists with over nine years of experience. By testing on datasets of different distributions (such as label and camera), we prove that our algorithm is robust when facing image quality and distribution variations that commonly exist in real-world practice. We inspect the proposed framework through extensive ablation studies to indicate the effectiveness and necessity of each motivation. The code and some valuable annotations are now publicly available.
翻訳日:2022-11-03 06:22:34 公開日:2021-03-18
# VISIONEビデオ検索システム:大規模ビデオ検索のための市販テキスト検索エンジンの爆発

The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search Engines for Large-Scale Video Retrieval ( http://arxiv.org/abs/2008.02749v2 )

ライセンス: Link先を確認
Giuseppe Amato, Paolo Bolettieri, Fabio Carrara, Franca Debole, Fabrizio Falchi, Claudio Gennaro, Lucia Vadicamo, Claudio Vairo(参考訳) 本稿では,テキストのキーワード,オブジェクトの出現とその空間的関係,色の発生とその空間的関係,画像の類似性を検索するビデオ検索システムである visione について述べる。 これらのモダリティを組み合わせることで、複雑なクエリを表現し、ユーザのニーズを満たすことができる。 提案手法の特長は,視覚的深度,タグ,色,オブジェクト位置などのキーフレームから抽出した情報を,単一のテキスト検索エンジンにインデックス付けされた便利なテキストエンコーディングを用いて符号化することである。 クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。 さらに,VBS(Video Browser Showdown) 2019コンペティションで生成されたクエリログを用いて,システム検索性能の広範な解析を行った。 これにより、テスト対象の中から最適なパラメータと戦略を選択することで、システムを微調整することができます。

In this paper, we describe in details VISIONE, a video search system that allows users to search for videos using textual keywords, occurrence of objects and their spatial relationships, occurrence of colors and their spatial relationships, and image similarity. These modalities can be combined together to express complex queries and satisfy user needs. The peculiarity of our approach is that we encode all the information extracted from the keyframes, such as visual deep features, tags, color and object locations, using a convenient textual encoding indexed in a single text retrieval engine. This offers great flexibility when results corresponding to various parts of the query (visual, text and locations) have to be merged. In addition, we report an extensive analysis of the system retrieval performance, using the query logs generated during the Video Browser Showdown (VBS) 2019 competition. This allowed us to fine-tune the system by choosing the optimal parameters and strategies among the ones that we tested.
翻訳日:2022-11-02 07:57:52 公開日:2021-03-18
# コントラスト学習で対比すべきでないこと

What Should Not Be Contrastive in Contrastive Learning ( http://arxiv.org/abs/2008.05659v2 )

ライセンス: Link先を確認
Tete Xiao, Xiaolong Wang, Alexei A. Efros, Trevor Darrell(参考訳) 最近の自己教師付きコントラスト法は、異なるデータ拡張に不変であることを学習することで、印象的な転送可能な視覚的表現を生成することができる。 しかし、これらの手法は暗黙的に特定の表現的不変性(例えば色への不変性)を仮定し、下流のタスクがこの仮定に違反した場合(例えば赤と黄色を区別する)に性能が低下することがある。 タスク依存不変性に関する事前知識を必要としない、対照的な学習フレームワークを導入する。 本モデルでは,視覚表現の変動因子および不変因子を分離埋め込み空間を構築し,それぞれが1つの加法を除いて不変となることを学習する。 我々は、共有バックボーンを持つマルチヘッドネットワークを使用し、各オーグメンテーションにまたがる情報をキャプチャし、ダウンストリームタスクにおけるすべてのベースラインより優れている。 さらに,不変空間と可変空間の連結性は,粗粒度,細粒度,数ショット下流分類タスク,各種データ破損など,調査対象のすべてのタスクにおいて最もよく機能することがわかった。

Recent self-supervised contrastive methods have been able to produce impressive transferable visual representations by learning to be invariant to different data augmentations. However, these methods implicitly assume a particular set of representational invariances (e.g., invariance to color), and can perform poorly when a downstream task violates this assumption (e.g., distinguishing red vs. yellow cars). We introduce a contrastive learning framework which does not require prior knowledge of specific, task-dependent invariances. Our model learns to capture varying and invariant factors for visual representations by constructing separate embedding spaces, each of which is invariant to all but one augmentation. We use a multi-head network with a shared backbone which captures information across each augmentation and alone outperforms all baselines on downstream tasks. We further find that the concatenation of the invariant and varying spaces performs best across all tasks we investigate, including coarse-grained, fine-grained, and few-shot downstream classification tasks, and various data corruptions.
翻訳日:2022-10-30 23:15:02 公開日:2021-03-18
# 一般化変形性畳み込みによるビデオフレーム補間

Video Frame Interpolation via Generalized Deformable Convolution ( http://arxiv.org/abs/2008.10680v3 )

ライセンス: Link先を確認
Zhihao Shi, Xiaohong Liu, Kangdi Shi, Linhui Dai, Jun Chen(参考訳) ビデオフレーム補間は、空間的および時間的コンピテンシーを維持しながら、近くのソースフレームから中間フレームを合成することを目的としている。 既存のディープラーニングベースのビデオフレーム補間方法は、フローベースメソッドとカーネルベースメソッドの2つのカテゴリに大別することができる。 フローベース手法の性能は、過度に単純化された動作モデルによるフローマップ推定の不正確さによってしばしば損なわれ、一方、カーネルベースの手法はカーネル形状の剛性によって制約される傾向にある。 これらの性能制限問題に対処するために,データ駆動方式で運動情報を効果的に学習し,時空にサンプリングポイントを自由に選択できる汎用的変形可能な畳み込み機構を提案する。 さらに,この機構に基づく新しいビデオフレーム補間手法を開発した。 提案手法は,特に複雑な動きを扱う場合,最先端技術に対して良好に機能することを示す。

Video frame interpolation aims at synthesizing intermediate frames from nearby source frames while maintaining spatial and temporal consistencies. The existing deep-learning-based video frame interpolation methods can be roughly divided into two categories: flow-based methods and kernel-based methods. The performance of flow-based methods is often jeopardized by the inaccuracy of flow map estimation due to oversimplified motion models, while that of kernel-based methods tends to be constrained by the rigidity of kernel shape. To address these performance-limiting issues, a novel mechanism named generalized deformable convolution is proposed, which can effectively learn motion information in a data-driven manner and freely select sampling points in space-time. We further develop a new video frame interpolation method based on this mechanism. Our extensive experiments demonstrate that the new method performs favorably against the state-of-the-art, especially when dealing with complex motions.
翻訳日:2022-10-25 12:17:32 公開日:2021-03-18
# ノード遷移確率に基づくメッセージパッシングとDropNode正規化を用いたグラフ畳み込みニューラルネットワーク

Graph Convolutional Neural Networks with Node Transition Probability-based Message Passing and DropNode Regularization ( http://arxiv.org/abs/2008.12578v2 )

ライセンス: Link先を確認
Tien Huu Do, Duc Minh Nguyen, Giannis Bekoulis, Adrian Munteanu, Nikos Deligiannis(参考訳) 最近、グラフ構造化データを扱う能力のため、グラフ畳み込みニューラルネットワーク(GCNN)が注目されている。 既存のgcnnでは、多くのメソッドがニューラルネットワークのメッセージパッシングモチーフのインスタンスと見なすことができる。 しかしながら、これらの手法はグラフの探索に有用な測度であるノード遷移確率をほとんど使わない。 さらに、遷移確率を使用する場合、それらの遷移方向は特徴集約ステップにおいて不適切に考慮され、非効率な重み付け方式となる。 さらに、複雑さのレベルが増大するGCNNモデルが数多く導入されているが、GCNNは小さなグラフでトレーニングされた時に過度に適合する。 GCNNのもう1つの問題は過剰なスムーシングであり、ノードの表現を区別できない傾向がある。 本研究では,ノードの遷移方向を適切に考慮して,ノードの遷移確率に基づくメッセージパッシングプロセスを改善する手法を提案する。 さらに,オーバーフィッティング問題とオーバースムーシング問題を同時に解決するために,dropnodeと呼ばれる新しい正規化手法を提案する。 DropNodeはグラフの一部をランダムに破棄するので、グラフの複数の変形バージョンを生成し、データ拡張正規化効果をもたらす。 さらに、DropNodeはグラフの接続性を減らし、ディープGCNNにおけるオーバースムースの影響を軽減する。 ノード分類タスクとグラフ分類タスクのための8つのベンチマークデータセットの大規模な実験は、提案手法の有効性を技術状況と比較したものである。

Graph convolutional neural networks (GCNNs) have received much attention recently, owing to their capability in handling graph-structured data. Among the existing GCNNs, many methods can be viewed as instances of a neural message passing motif; features of nodes are passed around their neighbors, aggregated and transformed to produce better nodes' representations. Nevertheless, these methods seldom use node transition probabilities, a measure that has been found useful in exploring graphs. Furthermore, when the transition probabilities are used, their transition direction is often improperly considered in the feature aggregation step, resulting in an inefficient weighting scheme. In addition, although a great number of GCNN models with increasing level of complexity have been introduced, the GCNNs often suffer from over-fitting when being trained on small graphs. Another issue of the GCNNs is over-smoothing, which tends to make nodes' representations indistinguishable. This work presents a new method to improve the message passing process based on node transition probabilities by properly considering the transition direction, leading to a better weighting scheme in nodes' features aggregation compared to the existing counterpart. Moreover, we propose a novel regularization method termed DropNode to address the over-fitting and over-smoothing issues simultaneously. DropNode randomly discards part of a graph, thus it creates multiple deformed versions of the graph, leading to data augmentation regularization effect. Additionally, DropNode lessens the connectivity of the graph, mitigating the effect of over-smoothing in deep GCNNs. Extensive experiments on eight benchmark datasets for node and graph classification tasks demonstrate the effectiveness of the proposed methods in comparison with the state of the art.
翻訳日:2022-10-24 01:28:32 公開日:2021-03-18
# ディープ・ニューラル・タンジェント・カーネルとラプラス・カーネルは同じrkhを持つ

Deep Neural Tangent Kernel and Laplace Kernel Have the Same RKHS ( http://arxiv.org/abs/2009.10683v5 )

ライセンス: Link先を確認
Lin Chen, Sheng Xu(参考訳) 両カーネルが球面$\mathbb{S}^{d-1}$に制限されているとき、ディープニューラル接核とラプラス核の再生カーネルヒルベルト空間(RKHS)が同じ関数集合を含むことを証明する。 さらに、より小さいパワー(カーネルを滑らかにしない)を持つ指数的パワーカーネルは、球面$\mathbb{S}^{d-1}$に制限されたとき、そして、それがすべての$\mathbb{R}^d$で定義されるとき、より大きなRKHSにつながることを証明している。

We prove that the reproducing kernel Hilbert spaces (RKHS) of a deep neural tangent kernel and the Laplace kernel include the same set of functions, when both kernels are restricted to the sphere $\mathbb{S}^{d-1}$. Additionally, we prove that the exponential power kernel with a smaller power (making the kernel less smooth) leads to a larger RKHS, when it is restricted to the sphere $\mathbb{S}^{d-1}$ and when it is defined on the entire $\mathbb{R}^d$.
翻訳日:2022-10-15 22:07:12 公開日:2021-03-18
# LSTM言語モデルにおけるマルチスケール表現学習

Multi-timescale Representation Learning in LSTM Language Models ( http://arxiv.org/abs/2009.12727v2 )

ライセンス: Link先を確認
Shivangi Mahto, Vy A. Vo, Javier S. Turek, Alexander G. Huth(参考訳) 言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。 初期の研究は、自然言語への依存がパワーの法則に従って単語間の距離で崩壊する傾向があることを証明した。 しかし、この知識がニューラルネットワーク言語モデルの解析や設計にどのように役立つのかは不明である。 本研究では,長期記憶(LSTM)言語モデルにおけるメモリゲーティング機構がどのようにパワーローの減衰を捉えるかの理論を導出した。 その結果, lstm内の単位時間スケールは, ゲートバイアスによって決定され, 逆ガンマ分布に従うことが判明した。 実験により、自然言語で訓練されたLSTM言語モデルは、この理論分布を近似することを学ぶことができた。 さらに, 学習中にモデルに理論的分布を明示することで, 言語モデルのパープレキシティが向上し, 特に低頻度単語の予測精度が向上した。 さらに、明示的なマルチタイムスケールモデルは、異なる時間スケールを持つ単位を通して、異なる種類の単語に関する情報を選択的にルーティングし、モデルの解釈性を改善する可能性がある。 これらの結果は、言語モデルにおけるメモリと時間スケールの注意深い理論的動機付け分析の重要性を示している。

Language models must capture statistical dependencies between words at timescales ranging from very short to very long. Earlier work has demonstrated that dependencies in natural language tend to decay with distance between words according to a power law. However, it is unclear how this knowledge can be used for analyzing or designing neural network language models. In this work, we derived a theory for how the memory gating mechanism in long short-term memory (LSTM) language models can capture power law decay. We found that unit timescales within an LSTM, which are determined by the forget gate bias, should follow an Inverse Gamma distribution. Experiments then showed that LSTM language models trained on natural English text learn to approximate this theoretical distribution. Further, we found that explicitly imposing the theoretical distribution upon the model during training yielded better language model perplexity overall, with particular improvements for predicting low-frequency (rare) words. Moreover, the explicit multi-timescale model selectively routes information about different types of words through units with different timescales, potentially improving model interpretability. These results demonstrate the importance of careful, theoretically-motivated analysis of memory and timescale in language models.
翻訳日:2022-10-14 03:07:55 公開日:2021-03-18
# 残留CNN支援JPEGによる光場圧縮

Light Field Compression by Residual CNN Assisted JPEG ( http://arxiv.org/abs/2010.00062v2 )

ライセンス: Link先を確認
Eisa Hedayati, Timothy C. Havens, Jeremy P. Bos(参考訳) 光場(LF)イメージングは、最近の3次元表示とレンダリングの成功と、拡張現実と仮想現実の使用により、大きな注目を集めている。 しかしながら、2つの余剰次元のため、LFは従来の画像よりもはるかに大きい。 我々は、JPEGビットストリームからLFを平均0.0047ピクセル当たりのビット比で再構成するJPEG支援学習技術を開発した。 圧縮のために、LFの中心ビューを保持し、50%の品質でJPEG圧縮を使用します。 再構成パイプラインは, JPEG拡張ネットワーク (JPEG-Hance) と深度推定ネットワーク (Depth-Net) から構成され, 拡張中心ビューをワープすることでビュー合成を行う。 我々のパイプラインは、LFから抽出した擬似シーケンスの動画圧縮よりも、圧縮と非圧縮の両方で、効果的な性能を維持しながら、はるかに高速である。 提案手法では,圧縮時間の1%と圧縮の18倍の高速化により,LFの圧縮に使用される最先端ビデオ圧縮技術と比較して,構造類似度指標(SSIM)とピーク信号-雑音比(PSNR)が向上した。

Light field (LF) imaging has gained significant attention due to its recent success in 3-dimensional (3D) displaying and rendering as well as augmented and virtual reality usage. Nonetheless, because of the two extra dimensions, LFs are much larger than conventional images. We develop a JPEG-assisted learning-based technique to reconstruct an LF from a JPEG bitstream with a bit per pixel ratio of 0.0047 on average. For compression, we keep the LF's center view and use JPEG compression with 50% quality. Our reconstruction pipeline consists of a small JPEG enhancement network (JPEG-Hance), a depth estimation network (Depth-Net), followed by view synthesizing by warping the enhanced center view. Our pipeline is significantly faster than using video compression on pseudo-sequences extracted from an LF, both in compression and decompression, while maintaining effective performance. We show that with a 1% compression time cost and 18x speedup for decompression, our methods reconstructed LFs have better structural similarity index metric (SSIM) and comparable peak signal-to-noise ratio (PSNR) compared to the state-of-the-art video compression techniques used to compress LFs.
翻訳日:2022-10-13 00:30:23 公開日:2021-03-18
# ばらつき低減によるレプリカ交換確率勾配MCMCの高速化

Accelerating Convergence of Replica Exchange Stochastic Gradient MCMC via Variance Reduction ( http://arxiv.org/abs/2010.01084v2 )

ライセンス: Link先を確認
Wei Deng and Qi Feng and Georgios Karagiannis and Guang Lin and Faming Liang(参考訳) Replica exchange stochastic gradient Langevin dynamics (reSGLD) は非凸学習における収束を加速する公約を示しているが、ノイズエネルギー推定器からのバイアスを避けるための過度に大きな補正は加速の可能性を制限している。 この問題に対処するために,より効率的なスワップを促進するノイズエネルギー推定器の分散低減について検討する。 理論的には、基礎となる連続時間マルコフジャンプ過程の指数加速度に関する非漸近解析を提供し、さらに、Gr\"{o}wallの不等式に基づいて粗離散化を克服するポアソン測度の変化を含む一般化されたジルサノフの定理を考察し、2-ワッサーシュタイン ("\mathcal{W}_2$) 距離においてより厳密な誤差をもたらす。 数値実験を行い,合成実験と画像データの最適化と不確実性推定において,最先端の成果を得る。

Replica exchange stochastic gradient Langevin dynamics (reSGLD) has shown promise in accelerating the convergence in non-convex learning; however, an excessively large correction for avoiding biases from noisy energy estimators has limited the potential of the acceleration. To address this issue, we study the variance reduction for noisy energy estimators, which promotes much more effective swaps. Theoretically, we provide a non-asymptotic analysis on the exponential acceleration for the underlying continuous-time Markov jump process; moreover, we consider a generalized Girsanov theorem which includes the change of Poisson measure to overcome the crude discretization based on the Gr\"{o}wall's inequality and yields a much tighter error in the 2-Wasserstein ($\mathcal{W}_2$) distance. Numerically, we conduct extensive experiments and obtain the state-of-the-art results in optimization and uncertainty estimates for synthetic experiments and image data.
翻訳日:2022-10-12 01:23:51 公開日:2021-03-18
# ビジョンのための群同変スタンドアローンセルフアテンション

Group Equivariant Stand-Alone Self-Attention For Vision ( http://arxiv.org/abs/2010.00977v2 )

ライセンス: Link先を確認
David W. Romero, Jean-Baptiste Cordonnier(参考訳) 任意の対称性群に群同値を課す一般自己注意式を提供する。 これは、考慮された群の作用に不変な位置符号化を定義することで達成される。 群は位置エンコーディングに直接作用するため、群同変自己アテンションネットワーク(GSA-Nets)は自然に制御可能である。 ビジョンベンチマーク実験では,非同変自己注意ネットワーク上でのGSA-Netの整合性向上を実証した。

We provide a general self-attention formulation to impose group equivariance to arbitrary symmetry groups. This is achieved by defining positional encodings that are invariant to the action of the group considered. Since the group acts on the positional encoding directly, group equivariant self-attention networks (GSA-Nets) are steerable by nature. Our experiments on vision benchmarks demonstrate consistent improvements of GSA-Nets over non-equivariant self-attention networks.
翻訳日:2022-10-12 00:30:01 公開日:2021-03-18
# copulagnn:グラフニューラルネットワークにおけるグラフの表現的および相関的役割の統合に向けて

CopulaGNN: Towards Integrating Representational and Correlational Roles of Graphs in Graph Neural Networks ( http://arxiv.org/abs/2010.02089v2 )

ライセンス: Link先を確認
Jiaqi Ma, Bo Chang, Xuefei Zhang, Qiaozhu Mei(参考訳) グラフ構造化データはユビキタスである。 しかし、グラフは様々な種類の情報をエンコードし、データ表現において異なる役割を果たす。 本稿では、ノードレベルの予測タスクにおいて、グラフが果たす \textit{representational} と \textit{correlational} の役割を区別し、グラフニューラルネットワーク(gnn)モデルが両方の情報の有効利用について検討する。 概念的には、表現情報はより良いノード特徴を構築するためのモデルのためのガイダンスを提供するが、相関情報はノード特徴に条件づけられたノード結果間の相関を示す。 シミュレーション研究により,多くのGNNモデルは相関情報を効果的に活用できないことがわかった。 多変量確率変数間の依存を記述する原理的な方法であるコプラの概念を活用することにより、一般解を提供する。 提案したCopula Graph Neural Network (CopulaGNN)は、GNNモデルをベースモデルとして、グラフに格納された表現情報と相関情報の両方を利用することができる。 2種類の回帰課題に関する実験結果は,提案手法の有効性を検証した。

Graph-structured data are ubiquitous. However, graphs encode diverse types of information and thus play different roles in data representation. In this paper, we distinguish the \textit{representational} and the \textit{correlational} roles played by the graphs in node-level prediction tasks, and we investigate how Graph Neural Network (GNN) models can effectively leverage both types of information. Conceptually, the representational information provides guidance for the model to construct better node features; while the correlational information indicates the correlation between node outcomes conditional on node features. Through a simulation study, we find that many popular GNN models are incapable of effectively utilizing the correlational information. By leveraging the idea of the copula, a principled way to describe the dependence among multivariate random variables, we offer a general solution. The proposed Copula Graph Neural Network (CopulaGNN) can take a wide range of GNN models as base models and utilize both representational and correlational information stored in the graphs. Experimental results on two types of regression tasks verify the effectiveness of the proposed method.
翻訳日:2022-10-10 20:46:26 公開日:2021-03-18
# 人間と機械の構造的タスク分布のメタラーニング

Meta-Learning of Structured Task Distributions in Humans and Machines ( http://arxiv.org/abs/2010.02317v3 )

ライセンス: Link先を確認
Sreejan Kumar, Ishita Dasgupta, Jonathan D. Cohen, Nathaniel D. Daw, Thomas L. Griffiths(参考訳) 近年では、モデルがタスク群(すなわちタスク分布)で訓練されるメタラーニングが、以前に構造化表現を必要とすると考えられていたタスクを実行するためにニューラルネットワークを訓練するアプローチとして登場し、人間と機械の間のギャップを縮めるための一歩を踏み出した。 しかし、メタ学習の評価は依然として課題であり、メタ学習が実際にタスク内に埋め込まれた構造を使っているかどうかを見逃すことができる。 したがって、これらのメタ学習者は人間の学習者とは大きく異なるかもしれない。 この違いを示すために,まず,構成文法を用いて構造化タスク分布を生成する新しいメタ強化学習タスクを定義する。 そこで我々は,この構造化されたタスク分布と同じ統計量で,構造化されたタスクを生成するために使用される明示的なルールベース構造を持たず,"nullタスク分布"を構築する新しい手法を提案する。 モデルフリーの強化学習でトレーニングされたリカレントネットワークである標準メタ学習エージェントをトレーニングし,2つのタスク分布におけるヒューマンパフォーマンスと比較した。 統計的な複雑さにもかかわらず、エージェントがヌルタスクの分布を良くするのに対して、構造化されたタスクの分布では人間の方が優れている二重解離が見つかる。 この研究は、複数の戦略が合理的なメタテストのパフォーマンスを達成することを強調し、制御タスクの分散を慎重に構築することは、メタ学習者が獲得する戦略と、それらが人間とどのように異なるかを理解する貴重な方法であることを示した。

In recent years, meta-learning, in which a model is trained on a family of tasks (i.e. a task distribution), has emerged as an approach to training neural networks to perform tasks that were previously assumed to require structured representations, making strides toward closing the gap between humans and machines. However, we argue that evaluating meta-learning remains a challenge, and can miss whether meta-learning actually uses the structure embedded within the tasks. These meta-learners might therefore still be significantly different from humans learners. To demonstrate this difference, we first define a new meta-reinforcement learning task in which a structured task distribution is generated using a compositional grammar. We then introduce a novel approach to constructing a "null task distribution" with the same statistical complexity as this structured task distribution but without the explicit rule-based structure used to generate the structured task. We train a standard meta-learning agent, a recurrent network trained with model-free reinforcement learning, and compare it with human performance across the two task distributions. We find a double dissociation in which humans do better in the structured task distribution whereas agents do better in the null task distribution -- despite comparable statistical complexity. This work highlights that multiple strategies can achieve reasonable meta-test performance, and that careful construction of control task distributions is a valuable way to understand which strategies meta-learners acquire, and how they might differ from humans.
翻訳日:2022-10-10 20:29:21 公開日:2021-03-18
# 広帯域チャネル上の分割エッジ学習のための適応サブキャリア,パラメータ,パワーアロケーション

Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels ( http://arxiv.org/abs/2010.04061v2 )

ライセンス: Link先を確認
Dingzhu Wen, Ki-Jun Jeon, Mehdi Bennis, and Kaibin Huang(参考訳) 本稿では,無線ネットワーク上でよく知られた分散学習手法であるパラメータサーバトレーニングを実装した分割エッジ学習(partel)について検討する。 これによりParticleELはエッジデバイスの分散計算資源を活用して、大規模人工知能(AI)モデルを動的に分割してパラメトリックブロックに分割し、デバイスで分離した更新を行う。 ブロードバンドチャネルをターゲットとし,パラメータ割り当て,サブチャネル割り当て,伝送電力の協調制御を考慮し,partelの性能向上を図る。 具体的には、最小学習レイテンシの基準の下で、SUbcarrier, Parameter, POweR allocaTion (SUPPORT) のポリシーを最適化する。 2つの事例が考えられる。 まず、分解可能なモデル(例えばロジスティック回帰)の場合、レイテンシ最小化問題は混合整数プログラムと非凸である。 その難易度から, 遅延制約下でのモデルサイズ最大化の等価凸問題に変換し, 整数緩和による実用的な解法を開発した。 これにより、サポートポリシーを計算するために、低複雑度アルゴリズムが設計される。 次に、いくつかの補助変数を導入してParticleELを使ってトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。 しかし、これはパラメータ割り当ての粒度を減らすモデル分割に関する制約を導入する。 負荷粒度制約による遅延拡大を抑制するために,提案手法である負荷ラウンドリングと比例調整を適用して,DNNモデルに拡張する。

In this paper, we consider partitioned edge learning (PARTEL), which implements parameter-server training, a well known distributed learning method, in a wireless network. Thereby, PARTEL leverages distributed computation resources at edge devices to train a large-scale artificial intelligence (AI) model by dynamically partitioning the model into parametric blocks for separated updating at devices. Targeting broadband channels, we consider the joint control of parameter allocation, sub-channel allocation, and transmission power to improve the performance of PARTEL. Specifically, the policies for joint SUbcarrier, Parameter, and POweR allocaTion (SUPPORT) are optimized under the criterion of minimum learning latency. Two cases are considered. First, for the case of decomposable models (e.g., logistic regression), the latency-minimization problem is a mixed-integer program and non-convex. Due to its intractability, we develop a practical solution by integer relaxation and transforming it into an equivalent convex problem of model size maximization under a latency constraint. Thereby, a low-complexity algorithm is designed to compute the SUPPORT policy. Second, consider the case of deep neural network (DNN) models which can be trained using PARTEL by introducing some auxiliary variables. This, however, introduces constraints on model partitioning reducing the granularity of parameter allocation. The preceding policy is extended to DNN models by applying the proposed techniques of load rounding and proportional adjustment to rein in latency expansion caused by the load granularity constraints.
翻訳日:2022-10-09 13:17:02 公開日:2021-03-18
# 変形可能なdetr:エンドツーエンドオブジェクト検出のための変形可能なトランス

Deformable DETR: Deformable Transformers for End-to-End Object Detection ( http://arxiv.org/abs/2010.04159v4 )

ライセンス: Link先を確認
Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai(参考訳) DETRは、オブジェクト検出において多くの手設計コンポーネントの必要性を排除し、優れた性能を示すために最近提案されている。 しかし、画像特徴マップの処理におけるトランスフォーマーアテンションモジュールの制限のため、収束が遅く、空間分解能も限られている。 これらの問題を緩和するため,我々は,注意モジュールが参照を囲む少数のキーサンプリングポイントにしか対応しない変形可能なdetrを提案した。 変形可能なDETRは、DeTR(特に小さなオブジェクト)よりも10倍のトレーニングエポックで優れたパフォーマンスを実現することができる。 COCOベンチマークの大規模な実験は、我々のアプローチの有効性を実証している。 コードはhttps://github.com/fundamentalvision/Deformable-DETRで公開されている。

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10 times less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/fundamentalvision/Deformable-DETR.
翻訳日:2022-10-09 12:34:02 公開日:2021-03-18
# SSVEPに基づくBCI分類への応用

Transfer Learning and SpecAugment applied to SSVEP Based BCI Classification ( http://arxiv.org/abs/2010.06503v2 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi, Willian Rampazzo and Romis Attux(参考訳) 目的:我々はディープ畳み込みニューラルネットワーク(DCNN)を用いて脳波信号の定常的視覚誘発電位(SSVEP)に基づく単一チャネル脳-コンピュータインタフェース(BCI)の分類を行った。 方法:脳波信号はスペクトログラムに変換され、トランスファー学習技術を用いてdcnnの訓練のインプットとして機能する。 また,一般に音声認識に使用されるデータ拡張手法SpecAugmentを改良し,適用した。 さらに,ssvepデータセットをsvm(support-vector machine)とfbcca(filter bank canonical correlation analysis)を用いて分類した。 結果: 微調整工程から評価したユーザのデータを除くと, オープンデータセットから35項目中82.2%の平均テスト精度, 0.825平均f1-scoreとなり, 小さいデータ長 (0.5 s), 1つの電極 (oz) とdcnnに転送学習, ウィンドウスライシング (ws) とスペクタグメントのタイムマスクを装着した。 結論:DCNNの結果はSVMとFBCCAを上回り,単電極とデータ長が小さかった。 転送学習は、最小限の精度の変更を提供するが、トレーニングを高速化した。 SpecAugmentは小さなパフォーマンス改善を生み出し、WSと組み合わせることに成功した。 意義:DCNNを用いたSSVEP分類の課題を解決するための新しい手法を提案する。 また,音声認識データ拡張手法を改良し,BCIの文脈に適用した。 FBCCAおよびSVM(より伝統的なSSVEP分類法)を用いて,データ長が小さく,電極が1個あるBCIにおいて,提案手法が得られた。 このタイプのBCIは、小型で高速なシステムを開発するために使用できる。

Objective: We used deep convolutional neural networks (DCNNs) to classify electroencephalography (EEG) signals in a steady-state visually evoked potentials (SSVEP) based single-channel brain-computer interface (BCI), which does not require calibration on the user. Methods: EEG signals were converted to spectrograms and served as input to train DCNNs using the transfer learning technique. We also modified and applied a data augmentation method, SpecAugment, generally employed for speech recognition. Furthermore, for comparison purposes, we classified the SSVEP dataset using Support-vector machines (SVMs) and Filter Bank canonical correlation analysis (FBCCA). Results: Excluding the evaluated user's data from the fine-tuning process, we reached 82.2% mean test accuracy and 0.825 mean F1-Score on 35 subjects from an open dataset, using a small data length (0.5 s), only one electrode (Oz) and the DCNN with transfer learning, window slicing (WS) and SpecAugment's time masks. Conclusion: The DCNN results surpassed SVM and FBCCA performances, using a single electrode and a small data length. Transfer learning provided minimal accuracy change, but made training faster. SpecAugment created a small performance improvement and was successfully combined with WS, yielding higher accuracies. Significance: We present a new methodology to solve the problem of SSVEP classification using DCNNs. We also modified a speech recognition data augmentation technique and applied it to the context of BCIs. The presented methodology surpassed performances obtained with FBCCA and SVMs (more traditional SSVEP classification methods) in BCIs with small data lengths and one electrode. This type of BCI can be used to develop small and fast systems.
翻訳日:2022-10-09 11:50:57 公開日:2021-03-18
# IF-Defense:インプシット機能による3次元対向点雲防衛

IF-Defense: 3D Adversarial Point Cloud Defense via Implicit Function based Restoration ( http://arxiv.org/abs/2010.05272v3 )

ライセンス: Link先を確認
Ziyi Wu, Yueqi Duan, He Wang, Qingnan Fan, Leonidas J. Guibas(参考訳) ポイントクラウドは多くの重要なアプリケーションで広く使われている重要な3Dデータ表現である。 ディープニューラルネットワークを活用する最近の研究は、3Dポイントクラウドの処理に大きな成功を収めている。 しかし、これらのディープニューラルネットワークは、様々な3次元敵攻撃に弱いため、局所的な点分布に影響を与える点摂動と、幾何学の劇的な変化を引き起こす表面歪みの2つの主要なタイプにまとめることができる。 本稿では,攻撃対象からクリーンポイント雲を復元する学習を通じて,上記の2つの攻撃に同時に対処する。 具体的には,入力点の座標を幾何学的および分布的制約により直接最適化するif防御フレームワークを提案する。 前者は暗黙の関数を通じて点雲の表面を回復することを目的としているが、後者は均等に分配された点を奨励する。 実験の結果,IF-Defense は PointNet, PointNet++, DGCNN, PointConv, RS-CNN に対する既存の3次元敵攻撃に対して,最先端の防御性能を達成できた。 例えば、以前の方法と比較すると、IF-Defenseは正解点降下攻撃に対する分類精度を20.02%改善し、ポイントネットに対するLG-GAN攻撃に対して16.29%改善した。 私たちのコードはhttps://github.com/Wuziyi616/IF-Defense.comから入手可能です。

Point cloud is an important 3D data representation widely used in many essential applications. Leveraging deep neural networks, recent works have shown great success in processing 3D point clouds. However, those deep neural networks are vulnerable to various 3D adversarial attacks, which can be summarized as two primary types: point perturbation that affects local point distribution, and surface distortion that causes dramatic changes in geometry. In this paper, we simultaneously address both the aforementioned attacks by learning to restore the clean point clouds from the attacked ones. More specifically, we propose an IF-Defense framework to directly optimize the coordinates of input points with geometry-aware and distribution-aware constraints. The former aims to recover the surface of point cloud through implicit function, while the latter encourages evenly-distributed points. Our experimental results show that IF-Defense achieves the state-of-the-art defense performance against existing 3D adversarial attacks on PointNet, PointNet++, DGCNN, PointConv and RS-CNN. For example, compared with previous methods, IF-Defense presents 20.02% improvement in classification accuracy against salient point dropping attack and 16.29% against LG-GAN attack on PointNet. Our code is available at https://github.com/Wuziyi616/IF-Defense.
翻訳日:2022-10-08 13:41:29 公開日:2021-03-18
# 強化学習のための効率的なwasserstein自然勾配

Efficient Wasserstein Natural Gradients for Reinforcement Learning ( http://arxiv.org/abs/2010.05380v4 )

ライセンス: Link先を確認
Ted Moskovitz, Michael Arbel, Ferenc Huszar, Arthur Gretton(参考訳) 強化学習(rl)のためのポリシー勾配法と進化戦略に適用するための新しい最適化手法を提案する。 この手順は、ワッサーシュタインのペナルティによって誘導される幾何を利用して速度最適化を行う計算効率の良いワッサーシュタイン自然勾配(WNG)降下を用いる。 この方法は、信頼領域を確立する目的に分散ペナルティを含むという最近のRLのテーマに従っている。 挑戦的なタスクの実験は、高度なベースラインよりも計算コストと性能の両方の改善を示す。

A novel optimization approach is proposed for application to policy gradient methods and evolution strategies for reinforcement learning (RL). The procedure uses a computationally efficient Wasserstein natural gradient (WNG) descent that takes advantage of the geometry induced by a Wasserstein penalty to speed optimization. This method follows the recent theme in RL of including a divergence penalty in the objective to establish a trust region. Experiments on challenging tasks demonstrate improvements in both computational cost and performance over advanced baselines.
翻訳日:2022-10-08 07:36:04 公開日:2021-03-18
# 停留標識を用いた都市自律運転用自動校正法

Auto-calibration Method Using Stop Signs for Urban Autonomous Driving Applications ( http://arxiv.org/abs/2010.07441v2 )

ライセンス: Link先を確認
Yunhai Han, Yuhan Liu, David Paz, Henrik Christensen(参考訳) センサのキャリブレーションは、インテリジェントな車両のロバストな性能に欠かせない。 自然環境においては、外乱は容易に校正に挑戦できる。 1つの可能性として、既知の形状の自然な物体を使ってセンサーを校正する。 停止標識などの交通標識の認識に基づくアプローチと、カメラの再調整のためのそれらの使用について述べる。 このアプローチは、検出、幾何推定、キャリブレーション、再帰的な更新に基づいている。 自然環境からの結果が明らかに収束し,性能が向上した。

Calibration of sensors is fundamental to robust performance for intelligent vehicles. In natural environments, disturbances can easily challenge calibration. One possibility is to use natural objects of known shape to recalibrate sensors. An approach based on recognition of traffic signs, such as stop signs, and use of them for recalibration of cameras is presented. The approach is based on detection, geometry estimation, calibration, and recursive updating. Results from natural environments are presented that clearly show convergence and improved performance.
翻訳日:2022-10-07 14:24:06 公開日:2021-03-18
# i-mix:コントラスト表現学習のためのドメイン非依存戦略

i-Mix: A Domain-Agnostic Strategy for Contrastive Representation Learning ( http://arxiv.org/abs/2010.08887v2 )

ライセンス: Link先を確認
Kibok Lee, Yian Zhu, Kihyuk Sohn, Chun-Liang Li, Jinwoo Shin, Honglak Lee(参考訳) 対照表現学習はラベルのないデータから表現を学ぶのに有効であることが示されている。 しかし、視覚領域における多くの進歩は、ドメイン知識を用いて慎重に設計されたデータ拡張に依存している。 本稿では,コントラスト表現学習を改善するための,単純かつ効果的なドメイン非依存正規化戦略であるi-mixを提案する。 バッチ内の各データにユニークな仮想クラスを割り当てることで,非パラメトリック分類器のトレーニングとしてコントラスト学習を行った。 そして、入力と仮想ラベルスペースの両方でデータインスタンスが混在し、トレーニング中にさらに拡張されたデータを提供する。 実験では、i-mixが画像、音声、表データを含むドメイン間の学習表現の品質を一貫して向上させることを示す。 さらに、モデルおよびデータセットサイズにわたる広範囲なアブレーション研究により、その正規化効果を確認する。 コードはhttps://github.com/kibok90/imixで入手できる。

Contrastive representation learning has shown to be effective to learn representations from unlabeled data. However, much progress has been made in vision domains relying on data augmentations carefully designed using domain knowledge. In this work, we propose i-Mix, a simple yet effective domain-agnostic regularization strategy for improving contrastive representation learning. We cast contrastive learning as training a non-parametric classifier by assigning a unique virtual class to each data in a batch. Then, data instances are mixed in both the input and virtual label spaces, providing more augmented data during training. In experiments, we demonstrate that i-Mix consistently improves the quality of learned representations across domains, including image, speech, and tabular data. Furthermore, we confirm its regularization effect via extensive ablation studies across model and dataset sizes. The code is available at https://github.com/kibok90/imix.
翻訳日:2022-10-06 11:41:32 公開日:2021-03-18
# 安定resnet

Stable ResNet ( http://arxiv.org/abs/2010.12859v2 )

ライセンス: Link先を確認
Soufiane Hayou, Eugenio Clerico, Bobby He, George Deligiannidis, Arnaud Doucet, Judith Rousseau(参考訳) Deep ResNetアーキテクチャは多くのタスクで最先端のパフォーマンスを達成した。 勾配が消える問題を解く一方で、深さが大きくなるにつれて勾配が爆発する恐れがある(Yang et al. 2017)。 さらに、最近の結果は、深さが無限に近づくにつれてResNetが表現力を失う可能性があることを示している(Yang et al. 2017 HaYO et al. 2019)。 これらの問題を解決するために、無限深度制限の表現性を確保しつつ勾配を安定化する特性を持つ、Stable ResNetと呼ばれる新しいResNetアーキテクチャを導入した。

Deep ResNet architectures have achieved state of the art performance on many tasks. While they solve the problem of gradient vanishing, they might suffer from gradient exploding as the depth becomes large (Yang et al. 2017). Moreover, recent results have shown that ResNet might lose expressivity as the depth goes to infinity (Yang et al. 2017, Hayou et al. 2019). To resolve these issues, we introduce a new class of ResNet architectures, called Stable ResNet, that have the property of stabilizing the gradient while ensuring expressivity in the infinite depth limit.
翻訳日:2022-10-03 12:17:40 公開日:2021-03-18
# Range-Net: ビッグデータアプリケーションのための高精度なストリーミングSVD

Range-Net: A High Precision Streaming SVD for Big Data Applications ( http://arxiv.org/abs/2010.14226v6 )

ライセンス: Link先を確認
Gurpreet Singh, Soumyajit Gupta, Matthew Lease, Clint Dawson(参考訳) ビッグデータ設定コンピューティングでは、主記憶要求のため、支配的なSVD要素が制限される。 最近導入されたストリーミングランダム化SVDスキームは、データの特異値スペクトルが指数減衰であるという制限的な仮定の下で機能する。 これは実用データにはほとんど当てはまらない。 これらの手法は、関連する尾エネルギー誤差境界によって科学計算に適用できるとされているが、上記の仮定が成り立たない場合、特異ベクトルと値の近似誤差が高い。 さらに、実際的な観点では、オーバーサンプリングは依然としてメモリ集約的であるか、データの特徴次元を超える可能性がある。 これらの問題に対処するために、Eckart-Young-Mirsky (EYM) の定理によって与えられるテールエネルギーの下界を満たすランダム化SVDの代替として Range-Net を提案する。 range-netは、ランダム初期化を伴う決定論的2段階ニューラルネットワーク最適化アプローチであり、主なメモリ要求は、サンプル次元とは無関係に、特徴次元と所望のランクに明示的に依存する。 所望のrank-r近似に収束するネットワーク最小化問題により、データサンプルをストリーミング設定で読み出す。 Range-Netは完全に解釈可能で、全てのネットワーク出力と重みが特定の意味を持つ。 距離-ネット抽出されたsvd因子が機械精度でeymテールエネルギ下限を満たすことを理論的に保証する。 実データの様々なスケールでの数値実験により、この境界が確認できる。 アートストリーミングのランダム化SVDと比較すると、メモリ効率が良く6桁の精度でレンジネットの精度が向上している。

In a Big Data setting computing the dominant SVD factors is restrictive due to the main memory requirements. Recently introduced streaming Randomized SVD schemes work under the restrictive assumption that the singular value spectrum of the data has exponential decay. This is seldom true for any practical data. Although these methods are claimed to be applicable to scientific computations due to associated tail-energy error bounds, the approximation errors in the singular vectors and values are high when the aforementioned assumption does not hold. Furthermore from a practical perspective, oversampling can still be memory intensive or worse can exceed the feature dimension of the data. To address these issues, we present Range-Net as an alternative to randomized SVD that satisfies the tail-energy lower bound given by Eckart-Young-Mirsky (EYM) theorem. Range-Net is a deterministic two-stage neural optimization approach with random initialization, where the main memory requirement depends explicitly on the feature dimension and desired rank, independent of the sample dimension. The data samples are read in a streaming setting with the network minimization problem converging to the desired rank-r approximation. Range-Net is fully interpretable where all the network outputs and weights have a specific meaning. We provide theoretical guarantees that Range-Net extracted SVD factors satisfy EYM tail-energy lower bound at machine precision. Our numerical experiments on real data at various scales confirms this bound. A comparison against the state of the art streaming Randomized SVD shows that Range-Net accuracy is better by six orders of magnitude while being memory efficient.
翻訳日:2022-10-02 11:39:44 公開日:2021-03-18
# ゲーム理論から見たマルチエージェント強化学習の概観

An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective ( http://arxiv.org/abs/2011.00583v3 )

ライセンス: Link先を確認
Yaodong Yang, Jun Wang(参考訳) alphagoシリーズの成功に続いて、2019年はマルチエージェント強化学習(marl)技術が大幅に進歩した年となった。 MARLは複数のエージェントが同時に学習するマルチエージェントシステムにおける学習問題に対応する。 ゲーム理論、機械学習、確率制御、心理学、最適化を含む長い歴史を持つ学際ドメインである。 MARLは現実世界のゲームを解く上で経験的な成功を収めてきたが、現代のMARL手法のゲーム理論の基礎を詳述し、最近の進歩を要約する自己完結した概要は文献に欠けている。 実際、既存の調査の大部分は時代遅れであり、2010年以降の最近の開発を完全にカバーしていない。 本稿では,研究フロンティアにおける基礎と最新の発展の両方を網羅した,MARLに関するモノグラフを提供する。 本研究の目的は,ゲーム理論の観点から,現在最先端のMARL技術の自己完結型評価を提供することである。 この研究は、この急速に成長する領域に参入しようとしている新しい研究者と、パノラマ図を取得して、最近の進歩に基づいて新しい方向を特定したい既存ドメインの専門家の両方にとって、足場となるものと期待している。

Following the remarkable success of the AlphaGO series, 2019 was a booming year that witnessed significant advances in multi-agent reinforcement learning (MARL) techniques. MARL corresponds to the learning problem in a multi-agent system in which multiple agents learn simultaneously. It is an interdisciplinary domain with a long history that includes game theory, machine learning, stochastic control, psychology, and optimisation. Although MARL has achieved considerable empirical success in solving real-world games, there is a lack of a self-contained overview in the literature that elaborates the game theoretical foundations of modern MARL methods and summarises the recent advances. In fact, the majority of existing surveys are outdated and do not fully cover the recent developments since 2010. In this work, we provide a monograph on MARL that covers both the fundamentals and the latest developments in the research frontier. The goal of our monograph is to provide a self-contained assessment of the current state-of-the-art MARL techniques from a game theoretical perspective. We expect this work to serve as a stepping stone for both new researchers who are about to enter this fast-growing domain and existing domain experts who want to obtain a panoramic view and identify new directions based on recent advances.
翻訳日:2022-09-30 23:48:40 公開日:2021-03-18
# ニューラルネットワークを用いた複雑な問合せ応答

Complex Query Answering with Neural Link Predictors ( http://arxiv.org/abs/2011.03459v4 )

ライセンス: Link先を確認
Erik Arakelyan, Daniel Daza, Pasquale Minervini, Michael Cochez(参考訳) ニューラルネットワーク予測器は,大規模知識グラフの不足点を特定する上で非常に有用である。 しかし、論理的な結合を用いたクエリ($\land$)、代入($\lor$)、存在量化子($\exists$)といった、多くのドメインで発生するより複雑なクエリに対するこれらのモデルの使い方は、まだ明確ではない。 本研究では,不完全な知識グラフ上で複雑なクエリを効率的に応答するフレームワークを提案する。 我々は、各クエリをエンドツーエンドの微分可能な対象に変換し、各原子の真理値を事前学習されたニューラルネットワーク予測器で計算する。 次に、勾配ベースと組合せ探索を含む最適化問題に対する2つの解を解析する。 私たちの実験では、提案手法は、大規模で多様な複雑なクエリのトレーニングを必要とせずに、最先端のメソッド -- 数百万のクエリでトレーニングされたブラックボックスニューラルモデル -- よりも正確な結果を生み出す。 トレーニングデータの桁数が桁違いに少ないため、事実情報を含む知識グラフ間で、Hits@3の8%から40%までの相対的な改善が得られる。 最後に, 複雑な問合せ原子毎に同定された中間解の観点から, モデルの結果を説明することが可能であることを実証した。 ソースコードとデータセットはすべて、https://github.com/uclnlp/cqd.comで公開されています。

Neural link predictors are immensely useful for identifying missing edges in large scale Knowledge Graphs. However, it is still not clear how to use these models for answering more complex queries that arise in a number of domains, such as queries using logical conjunctions ($\land$), disjunctions ($\lor$) and existential quantifiers ($\exists$), while accounting for missing edges. In this work, we propose a framework for efficiently answering complex queries on incomplete Knowledge Graphs. We translate each query into an end-to-end differentiable objective, where the truth value of each atom is computed by a pre-trained neural link predictor. We then analyse two solutions to the optimisation problem, including gradient-based and combinatorial search. In our experiments, the proposed approach produces more accurate results than state-of-the-art methods -- black-box neural models trained on millions of generated queries -- without the need of training on a large and diverse set of complex queries. Using orders of magnitude less training data, we obtain relative improvements ranging from 8% up to 40% in Hits@3 across different knowledge graphs containing factual information. Finally, we demonstrate that it is possible to explain the outcome of our model in terms of the intermediate solutions identified for each of the complex query atoms. All our source code and datasets are available online, at https://github.com/uclnlp/cqd.
翻訳日:2022-09-29 04:15:04 公開日:2021-03-18
# 神経時空間点過程

Neural Spatio-Temporal Point Processes ( http://arxiv.org/abs/2011.04583v3 )

ライセンス: Link先を確認
Ricky T. Q. Chen, Brandon Amos, Maximilian Nickel(参考訳) 本稿では、ニューラルODEを計算手法として活用し、連続時間と空間で局所化される離散事象のフレキシブルで高忠実なモデルを実現する、時空間プロセスのための新しいパラメータ化クラスを提案する。 私たちのアプローチの中心は、連続時間ニューラルネットワークと、2つの新しいニューラルネットワーク、すなわちジャンプと注意的連続時間正規化フローの組み合わせです。 このアプローチにより、空間領域と時間領域の両方の複雑な分布を学習し、観測された事象履歴に自明な条件を付けることができる。 我々は,地震学,疫学,都市移動性,神経科学など,さまざまな文脈のデータセットを用いて,我々のモデルを検証した。

We propose a new class of parameterizations for spatio-temporal point processes which leverage Neural ODEs as a computational method and enable flexible, high-fidelity models of discrete events that are localized in continuous time and space. Central to our approach is a combination of continuous-time neural networks with two novel neural architectures, i.e., Jump and Attentive Continuous-time Normalizing Flows. This approach allows us to learn complex distributions for both the spatial and temporal domain and to condition non-trivially on the observed event history. We validate our models on data sets from a wide variety of contexts such as seismology, epidemiology, urban mobility, and neuroscience.
翻訳日:2022-09-28 01:44:00 公開日:2021-03-18
# フェデレートラーニングにおけるプライバシ保護 : GDPRの視点からの洞察に富んだ調査

Privacy Preservation in Federated Learning: An insightful survey from the GDPR Perspective ( http://arxiv.org/abs/2011.05411v5 )

ライセンス: Link先を確認
Nguyen Truong, Kai Sun, Siyao Wang, Florian Guitton, Yike Guo(参考訳) AIと機械学習ベースのアプリケーションとサービスの普及に伴い、データのプライバシとセキュリティは重要な課題となっている。 従来、データは機械学習モデルがトレーニングされたデータセンタに収集され、集約される。 この集中型アプローチは、個人情報の漏洩、誤用、乱用に深刻なプライバシーリスクをもたらしている。 さらに、モノのインターネット(Internet of Things)や、データが本質的に分散しているビッグデータの時代においては、大量のデータをデータセンターに転送して処理するのは厄介なソリューションである。 これは、データソース間でデータの転送と共有が困難であるだけでなく、厳格なデータ保護規則やEU一般データ保護規則(GDPR)のような複雑な管理手順に従う上での課題でもある。 この点において、フェデレーテッド・ラーニング(FL)は、GDPRに自然に準拠しながら、元のトレーニングデータを開示することなく、分散協調学習を容易にする先進的なソリューションとして出現する。 近年の研究では、FLでデータと計算をデバイス上で保持することは、プライバシガイダンスに十分ではないことが示されている。 これは、FLシステム内のパーティ間で交換されるMLモデルパラメータが機密情報を隠蔽しているためである。 したがって、FLシステムはGDPRに従うための効率的なプライバシー保護技術によって強化される。 この記事では、FLで採用可能な最先端のプライバシ保護技術の調査と、これらの技術がデータのセキュリティとプライバシのリスクを軽減する方法について紹介する。 さらに、我々は、GDPRの規制ガイドラインに従って、FLシステムがGDPRに従うために実施するであろう課題に関する洞察と、今後のアプローチについて考察する。

Along with the blooming of AI and Machine Learning-based applications and services, data privacy and security have become a critical challenge. Conventionally, data is collected and aggregated in a data centre on which machine learning models are trained. This centralised approach has induced severe privacy risks to personal data leakage, misuse, and abuse. Furthermore, in the era of the Internet of Things and big data in which data is essentially distributed, transferring a vast amount of data to a data centre for processing seems to be a cumbersome solution. This is not only because of the difficulties in transferring and sharing data across data sources but also the challenges on complying with rigorous data protection regulations and complicated administrative procedures such as the EU General Data Protection Regulation (GDPR). In this respect, Federated learning (FL) emerges as a prospective solution that facilitates distributed collaborative learning without disclosing original training data whilst naturally complying with the GDPR. Recent research has demonstrated that retaining data and computation on-device in FL is not sufficient enough for privacy-guarantee. This is because ML model parameters exchanged between parties in an FL system still conceal sensitive information, which can be exploited in some privacy attacks. Therefore, FL systems shall be empowered by efficient privacy-preserving techniques to comply with the GDPR. This article is dedicated to surveying on the state-of-the-art privacy-preserving techniques which can be employed in FL in a systematic fashion, as well as how these techniques mitigate data security and privacy risks. Furthermore, we provide insights into the challenges along with prospective approaches following the GDPR regulatory guidelines that an FL system shall implement to comply with the GDPR.
翻訳日:2022-09-27 07:04:16 公開日:2021-03-18
# 線形ロジスティックモデルにおける信頼境界の改善と線形帯域への応用

Improved Confidence Bounds for the Linear Logistic Model and Applications to Linear Bandits ( http://arxiv.org/abs/2011.11222v2 )

ライセンス: Link先を確認
Kwang-Sung Jun, Lalit Jain, Blake Mason, Houssam Nassif(参考訳) 線形ロジスティックモデルの固定設計信頼境界の改善を提案する。 我々はロジスティックロスの自己一致分析(faury et al., 2020)の最近の開発を通じて,li et al.(2017)の最先端のバウンドを著しく改善した。 具体的には、我々の信頼境界は1/\kappa$への直接的な依存を回避し、$\kappa$はすべての武器の報酬分布に対する最小分散である。 一般に、1/\kappa$ は未知の線形パラメータ $\theta^*$ のノルムで指数関数的にスケールする。 この最悪の場合の量に頼る代わりに、任意のアームの報酬に対する我々の信頼は、そのアームの報酬分布のばらつきに直接依存します。 本稿では,最先端性能の保証により改善する,純粋探索と後悔の少ないロジスティックバンディットに対する新たな境界の2つの応用について述べる。 純粋な探索には、インスタンスファミリーに対する1/\kappa$への依存を強調する下限も提供します。

We propose improved fixed-design confidence bounds for the linear logistic model. Our bounds significantly improve upon the state-of-the-art bound by Li et al. (2017) via recent developments of the self-concordant analysis of the logistic loss (Faury et al., 2020). Specifically, our confidence bound avoids a direct dependence on $1/\kappa$, where $\kappa$ is the minimal variance over all arms' reward distributions. In general, $1/\kappa$ scales exponentially with the norm of the unknown linear parameter $\theta^*$. Instead of relying on this worst-case quantity, our confidence bound for the reward of any given arm depends directly on the variance of that arm's reward distribution. We present two applications of our novel bounds to pure exploration and regret minimization logistic bandits improving upon state-of-the-art performance guarantees. For pure exploration, we also provide a lower bound highlighting a dependence on $1/\kappa$ for a family of instances.
翻訳日:2022-09-22 01:27:30 公開日:2021-03-18
# (参考訳) 変分ベイズ推論による半教師付き学習と最大不確かさ正規化

Semi-Supervised Learning with Variational Bayesian Inference and Maximum Uncertainty Regularization ( http://arxiv.org/abs/2012.01793v2 )

ライセンス: CC BY 4.0
Kien Do, Truyen Tran, Svetha Venkatesh(参考訳) 半教師付き学習(SSL)を改善するための2つの一般的な手法を提案する。 第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。 我々は変分ベイズ推論(VBI)を利用してWPを実装した。 第2の方法は、"maximum uncertainty regularization"(mur)と呼ばれる新しい一貫性損失を提案する。 ほとんどの整合性損失は各データポイント付近の摂動に作用するが、MURは最も不確実なクラス予測を引き起こす領域の向こう側にある仮想的な点を積極的に探す。 これにより、MUR は入力出力多様体のより広い領域に滑らかさを課すことができる。 実験の結果,VBIやMURと組み合わせた場合,様々なCR手法の分類誤差が明らかに改善された。

We propose two generic methods for improving semi-supervised learning (SSL). The first integrates weight perturbation (WP) into existing "consistency regularization" (CR) based methods. We implement WP by leveraging variational Bayesian inference (VBI). The second method proposes a novel consistency loss called "maximum uncertainty regularization" (MUR). While most consistency losses act on perturbations in the vicinity of each data point, MUR actively searches for "virtual" points situated beyond this region that cause the most uncertain class predictions. This allows MUR to impose smoothness on a wider area in the input-output manifold. Our experiments show clear improvements in classification errors of various CR based methods when they are combined with VBI or MUR or both.
翻訳日:2021-05-24 01:15:03 公開日:2021-03-18
# 委員会ベースモデルのサプライズ効率について

On the Surprising Efficiency of Committee-based Models ( http://arxiv.org/abs/2012.01988v2 )

ライセンス: Link先を確認
Xiaofang Wang, Dan Kondratyuk, Eric Christiansen, Kris M. Kitani, Yair Movshovitz-Attias, Elad Eban(参考訳) 委員会ベースのモデル、すなわちモデルアンサンブルやカスケードは、近年の効率的なモデル開発において過小評価されている。 委員会ベースのモデル自体は新しいものではないが、単一のモデルと比較して効率の体系的な理解が欠けている。 このギャップを埋めるために、委員会ベースのモデルの効率を包括的に分析し、委員会ベースのモデルがアーキテクチャをチューニングせずに優れた効率を達成するための補完的なパラダイムを提供することを発見した。 委員会ベースモデルの優れた効率性は、画像分類、ビデオ分類、セマンティックセグメンテーション、EfficientNet、ResNet、MobileNetV2、X3Dといった様々なアーキテクチャファミリなど、いくつかのタスクに当てはまる。

Committee-based models, i.e., model ensembles or cascades, are underexplored in recent work on developing efficient models. While committee-based models themselves are not new, there lacks a systematic understanding of their efficiency in comparison with single models. To fill this gap, we conduct a comprehensive analysis of the efficiency of committee-based models and find that committee-based models provide a complementary paradigm to achieve superior efficiency without tuning the architecture: a simple ensemble or cascade of existing networks can be considerably more efficient than state-of-the-art single models, even outperforming sophisticated neural architecture search methods. The superior efficiency of committee-based models holds true for several tasks, including image classification, video classification, and semantic segmentation, and various architecture families, such as EfficientNet, ResNet, MobileNetV2, and X3D.
翻訳日:2021-05-23 14:54:02 公開日:2021-03-18
# ディープネットワークにおけるカーネル分類

Kernelized Classification in Deep Networks ( http://arxiv.org/abs/2012.09607v2 )

ライセンス: Link先を確認
Sadeep Jayasumana, Srikumar Ramalingam, Sanjiv Kumar(参考訳) 本稿では,ディープネットワークのためのカーネル分類層を提案する。 従来のディープネットワークは、表現(特徴)学習に非線形性の豊富さをもたらすが、学習された特徴ベクトルの線形分類器をほぼ普遍的に使用する。 トレーニング中のソフトマックスクロスエントロピー損失関数と試験時のスコア関数のカーネルトリックを用いて非線形分類層を提案する。 しかし、カーネルの選択は依然として課題である。 これに対処するため、理論上は問題設定に適用可能なすべての正定値カーネルを最適化する可能性を示す。 この理論は、与えられた問題に対する最適なカーネル関数をディープネットワーク自体内で自動的に学習する新しいカーネル分類層を構築するために使用される。 提案する非線形分類層は,複数のデータセットやタスクに対して有用であることを示す。

We propose a kernelized classification layer for deep networks. Although conventional deep networks introduce an abundance of nonlinearity for representation (feature) learning, they almost universally use a linear classifier on the learned feature vectors. We advocate a nonlinear classification layer by using the kernel trick on the softmax cross-entropy loss function during training and the scorer function during testing. However, the choice of the kernel remains a challenge. To tackle this, we theoretically show the possibility of optimizing over all possible positive definite kernels applicable to our problem setting. This theory is then used to device a new kernelized classification layer that learns the optimal kernel function for a given problem automatically within the deep network itself. We show the usefulness of the proposed nonlinear classification layer on several datasets and tasks.
翻訳日:2021-05-16 21:42:00 公開日:2021-03-18
# UBAR: GPT-2によるタスク指向対話システムの実現に向けて

UBAR: Towards Fully End-to-End Task-Oriented Dialog Systems with GPT-2 ( http://arxiv.org/abs/2012.03539v2 )

ライセンス: Link先を確認
Yunyi Yang, Yunhao Li, Xiaojun Quan(参考訳) 本稿では,タスク指向ダイアログを対話セッションレベルでモデル化するタスク指向ダイアログシステムubarを提案する。 具体的には、ユーザ発話、信念状態、データベース結果、システム動作、各ダイアログターンのシステム応答からなるダイアログセッション全体のシーケンスに基づいて、大きな事前訓練された一方向言語モデルGPT-2を微調整することによりUBARを取得する。 さらに、ubarはより現実的な設定で評価され、そのダイアログコンテキストはユーザの発話と、信念状態、システム行動、システム応答といったすべてのコンテンツにアクセスできる。 MultiWOZデータセットによる実験結果から,UBARは複数の設定で最先端のパフォーマンスを実現し,応答生成,ポリシー最適化,エンドツーエンドモデリングの合計スコアをそれぞれ4.7,3.5,9.4ポイント向上した。 より詳細な分析により,セッションレベルのトレーニングシーケンスの定式化と生成したダイアログコンテキストが,実生活における完全なエンドツーエンドのタスク指向ダイアログシステムとして機能することの重要性が示された。 また、UBARの限られたデータを持つ新しいドメインへの転送能力について検討し、対話セッションレベルでのモデリングにおけるUBARの利点を説明するための可視化とケーススタディを提供する。

This paper presents our task-oriented dialog system UBAR which models task-oriented dialogs on a dialog session level. Specifically, UBAR is acquired by fine-tuning the large pre-trained unidirectional language model GPT-2 on the sequence of the entire dialog session which is composed of user utterance, belief state, database result, system act, and system response of every dialog turn. Additionally, UBAR is evaluated in a more realistic setting, where its dialog context has access to user utterances and all content it generated such as belief states, system acts, and system responses. Experimental results on the MultiWOZ datasets show that UBAR achieves state-of-the-art performances in multiple settings, improving the combined score of response generation, policy optimization, and end-to-end modeling by 4.7, 3.5, and 9.4 points respectively. Thorough analyses demonstrate that the session-level training sequence formulation and the generated dialog context are essential for UBAR to operate as a fully end-to-end task-oriented dialog system in real life. We also examine the transfer ability of UBAR to new domains with limited data and provide visualization and a case study to illustrate the advantages of UBAR in modeling on a dialog session level.
翻訳日:2021-05-16 21:31:08 公開日:2021-03-18
# ラベル雑音に対するロバストネスのための多目的補間訓練

Multi-Objective Interpolation Training for Robustness to Label Noise ( http://arxiv.org/abs/2012.04462v2 )

ライセンス: Link先を確認
Diego Ortego, Eric Arazo, Paul Albert, Noel E. O'Connor and Kevin McGuinness(参考訳) 標準的なクロスエントロピー損失でトレーニングされたディープニューラルネットワークはノイズラベルを記憶し、パフォーマンスを低下させる。 この記憶を緩和するほとんどの研究は、新しいロバストな分類損失関数を提案する。 逆に,相互に支援し,ラベルノイズに対する性能を高めるために,コントラスト学習と分類を併用した多目的補間訓練(moit)手法を提案する。 標準教師付きコントラスト学習はラベルノイズの存在下で劣化し,この挙動を緩和するための補間学習戦略を提案する。 さらに, コントラスト学習により学習したロバストな特徴表現を活用し, 原ラベルと不一致がノイズサンプルを正確に識別する新しいラベル雑音検出手法を提案する。 この検出により、雑音サンプルをラベルなしとして扱い、半教師付きで分類器を訓練し、ノイズの記憶を防止し、表現学習を改善することができる。 さらに,検出されたクリーンサンプルを微調整したMOIT+を提案する。 ハイパーパラメーターおよびアブレーション研究は,本手法の重要な構成要素を検証する。 合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。 コードはhttps://git.io/ji40xで入手できる。

Deep neural networks trained with standard cross-entropy loss memorize noisy labels, which degrades their performance. Most research to mitigate this memorization proposes new robust classification loss functions. Conversely, we propose a Multi-Objective Interpolation Training (MOIT) approach that jointly exploits contrastive learning and classification to mutually help each other and boost performance against label noise. We show that standard supervised contrastive learning degrades in the presence of label noise and propose an interpolation training strategy to mitigate this behavior. We further propose a novel label noise detection method that exploits the robust feature representations learned via contrastive learning to estimate per-sample soft-labels whose disagreements with the original labels accurately identify noisy samples. This detection allows treating noisy samples as unlabeled and training a classifier in a semi-supervised manner to prevent noise memorization and improve representation learning. We further propose MOIT+, a refinement of MOIT by fine-tuning on detected clean samples. Hyperparameter and ablation studies verify the key components of our method. Experiments on synthetic and real-world noise benchmarks demonstrate that MOIT/MOIT+ achieves state-of-the-art results. Code is available at https://git.io/JI40X.
翻訳日:2021-05-16 21:14:07 公開日:2021-03-18
# Slimmable Generative Adversarial Networks

Slimmable Generative Adversarial Networks ( http://arxiv.org/abs/2012.05660v3 )

ライセンス: Link先を確認
Liang Hou, Zehuan Yuan, Lei Huang, Huawei Shen, Xueqi Cheng, Changhu Wang(参考訳) 近年,gans(generative adversarial network)が著しい進歩を遂げている。 特に、リアルタイム生成タスクでは、異なるデバイスは様々な計算能力のために異なるサイズのジェネレータを必要とする。 本稿では,スリム化可能なGAN(SlimGAN)を導入し,実行時の各種品質効率トレードオフに対応するために,ジェネレータの幅を柔軟に切り替える。 具体的には、部分パラメータを共有する複数の識別器を活用して、スリム化可能なジェネレータを訓練する。 異なる幅のジェネレータ間の \textit{consistency} を容易にするため、我々は、狭義のジェネレータが広いものから学ぶことを奨励するステップワイズインプレース蒸留技術を提案する。 クラス条件生成に関しては,ラベル情報を異なる幅に組み込むスライス可能な条件付きバッチ正規化を提案する。 本手法は,広範囲な実験と詳細なアブレーション研究により定量的かつ定性的に検証されている。

Generative adversarial networks (GANs) have achieved remarkable progress in recent years, but the continuously growing scale of models makes them challenging to deploy widely in practical applications. In particular, for real-time generation tasks, different devices require generators of different sizes due to varying computing power. In this paper, we introduce slimmable GANs (SlimGANs), which can flexibly switch the width of the generator to accommodate various quality-efficiency trade-offs at runtime. Specifically, we leverage multiple discriminators that share partial parameters to train the slimmable generator. To facilitate the \textit{consistency} between generators of different widths, we present a stepwise inplace distillation technique that encourages narrow generators to learn from wide ones. As for class-conditional generation, we propose a sliceable conditional batch normalization that incorporates the label information into different widths. Our methods are validated, both quantitatively and qualitatively, by extensive experiments and a detailed ablation study.
翻訳日:2021-05-15 06:37:07 公開日:2021-03-18
# 名前付きエンティティ認識におけるラベル付きエンティティ問題の実証分析

Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition ( http://arxiv.org/abs/2012.05426v5 )

ライセンス: Link先を確認
Yangming Li, Lemao Liu, Shuming Shi(参考訳) 多くのシナリオにおいて、名前付きエンティティ認識(NER)モデルは、文のエンティティを完全に注釈付けできないようなラベル付けされていないエンティティ問題に苦しむ。 合成データセットを用いた実証実験により,性能劣化の原因が2つ見つかった。 1つは注釈付きエンティティの削減、もう1つはラベル付きエンティティを負のインスタンスとして扱うことである。 第1の要因は第2の要因よりも影響が少なく、事前トレーニング言語モデルを採用することで軽減できる。 2つ目の原因は、トレーニングのモデルをひどく誤解し、そのパフォーマンスに大きな影響を与えます。 上記の観察に基づいて,ラベルのない実体によってもたらされる誤動作をほぼ排除できる一般的なアプローチを提案する。 キーとなるアイデアは、負のサンプリングを使用することで、ラベルのないエンティティでNERモデルをトレーニングすることを避けます。 合成データセットと実世界のデータセットに関する実験は、我々のモデルはラベルなしのエンティティ問題に頑健であり、以前のベースラインを超えることを示している。 注釈付きデータセットでは、我々のモデルは最先端の手法と競合する。

In many scenarios, named entity recognition (NER) models severely suffer from unlabeled entity problem, where the entities of a sentence may not be fully annotated. Through empirical studies performed on synthetic datasets, we find two causes of performance degradation. One is the reduction of annotated entities and the other is treating unlabeled entities as negative instances. The first cause has less impact than the second one and can be mitigated by adopting pretraining language models. The second cause seriously misguides a model in training and greatly affects its performances. Based on the above observations, we propose a general approach, which can almost eliminate the misguidance brought by unlabeled entities. The key idea is to use negative sampling that, to a large extent, avoids training NER models with unlabeled entities. Experiments on synthetic datasets and real-world datasets show that our model is robust to unlabeled entity problem and surpasses prior baselines. On well-annotated datasets, our model is competitive with the state-of-the-art method.
翻訳日:2021-05-15 06:28:16 公開日:2021-03-18
# ViNet: オーディオ・ビジュアル・サリエンシ予測のための視覚的モダリティの限界を推し進める

ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency Prediction ( http://arxiv.org/abs/2012.06170v2 )

ライセンス: Link先を確認
Samyak Jain, Pradeep Yarlagadda, Shreyank Jyoti, Shyamgopal Karthik, Ramanathan Subramanian and Vineet Gandhi(参考訳) 本稿では,視覚的サリエンシ予測のためのViNetアーキテクチャを提案する。 ViNetは完全な畳み込みエンコーダデコーダアーキテクチャである。 エンコーダは、アクション認識のために訓練されたネットワークからの視覚的特徴を使用し、デコーダは、トリ線形補間と3D畳み込みを通じて、サリエンシマップを推論し、複数の階層の特徴を組み合わせる。 ViNetの全体的なアーキテクチャは概念的にはシンプルで、因果的であり、リアルタイム(60fps)で動作する。 ViNetは入力としてオーディオを使用しておらず、9つの異なるデータセット(3つの視覚のみと6つのオーディオ視覚データセット)で最先端のオーディオ視覚唾液率予測モデルより優れている。 ViNetはまた、AVEデータセットのCC、SIM、AUCメトリクスの人的パフォーマンスを上回り、私たちの知る限り、これが最初のネットワークである。 また、オーディオ機能をデコーダに拡張することで、ViNetアーキテクチャのバリエーションについても検討する。 驚いたことに、十分なトレーニングを行うと、ネットワークは入力オーディオに非依存になり、入力に関係なく同じ出力を提供する。 興味深いことに、私たちはまた、前回の最先端モデルである \cite{tsiami2020stavis} で同様の振る舞いを視認できる。 これまでの深層学習に基づく視聴覚塩分予測とは対照的な結果であり,より効果的に音声を組み込む今後の探究への道筋が示唆された。 コードと事前トレーニングされたモデルは、https://github.com/samyak0210/vinetで入手できる。

We propose the ViNet architecture for audio-visual saliency prediction. ViNet is a fully convolutional encoder-decoder architecture. The encoder uses visual features from a network trained for action recognition, and the decoder infers a saliency map via trilinear interpolation and 3D convolutions, combining features from multiple hierarchies. The overall architecture of ViNet is conceptually simple; it is causal and runs in real-time (60 fps). ViNet does not use audio as input and still outperforms the state-of-the-art audio-visual saliency prediction models on nine different datasets (three visual-only and six audio-visual datasets). ViNet also surpasses human performance on the CC, SIM and AUC metrics for the AVE dataset, and to our knowledge, it is the first network to do so. We also explore a variation of ViNet architecture by augmenting audio features into the decoder. To our surprise, upon sufficient training, the network becomes agnostic to the input audio and provides the same output irrespective of the input. Interestingly, we also observe similar behaviour in the previous state-of-the-art models \cite{tsiami2020stavis} for audio-visual saliency prediction. Our findings contrast with previous works on deep learning-based audio-visual saliency prediction, suggesting a clear avenue for future explorations incorporating audio in a more effective manner. The code and pre-trained models are available at https://github.com/samyak0210/ViNet.
翻訳日:2021-05-11 03:00:47 公開日:2021-03-18
# グラフマッチングの深い強化学習

Deep Reinforcement Learning of Graph Matching ( http://arxiv.org/abs/2012.08950v2 )

ライセンス: Link先を確認
Chang Liu, Runzhong Wang, Zetian Jiang, Junchi Yan(参考訳) ノードとペアの制約下でのグラフマッチング(GM)は、組合せ最適化、データマイニング、コンピュータビジョンといった領域における効率的な構造表現と関連性のためのビルディングブロックである。 GMのための強化学習ソルバを提案する。 対グラフ間のノード対応を求めるRGMは、関連グラフ上のノード埋め込みモデルを学習し、ノード間マッチングを順次見つける。 本手法は,前者の特徴抽出と親和性関数学習に重点を置き,学習によって得られた親和性目的関数を前提としたバックエンド意思決定を学習することを目的としている。 このような目的関数最大化設定は、学習手順がラベルフリーである強化学習機構に自然に適合する。 これらの機能は実用用途に適している。 合成データセット,Wilow Objectデータセット,Pascal VOCデータセット,QAPLIBのいずれも,マッチング精度と効率の両面で優れたパフォーマンスを示す。 我々の知る限り、これはグラフマッチングのための最初の深層強化学習解法である。

Graph matching (GM) under node and pairwise constraints has been a building block in areas from combinatorial optimization, data mining to computer vision, for effective structural representation and association. We present a reinforcement learning solver for GM i.e. RGM that seeks the node correspondence between pairwise graphs, whereby the node embedding model on the association graph is learned to sequentially find the node-to-node matching. Our method differs from the previous deep graph matching model in the sense that they are focused on the front-end feature extraction and affinity function learning, while our method aims to learn the back-end decision making given the affinity objective function whether obtained by learning or not. Such an objective function maximization setting naturally fits with the reinforcement learning mechanism, of which the learning procedure is label-free. These features make it more suitable for practical usage. Extensive experimental results on both synthetic datasets, Willow Object dataset, Pascal VOC dataset, and QAPLIB showcase superior performance regarding both matching accuracy and efficiency. To our best knowledge, this is the first deep reinforcement learning solver for graph matching.
翻訳日:2021-05-03 03:07:41 公開日:2021-03-18
# (参考訳) AU-Guided Unsupervised Domain Adaptive Facial Expression Recognition

AU-Guided Unsupervised Domain Adaptive Facial Expression Recognition ( http://arxiv.org/abs/2012.10078v2 )

ライセンス: CC0 1.0
Kai Wang, Yuxin Gu, Xiaojiang Peng, Panpan Zhang, Baigui Sun, Hao Li(参考訳) 不整合アノテーションやさまざまな画像収集条件を含むドメインの多様性は、異なる表情認識(FER)データセットの間に必然的に存在し、あるデータセットでトレーニングされたFERモデルを別のデータセットに適応させる上で明らかな課題となる。 近年の課題は, 対向学習機構を持つドメイン不変の深層特徴学習に焦点が当てられ, 顔行動単位(AU)検出タスクは無視されている。 本稿では、AUが客観的に表情を決定することを考慮し、異なるFERデータセット間のアノテーションバイアスを軽減するために、AU誘導非教師付きドメイン適応FER(AdaFER)フレームワークを提案する。 AdaFERでは、まずソースドメインとターゲットドメインの両方でAU検出のための高度なモデルを利用する。 そして、AUの結果を比較して、AU-guidedアノテートを行う。すなわち、ソース・フェイスと同じAUを持つターゲット・フェイスが、ソース・ドメインからラベルを継承する。 一方、ドメイン不変のコンパクトな特徴を達成するために、AUを用いたAU誘導三重項学習を用い、AUを用いて両ドメインのアンカー正負三重項をランダムに収集する。 我々は、いくつかの人気のあるベンチマークで広範な実験を行い、AdaFERがこれらのベンチマークで最先端の結果を達成することを示す。

The domain diversities including inconsistent annotation and varied image collection conditions inevitably exist among different facial expression recognition (FER) datasets, which pose an evident challenge for adapting the FER model trained on one dataset to another one. Recent works mainly focus on domain-invariant deep feature learning with adversarial learning mechanism, ignoring the sibling facial action unit (AU) detection task which has obtained great progress. Considering AUs objectively determine facial expressions, this paper proposes an AU-guided unsupervised Domain Adaptive FER (AdaFER) framework to relieve the annotation bias between different FER datasets. In AdaFER, we first leverage an advanced model for AU detection on both source and target domain. Then, we compare the AU results to perform AU-guided annotating, i.e., target faces that own the same AUs with source faces would inherit the labels from source domain. Meanwhile, to achieve domain-invariant compact features, we utilize an AU-guided triplet training which randomly collects anchor-positive-negative triplets on both domains with AUs. We conduct extensive experiments on several popular benchmarks and show that AdaFER achieves state-of-the-art results on all these benchmarks.
翻訳日:2021-05-02 02:32:38 公開日:2021-03-18
# バグレポートを用いたテストジェネレータの構成:gccコンパイラとcsmithのケーススタディ

Configuring Test Generators using Bug Reports: A Case Study of GCC Compiler and Csmith ( http://arxiv.org/abs/2012.10662v2 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin and Mohammad Amin Alipour(参考訳) コンパイラのバグはプログラマの意図を反映しない実行ファイルを生成することができるため、コンパイラの正しさは他のソフトウェアシステムの安全性と信頼性に欠かせない。 このようなエラーは識別やデバッグが難しい。 ランダムテストプログラムジェネレータは一般的にコンパイラのテストに使われ、バグの発見に有効である。 しかし、これらのテストジェネレータにバグを見つけやすいテストプログラムを作成するよう誘導する問題は、依然として難しい。 本稿では,バグレポート中のコードスニペットを用いて,テスト生成のガイドを行う。 この作業の主なアイデアは、実装が不十分になりやすい言語機能に関するバグレポートから洞察を抽出し、テストジェネレータを導くための洞察を使用することである。 我々は、GCC Cコンパイラを用いて、このアプローチの有効性を評価する。 特に、まずその機能に基づいて、gccのバグレポートにテストプログラムをクラスタ化します。 次にクラスタのcentroidsを使用して、cコンパイラ用の人気のあるテストジェネレータであるcsmithの構成を計算します。 我々は,この手法をGCCの8バージョンで評価し,本手法がGCCの最先端テスト生成技術よりも高いカバレッジを提供し,誤コンパイル障害を引き起こすことを発見した。

The correctness of compilers is instrumental in the safety and reliability of other software systems, as bugs in compilers can produce executables that do not reflect the intent of programmers. Such errors are difficult to identify and debug. Random test program generators are commonly used in testing compilers, and they have been effective in uncovering bugs. However, the problem of guiding these test generators to produce test programs that are more likely to find bugs remains challenging. In this paper, we use the code snippets in the bug reports to guide the test generation. The main idea of this work is to extract insights from the bug reports about the language features that are more prone to inadequate implementation and using the insights to guide the test generators. We use the GCC C compiler to evaluate the effectiveness of this approach. In particular, we first cluster the test programs in the GCC bugs reports based on their features. We then use the centroids of the clusters to compute configurations for Csmith, a popular test generator for C compilers. We evaluated this approach on eight versions of GCC and found that our approach provides higher coverage and triggers more miscompilation failures than the state-of-the-art test generation techniques for GCC.
翻訳日:2021-05-01 11:07:16 公開日:2021-03-18
# (参考訳) 逐次学習におけるエンコーダ層融合の理解と改善

Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning ( http://arxiv.org/abs/2012.14768v2 )

ライセンス: CC BY 4.0
Xuebo Liu, Longyue Wang, Derek F. Wong, Liang Ding, Lidia S. Chao, Zhaopeng Tu(参考訳) エンコーダ層融合(encoderfusion)はシーケンシャル・ツー・シーケンス(seq2seq)モデルのために(最上層ではなく)全てのエンコーダ層を融合させる技術であり、様々なnlpタスクに有効であることが証明されている。 しかし、EncoderFusionが機能すべき理由と時期は、まだ明らかになっていない。 本稿では,EncoderFusionの理解を深めることが主な貢献である。 以前の研究の多くは、エンコーダフュージョンの成功は、低いエンコーダ層に埋め込まれた表面情報と構文情報を利用することから来ていると信じている。 それらとは異なり、エンコーダの埋め込み層は他の中間エンコーダ層よりも重要である。 さらに、最上位のデコーダ層は、NLPタスクにまたがるエンコーダ埋め込み層に常に注意を払う。 そこで本研究では,ソフトマックス層へのエンコーダ埋め込み層のみを融合させて,簡単な融合法であるSurfaceFusionを提案する。 実験の結果,SurfaceFusion は機械翻訳,テキスト要約,文法的誤り訂正など,いくつかの NLP ベンチマークにおいて EncoderFusion よりも優れていた。 WMT16ルーマニア語-英語とWMT14英語-フランス語翻訳タスクの最先端のパフォーマンスを得る。 包括的分析により、SurfaceFusionは、関連するソースとターゲットの埋め込みとの密接な関係を構築することによって、より表現力のあるバイリンガル単語の埋め込みを学習することが明らかになった。 ソースコードはhttps://github.com/SunbowLiu/SurfaceFusion.comから無料で入手できる。

Encoder layer fusion (EncoderFusion) is a technique to fuse all the encoder layers (instead of the uppermost layer) for sequence-to-sequence (Seq2Seq) models, which has proven effective on various NLP tasks. However, it is still not entirely clear why and when EncoderFusion should work. In this paper, our main contribution is to take a step further in understanding EncoderFusion. Many of previous studies believe that the success of EncoderFusion comes from exploiting surface and syntactic information embedded in lower encoder layers. Unlike them, we find that the encoder embedding layer is more important than other intermediate encoder layers. In addition, the uppermost decoder layer consistently pays more attention to the encoder embedding layer across NLP tasks. Based on this observation, we propose a simple fusion method, SurfaceFusion, by fusing only the encoder embedding layer for the softmax layer. Experimental results show that SurfaceFusion outperforms EncoderFusion on several NLP benchmarks, including machine translation, text summarization, and grammatical error correction. It obtains the state-of-the-art performance on WMT16 Romanian-English and WMT14 English-French translation tasks. Extensive analyses reveal that SurfaceFusion learns more expressive bilingual word embeddings by building a closer relationship between relevant source and target embedding. Source code is freely available at https://github.com/SunbowLiu/SurfaceFusion.
翻訳日:2021-04-19 01:43:21 公開日:2021-03-18
# (参考訳) 社会的責任を持つAIアルゴリズム:問題、目的、課題

Socially Responsible AI Algorithms: Issues, Purposes, and Challenges ( http://arxiv.org/abs/2101.02032v3 )

ライセンス: CC BY 4.0
Lu Cheng, Kush R. Varshney, Huan Liu(参考訳) 現代では、人や社会はますます人工知能(AI)技術に依存している。 AIは人類が繁栄する未来へと私たちを駆り立てる可能性がある。 また、抑圧や災難のリスクも大きい。 近年,産業,アカデミック,医療,サービスなど,多くの分野において,AIを信頼すべきかどうか(再)の議論が繰り返されている。 技術者とAI研究者は、信頼できるAIシステムを開発する責任がある。 彼らは、より責任のあるAIアルゴリズムの設計に多大な努力を払っている。 しかし、既存の技術ソリューションは範囲が狭く、主にスコア付けや分類のためのアルゴリズムに向けられ、公平さと望ましくないバイアスに重点を置いている。 AIと人間の長期的な信頼を構築するためには、アルゴリズムの公正性を超えて考えること、AIの無関心な振る舞いを引き起こす可能性のあるAIの主要な側面を結びつけることが鍵である、と私たちは主張する。 本稿では,AI非依存の課題と社会的責任を持つAIアルゴリズムの必要性を調査し,目的を定義し,これらの目的を達成するための手段を導入することを目的とした,社会責任型AIアルゴリズムの体系的枠組みを提供する。 さらに、この枠組みを利用して、保護、情報、予防・緩和を通じて社会福祉を改善する方法について論じる。

In the current era, people and society have grown increasingly reliant on artificial intelligence (AI) technologies. AI has the potential to drive us towards a future in which all of humanity flourishes. It also comes with substantial risks for oppression and calamity. Discussions about whether we should (re)trust AI have repeatedly emerged in recent years and in many quarters, including industry, academia, health care, services, and so on. Technologists and AI researchers have a responsibility to develop trustworthy AI systems. They have responded with great effort to design more responsible AI algorithms. However, existing technical solutions are narrow in scope and have been primarily directed towards algorithms for scoring or classification tasks, with an emphasis on fairness and unwanted bias. To build long-lasting trust between AI and human beings, we argue that the key is to think beyond algorithmic fairness and connect major aspects of AI that potentially cause AI's indifferent behavior. In this survey, we provide a systematic framework of Socially Responsible AI Algorithms that aims to examine the subjects of AI indifference and the need for socially responsible AI algorithms, define the objectives, and introduce the means by which we may achieve these objectives. We further discuss how to leverage this framework to improve societal well-being through protection, information, and prevention/mitigation.
翻訳日:2021-04-17 10:52:33 公開日:2021-03-18
# バイオインスパイアされた六角形画像生成のための六角形深層学習

Biologically Inspired Hexagonal Deep Learning for Hexagonal Image Generation ( http://arxiv.org/abs/2101.00337v2 )

ライセンス: Link先を確認
Tobias Schlosser, Frederik Beuth, and Danny Kowerko(参考訳) 従来の記録出力装置の最先端画像処理システムは正方形配置方式をほとんど排他的に使用しているのに対し、生物学的モデルでは代替的な進化に基づく構造が示唆されている。 人間の視覚知覚システムにインスパイアされた機械学習のコンテキストにおける六角形画像処理は、研究者とユーザの両方にとって、多くの重要な利点を提供する。 この貢献で活用されたヘキサゴナルディープラーニングフレームワークhexnetは、ヘキサゴナルディープニューラルネットワーク(h-dnn)を利用してヘキサゴナルイメージを生成するのに役立つ。 生成したテスト環境の結果から,提案したモデルが従来の画像生成のアプローチを超越する可能性が示唆された。 その結果、トレーニング可能なパラメータの形でモデルの複雑さが減少する一方で、正方形のパラメータと比較してテストレートが増加することがより許される。

Whereas conventional state-of-the-art image processing systems of recording and output devices almost exclusively utilize square arranged methods, biological models, however, suggest an alternative, evolutionarily-based structure. Inspired by the human visual perception system, hexagonal image processing in the context of machine learning offers a number of key advantages that can benefit both researchers and users alike. The hexagonal deep learning framework Hexnet leveraged in this contribution serves therefore the generation of hexagonal images by utilizing hexagonal deep neural networks (H-DNN). As the results of our created test environment show, the proposed models can surpass current approaches of conventional image generation. While resulting in a reduction of the models' complexity in the form of trainable parameters, they furthermore allow an increase of test rates in comparison to their square counterparts.
翻訳日:2021-04-16 11:13:09 公開日:2021-03-18
# (参考訳) SoftPoolによる活性化ダウンサンプリング

Refining activation downsampling with SoftPool ( http://arxiv.org/abs/2101.00440v3 )

ライセンス: CC BY 4.0
Alexandros Stergiou, Ronald Poppe, Grigorios Kalliatakis(参考訳) 畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。 この過程は受容場を増加させ、その後の畳み込みの計算要件を減らすために重要である。 プール操作の重要な特徴は、初期活性化マップに対する情報損失の最小化であり、計算とメモリオーバーヘッドに大きな影響を与えない。 これらの要件を満たすために、指数関数的に重み付けされたアクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案する。 様々なアーキテクチャやプール手法の実験を通じて、SoftPoolは活性化マップにより多くの情報を保持できることを示した。 この洗練されたダウンサンプリングにより、CNNの分類精度が向上する。 imagenet1kのプーリング層置換実験では、元のアーキテクチャや他のプーリングメソッドよりも精度が向上している。 また、アクション認識のためのビデオデータセットでSoftPoolをテストする。 繰り返しになるが、プーリング層を直接置き換えることで、計算負荷とメモリ要求が制限されている間、一貫した性能改善が観察される。

Convolutional Neural Networks (CNNs) use pooling to decrease the size of activation maps. This process is crucial to increase the receptive fields and to reduce computational requirements of subsequent convolutions. An important feature of the pooling operation is the minimization of information loss, with respect to the initial activation maps, without a significant impact on the computation and memory overhead. To meet these requirements, we propose SoftPool: a fast and efficient method for exponentially weighted activation downsampling. Through experiments across a range of architectures and pooling methods, we demonstrate that SoftPool can retain more information in the reduced activation maps. This refined downsampling leads to improvements in a CNN's classification accuracy. Experiments with pooling layer substitutions on ImageNet1K show an increase in accuracy over both original architectures and other pooling methods. We also test SoftPool on video datasets for action recognition. Again, through the direct replacement of pooling layers, we observe consistent performance improvements while computational loads and memory requirements remain limited.
翻訳日:2021-04-13 09:17:36 公開日:2021-03-18
# (参考訳) RMABを用いた選択的介入計画:母子保健改善のためのプログラム強化

Selective Intervention Planning using RMABs: Increasing Program Engagement to Improve Maternal and Child Health Outcomes ( http://arxiv.org/abs/2103.09052v2 )

ライセンス: CC BY 4.0
Siddharth Nishtala, Lovish Madaan, Harshavardhan Kamarthi, Anirudh Grama, Divy Thakkar, Dhyanesh Narayanan, Suresh Chaudhary, Neha Madhiwalla, Ramesh Padmanabhan, Aparna Hegde, Pradeep Varakantham, Balaraman Ravindran, Milind Tambe(参考訳) インドでは母子死亡率は113、子供死亡率は10万人当たり2830である。 予防ケア情報へのアクセス不足は、特に低所得世帯におけるこれらの死亡の要因となっている。 インドに本拠を置く非営利団体ARMMANと協力して、健康パラメータに肯定的な影響を与えることが証明されたこれらのプログラムに関わらない可能性のある女性を早期に特定することで、コールベースの情報プログラムの利用を強化する。 ARMMANが作成した認知プログラムで登録された30万人以上の女性の匿名通話記録を分析し,携帯電話で健康関連情報を定期的に発信する。 我々は,コールログと受益者の人口統計情報から長期エンゲージメントパターンを予測するための機械学習モデルを構築し,実世界におけるこの手法の適用可能性についてパイロット検証により検討した。 ランダムに制御された試行を通して、我々のモデルの予測を用いて介入を行うことで、エンゲージメントのメトリクスが14.3%向上することを示す。 次に,restless multi-armed bandits (rmabs) として介入計画問題を定式化し,本手法を用いた予備結果を示す。

India has a maternal mortality ratio of 113 and child mortality ratio of 2830 per 100,000 live births. Lack of access to preventive care information is a major contributing factor for these deaths, especially in low-income households. We work with ARMMAN, a non-profit based in India, to further the use of call-based information programs by early-on identifying women who might not engage with these programs that are proven to affect health parameters positively. We analyzed anonymized call-records of over 300,000 women registered in an awareness program created by ARMMAN that uses cellphone calls to regularly disseminate health related information. We built machine learning based models to predict the long term engagement pattern from call logs and beneficiaries' demographic information, and discuss the applicability of this method in the real world through a pilot validation. Through a randomized controlled trial, we show that using our model's predictions to make interventions boosts engagement metrics by 14.3%. We then formulate the intervention planning problem as restless multi-armed bandits (RMABs), and present preliminary results using this approach.
翻訳日:2021-04-05 05:34:16 公開日:2021-03-18
# (参考訳) 2次元NMRとディープラーニングによるフラグメント同定の試み

A Pilot Study For Fragment Identification Using 2D NMR and Deep Learning ( http://arxiv.org/abs/2103.12169v1 )

ライセンス: CC BY 4.0
Stefan Kuhn, Eda Tumer, Simon Colreavy-Donnelly, Ricardo Moreira Borges(参考訳) 本稿では, 画像に基づく畳み込みニューラルネットワークアプリケーションを用いて, NMRスペクトル, 特に2次元スペクトルのサブ構造を同定する手法を提案する。 これはHSQCとHMBCのスペクトルを別々に組み合わせて行う。 アプリケーションは単純なネットワークを用いて、純粋な化合物のサブ構造を確実に検出することができる。 純粋な化合物でのみ訓練された場合、混合物に対して作用する。 HMBCデータとHMBCとHSQCの組み合わせは、HSQC単独よりも優れた結果を示す。

This paper presents a method to identify substructures in NMR spectra of mixtures, specifically 2D spectra, using a bespoke image-based Convolutional Neural Network application. This is done using HSQC and HMBC spectra separately and in combination. The application can reliably detect substructures in pure compounds, using a simple network. It can work for mixtures when trained on pure compounds only. HMBC data and the combination of HMBC and HSQC show better results than HSQC alone.
翻訳日:2021-04-05 02:10:17 公開日:2021-03-18
# (参考訳) deepbf: 学習ブルームフィルタと進化的ディープラーニングを用いた悪意のあるurl検出

deepBF: Malicious URL detection using Learned Bloom Filter and Evolutionary Deep Learning ( http://arxiv.org/abs/2103.12544v1 )

ライセンス: CC BY 4.0
Ripon Patgiri, Anupam Biswas and Sabuzima Nayak(参考訳) 悪意のあるURL検出は、エッジコンピューティングなど、さまざまなシステムの継続的な近代化による新興の研究分野である。 本稿では,DeepBF(Deep Learning and Bloom Filter)と呼ばれる新しい悪意のあるURL検出手法を提案する。 deepbfは2つに分かれている。 まず, 2次元ブルームフィルタを用いた学習ブルームフィルタを提案する。 最善の非暗号文字列ハッシュ関数を実験的に決定する。 次に,Hash法にバイアスを導入し,文字列ハッシュ関数と比較することにより,選択したDeepBFのハッシュ関数から非暗号化文字列ハッシュ関数を導出する。 修正された文字列ハッシュ関数は、様々な非暗号文字列ハッシュ関数の他の変種と比較される。 また、様々なフィルタ、特に bloom filter, kirsch \textit{et al. と比較される。 さまざまなユースケースを使用したCuckoo Filter。 使用事例はフィルターの弱さと強度を明らかにする。 次に,DeepBFを用いた悪意のあるURL検出機構を提案する。 進化的畳み込みニューラルネットワークを用いて悪意のあるURLを識別する。 進化的畳み込みニューラルネットワークは、悪意のあるURLデータセットでトレーニングされ、テストされる。 出力はDeepBFで正確にテストされる。 実験的な評価と結果から多くの結論が得られており、本記事で提示される様々な決定を下すことができる。

Malicious URL detection is an emerging research area due to continuous modernization of various systems, for instance, Edge Computing. In this article, we present a novel malicious URL detection technique, called deepBF (deep learning and Bloom Filter). deepBF is presented in two-fold. Firstly, we propose a learned Bloom Filter using 2-dimensional Bloom Filter. We experimentally decide the best non-cryptography string hash function. Then, we derive a modified non-cryptography string hash function from the selected hash function for deepBF by introducing biases in the hashing method and compared among the string hash functions. The modified string hash function is compared to other variants of diverse non-cryptography string hash functions. It is also compared with various filters, particularly, counting Bloom Filter, Kirsch \textit{et al.}, and Cuckoo Filter using various use cases. The use cases unearth weakness and strength of the filters. Secondly, we propose a malicious URL detection mechanism using deepBF. We apply the evolutionary convolutional neural network to identify the malicious URLs. The evolutionary convolutional neural network is trained and tested with malicious URL datasets. The output is tested in deepBF for accuracy. We have achieved many conclusions from our experimental evaluation and results and are able to reach various conclusive decisions which are presented in the article.
翻訳日:2021-04-05 01:58:50 公開日:2021-03-18
# 不均衡データのための高能率表現とアクティブラーニングフレームワークとそのCOVID-19 X線分類への応用

Highly Efficient Representation and Active Learning Framework for Imbalanced Data and its Application to COVID-19 X-Ray Classification ( http://arxiv.org/abs/2103.05109v2 )

ライセンス: Link先を確認
Heng Hao, Sima Didari, Jae Oh Woo, Hankyu Moon, and Patrick Bangert(参考訳) 胸部X線を分類するためのデータ効率の高い分類および能動的学習フレームワークを提案する。 これは(1)畳み込みニューラルネットワークの教師なし表現学習と(2)ガウス過程法に基づいている。 教師なし表現学習では、クラスラベルを必要としない自己スーパービジョンを採用しており、学習した特徴はラベル効率のよい分類を実現することが証明されている。 gpはカーネルベースのベイズアプローチであり、各決定の不確かさを推定することでデータ効率のよい予測を可能にする。 提案手法は,これら2つの要素を連続的に組み合わせ,高度データとラベルの効率的な分類を実現する。 さらに,(1)ラベル無しで学習した特徴と(2)gpのベイズ的性質により,両要素ともクラス不均衡問題に対する感受性が低下する。 GPによる不確実性推定は、不確実性に基づいてサンプルをランク付けし、高い不確実性を示すサンプルを選択的にラベル付けすることで、アクティブな学習を可能にする。 この新しい組み合わせは、新型コロナウイルスの胸部x線分類におけるデータ不足と深刻な不均衡に応用する。 すべてのラベルのトレーニングから正確性に到達するためには、ラベル付きデータの$\sim 10\%$だけが必要であることを実証する。 完全に管理された分類シナリオにおけるCOVID-19データへの適用は、私たちのモデルが、一般的なResNetのバックボーンによって、高度に調整されたアーキテクチャを備えた最先端モデル(COVID-19のケースは4\%)を上回っていることを示している。 我々のモデルアーキテクチャと提案されたフレームワークは、より広範なデータセットのクラスに適用し、期待される成功を収める。

We propose a highly data-efficient classification and active learning framework for classifying chest X-rays. It is based on (1) unsupervised representation learning of a Convolutional Neural Network and (2) the Gaussian Process method. The unsupervised representation learning employs self-supervision that does not require class labels, and the learned features are proven to achieve label-efficient classification. GP is a kernel-based Bayesian approach that also leads to data-efficient predictions with the added benefit of estimating each decision's uncertainty. Our novel framework combines these two elements in sequence to achieve highly data and label efficient classifications. Moreover, both elements are less sensitive to the prevalent and challenging class imbalance issue, thanks to the (1) feature learned without labels and (2) the Bayesian nature of GP. The GP-provided uncertainty estimates enable active learning by ranking samples based on the uncertainty and selectively labeling samples showing higher uncertainty. We apply this novel combination to the data-deficient and severely imbalanced case of COVID-19 chest X-ray classification. We demonstrate that only $\sim 10\%$ of the labeled data is needed to reach the accuracy from training all available labels. Its application to the COVID-19 data in a fully supervised classification scenario shows that our model, with a generic ResNet backbone, outperforms (COVID-19 case by 4\%) the state-of-the-art model with a highly tuned architecture. Our model architecture and proposed framework are general and straightforward to apply to a broader class of datasets, with expected success.
翻訳日:2021-04-05 00:49:51 公開日:2021-03-18
# (参考訳) 強化学習における一般化のための対比行動類似性埋め込み

Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2101.05265v2 )

ライセンス: CC BY 4.0
Rishabh Agarwal, Marlos C. Machado, Pablo Samuel Castro, Marc G. Bellemare(参考訳) 少数の環境で訓練された強化学習手法は、目に見えない環境に一般化する政策をほとんど学ばない。 一般化を改善するために,強化学習に内在する逐次構造を表現学習プロセスに組み込む。 このアプローチは最近のアプローチと直交しており、この構造を明示的に利用することは滅多にない。 具体的には、状態間の行動類似度を測定するための理論的動機付け政策類似度指標(PSM)を導入する。 PSMは、これらの状態と将来の状態の最適ポリシーが類似している状態と高い類似性を割り当てる。 また,psmをインスタンス化してポリシ類似度埋め込み(pses)を得る,状態類似度メトリックを組み込むためのコントラスト表現学習手順を提案する。 我々はPSEが、スプリアス相関付きLQR、画素からのジャンプタスク、DM制御スイートなどの様々なベンチマークの一般化を改善することを実証した。

Reinforcement learning methods trained on few environments rarely learn policies that generalize to unseen environments. To improve generalization, we incorporate the inherent sequential structure in reinforcement learning into the representation learning process. This approach is orthogonal to recent approaches, which rarely exploit this structure explicitly. Specifically, we introduce a theoretically motivated policy similarity metric (PSM) for measuring behavioral similarity between states. PSM assigns high similarity to states for which the optimal policies in those states as well as in future states are similar. We also present a contrastive representation learning procedure to embed any state similarity metric, which we instantiate with PSM to obtain policy similarity embeddings (PSEs). We demonstrate that PSEs improve generalization on diverse benchmarks, including LQR with spurious correlations, a jumping task from pixels, and Distracting DM Control Suite.
翻訳日:2021-03-30 10:35:44 公開日:2021-03-18
# (参考訳) ビデオ質問応答の最近の進歩:データセットと方法のレビュー

Recent Advances in Video Question Answering: A Review of Datasets and Methods ( http://arxiv.org/abs/2101.05954v2 )

ライセンス: CC BY 4.0
Devshree Patel, Ratnam Parikh, and Yesha Shastri(参考訳) Video Question Answering (VQA) はコンピュータビジョン分野における近年の課題である。 Video Captioning/DescriptionやVideo-guided Machine Translationといった視覚情報検索技術がVQAのタスクに先行している。 VQAはビデオシーンから時間的・空間的な情報を検索し、解釈するのに役立つ。 本稿では,VQAの課題に対する多くの手法とデータセットについて概説する。 我々の知る限りでは、VQAタスクに対する以前の調査は行われていない。

Video Question Answering (VQA) is a recent emerging challenging task in the field of Computer Vision. Several visual information retrieval techniques like Video Captioning/Description and Video-guided Machine Translation have preceded the task of VQA. VQA helps to retrieve temporal and spatial information from the video scenes and interpret it. In this survey, we review a number of methods and datasets for the task of VQA. To the best of our knowledge, no previous survey has been conducted for the VQA task.
翻訳日:2021-03-28 22:33:27 公開日:2021-03-18
# (参考訳) 深部生成画像モデルの幾何学とその応用

The Geometry of Deep Generative Image Models and its Applications ( http://arxiv.org/abs/2101.06006v2 )

ライセンス: CC BY-SA 4.0
Binxu Wang, Carlos R. Ponce(参考訳) generative adversarial networks (gans) は、自然画像のような実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。 これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。 しかし、潜在空間の構造は、その高次元性と生成器の非線形性のために直感的に考えることは困難であり、モデルの有用性は制限される。 潜在空間を理解するには、既存の現実世界の画像(反転)の入力コードを特定する方法と、既知の画像変換(解釈可能性)で方向を特定する方法が必要である。 ここでは,幾何学的枠組みを用いて両課題を同時に解決する。 我々はgansによって作成された画像多様体のリーマン計量を計算するアーキテクチャ非依存な手法を開発した。 計量の固有分解は、異なるレベルの画像変動性を考慮した軸を分離する。 いくつかの事前訓練された GAN の実証分析では、各位置に関する画像の変動は驚くほど少数の主軸(空間は高い異方性)に沿って集中しており、この大きな変化を生み出す方向は空間内の異なる位置(空間は均質である)で類似している。 最上位固有ベクトルの多くは画像空間の解釈可能な変換に対応しており、固有空間のかなりの部分は圧縮可能なマイナー変換に対応する。 この幾何学的理解は、GAN解釈可能性に関連する重要な前の結果を統一する。 この計量を用いることで、潜在空間においてより効率的な最適化が可能になる(例)。 GANの反転)と、解釈可能な軸の教師なし発見を促進する。 GAN像多様体の幾何を定義することは、GANを理解するための一般的な枠組みとなる。

Generative adversarial networks (GANs) have emerged as a powerful unsupervised method to model the statistical patterns of real-world data sets, such as natural images. These networks are trained to map random inputs in their latent space to new samples representative of the learned data. However, the structure of the latent space is hard to intuit due to its high dimensionality and the non-linearity of the generator, which limits the usefulness of the models. Understanding the latent space requires a way to identify input codes for existing real-world images (inversion), and a way to identify directions with known image transformations (interpretability). Here, we use a geometric framework to address both issues simultaneously. We develop an architecture-agnostic method to compute the Riemannian metric of the image manifold created by GANs. The eigen-decomposition of the metric isolates axes that account for different levels of image variability. An empirical analysis of several pretrained GANs shows that image variation around each position is concentrated along surprisingly few major axes (the space is highly anisotropic) and the directions that create this large variation are similar at different positions in the space (the space is homogeneous). We show that many of the top eigenvectors correspond to interpretable transforms in the image space, with a substantial part of eigenspace corresponding to minor transforms which could be compressed out. This geometric understanding unifies key previous results related to GAN interpretability. We show that the use of this metric allows for more efficient optimization in the latent space (e.g. GAN inversion) and facilitates unsupervised discovery of interpretable axes. Our results illustrate that defining the geometry of the GAN image manifold can serve as a general framework for understanding GANs.
翻訳日:2021-03-28 19:42:09 公開日:2021-03-18
# (参考訳) Few-Shot行動認識のための時間関係クロストランス

Temporal-Relational CrossTransformers for Few-Shot Action Recognition ( http://arxiv.org/abs/2101.06184v2 )

ライセンス: CC BY 4.0
Toby Perrett and Alessandro Masullo and Tilo Burghardt and Majid Mirmehdi and Dima Damen(参考訳) 提案手法は,クエリとビデオ間の時間的対応のフレームタプルを,サポートセット内で検出するものである。 先行作とは別として,クラス平均や単一ベストマッチではなく,全サポートビデオの関連サブシーケンスを観察するためにクロストランスフォーマアアテンション機構を用いたクラスプロトタイプを構築した。 ビデオ表現は、異なる速度でのアクションのサブシーケンスと時間オフセットの比較を可能にする、さまざまなフレーム数の順序タプルから形成される。 提案するTRX(Temporal-Relational Cross Transformers)は,数発のkinetics, something-Something V2 (SSv2), HMDB51, UCF101の分割に対して,最先端の結果が得られる。 本手法は,時間的関係をモデル化する能力により,SSv2の先行研究を12%の差で上回っている。 詳細なアブレーションでは、複数のサポートセットビデオとマッチングし、高階リレーショナルCrossTransformerを学ぶことの重要性が示されている。

We propose a novel approach to few-shot action recognition, finding temporally-corresponding frame tuples between the query and videos in the support set. Distinct from previous few-shot works, we construct class prototypes using the CrossTransformer attention mechanism to observe relevant sub-sequences of all support videos, rather than using class averages or single best matches. Video representations are formed from ordered tuples of varying numbers of frames, which allows sub-sequences of actions at different speeds and temporal offsets to be compared. Our proposed Temporal-Relational CrossTransformers (TRX) achieve state-of-the-art results on few-shot splits of Kinetics, Something-Something V2 (SSv2), HMDB51 and UCF101. Importantly, our method outperforms prior work on SSv2 by a wide margin (12%) due to the its ability to model temporal relations. A detailed ablation showcases the importance of matching to multiple support set videos and learning higher-order relational CrossTransformers.
翻訳日:2021-03-28 15:11:15 公開日:2021-03-18
# ランダム化アンサンブルダブルq-learning:モデルなしで素早く学習する

Randomized Ensembled Double Q-Learning: Learning Fast Without a Model ( http://arxiv.org/abs/2101.05982v2 )

ライセンス: Link先を確認
Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross(参考訳) アップデート・トゥ・データ(UTD)比の高いモデルベース手法は,最近,従来の連続動作DRLベンチマークのモデルフリー手法よりもはるかに高いサンプリング効率を実現している。 本稿では,単純なモデルフリーアルゴリズムであるRandomized Ensembled Double Q-Learning (REDQ)を導入し,その性能が MuJoCo ベンチマークの最先端モデルベースアルゴリズムと同等であることを示す。 さらに、REDQはこの性能をモデルベースの手法よりも少ないパラメータで実現でき、ウォールタイムのランタイムも少ない。 i) UTD比 > 1; (ii) Q 関数のアンサンブル; (iii) Q 関数のランダムな部分集合に対するターゲット内最小化。 慎重に設計した実験を通して、REDQと関連するモデルフリーアルゴリズムの詳細な分析を行う。 我々の知る限り、REDQ は UTD 比 > 1 を用いた連続作用空間に対する最初のモデルフリーDRLアルゴリズムである。

Using a high Update-To-Data (UTD) ratio, model-based methods have recently achieved much higher sample efficiency than previous model-free methods for continuous-action DRL benchmarks. In this paper, we introduce a simple model-free algorithm, Randomized Ensembled Double Q-Learning (REDQ), and show that its performance is just as good as, if not better than, a state-of-the-art model-based algorithm for the MuJoCo benchmark. Moreover, REDQ can achieve this performance using fewer parameters than the model-based method, and with less wall-clock run time. REDQ has three carefully integrated ingredients which allow it to achieve its high performance: (i) a UTD ratio >> 1; (ii) an ensemble of Q functions; (iii) in-target minimization across a random subset of Q functions from the ensemble. Through carefully designed experiments, we provide a detailed analysis of REDQ and related model-free algorithms. To our knowledge, REDQ is the first successful model-free DRL algorithm for continuous-action spaces using a UTD ratio >> 1.
翻訳日:2021-03-28 11:26:12 公開日:2021-03-18
# in defense of pseudo-labeling: an uncertainty-aware pseudo-label selection framework for semi-supervised learning

In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label Selection Framework for Semi-Supervised Learning ( http://arxiv.org/abs/2101.06329v2 )

ライセンス: Link先を確認
Mamshad Nayeem Rizve, Kevin Duarte, Yogesh S Rawat, Mubarak Shah(参考訳) 半教師付き学習(SSL)の最近の研究は、高いパフォーマンスを実現する一貫性の正規化に基づく手法が主である。 しかし、すべてのデータモダリティに対して簡単には生成できないドメイン固有のデータ拡張に大きく依存しています。 Pseudo-labeling (PL) は、この制約を持たない一般的なSSLアプローチである。 これらの予測は多くの誤った擬似ラベルを生成し、騒がしいトレーニングへと繋がる。 そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。 さらに、upsは偽ラベル処理を一般化し、負の偽ラベルを作成することが可能であり、これらの負の偽ラベルは、複数のラベルの分類や負の学習に使用して、シングルラベルの分類を改善することができる。 CIFAR-10 および CIFAR-100 データセットにおける最近のSSL 手法と比較して,高い性能を実現する。 また,ビデオデータセット UCF-101 とマルチラベルデータセット Pascal VOC に対して,本手法の有効性を示す。

The recent research in semi-supervised learning (SSL) is mostly dominated by consistency regularization based methods which achieve strong performance. However, they heavily rely on domain-specific data augmentations, which are not easy to generate for all data modalities. Pseudo-labeling (PL) is a general SSL approach that does not have this constraint but performs relatively poorly in its original formulation. We argue that PL underperforms due to the erroneous high confidence predictions from poorly calibrated models; these predictions generate many incorrect pseudo-labels, leading to noisy training. We propose an uncertainty-aware pseudo-label selection (UPS) framework which improves pseudo labeling accuracy by drastically reducing the amount of noise encountered in the training process. Furthermore, UPS generalizes the pseudo-labeling process, allowing for the creation of negative pseudo-labels; these negative pseudo-labels can be used for multi-label classification as well as negative learning to improve the single-label classification. We achieve strong performance when compared to recent SSL methods on the CIFAR-10 and CIFAR-100 datasets. Also, we demonstrate the versatility of our method on the video dataset UCF-101 and the multi-label dataset Pascal VOC.
翻訳日:2021-03-28 11:24:21 公開日:2021-03-18
# (参考訳) 交通量推定と予測のためのビッグデータ:データとツールの調査

Big Data for Traffic Estimation and Prediction: A Survey of Data and Tools ( http://arxiv.org/abs/2103.11824v1 )

ライセンス: CC BY 4.0
Weiwei Jiang, Jiayun Luo(参考訳) ビッグデータは交通産業を含む多くの地域で広く利用されている。 様々なデータソースを用いて、トラフィック状態を適切に推定し、全体の運用効率を改善するためにさらに予測することができる。 この傾向と合わせて,交通量推定と予測に使用されるオープンデータとビッグデータツールの最新の調査を行った。 異なるデータ型が分類され、オフザシェルフツールが導入される。 交通量推定および予測タスクにおけるビッグデータの利用をさらに促進するために、今後の研究のために課題と今後の方向性を示す。

Big data has been used widely in many areas including the transportation industry. Using various data sources, traffic states can be well estimated and further predicted for improving the overall operation efficiency. Combined with this trend, this study presents an up-to-date survey of open data and big data tools used for traffic estimation and prediction. Different data types are categorized and the off-the-shelf tools are introduced. To further promote the use of big data for traffic estimation and prediction tasks, challenges and future directions are given for future studies.
翻訳日:2021-03-26 07:10:41 公開日:2021-03-18
# (参考訳) 最適化難読化を用いた逆プログラム生成

Generating Adversarial Computer Programs using Optimized Obfuscations ( http://arxiv.org/abs/2103.11882v1 )

ライセンス: CC BY 4.0
Shashank Srikant, Sijia Liu, Tamara Mitrovska, Shiyu Chang, Quanfu Fan, Gaoyuan Zhang, Una-May O'Reilly(参考訳) コンピュータプログラムの特性を学習し、予測する機械学習(ML)モデルの採用とデプロイが増えている。 これらのモデルは、コードの自動補完、大規模なプログラムの要約、プログラム内のバグやマルウェアの検出などのアプリケーションで成功している。 本研究では,このような学習モデルを騙すために,コンピュータプログラムの逆摂動を原理的に検討し,その逆の堅牢性を決定する。 我々は,逆エンジニアリングプログラムの試行を避けるために,従来のプログラム難読化手法を用いている。 これらの摂動は、機能を変更せずに、意思決定時にmlモデルをだますようにプログラムを変更することができる。 任意の言語でプログラムに複数の難読化変換を適用することができる敵プログラムの一般的な定式化を提供する。 プログラムのどの部分が変換し、どの変換を行うかという2つの重要な側面を効率的に決定する一階最適化アルゴリズムを開発した。 これら2つの側面を最適化して、最適な対向的摂動プログラムを生成することが重要であることを示す。 また,この問題の離散的性質から,ランダム化平滑化を用いた攻撃損失環境の改善と最適化の容易化を提案する。 我々は,プログラム要約の問題に関して,python と java プログラムの作業を評価する。 我々は,Seq2seqモデルでトレーニングしたプログラムに対して,最先端の攻撃生成アプローチに対して,最高の攻撃提案が5,2 %$の改善を実現していることを示す。 さらに、我々の定式化は敵の攻撃に対して堅牢な訓練モデルに優れていることを示す。

Machine learning (ML) models that learn and predict properties of computer programs are increasingly being adopted and deployed. These models have demonstrated success in applications such as auto-completing code, summarizing large programs, and detecting bugs and malware in programs. In this work, we investigate principled ways to adversarially perturb a computer program to fool such learned models, and thus determine their adversarial robustness. We use program obfuscations, which have conventionally been used to avoid attempts at reverse engineering programs, as adversarial perturbations. These perturbations modify programs in ways that do not alter their functionality but can be crafted to deceive an ML model when making a decision. We provide a general formulation for an adversarial program that allows applying multiple obfuscation transformations to a program in any language. We develop first-order optimization algorithms to efficiently determine two key aspects -- which parts of the program to transform, and what transformations to use. We show that it is important to optimize both these aspects to generate the best adversarially perturbed program. Due to the discrete nature of this problem, we also propose using randomized smoothing to improve the attack loss landscape to ease optimization. We evaluate our work on Python and Java programs on the problem of program summarization. We show that our best attack proposal achieves a $52\%$ improvement over a state-of-the-art attack generation approach for programs trained on a seq2seq model. We further show that our formulation is better at training models that are robust to adversarial attacks.
翻訳日:2021-03-26 06:48:46 公開日:2021-03-18
# 人工知能のナラティブ:現状の展望

Artificial Intelligence Narratives: An Objective Perspective on Current Developments ( http://arxiv.org/abs/2103.11961v1 )

ライセンス: Link先を確認
Noah Klarmann(参考訳) この研究は、人工知能(AI)の全体像をより深く理解することに関心を持つ研究者にとって、出発点となる。 この目的のために、読者は、公的なコミュニケーションを支配する偽の約束のない現在の発展に対する客観的な視点を発達させることができる物語が伝えられる。 読者にとって重要なポイントは、AIは様々な方法、思考の流派、そしてそれぞれの歴史的運動を含む傘用語として理解されなければならないことである。 これにより、その主題の特徴となる様々な側面を提示することにより、AIの分野を導入するボトムアップ戦略が追求される。 本稿では,<i> 虚偽の公開物語の現況に関する議論, (ii) 繰り返しパターンと主特徴に着目したaiの歴史の紹介, (iii) 強い(er) aiの出現可能性の文脈における現在の手法の限界に関する批判的な議論,の3つの部分から構成する。 注意すべきなのは、この作品がこれらの側面を全体的にカバーしていないことであり、その内容は著者による選択であり、ディダクティックな戦略の対象である。

This work provides a starting point for researchers interested in gaining a deeper understanding of the big picture of artificial intelligence (AI). To this end, a narrative is conveyed that allows the reader to develop an objective view on current developments that is free from false promises that dominate public communication. An essential takeaway for the reader is that AI must be understood as an umbrella term encompassing a plethora of different methods, schools of thought, and their respective historical movements. Consequently, a bottom-up strategy is pursued in which the field of AI is introduced by presenting various aspects that are characteristic of the subject. This paper is structured in three parts: (i) Discussion of current trends revealing false public narratives, (ii) an introduction to the history of AI focusing on recurring patterns and main characteristics, and (iii) a critical discussion on the limitations of current methods in the context of the potential emergence of a strong(er) AI. It should be noted that this work does not cover any of these aspects holistically; rather, the content addressed is a selection made by the author and subject to a didactic strategy.
翻訳日:2021-03-23 14:38:59 公開日:2021-03-18
# (参考訳) 粒子分布伝播を用いたコーンビームCTからの人工内耳電極の局在

Localization of Cochlear Implant Electrodes from Cone Beam Computed Tomography using Particle Belief Propagation ( http://arxiv.org/abs/2103.10434v1 )

ライセンス: CC BY 4.0
Hendrik Hachmann, Benjamin Kr\"uger, Bodo Rosenhahn and Waldo Nogueira(参考訳) 人工内耳(英: cochlear implants、cis)は、難聴者の聴感を回復する医療機器である。 ciは、人工内耳の内部に配置された一連の電極接触を使用して、電流パルスで聴覚神経を刺激する。 これらの電極の正確な位置は、これらのデバイスの性能を改善し予測する上で重要なパラメータとなるかもしれない。 現在、人工内耳の形状を特徴付けるためにクリニックで用いられる方法や、電極の位置を推定する手法は、手作業、エラー発生、時間消費である。 コーンビーム計算トモグラフィー(CBCT)データセットに対するCI電極位置決めのためのマルコフランダムフィールド(MRF)モデルを提案する。 電極の強度と形状は、接触間の距離と角度と同様に、事前の知識として含まれる。 MRF推論はスライスサンプリング粒子信念の伝播に基づいており、いくつかのヒューリスティックスによって導かれる。 確率的探索により,標本化MRFの最大後値推定値を求める。 合成および実CBCTデータセット上でのアルゴリズムの評価を行い,その性能を2つの技術アルゴリズムと比較した。 CBCTの実際のデータセットでは、それぞれ31.5%(平均)または48.6%(中間)のローカライゼーション精度が向上している。

Cochlear implants (CIs) are implantable medical devices that can restore the hearing sense of people suffering from profound hearing loss. The CI uses a set of electrode contacts placed inside the cochlea to stimulate the auditory nerve with current pulses. The exact location of these electrodes may be an important parameter to improve and predict the performance with these devices. Currently the methods used in clinics to characterize the geometry of the cochlea as well as to estimate the electrode positions are manual, error-prone and time consuming. We propose a Markov random field (MRF) model for CI electrode localization for cone beam computed tomography (CBCT) data-sets. Intensity and shape of electrodes are included as prior knowledge as well as distance and angles between contacts. MRF inference is based on slice sampling particle belief propagation and guided by several heuristics. A stochastic search finds the best maximum a posteriori estimation among sampled MRF realizations. We evaluate our algorithm on synthetic and real CBCT data-sets and compare its performance with two state of the art algorithms. An increase of localization precision up to 31.5% (mean), or 48.6% (median) respectively, on real CBCT data-sets is shown.
翻訳日:2021-03-23 00:00:47 公開日:2021-03-18
# (参考訳) 部分ラテン二乗拡大問題に対する大規模並列ハイブリッド探索

Massively parallel hybrid search for the partial Latin square extension problem ( http://arxiv.org/abs/2103.10453v1 )

ライセンス: CC BY 4.0
Olivier Goudet and Jin-Kao Hao(参考訳) 部分的なラテン正方形拡張問題は、可能な限り多くのラテン正方形の空セルを埋めることである。 この問題は、多様なドメインにおける幅広い関連するアプリケーションにとって有用なモデルである。 本稿では,この問題から部分グラフ彩色への変換に基づく,この計算上困難な問題に対する最初の超並列ハイブリッド探索アルゴリズムを提案する。 このアルゴリズムは以下の元要素を特徴としている。 膨大な人口(10^4$個人以上)と現代のグラフィカルな処理ユニットに基づいて、アルゴリズムは多くのローカル検索を並行して実行し、検索空間の強化された利用を確実にする。 特定の親マッチング戦略と専用のクロスオーバーを使用して、各世代で多種多様で情報保存された子孫を生成する。 1800のベンチマークインスタンスに対する大規模な実験は、アルゴリズムの競争力が高いことを示している。 競合の結果は、関連するラテン正方形補完問題でも報告されている。 分析は、主要なアルゴリズムコンポーネントの理解に基づいて光を遮る。 アルゴリズムのコードは公開される予定だ。

The partial Latin square extension problem is to fill as many as possible empty cells of a partially filled Latin square. This problem is a useful model for a wide range of relevant applications in diverse domains. This paper presents the first massively parallel hybrid search algorithm for this computationally challenging problem based on a transformation of the problem to partial graph coloring. The algorithm features the following original elements. Based on a very large population (with more than $10^4$ individuals) and modern graphical processing units, the algorithm performs many local searches in parallel to ensure an intensified exploitation of the search space. It employs a dedicated crossover with a specific parent matching strategy to create a large number of diversified and information-preserving offspring at each generation. Extensive experiments on 1800 benchmark instances show a high competitiveness of the algorithm compared with the current best performing methods. Competitive results are also reported on the related Latin square completion problem. Analyses are performed to shed lights on the understanding of the main algorithmic components. The code of the algorithm will be made publicly available.
翻訳日:2021-03-22 23:47:18 公開日:2021-03-18
# (参考訳) 非コンフォーミングデータに対する動的カーネルマッチング:T細胞受容体データセットのケーススタディ

Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell Receptor Datasets ( http://arxiv.org/abs/2103.10472v1 )

ライセンス: CC BY 4.0
Jared Ostmeyer, Scott Christley, Lindsay Cowell(参考訳) ほとんどの統計分類器は、数値がスプレッドシートのように行や列に収まるようなデータのパターンを見つけるように設計されているが、多くの種類のデータがこの構造に従わない。 非コンフォーミングデータのパターンを明らかにするために,確立された統計分類器を動的カーネルマッチング(dkm)と呼ぶ非コンフォーミングデータを扱うために修正する手法を提案する。 非コンフォーミングデータの例として, (i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタテスをラベル付けしたTCRレパートリーのデータセットを考察し, どちらのデータセットも疾患の診断のためのシグネチャを含んでいると予測した。 dkmで拡張された統計分類器を両データセットに適合させ,標準メトリクスと標準メトリクスを用いてホールドアウトデータのパフォーマンスを報告し,不確定診断を可能にした。 最後に,統計的分類器による予測パターンを同定し,これらのパターンが実験結果と一致することを示す。

Most statistical classifiers are designed to find patterns in data where numbers fit into rows and columns, like in a spreadsheet, but many kinds of data do not conform to this structure. To uncover patterns in non-conforming data, we describe an approach for modifying established statistical classifiers to handle non-conforming data, which we call dynamic kernel matching (DKM). As examples of non-conforming data, we consider (i) a dataset of T-cell receptor (TCR) sequences labelled by disease antigen and (ii) a dataset of sequenced TCR repertoires labelled by patient cytomegalovirus (CMV) serostatus, anticipating that both datasets contain signatures for diagnosing disease. We successfully fit statistical classifiers augmented with DKM to both datasets and report the performance on holdout data using standard metrics and metrics allowing for indeterminant diagnoses. Finally, we identify the patterns used by our statistical classifiers to generate predictions and show that these patterns agree with observations from experimental studies.
翻訳日:2021-03-22 23:24:53 公開日:2021-03-18
# (参考訳) 電子医療における教師なしドップラーレーダーによる活動認識

Unsupervised Doppler Radar-Based Activity Recognition for e-healthcare ( http://arxiv.org/abs/2103.10478v1 )

ライセンス: CC BY 4.0
Yordanka Karayaneva, Sara Sharifzadeh, Wenda Li, Yanguo Jing, Bo Tan(参考訳) 近年,高齢化が進む中,高齢者の日常生活活動の受動無線(RF)センシングとモニタリングが注目されている。 マイクロドップラーレーダーは、その非侵入性、深い浸透性、長距離範囲を考慮した魅力的なソリューションである。 本研究では,ドップラーストリームを用いたヒューマンアクティビティモニタリングのための教師なしフレームワークを提案する。 ドップラー画像の畳み込みフィルタリングとテクスチャ解析に基づく2つの教師なし特徴抽出戦略を検討する。 前者は、畳み込み変分オートエンコーダ(CVAE)を用いた符号化された特徴と、畳み込みオートエンコーダ(CAE)の機能を比較する。 後者はGrey-Level Co-occurrence Matrix (GLCM) を用いる。 これらの方法は、主成分分析(PCA)と特異値分解(SVD)に基づく教師なし線形特徴抽出と比較される。 これらの特徴を用いて、教師なしサンプルクラスタリングはK-MeansとK-Medoidsを用いて実行される。 実際のラベルは評価と視覚化にのみ使用される。 その結果,K-MeansおよびK-Medoidsを用いたGLCMに基づくテクスチャ特性を用いて,CVAE特性の平均テスト精度82.5%,平均テスト精度77.5%,平均テスト精度72.5%を示した。 その結果, PCA, SVD, CAEに比べ, CVAE, GLCMが20%以上の精度で優れていた。 さらに、高次元データ可視化では、t-Distributed Stochastic Neighbour Embedding (t-SNE)、Multidimensional Scaling (MDS)、Locally Linear Embedding (LLE)の3つの多様体学習手法が検討されている。 生データの投影とCVAEを用いた符号化特徴の可視化手法を比較した。 変換されたcvaeデータに適用すると,これら3つの手法で視覚能力が向上する。

Passive radio frequency (RF) sensing and monitoring of human daily activities in elderly care homes has recently become an emerging topic due to the demand with ageing population. Micro-Doppler radars are an appealing solution considering their non-intrusiveness, deep penetration, and high-distance range. This study presents an unsupervised framework for human activity monitoring using Doppler streams. Two unsupervised feature extraction strategies based on convolutional filtering and texture analysis of Doppler images are considered. For the former, encoded features using Convolutional Variational Autoencoder (CVAE) are compared with Convolutional Autoencoder (CAE) features. For the latter, Grey-Level Co-occurrence Matrix (GLCM) is used. These methods are further compared with unsupervised linear feature extraction based on Principal Component Analysis (PCA) and Singular Value Decomposition (SVD). Using these features, unsupervised samples clustering is performed using K-Means and K-Medoids. Actual labels are solely used for evaluation and visualisation. The results showcase 82.5% and 84% average testing accuracies for CVAE features and 77.5% and 72.5% average testing accuracy using texture features based on GLCM using K-Means and K-Medoids respectively. The results show superiority of CVAE and GLCM features compared to PCA, SVD, and CAE with more than 20% average accuracy. Furthermore, for high-dimensional data visualisation, three manifold learning techniques are considered including t-Distributed Stochastic Neighbour Embedding (t-SNE), Multidimensional Scaling (MDS), and Locally Linear Embedding (LLE). The visualisation methods are compared for projection of raw data as well as the encoded features using CVAE. All three methods show an improved visualisation ability when applied on the transformed CVAE data.
翻訳日:2021-03-22 23:23:50 公開日:2021-03-18
# (参考訳) 読書は信じない:マルチモーダルニューロンに対する敵対的攻撃

Reading Isn't Believing: Adversarial Attacks On Multi-Modal Neurons ( http://arxiv.org/abs/2103.10480v1 )

ライセンス: CC BY-SA 4.0
David A. Noever, Samantha E. Miller Noever(参考訳) Open AIのCLIPモデル(Contrastive Language- Image Pre-training)の公開により、マルチモーダルニューラルネットワークは、読み取りと視覚認識を組み合わせたアクセス可能なモデルを提供する。 彼らのネットワークは、視覚オブジェクトを分類しながらテキストを読む2つの能力を調べる新しい方法を提供する。 本稿では,モデルを騙して虚偽あるいは不条理な分類を行うための基本的なタイポグラフィー的,概念的,図像的入力にまたがる,敵対的攻撃のいくつかの新しいカテゴリを示す。 矛盾するテキストと画像信号は、モデルを混乱させ、誤った(視覚的)オプションを選択することができることを実証する。 以前の著者と同様に、CLIPモデルが最初に読む傾向があり、後から見れば、読書が信じていないと記述する現象であることを示している。

With Open AI's publishing of their CLIP model (Contrastive Language-Image Pre-training), multi-modal neural networks now provide accessible models that combine reading with visual recognition. Their network offers novel ways to probe its dual abilities to read text while classifying visual objects. This paper demonstrates several new categories of adversarial attacks, spanning basic typographical, conceptual, and iconographic inputs generated to fool the model into making false or absurd classifications. We demonstrate that contradictory text and image signals can confuse the model into choosing false (visual) options. Like previous authors, we show by example that the CLIP model tends to read first, look later, a phenomenon we describe as reading isn't believing.
翻訳日:2021-03-22 23:05:34 公開日:2021-03-18
# (参考訳) 3次元表現学習のための同心球形gnn

Concentric Spherical GNN for 3D Representation Learning ( http://arxiv.org/abs/2103.10484v1 )

ライセンス: CC BY 4.0
James Fox, Bo Zhao, Sivasankaran Rajamanickam, Rampi Ramprasad, Le Song(参考訳) 任意指向の入力にうまく一般化した3d表現の学習は、コンピュータビジョンから物理学、化学まで様々な応用において実際的に重要な課題である。 本論文では,単一球面表現が特別な場合である同心球面特徴写像を学習するための,新しいマルチレゾリューション畳み込み構造を提案する。 我々の階層的アーキテクチャは、球内情報と球間情報の両方を組み込むための代替学習に基づいている。 本稿では,2種類の3次元入力,メッシュオブジェクト,不規則に分布する点雲に適用可能性を示す。 また,同心球面画像への点雲の効率的なマッピングを提案し,一般の点雲を持つ格子上に球面畳み込みをブリッジする。 回転データを用いた3次元分類作業における最先端性能向上へのアプローチの有効性を示す。

Learning 3D representations that generalize well to arbitrarily oriented inputs is a challenge of practical importance in applications varying from computer vision to physics and chemistry. We propose a novel multi-resolution convolutional architecture for learning over concentric spherical feature maps, of which the single sphere representation is a special case. Our hierarchical architecture is based on alternatively learning to incorporate both intra-sphere and inter-sphere information. We show the applicability of our method for two different types of 3D inputs, mesh objects, which can be regularly sampled, and point clouds, which are irregularly distributed. We also propose an efficient mapping of point clouds to concentric spherical images, thereby bridging spherical convolutions on grids with general point clouds. We demonstrate the effectiveness of our approach in improving state-of-the-art performance on 3D classification tasks with rotated data.
翻訳日:2021-03-22 22:55:12 公開日:2021-03-18
# (参考訳) deepreinforcement learning を用いた医用ctデータ拡張のための画像合成

Image Synthesis for Data Augmentation in Medical CT using DeepReinforcement Learning ( http://arxiv.org/abs/2103.10493v1 )

ライセンス: CC BY 4.0
Arjun Krishna, Kedar Bartake, Chuang Niu, Ge Wang, Youfang Lai, Xun Jia, Klaus Mueller(参考訳) ディープラーニングは、特に低線量イメージングと統合診断を可能にするために、ct画像再構成に非常に有望である。 しかし、これらのメリットは、これらのニューラルネットワークのトレーニングに必要な多様な画像データの可用性の低さと非常に相反する。 我々は,このボトルネックを,DRLが解剖学的形状を生成し,STがテクスチャの詳細を合成するスタイル・トランスファー(ST)手法と統合した深層強化学習(DRL)アプローチにより克服することを提案する。 本手法は, 新規かつ解剖学的に高精度な高解像度CT画像の大量かつ多種多様な生成に有効であることを示す。 私たちのアプローチは、多くの研究者が利用できる画像データが少ないことを考えると、小さな画像データセットでも動作するように設計されています。

Deep learning has shown great promise for CT image reconstruction, in particular to enable low dose imaging and integrated diagnostics. These merits, however, stand at great odds with the low availability of diverse image data which are needed to train these neural networks. We propose to overcome this bottleneck via a deep reinforcement learning (DRL) approach that is integrated with a style-transfer (ST) methodology, where the DRL generates the anatomical shapes and the ST synthesizes the texture detail. We show that our method bears high promise for generating novel and anatomically accurate high resolution CT images at large and diverse quantities. Our approach is specifically designed to work with even small image datasets which is desirable given the often low amount of image data many researchers have available to them.
翻訳日:2021-03-22 22:42:09 公開日:2021-03-18
# (参考訳) Naive Automated Machine Learning - AutoMLの後期ベースライン

Naive Automated Machine Learning -- A Late Baseline for AutoML ( http://arxiv.org/abs/2103.10496v1 )

ライセンス: CC BY 4.0
Felix Mohr, Marcel Wever(参考訳) 自動機械学習(automl)は、与えられたデータセット上で最適な一般化パフォーマンスを備えたパイプラインを自動的に発見する問題である。 automlは過去10年間で大きな注目を集めており、ベイズ最適化、文法に基づく遺伝的アルゴリズム、木探索アルゴリズムなどの高度なブラックボックス最適化技術で対処されている。 このようなアプローチとは対照的に、automlの非常にシンプルなソリューションであるnaive automl(ナイーブ・オートml)を紹介します。 Naive AutoMLは高度に洗練されたブラックボックスソルバのベースラインと見なすことができるが、これらのソルバがNaive AutoMLを上回ることができないことを実証的に示す。 一方、Naive AutoMLには、解釈可能性や柔軟性といった強力なアドバンテージがあり、現在のツールには大きな課題があります。

Automated Machine Learning (AutoML) is the problem of automatically finding the pipeline with the best generalization performance on some given dataset. AutoML has received enormous attention in the last decade and has been addressed with sophisticated black-box optimization techniques such as Bayesian Optimization, Grammar-Based Genetic Algorithms, and tree search algorithms. In contrast to those approaches, we present Naive AutoML, a very simple solution to AutoML that exploits important meta-knowledge about machine learning problems and makes simplifying, yet, effective assumptions to quickly come to high-quality solutions. While Naive AutoML can be considered a baseline for the highly sophisticated black-box solvers, we empirically show that those solvers are not able to outperform Naive AutoML; sometimes the contrary is true. On the other hand, Naive AutoML comes with strong advantages such as interpretability and flexibility and poses a strong challenge to current tools.
翻訳日:2021-03-22 22:36:29 公開日:2021-03-18
# (参考訳) 金融サービスにおける公正な機械学習のための隠れた技術的負債

Hidden Technical Debts for Fair Machine Learning in Financial Services ( http://arxiv.org/abs/2103.10510v1 )

ライセンス: CC BY 4.0
Chong Huang, Arash Nourian, Kevin Griest(参考訳) 機械学習(ML)の最近の進歩は、短時間で複雑な予測システムを構築するための強力なソリューションを提供する可能性を示している。 しかし、金融技術(フィンテック)などの高度に規制された業界では、特定の保護されたグループや個人に対して差別するMLシステムのリスクが懸念されている。 これらの懸念に対処するため、研究者は様々な数学的公正度とバイアス軽減アルゴリズムを導入した。 本稿では,フィンテック生産環境における隠れた技術的負債と公正なmlシステム構築の課題について述べる。 MLシステムの開発と展開ライフサイクルの公平性に注意を要するさまざまな段階について検討する。 Fintechの公正なMLシステム構築に存在する隠された技術的負債を特定するために、私たちは、データ準備、モデル開発、システム監視、本番環境での統合など、重要なパイプラインステージに注目します。 分析の結果,Fintechにおける実運用対応MLシステムの公正性向上には,MLシステムのライフサイクルの異なる段階において,特定のエンジニアリングのコミットメントが必要であることがわかった。 また,本番環境に公平なmlシステムをデプロイするための技術的負債を軽減するために,いくつかの初期出発点を提案する。

The recent advancements in machine learning (ML) have demonstrated the potential for providing a powerful solution to build complex prediction systems in a short time. However, in highly regulated industries, such as the financial technology (Fintech), people have raised concerns about the risk of ML systems discriminating against specific protected groups or individuals. To address these concerns, researchers have introduced various mathematical fairness metrics and bias mitigation algorithms. This paper discusses hidden technical debts and challenges of building fair ML systems in a production environment for Fintech. We explore various stages that require attention for fairness in the ML system development and deployment life cycle. To identify hidden technical debts that exist in building fair ML system for Fintech, we focus on key pipeline stages including data preparation, model development, system monitoring and integration in production. Our analysis shows that enforcing fairness for production-ready ML systems in Fintech requires specific engineering commitments at different stages of ML system life cycle. We also propose several initial starting points to mitigate these technical debts for deploying fair ML systems in production.
翻訳日:2021-03-22 22:35:22 公開日:2021-03-18
# (参考訳) タスク指向対話のための雑音チャネルモデルの事前学習

Pretraining the Noisy Channel Model for Task-Oriented Dialogue ( http://arxiv.org/abs/2103.10518v1 )

ライセンス: CC BY 4.0
Qi Liu, Lei Yu, Laura Rimell, Phil Blunsom(参考訳) タスク指向対話の直接的なデコーディングは、短い応答と一般的な応答を好むモデルに現れる説明-回避効果に苦しむことが知られている。 ここでは、対話タスクを2つのモデルに分解するベイズ定理(英語版)、応答が与えられたコンテキストの分布、応答自身に対する前置(英語版)を用いることを議論する。 このアプローチは、ノイズチャネルモデルのインスタンス化であり、どちらも説明アウト効果を緩和し、応答前の大きな事前学習モデルの原則化を可能にする。 本稿では、直接復号化よりもノイズの多いチャネルモデルをデコードし、オープンドメインとタスク指向の対話データを用いた2段階事前学習戦略をランダムに初期化モデルよりも改善することを示す。

Direct decoding for task-oriented dialogue is known to suffer from the explaining-away effect, manifested in models that prefer short and generic responses. Here we argue for the use of Bayes' theorem to factorize the dialogue task into two models, the distribution of the context given the response, and the prior for the response itself. This approach, an instantiation of the noisy channel model, both mitigates the explaining-away effect and allows the principled incorporation of large pretrained models for the response prior. We present extensive experiments showing that a noisy channel model decodes better responses compared to direct decoding and that a two stage pretraining strategy, employing both open-domain and task-oriented dialogue data, improves over randomly initialized models.
翻訳日:2021-03-22 22:24:13 公開日:2021-03-18
# (参考訳) s3m: siamese stack (trace) similarity measure

S3M: Siamese Stack (Trace) Similarity Measure ( http://arxiv.org/abs/2103.10526v1 )

ライセンス: CC BY 4.0
Aleksandr Khvorov, Roman Vasiliev, George Chernishev, Irving Muller Rodrigues, Dmitrij Koznov, Nikita Povarov(参考訳) 自動クラッシュレポートシステムは、ソフトウェア開発におけるデファクトスタンダードになっている。 これらのシステムはターゲットソフトウェアを監視し、クラッシュが発生した場合、詳細をバックエンドアプリケーションに送る。 その後、これらのレポートは開発プロセスで集約され、1)それが新しい問題なのか既存の問題なのかを理解し、2)これらのバグを適切な開発者に割り当て、3)アプリケーションのバグ状況の概観を得る。 レポート集計とその後の運用の効率は、レポート類似度指標の品質に大きく依存する。 しかしながら、この種のレポートの特徴は、ユーザからのテキスト入力(すなわちバグ記述)が利用できないことだ。 本稿では,深層学習に基づくスタックトレース類似性を計算するための最初のアプローチであるS3M(extreme)を提案する。 BiLSTMエンコーダと完全接続型分類器を用いて類似性を計算したシアムアーキテクチャに基づいている。 我々の実験は、オープンソースデータとプライベートJetBrainsデータセットの両方における最先端のアプローチよりも、私たちのアプローチの方が優れていることを示す。 さらに,スタックトレーストリミングが結果の品質に与える影響についても検討する。

Automatic crash reporting systems have become a de-facto standard in software development. These systems monitor target software, and if a crash occurs they send details to a backend application. Later on, these reports are aggregated and used in the development process to 1) understand whether it is a new or an existing issue, 2) assign these bugs to appropriate developers, and 3) gain a general overview of the application's bug landscape. The efficiency of report aggregation and subsequent operations heavily depends on the quality of the report similarity metric. However, a distinctive feature of this kind of report is that no textual input from the user (i.e., bug description) is available: it contains only stack trace information. In this paper, we present S3M ("extreme") -- the first approach to computing stack trace similarity based on deep learning. It is based on a siamese architecture that uses a biLSTM encoder and a fully-connected classifier to compute similarity. Our experiments demonstrate the superiority of our approach over the state-of-the-art on both open-sourced data and a private JetBrains dataset. Additionally, we review the impact of stack trace trimming on the quality of the results.
翻訳日:2021-03-22 21:53:44 公開日:2021-03-18
# (参考訳) 限定ラベルデータ学習のためのデータ駆動アルゴリズム

Data driven algorithms for limited labeled data learning ( http://arxiv.org/abs/2103.10547v1 )

ライセンス: CC BY 4.0
Maria-Florina Balcan, Dravyansh Sharma(参考訳) 少数のラベル付きサンプルだけで効果的に学習できる学習アルゴリズムを設計するための,新しいデータ駆動型アプローチを検討する。 これはラベルが手に入らない、あるいは高価である現代の機械学習アプリケーションにとって非常に重要である。 類似ノードが類似するラベルを持つ可能性が高いという暗黙の仮定の下で,ラベルのない例がグラフで接続されるグラフベースの手法に注目した。 過去数十年にわたり、グラフといくつかのラベル付き例からラベルなし例のラベルを推測する方法に関するエレガントなグラフベースの半教師付き能動的学習アルゴリズムが提案されている。 しかし、グラフの作成方法(これらの手法の実用性に大きな影響を与える)の問題は、ドメイン固有の技術やヒューリスティックに委ねられ、一般的な原則は提案されていない。 本研究では,グラフ学習のための新しいデータ駆動型アプローチを提案し,分散学習とオンライン学習の両形式化において強力な形式的保証を提供する。 同じドメインの新しいインスタンスでうまく機能するグラフのパラメトリックファミリからグラフハイパーパラメータを学ぶために、基盤となる問題ドメインから発生する問題インスタンスをどのように活用するかを示す。 オンライン環境では,少ない後悔と効率のよいアルゴリズムが得られ,分散環境では一般化が保証される。 また、いくつかの非常に異なる類似度メトリクスを結合し、複数のハイパーパラメータを学習する方法を示し、大きな問題のクラスに適用するための一般的な技術を提供する。 私たちは、組み合わさった問題に対するデータ駆動アルゴリズムに対して、半教師付き、アクティブな学習以上の関心を持つように開発するツールやテクニックを期待しています。

We consider a novel data driven approach for designing learning algorithms that can effectively learn with only a small number of labeled examples. This is crucial for modern machine learning applications where labels are scarce or expensive to obtain. We focus on graph-based techniques, where the unlabeled examples are connected in a graph under the implicit assumption that similar nodes likely have similar labels. Over the past decades, several elegant graph-based semi-supervised and active learning algorithms for how to infer the labels of the unlabeled examples given the graph and a few labeled examples have been proposed. However, the problem of how to create the graph (which impacts the practical usefulness of these methods significantly) has been relegated to domain-specific art and heuristics and no general principles have been proposed. In this work we present a novel data driven approach for learning the graph and provide strong formal guarantees in both the distributional and online learning formalizations. We show how to leverage problem instances coming from an underlying problem domain to learn the graph hyperparameters from commonly used parametric families of graphs that perform well on new instances coming from the same domain. We obtain low regret and efficient algorithms in the online setting, and generalization guarantees in the distributional setting. We also show how to combine several very different similarity metrics and learn multiple hyperparameters, providing general techniques to apply to large classes of problems. We expect some of the tools and techniques we develop along the way to be of interest beyond semi-supervised and active learning, for data driven algorithms for combinatorial problems more generally.
翻訳日:2021-03-22 21:42:21 公開日:2021-03-18
# 顔認識のためのディープラーニング技術の最近の進歩

Recent Advances in Deep Learning Techniques for Face Recognition ( http://arxiv.org/abs/2103.10492v1 )

ライセンス: Link先を確認
Md. Tahmid Hasan Fuad, Awal Ahmed Fime, Delowar Sikder, Md. Akil Raihan Iftee, Jakaria Rabbi, Mabrook S. Al-rakhami, Abdu Gumae, Ovishake Sen, Mohtasim Fuad, and Md. Nazrul Islam(参考訳) 近年、研究者は様々なタスクのための多くのディープラーニング(dl)手法を提案しており、特に顔認識(fr)はこれらの手法を用いて大きな飛躍を遂げている。 深いFRシステムは、差別的な顔表現を学ぶためのDL法の階層的アーキテクチャの恩恵を受ける。 したがって、DL技術はFRシステムの最先端性能を大幅に改善し、多種多様な実世界の応用を促進する。 本稿では,様々な種類のdl技術を活用した様々なfrシステムの包括的解析を行い,この領域からの最近の168の貢献を要約する。 本稿では,様々なアルゴリズム,アーキテクチャ,損失関数,アクティベーション関数,データセット,課題,改善アイデア,dlベースのfrシステムの現状と将来動向について述べる。 本稿では,現在の技術状況を理解するための様々なDL手法の詳細な議論を行い,その方法の活性化と損失関数について論じる。 さらに,frタスクに広く使用されているデータセットを要約し,照明,表情,ポーズ変動,咬合に関する課題について考察した。 最後に,frタスクの改善アイデア,現在と将来について考察する。

In recent years, researchers have proposed many deep learning (DL) methods for various tasks, and particularly face recognition (FR) made an enormous leap using these techniques. Deep FR systems benefit from the hierarchical architecture of the DL methods to learn discriminative face representation. Therefore, DL techniques significantly improve state-of-the-art performance on FR systems and encourage diverse and efficient real-world applications. In this paper, we present a comprehensive analysis of various FR systems that leverage the different types of DL techniques, and for the study, we summarize 168 recent contributions from this area. We discuss the papers related to different algorithms, architectures, loss functions, activation functions, datasets, challenges, improvement ideas, current and future trends of DL-based FR systems. We provide a detailed discussion of various DL methods to understand the current state-of-the-art, and then we discuss various activation and loss functions for the methods. Additionally, we summarize different datasets used widely for FR tasks and discuss challenges related to illumination, expression, pose variations, and occlusion. Finally, we discuss improvement ideas, current and future trends of FR tasks.
翻訳日:2021-03-22 14:45:51 公開日:2021-03-18
# 認定システムにおけるホワイトペーパー機械学習

White Paper Machine Learning in Certified Systems ( http://arxiv.org/abs/2103.10529v1 )

ライセンス: Link先を確認
Herv\'e Delseny, Christophe Gabreau, Adrien Gauffriau, Bernard Beaudouin, Ludovic Ponsolle, Lucian Alecu, Hugues Bonnin, Brice Beltran, Didier Duchel, Jean-Brice Ginestet, Alexandre Hervieu, Ghilaine Martinez, Sylvain Pasquet, Kevin Delmas, Claire Pagetti, Jean-Marc Gabriel, Camille Chapdelaine, Sylvaine Picard, Mathieu Damour, Cyril Cappi, Laurent Gard\`es, Florence De Grancey, Eric Jenn, Baptiste Lefevre, Gregory Flandin, S\'ebastien Gerchinovitz, Franck Mamalet, Alexandre Albore(参考訳) 機械学習(ML)は、自動車の運転、音声認識など、現在人間によって実現されている複雑なタスクの一部を、あるいは完全に自動化する最も有望なソリューションの1つである。 また、古典的な実装技術の範囲内で新しい機能を実装し、組み込む機会でもある。 しかし、ML技術は新たな潜在的なリスクをもたらす。 したがって、リスクの増加に価値があると考えられるシステムでのみ適用されています。 実際にML技術は、認証制約に適用されるシステムでの使用を防ぐために、複数の課題を提起する。 しかし、実際の課題は何でしょう? 適切なMLテクニックを選択するか、あるいは新しいエンジニアリングや認定プラクティスを採用することで克服できるだろうか? これらは、DELプロジェクトの一部として、Institut de Recherche Technologique Saint Exup\'ery de Toulouse(IRT)によって設定されたML Certification 3 Workgroup(WG)によって解決された質問である。

Machine Learning (ML) seems to be one of the most promising solution to automate partially or completely some of the complex tasks currently realized by humans, such as driving vehicles, recognizing voice, etc. It is also an opportunity to implement and embed new capabilities out of the reach of classical implementation techniques. However, ML techniques introduce new potential risks. Therefore, they have only been applied in systems where their benefits are considered worth the increase of risk. In practice, ML techniques raise multiple challenges that could prevent their use in systems submitted to certification constraints. But what are the actual challenges? Can they be overcome by selecting appropriate ML techniques, or by adopting new engineering or certification practices? These are some of the questions addressed by the ML Certification 3 Workgroup (WG) set-up by the Institut de Recherche Technologique Saint Exup\'ery de Toulouse (IRT), as part of the DEEL Project.
翻訳日:2021-03-22 14:44:03 公開日:2021-03-18
# 時空間変圧器を用いた3次元ポーズ推定

3D Human Pose Estimation with Spatial and Temporal Transformers ( http://arxiv.org/abs/2103.10455v1 )

ライセンス: Link先を確認
Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang, Chen Chen, Zhengming Ding(参考訳) トランスフォーマーアーキテクチャは自然言語処理における選択モデルとなり、画像分類、オブジェクト検出、セマンティックセグメンテーションといったコンピュータビジョンタスクに導入されている。 しかし、人間のポーズ推定の分野では、畳み込みアーキテクチャが依然として支配的である。 本研究では,畳み込み構造を含まない映像における3次元ポーズ推定のための純粋トランスフォーマーであるposeformerを提案する。 近年の視覚トランスフォーマーの発展に触発されて,各フレーム内の人間の関節関係とフレーム間の時間相関を包括的にモデル化し,センターフレームの正確な3次元人間のポーズを出力する空間-時空間トランスフォーマー構造を設計した。 我々は,Human3.6M と MPI-INF-3DHP の2つの一般的なベンチマークデータセットに対して,この手法を定量的に定性的に評価した。 広範な実験により、sponsformerは両方のデータセットで最先端のパフォーマンスを達成している。 コードは \url{https://github.com/zczcwh/PoseFormer} で入手できる。

Transformer architectures have become the model of choice in natural language processing and are now being introduced into computer vision tasks such as image classification, object detection, and semantic segmentation. However, in the field of human pose estimation, convolutional architectures still remain dominant. In this work, we present PoseFormer, a purely transformer-based approach for 3D human pose estimation in videos without convolutional architectures involved. Inspired by recent developments in vision transformers, we design a spatial-temporal transformer structure to comprehensively model the human joint relations within each frame as well as the temporal correlations across frames, then output an accurate 3D human pose of the center frame. We quantitatively and qualitatively evaluate our method on two popular and standard benchmark datasets: Human3.6M and MPI-INF-3DHP. Extensive experiments show that PoseFormer achieves state-of-the-art performance on both datasets. Code is available at \url{https://github.com/zczcwh/PoseFormer}
翻訳日:2021-03-22 14:41:07 公開日:2021-03-18
# 協調d2d局所モデルアグリゲーションを用いた2つの時間スケールハイブリッド連合学習

Two Timescale Hybrid Federated Learning with Cooperative D2D Local Model Aggregations ( http://arxiv.org/abs/2103.10481v1 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Seyyedali Hosseinalipour, Sheikh Shams Azam, Christopher G. Brinton, Nicolo Michelusi(参考訳) フェデレーテッド・ラーニングは、機械学習(ML)モデルのトレーニングを無線エッジに分散する一般的なテクニックとして登場した。 本稿では,フェデレーション学習におけるデバイス間通信パラダイムとモデル学習のためのデバイス間通信(d2d)のハイブリッドであるtt-hf(timescale hybrid federated learning)を提案する。 TT-HFでは,各グローバルアグリゲーション間隔において,デバイス (i) がそれぞれのデータセットに対して複数の確率勾配降下繰り返しを行い, (ii) 局所クラスタ内の協調分散D2D通信を通じて,モデルパラメータのコンセンサス形成に定期的に関与する。 勾配多様性の新しい一般定義により,tt-hf の収束挙動を形式的に研究し,分散 ml に対する新しい収束境界を導出した。 ネットワーク資源利用を最小化しつつ,O(1/t)のサブ線形収束率を目標とし,ステップサイズ,D2D通信ラウンド,TT-HFのグローバルアグリゲーション周期を時間とともに調整する適応制御アルゴリズムを開発する。 実験の結果,tt-hfは,局所的デバイスデータセットが統計的不均一性を示す様々なシナリオにおいて,モデル精度やネットワークエネルギー消費の観点から,現在のフェデレーション学習の技術を著しく上回っていることがわかった。

Federated learning has emerged as a popular technique for distributing machine learning (ML) model training across the wireless edge. In this paper, we propose two timescale hybrid federated learning (TT-HF), which is a hybrid between the device-to-server communication paradigm in federated learning and device-to-device (D2D) communications for model training. In TT-HF, during each global aggregation interval, devices (i) perform multiple stochastic gradient descent iterations on their individual datasets, and (ii) aperiodically engage in consensus formation of their model parameters through cooperative, distributed D2D communications within local clusters. With a new general definition of gradient diversity, we formally study the convergence behavior of TT-HF, resulting in new convergence bounds for distributed ML. We leverage our convergence bounds to develop an adaptive control algorithm that tunes the step size, D2D communication rounds, and global aggregation period of TT-HF over time to target a sublinear convergence rate of O(1/t) while minimizing network resource utilization. Our subsequent experiments demonstrate that TT-HF significantly outperforms the current art in federated learning in terms of model accuracy and/or network energy consumption in different scenarios where local device datasets exhibit statistical heterogeneity.
翻訳日:2021-03-22 14:39:42 公開日:2021-03-18
# 教師付き分類における帰納推論

Inductive Inference in Supervised Classification ( http://arxiv.org/abs/2103.10549v1 )

ライセンス: Link先を確認
Ali Amiryousefi(参考訳) 教師付き分類コンテキストにおける帰納的推論は、トレーニングデータから派生した形式的な規則と、場合によっては追加の補助情報を用いて、いくつかのオブジェクトや項目を異なる事前定義されたクラスに割り当てる方法やアプローチを構成する。 このような割り当ての最適性は、そのようなタスクで考慮されるオブジェクトの固有の属性のため、異なる条件下で変化する。 これらのケースの1つは、すべてのオブジェクトの機能が、既知のカテゴリを持つ離散変数である場合である。 別の例として、このケースを事前の未知のカテゴリで修正することを考えることができる。 これら2つのケースがこの論文の主焦点であり、ベイズ的帰納的理論に基づいて、デ・フィネッティ型の交換性は、以前のシナリオにおける分類器の導出を促進する適切な仮定である。 逆に、この種の交換性は後者のケースでは適用できないが、代わりにジョン・キングマンによる分割交換性を利用することができる。 これら2種類の交換確率について考察し,さらに,両種類の交換確率に基づく帰納的教師付き分類器について検討する。 さらに, デ・フィネッティ型交換性に基づく分類器は, 無限の訓練データが存在する場合に, 互いに独立してテスト項目を処理可能である一方で, 分割交換性に基づく分類器は, 全ての試験項目の共同ラベル付けの恩恵を受け続けている。 また,同時分類器の帰納的学習プロセスは,テストデータの量が無限大となると飽和することを示した。

Inductive inference in supervised classification context constitutes to methods and approaches to assign some objects or items into different predefined classes using a formal rule that is derived from training data and possibly some additional auxiliary information. The optimality of such an assignment varies under different conditions due to intrinsic attributes of the objects being considered for such a task. One of these cases is when all the objects' features are discrete variables with a priori known categories. As another example, one can consider a modification of this case with a priori unknown categories. These two cases are the main focus of this thesis and based on Bayesian inductive theories, de Finetti type exchangeability is a suitable assumption that facilitates the derivation of classifiers in the former scenario. On the contrary, this type of exchangeability is not applicable in the latter case, instead, it is possible to utilise the partition exchangeability due to John Kingman. These two types of exchangeabilities are discussed and furthermore here I investigate inductive supervised classifiers based on both types of exchangeabilities. I further demonstrate that the classifiers based on de Finetti type exchangeability can optimally handle test items independently of each other in the presence of infinite amounts of training data while on the other hand, classifiers based on partition exchangeability still continue to benefit from joint labelling of all the test items. Additionally, it is shown that the inductive learning process for the simultaneous classifier saturates when the amount of test data tends to infinity.
翻訳日:2021-03-22 14:39:17 公開日:2021-03-18
# xr設定における意味的視線分析のためのニューラルネットワーク

Neural Networks for Semantic Gaze Analysis in XR Settings ( http://arxiv.org/abs/2103.10451v1 )

ライセンス: Link先を確認
Lena Stubbemann, Dominik D\"urrschnabel, Robert Refflinghaus(参考訳) vr(virtual-reality)と拡張現実(ar)技術は、アイトラッキングと組み合わさりつつある。 この組み合わせは両方の分野を広げ、視覚知覚と関連する認知過程を対話的でも十分に制御された環境で研究できる新しい応用領域を開く。 しかし,対話的3次元シーンからの視線追跡データの意味的視線分析は,これまでは経済利用の障害となっていた資源志向課題である。 本稿では,オブジェクト認識の手法を用いて,関心ボリューム(VOI)のアノテートに必要な時間と情報を最小化する手法を提案する。 そこで我々は,画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。 提案手法は実環境および仮想環境で評価し,新たなマーカーや既存のデータベースを頼らずに,クロスプラットフォームでの利用が可能となることを示した。

Virtual-reality (VR) and augmented-reality (AR) technology is increasingly combined with eye-tracking. This combination broadens both fields and opens up new areas of application, in which visual perception and related cognitive processes can be studied in interactive but still well controlled settings. However, performing a semantic gaze analysis of eye-tracking data from interactive three-dimensional scenes is a resource-intense task, which so far has been an obstacle to economic use. In this paper we present a novel approach which minimizes time and information necessary to annotate volumes of interest (VOIs) by using techniques from object recognition. To do so, we train convolutional neural networks (CNNs) on synthetic data sets derived from virtual models using image augmentation techniques. We evaluate our method in real and virtual environments, showing that the method can compete with state-of-the-art approaches, while not relying on additional markers or preexisting databases but instead offering cross-platform use.
翻訳日:2021-03-22 14:38:50 公開日:2021-03-18
# UNETR: 3次元医用画像セグメンテーション用トランスフォーマー

UNETR: Transformers for 3D Medical Image Segmentation ( http://arxiv.org/abs/2103.10504v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Dong Yang, Holger Roth and Daguang Xu(参考訳) 完全畳み込みニューラルネットワーク(FCNN)と収縮と拡張経路(例) エンコーダとデコーダ)は,近年,様々な医用画像セグメンテーションアプリケーションにおいて有望である。 これらのアーキテクチャでは、エンコーダはグローバルな文脈表現を学習し、デコーダによるセマンティックな出力予測にさらに活用することで、重要な役割を果たす。 その成功にもかかわらず、FCNNのメインビルディングブロックとしての畳み込み層の局所性は、そのようなネットワークにおける長距離空間依存を学習する能力を制限する。 長距離シーケンス学習における自然言語処理(nlp)におけるトランスフォーマ(transformer)の最近の成功に触発されて,ボリュームトリクス(3d)医療画像分割の課題をシーケンスからシーケンスへの予測問題として再構成した。 特に、unet transformers(unetr)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして使用し、入力ボリュームのシーケンス表現を学習し、グローバルマルチスケール情報を効果的に取得する。 トランスエンコーダは、異なる解像度でスキップ接続を介してデコーダに直接接続され、最終的なセマンティクスセグメンテーション出力を計算する。 我々は,提案するモデルの性能を,異なる撮像モード(すなわち,画像)にまたがって広範囲に検証した。 MRとCT) は, 医用セグメンテーション・デスロン(MSD) データセットを用いて, 容積脳腫瘍と脾臓のセグメンテーションタスクについて検討した。

Fully Convolutional Neural Networks (FCNNs) with contracting and expansive paths (e.g. encoder and decoder) have shown prominence in various medical image segmentation applications during the recent years. In these architectures, the encoder plays an integral role by learning global contextual representations which will be further utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers , as the main building block of FCNNs limits the capability of learning long-range spatial dependencies in such networks. Inspired by the recent success of transformers in Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. In particular, we introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a pure transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have extensively validated the performance of our proposed model across different imaging modalities(i.e. MR and CT) on volumetric brain tumour and spleen segmentation tasks using the Medical Segmentation Decathlon (MSD) dataset, and our results consistently demonstrate favorable benchmarks.
翻訳日:2021-03-22 14:38:35 公開日:2021-03-18
# 教師なしニューラルネットワーク翻訳における事前学習言語モデルの語彙能力の向上

Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2103.10531v1 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Dario Stojanovski and Alexander Fraser(参考訳) unsupervised neural machine translation (UNMT) の成功した方法は、しばしばマスク付き言語モデリングやシーケンス生成タスクという形で、自己超越による言語間事前訓練(英語版)を採用する。 言語間プレトレーニングは、豊富なコーパスを持つ類似言語で機能するが、低リソース、遠方の言語では機能しない。 以前の研究では、表現が十分に整っていないことが示されている。 本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。 UNMT (最大4.5 BLEU) とバイリンガルレキシコン誘導 (バイリンガルレキシコン誘導) の両方において, 既存のUNMTベースラインと比較して, 良好な性能を示した。

Successful methods for unsupervised neural machine translation (UNMT) employ cross-lingual pretraining via self-supervision, often in the form of a masked language modeling or a sequence generation task, which requires the model to align the lexical- and high-level representations of the two languages. While cross-lingual pretraining works for similar languages with abundant corpora, it performs poorly in low-resource, distant languages. Previous research has shown that this is because the representations are not sufficiently aligned. In this paper, we enhance the bilingual masked language model pretraining with lexical-level information by using type-level cross-lingual subword embeddings. Empirical results demonstrate improved performance both on UNMT (up to 4.5 BLEU) and bilingual lexicon induction using our method compared to an established UNMT baseline.
翻訳日:2021-03-22 14:37:30 公開日:2021-03-18
# ソーシャルメディアを用いた抑うつ研究におけるジェンダーとレイカルフェアネス

Gender and Racial Fairness in Depression Research using Social Media ( http://arxiv.org/abs/2103.10550v1 )

ライセンス: Link先を確認
Carlos Aguirre, Keith Harrigian, Mark Dredze(参考訳) 複数の研究により、インターネットベースのソーシャルメディアプラットフォームにおける行動は個人のメンタルヘルス状態を示すことができることが示されている。 このようなデータの普及により、計算レンズからのメンタルヘルス研究への関心が高まっている。 これまでの研究では、このデータから生成されたモデルにおけるバイアスの可能性に関する懸念が提起されているが、これらのバイアスが、性別や人種・民族グループなど、異なる人口集団に対して実際にどのように現れるかを定量化していない。 本稿では,twitterデータを用いた抑うつ分類の公平性について,性別・人種集団について分析する。 非表現群ではモデル性能が系統的に異なっており、これらの不一致は自明なデータ表現問題によって完全には説明できない。 我々の研究は、将来の研究でこれらのバイアスを避けるための推奨事項で締めくくっている。

Multiple studies have demonstrated that behavior on internet-based social media platforms can be indicative of an individual's mental health status. The widespread availability of such data has spurred interest in mental health research from a computational lens. While previous research has raised concerns about possible biases in models produced from this data, no study has quantified how these biases actually manifest themselves with respect to different demographic groups, such as gender and racial/ethnic groups. Here, we analyze the fairness of depression classifiers trained on Twitter data with respect to gender and racial demographic groups. We find that model performance systematically differs for underrepresented groups and that these discrepancies cannot be fully explained by trivial data representation issues. Our study concludes with recommendations on how to avoid these biases in future research.
翻訳日:2021-03-22 14:37:14 公開日:2021-03-18
# CoCoMoT: SMT (Extended Version) によるマルチパースペクティブプロセスのコンフォーマンスチェック

CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT (Extended Version) ( http://arxiv.org/abs/2103.10507v1 )

ライセンス: Link先を確認
Paolo Felli and Alessandro Gianola and Marco Montali and Andrey Rivkin and Sarah Winkler(参考訳) パフォーマンスチェックは、プロセスモデルでキャプチャされた期待された振る舞いとログに記録された実際の振る舞いを比較するための重要なプロセスマイニングタスクである。 この問題は純粋な制御フロープロセスで広く研究されているが、マルチパースペクティブプロセスとの適合性チェックはまだ初期段階にある。 本稿では,データと制御フローの次元を組み合わせたプロセスを考えることで,この問題に対処する。 特に、データペトリネット(dpns)を基準形式として採用し、コンフォーマンスメトリクスやデータアウェアアライメントの計算において、確固とした確立された自動推論技術が効果的に有効であることを示す。 私たちは、CoCoMoT(Computing Conformance Modulo Theories)フレームワークを導入し、4倍のコントリビューションを行います。 まず、SMTを基礎となる形式的およびアルゴリズム的フレームワークとして使用して、純粋な制御フロー設定で研究したSATベースのエンコーディングを、我々のデータ認識ケースに持ち上げる方法を示す。 第2に、プロパティ保存クラスタリングの概念に基づく新しい前処理手法を導入し、適合性チェック出力の計算を高速化する。 第3に,最先端smtソルバを用いた概念実証の実装と予備実験報告を行う。 最後に,マルチアリゲーションやアンチアリゲーション,クラスタリングによるログ解析,モデル修復など,さらに多くのタスクにcocomotがどのように直結するかについて論じる。

Conformance checking is a key process mining task for comparing the expected behavior captured in a process model and the actual behavior recorded in a log. While this problem has been extensively studied for pure control-flow processes, conformance checking with multi-perspective processes is still at its infancy. In this paper, we attack this challenging problem by considering processes that combine the data and control-flow dimensions. In particular, we adopt data Petri nets (DPNs) as the underlying reference formalism, and show how solid, well-established automated reasoning techniques can be effectively employed for computing conformance metrics and data-aware alignments. We do so by introducing the CoCoMoT (Computing Conformance Modulo Theories) framework, with a fourfold contribution. First, we show how SAT-based encodings studied in the pure control-flow setting can be lifted to our data-aware case, using SMT as the underlying formal and algorithmic framework. Second, we introduce a novel preprocessing technique based on a notion of property-preserving clustering, to speed up the computation of conformance checking outputs. Third, we provide a proof-of-concept implementation that uses a state-of-the-art SMT solver and report on preliminary experiments. Finally, we discuss how CoCoMoT directly lends itself to a number of further tasks, like multi- and anti-alignments, log analysis by clustering, and model repair.
翻訳日:2021-03-22 14:36:05 公開日:2021-03-18
# Ano-Graph: ビデオ異常を検出するための通常のシーンコンテキストグラフを学習する

Ano-Graph: Learning Normal Scene Contextual Graphs to Detect Video Anomalies ( http://arxiv.org/abs/2103.10502v1 )

ライセンス: Link先を確認
Masoud Pourreza, Mohammadreza Salehi, Mohammad Sabokrou(参考訳) ビデオ異常検出は、教師なしのトレーニング手順と現実世界のシナリオに存在する時空間の複雑さのため、難しい課題であることが証明された。 異常なトレーニングサンプルがない場合、最先端の手法は、オートエンコーダや生成敵ネットワークのような異なるアプローチを用いて、空間および時間領域の正常な振る舞いを完全に把握する特徴を抽出しようとする。 しかし、これらのアプローチは階層的モデリングにおけるディープ・ネットワークの能力を完全に無視または利用することにより、オブジェクト間の時空間相互作用をモデル化することができない。 そこで本研究では,正規物体の相互作用を学習しモデル化する手法であるano-graphを提案する。 この目的に向けて、各ノードをリアルタイムオフザシェルフオブジェクト検出器から抽出したオブジェクトの特徴として考慮して、時空間グラフ(STG)を作成し、その相互作用に基づいてエッジを作成する。 その後、意味空間内の相互作用をカプセル化するように、STGに自己教師付き学習手法が採用される。 提案手法はデータ効率が高く,照明などの一般的な実世界の変動に対して著しく頑健であり,adocやストリートシーンの難易度を高く抑えつつも,アベニューや上海テック,ucsdで競争力を保っている。

Video anomaly detection has proved to be a challenging task owing to its unsupervised training procedure and high spatio-temporal complexity existing in real-world scenarios. In the absence of anomalous training samples, state-of-the-art methods try to extract features that fully grasp normal behaviors in both space and time domains using different approaches such as autoencoders, or generative adversarial networks. However, these approaches completely ignore or, by using the ability of deep networks in the hierarchical modeling, poorly model the spatio-temporal interactions that exist between objects. To address this issue, we propose a novel yet efficient method named Ano-Graph for learning and modeling the interaction of normal objects. Towards this end, a Spatio-Temporal Graph (STG) is made by considering each node as an object's feature extracted from a real-time off-the-shelf object detector, and edges are made based on their interactions. After that, a self-supervised learning method is employed on the STG in such a way that encapsulates interactions in a semantic space. Our method is data-efficient, significantly more robust against common real-world variations such as illumination, and passes SOTA by a large margin on the challenging datasets ADOC and Street Scene while stays competitive on Avenue, ShanghaiTech, and UCSD.
翻訳日:2021-03-22 14:35:34 公開日:2021-03-18
# cdfi:フレーム補間のための圧縮駆動ネットワーク設計

CDFI: Compression-Driven Network Design for Frame Interpolation ( http://arxiv.org/abs/2103.10559v1 )

ライセンス: Link先を確認
Tianyu Ding, Luming Liang, Zhihui Zhu, Ilya Zharkov(参考訳) DNNベースのフレーム補間 - 2つの連続するフレームが与えられた中間フレームを生成する - 典型的には、多数の特徴を持つ重モデルアーキテクチャに依存しており、モバイルデバイスのような限られたリソースを持つシステムにデプロイされない。 本稿では,フレーム補間 (CDFI) のための圧縮駆動型ネットワーク設計法を提案する。 具体的には、最近提案されたAdaCoFモデルをまず圧縮し、10X圧縮されたAdaCoFが元のモデルと同じ性能を示すことを示す。 その結果,従来のAdaCoFに比べてわずか4分の1の大きさで大幅な性能向上を達成した。 さらに,本モデルは,幅広いデータセットにおいて,他の最先端技術に対して好適に機能する。 最後に、提案する圧縮駆動フレームワークは汎用的であり、他のDNNベースのフレーム補間アルゴリズムに容易に転送できる。 ソースコードはhttps://github.com/tding1/cdfiで入手できます。

DNN-based frame interpolation--that generates the intermediate frames given two consecutive frames--typically relies on heavy model architectures with a huge number of features, preventing them from being deployed on systems with limited resources, e.g., mobile devices. We propose a compression-driven network design for frame interpolation (CDFI), that leverages model pruning through sparsity-inducing optimization to significantly reduce the model size while achieving superior performance. Concretely, we first compress the recently proposed AdaCoF model and show that a 10X compressed AdaCoF performs similarly as its original counterpart; then we further improve this compressed model by introducing a multi-resolution warping module, which boosts visual consistencies with multi-level details. As a consequence, we achieve a significant performance gain with only a quarter in size compared with the original AdaCoF. Moreover, our model performs favorably against other state-of-the-arts in a broad range of datasets. Finally, the proposed compression-driven framework is generic and can be easily transferred to other DNN-based frame interpolation algorithm. Our source code is available at https://github.com/tding1/CDFI.
翻訳日:2021-03-22 14:35:09 公開日:2021-03-18
# clta: 限定的行動認識のためのコンテンツと時間的注意

CLTA: Contents and Length-based Temporal Attention for Few-shot Action Recognition ( http://arxiv.org/abs/2103.10567v1 )

ライセンス: Link先を確認
Yang Bo, Yangdi Lu and Wenbo He(参考訳) 適切なラベル付きトレーニングサンプルの取得が困難であることから,少数のアクション認識が注目されている。 最近の研究では、空間情報の保存とビデオディスクリプタの比較が、わずかなアクション認識に不可欠であることが示されている。 しかし,時間的情報保存の重要性についてはあまり議論されていない。 本稿では,個々の映像にカスタマイズされた時間的注意を学習し,限定的なアクション認識問題に取り組むためのコンテンツと長さに基づく時間的注意(clta)モデルを提案する。 CLTAはガウス確率関数をテンプレートとして、時間的注意を発生させ、学習行列を訓練し、フレームの内容と長さの両方に基づいて平均および標準偏差を研究する。 通常のソフトマックス分類器を用いた微調整されていないバックボーンでも、時間的注意を正確に捉えた最新の数ショット動作認識と比較して、同様の、あるいはより良い結果が得られることを示す。

Few-shot action recognition has attracted increasing attention due to the difficulty in acquiring the properly labelled training samples. Current works have shown that preserving spatial information and comparing video descriptors are crucial for few-shot action recognition. However, the importance of preserving temporal information is not well discussed. In this paper, we propose a Contents and Length-based Temporal Attention (CLTA) model, which learns customized temporal attention for the individual video to tackle the few-shot action recognition problem. CLTA utilizes the Gaussian likelihood function as the template to generate temporal attention and trains the learning matrices to study the mean and standard deviation based on both frame contents and length. We show that even a not fine-tuned backbone with an ordinary softmax classifier can still achieve similar or better results compared to the state-of-the-art few-shot action recognition with precisely captured temporal attention.
翻訳日:2021-03-22 14:34:51 公開日:2021-03-18
# 構造的出力依存性のモデル化のためのジェネリック知覚損失

Generic Perceptual Loss for Modeling Structured Output Dependencies ( http://arxiv.org/abs/2103.10571v1 )

ライセンス: Link先を確認
Yifan Liu, Hao Chen, Yu Chen, Wei Yin, Chunhua Shen(参考訳) 知覚損失は画像のスーパーレゾリューションやスタイル転送などの画像合成タスクにおいて有効な損失項として広く用いられてきた。 成功は、大量の画像で訓練されたcnnから抽出された高レベルの知覚的特徴表現にあると信じられていた。 ここでは、トレーニングされた重みではなく、ネットワーク構造が重要であることを明らかにする。 学習がなければ、深層ネットワークの構造は、CNNの複数の層を使用して、変数統計の複数のレベル間の依存関係をキャプチャするのに十分である。 この洞察は、事前学習の要件と、知覚的損失を前提とした特定のネットワーク構造(通常、vgg)を取り除き、より広い範囲のアプリケーションを可能にする。 この目的のために、ランダムに重み付けされた深部CNNを用いて出力の構造的依存関係をモデル化できることを実証する。 セマンティックセグメンテーション,深度推定,インスタンスセグメンテーションなど,画素ごとの高密度な予測タスクでは,画素単位の損失を用いたベースラインと比較して,拡張されたランダム化知覚損失を用いた結果が改善された。 このシンプルで拡張された知覚的損失が、ほとんどの構造化された出力学習タスクに適用可能な、汎用的な構造化された出力損失になることを期待している。

The perceptual loss has been widely used as an effective loss term in image synthesis tasks including image super-resolution, and style transfer. It was believed that the success lies in the high-level perceptual feature representations extracted from CNNs pretrained with a large set of images. Here we reveal that, what matters is the network structure instead of the trained weights. Without any learning, the structure of a deep network is sufficient to capture the dependencies between multiple levels of variable statistics using multiple layers of CNNs. This insight removes the requirements of pre-training and a particular network structure (commonly, VGG) that are previously assumed for the perceptual loss, thus enabling a significantly wider range of applications. To this end, we demonstrate that a randomly-weighted deep CNN can be used to model the structured dependencies of outputs. On a few dense per-pixel prediction tasks such as semantic segmentation, depth estimation and instance segmentation, we show improved results of using the extended randomized perceptual loss, compared to the baselines using pixel-wise loss alone. We hope that this simple, extended perceptual loss may serve as a generic structured-output loss that is applicable to most structured output learning tasks.
翻訳日:2021-03-22 14:34:38 公開日:2021-03-18
# 全体移動操作による未知シーンにおける人工物体の相互作用

Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile Manipulation ( http://arxiv.org/abs/2103.10534v1 )

ライセンス: Link先を確認
Mayank Mittal, David Hoeller, Farbod Farshidian, Marco Hutter, Animesh Garg(参考訳) キッチンアシスタントは、動的な障害のある未熟な環境で、キャビネットやオーブンのような人間規模のオブジェクトを操作する必要があります。 このような実環境における自律的な相互作用は、デクスタース操作と流動移動を統合する必要がある。 異なるフォームファクターのモバイルマニピュレータが拡張ワークスペースを提供する一方で、実際の採用は限られている。 この制限は、1)キャビネットやオーブンのような未知の人間規模のオブジェクトと相互作用できないこと、2)アームと移動体との間の非効率な協調が原因である。 一般的なオブジェクトに対するハイレベルなタスクの実行には、オブジェクトの知覚的理解と、動的障害間の適応的な全身制御が必要である。 本稿では,未知環境における大型関節オブジェクトとの自律的インタラクションのための2段階アーキテクチャを提案する。 第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。 第2段は、生成した運動計画に沿って物体を操作する全身運動制御装置からなる。 提案するパイプラインが複雑な静的および動的キッチン設定を処理可能であることを示す。 さらに,提案手法は,モバイル操作における一般的な制御手法よりも優れた性能を実現することを示す。 詳細はhttps://www.pair.toronto.edu/articulated-mm/。

A kitchen assistant needs to operate human-scale objects, such as cabinets and ovens, in unmapped environments with dynamic obstacles. Autonomous interactions in such real-world environments require integrating dexterous manipulation and fluid mobility. While mobile manipulators in different form-factors provide an extended workspace, their real-world adoption has been limited. This limitation is in part due to two main reasons: 1) inability to interact with unknown human-scale objects such as cabinets and ovens, and 2) inefficient coordination between the arm and the mobile base. Executing a high-level task for general objects requires a perceptual understanding of the object as well as adaptive whole-body control among dynamic obstacles. In this paper, we propose a two-stage architecture for autonomous interaction with large articulated objects in unknown environments. The first stage uses a learned model to estimate the articulated model of a target object from an RGB-D input and predicts an action-conditional sequence of states for interaction. The second stage comprises of a whole-body motion controller to manipulate the object along the generated kinematic plan. We show that our proposed pipeline can handle complicated static and dynamic kitchen settings. Moreover, we demonstrate that the proposed approach achieves better performance than commonly used control methods in mobile manipulation. For additional material, please check: https://www.pair.toronto.edu/articulated-mm/ .
翻訳日:2021-03-22 14:27:33 公開日:2021-03-18
# cellcounter:神経細胞の高忠実度空間局在のためのディープラーニングフレームワーク

Cellcounter: a deep learning framework for high-fidelity spatial localization of neurons ( http://arxiv.org/abs/2103.10462v1 )

ライセンス: Link先を確認
Tamal Batabyal, Aijaz Ahmad Naik, Daniel Weller, Jaideep Kapur(参考訳) 多くの神経科学応用は、ニューロンの堅牢で正確な局在を必要とする。 強度、テクスチャ、空間的重なり合い、形態学、背景アーティファクトの膨大な変化のため、まだ未解決の問題である。 さらに、高解像度画像からのニューロンの完全な手動アノテーションを含む大規模なデータセットのキュレーションには、かなりの時間と労力が必要となる。 我々は,非完全注釈のニューロンを含む画像と,人工物や背景構造を含む制御画像に基づいて学習した深層学習モデルであるCellcounterを提案する。 驚くべき自己学習能力を活用することで、cellcounterは徐々にニューロンをラベル付けし、時間集約的な完全なアノテーションの必要性を回避している。 cellcounterは、神経細胞の正確な局在における芸術的状態に対する効果を示し、いくつかのプロトコルにおける偽陽性検出を著しく削減している。

Many neuroscientific applications require robust and accurate localization of neurons. It is still an unsolved problem because of the enormous variation in intensity, texture, spatial overlap, morphology and background artifacts. In addition, curation of a large dataset containing complete manual annotation of neurons from high-resolution images to train a classifier requires significant time and effort. We present Cellcounter, a deep learning-based model trained on images containing incompletely-annotated neurons with highly-varied morphology and control images containing artifacts and background structures. Leveraging the striking self-learning ability, Cellcounter gradually labels neurons, obviating the need for time-intensive complete annotation. Cellcounter shows its efficacy over the state of the arts in the accurate localization of neurons while significantly reducing false-positive detection in several protocols.
翻訳日:2021-03-22 14:25:37 公開日:2021-03-18
# 超コンバージェンスとディファレンシャルプライバシ: より良いプライバシ保証でより迅速なトレーニング

Super-convergence and Differential Privacy: Training faster with better privacy guarantees ( http://arxiv.org/abs/2103.10498v1 )

ライセンス: Link先を確認
Osvald Frisk, Friedrich D\"ormann, Christian Marius Lillelund, Christian Fischer Pedersen(参考訳) ディープニューラルネットワークとディファレンシャルプライバシの組み合わせは、使用中のトレーニングデータセットの個人に対して重要なデータ保護保証を提供するため、近年の関心が高まっている。 しかしながら、ニューラルネットワークのトレーニングで差分プライバシーを使用するには、検証精度の低下や、トレーニングにおけるリソースの使用と時間の大幅な増加など、一連の欠点が伴う。 本稿では,差分プライベートニューラルネットワークのトレーニング速度を大幅に向上させる手段として,超収束性について検討し,高いトレーニング時間と資源利用の欠点に対処する。 超収束(Super-convergence)は、非常に高い学習率を用いたネットワークトレーニングの加速を可能にし、従来の方法よりもはるかに少ないトレーニングイテレーションで高い実用性を持つモデルを実現することが示されている。 本実験では,このオーダー・オブ・マグニチュード・スピードアップを差分プライバシと組み合わせることで,非プライベート・非スーパー収束ベースラインモデルと比較して,より少ないトレーニングイテレーションで高い検証精度が得られることを示す。 さらに、スーパーコンバージェンスはプライベートモデルのプライバシー保証を改善することが示されている。

The combination of deep neural networks and Differential Privacy has been of increasing interest in recent years, as it offers important data protection guarantees to the individuals of the training datasets used. However, using Differential Privacy in the training of neural networks comes with a set of shortcomings, like a decrease in validation accuracy and a significant increase in the use of resources and time in training. In this paper, we examine super-convergence as a way of greatly increasing training speed of differentially private neural networks, addressing the shortcoming of high training time and resource use. Super-convergence allows for acceleration in network training using very high learning rates, and has been shown to achieve models with high utility in orders of magnitude less training iterations than conventional ways. Experiments in this paper show that this order-of-magnitude speedup can also be seen when combining it with Differential Privacy, allowing for higher validation accuracies in much fewer training iterations compared to non-private, non-super convergent baseline models. Furthermore, super-convergence is shown to improve the privacy guarantees of private models.
翻訳日:2021-03-22 14:25:25 公開日:2021-03-18
# キーポイントを用いたオブジェクト中心タスク軸制御の一般化

Generalizing Object-Centric Task-Axes Controllers using Keypoints ( http://arxiv.org/abs/2103.10524v1 )

ライセンス: Link先を確認
Mohit Sharma, Oliver Kroemer(参考訳) ロボットは現実世界で操作を行うためには、形状、大きさ、幾何学的モデルへのアクセスなしに様々な物体を操作する必要がある。 このような大きなオブジェクト特性のばらつきに対して、モノリシックなニューラルネットワークポリシをトレーニングすることは、しばしば不可能である。 この一般化課題に向けて,オブジェクト指向タスクアックスコントローラを構成するモジュール型タスクポリシーの学習を提案する。 これらのタスクアックスコントローラは、シーンの下位オブジェクトに関連するプロパティによってパラメータ化される。 我々は,マルチビュー対応学習を用いて,視覚入力から直接これらの制御パラメータを推定する。 私たちの全体的なアプローチは、操作タスクを学習するためのシンプルでモジュール化された、しかし強力なフレームワークを提供します。 複数の異なる操作タスクに対するアプローチを実証的に評価し、オブジェクトのサイズ、形状、幾何学のばらつきを一般化する能力を示す。

To perform manipulation tasks in the real world, robots need to operate on objects with various shapes, sizes and without access to geometric models. It is often unfeasible to train monolithic neural network policies across such large variance in object properties. Towards this generalization challenge, we propose to learn modular task policies which compose object-centric task-axes controllers. These task-axes controllers are parameterized by properties associated with underlying objects in the scene. We infer these controller parameters directly from visual input using multi-view dense correspondence learning. Our overall approach provides a simple, modular and yet powerful framework for learning manipulation tasks. We empirically evaluate our approach on multiple different manipulation tasks and show its ability to generalize to large variance in object size, shape and geometry.
翻訳日:2021-03-22 14:25:06 公開日:2021-03-18
# AI/MLモデルの実現に向けて: データサイエンティストの産業的展望

Towards Productizing AI/ML Models: An Industry Perspective from Data Scientists ( http://arxiv.org/abs/2103.10548v1 )

ライセンス: Link先を確認
Filippo Lanubile, Fabio Calefato, Luigi Quaranta, Maddalena Amoruso, Fabio Fumarola, Michele Filannino(参考訳) AI/MLモデルからプロダクション対応のAIベースのシステムへの移行は、データサイエンティストとソフトウェアエンジニアの両方にとって課題である。 本稿では,この移行が実践者によってどのように認識されるかを理解するため,コンサルティング会社におけるワークショップの結果を報告する。 AI実験の再現性の必要性から始まった主なテーマは、Jupyter Notebookを主要なプロトタイピングツールとして使用すること、ソフトウェアエンジニアリングのベストプラクティスとデータサイエンス特有の機能のサポートの欠如である。

The transition from AI/ML models to production-ready AI-based systems is a challenge for both data scientists and software engineers. In this paper, we report the results of a workshop conducted in a consulting company to understand how this transition is perceived by practitioners. Starting from the need for making AI experiments reproducible, the main themes that emerged are related to the use of the Jupyter Notebook as the primary prototyping tool, and the lack of support for software engineering best practices as well as data science specific functionalities.
翻訳日:2021-03-22 14:24:55 公開日:2021-03-18
# MARS:多目的創薬のためのマルコフ分子サンプリング

MARS: Markov Molecular Sampling for Multi-objective Drug Discovery ( http://arxiv.org/abs/2103.10432v1 )

ライセンス: Link先を確認
Yutong Xie, Chence Shi, Hao Zhou, Yuwei Yang, Weinan Zhang, Yong Yu, Lei Li(参考訳) 化学的性質が望ましい新規分子の探索は、薬物発見に不可欠である。 既存の研究は、分子配列または化学グラフを生成する神経モデルの開発に焦点を当てている。 しかし、いくつかの性質を満たす新規で多様な化合物を見つけることは依然として大きな課題である。 本稿では,多目的薬物分子の発見法であるmarsを提案する。 MARSは分子グラフの断片を反復的に編集することで化学候補を生成するという考え方に基づいている。 高品質な候補を探すために、マルコフ連鎖モンテカルロサンプリング(MCMC)をアニールスキームと適応的な提案を持つ分子に採用している。 サンプル効率をさらに向上するため、MARSはグラフニューラルネットワーク(GNN)を使用して候補編集を表現および選択し、GNNはMCMCのサンプルでオンザフライでトレーニングされる。 実験により,MARSは,分子生物学的活性,薬物類似性,合成性を考慮した多目的環境において,最先端の性能を達成することが示された。 驚くべきことに、4つの目標が同時に最適化される最も困難な環境では、このアプローチは、包括的な評価において以前の手法を大きく上回っている。 コードはhttps://github.com/yutxie/marsで入手できる。

Searching for novel molecules with desired chemical properties is crucial in drug discovery. Existing work focuses on developing neural models to generate either molecular sequences or chemical graphs. However, it remains a big challenge to find novel and diverse compounds satisfying several properties. In this paper, we propose MARS, a method for multi-objective drug molecule discovery. MARS is based on the idea of generating the chemical candidates by iteratively editing fragments of molecular graphs. To search for high-quality candidates, it employs Markov chain Monte Carlo sampling (MCMC) on molecules with an annealing scheme and an adaptive proposal. To further improve sample efficiency, MARS uses a graph neural network (GNN) to represent and select candidate edits, where the GNN is trained on-the-fly with samples from MCMC. Experiments show that MARS achieves state-of-the-art performance in various multi-objective settings where molecular bio-activity, drug-likeness, and synthesizability are considered. Remarkably, in the most challenging setting where all four objectives are simultaneously optimized, our approach outperforms previous methods significantly in comprehensive evaluations. The code is available at https://github.com/yutxie/mars.
翻訳日:2021-03-22 14:23:31 公開日:2021-03-18
# SML: 効率的な言語間自然言語推論のための新しい意味埋め込み変換器

SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference ( http://arxiv.org/abs/2103.09635v2 )

ライセンス: Link先を確認
Javier Huertas-Tato and Alejandro Mart\'in and David Camacho(参考訳) トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。 しかし、これらのモデルは、他の領域に一般化したり、多言語シナリオに直面することの困難さに苦しむ。 これらの問題に対処する文献における主要な経路は、非常に大きなアーキテクチャの設計とトレーニングであり、予測不可能な振る舞いをもたらし、幅広いアクセスと微調整を妨げる障壁を確立することである。 本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer (sml) を提案する。 SMLは2つの入力文が互いに参加して後に行列アライメント法によって結合されるような凍結重み付きシアム事前訓練された多言語トランスフォーマーを利用する。 本研究で実施した実験結果によると、SMLは、最先端性能を保ちながら、トレーニング可能なパラメータを劇的に減らすことができる。

The ability of Transformers to perform with precision a variety of tasks such as question answering, Natural Language Inference (NLI) or summarising, have enable them to be ranked as one of the best paradigms to address this kind of tasks at present. NLI is one of the best scenarios to test these architectures, due to the knowledge required to understand complex sentences and established a relation between a hypothesis and a premise. Nevertheless, these models suffer from incapacity to generalise to other domains or difficulties to face multilingual scenarios. The leading pathway in the literature to address these issues involve designing and training extremely large architectures, which leads to unpredictable behaviours and to establish barriers which impede broad access and fine tuning. In this paper, we propose a new architecture, siamese multilingual transformer (SML), to efficiently align multilingual embeddings for Natural Language Inference. SML leverages siamese pre-trained multi-lingual transformers with frozen weights where the two input sentences attend each other to later be combined through a matrix alignment method. The experimental results carried out in this paper evidence that SML allows to reduce drastically the number of trainable parameters while still achieving state-of-the-art performance.
翻訳日:2021-03-22 09:17:44 公開日:2021-03-18
# CM-NAS:可視赤外人物再同定のためのクロスモーダルニューラルネットワーク探索

CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2101.08467v2 )

ライセンス: Link先を確認
Chaoyou Fu, Yibo Hu, Xiang Wu, Hailin Shi, Tao Mei, Ran He(参考訳) Visible-Infrared person re-identification (VI-ReID) は、暗黒環境下での単一モダリティ人物ReIDの限界を突破し、モダリティ横断歩行者画像のマッチングを目的としている。 大きなモダリティの相違の影響を軽減するために、既存の作業は、モダリティ固有の表現とモダリティの相違を個別に学習するために、様々な2ストリームアーキテクチャを手動で設計する。 しかし、このような手動設計のルーチンは、膨大な実験と経験的な実践に大きく依存しており、それは時間消費と労働集約である。 本稿では,手作業で設計したアーキテクチャを体系的に研究し,Batch Normalization (BN) 層を適切に分離することが,相互モダリティマッチングに大きく貢献する鍵であることを示す。 この観測に基づいて、BN層毎の最適分離法を見つけることが本目的である。 そこで我々は,Cross-Modality Neural Architecture Search (CM-NAS) という新しい手法を提案する。 これは、標準的な最適化をクロスモダリティタスクの対象となるbn指向の探索空間から成っている。 SYSU-MM01ではランク1/mAPが6.70%/6.13%,RegDBでは12.17%/11.23%向上した。 CM-NASは,そのシンプルさと有効性を踏まえ,今後の研究の強力なベースラインとなると期待している。 コードは利用可能になる。

Visible-Infrared person re-identification (VI-ReID) aims to match cross-modality pedestrian images, breaking through the limitation of single-modality person ReID in dark environment. In order to mitigate the impact of large modality discrepancy, existing works manually design various two-stream architectures to separately learn modality-specific and modality-sharable representations. Such a manual design routine, however, highly depends on massive experiments and empirical practice, which is time consuming and labor intensive. In this paper, we systematically study the manually designed architectures, and identify that appropriately separating Batch Normalization (BN) layers is the key to bring a great boost towards cross-modality matching. Based on this observation, the essential objective is to find the optimal separation scheme for each BN layer. To this end, we propose a novel method, named Cross-Modality Neural Architecture Search (CM-NAS). It consists of a BN-oriented search space in which the standard optimization can be fulfilled subject to the cross-modality task. Equipped with the searched architecture, our method outperforms state-of-the-art counterparts in both two benchmarks, improving the Rank-1/mAP by 6.70%/6.13% on SYSU-MM01 and by 12.17%/11.23% on RegDB. In light of its simplicity and effectiveness, we expect CM-NAS will serve as a strong baseline for future research. Code will be made available.
翻訳日:2021-03-21 07:55:52 公開日:2021-03-18
# (参考訳) CheXbreak: 胸部X線を解釈するディープラーニングモデルの誤分類識別

CheXbreak: Misclassification Identification for Deep Learning Models Interpreting Chest X-rays ( http://arxiv.org/abs/2103.09957v1 )

ライセンス: CC BY 4.0
Emma Chen, Andy Kim, Rayan Krishnan, Jin Long, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 胸部X線解釈のための深層学習モデルの臨床環境への統合に対する大きな障害は、その障害モードの理解の欠如である。 本研究は,胸部X線モデルが誤分類しそうな患者サブグループが存在するかどうかをまず検討する。 胸部X線モデルの誤分類予測には, 年齢, 肺病変, 気胸のX線所見が統計的に関連していることがわかった。 第2に,胸部X線モデルの出力と臨床特徴を用いた誤分類予測器を開発した。 その結果,AUROCがほとんどの疾患に対して0.9に近づいたことが判明した。 第3に,誤分類識別子を用いて,推定時に誤分類の可能性の高いモデル予測を選択的にフリップする補正アルゴリズムを開発した。 コンソリデーション予測のF1改善(0.008 [95\% CI 0.005, 0.010])とEdema(0.003, [95\% CI 0.001, 0.006])を観察した。 10種類の胸部X線モデルについて調査を行うことにより、モデルアーキテクチャ全体の洞察を導き、他の医療画像タスクに適用可能なフレームワークを提供することができる。

A major obstacle to the integration of deep learning models for chest x-ray interpretation into clinical settings is the lack of understanding of their failure modes. In this work, we first investigate whether there are patient subgroups that chest x-ray models are likely to misclassify. We find that patient age and the radiographic finding of lung lesion or pneumothorax are statistically relevant features for predicting misclassification for some chest x-ray models. Second, we develop misclassification predictors on chest x-ray models using their outputs and clinical features. We find that our best performing misclassification identifier achieves an AUROC close to 0.9 for most diseases. Third, employing our misclassification identifiers, we develop a corrective algorithm to selectively flip model predictions that have high likelihood of misclassification at inference time. We observe F1 improvement on the prediction of Consolidation (0.008 [95\% CI 0.005, 0.010]) and Edema (0.003, [95\% CI 0.001, 0.006]). By carrying out our investigation on ten distinct and high-performing chest x-ray models, we are able to derive insights across model architectures and offer a generalizable framework applicable to other medical imaging tasks.
翻訳日:2021-03-20 05:58:50 公開日:2021-03-18
# (参考訳) 進化型ディープニューラルネットワーク

Evolutional Deep Neural Network ( http://arxiv.org/abs/2103.09959v1 )

ライセンス: CC BY 4.0
Yifan Du, Tamer A. Zaki(参考訳) 偏微分方程式(PDE)の解法として進化型ディープニューラルネットワーク(EDNN)の概念を導入する。 ネットワークのパラメータは、システムの初期状態のみを表現するように訓練され、その後、さらなるトレーニングなしに動的に更新され、pdeシステムの進化を正確に予測する。 この枠組みでは、ネットワークパラメータを適切な座標に対して関数として扱い、支配方程式を用いて数値的に更新する。 パラメータ空間でニューラルネットワークの重みを行進させることで、EDNNは無限に長い状態空間の軌跡を予測することができ、他のニューラルネットワークアプローチでは難しい。 PDEの境界条件は、厳密な制約として扱われ、ニューラルネットワークに埋め込まれるため、解軌道全体を通して完全に満たされる。 熱方程式, 対流方程式, バーガーズ方程式, 倉本シヴァシンスキー方程式, ナビエ・ストークス方程式などのいくつかの応用を解き, EDNNの汎用性と精度を示す。 EDNNの非圧縮性ナビエ・ストークス方程式への応用は、運動量方程式のソレノイド空間への射影が暗黙的に達成されるように、分散自由制約をネットワーク設計に組み込む。 その結果, 解析解とベンチマーク解に対するednn解の精度が, 系の過渡ダイナミクスと統計量の両方について検証された。

The notion of an Evolutional Deep Neural Network (EDNN) is introduced for the solution of partial differential equations (PDE). The parameters of the network are trained to represent the initial state of the system only, and are subsequently updated dynamically, without any further training, to provide an accurate prediction of the evolution of the PDE system. In this framework, the network parameters are treated as functions with respect to the appropriate coordinate and are numerically updated using the governing equations. By marching the neural network weights in the parameter space, EDNN can predict state-space trajectories that are indefinitely long, which is difficult for other neural network approaches. Boundary conditions of the PDEs are treated as hard constraints, are embedded into the neural network, and are therefore exactly satisfied throughout the entire solution trajectory. Several applications including the heat equation, the advection equation, the Burgers equation, the Kuramoto Sivashinsky equation and the Navier-Stokes equations are solved to demonstrate the versatility and accuracy of EDNN. The application of EDNN to the incompressible Navier-Stokes equation embeds the divergence-free constraint into the network design so that the projection of the momentum equation to solenoidal space is implicitly achieved. The numerical results verify the accuracy of EDNN solutions relative to analytical and benchmark numerical solutions, both for the transient dynamics and statistics of the system.
翻訳日:2021-03-20 05:42:34 公開日:2021-03-18
# (参考訳) 決定理論ブートストラップ

Decision Theoretic Bootstrapping ( http://arxiv.org/abs/2103.09982v1 )

ライセンス: CC BY 4.0
Peyman Tavallali, Hamed Hamze Bajgiran, Danial J. Esaid, Houman Owhadi(参考訳) 教師付き機械学習モデルの設計と試験には,(1)訓練データ分布,(2)試験データ分布の2つの基本分布が組み合わさっている。 これらの2つの分布は、データセットが無限であるときに同一であり、識別可能であるが、データが有限である(そして、おそらく腐敗している)場合に不完全に知られ、この不確実性はロバスト不確実性量子化(uq)のために考慮されなければならない。 We present a general decision-theoretic bootstrapping solution to this problem: (1) partition the available data into a training subset and a UQ subset (2) take $m$ subsampled subsets of the training set and train $m$ models (3) partition the UQ set into $n$ sorted subsets and take a random fraction of them to define $n$ corresponding empirical distributions $\mu_{j}$ (4) consider the adversarial game where Player I selects a model $i\in\left\{ 1,\ldots,m\right\} $, Player II selects the UQ distribution $\mu_{j}$ and Player I receives a loss defined by evaluating the model $i$ against data points sampled from $\mu_{j}$ (5) identify optimal mixed strategies (probability distributions over models and UQ distributions) for both players. これらのランダム化された最適混合戦略は、ゲームに代表されるトレーニングおよびテスト分布の逆不確かさを考慮し、最適なモデル混合とUQ推定を提供する。 提案手法は,(1) 学習データの分布と試験データの両方の分布変化に対するある程度の頑健性を与える。(2) 出力空間上の条件付き確率分布は,入力変数の関数として出力上の不確かさの予備表現を形成する。

The design and testing of supervised machine learning models combine two fundamental distributions: (1) the training data distribution (2) the testing data distribution. Although these two distributions are identical and identifiable when the data set is infinite; they are imperfectly known (and possibly distinct) when the data is finite (and possibly corrupted) and this uncertainty must be taken into account for robust Uncertainty Quantification (UQ). We present a general decision-theoretic bootstrapping solution to this problem: (1) partition the available data into a training subset and a UQ subset (2) take $m$ subsampled subsets of the training set and train $m$ models (3) partition the UQ set into $n$ sorted subsets and take a random fraction of them to define $n$ corresponding empirical distributions $\mu_{j}$ (4) consider the adversarial game where Player I selects a model $i\in\left\{ 1,\ldots,m\right\} $, Player II selects the UQ distribution $\mu_{j}$ and Player I receives a loss defined by evaluating the model $i$ against data points sampled from $\mu_{j}$ (5) identify optimal mixed strategies (probability distributions over models and UQ distributions) for both players. These randomized optimal mixed strategies provide optimal model mixtures and UQ estimates given the adversarial uncertainty of the training and testing distributions represented by the game. The proposed approach provides (1) some degree of robustness to distributional shift in both the distribution of training data and that of the testing data (2) conditional probability distributions on the output space forming aleatory representations of the uncertainty on the output as a function of the input variable.
翻訳日:2021-03-20 05:12:21 公開日:2021-03-18
# (参考訳) 線形反復的特徴埋め込み:解釈可能なモデルのためのアンサンブルフレームワーク

Linear Iterative Feature Embedding: An Ensemble Framework for Interpretable Model ( http://arxiv.org/abs/2103.09983v1 )

ライセンス: CC BY 4.0
Agus Sudjianto, Jinwen Qiu, Miaoqi Li and Jie Chen(参考訳) 線形反復的特徴埋め込み(LIFE)と呼ばれる解釈モデルのための新しいアンサンブルフレームワークを開発した。 LIFEアルゴリズムは、幅広い単一隠れ層ニューラルネットワーク(NN)を3つのステップに正確に適合させることができる: ニューラルネットワークの線形投影によるデータセットのサブセットを定義し、データの異なるサブセットに基づいてトレーニングされた複数の狭い単一隠れ層NNから特徴を作成し、特徴を線形モデルと組み合わせる。 LIFEの背後にある理論的理論はスタックアンサンブル法の損失あいまいさ分解との接続によってもたらされる。 シミュレーションと実証実験は、LIFEが直接訓練された単一階層NNよりも一貫して優れており、また、多層フィードフォワードニューラルネットワーク(FFNN)、Xgboost、ランダムフォレスト(RF)など、多くのベンチマークモデルよりも優れていることを証明している。 広い単層NNとして、LIFEは本質的に解釈可能である。 一方、可変重要度とグローバルメインおよびインタラクション効果の両方を簡単に作成し、可視化することができる。 さらに,基本学習者の並列性により,並列計算を活用することでLIFEの計算効率が向上する。

A new ensemble framework for interpretable model called Linear Iterative Feature Embedding (LIFE) has been developed to achieve high prediction accuracy, easy interpretation and efficient computation simultaneously. The LIFE algorithm is able to fit a wide single-hidden-layer neural network (NN) accurately with three steps: defining the subsets of a dataset by the linear projections of neural nodes, creating the features from multiple narrow single-hidden-layer NNs trained on the different subsets of the data, combining the features with a linear model. The theoretical rationale behind LIFE is also provided by the connection to the loss ambiguity decomposition of stack ensemble methods. Both simulation and empirical experiments confirm that LIFE consistently outperforms directly trained single-hidden-layer NNs and also outperforms many other benchmark models, including multi-layers Feed Forward Neural Network (FFNN), Xgboost, and Random Forest (RF) in many experiments. As a wide single-hidden-layer NN, LIFE is intrinsically interpretable. Meanwhile, both variable importance and global main and interaction effects can be easily created and visualized. In addition, the parallel nature of the base learner building makes LIFE computationally efficient by leveraging parallel computing.
翻訳日:2021-03-20 04:58:43 公開日:2021-03-18
# (参考訳) 離散モース理論を用いたトポロジー認識セグメンテーション

Topology-Aware Segmentation Using Discrete Morse Theory ( http://arxiv.org/abs/2103.09992v1 )

ライセンス: CC BY 4.0
Xiaoling Hu, Yusu Wang, Li Fuxin, Dimitris Samaras, Chao Chen(参考訳) 自然画像および生物医学画像からの微細な構造区分では、ピクセル単位の精度が唯一の懸念指標ではない。 血管接続や膜閉鎖といったトポロジカルな正確性は下流分析作業に不可欠である。 本稿では,位相的精度を向上させるために,深層画像分割ネットワークの学習手法を提案する。 特に離散モース理論(dmt)の力を利用して、位相的精度に重要な1次元骨格や2次元パッチを含む大域的な構造を同定する。 これらのグローバル構造に基づく新たな損失で訓練されたネットワーク性能は、特に位相的に困難な場所(接続や膜が弱い点など)において著しく改善されている。 多様なデータセットに対して,DICEスコアとトポロジカルメトリクスの両方で優れた性能を示す。

In the segmentation of fine-scale structures from natural and biomedical images, per-pixel accuracy is not the only metric of concern. Topological correctness, such as vessel connectivity and membrane closure, is crucial for downstream analysis tasks. In this paper, we propose a new approach to train deep image segmentation networks for better topological accuracy. In particular, leveraging the power of discrete Morse theory (DMT), we identify global structures, including 1D skeletons and 2D patches, which are important for topological accuracy. Trained with a novel loss based on these global structures, the network performance is significantly improved especially near topologically challenging locations (such as weak spots of connections and membranes). On diverse datasets, our method achieves superior performance on both the DICE score and topological metrics.
翻訳日:2021-03-20 04:57:29 公開日:2021-03-18
# (参考訳) COVIDx-US -- AI駆動型COVID-19分析のための超音波画像データのオープンアクセスベンチマークデータセット

COVIDx-US -- An open-access benchmark dataset of ultrasound imaging data for AI-driven COVID-19 analytics ( http://arxiv.org/abs/2103.10003v1 )

ライセンス: CC BY 4.0
Ashkan Ebadi, Pengcheng Xi, Alexander MacLean, St\'ephane Tremblay, Sonny Kohli, Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界の人々の健康と幸福に打撃を与え続けている。 世界的な健康危機とは別に、パンデミックは経済的・財政的困難と社会的・生理的影響も引き起こしている。 効果的なスクリーニング、トリアージ、治療計画、結果の予後はパンデミックを制御する上で重要な役割を果たしている。 最近の研究では、新型コロナウイルスのスクリーニングと予後におけるポイント・オブ・ケア超音波画像の役割が強調されている。 これらの属性と、臨床医を支援する人工知能ツールの約束に触発された私たちは、新型コロナウイルス関連超音波画像データのオープンアクセスベンチマークデータセットであるCOVIDx-USを紹介します。 COVIDx-USデータセットは複数のソースから収集され、SARS-CoV-2肺炎、非SARS-CoV-2肺炎、および健康管理症例の93本の肺超音波ビデオと10,774枚の加工画像で構成された。 データセットは、人工知能アルゴリズムとモデルの構築と評価を目的として、体系的に処理され、検証された。

The COVID-19 pandemic continues to have a devastating effect on the health and well-being of the global population. Apart from the global health crises, the pandemic has also caused significant economic and financial difficulties and socio-physiological implications. Effective screening, triage, treatment planning, and prognostication of outcome plays a key role in controlling the pandemic. Recent studies have highlighted the role of point-of-care ultrasound imaging for COVID-19 screening and prognosis, particularly given that it is non-invasive, globally available, and easy-to-sanitize. Motivated by these attributes and the promise of artificial intelligence tools to aid clinicians, we introduce COVIDx-US, an open-access benchmark dataset of COVID-19 related ultrasound imaging data that is the largest of its kind. The COVIDx-US dataset was curated from multiple sources and consists of 93 lung ultrasound videos and 10,774 processed images of patients infected with SARS-CoV-2 pneumonia, non-SARS-CoV-2 pneumonia, as well as healthy control cases. The dataset was systematically processed and validated specifically for the purpose of building and evaluating artificial intelligence algorithms and models.
翻訳日:2021-03-20 04:34:11 公開日:2021-03-18
# (参考訳) ジオサイエンス問題に対するニューラルネットワークの帰属法--新しい合成ベンチマークデータセット

Neural Network Attribution Methods for Problems in Geoscience: A Novel Synthetic Benchmark Dataset ( http://arxiv.org/abs/2103.10005v1 )

ライセンス: CC BY 4.0
Antonios Mamalakis, Imme Ebert-Uphoff and Elizabeth A. Barnes(参考訳) ニューラルネットワークの地球科学における多くの問題への応用がますます成功したにもかかわらず、その複雑で非線形な構造は、彼らの予測の解釈を困難にしている。 ネットワークの予測を入力領域の特定の特徴に関連付けることを目的とした、説明可能な人工知能(xai)の新興分野において、多くの異なる手法が導入されている。 XAIメソッドは通常、ベンチマークデータセット(画像分類のMNISTやImageNetなど)や削除/挿入技術によって評価される。 しかしいずれの場合も、帰属に対する客観的、理論的に派生した根拠真理は欠落しており、多くの場合、XAIの評価は主観的である。 また、地理科学における問題のためのベンチマークデータセットもまれである。 本稿では,帰納的帰属問題に対する帰属ベンチマークデータセットを生成するために,帰属的分別関数を用いた枠組みを提案する。 長いベンチマークデータセットを生成し、完全に接続されたネットワークをトレーニングし、シミュレーションに使用された基礎関数を学習します。 次に,異なるXAI手法から得られた推定帰属ヒートマップと基底真理を比較して,特定のXAI手法が良好に機能する事例を同定する。 ここで紹介される属性ベンチマークは、地学におけるニューラルネットワークのさらなる応用や、モデルの信頼性を高め、新しい科学の発見を支援するXAI手法の正確な実装において非常に重要であると信じている。

Despite the increasingly successful application of neural networks to many problems in the geosciences, their complex and nonlinear structure makes the interpretation of their predictions difficult, which limits model trust and does not allow scientists to gain physical insights about the problem at hand. Many different methods have been introduced in the emerging field of eXplainable Artificial Intelligence (XAI), which aim at attributing the network's prediction to specific features in the input domain. XAI methods are usually assessed by using benchmark datasets (like MNIST or ImageNet for image classification), or through deletion/insertion techniques. In either case, however, an objective, theoretically-derived ground truth for the attribution is lacking, making the assessment of XAI in many cases subjective. Also, benchmark datasets for problems in geosciences are rare. Here, we provide a framework, based on the use of additively separable functions, to generate attribution benchmark datasets for regression problems for which the ground truth of the attribution is known a priori. We generate a long benchmark dataset and train a fully-connected network to learn the underlying function that was used for simulation. We then compare estimated attribution heatmaps from different XAI methods to the ground truth in order to identify examples where specific XAI methods perform well or poorly. We believe that attribution benchmarks as the ones introduced herein are of great importance for further application of neural networks in the geosciences, and for accurate implementation of XAI methods, which will increase model trust and assist in discovering new science.
翻訳日:2021-03-20 04:08:50 公開日:2021-03-18
# (参考訳) 動的環境に対する位置認識のための識別的・意味的特徴選択

Discriminative and Semantic Feature Selection for Place Recognition towards Dynamic Environments ( http://arxiv.org/abs/2103.10023v1 )

ライセンス: CC BY-SA 4.0
Yuxin Tian, Jinyu MIao, Xingming Wu, Haosong Yue, Zhong Liu, Weihai Chen(参考訳) 様々な視覚的タスク、特に知覚変化環境に適用される視覚的位置認識において、特徴は重要な役割を果たす。 本稿では,DSFeatと呼ばれる識別的・意味的特徴選択ネットワークを提案することにより,動的・不整合パターンによる位置認識の課題に対処する。 セマンティクス情報とアテンション機構の両方によって監視され、特徴が抽出された静的かつ安定な領域の確率を示す特徴の画素単位での安定性を推定し、動的干渉に影響を受けず、正しくマッチングできる特徴を選択することができる。 デザインされた特徴選択モデルは、様々な外観と視点を持つ複数の公開データセットにおいて、位置認識とSLAMシステムで評価される。 実験の結果,提案手法の有効性が示唆された。 私たちの提案は、機能ベースのSLAMシステムに簡単にプラグインできることに注意してください。

Features play an important role in various visual tasks, especially in visual place recognition applied in perceptual changing environments. In this paper, we address the challenges of place recognition due to dynamics and confusable patterns by proposing a discriminative and semantic feature selection network, dubbed as DSFeat. Supervised by both semantic information and attention mechanism, we can estimate pixel-wise stability of features, indicating the probability of a static and stable region from which features are extracted, and then select features that are insensitive to dynamic interference and distinguishable to be correctly matched. The designed feature selection model is evaluated in place recognition and SLAM system in several public datasets with varying appearances and viewpoints. Experimental results conclude that the effectiveness of the proposed method. It should be noticed that our proposal can be readily pluggable into any feature-based SLAM system.
翻訳日:2021-03-20 03:51:21 公開日:2021-03-18
# (参考訳) Gated Multi-Level Attention and Temporal Adversarial Training を用いた映像理解のためのエンハンストランス

Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training ( http://arxiv.org/abs/2103.10043v1 )

ライセンス: CC BY 4.0
Saurabh Sahu and Palash Goyal(参考訳) Transformerモデルの導入は、特にテキスト領域におけるシーケンスモデリングの大幅な進歩につながった。 しかし、ビデオ理解のための注意に基づくモデルの使用は、いまだに未定である。 本稿では,GAT(Gated Adversarial Transformer)を導入し,映像への注目モデルの適用性を高める。 gatはマルチレベルアテンションゲートを使用して、ローカルおよびグローバルコンテキストに基づいたフレームの関連性をモデル化する。 これにより、モデルは様々な粒度でビデオを理解することができる。 さらに、GATはモデル一般化を改善するために敵の訓練を使用する。 本稿では,注意モジュールのロバスト性を改善するための時間的注意正規化手法を提案する。 本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。 さらに, 量的, 質的分析とともにアブレーション研究を行い, その改善を示す。

The introduction of Transformer model has led to tremendous advancements in sequence modeling, especially in text domain. However, the use of attention-based models for video understanding is still relatively unexplored. In this paper, we introduce Gated Adversarial Transformer (GAT) to enhance the applicability of attention-based models to videos. GAT uses a multi-level attention gate to model the relevance of a frame based on local and global contexts. This enables the model to understand the video at various granularities. Further, GAT uses adversarial training to improve model generalization. We propose temporal attention regularization scheme to improve the robustness of attention modules to adversarial examples. We illustrate the performance of GAT on the large-scale YoutTube-8M data set on the task of video categorization. We further show ablation studies along with quantitative and qualitative analysis to showcase the improvement.
翻訳日:2021-03-20 03:31:44 公開日:2021-03-18
# (参考訳) 知識蒸留における類似性伝達

Similarity Transfer for Knowledge Distillation ( http://arxiv.org/abs/2103.10047v1 )

ライセンス: CC BY 4.0
Haoran Zhao, Kun Gong, Xin Sun, Junyu Dong and Hui Yu(参考訳) 知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。 既存のアプローチのほとんどは、教師モデルが提供するインスタンスレベルのカテゴリ間の類似性情報を利用することで、学生モデルを強化する。 しかし、これらの研究は信頼度予測において重要な役割を果たす異なるインスタンス間の類似性相関を無視している。 本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達(stkd)と呼ばれる新しい手法を提案する。 さらに,重み付き線形補間により仮想サンプルを生成するmixup手法により,異なるインスタンス間の類似度相関をよりよく捉えることを提案する。 なお, 蒸留損失は混合ラベルによる不正確なクラス類似性を十分に活用できる。 提案手法は,複数の画像から作成した仮想サンプルが教師と生徒のネットワークで同様の確率分布を生成するため,学生モデルの性能を高める。 CIFAR-10,CIFAR-100,CINIC-10,Tiny-ImageNetなどの公開分類データセットの実験とアブレーション実験により,この軽量化により,コンパクトな学生モデルの性能が向上することが確認された。 その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。

Knowledge distillation is a popular paradigm for learning portable neural networks by transferring the knowledge from a large model into a smaller one. Most existing approaches enhance the student model by utilizing the similarity information between the categories of instance level provided by the teacher model. However, these works ignore the similarity correlation between different instances that plays an important role in confidence prediction. To tackle this issue, we propose a novel method in this paper, called similarity transfer for knowledge distillation (STKD), which aims to fully utilize the similarities between categories of multiple samples. Furthermore, we propose to better capture the similarity correlation between different instances by the mixup technique, which creates virtual samples by a weighted linear interpolation. Note that, our distillation loss can fully utilize the incorrect classes similarities by the mixed labels. The proposed approach promotes the performance of student model as the virtual sample created by multiple images produces a similar probability distribution in the teacher and student networks. Experiments and ablation studies on several public classification datasets including CIFAR-10,CIFAR-100,CINIC-10 and Tiny-ImageNet verify that this light-weight method can effectively boost the performance of the compact student model. It shows that STKD substantially has outperformed the vanilla knowledge distillation and has achieved superior accuracy over the state-of-the-art knowledge distillation methods.
翻訳日:2021-03-20 03:16:02 公開日:2021-03-18
# (参考訳) 容積データに基づく時空間作物分類

Spatio-temporal Crop Classification On Volumetric Data ( http://arxiv.org/abs/2103.10050v1 )

ライセンス: CC BY 4.0
Muhammad Usman Qadeer, Salar Saeed, Murtaza Taj and Abubakr Muhammad(参考訳) 多スペクトル画像を用いた大規模作物分類は数十年にわたって広く研究されてきた問題であり、一般的には古典的ランダム林分分類器を用いて取り組まれている。 近年,深層畳み込みニューラルネットワーク(DCNN)が提案されている。 しかし、これらの手法はランダムフォレストに匹敵する結果しか得られなかった。 本研究では,大規模作物分類のための新しいCNNアーキテクチャを提案する。 本手法は3次元CNNによる時空間解析と1次元CNNによる時空間解析を併用する。 我々は,ヨーロ市とインペリアル郡ベンチマークデータセットに対するアプローチの有効性を評価した。 本手法は,最小パラメータ数と最小推論時間を維持しつつ,分類精度を2%向上させるため,古典的手法と最近のDCNN法の両方に優れる。

Large-area crop classification using multi-spectral imagery is a widely studied problem for several decades and is generally addressed using classical Random Forest classifier. Recently, deep convolutional neural networks (DCNN) have been proposed. However, these methods only achieved results comparable with Random Forest. In this work, we present a novel CNN based architecture for large-area crop classification. Our methodology combines both spatio-temporal analysis via 3D CNN as well as temporal analysis via 1D CNN. We evaluated the efficacy of our approach on Yolo and Imperial county benchmark datasets. Our combined strategy outperforms both classical as well as recent DCNN based methods in terms of classification accuracy by 2% while maintaining a minimum number of parameters and the lowest inference time.
翻訳日:2021-03-20 02:54:06 公開日:2021-03-18
# (参考訳) Dual-Modal Localizationによる高性能ビジュアルトラッキング

Higher Performance Visual Tracking with Dual-Modal Localization ( http://arxiv.org/abs/2103.10089v1 )

ライセンス: CC BY 4.0
Jinghao Zhou, Bo Li, Lei Qiao, Peng Wang, Weihao Gan, Wei Wu, Junjie Yan, Wanli Ouyang(参考訳) Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。 既存の作業の多くは同時に動作しないが,本研究では,精度と堅牢性の相反する性能の問題について検討する。 まず,既存の手法の系統的比較を行い,その制約を正確性と頑健性の観点から分析する。 具体的には、4つの定式化-オフライン分類(OFC)、オフライン回帰(OFR)、オンライン分類(ONC)、オンライン回帰(ONR)をオンライン更新と監視信号の種類によって分類する。 そこで,本研究では,onrによる発散を抑制するロバストな位置決めと,ofcを介するターゲットセンタへの正確な位置決めからなる,ターゲット位置決めのための2モードフレームワークを提案する。 最終的な表現(つまり境界ボックス)を得るために,最終的な表現が単一場所にコミットしないような隣接予測を含む,単純かつ効果的なスコア投票戦略を提案する。 VOT2018, VOT2019, OTB2015, NFS, UAV123, LaSOT, TrackingNet, GOT-10kの8つのデータセットに対して,提案手法をさらに検証し, 最先端性能を実現する。

Visual Object Tracking (VOT) has synchronous needs for both robustness and accuracy. While most existing works fail to operate simultaneously on both, we investigate in this work the problem of conflicting performance between accuracy and robustness. We first conduct a systematic comparison among existing methods and analyze their restrictions in terms of accuracy and robustness. Specifically, 4 formulations-offline classification (OFC), offline regression (OFR), online classification (ONC), and online regression (ONR)-are considered, categorized by the existence of online update and the types of supervision signal. To account for the problem, we resort to the idea of ensemble and propose a dual-modal framework for target localization, consisting of robust localization suppressing distractors via ONR and the accurate localization attending to the target center precisely via OFC. To yield a final representation (i.e, bounding box), we propose a simple but effective score voting strategy to involve adjacent predictions such that the final representation does not commit to a single location. Operating beyond the real-time demand, our proposed method is further validated on 8 datasets-VOT2018, VOT2019, OTB2015, NFS, UAV123, LaSOT, TrackingNet, and GOT-10k, achieving state-of-the-art performance.
翻訳日:2021-03-20 02:45:56 公開日:2021-03-18
# (参考訳) どちらにマッチするか? 歩行者検出のための一貫性GT-Proposal Assignmentの選択

Which to Match? Selecting Consistent GT-Proposal Assignment for Pedestrian Detection ( http://arxiv.org/abs/2103.10091v1 )

ライセンス: CC BY 4.0
Yan Luo, Chongyang Zhang, Muming Zhao, Hao Zhou, Jun Sun(参考訳) 歩行者の正確な分類とローカライゼーションは、セキュリティ監視や自動運転などの幅広い応用により、多くの注目を集めている。 歩行者探知機は近年大きな進歩を遂げているが、IoU(IoU)をベースとした固定されたインターセクションは依然として性能を制限している。 Two main factors are responsible for this: 1) the IoU threshold faces a dilemma that a lower one will result in more false positives, while a higher one will filter out the matched positives; 2) the IoU-based GT-Proposal assignment suffers from the inconsistent supervision problem that spatially adjacent proposals with similar features are assigned to different ground-truth boxes, which means some very similar proposals may be forced to regress towards different targets, and thus confuses the bounding-box regression when predicting the location results. 本稿では,まず,歩行者検出の性能に影響を及ぼす<textbf{regression direction}>という疑問を提起する。 その結果,新しい代入・回帰指標として,幾何感度探索アルゴリズムを導入することで,IoUの弱点に対処する。 提案手法は,従来のIoUベースである1つの提案を1つの基本トラスボックスに割り当てる方法とは異なり,提案手法は提案セットと接地トラスボックスとの合理的なマッチングを求める。 具体的には、CitypersonsデータセットでR$_{75}$8.8\%のMR-FPPIを向上する。 さらに, この手法を, 最先端の歩行者検知器にメートル法として組み込むことにより, 一貫した改善を示す。

Accurate pedestrian classification and localization have received considerable attention due to their wide applications such as security monitoring, autonomous driving, etc. Although pedestrian detectors have made great progress in recent years, the fixed Intersection over Union (IoU) based assignment-regression manner still limits their performance. Two main factors are responsible for this: 1) the IoU threshold faces a dilemma that a lower one will result in more false positives, while a higher one will filter out the matched positives; 2) the IoU-based GT-Proposal assignment suffers from the inconsistent supervision problem that spatially adjacent proposals with similar features are assigned to different ground-truth boxes, which means some very similar proposals may be forced to regress towards different targets, and thus confuses the bounding-box regression when predicting the location results. In this paper, we first put forward the question that \textbf{Regression Direction} would affect the performance for pedestrian detection. Consequently, we address the weakness of IoU by introducing one geometric sensitive search algorithm as a new assignment and regression metric. Different from the previous IoU-based \textbf{one-to-one} assignment manner of one proposal to one ground-truth box, the proposed method attempts to seek a reasonable matching between the sets of proposals and ground-truth boxes. Specifically, we boost the MR-FPPI under R$_{75}$ by 8.8\% on Citypersons dataset. Furthermore, by incorporating this method as a metric into the state-of-the-art pedestrian detectors, we show a consistent improvement.
翻訳日:2021-03-20 02:05:52 公開日:2021-03-18
# (参考訳) CNNにおけるストライドと翻訳不変性

Stride and Translation Invariance in CNNs ( http://arxiv.org/abs/2103.10097v1 )

ライセンス: CC BY 4.0
Coenraad Mouton, Johannes C. Myburgh, Marelie H. Davel(参考訳) 畳み込みニューラルネットワークは画像分類タスクの標準となっているが、これらのアーキテクチャは入力画像の翻訳に不変ではない。 この不変性の欠如は、サンプリング定理を無視したストライドと、空間的推論を欠いた完全連結層の使用によるものである。 ストライドは、局所的同質性と呼ばれる特性である隣接画素間の十分な類似性と組み合わさることから、翻訳不変性に大きく寄与することを示した。 また,この特性はデータセット特異的であり,変換不変性に必要なカーネルサイズとストライドのプーリングの関係を規定している。 さらに、カーネルサイズをプールする場合の一般化と変換不変性の間にはトレードオフが存在し、カーネルサイズが大きくなると分散性は向上するが一般化性は低下する。 最後に,グローバル平均プール,アンチエイリアス,データ拡張など,局所的均一性のレンズを通じて提案する他のソリューションの有効性について検討する。

Convolutional Neural Networks have become the standard for image classification tasks, however, these architectures are not invariant to translations of the input image. This lack of invariance is attributed to the use of stride which ignores the sampling theorem, and fully connected layers which lack spatial reasoning. We show that stride can greatly benefit translation invariance given that it is combined with sufficient similarity between neighbouring pixels, a characteristic which we refer to as local homogeneity. We also observe that this characteristic is dataset-specific and dictates the relationship between pooling kernel size and stride required for translation invariance. Furthermore we find that a trade-off exists between generalization and translation invariance in the case of pooling kernel size, as larger kernel sizes lead to better invariance but poorer generalization. Finally we explore the efficacy of other solutions proposed, namely global average pooling, anti-aliasing, and data augmentation, both empirically and through the lens of local homogeneity.
翻訳日:2021-03-20 01:48:43 公開日:2021-03-18
# (参考訳) Few-Shot Learningによるリアルタイムビジュアルオブジェクト追跡

Real-Time Visual Object Tracking via Few-Shot Learning ( http://arxiv.org/abs/2103.10130v1 )

ライセンス: CC BY 4.0
Jinghao Zhou, Bo Li, Peng Wang, Peixia Li, Weihao Gan, Wei Wu, Junjie Yan, Wanli Ouyang(参考訳) ビジュアルオブジェクト追跡(VOT)はFew-Shot Learning(FSL)の拡張タスクと見なすことができる。 FSLの概念はトラッキングにおいて新しいものではなく、以前は以前の研究で採用されていたが、その多くは特定の種類のFSLアルゴリズムに適合するように調整されており、実行速度を犠牲にする可能性がある。 本研究では,FSLアルゴリズムを多種多様なアルゴリズムで適用し,適応速度を高速化する一般化された2段階フレームワークを提案する。 第1段階はシームズ地域提案ネットワークを用いて潜在的候補を効率的に提案し、第2段階はこれらの候補を数発の分類問題に分類するタスクを再構築する。 このような粗いパイプラインに続いて、第1段では、様々なFSLアルゴリズムをより便利かつ効率的に行うことができる第2段の情報スパースサンプルを提案する。 第2段階の補足として, 目的関数, 最適化法, 解空間の異なる先行研究から, 最適化に基づく数発学習者の数形態を体系的に検討した。 さらに、このフレームワークは、他のほとんどのFSLアルゴリズムの視覚的追跡を直接適用し、これらの2つのトピックに関する研究者間の相互通信を可能にする。 主要なベンチマークであるVOT2018, OTB2015, NFS, UAV123, TrackingNet, GOT-10kに関する大規模な実験が行われ、望ましいパフォーマンス向上とリアルタイム速度が示されている。

Visual Object Tracking (VOT) can be seen as an extended task of Few-Shot Learning (FSL). While the concept of FSL is not new in tracking and has been previously applied by prior works, most of them are tailored to fit specific types of FSL algorithms and may sacrifice running speed. In this work, we propose a generalized two-stage framework that is capable of employing a large variety of FSL algorithms while presenting faster adaptation speed. The first stage uses a Siamese Regional Proposal Network to efficiently propose the potential candidates and the second stage reformulates the task of classifying these candidates to a few-shot classification problem. Following such a coarse-to-fine pipeline, the first stage proposes informative sparse samples for the second stage, where a large variety of FSL algorithms can be conducted more conveniently and efficiently. As substantiation of the second stage, we systematically investigate several forms of optimization-based few-shot learners from previous works with different objective functions, optimization methods, or solution space. Beyond that, our framework also entails a direct application of the majority of other FSL algorithms to visual tracking, enabling mutual communication between researchers on these two topics. Extensive experiments on the major benchmarks, VOT2018, OTB2015, NFS, UAV123, TrackingNet, and GOT-10k are conducted, demonstrating a desirable performance gain and a real-time speed.
翻訳日:2021-03-20 01:37:56 公開日:2021-03-18
# (参考訳) 画像のテキスト編集におけるマルチモーダル親和性学習

Learning Multimodal Affinities for Textual Editing in Images ( http://arxiv.org/abs/2103.10139v1 )

ライセンス: CC BY 4.0
Or Perel, Oron Anschel, Omri Ben-Eliezer, Shai Mazor, Hadar Averbuch-Elor(参考訳) 今日では、毎日の日常にカメラが急速に採用されているため、文書の画像は豊富で普及している。 物理的オブジェクトをキャプチャする自然画像とは異なり、文書画像は重要な意味論と複雑なレイアウトを持つ膨大な量のテキストを含んでいる。 本研究では,テキストの視覚的スタイル,基礎となるテキストの内容,画像内の幾何学的コンテキストを考慮し,文書画像中のテキストエンティティ間のマルチモーダル親和性を学習するための汎用的教師なし手法を考案する。 次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。 本手法の核心は,テキスト要素のマルチモーダル表現における信頼性の高いペアワイズ接続を検出・活用し,親和性を適切に学習する,ユーザが提供する画像のための深い最適化手法である。 本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,画像の内容,外観,形状を操作する様々な編集操作に適用可能であることを示す。

Nowadays, as cameras are rapidly adopted in our daily routine, images of documents are becoming both abundant and prevalent. Unlike natural images that capture physical objects, document-images contain a significant amount of text with critical semantics and complicated layouts. In this work, we devise a generic unsupervised technique to learn multimodal affinities between textual entities in a document-image, considering their visual style, the content of their underlying text and their geometric context within the image. We then use these learned affinities to automatically cluster the textual entities in the image into different semantic groups. The core of our approach is a deep optimization scheme dedicated for an image provided by the user that detects and leverages reliable pairwise connections in the multimodal representation of the textual elements in order to properly learn the affinities. We show that our technique can operate on highly varying images spanning a wide range of documents and demonstrate its applicability for various editing operations manipulating the content, appearance and geometry of the image.
翻訳日:2021-03-20 01:10:34 公開日:2021-03-18
# (参考訳) ディープラーニングのための高精度戦略の削減:高エネルギー物理生成逆ネットワーク利用事例

Reduced Precision Strategies for Deep Learning: A High Energy Physics Generative Adversarial Network Use Case ( http://arxiv.org/abs/2103.10142v1 )

ライセンス: CC BY 4.0
Florian Rehm, Sofia Vallecorsa, Vikram Saletore, Hans Pabst, Adel Chaibi, Valeriu Codreanu, Kerstin Borras, Dirk Kr\"ucker(参考訳) ディープラーニングは、従来のモンテカルロシミュレーションを置き換えることで、高エネルギー物理学への道を見出している。 しかし、ディープラーニングは依然として過剰な計算資源を必要とする。 ディープラーニングをより効率的にするための有望なアプローチは、ニューラルネットワークのパラメータを量子化し、精度を下げることである。 精密コンピューティングの削減は、現代のディープラーニングで広く使われ、結果として、実行時間の短縮、メモリフットプリントの削減、メモリ帯域幅の削減に繋がる。 本稿では,複雑な深層生成型逆ネットワークモデルに対する低精度推論の効果を解析する。 私たちが取り組んでいるユースケースは、加速器ベースの高エネルギー物理学におけるサブアトミック粒子相互作用のカロリメータ検出器シミュレーションです。 我々は、新しい低精度最適化ツールiLoTを用いて量子化を行い、その結果をTensorFlow Liteの量子化モデルと比較する。 パフォーマンスベンチマークでは、量子化ilotモデルのintelハードウェアでは、最初の量子化ではなく、初期モデルと比較して、133倍のスピードアップが得られます。 物理にインスパイアされた様々な自己発達メトリクスを用いて、量子化されたiLoTモデルがTensorFlow Liteモデルと比較して物理精度の損失が低いことを検証した。

Deep learning is finding its way into high energy physics by replacing traditional Monte Carlo simulations. However, deep learning still requires an excessive amount of computational resources. A promising approach to make deep learning more efficient is to quantize the parameters of the neural networks to reduced precision. Reduced precision computing is extensively used in modern deep learning and results to lower execution inference time, smaller memory footprint and less memory bandwidth. In this paper we analyse the effects of low precision inference on a complex deep generative adversarial network model. The use case which we are addressing is calorimeter detector simulations of subatomic particle interactions in accelerator based high energy physics. We employ the novel Intel low precision optimization tool (iLoT) for quantization and compare the results to the quantized model from TensorFlow Lite. In the performance benchmark we gain a speed-up of 1.73x on Intel hardware for the quantized iLoT model compared to the initial, not quantized, model. With different physics-inspired self-developed metrics, we validate that the quantized iLoT model shows a lower loss of physical accuracy in comparison to the TensorFlow Lite model.
翻訳日:2021-03-20 00:45:11 公開日:2021-03-18
# (参考訳) ビットバック符号化を用いた状態空間モデルによるロスレス圧縮

Lossless compression with state space models using bits back coding ( http://arxiv.org/abs/2103.10150v1 )

ライセンス: CC0 1.0
James Townsend, Iain Murray(参考訳) 我々は'bits back with ans'法を潜在マルコフ構造を持つ時系列モデルに一般化する。 このモデル群には隠れマルコフモデル(hmms)、線形ガウス状態空間モデル(lgssms)などが含まれる。 本手法が小規模モデルに有効であることを実験的に証明し,ビデオ圧縮などの大規模設定への適用性について考察した。

We generalize the 'bits back with ANS' method to time-series models with a latent Markov structure. This family of models includes hidden Markov models (HMMs), linear Gaussian state space models (LGSSMs) and many more. We provide experimental evidence that our method is effective for small scale models, and discuss its applicability to larger scale settings such as video compression.
翻訳日:2021-03-20 00:34:56 公開日:2021-03-18
# (参考訳) 効率的なプロトタイプ選択のための最適輸送枠組み

Optimal transport framework for efficient prototype selection ( http://arxiv.org/abs/2103.10159v1 )

ライセンス: CC BY 4.0
Karthik S. Gurumoorthy and Pratik Jawanpuria and Bamdev Mishra(参考訳) 代表例によるデータの要約は、学習モデルと基礎となるデータ分布が意思決定に不可欠である、いくつかの機械学習アプリケーションにおいて重要な問題である。 本研究では,与えられた対象データセットを最もよく表現する有益なプロトタイプ例を選択するための最適なトランスポート(ot)ベースのフレームワークを開発した。 対象分布から最小OT距離を有するスパース(経験的)確率分布の学習として,プロトタイプ選択問題をモデル化する。 選択したプロトタイプで支持される学習確率尺度は、ターゲットデータの表現と要約の重要性と直接対応している。 目的関数は部分モジュラリティの重要な特性を享受し、計算速度と決定論的近似保証を持つ並列化可能なグリーディ法を提案する。 いくつかの実世界のベンチマークの結果は、我々のアプローチの有効性を示しています。

Summarizing data via representative examples is an important problem in several machine learning applications where human understanding of the learning models and underlying data distribution is essential for decision making. In this work, we develop an optimal transport (OT) based framework to select informative prototypical examples that best represent a given target dataset. We model the prototype selection problem as learning a sparse (empirical) probability distribution having minimum OT distance from the target distribution. The learned probability measure supported on the chosen prototypes directly corresponds to their importance in representing and summarizing the target data. We show that our objective function enjoys a key property of submodularity and propose a parallelizable greedy method that is both computationally fast and possess deterministic approximation guarantees. Empirical results on several real world benchmarks illustrate the efficacy of our approach.
翻訳日:2021-03-20 00:28:27 公開日:2021-03-18
# (参考訳) 医療画像セグメンテーションのための位置感応型局所プロトタイプネットワーク

A Location-Sensitive Local Prototype Network for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2103.10178v1 )

ライセンス: CC BY 4.0
Qinji Yu, Kang Dang, Nima Tajbakhsh, Demetri Terzopoulos, Xiaowei Ding(参考訳) 医用画像のセグメンテーションにおけるディープニューラルネットワークの膨大な成功にもかかわらず、それらは通常、高価な専門家レベルの注釈付きデータを必要とする。 少ないショットセグメンテーションアプローチは、ラベル付きサンプルの限られた量から知識を伝達することを学ぶことでこの問題に対処する。 適切な事前知識を組み込むことは、高性能な数ショットセグメンテーションアルゴリズムの設計において重要である。 強い空間的プリミティブは医用画像に多く存在するため,空間的プリミティブを活用し,少数の医用画像セグメンテーションを行うプロトタイプベースの手法,すなわち位置感応型ローカルプロトタイプネットワークを提案する。 本手法では,画像全体をグローバルプロトタイプで分割する難易度を,ローカルプロトタイプを用いた局所領域分割の解解可能な部分問題に分割する。 内臓ct画像データセットを用いた臓器セグメンテーション実験では,平均ダイス係数で10%の精度で最先端アプローチを上回った。 広汎なアブレーション研究は,空間情報を取り入れることによる大きなメリットを示し,本手法の有効性を確認した。

Despite the tremendous success of deep neural networks in medical image segmentation, they typically require a large amount of costly, expert-level annotated data. Few-shot segmentation approaches address this issue by learning to transfer knowledge from limited quantities of labeled examples. Incorporating appropriate prior knowledge is critical in designing high-performance few-shot segmentation algorithms. Since strong spatial priors exist in many medical imaging modalities, we propose a prototype-based method -- namely, the location-sensitive local prototype network -- that leverages spatial priors to perform few-shot medical image segmentation. Our approach divides the difficult problem of segmenting the entire image with global prototypes into easily solvable subproblems of local region segmentation with local prototypes. For organ segmentation experiments on the VISCERAL CT image dataset, our method outperforms the state-of-the-art approaches by 10% in the mean Dice coefficient. Extensive ablation studies demonstrate the substantial benefits of incorporating spatial information and confirm the effectiveness of our approach.
翻訳日:2021-03-20 00:05:04 公開日:2021-03-18
# (参考訳) OmniPose: マルチパーソンポース推定のためのマルチスケールフレームワーク

OmniPose: A Multi-Scale Framework for Multi-Person Pose Estimation ( http://arxiv.org/abs/2103.10180v1 )

ライセンス: CC BY 4.0
Bruno Artacho and Andreas Savakis(参考訳) 提案するOmniPoseは,複数対人ポーズ推定のための最先端の学習結果を実現する,ワンパスでエンドツーエンドのトレーニング可能なフレームワークである。 新たなウォーターフォールモジュールを使用すると、omniposeアーキテクチャは、ポストプロセッシングを必要とせずに、バックボーン機能抽出器の有効性を高めるマルチスケールの機能表現を利用する。 OmniPoseは、マルチスケールの特徴抽出器において、スケールにわたるコンテキスト情報とガウス熱マップ変調との結合位置を組み込んで、最先端の精度で人間のポーズを推定する。 OmniPoseで改良されたウォーターフォールモジュールによって得られたマルチスケール表現は、空間ピラミッド構成に匹敵するマルチスケールフィールドを維持しながら、カスケードアーキテクチャにおけるプログレッシブフィルタリングの効率を活用している。 HRNetのバックボーンとウォーターフォールモジュールを改良したOmniPoseは、複数の人物のポーズ推定のための堅牢で効率的なアーキテクチャであり、最先端の結果が得られることを示す。

We propose OmniPose, a single-pass, end-to-end trainable framework, that achieves state-of-the-art results for multi-person pose estimation. Using a novel waterfall module, the OmniPose architecture leverages multi-scale feature representations that increase the effectiveness of backbone feature extractors, without the need for post-processing. OmniPose incorporates contextual information across scales and joint localization with Gaussian heatmap modulation at the multi-scale feature extractor to estimate human pose with state-of-the-art accuracy. The multi-scale representations, obtained by the improved waterfall module in OmniPose, leverage the efficiency of progressive filtering in the cascade architecture, while maintaining multi-scale fields-of-view comparable to spatial pyramid configurations. Our results on multiple datasets demonstrate that OmniPose, with an improved HRNet backbone and waterfall module, is a robust and efficient architecture for multi-person pose estimation that achieves state-of-the-art results.
翻訳日:2021-03-19 23:55:26 公開日:2021-03-18
# (参考訳) 空間時間グラフのデカップリングによる視覚的接地

Decoupled Spatial Temporal Graphs for Generic Visual Grounding ( http://arxiv.org/abs/2103.10191v1 )

ライセンス: CC BY 4.0
Qianyu Feng, Yunchao Wei, Mingming Cheng, Yi Yang(参考訳) 視覚的接地は、その多様性と複雑さのために視覚言語理解において長く続く問題である。 現在のプラクティスは、静止画や精巧なビデオクリップで視覚的な接地を実行することに集中しています。 一方、本研究は、与えられた表現を満足するすべてのオブジェクトをマイニングすることを目的として、より一般的な設定である汎用的な視覚グラウンディングを調査します。 重要なことは、目標を空間と時間の両方で正確にローカライズすることが期待されている。 一方、外観と動きの特徴をトレードオフさせることは難しい。 実際のシナリオでは、モデルが類似した属性で注意をそらすことに失敗する傾向がある。 そこで我々は,1) 空間的, 時間的表現を分解して, 正確な接地のために全側面の手がかりを抽出すること, 2) トラスト的学習経路戦略により, 邪魔者からの識別性と時間的一貫性を高めることを提案する。 さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。 実証実験は、Charades-STA、ActivityNet-Caption、GVGデータセットの最先端よりもDSTGの方が優れていることを示している。 コードとデータセットが利用可能になる。

Visual grounding is a long-lasting problem in vision-language understanding due to its diversity and complexity. Current practices concentrate mostly on performing visual grounding in still images or well-trimmed video clips. This work, on the other hand, investigates into a more general setting, generic visual grounding, aiming to mine all the objects satisfying the given expression, which is more challenging yet practical in real-world scenarios. Importantly, grounding results are expected to accurately localize targets in both space and time. Whereas, it is tricky to make trade-offs between the appearance and motion features. In real scenarios, model tends to fail in distinguishing distractors with similar attributes. Motivated by these considerations, we propose a simple yet effective approach, named DSTG, which commits to 1) decomposing the spatial and temporal representations to collect all-sided cues for precise grounding; 2) enhancing the discriminativeness from distractors and the temporal consistency with a contrastive learning routing strategy. We further elaborate a new video dataset, GVG, that consists of challenging referring cases with far-ranging videos. Empirical experiments well demonstrate the superiority of DSTG over state-of-the-art on Charades-STA, ActivityNet-Caption and GVG datasets. Code and dataset will be made available.
翻訳日:2021-03-19 23:40:45 公開日:2021-03-18
# (参考訳) Let-Mi: アラビア語のレバントTwitterデータセット

Let-Mi: An Arabic Levantine Twitter Dataset for Misogynistic Language ( http://arxiv.org/abs/2103.10195v1 )

ライセンス: CC BY 4.0
Hala Mulki, Bilal Ghanem(参考訳) オンライン・ミソジニーは、ジェンダーベースのオンライン虐待を毎日経験するアラブ女性にとって、ますます心配になっている。 ミソジニー自動検出システムは、反女性アラビアの有害な内容の禁止に役立てることができる。 このようなシステムの開発は、アラビア語のmisogynyベンチマークデータセットの欠如によって妨げられている。 本稿では,アラビア語のミソジニーのための最初のベンチマークデータセットである,ミソジニズム言語のためのアラビア語レバンチンtwitterデータセット(let-mi)について紹介する。 さらに,データセット作成とアノテーションフェーズの詳細なレビューを行う。 提案したデータセットに対するアノテーションの整合性は,合意間評価によって強調された。 さらに、let-miは、複数の最先端機械学習システムとマルチタスク学習(mtl)構成によって実行されるバイナリ/マルチマルチ/ターゲット分類タスクを通じて評価データセットとして使用された。 その結果,使用済みシステムによる性能はアラビア語以外の言語に対する最先端の結果と一致し,MTLを用いることで誤用/ターゲット分類タスクの性能が向上した。

Online misogyny has become an increasing worry for Arab women who experience gender-based online abuse on a daily basis. Misogyny automatic detection systems can assist in the prohibition of anti-women Arabic toxic content. Developing such systems is hindered by the lack of the Arabic misogyny benchmark datasets. In this paper, we introduce an Arabic Levantine Twitter dataset for Misogynistic language (LeT-Mi) to be the first benchmark dataset for Arabic misogyny. We further provide a detailed review of the dataset creation and annotation phases. The consistency of the annotations for the proposed dataset was emphasized through inter-rater agreement evaluation measures. Moreover, Let-Mi was used as an evaluation dataset through binary/multi-/target classification tasks conducted by several state-of-the-art machine learning systems along with Multi-Task Learning (MTL) configuration. The obtained results indicated that the performances achieved by the used systems are consistent with state-of-the-art results for languages other than Arabic, while employing MTL improved the performance of the misogyny/target classification tasks.
翻訳日:2021-03-19 23:23:14 公開日:2021-03-18
# (参考訳) 系統分類学

Phylogenetic typology ( http://arxiv.org/abs/2103.10198v1 )

ライセンス: CC BY 4.0
Gerhard J\"ager and Johannes Wahle(参考訳) 本稿では,共通祖先による統計的非独立性を制御しながら,言語変数の頻度分布を推定する新しい手法を提案する。 従来の手法と異なり,本手法では,大規模かつ小規模の言語群から分離した言語群まで,データから推定される連続的なスケールで異なる関連度を制御しながら,すべての利用可能なデータを使用する。 まず、系統の分布は語彙データから推測される。 第二に、これらの系統はパラメータ状態間の遷移率を統計的に推定する統計モデルの一部として用いられる。 最後に、結果のマルコフ過程の長期平衡が計算される。 ケーススタディとして、世界中の言語にまたがる潜在的な単語順序相関について検討する。

In this article we propose a novel method to estimate the frequency distribution of linguistic variables while controlling for statistical non-independence due to shared ancestry. Unlike previous approaches, our technique uses all available data, from language families large and small as well as from isolates, while controlling for different degrees of relatedness on a continuous scale estimated from the data. Our approach involves three steps: First, distributions of phylogenies are inferred from lexical data. Second, these phylogenies are used as part of a statistical model to statistically estimate transition rates between parameter states. Finally, the long-term equilibrium of the resulting Markov process is computed. As a case study, we investigate a series of potential word-order correlations across the languages of the world.
翻訳日:2021-03-19 22:48:27 公開日:2021-03-18
# (参考訳) DanceNet3D:パラメトリックモーショントランスを用いた音楽ベースダンス生成

DanceNet3D: Music Based Dance Generation with Parametric Motion Transformer ( http://arxiv.org/abs/2103.10206v1 )

ライセンス: CC BY 4.0
Buyu Li, Yongchi Zhao, Lu Sheng(参考訳) 本研究では,音楽全体から鮮やかなダンスを生成できる新しい深層学習フレームワークを提案する。 課題を運動状態パラメータのフレーム生成と定義した先行研究とは対照的に,この課題を,アニメーション産業の実践に触発された,キーポーズ間の動き曲線の予測として定式化する。 提案したフレームワークはDanceNet3Dと呼ばれ、まず与えられた音楽のビートにキーポーズを生成し、その間の動き曲線を予測する。 DanceNet3Dは、エンコーダ・デコーダアーキテクチャと、トレーニングのための敵のスキームを採用している。 DanceNet3Dのデコーダはモーション生成に適した変換器であるMoTrans上に構築されている。 MoTransでは,キネマティック・チェーン・ネットワークによるキネマティック・相関を導入し,人間の動作の時間的局所的相関を考慮に入れた学習的局所注意モジュールを提案する。 さらに,プロのアニマティエータが生成した最初の大規模ダンスデータセットであるPhantomDanceを提案する。 広範囲にわたる実験により、提案手法は、能動的、エレガント、パフォーマンス、ビート同期の3dダンスを生成できることが示されている。

In this work, we propose a novel deep learning framework that can generate a vivid dance from a whole piece of music. In contrast to previous works that define the problem as generation of frames of motion state parameters, we formulate the task as a prediction of motion curves between key poses, which is inspired by the animation industry practice. The proposed framework, named DanceNet3D, first generates key poses on beats of the given music and then predicts the in-between motion curves. DanceNet3D adopts the encoder-decoder architecture and the adversarial schemes for training. The decoders in DanceNet3D are constructed on MoTrans, a transformer tailored for motion generation. In MoTrans we introduce the kinematic correlation by the Kinematic Chain Networks, and we also propose the Learned Local Attention module to take the temporal local correlation of human motion into consideration. Furthermore, we propose PhantomDance, the first large-scale dance dataset produced by professional animatiors, with accurate synchronization with music. Extensive experiments demonstrate that the proposed approach can generate fluent, elegant, performative and beat-synchronized 3D dances, which significantly surpasses previous works quantitatively and qualitatively.
翻訳日:2021-03-19 22:47:18 公開日:2021-03-18
# (参考訳) space-time crop & attend: improve cross-modal video representation learning

Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning ( http://arxiv.org/abs/2103.10211v1 )

ライセンス: CC BY 4.0
Mandela Patrick, Yuki M. Asano, Bernie Huang, Ishan Misra, Florian Metze, Joao Henriques, Andrea Vedaldi(参考訳) 自己教師付き学習から得られた画像表現の品質は、学習定式化に使用されるデータ拡張の種類に大きく依存する。 近年の研究では、静止画から映像へこれらの手法を移植し、音声信号と映像信号の両方を活用することで大きな効果が得られたが、静止画にとって非常に重要な収穫などの空間的な拡張がビデオでも有効であることは見つからなかった。 本稿では,ビデオの時空間的側面に特有の2つの方法でこれらの定式化を改善する。 まず,空間的にも,収穫などの空間的拡張がビデオにも有効であることを示すが,従来の実装では,高い処理量とメモリコストのため,十分に動作するスケールでは実現できなかった。 この問題に対処するため,我々はまず,機能空間においてより効率的に機能拡張をシミュレートする手法である feature crop を導入する。 第2に, 単純平均プールとは対照的に, トランスフォーマーによる注意力の利用により性能が向上し, 特徴作物の処理に適していることを示す。 2つの発見を新しい方法、space-time crop & attend(stica)に組み合わせることで、複数のビデオ表現学習ベンチマークで最先端のパフォーマンスを実現します。 特に, hmdb-51 の67.0%, ucf-101 の93.1%という新たな精度を達成する。

The quality of the image representations obtained from self-supervised learning depends strongly on the type of data augmentations used in the learning formulation. Recent papers have ported these methods from still images to videos and found that leveraging both audio and video signals yields strong gains; however, they did not find that spatial augmentations such as cropping, which are very important for still images, work as well for videos. In this paper, we improve these formulations in two ways unique to the spatio-temporal aspect of videos. First, for space, we show that spatial augmentations such as cropping do work well for videos too, but that previous implementations, due to the high processing and memory cost, could not do this at a scale sufficient for it to work well. To address this issue, we first introduce Feature Crop, a method to simulate such augmentations much more efficiently directly in feature space. Second, we show that as opposed to naive average pooling, the use of transformer-based attention improves performance significantly, and is well suited for processing feature crops. Combining both of our discoveries into a new method, Space-time Crop & Attend (STiCA) we achieve state-of-the-art performance across multiple video-representation learning benchmarks. In particular, we achieve new state-of-the-art accuracies of 67.0% on HMDB-51 and 93.1% on UCF-101 when pre-training on Kinetics-400.
翻訳日:2021-03-19 22:33:02 公開日:2021-03-18
# (参考訳) ICDAR2019 Conference on Scanned Receipt OCR and Information extract

ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction ( http://arxiv.org/abs/2103.10213v1 )

ライセンス: CC BY 4.0
Zheng Huang, Kai Chen, Jianhua He, Xiang Bai, Dimosthenis Karatzas, Shjian Lu, and C.V. Jawahar(参考訳) スキャンされたレシートOCRおよびキー情報抽出(SROIE)は、スキャンされたレシートからテキストを認識し、それらからキーテキストを抽出し、抽出したテストを構造化文書に保存する過程を表す。 SROIEは多くの文書分析アプリケーションにおいて重要な役割を担い、大きな商業的可能性を持っているが、この分野での研究成果や進歩はほとんど発表されていない。 SROIEの技術的課題、重要性、巨大な商業的可能性を認識して、私たちはSROIEに関するICDAR 2019コンペティションを開催しました。 本大会では,Scanned Receipt Text Localisation(Task1),Scanned Receipt OCR(Task2),Key Information extract from Scanned Receipts(Task3)という3つのタスクを設定した。 コンペティションのために、1000個のレシートイメージとアノテーションをスキャンした新しいデータセットが作成されている。 本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。

Scanned receipts OCR and key information extraction (SROIE) represent the processeses of recognizing text from scanned receipts and extracting key texts from them and save the extracted tests to structured documents. SROIE plays critical roles for many document analysis applications and holds great commercial potentials, but very little research works and advances have been published in this area. In recognition of the technical challenges, importance and huge commercial potentials of SROIE, we organized the ICDAR 2019 competition on SROIE. In this competition, we set up three tasks, namely, Scanned Receipt Text Localisation (Task 1), Scanned Receipt OCR (Task 2) and Key Information Extraction from Scanned Receipts (Task 3). A new dataset with 1000 whole scanned receipt images and annotations is created for the competition. In this report we will presents the motivation, competition datasets, task definition, evaluation protocol, submission statistics, performance of submitted methods and results analysis.
翻訳日:2021-03-19 22:05:41 公開日:2021-03-18
# (参考訳) 異なる有価な説明を伴うトリビアル・カウンタリファクト・エクスプメンテーションを超えて

Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations ( http://arxiv.org/abs/2103.10226v1 )

ライセンス: CC BY 4.0
Pau Rodriguez, Massimo Caccia, Alexandre Lacoste, Lee Zamparo, Issam Laradji, Laurent Charlin, David Vazquez(参考訳) より信頼性の高い機械学習システムをデプロイすることの重要性から、機械学習モデルの説明可能性に大きな注目を集めています。 コンピュータビジョンの応用において、生成的反ファクト法はモデルの入力を摂動して予測を変更する方法を示し、モデルの意思決定の詳細を提供する。 現在のカウンターファクト法は、モデルとデータの複数のバイアスをモデルの決定の単一の逆ファクト解釈で組み合わせることで曖昧な解釈を行う。 さらに、これらの手法は、分類される属性の存在を誇張するか取り除くことをしばしば提案するので、モデルの決定に関する自明な反事実を生み出す傾向がある。 機械学習の実践者にとって、これらのカウンターファクトは、望ましくないモデルやデータバイアスに関する新しい情報を提供しないので、ほとんど価値を提供しない。 本研究では,モデルの予測に関する複数の重要な説明を明らかにするために,多様性を追求する損失を用いて制約された乱れ空間の摂動を学習する反実的手法を提案する。 さらに,モデルが自明な説明を生じないようにするメカニズムを提案する。 CelebAとSynbolsの実験では,従来の最先端手法と比較して,高品質な価値説明が得られた場合の成功率の向上が示されている。 コードを公開します。

Explainability for machine learning models has gained considerable attention within our research community given the importance of deploying more reliable machine-learning systems. In computer vision applications, generative counterfactual methods indicate how to perturb a model's input to change its prediction, providing details about the model's decision-making. Current counterfactual methods make ambiguous interpretations as they combine multiple biases of the model and the data in a single counterfactual interpretation of the model's decision. Moreover, these methods tend to generate trivial counterfactuals about the model's decision, as they often suggest to exaggerate or remove the presence of the attribute being classified. For the machine learning practitioner, these types of counterfactuals offer little value, since they provide no new information about undesired model or data biases. In this work, we propose a counterfactual method that learns a perturbation in a disentangled latent space that is constrained using a diversity-enforcing loss to uncover multiple valuable explanations about the model's prediction. Further, we introduce a mechanism to prevent the model from producing trivial explanations. Experiments on CelebA and Synbols demonstrate that our model improves the success rate of producing high-quality valuable explanations when compared to previous state-of-the-art methods. We will publish the code.
翻訳日:2021-03-19 21:57:46 公開日:2021-03-18
# (参考訳) 分布的ロバスト最適化における第2プレイヤーのモデリング

Modeling the Second Player in Distributionally Robust Optimization ( http://arxiv.org/abs/2103.10282v1 )

ライセンス: CC BY 4.0
Paul Michel, Tatsunori Hashimoto, Graham Neubig(参考訳) 分散的ロバスト最適化 (distributionally robust optimization, dro) は、関連するデータ分散の集合("uncertainty set")でうまく機能する機械学習モデルをトレーニングするためのフレームワークを提供する。 これはmin-maxゲーム(英語版)を解くことで実現され、モデルは不確実集合内の全ての分布における最大損失を最小限に抑えるよう訓練される。 不確実性セットの注意深い設計はDRO手順の成功に不可欠であるが、以前の研究は、$f$-divergence ballsのようなmin-max最適化問題を正確に抽出できる比較的単純な代替案に限られていた。 本稿では,神経生成モデルを用いて最悪の症例分布を特徴付け,不確実性集合のより柔軟かつ問題特異的な選択を可能にすることを論じる。 しかし、概念的には単純だが、このアプローチは多くの実装と最適化の課題をもたらす。 これらの問題を回避すべく,大規模生成モデルの勾配に基づく最適化に対してdro問題をより緩和し,超パラメータ探索を導くモデル選択ヒューリスティックスを開発するkl制約内包最大化目標の緩和を提案する。 おもちゃの設定と現実的なNLPタスクの両方において、提案手法は同等のベースラインよりも堅牢なモデルを生成する。

Distributionally robust optimization (DRO) provides a framework for training machine learning models that are able to perform well on a collection of related data distributions (the "uncertainty set"). This is done by solving a min-max game: the model is trained to minimize its maximum expected loss among all distributions in the uncertainty set. While careful design of the uncertainty set is critical to the success of the DRO procedure, previous work has been limited to relatively simple alternatives that keep the min-max optimization problem exactly tractable, such as $f$-divergence balls. In this paper, we argue instead for the use of neural generative models to characterize the worst-case distribution, allowing for more flexible and problem-specific selection of the uncertainty set. However, while simple conceptually, this approach poses a number of implementation and optimization challenges. To circumvent these issues, we propose a relaxation of the KL-constrained inner maximization objective that makes the DRO problem more amenable to gradient-based optimization of large scale generative models, and develop model selection heuristics to guide hyper-parameter search. On both toy settings and realistic NLP tasks, we find that the proposed approach yields models that are more robust than comparable baselines.
翻訳日:2021-03-19 21:32:10 公開日:2021-03-18
# (参考訳) real-time, deep synthetic aperture sonar (sas) autofocus

Real-Time, Deep Synthetic Aperture Sonar (SAS) Autofocus ( http://arxiv.org/abs/2103.10312v1 )

ライセンス: CC BY 4.0
Isaac D. Gerg and Vishal Monga(参考訳) 合成開口ソナー(sas)は、送信/受信波形の正確な飛行時間計測を必要とする。 これらの測定における誤りが、画像のデフォーカスをもたらすことは珍しくない。 これを解決するために、画像再構成後の後処理ステップとして \emph{autofocus} アルゴリズムを用いる。 これらのアルゴリズムの特定のクラスは、シャープネス/コントラストメトリックベース最適化として構成することができる。 収束性を改善するために、画像の「悪い」領域を除去する手作りの重み付け関数を、最適化手順の前に画像アンダーテストに適用することがある。 さらに、低サイズ、重み、パワー(SWaP)システムに対する計算負荷が大きい収束には、数十のイテレーションが必要である。 本稿では,これらの制限を克服し,データ駆動方式で重み付け関数を暗黙的に学習する深層学習手法を提案する。 提案手法はDeep Autofocusと呼ばれ、SLC(Single-look-complex)の機能を用いて、$k$-spaceで適用された位相補正を推定する。 さらに、トレーニングイメージのバッチでアルゴリズムをトレーニングすることで、デプロイ中は、自動フォーカスに十分なのは1回のイテレーションのみになるようにします。 実験の結果を4つの画像シャープネス指標と比較することにより,その堅牢性を示す結果を示した。 以上の結果から,深部オートフォーカスは一般的な反復的手法よりもイメージを知覚的に優れたものにすることができるが,計算コストは低い。 深いオートフォーカスは、将来の研究の大きな可能性を持つ代替品よりも、より有利なコスト品質のトレードオフを提供できると結論づける。

Synthetic aperture sonar (SAS) requires precise time-of-flight measurements of the transmitted/received waveform to produce well-focused imagery. It is not uncommon for errors in these measurements to be present resulting in image defocusing. To overcome this, an \emph{autofocus} algorithm is employed as a post-processing step after image reconstruction to improve image focus. A particular class of these algorithms can be framed as a sharpness/contrast metric-based optimization. To improve convergence, a hand-crafted weighting function to remove "bad" areas of the image is sometimes applied to the image-under-test before the optimization procedure. Additionally, dozens of iterations are necessary for convergence which is a large compute burden for low size, weight, and power (SWaP) systems. We propose a deep learning technique to overcome these limitations and implicitly learn the weighting function in a data-driven manner. Our proposed method, which we call Deep Autofocus, uses features from the single-look-complex (SLC) to estimate the phase correction which is applied in $k$-space. Furthermore, we train our algorithm on batches of training imagery so that during deployment, only a single iteration of our method is sufficient to autofocus. We show results demonstrating the robustness of our technique by comparing our results to four commonly used image sharpness metrics. Our results demonstrate Deep Autofocus can produce imagery perceptually better than common iterative techniques but at a lower computational cost. We conclude that Deep Autofocus can provide a more favorable cost-quality trade-off than alternatives with significant potential of future research.
翻訳日:2021-03-19 21:08:12 公開日:2021-03-18
# (参考訳) 目標指向対話エージェントにおける音声認識のための言語モデルの文脈バイアス

Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents ( http://arxiv.org/abs/2103.10325v1 )

ライセンス: CC BY 4.0
Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff(参考訳) 目標指向の対話インタフェースは特定のタスクを達成するように設計されており、通常、事前に定義された構造と目標に固執する複数のターンにまたがる相互作用を持つ。 しかしながら、ASR(Automatic Speech Recognition)システムにおける従来のニューラル言語モデル(NLM)は、主に限られた文脈で訓練された文量である。 本稿では,長期依存をモデル化し,音声認識を改善するために,文脈をLSTMベースのNLMに組み込む方法について検討する。 具体的には、複数のターンにまたがってコンテキストを搬送し、自然言語理解(NLU)モデルからのシステムダイアログアクトや、チャットボットのユーザ提供構造などの語彙的コンテキストキューを使用する。 また,推測時間に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。 実験の結果, 目標指向音声データセット上での非テキストレベルのNLMレコーダよりも単語誤り率 (WER) が7%低下した。

Goal-oriented conversational interfaces are designed to accomplish specific tasks and typically have interactions that tend to span multiple turns adhering to a pre-defined structure and a goal. However, conventional neural language models (NLM) in Automatic Speech Recognition (ASR) systems are mostly trained sentence-wise with limited context. In this paper, we explore different ways to incorporate context into a LSTM based NLM in order to model long range dependencies and improve speech recognition. Specifically, we use context carry over across multiple turns and use lexical contextual cues such as system dialog act from Natural Language Understanding (NLU) models and the user provided structure of the chatbot. We also propose a new architecture that utilizes context embeddings derived from BERT on sample utterances provided during inference time. Our experiments show a word error rate (WER) relative reduction of 7% over non-contextual utterance-level NLM rescorers on goal-oriented audio datasets.
翻訳日:2021-03-19 20:58:41 公開日:2021-03-18
# (参考訳) 言語モデルにおけるリレーショナルエンコーディング再考--一般シーケンスのための事前学習

Rethinking Relational Encoding in Language Model: Pre-Training for General Sequences ( http://arxiv.org/abs/2103.10334v1 )

ライセンス: CC BY-SA 4.0
Matthew B. A. McDermott, Brendan Yap, Peter Szolovits, Marinka Zitnik(参考訳) 言語モデル事前学習(LMPT)は自然言語理解において顕著な成果を上げている。 しかし、LMPTはタンパク質配列のような非自然言語ドメインでは成功しておらず、様々なシーケンシャルドメイン間の重要な相違が明らかである。 ここでは、LMPTはトーケン関係を効果的にモデル化できるが、非自然言語領域におけるシーケンス関係のモデル化に失敗する。 そこで本研究では,LMPTと深層構造保存メトリック学習を結合して,LMPT単独で得られるよりもリッチな埋め込みを生成するフレームワークを開発した。 このフレームワークで新規および既存の事前学習モデルを調べ,理論的にフレームワーク全体を解析する。 また、様々な合成データセットと、タンパク質と科学的な抽象のグラフによる新しいデータセットに関する実験も設計した。 提案手法は,タンパク質リモートホモロジーの予測や引用意図の分類など,下流タスクにおける顕著なパフォーマンス向上を提供する。

Language model pre-training (LMPT) has achieved remarkable results in natural language understanding. However, LMPT is much less successful in non-natural language domains like protein sequences, revealing a crucial discrepancy between the various sequential domains. Here, we posit that while LMPT can effectively model per-token relations, it fails at modeling per-sequence relations in non-natural language domains. To this end, we develop a framework that couples LMPT with deep structure-preserving metric learning to produce richer embeddings than can be obtained from LMPT alone. We examine new and existing pre-training models in this framework and theoretically analyze the framework overall. We also design experiments on a variety of synthetic datasets and new graph-augmented datasets of proteins and scientific abstracts. Our approach offers notable performance improvements on downstream tasks, including prediction of protein remote homology and classification of citation intent.
翻訳日:2021-03-19 20:49:48 公開日:2021-03-18
# (参考訳) 分散型・フェデレーションエッジ学習のためのエネルギー・炭素フットプリント分析フレームワーク

A Framework for Energy and Carbon Footprint Analysis of Distributed and Federated Edge Learning ( http://arxiv.org/abs/2103.10346v1 )

ライセンス: CC BY 4.0
Stefano Savazzi, Sanaz Kianoush, Vittorio Rampa, Mehdi Bennis(参考訳) 分散学習の最近の進歩は、データセンターへのデータのトレーニングと移動に必要な大きなエネルギーのために環境問題を引き起こす。 フェデレーション学習(fl)のような新しいパラダイムは、データプロデューサと学習者の両方を同時に機能するデバイスやサイロ間の分散モデルトレーニングに適している。 集中型学習(cl)のテクニックとは異なり、flのシナリオでは、デバイスはプライベートデータを共有することなく、共同でモデルをトレーニングする。 この記事では、データセンターで動作する従来のCL/Big-Dataアルゴリズムと比較して、FLポリシーの環境フットプリントに影響を与える主な要因を分解し分析する。 提案する分析フレームワークは, 学習費と通信エネルギーコスト, 炭素等価排出量の両方を考慮に入れ, さらに, コンセンサスによって推進されるバニラ政策と分散型fl政策の両方をモデル化する。 このフレームワークは、現実のロボット化された職場を想定した産業環境で評価される。 その結果、FLは低ビット/ジュール効率(50kbit/ジュール以下)を特徴とする無線システムに対して、顕著なエンドツーエンドの省エネ(30%-40%)を可能にした。 コンセンサス駆動FLはパラメータサーバを必要とせず、メッシュネットワーク(200kbit/Joule)のエミッションを削減する。 一方、すべてのFLポリシーは、ローカルデータが不均一に分散されている場合(しばしばCLよりも2倍遅い)に収束する。 エネルギーフットプリントと学習損失をトレードオフして効率を最適化することができる。

Recent advances in distributed learning raise environmental concerns due to the large energy needed to train and move data to/from data centers. Novel paradigms, such as federated learning (FL), are suitable for decentralized model training across devices or silos that simultaneously act as both data producers and learners. Unlike centralized learning (CL) techniques, relying on big-data fusion and analytics located in energy hungry data centers, in FL scenarios devices collaboratively train their models without sharing their private data. This article breaks down and analyzes the main factors that influence the environmental footprint of FL policies compared with classical CL/Big-Data algorithms running in data centers. The proposed analytical framework takes into account both learning and communication energy costs, as well as the carbon equivalent emissions; in addition, it models both vanilla and decentralized FL policies driven by consensus. The framework is evaluated in an industrial setting assuming a real-world robotized workplace. Results show that FL allows remarkable end-to-end energy savings (30%-40%) for wireless systems characterized by low bit/Joule efficiency (50 kbit/Joule or lower). Consensus-driven FL does not require the parameter server and further reduces emissions in mesh networks (200 kbit/Joule). On the other hand, all FL policies are slower to converge when local data are unevenly distributed (often 2x slower than CL). Energy footprint and learning loss can be traded off to optimize efficiency.
翻訳日:2021-03-19 20:13:57 公開日:2021-03-18
# (参考訳) すべてのNLPタスクが生成タスク:一般的な事前トレーニングフレームワーク

All NLP Tasks Are Generation Tasks: A General Pretraining Framework ( http://arxiv.org/abs/2103.10360v1 )

ライセンス: CC BY 4.0
Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang(参考訳) 事前トレーニングアーキテクチャには、自動回帰モデル(GPTなど)、自動エンコードモデル(BERTなど)、エンコーダ-デコーダモデル(T5など)など、さまざまな種類がある。 一方、NLPタスクは本質的には異なり、分類、無条件生成、条件生成の3つの主要なカテゴリがある。 しかしながら、事前トレーニングフレームワークがすべてのタスクで最高のパフォーマンスを発揮することはなく、モデルの開発と選択に不便をもたらす。 本稿では,この課題に対処する新しい事前学習フレームワーク GLM (General Language Model) を提案する。 先行研究と比較して,(1)単一事前学習モデルによる分類,無条件生成,条件生成のタスクに良好に機能する,(2)事前訓練と精細化の一貫性の向上による分類上のbertモデルを上回る,(3)ダウンストリームタスクに不可欠な可変長ブランクフィリングを自然に処理する,の3つの大きなメリットがある。 GLMは、SuperGLUEの自然言語理解ベンチマークにおいて、同じ量の事前学習データでBERTを大幅に上回っている。 さらに、BERT-Large の 1.25 倍のパラメータを持つ GLM は、異なる下流タスクに対する一般化性を示す条件付きおよび非条件生成の NLU において、最高の性能を達成する。

There have been various types of pretraining architectures including autoregressive models (e.g., GPT), autoencoding models (e.g., BERT), and encoder-decoder models (e.g., T5). On the other hand, NLP tasks are different in nature, with three main categories being classification, unconditional generation, and conditional generation. However, none of the pretraining frameworks performs the best for all tasks, which introduces inconvenience for model development and selection. We propose a novel pretraining framework GLM (General Language Model) to address this challenge. Compared to previous work, our architecture has three major benefits: (1) it performs well on classification, unconditional generation, and conditional generation tasks with one single pretrained model; (2) it outperforms BERT-like models on classification due to improved pretrain-finetune consistency; (3) it naturally handles variable-length blank filling which is crucial for many downstream tasks. Empirically, GLM substantially outperforms BERT on the SuperGLUE natural language understanding benchmark with the same amount of pre-training data. Moreover, GLM with 1.25x parameters of BERT-Large achieves the best performance in NLU, conditional and unconditional generation at the same time, which demonstrates its generalizability to different downstream tasks.
翻訳日:2021-03-19 19:54:36 公開日:2021-03-18
# (参考訳) MSMatch: わずかなラベルによる半スーパービジョンマルチスペクトルシーン分類

MSMatch: Semi-Supervised Multispectral Scene Classification with Few Labels ( http://arxiv.org/abs/2103.10368v1 )

ライセンス: CC BY 4.0
Pablo G\'omez and Gabriele Meoni(参考訳) 監視学習技術はリモートセンシングにおける多くのタスクの中心にある。 残念ながら、これらの手法、特に最近のディープラーニング手法は、トレーニングのために大量のラベル付きデータを必要とすることが多い。 衛星は大量のデータを取得するが、データのラベル付けはしばしば面倒で高価であり、専門家の知識を必要とする。 そのため、ラベル付きサンプルの少ない改善方法が必要である。 我々は,EuroSATベンチマークデータセットのシーン分類において,教師付き手法と競合する最初の半教師付き学習手法であるMSMatchを提案する。 rgb画像とマルチスペクトル画像の両方をテストし、モデルの重要な部分を特定するために様々なアブレーション研究を行う。 トレーニングされたニューラルネットワークは、ラベル付きトレーニングの例の数によって、従来の手法よりも1.98%から19.76%の精度で、EuroSATの最先端の結果を達成する。 クラス毎のラベル付きサンプルはわずか5つで、ユーロサット RGB とマルチスペクトルデータセットでそれぞれ 94.53% と 95.86% に達する。 クラス毎に50のラベルがあり、97.62%、98.23%の精度がある。 この結果から,MSMatchはラベル付きデータの要求を大幅に低減できることがわかった。 マルチスペクトルデータによく翻訳され、ラベル付きデータの欠如により現在実現不可能な様々なアプリケーションを可能にする。 MSMatchのソースコードをオンラインで提供し、簡単に再現と迅速な採用を可能にします。

Supervised learning techniques are at the center of many tasks in remote sensing. Unfortunately, these methods, especially recent deep learning methods, often require large amounts of labeled data for training. Even though satellites acquire large amounts of data, labeling the data is often tedious, expensive and requires expert knowledge. Hence, improved methods that require fewer labeled samples are needed. We present MSMatch, the first semi-supervised learning approach competitive with supervised methods on scene classification on the EuroSAT benchmark dataset. We test both RGB and multispectral images and perform various ablation studies to identify the critical parts of the model. The trained neural network achieves state-of-the-art results on EuroSAT with an accuracy that is between 1.98% and 19.76% better than previous methods depending on the number of labeled training examples. With just five labeled examples per class we reach 94.53% and 95.86% accuracy on the EuroSAT RGB and multispectral datasets, respectively. With 50 labels per class we reach 97.62% and 98.23% accuracy. Our results show that MSMatch is capable of greatly reducing the requirements for labeled data. It translates well to multispectral data and should enable various applications that are currently infeasible due to a lack of labeled data. We provide the source code of MSMatch online to enable easy reproduction and quick adoption.
翻訳日:2021-03-19 19:29:47 公開日:2021-03-18
# (参考訳) モデルベース深層強化学習におけるペシミズムと最適化の併用

Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning ( http://arxiv.org/abs/2103.10369v1 )

ライセンス: CC BY 4.0
Sebastian Curi, Ilija Bogunovic, Andreas Krause(参考訳) 実世界のタスクでは、強化学習(RL)エージェントはトレーニング中に存在しない状況に頻繁に遭遇する。 信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。 堅牢なRLフレームワークは、エージェントと敵の間の最悪の最適化を通じて、この問題に対処する。 従来のロバストなRLアルゴリズムは、サンプリング非効率、堅牢性保証の欠如、あるいは大きな問題にスケールしない。 本稿では,RH-UCRL(Robust Hallucinated Upper-Confidence RL)アルゴリズムを提案する。 RH-UCRL はモデルベース強化学習 (MBRL) アルゴリズムであり、表皮症と失語症を効果的に区別し、政策学習中にエージェントと敵対的決定空間の両方を効率的に探索する。 rh-ucrlをニューラルネットワークのアンサンブルモデルとニューラルネットワークポリシを通じて複雑なタスクにスケールする。 実験により,rh-ucrlは他の強固な深層rlアルゴリズムに勝ることを示した。

In real-world tasks, reinforcement learning (RL) agents frequently encounter situations that are not present during training time. To ensure reliable performance, the RL agents need to exhibit robustness against worst-case situations. The robust RL framework addresses this challenge via a worst-case optimization between an agent and an adversary. Previous robust RL algorithms are either sample inefficient, lack robustness guarantees, or do not scale to large problems. We propose the Robust Hallucinated Upper-Confidence RL (RH-UCRL) algorithm to provably solve this problem while attaining near-optimal sample complexity guarantees. RH-UCRL is a model-based reinforcement learning (MBRL) algorithm that effectively distinguishes between epistemic and aleatoric uncertainty and efficiently explores both the agent and adversary decision spaces during policy learning. We scale RH-UCRL to complex tasks via neural networks ensemble models as well as neural network policies. Experimentally, we demonstrate that RH-UCRL outperforms other robust deep RL algorithms in a variety of adversarial environments.
翻訳日:2021-03-19 19:14:43 公開日:2021-03-18
# (参考訳) GPTも理解している。

GPT Understands, Too ( http://arxiv.org/abs/2103.10385v1 )

ライセンス: CC BY 4.0
Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang(参考訳) 従来の微調整型GPTは自然言語理解(NLU)において強力な結果が得られないが,学習可能な連続的プロンプト埋め込みを用いた新しいP-チューニング法により,NLUタスクにおける類似サイズのBERTよりも優れた結果が得られることを示す。 知識探索(LAMA)ベンチマークでは、最高のGPTはテスト期間中に追加のテキストが提供されずに64\%(P@1)の世界の知識を回復する。 SuperGlueベンチマークでは、GPTは教師あり学習において、類似サイズのBERTと同等、時には同等のパフォーマンスを達成する。 重要なことに、Pチューニングは、数ショットと教師付き設定の両方でBERTのパフォーマンスを向上すると同時に、プロンプトエンジニアリングの必要性を大幅に低減する。 その結果、p-tuningは、少数のsuperglueベンチマークで最先端のアプローチを上回っている。

While GPTs with traditional fine-tuning fail to achieve strong results on natural language understanding (NLU), we show that GPTs can be better than or comparable to similar-sized BERTs on NLU tasks with a novel method P-tuning -- which employs trainable continuous prompt embeddings. On the knowledge probing (LAMA) benchmark, the best GPT recovers 64\% (P@1) of world knowledge without any additional text provided during test time, which substantially improves the previous best by 20+ percentage points. On the SuperGlue benchmark, GPTs achieve comparable and sometimes better performance to similar-sized BERTs in supervised learning. Importantly, we find that P-tuning also improves BERTs' performance in both few-shot and supervised settings while largely reducing the need for prompt engineering. Consequently, P-tuning outperforms the state-of-the-art approaches on the few-shot SuperGlue benchmark.
翻訳日:2021-03-19 18:12:06 公開日:2021-03-18
# (参考訳) イベント構造を分解および再構成する

Decomposing and Recomposing Event Structure ( http://arxiv.org/abs/2103.10387v1 )

ライセンス: CC BY 4.0
William Gantt, Lelia Glass, and Aaron Steven White(参考訳) 文と文書レベルのセマンティックグラフに注釈付けされた推論特性から経験的に派生したイベント構造オントロジーを提案する。 このオントロジーを、文書レベルの生成モデルを用いて意味的役割、エンティティタイプ、イベントイベント関連オントロジーと共同で導入し、従来の理論的動機付けされた分類法と密接に一致するタイプの集合を同定する。

We present an event structure ontology empirically derived from inferential properties annotated on sentence- and document-level semantic graphs. We induce this ontology jointly with semantic role, entity type, and event-event relation ontologies using a document-level generative model, identifying sets of types that align closely with previous theoretically-motivated taxonomies.
翻訳日:2021-03-19 16:19:08 公開日:2021-03-18
# (参考訳) カプセル内視鏡における三次元表面再構成の課題

Challenges of 3D Surface Reconstruction in Capsule Endoscopy ( http://arxiv.org/abs/2103.10390v1 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) カプセル内視鏡(ce)画像を用いた三次元3次元表面再構成に関する課題は,現在数多く存在する。 再構成された3d表面の内容を見ることも課題である。 この予備調査では, CE画像を用いた再構成3次元表面の含有量に対する影響を, 後者に焦点をあて, 評価する。 このような課題の評価は2つの部分に分けられる。 第1部では,前処理および非前処理のCE画像を用いて再構成した3次元表面の内容の比較に焦点を当てた。 第2部は、同じ方位角と異なる視線の高さ角で見る3次元表面の含有量の比較に焦点を当てている。 実験は、3次元表面再構成のさらなる研究と同様に、視線と高度なCE画像前処理手段の必要性を実証した。

There are currently many challenges related to three-dimensional (3D) surface reconstruction using capsule endoscopy (CE) images. There are also challenges related to viewing the content of reconstructed 3D surfaces. In this preliminary investigation, the author focuses on the latter and evaluates their effects on the content of reconstructed 3D surfaces using CE images. The evaluation of such challenges is preliminarily conducted into two parts. The first part focuses on the comparison of the content of 3D surfaces reconstructed using both preprocessed and non-preprocessed CE images. The second part focuses on the comparison of the content of 3D surfaces viewed at the same azimuth angles and different elevation angles of the line-of-sight. The experiments demonstrated the need for generalizable line-of-sight and advanced CE image preprocessing means as well as further research in 3D surface reconstruction.
翻訳日:2021-03-19 15:43:05 公開日:2021-03-18
# (参考訳) 定常進化アルゴリズムと選択的圧力:なぜ逆ランクに基づく生殖実験が最適か

On Steady-State Evolutionary Algorithms and Selective Pressure: Why Inverse Rank-Based Allocation of Reproductive Trials is Best ( http://arxiv.org/abs/2103.10394v1 )

ライセンス: CC BY 4.0
Dogan Corus and Andrei Lissovoi and Pietro S. Oliveto and Carsten Witt(参考訳) 我々は、定常EAのグローバル最適化能力に対する選択的な圧力の影響を分析する。 標準バイモーダルベンチマーク関数 \twomax に対して、一様親選択を用いると指数関数ランタイムが高確率で、標準 (\mu$+1)~ea と (\mu$+1)~rls の両方を多項式サイズで見つけることができることを厳密に証明する。 一方,最悪の個人を親として選択することは,合理的な人口規模に対して圧倒的な確率で効率的なグローバル最適化につながることを実証する。 最悪の個人を常に選択することは局所視能から逃れるために有害な効果をもたらす可能性があるため、一方の斜面が他方よりも短い関数クラスに対して選択圧が低い確率的親選択演算子の性能を考える。 実験分析により,easの再現性と小型のトーナメントサイズが選択される逆トーナメント選択機能を備えたeasは, \textsc{twomax} の局所的オプティマから高い確率で効率良くかつ効果的に脱却できることを示した。 したがって、2つのオプティマを効率的に識別する一方で、一様選択(あるいはより強い選択)は理論上も実際にも失敗する。 そこで本研究では,群集が必須である文献から関数クラスにおける逆選択の力を示すとともに,再帰戦略の有無に関わらず,一様選択よりも優れているという厳密な証明や実験的な証拠を与える。 古典的マックスサット問題と多次元ナップサック問題の標準ベンチマークにおける異なる選択的圧力の実証分析により,理論的な知見を検証した。

We analyse the impact of the selective pressure for the global optimisation capabilities of steady-state EAs. For the standard bimodal benchmark function \twomax we rigorously prove that using uniform parent selection leads to exponential runtimes with high probability to locate both optima for the standard ($\mu$+1)~EA and ($\mu$+1)~RLS with any polynomial population sizes. On the other hand, we prove that selecting the worst individual as parent leads to efficient global optimisation with overwhelming probability for reasonable population sizes. Since always selecting the worst individual may have detrimental effects for escaping from local optima, we consider the performance of stochastic parent selection operators with low selective pressure for a function class called \textsc{TruncatedTwoMax} where one slope is shorter than the other. An experimental analysis shows that the EAs equipped with inverse tournament selection, where the loser is selected for reproduction and small tournament sizes, globally optimise \textsc{TwoMax} efficiently and effectively escape from local optima of \textsc{TruncatedTwoMax} with high probability. Thus they identify both optima efficiently while uniform (or stronger) selection fails in theory and in practice. We then show the power of inverse selection on function classes from the literature where populations are essential by providing rigorous proofs or experimental evidence that it outperforms uniform selection equipped with or without a restart strategy. We conclude the paper by confirming our theoretical insights with an empirical analysis of the different selective pressures on standard benchmarks of the classical MaxSat and Multidimensional Knapsack Problems.
翻訳日:2021-03-19 15:34:47 公開日:2021-03-18
# (参考訳) 多目的VM再割り当て問題に対するMILP

MILP for the Multi-objective VM Reassignment Problem ( http://arxiv.org/abs/2103.10410v1 )

ライセンス: CC BY 4.0
Takfarinas Saber, Anthony Ventresque, Joao Marques-Silva, James Thorburn, Liam Murphy(参考訳) マシン再割り当ては、特にデータセンターのサイズを考えると、制約プログラミング(CP)と混合整数線形プログラミング(MILP)のアプローチにおいて難しい問題である。 マシン再割り当て問題の多目的バージョンはさらに困難であり、cpやmilpがこの文脈で良い結果を得る可能性は低いようである。 その結果、この問題に最初に取り組むアプローチは、メタヒューリスティックスを含む他の最適化手法に基づいている。 本稿では,ibm ilog cplex のような混合整数最適化ソルバを多目的機械再割り当て問題に適用できる条件について検討する。 提案手法は,小規模・中規模のデータセンターに限って有用であり,探索空間内で探索される最適性許容ギャップや限られた方向など,ある程度の緩和が期待できる。 本研究は,CPLEXとメタヒューリスティックを併用したハイブリッドアプローチについても検討し,100秒以上の実行時間において,処理時間はCPLEXと比較して6%しか増加しないのに対して,Paretoソリューションの集合の品質(+126.9%,CPLEX単独では+17.8%)と解数(CPLEX単独では+17.8%)が重要であることを示した。

Machine Reassignment is a challenging problem for constraint programming (CP) and mixed-integer linear programming (MILP) approaches, especially given the size of data centres. The multi-objective version of the Machine Reassignment Problem is even more challenging and it seems unlikely for CP or MILP to obtain good results in this context. As a result, the first approaches to address this problem have been based on other optimisation methods, including metaheuristics. In this paper we study under which conditions a mixed-integer optimisation solver, such as IBM ILOG CPLEX, can be used for the Multi-objective Machine Reassignment Problem. We show that it is useful only for small or medium-scale data centres and with some relaxations, such as an optimality tolerance gap and a limited number of directions explored in the search space. Building on this study, we also investigate a hybrid approach, feeding a metaheuristic with the results of CPLEX, and we show that the gains are important in terms of quality of the set of Pareto solutions (+126.9% against the metaheuristic alone and +17.8% against CPLEX alone) and number of solutions (8.9 times more than CPLEX), while the processing time increases only by 6% in comparison to CPLEX for execution times larger than 100 seconds.
翻訳日:2021-03-19 15:33:22 公開日:2021-03-18
# (参考訳) コンピュータビジョン支援URLL通信:積極的なサービス識別と共存

Computer Vision Aided URLL Communications: Proactive Service Identification and Coexistence ( http://arxiv.org/abs/2103.10419v1 )

ライセンス: CC BY 4.0
Muhammad Alrabeiah, Umut Demirhan, Andrew Hredzak, and Ahmed Alkhateeb(参考訳) 既存の超信頼性・低レイテンシ(URLL)と拡張モバイルブロードバンド(eMBB)サービスのサポートは、現在および将来の無線通信ネットワークにおいて重要な課題である。 これら2つのタイプのサービスは、信頼性、レイテンシ、および無線ネットワークにおけるリソース利用の間のパワーストローグを生じさせる可能性のあるリソース割り当て要件を、厳密で、時には矛盾する形で導入する。 この課題に対処することの難しさは、無線リソースを割り当てる主要なリアクティブアプローチにまで遡ることができる。 この割り当て操作は、受信したサービスリクエストとグローバルネットワーク統計に基づいて行われ、これは \textit{proaction} という感覚を取り入れない可能性がある。 そこで本稿では,新しいプロアクティブなリソース割り当てアルゴリズムを開発するためのフレームワークである「textit{service Identification}」を提案する。 開発したフレームワークは、ビジュアルデータ(例えばrgbカメラによるキャプチャ)とディープラーニング(例えばディープニューラルネットワーク)に基づいている。 このフレームワークの最終的な目的は、将来の無線ネットワークにユーザの振る舞いを分析し、入ってくるサービスを予測し、アクティブなリソース割り当てを行う能力を持たせることである。 提案フレームワークの可能性を実証するために,既存の2つのURLLとeMBBサービスを備えた無線ネットワークシナリオを検討し,RGBビデオフレームを利用した2つのディープラーニングアルゴリズムを設計し,入ってくるサービスタイプとその要求時間を予測する。 検討したシナリオに基づく評価データセットを開発し,この2つのアルゴリズムの性能評価に用いた。 提案したモデルでは,ネットワークリソースの利用率を$\sim 98\%$信頼性で 85\% 以上確保し,効率的なネットワーク性能を実現する。 これは将来のビジョン支援無線通信ネットワークにとって有望な方向性である。

The support of coexisting ultra-reliable and low-latency (URLL) and enhanced Mobile BroadBand (eMBB) services is a key challenge for the current and future wireless communication networks. Those two types of services introduce strict, and in some time conflicting, resource allocation requirements that may result in a power-struggle between reliability, latency, and resource utilization in wireless networks. The difficulty in addressing that challenge could be traced back to the predominant reactive approach in allocating the wireless resources. This allocation operation is carried out based on received service requests and global network statistics, which may not incorporate a sense of \textit{proaction}. Therefore, this paper proposes a novel framework termed \textit{service identification} to develop novel proactive resource allocation algorithms. The developed framework is based on visual data (captured for example by RGB cameras) and deep learning (e.g., deep neural networks). The ultimate objective of this framework is to equip future wireless networks with the ability to analyze user behavior, anticipate incoming services, and perform proactive resource allocation. To demonstrate the potential of the proposed framework, a wireless network scenario with two coexisting URLL and eMBB services is considered, and two deep learning algorithms are designed to utilize RGB video frames and predict incoming service type and its request time. An evaluation dataset based on the considered scenario is developed and used to evaluate the performance of the two algorithms. The results confirm the anticipated value of proaction to wireless networks; the proposed models enable efficient network performance ensuring more than $85\%$ utilization of the network resources at $\sim 98\%$ reliability. This highlights a promising direction for the future vision-aided wireless communication networks.
翻訳日:2021-03-19 15:12:36 公開日:2021-03-18
# (参考訳) 潜時空間回帰を用いたGANの構成性の解析と利用

Using latent space regression to analyze and leverage compositionality in GANs ( http://arxiv.org/abs/2103.10426v1 )

ライセンス: CC BY 4.0
Lucy Chai, Jonas Wulff, Phillip Isola(参考訳) 近年、ジェネレーティブ・アドバイザリアル・ネットワークは研究と公衆の認識の両方で広く普及しているが、GANが非構造化の潜在コードを高品質な出力に変換する方法はまだ未解決の問題である。 本研究では, GANの組成特性を理解するためのプローブとして, 潜時空間への回帰について検討する。 回帰器と事前訓練されたジェネレータを組み合わせることで、より強い画像が得られ、グローバルな一貫性を維持しつつ、推論時にランダムな画像部品のコラージュから合成画像を作成することができる。 異なる生成元間の合成特性を比較するために,非現実的な入力の再構成と再生サンプルの画質とのトレードオフを計測した。 回帰法により,各画像部分の局所的な編集が,遅延空間の直接編集よりも可能となり,この独立性効果を定量的に評価する実験を行う。 本手法は編集のセマンティクスに依存せず,学習中にラベルや事前定義された概念を必要としない。 画像合成以外にも,画像インペインティングやサンプルベースの画像編集など,関連するアプリケーションにも拡張し,複数のganやデータセットでデモを行い,単一のフォワードパスのみを使用するため,リアルタイムに動作可能とした。 コードはプロジェクトページで利用可能です。 https://chail.github.io/latent-composition/。

In recent years, Generative Adversarial Networks have become ubiquitous in both research and public perception, but how GANs convert an unstructured latent code to a high quality output is still an open question. In this work, we investigate regression into the latent space as a probe to understand the compositional properties of GANs. We find that combining the regressor and a pretrained generator provides a strong image prior, allowing us to create composite images from a collage of random image parts at inference time while maintaining global consistency. To compare compositional properties across different generators, we measure the trade-offs between reconstruction of the unrealistic input and image quality of the regenerated samples. We find that the regression approach enables more localized editing of individual image parts compared to direct editing in the latent space, and we conduct experiments to quantify this independence effect. Our method is agnostic to the semantics of edits, and does not require labels or predefined concepts during training. Beyond image composition, our method extends to a number of related applications, such as image inpainting or example-based image editing, which we demonstrate on several GANs and datasets, and because it uses only a single forward pass, it can operate in real-time. Code is available on our project page: https://chail.github.io/latent-composition/.
翻訳日:2021-03-19 14:47:35 公開日:2021-03-18
# オブジェクト検出のための一貫性に基づくアクティブラーニング

Consistency-based Active Learning for Object Detection ( http://arxiv.org/abs/2103.10374v1 )

ライセンス: Link先を確認
Weiping Yu, Sijie Zhu, Taojiannan Yang, Chen Chen(参考訳) アクティブラーニングは、限られた予算で最も情報に富んだサンプルを選択することで、タスクモデルの性能を向上させることを目的としている。 画像分類にアクティブラーニングを適用することに焦点を当てた最近のほとんどの研究と異なり、オリジナルデータと拡張データの一貫性を十分に探求するオブジェクト検出(cald)のための効果的な一貫性に基づくアクティブラーニング手法を提案する。 CALDには3つの利点がある。 (i)caldは,オブジェクト検出のユニークな課題を考慮せず,既存のアクティブラーニング手法の弱点を調査して体系的に設計されている。 (II)CALDは,箱の回帰と分類を単一の尺度で統一するが,その分類は能動的学習法とは無関係である。 CALDはまた、画像全体よりも最も情報性の高い局所領域に焦点を当てており、オブジェクト検出に有用である。 (iii)caldはサンプル選択のための個別情報を測定するだけでなく、バランスの取れたデータ分布を促進するために相互情報を活用する。 広範な実験により、caldは一般的なオブジェクト検出データセットにおいて、既存の最先端のタスク非依存および検出固有のアクティブラーニング方法を大幅に上回っていることが示された。 高速R-CNN検出器に基づいて、CALDはPASCAL VOC 2007、PASCAL VOC 2012、MS COCOで平均2.9/2.8/0.8 mAPの基準法(ランダム選択)を一貫して上回っている。 コードは \url{https://github.com/we1pingyu/CALD} で入手できる。

Active learning aims to improve the performance of task model by selecting the most informative samples with a limited budget. Unlike most recent works that focused on applying active learning for image classification, we propose an effective Consistency-based Active Learning method for object Detection (CALD), which fully explores the consistency between original and augmented data. CALD has three appealing benefits. (i) CALD is systematically designed by investigating the weaknesses of existing active learning methods, which do not take the unique challenges of object detection into account. (ii) CALD unifies box regression and classification with a single metric, which is not concerned by active learning methods for classification. CALD also focuses on the most informative local region rather than the whole image, which is beneficial for object detection. (iii) CALD not only gauges individual information for sample selection, but also leverages mutual information to encourage a balanced data distribution. Extensive experiments show that CALD significantly outperforms existing state-of-the-art task-agnostic and detection-specific active learning methods on general object detection datasets. Based on the Faster R-CNN detector, CALD consistently surpasses the baseline method (random selection) by 2.9/2.8/0.8 mAP on average on PASCAL VOC 2007, PASCAL VOC 2012, and MS COCO. Code is available at \url{https://github.com/we1pingyu/CALD}
翻訳日:2021-03-19 14:14:11 公開日:2021-03-18
# 医療画像における機械学習の失敗 -- 欠点と推奨

How I failed machine learning in medical imaging -- shortcomings and recommendations ( http://arxiv.org/abs/2103.10292v1 )

ライセンス: Link先を確認
Ga\"el Varoquaux and Veronika Cheplygina(参考訳) 医療画像は、患者の健康を改善する多くの機会を持つ重要な研究分野である。 しかし、出版の最適化など、この分野全体の進歩を鈍化させている課題はいくつかある。 本稿では,データセットの選択,手法,評価指標,公開戦略に関する諸問題について概説する。 文献のレビューと分析によって、あらゆる段階において、潜在的なバイアスが忍び寄ることが示されます。 ポジティブな点として、これらの問題に対処するイニシアチブはすでに始まっています。 最後に、将来的にこれらの問題を解決する方法について、幅広い推奨事項を提供しています。 再現性のため、解析のためのデータとコードは \url{https://github.com/gaelvaroquaux/ml_med_imaging_failures} で利用可能である。

Medical imaging is an important research field with many opportunities for improving patients' health. However, there are a number of challenges that are slowing down the progress of the field as a whole, such optimizing for publication. In this paper we reviewed several problems related to choosing datasets, methods, evaluation metrics, and publication strategies. With a review of literature and our own analysis, we show that at every step, potential biases can creep in. On a positive note, we also see that initiatives to counteract these problems are already being started. Finally we provide a broad range of recommendations on how to further these address problems in the future. For reproducibility, data and code for our analyses are available on \url{https://github.com/GaelVaroquaux/ml_med_imaging_failures}
翻訳日:2021-03-19 14:13:45 公開日:2021-03-18
# 対話型ナラティブによる言語学習

Situated Language Learning via Interactive Narratives ( http://arxiv.org/abs/2103.09977v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu and Mark O. Riedl(参考訳) 本稿では,目標達成に資する文脈的自然言語を理解・生成する能力を備えた学習エージェントの育成方法についてのロードマップを提供する。 このようなエージェントを作成する上で重要な2つの要素は、人間の言語学習の不可欠な部分である対話性と環境基盤であり、対話的な物語はそのようなエージェントを訓練するための環境であるべきだと仮定する。 これらのゲームは、エージェントが自然言語を通じて世界と相互作用するシミュレーションであり、テキスト記述、コマンド、対話を用いて「知覚」、「作用」、そして「対話」によって世界と対話する。 テキストゲームのパズルのような構造と自然言語状態とアクション空間が組み合わさったユニークな課題である知識表現、常識推論、探索について論じる。 これまで述べた課題以外にも、インタラクティブな物語の領域の進歩は、隣接する問題領域に適用できる。 これらのアプリケーションは、これまで議論されてきた拡張と同様に、彼ら自身の興味深い課題を提供します。 1)対話的な物語を自動生成することでAIシステムの常識的理解を評価すること,(2)視覚などの他のモダリティを含む抽象テキストベースのポリシーを適用すること,(3)共有された位置のある世界でのマルチエージェントと人間とAIの協調を可能にすること,である。

This paper provides a roadmap that explores the question of how to imbue learning agents with the ability to understand and generate contextually relevant natural language in service of achieving a goal. We hypothesize that two key components in creating such agents are interactivity and environment grounding, shown to be vital parts of language learning in humans, and posit that interactive narratives should be the environments of choice for such training these agents. These games are simulations in which an agent interacts with the world through natural language -- "perceiving", "acting upon", and "talking to" the world using textual descriptions, commands, and dialogue -- and as such exist at the intersection of natural language processing, storytelling, and sequential decision making. We discuss the unique challenges a text games' puzzle-like structure combined with natural language state-and-action spaces provides: knowledge representation, commonsense reasoning, and exploration. Beyond the challenges described so far, progress in the realm of interactive narratives can be applied in adjacent problem domains. These applications provide interesting challenges of their own as well as extensions to those discussed so far. We describe three of them in detail: (1) evaluating AI system's commonsense understanding by automatically creating interactive narratives; (2) adapting abstract text-based policies to include other modalities such as vision; and (3) enabling multi-agent and human-AI collaboration in shared, situated worlds.
翻訳日:2021-03-19 14:13:33 公開日:2021-03-18
# ベトナムにおけるオープンドメインソーシャルメディアコメントに対する構成的・毒性的音声検出

Constructive and Toxic Speech Detection for Open-domain Social Media Comments in Vietnamese ( http://arxiv.org/abs/2103.10069v1 )

ライセンス: Link先を確認
Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) ソーシャルメディアの普及は、オンラインフォーラムでのコメントの増加につながっている。 しかし、ユーザーには役に立たない不適切なコメントがいくつか残っている。 さらに、これらのコメントは人々にとって非常に有毒で有害です。 本稿では,1万件のコメントを付加した構築的・有害な音声検出用データセット,UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) を作成する。 これらの課題に対して,ベトナムのNLPにおける最先端の伝達学習モデルであるPhoBERTを用いた構築的・有害な音声検出システムを提案する。 本システムでは, 建設的コメントと有毒コメントを別々に同定し, 78.59%, 59.40%のF1スコアを得た。 さらに,データセットを客観的に評価するために,従来の機械学習モデルやディープニューラルネットワークベースモデルなど,さまざまなベースラインモデルを実装している。 結果から,オンライン議論の課題を解決し,ベトナムのソーシャルメディアコメントを自動的に識別する枠組みを開発することができた。

The rise of social media has led to the increasing of comments on online forums. However, there still exists some invalid comments which were not informative for users. Moreover, those comments are also quite toxic and harmful to people. In this paper, we create a dataset for classifying constructive and toxic speech detection, named UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) with 10,000 human-annotated comments. For these tasks, we proposed a system for constructive and toxic speech detection with the state-of-the-art transfer learning model in Vietnamese NLP as PhoBERT. With this system, we achieved 78.59% and 59.40% F1-score for identifying constructive and toxic comments separately. Besides, to have an objective assessment for the dataset, we implement a variety of baseline models as traditional Machine Learning and Deep Neural Network-Based models. With the results, we can solve some problems on the online discussions and develop the framework for identifying constructiveness and toxicity Vietnamese social media comments automatically.
翻訳日:2021-03-19 14:13:08 公開日:2021-03-18
# 文書コヒーレンスモデリングの評価

Evaluating Document Coherence Modelling ( http://arxiv.org/abs/2103.10133v1 )

ライセンス: Link先を確認
Aili Shen, Meladel Mistica, Bahar Salehi, Hang Li, Timothy Baldwin, and Jianzhong Qi(参考訳) 事前学習された言語モデル(lm)は形態素合成や意味論的タスクに対して印象的な成果をもたらしているが、談話や実用的現象をモデル化する能力はそれほど明確ではない。 談話のモデル化能力をよりよく理解するためのステップとして,文侵入検出タスクを提案する。 本稿では,この検出課題に対して,幅広い事前学習型LMの性能について検討する。 InSteDは,英語のウィキペディアやCNNのニュース記事から構築された170,000以上の文書を含む,新規な侵入者文検出データセットである。 実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定では大幅に低下し,一般化能力の限界が示唆された。 新たな言語プローブデータセットに関するさらなる結果は、特にクロスドメイン設定において、改善の余地があることを示している。

While pretrained language models ("LM") have driven impressive gains over morpho-syntactic and semantic tasks, their ability to model discourse and pragmatic phenomena is less clear. As a step towards a better understanding of their discourse modelling capabilities, we propose a sentence intrusion detection task. We examine the performance of a broad range of pretrained LMs on this detection task for English. Lacking a dataset for the task, we introduce INSteD, a novel intruder sentence detection dataset, containing 170,000+ documents constructed from English Wikipedia and CNN news articles. Our experiments show that pretrained LMs perform impressively in in-domain evaluation, but experience a substantial drop in the cross-domain setting, indicating limited generalisation capacity. Further results over a novel linguistic probe dataset show that there is substantial room for improvement, especially in the cross-domain setting.
翻訳日:2021-03-19 14:12:53 公開日:2021-03-18
# 高精度分類の事例:小さく考えて、たくさん考えて!

The Case for High-Accuracy Classification: Think Small, Think Many! ( http://arxiv.org/abs/2103.10350v1 )

ライセンス: Link先を確認
Mohammad Hosseini, Mahmudul Hasan(参考訳) リソース制約のあるデバイスにおいて、特に高精度なディープニューラルネットワークの実装を容易にするため、低計算要求の維持が不可欠である。 分類目的に非常に深いモデルを使用すると、ニューラルネットワークのトレーニング速度が低下し、推論時間が増加するだけでなく、高い予測精度と偽陽性の軽減のために、より多くのデータが必要になる。 本稿では, 簡易な色特徴の組み合わせをベースとした, 高速で軽量な深層分類アンサンブル構造を提案する。 画像やビデオに適用した爆発検出用ユースケースの設計,実装,評価を行った。 大規模実験による評価結果から,resnet-50モデルと比較して予測精度が大幅に向上し,7.64倍の高速化と計算コストの低減が得られた。 爆発検出に本手法を適用したが,本手法は一般的であり,他の類似した分類用途にも適用できる。 一つの大きなモノリシックなディープモデルを検証ベースのステップモデルアンサンブルに変換することで、狭い色空間を持つ複数の小型でシンプルで軽量なモデルの集合体を、より高精度に予測することができる。

To facilitate implementation of high-accuracy deep neural networks especially on resource-constrained devices, maintaining low computation requirements is crucial. Using very deep models for classification purposes not only decreases the neural network training speed and increases the inference time, but also need more data for higher prediction accuracy and to mitigate false positives. In this paper, we propose an efficient and lightweight deep classification ensemble structure based on a combination of simple color features, which is particularly designed for "high-accuracy" image classifications with low false positives. We designed, implemented, and evaluated our approach for explosion detection use-case applied to images and videos. Our evaluation results based on a large test test show considerable improvements on the prediction accuracy compared to the popular ResNet-50 model, while benefiting from 7.64x faster inference and lower computation cost. While we applied our approach to explosion detection, our approach is general and can be applied to other similar classification use cases as well. Given the insight gained from our experiments, we hence propose a "think small, think many" philosophy in classification scenarios: that transforming a single, large, monolithic deep model into a verification-based step model ensemble of multiple small, simple, lightweight models with narrowed-down color spaces can possibly lead to predictions with higher accuracy.
翻訳日:2021-03-19 14:12:35 公開日:2021-03-18
# 構成記述によるニューラルネットワークの精製

Refining Neural Networks with Compositional Explanations ( http://arxiv.org/abs/2103.10415v1 )

ライセンス: Link先を確認
Huihan Yao, Ying Chen, Qinyuan Ye, Xisen Jin, Xiang Ren(参考訳) ニューラルネットワークは偏りのあるデータセットからスプリアス相関を学習する傾向にあり、新たなターゲット領域で推論を行う場合には脆弱である。 先行研究では、入力特徴の重要性を計算したポストホックモデル説明を通じて素早いパターンを明らかにし、人間の知識で重要度を正規化することによって意図しないモデル行動を排除する。 しかし、このような正規化技術には柔軟性とカバレッジが欠けており、事前定義された特徴のリストに対する重要点のみが調整される一方、特徴の相互作用やパターンの一般化といったより複雑な人間の知識が組み込まれることはほとんどない。 本研究では,モデルの失敗事例に関する人為的な構成説明を収集し,学習モデルの改良を提案する。 説明の中でスプリアスパターンに関する一般的なルールを説明することで、より多くのトレーニング例が一致し、正規化され、正規化カバレッジの課題に取り組むことができる。 さらに,モデルの改良におけるより複雑な人間の理性をサポートするために,機能相互作用の正規化用語を導入する。 本手法は,改良後の対象領域における性能向上を示すことにより,2つのテキスト分類タスクにおける提案手法の有効性を実証する。

Neural networks are prone to learning spurious correlations from biased datasets, and are thus vulnerable when making inferences in a new target domain. Prior work reveals spurious patterns via post-hoc model explanations which compute the importance of input features, and further eliminates the unintended model behaviors by regularizing importance scores with human knowledge. However, such regularization technique lacks flexibility and coverage, since only importance scores towards a pre-defined list of features are adjusted, while more complex human knowledge such as feature interaction and pattern generalization can hardly be incorporated. In this work, we propose to refine a learned model by collecting human-provided compositional explanations on the models' failure cases. By describing generalizable rules about spurious patterns in the explanation, more training examples can be matched and regularized, tackling the challenge of regularization coverage. We additionally introduce a regularization term for feature interaction to support more complex human rationale in refining the model. We demonstrate the effectiveness of the proposed approach on two text classification tasks by showing improved performance in target domain after refinement.
翻訳日:2021-03-19 14:12:11 公開日:2021-03-18
# 混合ポリシーを用いた最大エントロピー強化学習

Maximum Entropy Reinforcement Learning with Mixture Policies ( http://arxiv.org/abs/2103.10176v1 )

ライセンス: Link先を確認
Nir Baram, Guy Tennenholtz, Shie Mannor(参考訳) 混合モデルは、豊かなポリシーの集合を近似できる表現的仮説クラスである。 しかし、MaxEnt(Maximum Entropy)フレームワークでの混合ポリシーの使用は簡単ではない。 混合モデルのエントロピーは、その成分の和に等しくなく、多くの場合、閉形式式も持たない。 したがって、MaxEntアルゴリズムでそのようなポリシーを使用するには、混合エントロピーの抽出可能な近似を構築する必要がある。 本稿では, 単純かつ低分散混合エントロピー推定器を導出する。 限界エントロピーの和と密接に関連していることが示される。 エントロピー推定器を装着し,混合ポリシーケースにソフトアクタ-クリティック(sac)のアルゴリズム変種を導出し,一連の連続制御タスクで評価する。

Mixture models are an expressive hypothesis class that can approximate a rich set of policies. However, using mixture policies in the Maximum Entropy (MaxEnt) framework is not straightforward. The entropy of a mixture model is not equal to the sum of its components, nor does it have a closed-form expression in most cases. Using such policies in MaxEnt algorithms, therefore, requires constructing a tractable approximation of the mixture entropy. In this paper, we derive a simple, low-variance mixture-entropy estimator. We show that it is closely related to the sum of marginal entropies. Equipped with our entropy estimator, we derive an algorithmic variant of Soft Actor-Critic (SAC) to the mixture policy case and evaluate it on a series of continuous control tasks.
翻訳日:2021-03-19 14:11:28 公開日:2021-03-18
# アンサンブル学習を用いたドメイン一般化

Domain Generalization using Ensemble Learning ( http://arxiv.org/abs/2103.10257v1 )

ライセンス: Link先を確認
Yusuf Mesbah, Youssef Youssry Ibrahim, Adil Mehood Khan(参考訳) ドメイン一般化(Domain Generalization)は、ターゲットドメインに関する知識がなければ、2つの異なるドメイン間のギャップを埋めることを目的とした、転送学習のサブフィールドである。 提案手法は,モデルが単一ソース領域でトレーニングされる場合,モデルの弱い一般化の問題に対処する。 この観点から,単一ソース上で訓練されたベースディープラーニングモデルに基づいてアンサンブルモデルを構築し,その集合予測の一般化を促進する。 これまでの成果は、すべての基礎学習者に対するアンサンブルの有望な改善を実証している。

Domain generalization is a sub-field of transfer learning that aims at bridging the gap between two different domains in the absence of any knowledge about the target domain. Our approach tackles the problem of a model's weak generalization when it is trained on a single source domain. From this perspective, we build an ensemble model on top of base deep learning models trained on a single source to enhance the generalization of their collective prediction. The results achieved thus far have demonstrated promising improvements of the ensemble over any of its base learners.
翻訳日:2021-03-19 14:10:55 公開日:2021-03-18
# 人工知能システム開発に必要なエンジニアリング課題

Requirement Engineering Challenges for AI-intense Systems Development ( http://arxiv.org/abs/2103.10270v1 )

ライセンス: Link先を確認
Hans-Martin Heyn, Eric Knauss, Amna Pir Muhammad, Olof Erikssonz, Jennifer Linder, Padmini Subbiah, Shameer Kumar Pradhan, Sagar Tungal(参考訳) 強力な計算と通信技術の可用性と人工知能の進歩は、新しい世代の複雑なAIインセンスシステムとアプリケーションを可能にする。 このようなシステムとアプリケーションは、社会レベルでエキサイティングな改善を約束しますが、開発に新たな課題も伴います。 本稿では,このようなシステムやアプリケーションの動作や品質特性の定義と保証に関する課題について論じる。 具体的には、複雑なAIシステムと、産業、交通、ホームオートメーションに関連するアプリケーションに関するユースケースから、(i)コンテキスト定義と要件の理解、決定、特定、(ii)データ属性と要件、(iii)パフォーマンス定義と監視、(iv)システムの受け入れと成功に対する人間的要因の影響の4つの課題領域を抽出する。 これらの課題を解決することは、複雑なAIインテリジェンスシステムやアプリケーションの開発アプローチに新しい要求エンジニアリング手法を統合するプロセスサポートを暗示する。 これらの課題を詳述し,研究ロードマップを提案する。

Availability of powerful computation and communication technology as well as advances in artificial intelligence enable a new generation of complex, AI-intense systems and applications. Such systems and applications promise exciting improvements on a societal level, yet they also bring with them new challenges for their development. In this paper we argue that significant challenges relate to defining and ensuring behaviour and quality attributes of such systems and applications. We specifically derive four challenge areas from relevant use cases of complex, AI-intense systems and applications related to industry, transportation, and home automation: understanding, determining, and specifying (i) contextual definitions and requirements, (ii) data attributes and requirements, (iii) performance definition and monitoring, and (iv) the impact of human factors on system acceptance and success. Solving these challenges will imply process support that integrates new requirements engineering methods into development approaches for complex, AI-intense systems and applications. We present these challenges in detail and propose a research roadmap.
翻訳日:2021-03-19 14:10:47 公開日:2021-03-18
# 機能評価回数を極端に制限したブラックボックス関数の最適化方法の学習

Learning How to Optimize Black-Box Functions With Extreme Limits on the Number of Function Evaluations ( http://arxiv.org/abs/2103.10321v1 )

ライセンス: Link先を確認
Carlos Ansotegui, Meinolf Sellmann, Tapan Shah, Kevin Tierney(参考訳) 我々は,ごく限られた数の関数評価が約100の順番で安価で,限られた数の並列試行のバッチでも機能評価を行なわなければならないブラックボックス最適化を考える。 これは、例えばシミュレーションベースの最適化や機械学習のハイパーパラメータ化といった、非常にコストのかかる変数設定を最適化する場合の典型的なシナリオである。 本稿では,確立された手法を用いて各バッチの点集合を提案し,これらの候補点から,並列に実行できる試行回数をダウンセレクトする手法を提案する。 提案手法の主な特徴は,自動アルゴリズム構成を用いてオフラインで最適化されたバッチサイズに対する候補数をダウンセレクトするハイパーパラメータ化手法の導入である。 この手法をブラックボックス最適化に最適化し,従来のブラックボックス最適化ベンチマークで評価する。 その結果,最適化の進展を条件とした多彩なブラックボックス最適化手法によって提案される評価点を組み合わせる方法が学習可能であることがわかった。 ブラックボックスの最小化技術や、特に少数ショットの最小化を意図した様々な方法と比較すると、正規化コストの平均50%の削減を実現しており、これは非常に重要な性能改善である。

We consider black-box optimization in which only an extremely limited number of function evaluations, on the order of around 100, are affordable and the function evaluations must be performed in even fewer batches of a limited number of parallel trials. This is a typical scenario when optimizing variable settings that are very costly to evaluate, for example in the context of simulation-based optimization or machine learning hyperparameterization. We propose an original method that uses established approaches to propose a set of points for each batch and then down-selects from these candidate points to the number of trials that can be run in parallel. The key novelty of our approach lies in the introduction of a hyperparameterized method for down-selecting the number of candidates to the allowed batch-size, which is optimized offline using automated algorithm configuration. We tune this method for black box optimization and then evaluate on classical black box optimization benchmarks. Our results show that it is possible to learn how to combine evaluation points suggested by highly diverse black box optimization methods conditioned on the progress of the optimization. Compared with the state of the art in black box minimization and various other methods specifically geared towards few-shot minimization, we achieve an average reduction of 50\% of normalized cost, which is a highly significant improvement in performance.
翻訳日:2021-03-19 14:10:29 公開日:2021-03-18
# Wasserstein GANによる確率分布の近似

Approximation for Probability Distributions by Wasserstein GAN ( http://arxiv.org/abs/2103.10060v1 )

ライセンス: Link先を確認
Yihang Gao, Michael K. Ng(参考訳) 本稿では,wasserstein ganによる分布の近似が,生成器と判別器の幅・深さ(容量)と,訓練中のサンプル数の両方に依存することを示す。 生成した分布と対象分布の間のワッサーシュタイン距離の量子化一般化境界を開発する。 十分なトレーニングサンプルがあれば、適切な幅と深さの数のジェネレータと判別器に対して、学習されたwasserstein ganは分布をよく近似できる。 我々は、差別者が次元の呪いに悩まされていることを発見した。つまり、GANはジェネレータよりも識別器の能力の要求が高いということであり、arXiv:1703.00573v5[cs.LG]の理論と一致する。 さらに重要なことに、過度に深い(高容量)ジェネレータは、判別器が十分に強くない場合、低容量ジェネレータよりも(訓練後)悪い結果を引き起こす可能性がある。 arXiv:1701.07875v3[stat.ML]のWasserstein GANと異なり、我々は1-Lipschitz関数に対するより良い近似のためにモデルにGroupSortニューラルネットワークarXiv:1811.05381v2[cs.LG]を採用する。 既存のGANの一般化(収束)解析と比較して、我々の研究はより適用可能であると期待している。

In this paper, we show that the approximation for distributions by Wasserstein GAN depends on both the width/depth (capacity) of generators and discriminators, as well as the number of samples in training. A quantified generalization bound is developed for Wasserstein distance between the generated distribution and the target distribution. It implies that with sufficient training samples, for generators and discriminators with proper number of width and depth, the learned Wasserstein GAN can approximate distributions well. We discover that discriminators suffer a lot from the curse of dimensionality, meaning that GANs have higher requirement for the capacity of discriminators than generators, which is consistent with the theory in arXiv:1703.00573v5 [cs.LG]. More importantly, overly deep (high capacity) generators may cause worse results (after training) than low capacity generators if discriminators are not strong enough. Different from Wasserstein GAN in arXiv:1701.07875v3 [stat.ML], we adopt GroupSort neural networks arXiv:1811.05381v2 [cs.LG] in the model for their better approximation to 1-Lipschitz functions. Compared to some existing generalization (convergence) analysis of GANs, we expect our work are more applicable.
翻訳日:2021-03-19 14:09:51 公開日:2021-03-18
# 新規感度メトリックを用いたデータフリー混合精度量子化

Data-free mixed-precision quantization using novel sensitivity metric ( http://arxiv.org/abs/2103.10051v1 )

ライセンス: Link先を確認
Donghyun Lee, Minkyoung Cho, Seungwon Lee, Joonho Song and Changkyu Choi(参考訳) トレーニング後の量子化(post-training quantization)は、ニューラルネットワークを圧縮するための代表的なテクニックである。 しかし、アクセス不能なユーザデータセットは、実際に量子化されたニューラルネットワークの品質を保証することが困難になることが多い。 さらに、既存のアプローチでは単一の一様ビット幅をネットワーク全体に使用することで、非常に低いビット幅で精度が著しく低下する可能性がある。 複数のビット幅を利用するため、感度メトリックは精度と圧縮のバランスにおいて重要な役割を果たす。 本稿では,タスク損失と他のレイヤとの相互作用に対する量子化誤差の影響を考慮した新しい感度指標を提案する。 さらに,ニューラルネットワークの特定の操作に依存しないラベル付きデータ生成手法を開発した。 実験により,提案手法が量子化感度をよりよく表現し,生成したデータは混合精度量子化に適用できることを示す。

Post-training quantization is a representative technique for compressing neural networks, making them smaller and more efficient for deployment on edge devices. However, an inaccessible user dataset often makes it difficult to ensure the quality of the quantized neural network in practice. In addition, existing approaches may use a single uniform bit-width across the network, resulting in significant accuracy degradation at extremely low bit-widths. To utilize multiple bit-width, sensitivity metric plays a key role in balancing accuracy and compression. In this paper, we propose a novel sensitivity metric that considers the effect of quantization error on task loss and interaction with other layers. Moreover, we develop labeled data generation methods that are not dependent on a specific operation of the neural network. Our experiments show that the proposed metric better represents quantization sensitivity, and generated data are more feasible to be applied to mixed-precision quantization.
翻訳日:2021-03-19 14:08:59 公開日:2021-03-18
# KoDF:韓国の大規模ディープフェイク検出データセット

KoDF: A Large-scale Korean DeepFake Detection Dataset ( http://arxiv.org/abs/2103.10094v1 )

ライセンス: Link先を確認
Patrick Kwon, Jaeseong You, Gyuhyeon Nam, Sungwoo Park, Gyeongsu Chae(参考訳) 近年, 顔合成技術の民主化が進み, 顔合成技術が広く普及している。 このようなビデオは、それらが引き起こした様々な社会的問題に対して、否定的な意味を持つディープフェイクと呼ばれるようになった。 韓国のdeepfake detection dataset(kodf)は、韓国の被験者を対象とした合成・実演ビデオの大規模なコレクションだ。 本稿では,データセット構築に使用する手法の詳細を説明し,kodfの分布と既存のdeepfake検出データセットとの差異を実験的に示すとともに,実世界の一般化に複数のデータセットを使用することの重要性を強調する。 KoDFはhttps://moneybrain-research.github.io/kodfで公開されている。 本物のクリップ、合成クリップ、追加ノイズ付きクリップ、およびそれに対応するメタデータ)。

A variety of effective face-swap and face-reenactment methods have been publicized in recent years, democratizing the face synthesis technology to a great extent. Videos generated as such have come to be collectively called deepfakes with a negative connotation, for various social problems they have caused. Facing the emerging threat of deepfakes, we have built the Korean DeepFake Detection Dataset (KoDF), a large-scale collection of synthesized and real videos focused on Korean subjects. In this paper, we provide a detailed description of methods used to construct the dataset, experimentally show the discrepancy between the distributions of KoDF and existing deepfake detection datasets, and underline the importance of using multiple datasets for real-world generalization. KoDF is publicly available at https://moneybrain-research.github.io/kodf in its entirety (i.e. real clips, synthesized clips, clips with additive noise, and their corresponding metadata).
翻訳日:2021-03-19 14:08:43 公開日:2021-03-18
# TrivialAugment: チューニング不要だが最先端のデータ拡張

TrivialAugment: Tuning-free Yet State-of-the-Art Data Augmentation ( http://arxiv.org/abs/2103.10158v1 )

ライセンス: Link先を確認
Samuel G. M\"uller, Frank Hutter(参考訳) 近年,視覚タスクにおけるモデル性能向上の柱として,自動拡張法が重要である。 現在の手法は、多くの場合、単純さ、過度さ、あるいはパフォーマンスのよいものとのトレードオフである。 より単純な自動拡張ベースラインである TrivialAugment を提示する。 パラメータフリーであり、各画像に1つの拡張のみを適用する。 私たちにとって、TrivialAugmentの有効性は非常に予想外です。 そこで我々は,その性能について徹底的な実験を行った。 まず、TrivialAugmentと過去の最先端の手法を、複数のシナリオで比較する。 次に,様々な増補空間,増補法,設定を用いて複数のアブレーション研究を行い,その性能に対する重要な要件を理解する。 我々は、学習を自動拡張ユーザへのレコメンデーションに凝縮する。 さらに,任意のコードベースで複数の自動拡張メソッドを使用するためのシンプルなインターフェースや,再現性のための完全なコードベースも提供しています。 本研究は,自動増補研究の多くの分野で停滞していることから,自動増補手法の持続的発展に向けたベストプラクティスの短い提案に終止符を打つ。

Automatic augmentation methods have recently become a crucial pillar for strong model performance in vision tasks. Current methods are mostly a trade-off between being simple, in-expensive or well-performing. We present a most simple automatic augmentation baseline, TrivialAugment, that outperforms previous methods almost for free. It is parameter-free and only applies a single augmentation to each image. To us, TrivialAugment's effectiveness is very unexpected. Thus, we performed very thorough experiments on its performance. First, we compare TrivialAugment to previous state-of-the-art methods in a plethora of scenarios. Then, we perform multiple ablation studies with different augmentation spaces, augmentation methods and setups to understand the crucial requirements for its performance. We condensate our learnings into recommendations to automatic augmentation users. Additionally, we provide a simple interface to use multiple automatic augmentation methods in any codebase, as well as, our full code base for reproducibility. Since our work reveals a stagnation in many parts of automatic augmentation research, we end with a short proposal of best practices for sustained future progress in automatic augmentation methods.
翻訳日:2021-03-19 14:08:28 公開日:2021-03-18
# 大腸内視鏡表面の光増感による再建

Lighting Enhancement Aids Reconstruction of Colonoscopic Surfaces ( http://arxiv.org/abs/2103.10310v1 )

ライセンス: Link先を確認
Yubo Zhang, Shuxian Wang, Ruibin Ma, Sarah K. McGill, Julian G. Rosenman, Stephen M. Pizer(参考訳) 大腸内視鏡検査中の高いスクリーニング範囲は,大腸癌を効果的に予防するために重要である。 これまでの研究では、3Dの大腸内視鏡の映像をリアルタイムで再現することで、医師に救世主の地域を知らせることができた。 しかし,大腸内視鏡ビデオの照明不整合は,大腸内視鏡再建システムの重要な構成要素であるスラム最適化に支障を来す可能性がある。 本研究は大腸内視鏡ビデオの照明問題に焦点をあてる。 大腸内視鏡映像の照明一貫性を向上させるために,最近の映像フレームの強度分布に適応する照明補正が必要であった。 リアルタイムに実現するために,我々はRNNネットワークの設計と訓練を行った。 このネットワークはガンマ補正プロセスにおいてガンマ値に適応する。 大腸鏡視下表面再構成システムに応用し, 軽量モデルは再建率を大幅に向上させ, 大腸鏡視下ビデオセグメントの大部分を再構成可能とし, 既に再建済みセグメントの再構築品質を向上させる。

High screening coverage during colonoscopy is crucial to effectively prevent colon cancer. Previous work has allowed alerting the doctor to unsurveyed regions by reconstructing the 3D colonoscopic surface from colonoscopy videos in real-time. However, the lighting inconsistency of colonoscopy videos can cause a key component of the colonoscopic reconstruction system, the SLAM optimization, to fail. In this work we focus on the lighting problem in colonoscopy videos. To successfully improve the lighting consistency of colonoscopy videos, we have found necessary a lighting correction that adapts to the intensity distribution of recent video frames. To achieve this in real-time, we have designed and trained an RNN network. This network adapts the gamma value in a gamma-correction process. Applied in the colonoscopic surface reconstruction system, our light-weight model significantly boosts the reconstruction success rate, making a larger proportion of colonoscopy video segments reconstructable and improving the reconstruction quality of the already reconstructed segments.
翻訳日:2021-03-19 14:08:14 公開日:2021-03-18
# ディープネットワークにおける低位単純バイアス

The Low-Rank Simplicity Bias in Deep Networks ( http://arxiv.org/abs/2103.10427v1 )

ライセンス: Link先を確認
Minyoung Huh, Hossein Mobahi, Richard Zhang, Brian Cheung, Pulkit Agrawal, Phillip Isola(参考訳) 現代のディープニューラルネットワークは、トレーニングされているデータと比較して非常に過度にパラメータ化されている。 なぜディープネットワークはトレーニングデータに過度に適合しないのか? 我々は,より深いネットが暗黙的にバイアスをかけられ,より低いランクの解が見つかるという仮説と,それらを一般化する解であるとする。 本稿では, 線形ニューラルネットワークの深部化に伴い, 低効率な解の体積が単調に増加することを証明する。 次に、我々の主張が有限幅モデルに真であることを示す。 より深い非線形ネットワークは、カーネルが低い階数を持つ特徴空間を学ぶ。 さらに, 深部非線形モデルの線形過パラメータ化を低ランクバイアスの誘発に応用し, 有効モデルの容量を変えることなく一般化性能を向上させることを実証する。 様々なモデルアーキテクチャについて評価し、imagenetを含む画像分類タスクにおいて、線形オーバーパラメータモデルが既存のベースラインよりも優れていることを実証する。

Modern deep neural networks are highly over-parameterized compared to the data on which they are trained, yet they often generalize remarkably well. A flurry of recent work has asked: why do deep networks not overfit to their training data? We investigate the hypothesis that deeper nets are implicitly biased to find lower rank solutions and that these are the solutions that generalize well. We prove for the asymptotic case that the percent volume of low effective-rank solutions increases monotonically as linear neural networks are made deeper. We then show empirically that our claim holds true on finite width models. We further empirically find that a similar result holds for non-linear networks: deeper non-linear networks learn a feature space whose kernel has a lower rank. We further demonstrate how linear over-parameterization of deep non-linear models can be used to induce low-rank bias, improving generalization performance without changing the effective model capacity. We evaluate on various model architectures and demonstrate that linearly over-parameterized models outperform existing baselines on image classification tasks, including ImageNet.
翻訳日:2021-03-19 14:07:59 公開日:2021-03-18
# 深層強化学習支援ran slicing enforcement for b5g latency sensitive services

Deep Reinforcement Learning-Aided RAN Slicing Enforcement for B5G Latency Sensitive Services ( http://arxiv.org/abs/2103.10277v1 )

ライセンス: Link先を確認
Sergio Martiradonna, Andrea Abrardo, Marco Moretti, Giuseppe Piro, Gennaro Boggia(参考訳) ネットワークエッジにおけるクラウドコンピューティング機能と人工知能の組み合わせにより、将来のモバイルネットワークをサービスおよび無線対応エンティティに転換し、今後の遅延に敏感なアプリケーションの要件に対処できるようになる。 この文脈では、エッジインテリジェンスを利用して、無線アクセスネットワークスライシング(第5世代ネットワークスライシングよりも成熟度が低く、複雑な技術である)と無線リソース管理を動的かつ最適に管理することが難しい研究目標である。 本稿では,遅延に敏感なアプリケーションをサポートする無線アクセスネットワークスライシングと無線リソース管理を最適化するために,ネットワークの端で深層強化学習を活用するアーキテクチャを提案する。 提案手法の有効性を,自律走行型ユースケースを考慮したコンピュータシミュレーションにより検討した。

The combination of cloud computing capabilities at the network edge and artificial intelligence promise to turn future mobile networks into service- and radio-aware entities, able to address the requirements of upcoming latency-sensitive applications. In this context, a challenging research goal is to exploit edge intelligence to dynamically and optimally manage the Radio Access Network Slicing (that is a less mature and more complex technology than fifth-generation Network Slicing) and Radio Resource Management, which is a very complex task due to the mostly unpredictably nature of the wireless channel. This paper presents a novel architecture that leverages Deep Reinforcement Learning at the edge of the network in order to address Radio Access Network Slicing and Radio Resource Management optimization supporting latency-sensitive applications. The effectiveness of our proposal against baseline methodologies is investigated through computer simulation, by considering an autonomous-driving use-case.
翻訳日:2021-03-19 14:07:44 公開日:2021-03-18
# ニューラルネットワークで符号化されたデータ駆動プリミティブによるベイズイメージング:理論、手法、アルゴリズム

Bayesian Imaging With Data-Driven Priors Encoded by Neural Networks: Theory, Methods, and Algorithms ( http://arxiv.org/abs/2103.10182v1 )

ライセンス: Link先を確認
Matthew Holden, Marcelo Pereyra, Konstantinos C. Zygalakis(参考訳) 本稿では,事前知識がトレーニングデータとして利用可能である逆問題に対して,ベイズ推定を行う新しい手法を提案する。 多様体仮説に従い、生成的モデリング手法を採用することにより、変動型オートエンコーダや生成型逆ネットワークを用いて、トレーニングデータから学習可能な、環境空間のサブマニフォールド上でサポートされたデータ駆動前置モデルを構築する。 簡易検証可能な条件下では,関連する後方分布と後方モーメントの存在と適切性を確立し,ベイズ推定器に対する厳密な基礎と不確実性定量化分析を提供する。 ベイズ計算は、多様体上の事前条件付きcrank-nicolsonアルゴリズムの並列テンパレートバージョンを用いて行われ、これらのデータ駆動モデルの非凸性にエルゴードかつロバストであることが示されている。 点推定器と不確実性定量化解析に加えて,データ駆動前駆者が信頼できない状況を自動的に検出するモデルの誤特定テストを行い,学習データから直接潜在空間の次元を識別する方法を説明する。 提案手法は、MNISTデータセットによる様々な実験で説明され、芸術的状態から代替画像再構成アプローチよりも優れている。 モデル精度解析により、データ駆動モデルによって報告されるベイズ確率もまた確率の頻繁な定義の下で著しく正確であることが示された。

This paper proposes a new methodology for performing Bayesian inference in imaging inverse problems where the prior knowledge is available in the form of training data. Following the manifold hypothesis and adopting a generative modelling approach, we construct a data-driven prior that is supported on a sub-manifold of the ambient space, which we can learn from the training data by using a variational autoencoder or a generative adversarial network. We establish the existence and well-posedness of the associated posterior distribution and posterior moments under easily verifiable conditions, providing a rigorous underpinning for Bayesian estimators and uncertainty quantification analyses. Bayesian computation is performed by using a parallel tempered version of the preconditioned Crank-Nicolson algorithm on the manifold, which is shown to be ergodic and robust to the non-convex nature of these data-driven models. In addition to point estimators and uncertainty quantification analyses, we derive a model misspecification test to automatically detect situations where the data-driven prior is unreliable, and explain how to identify the dimension of the latent space directly from the training data. The proposed approach is illustrated with a range of experiments with the MNIST dataset, where it outperforms alternative image reconstruction approaches from the state of the art. A model accuracy analysis suggests that the Bayesian probabilities reported by the data-driven models are also remarkably accurate under a frequentist definition of probability.
翻訳日:2021-03-19 14:07:27 公開日:2021-03-18
# 微分方程式とデータからの合同推論のための確率的状態空間モデル

A Probabilistic State Space Model for Joint Inference from Differential Equations and Data ( http://arxiv.org/abs/2103.10153v1 )

ライセンス: Link先を確認
Jonathan Schmidt, Nicholas Kr\"amer, Philipp Hennig(参考訳) 微分方程式を持つ力学モデルは、機械学習の科学的応用の鍵となる要素である。 このようなモデルの推論は通常、微分方程式を何度も解くため、計算的に要求される。 ここでの主な問題は、数値解法が標準的な推論技術と組み合わせるのが難しいことである。 確率的数値学における最近の研究は、通常の微分方程式(ODE)の解法をベイズフィルタで直接表現する新しいクラスを開発した。 ここでは、このような手法がODE自体の潜在力モデルと、概念的および数値的容易性で直接結合可能であることを示す。 すると、拡張カルマンフィルタ/スムーズな 1 つの ODE 解の1 つの線形複雑パスにおいて、潜在力と ODE 解に対して近似ベイズ近似を実行することができる。 本研究では,covid-19流行データに基づく非パラメトリックsirdモデルを訓練することにより,アルゴリズムの表現力と性能を示す。

Mechanistic models with differential equations are a key component of scientific applications of machine learning. Inference in such models is usually computationally demanding, because it involves repeatedly solving the differential equation. The main problem here is that the numerical solver is hard to combine with standard inference techniques. Recent work in probabilistic numerics has developed a new class of solvers for ordinary differential equations (ODEs) that phrase the solution process directly in terms of Bayesian filtering. We here show that this allows such methods to be combined very directly, with conceptual and numerical ease, with latent force models in the ODE itself. It then becomes possible to perform approximate Bayesian inference on the latent force as well as the ODE solution in a single, linear complexity pass of an extended Kalman filter / smoother - that is, at the cost of computing a single ODE solution. We demonstrate the expressiveness and performance of the algorithm by training a non-parametric SIRD model on data from the COVID-19 outbreak.
翻訳日:2021-03-19 14:07:03 公開日:2021-03-18
# 単眼視覚オドメトリーにおける深部オンライン補正

Deep Online Correction for Monocular Visual Odometry ( http://arxiv.org/abs/2103.10029v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Wei Sui, Xinggang Wang, Wenming Meng, Hongmei Zhu, Qian Zhang(参考訳) 本研究では,モノクロ視覚計測のための新しい深層オンライン補正(DOC)フレームワークを提案する。 まず、深度マップと最初のポーズは、自己管理的な方法で訓練された畳み込みニューラルネットワーク(CNN)から得られる。 第2に、cnnが予測するポーズは、推論フェーズ中のポーズの勾配更新による測光誤差を最小化し、さらに改善される。 提案手法の利点は2つある: 1) オンライン学習法と異なり、DOCはCNNのパラメータの勾配伝搬を計算する必要はない。 したがって、推論フェーズ中により多くの計算リソースを節約できる。 2) CNNと従来の手法を組み合わせたハイブリッド手法とは異なり,DOCはディープラーニング(DL)フレームワークに完全に依存している。 複雑なバックエンド最適化モジュールがなくても,提案手法は相対変換誤差 (RTE) = 0% を Seq の KITTI Odometry ベンチマークで達成できる。 従来の単分子VOフレームワークよりも優れており、ハイブリッドメソッドに匹敵する。

In this work, we propose a novel deep online correction (DOC) framework for monocular visual odometry. The whole pipeline has two stages: First, depth maps and initial poses are obtained from convolutional neural networks (CNNs) trained in self-supervised manners. Second, the poses predicted by CNNs are further improved by minimizing photometric errors via gradient updates of poses during inference phases. The benefits of our proposed method are twofold: 1) Different from online-learning methods, DOC does not need to calculate gradient propagation for parameters of CNNs. Thus, it saves more computation resources during inference phases. 2) Unlike hybrid methods that combine CNNs with traditional methods, DOC fully relies on deep learning (DL) frameworks. Though without complex back-end optimization modules, our method achieves outstanding performance with relative transform error (RTE) = 2.0% on KITTI Odometry benchmark for Seq. 09, which outperforms traditional monocular VO frameworks and is comparable to hybrid methods.
翻訳日:2021-03-19 14:06:37 公開日:2021-03-18
# 厚みスライスMRIにおける小標本サイズと弱視による認知症重症度分類

Dementia Severity Classification under Small Sample Size and Weak Supervision in Thick Slice MRI ( http://arxiv.org/abs/2103.10056v1 )

ライセンス: Link先を確認
Reza Shirkavand, Sana Ayromlou, Soroush Farghadani, Maedeh-sadat Tahaei, Fattane Pourakpour, Bahareh Siahlou, Zeynab Khodakarami, Mohammad H. Rohban, Mansoor Fatehi, and Hamid R. Rabiee(参考訳) MR画像中の特定のバイオマーカーによる認知症の早期発見は、積極的に支援戦略を開発する上で重要な役割を担っている。 fazekasスケールは、白質病変の重症度とそれによる疾患の正確な定量的評価を促進する。 認知症のバイオマーカーは多種多様で包括的文書化には時間がかかる。 したがって、これらのバイオマーカーを自動的に抽出する努力は、レイター間の相違を減らしながら臨床的に価値がある。 そこで本研究では,Fazekasスケールによる重症度を,心室中白質 (PVWM) と深部白質 (DWM) の変化による視覚的バイオマーカーによって分類することを提案する。 MRIスタック全体への重度ラベルの割り当てという形での、小さなトレーニングサンプルサイズと弱い監督が主な課題である。 上記の問題に対処するために,自己教師付き表現学習,複数インスタンス学習,適切な前処理ステップを活用するディープラーニングパイプラインを開発した。 この領域で有用な機能の自己教師あり学習には,非線形変換,局所シャッフル,イン・アンド・アウト・ペインティングなどのプリテキストタスクを用いる。 さらに、注意モデルを用いて、ファゼカススケールを教師なしで予測するための各MRIスライスの関連性を決定する。 以上の結果から, 認知症分類において, 認知症分類の分類において, マクロ平均f1スコアをpvwmでは61%から76%に, dwmでは58%から69.2%に改善した。

Early detection of dementia through specific biomarkers in MR images plays a critical role in developing support strategies proactively. Fazekas scale facilitates an accurate quantitative assessment of the severity of white matter lesions and hence the disease. Imaging Biomarkers of dementia are multiple and comprehensive documentation of them is time-consuming. Therefore, any effort to automatically extract these biomarkers will be of clinical value while reducing inter-rater discrepancies. To tackle this problem, we propose to classify the disease severity based on the Fazekas scale through the visual biomarkers, namely the Periventricular White Matter (PVWM) and the Deep White Matter (DWM) changes, in the real-world setting of thick-slice MRI. Small training sample size and weak supervision in form of assigning severity labels to the whole MRI stack are among the main challenges. To combat the mentioned issues, we have developed a deep learning pipeline that employs self-supervised representation learning, multiple instance learning, and appropriate pre-processing steps. We use pretext tasks such as non-linear transformation, local shuffling, in- and out-painting for self-supervised learning of useful features in this domain. Furthermore, an attention model is used to determine the relevance of each MRI slice for predicting the Fazekas scale in an unsupervised manner. We show the significant superiority of our method in distinguishing different classes of dementia compared to state-of-the-art methods in our mentioned setting, which improves the macro averaged F1-score of state-of-the-art from 61% to 76% in PVWM, and from 58% to 69.2% in DWM.
翻訳日:2021-03-19 14:06:21 公開日:2021-03-18
# 3次元イメージングにおける効率的な追跡のための等変フィルタ

Equivariant Filters for Efficient Tracking in 3D Imaging ( http://arxiv.org/abs/2103.10255v1 )

ライセンス: Link先を確認
Daniel Moyer, Esra Abaci Turk, P Ellen Grant, William M. Wells, and Polina Golland(参考訳) 固定計算コストと最先端性能を有する3D画像のオブジェクト追跡手法を実証する。 従来手法では畳み込み層から変換パラメータを予測していた。 代わりに、畳み込み特徴のフラット化や完全連結層を含まないアーキテクチャを提案し、代わりに、入力と出力間の変換(例えば)を保存するために同変フィルタに依存する。 rot./trans 入力の回転/変換)。 変換はフィルターの出力から閉じた形で導出される。 この方法はリアルタイムトラッキングなどの低レイテンシを必要とするアプリケーションに有用である。 我々は,人工的に拡張した成人脳mriと,目的とする胎児脳mriのモデルを示す。

We demonstrate an object tracking method for {3D} images with fixed computational cost and state-of-the-art performance. Previous methods predicted transformation parameters from convolutional layers. We instead propose an architecture that does not include either flattening of convolutional features or fully connected layers, but instead relies on equivariant filters to preserve transformations between inputs and outputs (e.g. rot./trans. of inputs rotate/translate outputs). The transformation is then derived in closed form from the outputs of the filters. This method is useful for applications requiring low latency, such as real-time tracking. We demonstrate our model on synthetically augmented adult brain MRI, as well as fetal brain MRI, which is the intended use-case.
翻訳日:2021-03-19 14:05:50 公開日:2021-03-18
# Co-Modulated Generative Adversarial Networkによる大規模画像補完

Large Scale Image Completion via Co-Modulated Generative Adversarial Networks ( http://arxiv.org/abs/2103.10428v1 )

ライセンス: Link先を確認
Shengyu Zhao, Jonathan Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I Chang, Yan Xu(参考訳) 条件付き生成逆数ネットワークの多数のタスク固有変種が画像補完のために開発されている。 しかし、大規模な欠落領域を扱う場合、既存のアルゴリズムはすべて失敗する傾向があるという深刻な制限は残る。 この課題を克服するために,条件表現と確率表現の両方の共変調により,画像条件と最近の変調された非条件生成アーキテクチャのギャップを埋める,汎用的な新しいアプローチを提案する。 また, 画像補完のための定量的指標が不十分なため, 特徴空間における線形分離性による実画像と比較して, 画像の知覚忠実度を強く測定するPaired/Unpaired Inception Discriminative Score (P-IDS/U-IDS) を提案する。 実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。 コードはhttps://github.com/zsyzzsoft/co-mod-ganで入手できる。

Numerous task-specific variants of conditional generative adversarial networks have been developed for image completion. Yet, a serious limitation remains that all existing algorithms tend to fail when handling large-scale missing regions. To overcome this challenge, we propose a generic new approach that bridges the gap between image-conditional and recent modulated unconditional generative architectures via co-modulation of both conditional and stochastic style representations. Also, due to the lack of good quantitative metrics for image completion, we propose the new Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS), which robustly measures the perceptual fidelity of inpainted images compared to real images via linear separability in a feature space. Experiments demonstrate superior performance in terms of both quality and diversity over state-of-the-art methods in free-form image completion and easy generalization to image-to-image translation. Code is available at https://github.com/zsyzzsoft/co-mod-gan.
翻訳日:2021-03-19 14:05:40 公開日:2021-03-18
# 線形包帯のTop-m識別

Top-m identification for linear bandits ( http://arxiv.org/abs/2103.10070v1 )

ライセンス: Link先を確認
Cl\'emence R\'eda (UP M\'edecine Paris Nord, INSERM), Emilie Kaufmann (CNRS, Lille DECCID SID), Andr\'ee Delahaye-Duriez (UP M\'edecine Paris Nord, INSERM)(参考訳) 薬物再生産への応用に動機づけられ,固定信頼設定において,リニアバンディットモデルにおいて最大の手段を持つm$\ge$ 1アームの同定に取り組む最初のアルゴリズムを提案する。 これらのアルゴリズムはgap-indexフォーカスアルゴリズム(gifa)のジェネリックファミリーに属し、線形バンドイットにおけるトップm識別に導入する。 本稿では,これらのアルゴリズムを統一的に解析することにより,特徴量の使用がサンプルの複雑さを減らしうることを示す。 さらに,これらのアルゴリズムをシミュレーションデータと単純な薬剤再導入タスクで実証的に検証する。

Motivated by an application to drug repurposing, we propose the first algorithms to tackle the identification of the m $\ge$ 1 arms with largest means in a linear bandit model, in the fixed-confidence setting. These algorithms belong to the generic family of Gap-Index Focused Algorithms (GIFA) that we introduce for Top-m identification in linear bandits. We propose a unified analysis of these algorithms, which shows how the use of features might decrease the sample complexity. We further validate these algorithms empirically on simulated data and on a simple drug repurposing task.
翻訳日:2021-03-19 14:05:21 公開日:2021-03-18
# モデル抽出と逆転送性、BERTは脆弱性です!

Model Extraction and Adversarial Transferability, Your BERT is Vulnerable! ( http://arxiv.org/abs/2103.10013v1 )

ライセンス: Link先を確認
Xuanli He and Lingjuan Lyu and Qiongkai Xu and Lichao Sun(参考訳) 自然言語処理(NLP)タスクは、テキスト分類からテキスト生成まで、BERTのような事前訓練された言語モデルによって革新されている。 これにより企業は、ダウンストリームタスク用に微調整されたBERTモデルをカプセル化することで、強力なAPIを簡単に構築できる。 しかし、微調整されたBERTモデルがサービスとしてデプロイされると、悪意のあるユーザによって起動される異なる攻撃に悩まされる可能性がある。 本研究では,まず,複数のベンチマークデータセット上のBERTベースのAPIサービス(被害者/ターゲットモデル)を,事前知識とクエリに制限のある形で盗む方法を示す。 さらに, 抽出したモデルが, 被害者モデルに対する高度に転送可能な攻撃につながることを示す。 我々の研究は、被害者モデルと攻撃モデルとの間にアーキテクチャ上のミスマッチがあったとしても、BERTベースのAPIサービスの潜在的な脆弱性が依然として保持されていることを示唆している。 最後に,被害者モデルを守るための2つの防衛戦略について検討し,被害者モデルの性能が犠牲にされない限り,モデル抽出と敵対的伝達性の両方が,ターゲットモデルに効果的に侵害する可能性があることを発見した。

Natural language processing (NLP) tasks, ranging from text classification to text generation, have been revolutionised by the pre-trained language models, such as BERT. This allows corporations to easily build powerful APIs by encapsulating fine-tuned BERT models for downstream tasks. However, when a fine-tuned BERT model is deployed as a service, it may suffer from different attacks launched by malicious users. In this work, we first present how an adversary can steal a BERT-based API service (the victim/target model) on multiple benchmark datasets with limited prior knowledge and queries. We further show that the extracted model can lead to highly transferable adversarial attacks against the victim model. Our studies indicate that the potential vulnerabilities of BERT-based API services still hold, even when there is an architectural mismatch between the victim model and the attack model. Finally, we investigate two defence strategies to protect the victim model and find that unless the performance of the victim model is sacrificed, both model ex-traction and adversarial transferability can effectively compromise the target models
翻訳日:2021-03-19 14:05:10 公開日:2021-03-18
# Quinductor:Universal Dependenciesを用いた読解理解質問生成のための多言語データ駆動手法

Quinductor: a multilingual data-driven method for generating reading-comprehension questions using Universal Dependencies ( http://arxiv.org/abs/2103.10121v1 )

ライセンス: Link先を確認
Dmytro Kalpakchi and Johan Boye(参考訳) 係り受け木を用いた読解質問を生成する多言語データ駆動手法を提案する。 本手法は,低リソース言語に対して,強く,ほとんど決定論的かつ安価なベースラインを提供する。 言語固有のコーパスは依然として必要だが、そのサイズは現代のニューラルネットワーク生成(QG)アーキテクチャで必要とされるものに近い。 本手法は文献で報告したQGベースラインを超え,人的評価の点で優れた性能を示す。

We propose a multilingual data-driven method for generating reading comprehension questions using dependency trees. Our method provides a strong, mostly deterministic, and inexpensive-to-train baseline for less-resourced languages. While a language-specific corpus is still required, its size is nowhere near those required by modern neural question generation (QG) architectures. Our method surpasses QG baselines previously reported in the literature and shows a good performance in terms of human evaluation.
翻訳日:2021-03-19 14:04:53 公開日:2021-03-18
# スパースSeq2Seq検索空間の平滑化と縮小

Smoothing and Shrinking the Sparse Seq2Seq Search Space ( http://arxiv.org/abs/2103.10291v1 )

ライセンス: Link先を確認
Ben Peters and Andr\'e F. T. Martins(参考訳) 現在のシーケンスからシーケンスへのモデルは、クロスエントロピーを最小化し、softmaxを使ってターゲットシーケンス上の局所正規化確率を計算するように訓練されている。 モデルは短く不適切な仮説に高いスコアを与え、しばしば空の文字列をargmaxにします。 最近提案された entmax-based sparse sequence-to-sequence model は、ゼロ確率を悪い仮説に割り当てることで探索空間を縮小できるが、変圧器によるワードレベルタスクの処理能力は検証されていない。 本研究では,entmaxを用いたモデルが猫の舌問題を効果的に解決し,ニューラルマシン翻訳におけるモデルエラーの原因を取り除いたことを示す。 さらに,限界正規化手法であるラベル平滑化を,クロスエントロピーとエントマックス損失の両方を含むフェンチェル・ヤング損失の広いファミリーに一般化する。 得られたラベルスムーズなエントマックス損失モデルにより,多言語グラファイム-音素変換技術が新たに確立され,言語間のモーフィジカルインフレクションと機械翻訳におけるキャリブレーション特性が向上した。

Current sequence-to-sequence models are trained to minimize cross-entropy and use softmax to compute the locally normalized probabilities over target sequences. While this setup has led to strong results in a variety of tasks, one unsatisfying aspect is its length bias: models give high scores to short, inadequate hypotheses and often make the empty string the argmax -- the so-called cat got your tongue problem. Recently proposed entmax-based sparse sequence-to-sequence models present a possible solution, since they can shrink the search space by assigning zero probability to bad hypotheses, but their ability to handle word-level tasks with transformers has never been tested. In this work, we show that entmax-based models effectively solve the cat got your tongue problem, removing a major source of model error for neural machine translation. In addition, we generalize label smoothing, a critical regularization technique, to the broader family of Fenchel-Young losses, which includes both cross-entropy and the entmax losses. Our resulting label-smoothed entmax loss models set a new state of the art on multilingual grapheme-to-phoneme conversion and deliver improvements and better calibration properties on cross-lingual morphological inflection and machine translation for 6 language pairs.
翻訳日:2021-03-19 14:04:45 公開日:2021-03-18
# 人間-AI共生 : 最近の研究動向

Human-AI Symbiosis: A Survey of Current Approaches ( http://arxiv.org/abs/2103.09990v1 )

ライセンス: Link先を確認
Zahra Zahedi and Subbarao Kambhampati(参考訳) 本稿では,人間とAIのコラボレーションにおける作業スレッドの包括的概要を提供する。 補完のフロー,タスクの水平方向,モデル表現,知識レベル,チーム目標など,AIチームにおける作業のさまざまな側面を強調することで,これらの次元に応じて,最近の作業の分類を行う。 この調査は、人間-AIチームの研究成果と、この分野の新しい研究者へのガイダンスとのより明確なつながりを提供することを期待している。

In this paper, we aim at providing a comprehensive outline of the different threads of work in human-AI collaboration. By highlighting various aspects of works on the human-AI team such as the flow of complementing, task horizon, model representation, knowledge level, and teaming goal, we make a taxonomy of recent works according to these dimensions. We hope that the survey will provide a more clear connection between the works in the human-AI team and guidance to new researchers in this area.
翻訳日:2021-03-19 14:04:20 公開日:2021-03-18
# 深層Wienerのデコンボリューション: 深層学習と画像のデコンボリューション

Deep Wiener Deconvolution: Wiener Meets Deep Learning for Image Deblurring ( http://arxiv.org/abs/2103.09962v1 )

ライセンス: Link先を確認
Jiangxin Dong, Stefan Roth, Bernt Schiele(参考訳) 従来の手法と深層学習を組み合わせた,非盲点画像の難読化のための簡易かつ効果的な手法を提案する。 標準的な画像空間で画像を直接色付けする既存の手法とは対照的に,古典的なWienerデコンボリューションフレームワークを学習深い特徴と統合することにより,特徴空間における明示的なデコンボリューション処理を行うことを提案する。 マルチスケールの機能改善モジュールは、分離された深い特徴から退色したイメージを予測し、細部と小さな構造を徐々に復元する。 提案するモデルはエンドツーエンドでトレーニングされ、シミュレーションと実世界のイメージボケの両方のシナリオで評価される。 実験結果から,提案した深部Wienerデコンボリューションネットワークは,可視的に少ないアーチファクトで劣化することを示す。 さらに,本手法は最先端の非ブラインド画像デブロワー法よりも広いマージンで定量的に優れている。

We present a simple and effective approach for non-blind image deblurring, combining classical techniques and deep learning. In contrast to existing methods that deblur the image directly in the standard image space, we propose to perform an explicit deconvolution process in a feature space by integrating a classical Wiener deconvolution framework with learned deep features. A multi-scale feature refinement module then predicts the deblurred image from the deconvolved deep features, progressively recovering detail and small-scale structures. The proposed model is trained in an end-to-end manner and evaluated on scenarios with both simulated and real-world image blur. Our extensive experimental results show that the proposed deep Wiener deconvolution network facilitates deblurred results with visibly fewer artifacts. Moreover, our approach quantitatively outperforms state-of-the-art non-blind image deblurring methods by a wide margin.
翻訳日:2021-03-19 14:03:27 公開日:2021-03-18
# 階層型VQ-VAEを用いた画像インペインティングのための横構造生成

Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE ( http://arxiv.org/abs/2103.10022v1 )

ライセンス: Link先を確認
Jialun Peng, Dong Liu, Songcen Xu, Houqiang Li(参考訳) 追加の制約を伴わない不完全なイメージが与えられた場合、画像の塗装は、可視性のあるように見える限り、ネイティブに複数のソリューションを可能にする。 近年,多重解法が提案され,多様な結果を生み出す可能性が示唆されている。 しかし、これらの方法は、例えば、各解の品質を保証するのに困難である。 歪んだ構造やぼやけたテクスチャを生み出します 本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する多彩な塗装用2段階モデルを提案する。 提案手法は階層型ベクトル量子化変分自動エンコーダ (VQ-VAE) に着想を得たものである。 さらに、VQVAEにおけるベクトル量子化は、構造情報上の離散分布の自己回帰モデリングを可能にする。 分布からのサンプリングは多様で高品質な構造を容易に生成することができ、モデルの第一段階を構成する。 第2段階では,テクスチャ生成ネットワーク内の構造的注意モジュールを提案する。 さらに、VQ-VAEを再利用して2つの特徴損失を計算し、構造コヒーレンスとテクスチャリアリズムを改善する。 CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布液の多様性を向上するだけでなく,生成した複数の画像の視覚的品質を向上させる。 コードとモデルは、https://github.com/USTC-JialunPeng/Diverse-Structure-Inpaintingで入手できる。

Given an incomplete image without additional constraint, image inpainting natively allows for multiple solutions as long as they appear plausible. Recently, multiplesolution inpainting methods have been proposed and shown the potential of generating diverse results. However, these methods have difficulty in ensuring the quality of each solution, e.g. they produce distorted structure and/or blurry texture. We propose a two-stage model for diverse inpainting, where the first stage generates multiple coarse results each of which has a different structure, and the second stage refines each coarse result separately by augmenting texture. The proposed model is inspired by the hierarchical vector quantized variational auto-encoder (VQ-VAE), whose hierarchical architecture isentangles structural and textural information. In addition, the vector quantization in VQVAE enables autoregressive modeling of the discrete distribution over the structural information. Sampling from the distribution can easily generate diverse and high-quality structures, making up the first stage of our model. In the second stage, we propose a structural attention module inside the texture generation network, where the module utilizes the structural information to capture distant correlations. We further reuse the VQ-VAE to calculate two feature losses, which help improve structure coherence and texture realism, respectively. Experimental results on CelebA-HQ, Places2, and ImageNet datasets show that our method not only enhances the diversity of the inpainting solutions but also improves the visual quality of the generated multiple images. Code and models are available at: https://github.com/USTC-JialunPeng/Diverse-Structure-Inpainting.
翻訳日:2021-03-19 14:03:08 公開日:2021-03-18
# 回転平均問題に対する効率的なアルゴリズム

Efficient Algorithms for Rotation Averaging Problems ( http://arxiv.org/abs/2103.10024v1 )

ライセンス: Link先を確認
Yihong Dong, Lunchen Xie and Qingjiang Shi(参考訳) 回転平均化問題はコンピュータビジョン応用における基本的な課題である。 非凸回転制約のため、一般に解くのは非常に困難である。 文献で十分な最適性条件が利用できるが、定常点を達成するための yhedit{a} 高速収束アルゴリズムが欠如している。 本稿では, 問題構造を探索し, まず, 定常点への収束を保証したブロック座標降下(BCD)に基づく回転平均化アルゴリズムを提案する。 その後, 逐次上界最小化 (sum) 法を適用し, 代替回転平均化アルゴリズムを提案する。 SUMに基づく回転平均化アルゴリズムは並列に実装できるため、大規模回転平均化問題に対処するのにより適している。 数値実験により,提案手法は最先端アルゴリズムに比べて収束性能が優れていることを確認した。 さらに, 最適条件の検証により, 提案する2つのアルゴリズムが大域的最適解を実現できることを示す数値実験を行った。

The rotation averaging problem is a fundamental task in computer vision applications. It is generally very difficult to solve due to the nonconvex rotation constraints. While a sufficient optimality condition is available in the literature, there is a lack of \yhedit{a} fast convergent algorithm to achieve stationary points. In this paper, by exploring the problem structure, we first propose a block coordinate descent (BCD)-based rotation averaging algorithm with guaranteed convergence to stationary points. Afterwards, we further propose an alternative rotation averaging algorithm by applying successive upper-bound minimization (SUM) method. The SUM-based rotation averaging algorithm can be implemented in parallel and thus is more suitable for addressing large-scale rotation averaging problems. Numerical examples verify that the proposed rotation averaging algorithms have superior convergence performance as compared to the state-of-the-art algorithm. Moreover, by checking the sufficient optimality condition, we find from extensive numerical experiments that the proposed two algorithms can achieve globally optimal solutions.
翻訳日:2021-03-19 14:02:39 公開日:2021-03-18
# 競争ゲームにおけるロバストビジョンに基づくチート検出

Robust Vision-Based Cheat Detection in Competitive Gaming ( http://arxiv.org/abs/2103.10031v1 )

ライセンス: Link先を確認
Aditya Jonnalagadda, Iuri Frosio, Seth Schneider, Morgan McGuire, and Joohwan Kim(参考訳) ゲームパブリッシャーや反チート企業は、オンラインゲームにおける不正行為をブロックすることに失敗した。 本稿では,フレームバッファの最終状態をキャプチャし,不正オーバーレイを検出する視覚ベースアプローチを提案する。 本研究の目的は,DNN検出器を2つのシューティングゲームと3つの不正ソフトウェアを用いて収集した新しいデータセット上で訓練し,評価することである。 ローカルまたはグローバルスケールで動作する異なるDNNアーキテクチャの利点と欠点について検討する。 出力信頼度分析を用いて、信頼できない検出を回避し、ネットワーク再トレーニングが必要なときに通知する。 アブレーション研究において,潜在的な敵攻撃にも耐性を持つ検出器の構築と,その信頼度解析との相互作用を検討するために,区間境界伝播を用いた方法を示す。 以上の結果から,機械学習によるロバストで効果的な解凍は事実上実現可能であり,オンラインゲームにおける公正なプレーを保証するために使用することができる。

Game publishers and anti-cheat companies have been unsuccessful in blocking cheating in online gaming. We propose a novel, vision-based approach that captures the final state of the frame buffer and detects illicit overlays. To this aim, we train and evaluate a DNN detector on a new dataset, collected using two first-person shooter games and three cheating software. We study the advantages and disadvantages of different DNN architectures operating on a local or global scale. We use output confidence analysis to avoid unreliable detections and inform when network retraining is required. In an ablation study, we show how to use Interval Bound Propagation to build a detector that is also resistant to potential adversarial attacks and study its interaction with confidence analysis. Our results show that robust and effective anti-cheating through machine learning is practically feasible and can be used to guarantee fair play in online gaming.
翻訳日:2021-03-19 14:02:27 公開日:2021-03-18
# 印象2Font:印象の特定によるフォントの生成

Impressions2Font: Generating Fonts by Specifying Impressions ( http://arxiv.org/abs/2103.10036v1 )

ライセンス: Link先を確認
Seiya Matsuda, Akisato Kimura, Seiichi Uchida(参考訳) 様々なフォントは様々な印象を与え、しばしば単語で表される。 本稿では,印象のあるフォント画像を生成するImpressions2Font(Imp2Font)を提案する。 imp2fontはconditional generative adversarial networks (gans)の拡張版である。 より正確には、Imp2Fontはフォント画像を生成する条件として任意の数の印象語を受け入れる。 これらの印象語は、単語埋め込み技術に基づいて構築された印象埋め込みモジュールによりソフト制約ベクトルに変換する。 定性的かつ定量的な評価は、Imp2Fontが複数の印象語や未学習語を提供することによって比較法よりも高品質なフォント画像を生成することを証明している。

Various fonts give us various impressions, which are often represented by words. This paper proposes Impressions2Font (Imp2Font) that generates font images with specific impressions. Imp2Font is an extended version of conditional generative adversarial networks (GANs). More precisely, Imp2Font accepts an arbitrary number of impression words as the condition to generate the font images. These impression words are converted into a soft-constraint vector by an impression embedding module built on a word embedding technique. Qualitative and quantitative evaluations prove that Imp2Font generates font images with higher quality than comparative methods by providing multiple impression words or even unlearned words.
翻訳日:2021-03-19 14:02:12 公開日:2021-03-18
# SparsePoint:完全なエンドツーエンドのスパース3Dオブジェクト検出器

SparsePoint: Fully End-to-End Sparse 3D Object Detector ( http://arxiv.org/abs/2103.10042v1 )

ライセンス: Link先を確認
Zili Liu, Guodong Xu, Honghui Yang, Haifeng Liu, Deng Cai(参考訳) スパースオブジェクトの提案に基づくオブジェクト検出器は、2dドメインで成功していることが最近証明されている。 この開発は、3dオブジェクト検出器にも魅力的だ。 しかし, 3d領域の検索空間が著しく大きいことを考えると, スパース法を3dオブジェクト検出設定で採用できるかどうかはまだ疑問の余地がある。 本稿では,3次元物体検出のための最初のスパース法であるスパースポイントを提案する。 私たちのsparsepointでは、3dオブジェクトの最も可能性の高い位置をエンコードするために多くの学習可能な提案を採用しています。 さらに、冗長な提案除去のためのオブジェクトレベルのインタラクションと、一対一のラベル割り当てを提供するハンガリーのアルゴリズムにより、本手法はスパースかつ正確な予測を行うことができる。 SparsePointは、ScanNetV2、SUN RGB-D、S3DIS、Matterport3Dを含む4つのパブリックデータセットに、新たな最先端技術を設定する。 私たちのコードはまもなく公開されます。

Object detectors based on sparse object proposals have recently been proven to be successful in the 2D domain, which makes it possible to establish a fully end-to-end detector without time-consuming post-processing. This development is also attractive for 3D object detectors. However, considering the remarkably larger search space in the 3D domain, whether it is feasible to adopt the sparse method in the 3D object detection setting is still an open question. In this paper, we propose SparsePoint, the first sparse method for 3D object detection. Our SparsePoint adopts a number of learnable proposals to encode most likely potential positions of 3D objects and a foreground embedding to encode shared semantic features of all objects. Besides, with the attention module to provide object-level interaction for redundant proposal removal and Hungarian algorithm to supply one-one label assignment, our method can produce sparse and accurate predictions. SparsePoint sets a new state-of-the-art on four public datasets, including ScanNetV2, SUN RGB-D, S3DIS, and Matterport3D. Our code will be publicly available soon.
翻訳日:2021-03-19 14:02:03 公開日:2021-03-18
# ビデオ超解像に対する自己超解像適応法

Self-Supervised Adaptation for Video Super-Resolution ( http://arxiv.org/abs/2103.10081v1 )

ライセンス: Link先を確認
Jinsu Yoo and Tae Hyun Kim(参考訳) 最近のsingle-image super- resolution (sisr)ネットワークは、ネットワークパラメータを特定の入力画像に適応させることができ、入力データ内に存在する情報と大きな外部データセットを活用し、有望な結果を示している。 しかし、ビデオハンドリングに対するこれらの自己教師型SISRアプローチの拡張はまだ研究されていない。 そこで本研究では,従来のビデオスーパーレゾリューション(vsr)ネットワークが,地上データセットを使用せずにそのパラメータをビデオフレームに適用できる新しい学習アルゴリズムを提案する。 空間と時間にまたがる多数の自己相似パッチを利用することで、vsrネットワークの完全な事前学習性能を改善し、時間的に一貫性のあるビデオフレームを生成する。 また,より少ないハードウェアリソースで適応速度を高速化する試験時間知識蒸留技術を提案する。 本実験では,新たな学習アルゴリズムが最先端のvsrネットワークを微調整し,多数のベンチマークデータセットのパフォーマンスを実質的に向上できることを実証する。

Recent single-image super-resolution (SISR) networks, which can adapt their network parameters to specific input images, have shown promising results by exploiting the information available within the input data as well as large external datasets. However, the extension of these self-supervised SISR approaches to video handling has yet to be studied. Thus, we present a new learning algorithm that allows conventional video super-resolution (VSR) networks to adapt their parameters to test video frames without using the ground-truth datasets. By utilizing many self-similar patches across space and time, we improve the performance of fully pre-trained VSR networks and produce temporally consistent video frames. Moreover, we present a test-time knowledge distillation technique that accelerates the adaptation speed with less hardware resources. In our experiments, we demonstrate that our novel learning algorithm can fine-tune state-of-the-art VSR networks and substantially elevate performance on numerous benchmark datasets.
翻訳日:2021-03-19 14:01:42 公開日:2021-03-18
# TPPI-Net:高効率・実用的なハイパースペクトル画像分類を目指して

TPPI-Net: Towards Efficient and Practical Hyperspectral Image Classification ( http://arxiv.org/abs/2103.10084v1 )

ライセンス: Link先を確認
Hao Chen, Xiaohua Li, Jiliu Zhou(参考訳) ハイパースペクトル画像(HSI)分類はハイパースペクトルコミュニティにおいて最も活発な研究分野であり、そのスペクトル空間特性に基づいて画像の各ピクセルを特定のカテゴリに割り当てることを目的としている。 近年, スペクトル空間特徴に基づくDCNNが提案され, 顕著な分類性能を示した。 しかし、実際のhsiと向き合う場合、これらのネットワークは画像中のピクセルを1つずつ扱う必要がある。 隣接する画素間で何度も計算されるため、画素単位の処理戦略は非効率である。 本稿では,まず,HSI分類に新たなネットワーク設計機構TPPI(画素に基づくトレーニングと画像に基づく予測)を提案する。 そして、TPPI機構により、HSI分類のための技術ネットワークの状態に基づいてTPPI-Netを導出する。 実験の結果,提案したTPPI-Netは,HSI分類のための技術ネットワークの状態に匹敵する高い分類精度を得るだけでなく,ハイパースペクトル画像予測の計算複雑性を大幅に低減できることがわかった。

Hyperspectral Image(HSI) classification is the most vibrant field of research in the hyperspectral community, which aims to assign each pixel in the image to one certain category based on its spectral-spatial characteristics. Recently, some spectral-spatial-feature based DCNNs have been proposed and demonstrated remarkable classification performance. When facing a real HSI, however, these Networks have to deal with the pixels in the image one by one. The pixel-wise processing strategy is inefficient since there are numerous repeated calculations between adjacent pixels. In this paper, firstly, a brand new Network design mechanism TPPI (training based on pixel and prediction based on image) is proposed for HSI classification, which makes it possible to provide efficient and practical HSI classification with the restrictive conditions attached to the hyperspectral dataset. And then, according to the TPPI mechanism, TPPI-Net is derived based on the state of the art networks for HSI classification. Experimental results show that the proposed TPPI-Net can not only obtain high classification accuracy equivalent to the state of the art networks for HSI classification, but also greatly reduce the computational complexity of hyperspectral image prediction.
翻訳日:2021-03-19 14:01:26 公開日:2021-03-18
# ビデオ検索における意味的類似性について

On Semantic Similarity in Video Retrieval ( http://arxiv.org/abs/2103.10095v1 )

ライセンス: Link先を確認
Michael Wray, Hazel Doughty, Dima Damen(参考訳) 現在のビデオ検索の取り組みはすべて、単一のキャプションだけがクエリビデオに関連するというインスタンスベースの仮定に基づいて評価されている。 この仮定は、しばしばモデル検索能力を示すものではない性能比較をもたらすことを示す。 そこで本研究では, (i) 複数のビデオ/キャプションが等しく関連付けられ, 相対的なランキングがメソッドのパフォーマンスに影響を与えず, (ii) 検索されたビデオ/キャプションがクエリと類似度でランク付けされる,意味的類似度ビデオ検索への移行を提案する。 本稿では,大規模検索データセットにおける意味的類似性を付加アノテーションなしで推定するプロキシを提案する。 本稿では,3つのビデオ検索データセット(MSR-VTT,YouCook2,EPIC-KITCHENS)を用いて解析を行った。

Current video retrieval efforts all found their evaluation on an instance-based assumption, that only a single caption is relevant to a query video and vice versa. We demonstrate that this assumption results in performance comparisons often not indicative of models' retrieval capabilities. We propose a move to semantic similarity video retrieval, where (i) multiple videos/captions can be deemed equally relevant, and their relative ranking does not affect a method's reported performance and (ii) retrieved videos/captions are ranked by their similarity to a query. We propose several proxies to estimate semantic similarities in large-scale retrieval datasets, without additional annotations. Our analysis is performed on three commonly used video retrieval datasets (MSR-VTT, YouCook2 and EPIC-KITCHENS).
翻訳日:2021-03-19 14:01:07 公開日:2021-03-18
# 効率的な人物探索のための逐次エンドツーエンドネットワーク

Sequential End-to-end Network for Efficient Person Search ( http://arxiv.org/abs/2103.10148v1 )

ライセンス: Link先を確認
Zhengjia Li, Duoqian Miao(参考訳) 人物探索は、人物検出と人物再識別(re-ID)を共同で解決することを目的としている。 既存の研究は、Faster R-CNNに基づくエンドツーエンドネットワークを設計している。 しかし、より高速なR-CNNの並列構造のため、抽出された特徴は、検出された高品質なバウンディングボックスではなく、リージョン提案ネットワークによって生成された低品質の提案に由来する。 パーソナライズ検索は細かなタスクであり、このような劣った機能は再id性能を大幅に低下させる。 この問題に対処するため,SeqNet(Sequential End-to-end Network)を提案する。 seqnetでは、検出と再idはプログレッシブなプロセスと見なされ、2つのサブネットワークで順次取り組まれる。 さらに,コンテキスト情報を個人マッチングの重要な補完的手がかりとして効果的に活用するために,ロバストなコンテキスト2部グラフマッチング(cbgm)アルゴリズムを設計する。 CUHK-SYSU とPRW の2つの広く使われている人物探索ベンチマークにおいて,本手法が最先端の結果を得ることを示す。 また、このモデルは1つのgpu上で11.5fpsで動作し、既存のエンドツーエンドフレームワークに簡単に統合できます。

Person search aims at jointly solving Person Detection and Person Re-identification (re-ID). Existing works have designed end-to-end networks based on Faster R-CNN. However, due to the parallel structure of Faster R-CNN, the extracted features come from the low-quality proposals generated by the Region Proposal Network, rather than the detected high-quality bounding boxes. Person search is a fine-grained task and such inferior features will significantly reduce re-ID performance. To address this issue, we propose a Sequential End-to-end Network (SeqNet) to extract superior features. In SeqNet, detection and re-ID are considered as a progressive process and tackled with two sub-networks sequentially. In addition, we design a robust Context Bipartite Graph Matching (CBGM) algorithm to effectively employ context information as an important complementary cue for person matching. Extensive experiments on two widely used person search benchmarks, CUHK-SYSU and PRW, have shown that our method achieves state-of-the-art results. Also, our model runs at 11.5 fps on a single GPU and can be integrated into the existing end-to-end framework easily.
翻訳日:2021-03-19 14:00:53 公開日:2021-03-18
# マルチタスク深層学習による空間スペクトル符号化光場からのスペクトル再構成と異方性

Spectral Reconstruction and Disparity from Spatio-Spectrally Coded Light Fields via Multi-Task Deep Learning ( http://arxiv.org/abs/2103.10179v1 )

ライセンス: Link先を確認
Maximilian Schambach, Jiayang Shi, Michael Heizmann(参考訳) 本稿では、スペクトル中心ビューと、スペクトル符号化光場からのアライメントされた不均質マップを再構成する新しい手法を提案する。 我々は、符号化された測定値から中間のフルライトフィールドを再構成しないので、これを主再構成と呼ぶ。 符号化された光場は、スペクトル符号化されたマイクロレンズアレイを備えた非焦点設計の光場カメラが捉えたものに対応する。 このアプリケーションでは、スペクトル符号化された光フィールドカメラを単発の分光深度カメラと解釈することができる。 複数タスクの深層学習手法について検討し、再建性能を高めるための新たな補助的損失に基づくトレーニング戦略を提案する。 結果は、合成と、カスタムのカメラで撮影した新しい現実世界のスペクトル光フィールドデータセットを用いて評価されます。 その結果, 圧縮型センシング再構成と異質度推定とを比較した。 合成光界と実世界の光界の両方において高い再構成品質を達成する。 差分推定品質は、未符号化のRGB光場からの最先端の差分推定に匹敵するか、さらに優れる。

We present a novel method to reconstruct a spectral central view and its aligned disparity map from spatio-spectrally coded light fields. Since we do not reconstruct an intermediate full light field from the coded measurement, we refer to this as principal reconstruction. The coded light fields correspond to those captured by a light field camera in the unfocused design with a spectrally coded microlens array. In this application, the spectrally coded light field camera can be interpreted as a single-shot spectral depth camera. We investigate several multi-task deep learning methods and propose a new auxiliary loss-based training strategy to enhance the reconstruction performance. The results are evaluated using a synthetic as well as a new real-world spectral light field dataset that we captured using a custom-built camera. The results are compared to state-of-the art compressed sensing reconstruction and disparity estimation. We achieve a high reconstruction quality for both synthetic and real-world coded light fields. The disparity estimation quality is on par with or even outperforms state-of-the-art disparity estimation from uncoded RGB light fields.
翻訳日:2021-03-19 14:00:32 公開日:2021-03-18
# de-albinoと親和性を利用した表情表現の修正学習

Learning to Amend Facial Expression Representation via De-albino and Affinity ( http://arxiv.org/abs/2103.10189v1 )

ライセンス: Link先を確認
Jiawei Shi and Songhao Zhu(参考訳) 表情認識(英: face expression recognition、fer)は、顔の変種を分類するタスクである。 したがって、表情には特定の親密な関係がある。 現在のFERアルゴリズムではほとんど考慮されていないアフィニティ機能と呼ぶ。 さらに、画像のエッジ情報をキャプチャするために、畳み込みニューラルネットワーク(cnns)は一般にエッジパディングのホストを使用する。 それらは望ましいが、多層畳み込みの後、フィーチャマップは深く侵食される。 このプロセスで形成されたものをアルビノの特徴(albino features)と命名し、表現の表現を弱めます。 これらの課題に対処するため、Amend Representation Module (ARM) という新しいアーキテクチャを提案する。 ARMはプール層に代わるものだ。 理論的には、プール層を持つ任意のCNNに組み込むことができる。 ARMは,1) 浸食した特徴の重みを減らしてパディングの副作用を相殺する,2) ミニバッチ上での親和性を共有して表現学習を強化する,という2つの方向から表情表現を効果的に強化する。 データ不均衡の観点から、ネットワーク過適合を抑制するために、最小ランダム再サンプリング(MRR)方式を設計した。 公開ベンチマークの実験は、ARMがFERのパフォーマンスを著しく向上させることを示した。 検証精度はRAF-DBで90.55%、Affect-Netで64.49%、FER2013で71.38%であり、最先端の手法よりも高い。

Facial Expression Recognition (FER) is a classification task that points to face variants. Hence, there are certain intimate relationships between facial expressions. We call them affinity features, which are barely taken into account by current FER algorithms. Besides, to capture the edge information of the image, Convolutional Neural Networks (CNNs) generally utilize a host of edge paddings. Although they are desirable, the feature map is deeply eroded after multi-layer convolution. We name what has formed in this process the albino features, which definitely weaken the representation of the expression. To tackle these challenges, we propose a novel architecture named Amend Representation Module (ARM). ARM is a substitute for the pooling layer. Theoretically, it could be embedded in any CNN with a pooling layer. ARM efficiently enhances facial expression representation from two different directions: 1) reducing the weight of eroded features to offset the side effect of padding, and 2) sharing affinity features over mini-batch to strengthen the representation learning. In terms of data imbalance, we designed a minimal random resampling (MRR) scheme to suppress network overfitting. Experiments on public benchmarks prove that our ARM boosts the performance of FER remarkably. The validation accuracies are respectively 90.55% on RAF-DB, 64.49% on Affect-Net, and 71.38% on FER2013, exceeding current state-of-the-art methods.
翻訳日:2021-03-19 14:00:18 公開日:2021-03-18
# 開集合認識のための1-vs-Restネットワークの集団決定

Collective Decision of One-vs-Rest Networks for Open Set Recognition ( http://arxiv.org/abs/2103.10230v1 )

ライセンス: Link先を確認
Jaeyeon Jang and Chang Ouk Kim(参考訳) トレーニング中に見えない未知の例は、しばしば現実世界の機械学習タスクに現れ、インテリジェントな自己学習システムは、既知の例と未知の例を区別することができる。 そこで, 未知を分類し, 識別する問題に対処するオープンセット認識(OSR)が最近注目されている。 しかし、ソフトマックス層を用いた従来のディープニューラルネットワークは一般化に弱いため、未知数に対して高い信頼度を得られる。 本稿では,未知数を拒否する厳密で洗練された決定境界を設定しながら,既知の分類性能を維持し,osrの性能を最大化できるという直観に基づく単純なosr手法を提案する。 この目的のために、複数のワンバスレストネットワーク(OVRN)が畳み込みニューラルネットワーク特徴抽出器に従う新しいネットワーク構造を提案する。 ここで、OVRNは単純なフィードフォワードニューラルネットワークであり、クラス固有の差別的特徴を学習することで非マッチングを拒否する能力を高める。 さらに、集合的決定スコアは、ovrnsが到達した複数の決定を組み合わせて、過剰一般化を緩和することによってモデル化される。 実験の結果, オーバージェネレーションを効果的に低減することにより, 提案手法は最先端の手法よりも優れた性能を示した。

Unknown examples that are unseen during training often appear in real-world machine learning tasks, and an intelligent self-learning system should be able to distinguish between known and unknown examples. Accordingly, open set recognition (OSR), which addresses the problem of classifying knowns and identifying unknowns, has recently been highlighted. However, conventional deep neural networks using a softmax layer are vulnerable to overgeneralization, producing high confidence scores for unknowns. In this paper, we propose a simple OSR method based on the intuition that OSR performance can be maximized by setting strict and sophisticated decision boundaries that reject unknowns while maintaining satisfactory classification performance on knowns. For this purpose, a novel network structure is proposed, in which multiple one-vs-rest networks (OVRNs) follow a convolutional neural network feature extractor. Here, the OVRN is a simple feed-forward neural network that enhances the ability to reject nonmatches by learning class-specific discriminative features. Furthermore, the collective decision score is modeled by combining the multiple decisions reached by the OVRNs to alleviate overgeneralization. Extensive experiments were conducted on various datasets, and the experimental results showed that the proposed method performed significantly better than the state-of-the-art methods by effectively reducing overgeneralization.
翻訳日:2021-03-19 13:59:56 公開日:2021-03-18
# Pseudo-ISP:カラー画像デノイザによる擬似カメラ内信号処理パイプラインの学習

Pseudo-ISP: Learning Pseudo In-camera Signal Processing Pipeline from A Color Image Denoiser ( http://arxiv.org/abs/2103.10234v1 )

ライセンス: Link先を確認
Yue Cao and Xiaohe Wu and Shuran Qi and Xiao Liu and Zhongqin Wu and Wangmeng Zuo(参考訳) 現実世界のカラー写真におけるディープデノイザーの成功は、通常、センサーノイズとカメラ内信号処理(ISP)パイプラインのモデリングに依存する。 テストイメージのセンサとispパイプラインが、深いデノワザ(すなわちノイズの不一致)をトレーニングするためのものとは異なる場合、パフォーマンスの低下は必然的に起こる。 本稿では,色画像デノイザを雑音の差によるテスト画像の処理に適用する未経験学習方式を提案する。 我々は,事前訓練されたデノイザー,テスト用ノイズ画像のセット,クリーン画像の非ペア化など,実践的なトレーニング設定を検討する。 まず、事前訓練されたデノイザを使用して、テスト画像の擬似クリーンイメージを生成する。 次に擬似ISPパイプラインと信号依存の生RGBノイズモデルをテスト画像と擬似クリーン画像のペアを用いて共同学習することが提案される。 さらに,学習された擬似ispとrawrgbノイズモデルをカラー画像のクリーン化に適用し,デノイザー適応のための現実的なノイズ画像の合成を行う。 Pseudo-ISPは、現実的なノイズの多いsRGB画像の合成に有効であり、Pseudo-ISPトレーニングとdenoiser適応の交互化により、復調性能を向上させることができる。 実験により,我々のPseudo-ISPは,単純なガウスのぼかしベースのデノイザを向上してCBDNetと競合する性能を達成するだけでなく,CBDNetやRIDNetといった最先端のディープデノイザの改善にも有効であることが示された。

The success of deep denoisers on real-world color photographs usually relies on the modeling of sensor noise and in-camera signal processing (ISP) pipeline. Performance drop will inevitably happen when the sensor and ISP pipeline of test images are different from those for training the deep denoisers (i.e., noise discrepancy). In this paper, we present an unpaired learning scheme to adapt a color image denoiser for handling test images with noise discrepancy. We consider a practical training setting, i.e., a pre-trained denoiser, a set of test noisy images, and an unpaired set of clean images. To begin with, the pre-trained denoiser is used to generate the pseudo clean images for the test images. Pseudo-ISP is then suggested to jointly learn the pseudo ISP pipeline and signal-dependent rawRGB noise model using the pairs of test and pseudo clean images. We further apply the learned pseudo ISP and rawRGB noise model to clean color images to synthesize realistic noisy images for denoiser adaption. Pseudo-ISP is effective in synthesizing realistic noisy sRGB images, and improved denoising performance can be achieved by alternating between Pseudo-ISP training and denoiser adaption. Experiments show that our Pseudo-ISP not only can boost simple Gaussian blurring-based denoiser to achieve competitive performance against CBDNet, but also is effective in improving state-of-the-art deep denoisers, e.g., CBDNet and RIDNet.
翻訳日:2021-03-19 13:59:32 公開日:2021-03-18
# SG-Net: 一段階ビデオインスタンスセグメンテーションのための空間粒度ネットワーク

SG-Net: Spatial Granularity Network for One-Stage Video Instance Segmentation ( http://arxiv.org/abs/2103.10284v1 )

ライセンス: Link先を確認
Dongfang Liu, Yiming Cui, Wenbo Tan, Yingjie Chen(参考訳) ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。 現在、トップパフォーマンスのVISメソッドは、トラッキングブランチを追加して、2段階のMask R-CNNを拡張しており、改善の余地はたくさんある。 対照的に、新しい視点からVISタスクにアプローチし、一段階空間粒度ネットワーク(SG-Net)を提案する。 Compared to the conventional two-stage methods, SG-Net demonstrates four advantages: 1) Our method has a one-stage compact architecture and each task head (detection, segmentation, and tracking) is crafted interdependently so they can effectively share features and enjoy the joint optimization; 2) Our mask prediction is dynamically performed on the sub-regions of each detected instance, leading to high-quality masks of fine granularity; 3) Each of our task predictions avoids using expensive proposal-based RoI features, resulting in much reduced runtime complexity per instance; 4) Our tracking head models objects centerness movements for tracking, which effectively enhances the tracking robustness to different object appearances. 評価では,YouTube-VISデータセットの最先端比較について述べる。 広範にわたる実験により, 1段階のコンパクトな手法が精度と推論速度の両方において, 性能の向上を実現した。 私たちは、SG-NetがVISタスクの強力で柔軟なベースラインになることを期待しています。 私たちのコードは利用可能です。

Video instance segmentation (VIS) is a new and critical task in computer vision. To date, top-performing VIS methods extend the two-stage Mask R-CNN by adding a tracking branch, leaving plenty of room for improvement. In contrast, we approach the VIS task from a new perspective and propose a one-stage spatial granularity network (SG-Net). Compared to the conventional two-stage methods, SG-Net demonstrates four advantages: 1) Our method has a one-stage compact architecture and each task head (detection, segmentation, and tracking) is crafted interdependently so they can effectively share features and enjoy the joint optimization; 2) Our mask prediction is dynamically performed on the sub-regions of each detected instance, leading to high-quality masks of fine granularity; 3) Each of our task predictions avoids using expensive proposal-based RoI features, resulting in much reduced runtime complexity per instance; 4) Our tracking head models objects centerness movements for tracking, which effectively enhances the tracking robustness to different object appearances. In evaluation, we present state-of-the-art comparisons on the YouTube-VIS dataset. Extensive experiments demonstrate that our compact one-stage method can achieve improved performance in both accuracy and inference speed. We hope our SG-Net could serve as a strong and flexible baseline for the VIS task. Our code will be available.
翻訳日:2021-03-19 13:59:02 公開日:2021-03-18
# ロボット支援手術におけるフレーム予測

Future Frame Prediction for Robot-assisted Surgery ( http://arxiv.org/abs/2103.10308v1 )

ライセンス: Link先を確認
Xiaojie Gao, Yueming Jin, Zixu Zhao, Qi Dou, Pheng-Ann Heng(参考訳) ロボット手術ビデオの将来のフレームを予測することは興味深いが、操作タスクが複雑なダイナミクスを持つ可能性があることを考えると、非常に難しい問題である。 ナチュラルビデオの将来予測に関する既存のアプローチは、決定論的モデルまたは確率的モデルに基づいており、例えば、深いリカレントニューラルネットワーク、光フロー、潜時空間モデリングである。 しかし、手術シナリオで両腕を持つロボットの有意義な動きを予測する可能性は、これまでは予測されておらず、自然シナリオで片方の腕ロボットの独立動作を予測するよりも難しい。 本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のための3次先行誘導変分オートエンコーダ(TPG-VAE)モデルを提案する。 内容分布の他に,手術用具の小さな動きを扱うのに斬新な運動分布を学習する。 さらに,ジェスチャクラスからの不変事前情報を生成プロセスに追加し,モデルの潜在空間を制約する。 我々の知る限り、デュアルアームロボットの将来的なフレームは、一般的なロボットビデオと比較して、その特徴を考慮して予測されるのは、これが初めてである。 公的なJIGSAWSデータセットの縫合タスクにより,我々のモデルがより安定的で現実的な将来のフレーム予測シーンを得ることを示す。

Predicting future frames for robotic surgical video is an interesting, important yet extremely challenging problem, given that the operative tasks may have complex dynamics. Existing approaches on future prediction of natural videos were based on either deterministic models or stochastic models, including deep recurrent neural networks, optical flow, and latent space modeling. However, the potential in predicting meaningful movements of robots with dual arms in surgical scenarios has not been tapped so far, which is typically more challenging than forecasting independent motions of one arm robots in natural scenarios. In this paper, we propose a ternary prior guided variational autoencoder (TPG-VAE) model for future frame prediction in robotic surgical video sequences. Besides content distribution, our model learns motion distribution, which is novel to handle the small movements of surgical tools. Furthermore, we add the invariant prior information from the gesture class into the generation process to constrain the latent space of our model. To our best knowledge, this is the first time that the future frames of dual arm robots are predicted considering their unique characteristics relative to general robotic videos. Experiments demonstrate that our model gains more stable and realistic future frame prediction scenes with the suturing task on the public JIGSAWS dataset.
翻訳日:2021-03-19 13:58:43 公開日:2021-03-18
# FastNeRF:200FPSでの高密度ニューラルレンダリング

FastNeRF: High-Fidelity Neural Rendering at 200FPS ( http://arxiv.org/abs/2103.10380v1 )

ライセンス: Link先を確認
Stephan J. Garbin, Marek Kowalski, Matthew Johnson, Jamie Shotton, Julien Valentin(参考訳) NeRF(Neural Radiance Fields)に関する最近の研究は、ニューラルネットワークが、新しい視点からフォトリアリスティックにレンダリングできる複雑な3D環境をエンコードする方法を示した。 これらの画像のレンダリングは非常に計算的に要求され、最近の改善はハイエンドのハードウェアでも、インタラクティブなレートを実現するための長い道のりです。 モバイルおよび混合現実感機器のシナリオに触発されたFastNeRFは、ハイエンドの消費者向けGPU上で200Hzで高忠実なフォトリアリスティック画像をレンダリングできる最初のNeRFベースのシステムである。 提案手法のコアとなるのは,空間内の各位置の深部放射率マップをコンパクトにキャッシングし,(ii)線方向を用いて地図を効率よくクエリして描画画像中のピクセル値を推定する,グラフィックインスパイアされた因子化である。 広汎な実験により,提案手法は元のNeRFアルゴリズムよりも3000倍高速であり,その精度と拡張性を維持しつつ,既存のNeRFよりも1桁以上高速であることがわかった。

Recent work on Neural Radiance Fields (NeRF) showed how neural networks can be used to encode complex 3D environments that can be rendered photorealistically from novel viewpoints. Rendering these images is very computationally demanding and recent improvements are still a long way from enabling interactive rates, even on high-end hardware. Motivated by scenarios on mobile and mixed reality devices, we propose FastNeRF, the first NeRF-based system capable of rendering high fidelity photorealistic images at 200Hz on a high-end consumer GPU. The core of our method is a graphics-inspired factorization that allows for (i) compactly caching a deep radiance map at each position in space, (ii) efficiently querying that map using ray directions to estimate the pixel values in the rendered image. Extensive experiments show that the proposed method is 3000 times faster than the original NeRF algorithm and at least an order of magnitude faster than existing work on accelerating NeRF, while maintaining visual quality and extensibility.
翻訳日:2021-03-19 13:58:25 公開日:2021-03-18
# 野生のインタラクティブビデオオブジェクトセグメンテーションのためのフレーム推薦のための学習

Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild ( http://arxiv.org/abs/2103.10391v1 )

ライセンス: Link先を確認
Zhaoyuan Yin, Jia Zheng, Weixin Luo, Shenhan Qian, Hanling Zhang, Shenghua Gao(参考訳) 本稿では,対話型ビデオオブジェクトセグメンテーション(VOS)のためのフレームワークを提案する。 次に、ユーザアノテーションに基づいて、セグメンテーションアルゴリズムがマスクを洗練する。 従来の対話型vosパラダイムは,最悪の評価基準を持つフレームを選択し,テスト段階では実用的でない評価基準の計算には基礎的真理が必要である。 対照的に,本論文では,最悪の評価基準を持つフレームが,ビデオ全体のパフォーマンス向上に繋がる上で,必ずしも価値の高いフレームではないことを主張する。 そこで我々は,対話型vosにおけるフレーム選択問題をマルコフ決定プロセスとして定式化し,エージェントが深層強化学習フレームワークでフレームを推薦することを学習する。 学習エージェントは、最も価値のあるフレームを自動的に決定し、対話的な設定をより実用的なものにすることができる。 公開データセットの実験結果から,基礎となるVOSアルゴリズムを変更することなく,学習エージェントの有効性が示された。 私たちのデータ、コード、モデルはhttps://github.com/svip-lab/ivos-wで利用可能です。

This paper proposes a framework for the interactive video object segmentation (VOS) in the wild where users can choose some frames for annotations iteratively. Then, based on the user annotations, a segmentation algorithm refines the masks. The previous interactive VOS paradigm selects the frame with some worst evaluation metric, and the ground truth is required for calculating the evaluation metric, which is impractical in the testing phase. In contrast, in this paper, we advocate that the frame with the worst evaluation metric may not be exactly the most valuable frame that leads to the most performance improvement across the video. Thus, we formulate the frame selection problem in the interactive VOS as a Markov Decision Process, where an agent is learned to recommend the frame under a deep reinforcement learning framework. The learned agent can automatically determine the most valuable frame, making the interactive setting more practical in the wild. Experimental results on the public datasets show the effectiveness of our learned agent without any changes to the underlying VOS algorithms. Our data, code, and models are available at https://github.com/svip-lab/IVOS-W.
翻訳日:2021-03-19 13:58:05 公開日:2021-03-18
# ニューラルネットワークによる表現型3次元形状抽象化の学習

Neural Parts: Learning Expressive 3D Shape Abstractions with Invertible Neural Networks ( http://arxiv.org/abs/2103.10429v1 )

ライセンス: Link先を確認
Despoina Paschalidou and Angelos Katharopoulos and Andreas Geiger and Sanja Fidler(参考訳) 3次元形状抽出の素晴らしい進歩は、高い忠実度で物体のジオメトリをキャプチャできる表現につながった。 並行して、プリミティブベースのメソッドはオブジェクトを意味的に一貫した部分アレンジメントとして表現しようとする。 しかし、既存のプリミティブ表現の単純さから、これらの手法は少数のプリミティブ/パーツを使用して正確に3d形状を再構築できない。 Invertible Neural Network (INN) を用いて, 球面と対象物体の同相写像を実装した, プリミティブを定義する新しい3次元プリミティブ表現であるNeural Parts による再構成品質と部品数とのトレードオフに対処する。 INNは同相写像の逆写像を計算でき、それによってプリミティブの表面関数とメッシュの両方の効率的な計算を、追加の処理後処理なしで実現できる。 我々のモデルは、3Dオブジェクトを意味的に一貫した部分配置にパースすることを学ぶ。 ShapeNet, D-FAUST, FreiHANDの評価は, 我々のプリミティブが複雑なジオメトリをキャプチャし, 同時に幾何学的に精度良く再現できることを示した。

Impressive progress in 3D shape extraction led to representations that can capture object geometries with high fidelity. In parallel, primitive-based methods seek to represent objects as semantically consistent part arrangements. However, due to the simplicity of existing primitive representations, these methods fail to accurately reconstruct 3D shapes using a small number of primitives/parts. We address the trade-off between reconstruction quality and number of parts with Neural Parts, a novel 3D primitive representation that defines primitives using an Invertible Neural Network (INN) which implements homeomorphic mappings between a sphere and the target object. The INN allows us to compute the inverse mapping of the homeomorphism, which in turn, enables the efficient computation of both the implicit surface function of a primitive and its mesh, without any additional post-processing. Our model learns to parse 3D objects into semantically consistent part arrangements without any part-level supervision. Evaluations on ShapeNet, D-FAUST and FreiHAND demonstrate that our primitives can capture complex geometries and thus simultaneously achieve geometrically accurate as well as interpretable reconstructions using an order of magnitude fewer primitives than state-of-the-art shape abstraction methods.
翻訳日:2021-03-19 13:57:49 公開日:2021-03-18
# 物理を基礎としたニューラルネットワークの深層学習理論

A deep learning theory for neural networks grounded in physics ( http://arxiv.org/abs/2103.09985v1 )

ライセンス: Link先を確認
Benjamin Scellier(参考訳) 過去10年間で、ディープラーニングは人工知能の主要なコンポーネントとなり、さまざまな領域にまたがる一連のブレークスルーにつながった。 ディープラーニングのワークホースは、確率勾配降下(SGD)による損失関数の最適化である。 従来のディープラーニングでは、ニューラルネットワークは微分可能な数学的関数であり、SGDに必要な損失勾配はバックプロパゲーションアルゴリズムによって計算される。 しかし、これらのニューラルネットワークが実装され、訓練されたコンピュータアーキテクチャは、これらのアーキテクチャにおけるメモリと処理の分離により、速度とエネルギーの非効率の問題に悩まされる。 これらの問題を解決するために、ニューロモルフィックコンピューティングの分野は、脳と同じようにメモリと処理をマージするハードウェアアーキテクチャ上でニューラルネットワークを実装することを目指している。 この論文では、ニューロモルフィックアーキテクチャ上で大規模で高速で効率的なニューラルネットワークを構築するには、実装とトレーニングを行うアルゴリズムを再考する必要がある、と論じる。 この目的のために,SGDと互換性のある別の数学的枠組みを提案し,物理法則を直接活用する基板にニューラルネットワークを設計することを可能にする。 我々のフレームワークは、非常に広い種類のモデル、すなわち状態や動力学が変分方程式によって記述されるシステムに適用できる。 このようなシステムにおける損失勾配を計算する手順は、多くの実用的な状況において、訓練可能なパラメータごとにローカルに利用可能な情報のみを必要とする)平衡伝播 (equilibrium propagation, eqprop) と呼ばれる。 物理学や工学の多くのシステムは変分原理によって記述できるため、我々のフレームワークは、ニューロモルフィックコンピューティング以外の様々な工学分野に応用できる幅広い物理システムに適用できる可能性を持っている。

In the last decade, deep learning has become a major component of artificial intelligence, leading to a series of breakthroughs across a wide variety of domains. The workhorse of deep learning is the optimization of loss functions by stochastic gradient descent (SGD). Traditionally in deep learning, neural networks are differentiable mathematical functions, and the loss gradients required for SGD are computed with the backpropagation algorithm. However, the computer architectures on which these neural networks are implemented and trained suffer from speed and energy inefficiency issues, due to the separation of memory and processing in these architectures. To solve these problems, the field of neuromorphic computing aims at implementing neural networks on hardware architectures that merge memory and processing, just like brains do. In this thesis, we argue that building large, fast and efficient neural networks on neuromorphic architectures requires rethinking the algorithms to implement and train them. To this purpose, we present an alternative mathematical framework, also compatible with SGD, which offers the possibility to design neural networks in substrates that directly exploit the laws of physics. Our framework applies to a very broad class of models, namely systems whose state or dynamics are described by variational equations. The procedure to compute the loss gradients in such systems -- which in many practical situations requires solely locally available information for each trainable parameter -- is called equilibrium propagation (EqProp). Since many systems in physics and engineering can be described by variational principles, our framework has the potential to be applied to a broad variety of physical systems, whose applications extend to various fields of engineering, beyond neuromorphic computing.
翻訳日:2021-03-19 13:57:08 公開日:2021-03-18
# アクティベーションプロファイルを用いたディープニューラルネットワークにおける説明可能な逆攻撃

Explainable Adversarial Attacks in Deep Neural Networks Using Activation Profiles ( http://arxiv.org/abs/2103.10229v1 )

ライセンス: Link先を確認
Gabriel D. Cantareira, Rodrigo F. Mello, Fernando V. Paulovich(参考訳) ニューラルネットワークが社会の様々な問題を解決するための選択ツールになるにつれて、敵対的な攻撃が重要になる。 ネットワーク分析を騙すために意図的に設計されたデータインスタンスを生成する可能性は、悲惨な結果をもたらす可能性がある。 近年の研究では、モデルトレーニングに一般的に使用される手法は、そのような攻撃に対して特に脆弱な脆弱な抽象表現をもたらすことが示されている。 そこで本論文では, ニューラルネットワークモデルにおいて, 逆データに対するモデル認識が正規データインスタンスとどのように異なるか, クラス知覚との関係を明らかにする。 さまざまなユースケースを通じて、これらの要素を観察することで、モデルの悪用された領域を迅速に特定し、入力データの脆弱な特徴をさらに調査し、モデルのトレーニングとアーキテクチャを改善するためのガイドとなることを示します。

As neural networks become the tool of choice to solve an increasing variety of problems in our society, adversarial attacks become critical. The possibility of generating data instances deliberately designed to fool a network's analysis can have disastrous consequences. Recent work has shown that commonly used methods for model training often result in fragile abstract representations that are particularly vulnerable to such attacks. This paper presents a visual framework to investigate neural network models subjected to adversarial examples, revealing how models' perception of the adversarial data differs from regular data instances and their relationships with class perception. Through different use cases, we show how observing these elements can quickly pinpoint exploited areas in a model, allowing further study of vulnerable features in input data and serving as a guide to improving model training and architecture.
翻訳日:2021-03-19 13:56:42 公開日:2021-03-18
# top:摂動伝達性によるニューラルネットワークのバックドア検出

TOP: Backdoor Detection in Neural Networks via Transferability of Perturbation ( http://arxiv.org/abs/2103.10274v1 )

ライセンス: Link先を確認
Todd Huster and Emmanuel Ekwedike(参考訳) ディープニューラルネットワーク(DNN)は、敵が通常機能するモデルに秘密のトリガーを注入する「バックドア」中毒攻撃に対して脆弱である。 トレーニングデータやサンプルトリガにアクセスせずにトレーニングされたモデルのバックドアを検出することは、重要なオープン問題である。 本稿では,これらのモデルの興味深い性質を同定する: クリーンモデルよりも毒性モデルの方が画像から画像への逆摂動の伝達が容易である。 これは、クリーンデータから線形に分離できないトリガーを含む、さまざまなモデルとトリガータイプを保持する。 この機能を使用して、TrojAIベンチマークの有毒モデルと、追加モデルを検出します。

Deep neural networks (DNNs) are vulnerable to "backdoor" poisoning attacks, in which an adversary implants a secret trigger into an otherwise normally functioning model. Detection of backdoors in trained models without access to the training data or example triggers is an important open problem. In this paper, we identify an interesting property of these models: adversarial perturbations transfer from image to image more readily in poisoned models than in clean models. This holds for a variety of model and trigger types, including triggers that are not linearly separable from clean data. We use this feature to detect poisoned models in the TrojAI benchmark, as well as additional models.
翻訳日:2021-03-19 13:56:27 公開日:2021-03-18
# バイオメディカル知識グラフの論理規則を用いたニューラルマルチホップ推論

Neural Multi-Hop Reasoning With Logical Rules on Biomedical Knowledge Graphs ( http://arxiv.org/abs/2103.10367v1 )

ライセンス: Link先を確認
Yushan Liu, Marcel Hildebrandt, Mitchell Joblin, Martin Ringsquandl, Rime Raissouni, Volker Tresp(参考訳) 生体医学知識グラフは、生物学的システムについての推論に対する積分計算アプローチを可能にする。 生物学的データの性質は、ベンチマークデータセットでよく見られるものとは異なるグラフ構造をもたらす。 このことが推論アルゴリズムの性能に与える影響を理解するために,創薬の現実的課題に基づく実証的研究を行った。 我々は,この課題を,化合物と疾患の両方が知識グラフの実体に対応するリンク予測問題として定式化する。 既存のアルゴリズムの明らかな弱点を克服するために,強化学習に基づくポリシー誘導歩行と論理ルールを組み合わせた新しい手法,PoLoを提案する。 これらのルールは、新しい報酬関数を用いてアルゴリズムに統合される。 バイオインフォマティクスデータベース29のバイオメディカル情報を統合するHetionetに本手法を適用した。 提案手法は,解釈可能性を提供しながら,リンク予測の最先端手法よりも優れていることを示す。

Biomedical knowledge graphs permit an integrative computational approach to reasoning about biological systems. The nature of biological data leads to a graph structure that differs from those typically encountered in benchmarking datasets. To understand the implications this may have on the performance of reasoning algorithms, we conduct an empirical study based on the real-world task of drug repurposing. We formulate this task as a link prediction problem where both compounds and diseases correspond to entities in a knowledge graph. To overcome apparent weaknesses of existing algorithms, we propose a new method, PoLo, that combines policy-guided walks based on reinforcement learning with logical rules. These rules are integrated into the algorithm by using a novel reward function. We apply our method to Hetionet, which integrates biomedical information from 29 prominent bioinformatics databases. Our experiments show that our approach outperforms several state-of-the-art methods for link prediction while providing interpretability.
翻訳日:2021-03-19 13:56:17 公開日:2021-03-18
# MS*:マルチエージェント同時マルチゴールシークエンシングとパス探索のための新しいエクササイズアルゴリズム

MS*: A New Exact Algorithm for Multi-agent Simultaneous Multi-goal Sequencing and Path Finding ( http://arxiv.org/abs/2103.09979v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) 監視やロジスティクスといったマルチエージェントアプリケーションでは、多数のモバイルエージェントが協調し、可能な限り多くの目標地点を安全に訪問することが期待されている。 これらのアプリケーションにおけるマルチエージェント計画問題は、エージェントのコンフリクトフリーパスを同時に生成しながら、各エージェントに目標を割り当て、シーケンシングすることである。 本稿では,マルチエージェントパス探索 (mapf) とマルチトラベルセールスマン問題 (mtsp) の解法を融合・発展させることにより,マルチエージェント問題の最適解を求めるms*と呼ばれる新しいアルゴリズムを提案する。 MS*はMAPFに対する我々の以前の部分次元展開アプローチを活用し、mTSPソルバを埋め込んでエージェントの目標を最適に割り当て、シーケンスする。 計算結果から,提案アルゴリズムは標準ラップトップ上でのCPU時間1分で20エージェント,50ゴールのマルチエージェント問題を解くことができることがわかった。

In multi-agent applications such as surveillance and logistics, fleets of mobile agents are often expected to coordinate and safely visit a large number of goal locations as efficiently as possible. The multi-agent planning problem in these applications involves allocating and sequencing goals for each agent while simultaneously producing conflict-free paths for the agents. In this article, we introduce a new algorithm called MS* which computes an optimal solution for this multi-agent problem by fusing and advancing state of the art solvers for multi-agent path finding (MAPF) and multiple travelling salesman problem (mTSP). MS* leverages our prior subdimensional expansion approach for MAPF and embeds the mTSP solvers to optimally allocate and sequence goals for agents. Numerical results show that our new algorithm can solve the multi-agent problem with 20 agents and 50 goals in a minute of CPU time on a standard laptop.
翻訳日:2021-03-19 13:56:03 公開日:2021-03-18
# 確率的単純成分分析

Probabilistic Simplex Component Analysis ( http://arxiv.org/abs/2103.10027v1 )

ライセンス: Link先を確認
Ruiyuan Wu, Wing-Kin Ma, Yuening Li, Anthony Man-Cho So, and Nicholas D. Sidiropoulos(参考訳) 本研究では,データからsimplexを記述するデータ循環の頂点を同定する,確率論的simplexコンポーネント分析手法prismを提案する。 この問題には多様な応用があり、最も注目すべきはリモートセンシングにおけるハイパースペクトルアンミックスと機械学習における非負行列分解である。 PRISMは単純な確率モデル、すなわち一様単純データ分布と加法ガウス雑音を使い、最大確率で推論を行う。 推定モデルは、いくつかの仮定の下で頂点が確実に識別可能であるという意味で健全であり、データ点数が大きい場合、プリズムがノイズと戦うのに有効であることを示唆する。 PRISMは強いが隠れており、同じ問題に対する強力な幾何学的アプローチである単純な体積最小化と関係がある。 これらの基本的側面を考察し,重要サンプリングと変分推論に基づくアルゴリズムスキームについて考察する。 特に、変分推論スキームは、行列因数分解のアプローチと興味深い関係を持つ特別な正則化器を持つ行列因数分解問題に類似していることが示される。 PRISMの可能性を示す数値的な結果が提供される。

This study presents PRISM, a probabilistic simplex component analysis approach to identifying the vertices of a data-circumscribing simplex from data. The problem has a rich variety of applications, the most notable being hyperspectral unmixing in remote sensing and non-negative matrix factorization in machine learning. PRISM uses a simple probabilistic model, namely, uniform simplex data distribution and additive Gaussian noise, and it carries out inference by maximum likelihood. The inference model is sound in the sense that the vertices are provably identifiable under some assumptions, and it suggests that PRISM can be effective in combating noise when the number of data points is large. PRISM has strong, but hidden, relationships with simplex volume minimization, a powerful geometric approach for the same problem. We study these fundamental aspects, and we also consider algorithmic schemes based on importance sampling and variational inference. In particular, the variational inference scheme is shown to resemble a matrix factorization problem with a special regularizer, which draws an interesting connection to the matrix factorization approach. Numerical results are provided to demonstrate the potential of PRISM.
翻訳日:2021-03-19 13:55:27 公開日:2021-03-18
# TP-GANによる低用量前立腺切断療法の迅速治療計画

Rapid treatment planning for low-dose-rate prostate brachytherapy with TP-GAN ( http://arxiv.org/abs/2103.09996v1 )

ライセンス: Link先を確認
Tajwar Abrar Aleef, Ingrid T. Spadinger, Michael D. Peacock, Septimiu E. Salcudean, S. Sara Mahdavi(参考訳) 低用量前立腺ブラキセラピー(ldr-pb)の治療計画では、健康な組織への毒性を最小限に抑えながら、最小限の投与量で前立腺に投与可能な放射性種を配置することを目的としている。 このドシメトリックな基準を満たす複数のシードアレンジメントは、すべて医師の視点からは「許容できる」とはみなされない。 これにより、医師やセンターの好み、計画スタイル、専門知識に基づく計画が導かれる。 本稿では,ldr-pbデータの大規模プール(961名)から学ぶためのモデルをトレーニングし,高品質なマニュアルプランを模倣した一貫した計画を作成することにより,この変動を低減しようとする。 本モデルは,種子の空間的制約に対してモデルにペナルティを付与する新たな損失関数を用いた条件付き生成対向ネットワークに基づいている。 シミュレーションアニーリング(sa)アルゴリズムに基づくオプションオプティマイザを使用して、必要に応じて計画をさらに微調整することができる(治療医によって決定される)。 手動の先史学的な計画に匹敵する結果を示す150の試験ケースで性能解析を行った。 平均的に, 処方用量の100%をカバーする臨床対象容積は98.9%であり, マニュアルプランでは99.4%であった。 さらに,本モデルを用いた場合,計画時間は平均2.5分/計画となり,SAなしでは3秒未満であった。 これと比較すると、私たちのセンターでのマニュアルプランニングは約20分/プランです。

Treatment planning in low-dose-rate prostate brachytherapy (LDR-PB) aims to produce arrangement of implantable radioactive seeds that deliver a minimum prescribed dose to the prostate whilst minimizing toxicity to healthy tissues. There can be multiple seed arrangements that satisfy this dosimetric criterion, not all deemed 'acceptable' for implant from a physician's perspective. This leads to plans that are subjective to the physician's/centre's preference, planning style, and expertise. We propose a method that aims to reduce this variability by training a model to learn from a large pool of successful retrospective LDR-PB data (961 patients) and create consistent plans that mimic the high-quality manual plans. Our model is based on conditional generative adversarial networks that use a novel loss function for penalizing the model on spatial constraints of the seeds. An optional optimizer based on a simulated annealing (SA) algorithm can be used to further fine-tune the plans if necessary (determined by the treating physician). Performance analysis was conducted on 150 test cases demonstrating comparable results to that of the manual prehistorical plans. On average, the clinical target volume covering 100% of the prescribed dose was 98.9% for our method compared to 99.4% for manual plans. Moreover, using our model, the planning time was significantly reduced to an average of 2.5 mins/plan with SA, and less than 3 seconds without SA. Compared to this, manual planning at our centre takes around 20 mins/plan.
翻訳日:2021-03-19 13:55:03 公開日:2021-03-18
# RangeDet:LiDARを用いた3Dオブジェクト検出のためのレンジビューの防御

RangeDet:In Defense of Range View for LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2103.10039v1 )

ライセンス: Link先を確認
Lue Fan, Xuan Xiong, Feng Wang, Naiyan Wang, Zhaoxiang Zhang(参考訳) 本稿では,アンカーフリーなlidarベースの3d物体検出器 rangedetを提案する。 これまでの作品と最も顕著な違いは、この手法が純粋に範囲ビュー表現に基づいていることである。 一般的に使われているVoxelizedまたはBird's Eye View (BEV) 表現と比較すると、レンジビュー表現はよりコンパクトで量子化誤差がない。 セマンティクスのセグメンテーションに採用する作業は存在するが、オブジェクト検出のパフォーマンスはvoxelizedやbevに匹敵するものだ。 まず,既存の範囲ビューに基づく手法を解析した結果,1)近接物体と遠距離物体のスケール変動,2)特徴抽出に使用される2次元範囲画像座標と出力に使用される3次元デカルト座標の不一致,の2つの問題点を見いだした。 次に、RangeDetでこれらの問題に対処するために、3つのコンポーネントを意図的に設計します。 大規模なWaymo Open Dataset(WOD)でRangeDetをテストする。 我々の最良のモデルは、車両/ペデストリアン/サイクリスト上で72.9/75.9/65.8 3d apを達成している。 これらの結果は、他のレンジビューベース手法よりも大きなマージン(車両検出において約20の3D AP)で優れており、全体的に最先端のマルチビューベース手法に匹敵する。 コードは公開されます。

In this paper, we propose an anchor-free single-stage LiDAR-based 3D object detector -- RangeDet. The most notable difference with previous works is that our method is purely based on the range view representation. Compared with the commonly used voxelized or Bird's Eye View (BEV) representations, the range view representation is more compact and without quantization error. Although there are works adopting it for semantic segmentation, its performance in object detection is largely behind voxelized or BEV counterparts. We first analyze the existing range-view-based methods and find two issues overlooked by previous works: 1) the scale variation between nearby and far away objects; 2) the inconsistency between the 2D range image coordinates used in feature extraction and the 3D Cartesian coordinates used in output. Then we deliberately design three components to address these issues in our RangeDet. We test our RangeDet in the large-scale Waymo Open Dataset (WOD). Our best model achieves 72.9/75.9/65.8 3D AP on vehicle/pedestrian/cyclist. These results outperform other range-view-based methods by a large margin (~20 3D AP in vehicle detection), and are overall comparable with the state-of-the-art multi-view-based methods. Codes will be public.
翻訳日:2021-03-19 13:54:38 公開日:2021-03-18
# デンマークのfungi 2020 - 単なる画像認識データセットではない

Danish Fungi 2020 -- Not Just Another Image Recognition Dataset ( http://arxiv.org/abs/2103.10107v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Picek, Milan \v{S}ulc, Ji\v{r}\'i Matas, Jacob Heilmann-Clausen, Thomas S. Jeppesen, Thomas L{\ae}ss{\o}e, Tobias Fr{\o}slev(参考訳) 我々は,新しい細粒度データセットとベンチマークであるdanish fungi 2020 (df20) を紹介する。 このデータセットはデンマークの菌類アトラスに提出された観測から構築され、その分類学的精度の高いクラスラベル、少数のエラー、高度に不均衡な長い尾を持つクラス分布、豊富な観察メタデータ、そして明確に定義されたクラス階層に特有である。 df20はimagenetと重複しないため、imagenetの公開チェックポイントから微調整されたモデルの偏りのない比較が可能になる。 提案した評価プロトコルはメタデータを使って分類を改善することができる。 正確な地理的位置、生息地、および基板は、分類器の校正テストを促進し、最終的にデバイス設定が分類性能に与える影響を研究することができる。 畳み込みニューラルネットワーク(CNN)と最近のビジョントランスフォーマー(ViT)を用いた実験は、DF20が難しい課題であることを示している。 興味深いことに、ViTは81.25%の精度でCNNベースラインよりも優れており、CNNエラーを13%削減している。 決定プロセスにメタデータを含めるベースライン手順は、分類精度を3.5ポイント以上向上させ、エラー率を20%削減する。 すべてのメソッドと実験のソースコードは、https://sites.google.com/view/danish-fungi-datasetで入手できる。

We introduce a novel fine-grained dataset and benchmark, the Danish Fungi 2020 (DF20). The dataset, constructed from observations submitted to the Danish Fungal Atlas, is unique in its taxonomy-accurate class labels, small number of errors, highly unbalanced long-tailed class distribution, rich observation metadata, and well-defined class hierarchy. DF20 has zero overlap with ImageNet, allowing unbiased comparison of models fine-tuned from publicly available ImageNet checkpoints. The proposed evaluation protocol enables testing the ability to improve classification using metadata -- e.g. precise geographic location, habitat, and substrate, facilitates classifier calibration testing, and finally allows to study the impact of the device settings on the classification performance. Experiments using Convolutional Neural Networks (CNN) and the recent Vision Transformers (ViT) show that DF20 presents a challenging task. Interestingly, ViT achieves results superior to CNN baselines with 81.25% accuracy, reducing the CNN error by 13%. A baseline procedure for including metadata into the decision process improves the classification accuracy by more than 3.5 percentage points, reducing the error rate by 20%. The source code for all methods and experiments is available at https://sites.google.com/view/danish-fungi-dataset.
翻訳日:2021-03-19 13:54:13 公開日:2021-03-18
# 3次元点雲のセマンティックセグメンテーションにおける識別不能点の検討

Investigate Indistinguishable Points in Semantic Segmentation of 3D Point Cloud ( http://arxiv.org/abs/2103.10339v1 )

ライセンス: Link先を確認
Mingye Xu, Zhipeng Zhou, Junhao Zhang, Yu Qiao(参考訳) 本稿では,大規模3次元点雲のセマンティックセグメンテーションにおける識別不能点(ラベル予測の難しさ)について検討する。 識別不能な点は、複雑な境界に位置するもの、類似した局所的なテクスチャを持つもの、異なるカテゴリを持つもの、そして小さな硬い領域を分離する点から成り、3Dセマンティックセグメンテーションのパフォーマンスに大きな影響を及ぼす。 そこで本研究では,階層的意味的特徴を生かして識別不能な点を適応的に選択し,特に識別不能点の細粒度特徴を増大させる新しい識別不能領域焦点化ネットワーク(iaf-net)を提案する。 また,プログレッシブな方法で特徴表現を改善するために,マルチステージロスを導入する。 また,識別不能領域のセグメンテーション性能を分析するため,IPBM(Indistinguishable Points Based Metric)と呼ばれる新しい評価指標を提案する。 我々のIAF-Netは、いくつかの人気のある3Dポイントクラウドデータセットで最先端のパフォーマンスで同等の結果を得る。 S3DISとScanNetはIPBMの他の手法よりも明らかに優れている。

This paper investigates the indistinguishable points (difficult to predict label) in semantic segmentation for large-scale 3D point clouds. The indistinguishable points consist of those located in complex boundary, points with similar local textures but different categories, and points in isolate small hard areas, which largely harm the performance of 3D semantic segmentation. To address this challenge, we propose a novel Indistinguishable Area Focalization Network (IAF-Net), which selects indistinguishable points adaptively by utilizing the hierarchical semantic features and enhances fine-grained features for points especially those indistinguishable points. We also introduce multi-stage loss to improve the feature representation in a progressive way. Moreover, in order to analyze the segmentation performances of indistinguishable areas, we propose a new evaluation metric called Indistinguishable Points Based Metric (IPBM). Our IAF-Net achieves the comparable results with state-of-the-art performance on several popular 3D point cloud datasets e.g. S3DIS and ScanNet, and clearly outperforms other methods on IPBM.
翻訳日:2021-03-19 13:53:53 公開日:2021-03-18
# RP-VIO:動的環境のためのロバスト平面型ビジュアル慣性オドメトリー

RP-VIO: Robust Plane-based Visual-Inertial Odometry for Dynamic Environments ( http://arxiv.org/abs/2103.10400v1 )

ライセンス: Link先を確認
Karnik Ram, Chaitanya Kharyal, Sudarshan S. Harithas, K. Madhava Krishna(参考訳) 現代の視覚慣性ナビゲーションシステム(VINS)は、現実世界の展開において重要な課題に直面している。 現在のベストソリューションは、オブジェクトカテゴリのセマンティクスに基づいて、動的オブジェクトを外れ値としてフィルターするだけです。 このようなアプローチは、実行可能なすべてのオブジェクトクラスを包含するためにセマンティックな分類器を必要とするため、スケールしない。 一方で、多くの実世界の環境は、壁や地面のような平面の形で強い構造規則性を示しており、これも極めて静的である。 本稿では,これらの平面の簡易な形状を利用して,動的環境におけるロバスト性や精度を向上させる単眼視慣性オドメトリシステムrp-vioを提案する。 既存のデータセットは限られた動的要素を持つため、現代のVINSシステムの性能をより効果的に評価するための高ダイナミックで光リアルな合成データセットも提示する。 このデータセットに対するアプローチを評価し、実世界の2つの動的シーケンスを含む標準データセットからの3つの多様なシーケンスを評価し、最先端の単眼視覚慣性オドメトリーシステムよりもロバスト性と精度が著しく向上することを示した。 また,単純な動的特徴マスキングアプローチによる改善をシミュレーションで示す。 コードとデータセットは公開されています。

Modern visual-inertial navigation systems (VINS) are faced with a critical challenge in real-world deployment: they need to operate reliably and robustly in highly dynamic environments. Current best solutions merely filter dynamic objects as outliers based on the semantics of the object category. Such an approach does not scale as it requires semantic classifiers to encompass all possibly-moving object classes; this is hard to define, let alone deploy. On the other hand, many real-world environments exhibit strong structural regularities in the form of planes such as walls and ground surfaces, which are also crucially static. We present RP-VIO, a monocular visual-inertial odometry system that leverages the simple geometry of these planes for improved robustness and accuracy in challenging dynamic environments. Since existing datasets have a limited number of dynamic elements, we also present a highly-dynamic, photorealistic synthetic dataset for a more effective evaluation of the capabilities of modern VINS systems. We evaluate our approach on this dataset, and three diverse sequences from standard datasets including two real-world dynamic sequences and show a significant improvement in robustness and accuracy over a state-of-the-art monocular visual-inertial odometry system. We also show in simulation an improvement over a simple dynamic-features masking approach. Our code and dataset are publicly available.
翻訳日:2021-03-19 13:53:34 公開日:2021-03-18
# 知識蒸留を用いたヒューマンインスパイアされたマルチエージェントナビゲーション

Human-Inspired Multi-Agent Navigation using Knowledge Distillation ( http://arxiv.org/abs/2103.10000v1 )

ライセンス: Link先を確認
Pei Xu and Ioannis Karamouzas(参考訳) マルチエージェントナビゲーションの分野では大きな進歩があったが、エージェントは人間がマルチエージェント設定で示す高度な知識を欠いている。 本稿では,完全分散マルチエージェント環境におけるエージェント・エージェント間インタラクションのためのヒューマンライクな一般衝突回避ポリシーを学習するための枠組みを提案する。 提案手法では, 行動クローニングによる人間軌道実証から抽出した知識蒸留と強化学習を用いて報酬関数を形成する。 提案手法により訓練されたエージェントは,実験で提供されていない衝突回避や目標指向の操舵作業において,人間のような軌道を取ることができることを示す。

Despite significant advancements in the field of multi-agent navigation, agents still lack the sophistication and intelligence that humans exhibit in multi-agent settings. In this paper, we propose a framework for learning a human-like general collision avoidance policy for agent-agent interactions in fully decentralized, multi-agent environments. Our approach uses knowledge distillation with reinforcement learning to shape the reward function based on expert policies extracted from human trajectory demonstrations through behavior cloning. We show that agents trained with our approach can take human-like trajectories in collision avoidance and goal-directed steering tasks not provided by the demonstrations, outperforming the experts as well as learning-based agents trained without knowledge distillation.
翻訳日:2021-03-19 13:52:50 公開日:2021-03-18
# 自己適応型システムの意思決定における機械学習の適用効果について

On the Impact of Applying Machine Learning in the Decision-Making of Self-Adaptive Systems ( http://arxiv.org/abs/2103.10194v1 )

ライセンス: Link先を確認
Omid Gheibi, Danny Weyns, Federico Quin(参考訳) 近年,自己適応型システムにおける機械学習手法の利用が増加している。 機械学習メソッドは、ランタイムモデルを最新に保つ、大きな適応スペースを減らす、適応ルールを更新するなど、自己適応をサポートするさまざまなユースケースを提供する。 しかし、機械学習手法は本質的に統計的手法で適用されるため、自己適応システムによる決定に影響を及ぼす可能性がある。 自己適応型システムによる決定の保証を提供するための形式的アプローチが広範に採用されていることを踏まえ,そのような手法を用いた場合の機械学習手法の適用の影響を検討することが重要である。 本稿では,線形回帰を組み合わせることによって,自己適応システムの適応空間と統計的モデルチェックを削減し,結果の適応オプションを分析する。 計算機学習理論を用いて,検証者による予測に対する機械学習法の影響を理論的に決定する。 DeltaIoTアーティファクトのシナリオを用いて理論的結果を説明し,評価する。 結論として,本分野における今後の研究の機会を考察する。

Recently, we have been witnessing an increasing use of machine learning methods in self-adaptive systems. Machine learning methods offer a variety of use cases for supporting self-adaptation, e.g., to keep runtime models up to date, reduce large adaptation spaces, or update adaptation rules. Yet, since machine learning methods apply in essence statistical methods, they may have an impact on the decisions made by a self-adaptive system. Given the wide use of formal approaches to provide guarantees for the decisions made by self-adaptive systems, it is important to investigate the impact of applying machine learning methods when such approaches are used. In this paper, we study one particular instance that combines linear regression to reduce the adaptation space of a self-adaptive system with statistical model checking to analyze the resulting adaptation options. We use computational learning theory to determine a theoretical bound on the impact of the machine learning method on the predictions made by the verifier. We illustrate and evaluate the theoretical result using a scenario of the DeltaIoT artifact. To conclude, we look at opportunities for future research in this area.
翻訳日:2021-03-19 13:52:37 公開日:2021-03-18
# ソフトウェア欠陥予測研究におけるバイアス付き性能指標の使用の影響

The impact of using biased performance metrics on software defect prediction research ( http://arxiv.org/abs/2103.10201v1 )

ライセンス: Link先を確認
Jingxiu Yao and Martin Shepperd(参考訳) コンテキスト: ソフトウェア工学研究者は、ソフトウェア欠陥予測アルゴリズムの可能性について多くの実験を行った。 残念ながら、いくつかの広く使用されているパフォーマンス指標は問題であることが知られており、特にF1は広く使われている。 目的: この大規模研究の妥当性に対するf1の使用の潜在的影響を検討すること。 方法: 本研究は,F1と非バイアスマシューズ相関係数(MCC)を用いて, 関連実験の探索を行い, 欠陥予測性能の相互比較を行った。 結果: 初等的研究は38件であった。 12,471対の結果を含む。 これらのうち、MCCメートル法が偏りのあるF1メートル法の代わりに使われる場合、21.95%の方向が変化した。 残念ながら、F1がソフトウェア欠陥予測研究で広く使われていることを示す証拠も見つかった。 結論:我々は,f1 が情報検索コンテキスト以外で問題となる指標であるという統計学者の懸念を繰り返す。 この不適切な使用は、誤った(方向の)結果のかなりの数(5分の1以上)を導いた。 したがって、研究者は(i)偏りのない計量を使い、(ii)代替分析が可能となるような混乱行列を含む詳細な結果を公表するよう促す。

Context: Software engineering researchers have undertaken many experiments investigating the potential of software defect prediction algorithms. Unfortunately, some widely used performance metrics are known to be problematic, most notably F1, but nevertheless F1 is widely used. Objective: To investigate the potential impact of using F1 on the validity of this large body of research. Method: We undertook a systematic review to locate relevant experiments and then extract all pairwise comparisons of defect prediction performance using F1 and the un-biased Matthews correlation coefficient (MCC). Results: We found a total of 38 primary studies. These contain 12,471 pairs of results. Of these, 21.95% changed direction when the MCC metric is used instead of the biased F1 metric. Unfortunately, we also found evidence suggesting that F1 remains widely used in software defect prediction research. Conclusions: We reiterate the concerns of statisticians that the F1 is a problematic metric outside of an information retrieval context, since we are concerned about both classes (defect-prone and not defect-prone units). This inappropriate usage has led to a substantial number (more than one fifth) of erroneous (in terms of direction) results. Therefore we urge researchers to (i) use an unbiased metric and (ii) publish detailed results including confusion matrices such that alternative analyses become possible.
翻訳日:2021-03-19 13:52:22 公開日:2021-03-18
# 統合的意思決定と制御:解釈可能かつ効率的な運転知能を目指して

Integrated Decision and Control: Towards Interpretable and Efficient Driving Intelligence ( http://arxiv.org/abs/2103.10290v1 )

ライセンス: Link先を確認
Yang Guan, Yangang Ren, Shengbo Eben Li, Haitong Ma, Jingliang Duan, Bo Cheng(参考訳) 意思決定と制御は、高レベルの自動車両の中核機能である。 機能分解やエンドツーエンド強化学習(rl)のような現在の主流の手法は、リアルタイムの複雑な自動運転タスクにおいて、高い時間的複雑さや解釈の貧弱さ、安全性の制限に苦しめられている。 本稿では,運転タスクを階層的に構造化したマルチパス計画と最適追従に分解する,自動車両の解釈可能かつ効率的な意思決定・制御フレームワークを提案する。 まず、マルチパス計画では、静的制約のみを考慮して複数のパスを生成する。 そして、動的障害物を考慮した最適経路を追尾するように最適追尾を設計する。 そのため、理論上、各候補経路に対して制約付き最適制御問題(OCP)を定式化し、それらを個別に最適化し、従うべき最高の追跡性能を持つものを選択する。 さらに,モデルベース強化学習(rl)アルゴリズムを提案する。これは近似制約付きocpソルバとして機能し,オフライントレーニングとオンラインアプリケーションのパラダイムによって重い計算をアンロードする。 具体的には、全経路のOCPを協調してマルチタスクのRL問題を構築し、その後、リアルタイムオンラインパスの選択と追跡のために、我々のアルゴリズムでオフラインで値とポリシーネットワークに分解する。 我々はシミュレーションと現実世界の両方でフレームワークを検証する。 その結果,本手法は,ベースライン方式と比較して,トラヒック効率や安全性を含む運転性能が向上していることがわかった。 さらに、異なる運転タスク間で大きな解釈可能性と適応性が得られる。 実際の道路テストはまた、チューニングもせずに複雑な交通シナリオに適用できることを示唆している。

Decision and control are two of the core functionalities of high-level automated vehicles. Current mainstream methods, such as functionality decomposition or end-to-end reinforcement learning (RL), either suffer high time complexity or poor interpretability and limited safety performance in real-world complex autonomous driving tasks. In this paper, we present an interpretable and efficient decision and control framework for automated vehicles, which decomposes the driving task into multi-path planning and optimal tracking that are structured hierarchically. First, the multi-path planning is to generate several paths only considering static constraints. Then, the optimal tracking is designed to track the optimal path while considering the dynamic obstacles. To that end, in theory, we formulate a constrained optimal control problem (OCP) for each candidate path, optimize them separately and choose the one with the best tracking performance to follow. More importantly, we propose a model-based reinforcement learning (RL) algorithm, which is served as an approximate constrained OCP solver, to unload the heavy computation by the paradigm of offline training and online application. Specifically, the OCPs for all paths are considered together to construct a multi-task RL problem and then solved offline by our algorithm into value and policy networks, for real-time online path selecting and tracking respectively. We verify our framework in both simulation and the real world. Results show that our method has better online computing efficiency and driving performance including traffic efficiency and safety compared with baseline methods. In addition, it yields great interpretability and adaptability among different driving tasks. The real road test also suggests that it is applicable in complicated traffic scenarios without even tuning.
翻訳日:2021-03-19 13:51:18 公開日:2021-03-18
# ChronoR: 回転に基づく時間的知識グラフ埋め込み

ChronoR: Rotation Based Temporal Knowledge Graph Embedding ( http://arxiv.org/abs/2103.10379v1 )

ライセンス: Link先を確認
Ali Sadeghian, Mohammadreza Armandpour, Anthony Colas, Daisy Zhe Wang(参考訳) 時間的知識グラフの重要性と豊富さにもかかわらず、現在の研究のほとんどは静的グラフの推論に焦点が当てられている。 本稿では,時間的知識グラフに対する推論の問題について検討する。 特に、時間的リンク予測のタスク。 一般に、これはデータ非定常性、データ不均一性、および複雑な時間的依存関係のために難しいタスクである。 本稿では,エンティティ,関係,時刻の表現を学習するための新しいモデルであるChronoRを提案する。 密表現の学習は知識グラフの推論を行うための効率的で汎用的な方法としてよく用いられる。 提案モデルでは, 関係と時間によってパラメータ化されたk次元回転変換を学習し, 各事象の頭部実体が回転を用いて変換された後, 対応する尾実体の近傍に落下する。 高次元回転を変換演算子として使用することにより、クロノRは時間的知識グラフの時間的特性とマルチリレーショナル特性の間のリッチな相互作用をキャプチャする。 実験により,時系列知識グラフリンク予測のためのベンチマークデータセットにおいて,chronorは最先端手法の多くを上回ることができることを示した。

Despite the importance and abundance of temporal knowledge graphs, most of the current research has been focused on reasoning on static graphs. In this paper, we study the challenging problem of inference over temporal knowledge graphs. In particular, the task of temporal link prediction. In general, this is a difficult task due to data non-stationarity, data heterogeneity, and its complex temporal dependencies. We propose Chronological Rotation embedding (ChronoR), a novel model for learning representations for entities, relations, and time. Learning dense representations is frequently used as an efficient and versatile method to perform reasoning on knowledge graphs. The proposed model learns a k-dimensional rotation transformation parametrized by relation and time, such that after each fact's head entity is transformed using the rotation, it falls near its corresponding tail entity. By using high dimensional rotation as its transformation operator, ChronoR captures rich interaction between the temporal and multi-relational characteristics of a Temporal Knowledge Graph. Experimentally, we show that ChronoR is able to outperform many of the state-of-the-art methods on the benchmark datasets for temporal knowledge graph link prediction.
翻訳日:2021-03-19 13:50:52 公開日:2021-03-18
# スケール情報からの時系列学習

Learning Time Series from Scale Information ( http://arxiv.org/abs/2103.10026v1 )

ライセンス: Link先を確認
Yuan Yang and Jie Ding(参考訳) 得られたデータセットは通常、異なるデータ解像度/スケールで異なる振る舞いを示す。 各スケールのデータから個別に推測するのではなく、異なるスケールの時系列の集合としてデータを解釈することがより有益な場合が多い。 これは自然にスケールベース推論と呼ばれる新しい概念を提案する動機となった。 基本的な考え方は、時系列のスケール情報を利用してより正確な予測ができるということである。 まず1つの時系列に最適に選ばれた$k$-nearest近傍に基づくノンパラメトリック予測器を提案する。 そこで本研究では,時系列データの解像度・サンプリング率という,特定のが重要なスケール情報に焦点をあてる。 次に,過去のデータを様々な解像度で逐次予測するアルゴリズムを提案する。 漸近的にアルゴリズムは、最適に選択されたパラメータの下で、任意の単一の解像度で最良のアルゴリズムよりも大きい平均予測誤差を生じることを証明している。 最後に、スケール推論の一般的な定式化を確立し、さらなるモチベーションの例を示す。 合成データと実データの両方の実験は、幅広い時系列モデルに対する我々のアプローチの適用可能性を示している。

Sequentially obtained dataset usually exhibits different behavior at different data resolutions/scales. Instead of inferring from data at each scale individually, it is often more informative to interpret the data as an ensemble of time series from different scales. This naturally motivated us to propose a new concept referred to as the scale-based inference. The basic idea is that more accurate prediction can be made by exploiting scale information of a time series. We first propose a nonparametric predictor based on $k$-nearest neighbors with an optimally chosen $k$ for a single time series. Based on that, we focus on a specific but important type of scale information, the resolution/sampling rate of time series data. We then propose an algorithm to sequentially predict time series using past data at various resolutions. We prove that asymptotically the algorithm produces the mean prediction error that is no larger than the best possible algorithm at any single resolution, under some optimally chosen parameters. Finally, we establish the general formulations for scale inference, and provide further motivating examples. Experiments on both synthetic and real data illustrate the potential applicability of our approaches to a wide range of time series models.
翻訳日:2021-03-19 13:50:36 公開日:2021-03-18
# TSTNN:時間領域における音声強調のための2段階変換器ベースニューラルネットワーク

TSTNN: Two-stage Transformer based Neural Network for Speech Enhancement in the Time Domain ( http://arxiv.org/abs/2103.09963v1 )

ライセンス: Link先を確認
Kai Wang, Bengbeng He, Wei-Ping Zhu(参考訳) 本稿では,tstnn(two-stage transformer neural network)と呼ばれる,時間領域における音声のエンドツーエンド化を実現するトランスフォーマーアーキテクチャを提案する。 提案モデルは,エンコーダ,2段変圧器モジュール(TSTM),マスキングモジュール,デコーダから構成される。 エンコーダは入力ノイズ音声を特徴表現にマッピングする。 TSTMは、エンコーダ出力ステージからローカルおよびグローバル情報を効率よく抽出するために、4つの積み重ね2段変圧器ブロックを利用する。 マスクモジュールは、エンコーダ出力と乗算されるマスクを生成する。 最後に、デコーダはマスクエンコーダ機能を使用して拡張音声を再構築する。 ベンチマークデータセットによる実験結果から、TSTNNは、時間や周波数領域におけるほとんどの最先端モデルより優れ、モデルの複雑さは著しく低いことがわかった。

In this paper, we propose a transformer-based architecture, called two-stage transformer neural network (TSTNN) for end-to-end speech denoising in the time domain. The proposed model is composed of an encoder, a two-stage transformer module (TSTM), a masking module and a decoder. The encoder maps input noisy speech into feature representation. The TSTM exploits four stacked two-stage transformer blocks to efficiently extract local and global information from the encoder output stage by stage. The masking module creates a mask which will be multiplied with the encoder output. Finally, the decoder uses the masked encoder feature to reconstruct the enhanced speech. Experimental results on the benchmark dataset show that the TSTNN outperforms most state-of-the-art models in time or frequency domain while having significantly lower model complexity.
翻訳日:2021-03-19 13:50:21 公開日:2021-03-18
# ガウス過程を用いたデータ駆動無線通信

Data-Driven Wireless Communication Using Gaussian Processes ( http://arxiv.org/abs/2103.10134v1 )

ライセンス: Link先を確認
Kai Chen, Qinglei Kong, Yijue Dai, Yue Xu, Feng Yin, Lexi Xu, and Shuguang Cui(参考訳) データ駆動パラダイムは、将来の無線通信においてよく知られ、有意義な要求である。 ビッグデータと機械学習を活用して、次世代のデータ駆動型通信システムは、表現性、スケーラビリティ、解釈可能性、そして特に不確実性モデリングの特徴を持つインテリジェントなものになる。 本稿では,非パラメトリックなベイズ機械学習手法,すなわちガウス過程(GP)とその不確実性を考慮した解釈可能な学習能力による無線通信への応用についてレビューし,提示する。 具体的には、GPを用いたデータ駆動無線通信の3段階のモチベーションを最初に想定する。 そして、共分散構造とモデル推論の観点からGPモデルの背景を提供する。 GPモデルの表現性は、静的、非定常、ディープ、マルチタスクカーネルなど、様々な解釈可能なカーネル設計を用いて導入される。 さらに,分散エッジデバイスを多数有する無線ネットワークへの適用に適した拡張性を備えた分散GPについて検討する。 最後に、無線通信システムにGPを採用するための代表的ソリューションと有望な技術を提供する。

Data-driven paradigms are well-known and salient demands of future wireless communication. Empowered by big data and machine learning, next-generation data-driven communication systems will be intelligent with the characteristics of expressiveness, scalability, interpretability, and especially uncertainty modeling, which can confidently involve diversified latent demands and personalized services in the foreseeable future. In this paper, we review and present a promising family of nonparametric Bayesian machine learning methods, i.e., Gaussian processes (GPs), and their applications in wireless communication due to their interpretable learning ability with uncertainty. Specifically, we first envision three-level motivations of data-driven wireless communication using GPs. Then, we provide the background of the GP model in terms of covariance structure and model inference. The expressiveness of the GP model is introduced by using various interpretable kernel designs, namely, stationary, non-stationary, deep, and multi-task kernels. Furthermore, we review the distributed GP with promising scalability, which is suitable for applications in wireless networks with a large number of distributed edge devices. Finally, we provide representative solutions and promising techniques that adopting GPs in wireless communication systems.
翻訳日:2021-03-19 13:50:07 公開日:2021-03-18
# 生体音響信号認識のための識別特異スペクトル分類器

Discriminative Singular Spectrum Classifier with Applications on Bioacoustic Signal Recognition ( http://arxiv.org/abs/2103.10166v1 )

ライセンス: Link先を確認
Bernardo B. Gatto, Juan G. Colonna, Eulanda M. dos Santos, Alessandro L. Koerich, Kazuhiro Fukui(参考訳) 生体音響信号の自動解析は、我々の惑星の活力を評価する基本的なツールである。 例えば、フグやハチは環境変化に関する情報を提供する生物学的センサーのように振る舞う。 このタスクは環境モニタリングの基本であり、不均一な信号長処理、環境騒音によるターゲット信号の劣化、機械学習のトレーニングのためのラベル付きサンプルの不足など、多くの課題をまだ抱えている。 そこで本研究では, 分析・分類に有用な特徴を効率的に抽出するための識別機構を備えたバイオ音響信号分類器を提案する。 提案する分類器は、大量のトレーニングデータを必要としず、非一様信号長をネイティブに処理する。 タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をSSA(Singular Spectrum Analysis)を適用したベクトル部分空間に変換することに依存する。 次に、サブスペースは、識別的特徴を露出するように設計される。 提案モデルは、現代の機械学習システムで望ましいエンドツーエンド機能を共有する。 本発明は、生体音響信号の表現と分類のためのセグメンテーションフリーでノイズ耐性なアプローチと、ssaから受け継いだ高度にコンパクトな信号記述子を提供する。 提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。 3つのバイオ音響データセットによる実験結果から, 生体音響信号の高精度分類法と比較して, 提案手法の競合性能が示された。

Automatic analysis of bioacoustic signals is a fundamental tool to evaluate the vitality of our planet. Frogs and bees, for instance, may act like biological sensors providing information about environmental changes. This task is fundamental for ecological monitoring still includes many challenges such as nonuniform signal length processing, degraded target signal due to environmental noise, and the scarcity of the labeled samples for training machine learning. To tackle these challenges, we present a bioacoustic signal classifier equipped with a discriminative mechanism to extract useful features for analysis and classification efficiently. The proposed classifier does not require a large amount of training data and handles nonuniform signal length natively. Unlike current bioacoustic recognition methods, which are task-oriented, the proposed model relies on transforming the input signals into vector subspaces generated by applying Singular Spectrum Analysis (SSA). Then, a subspace is designed to expose discriminative features. The proposed model shares end-to-end capabilities, which is desirable in modern machine learning systems. This formulation provides a segmentation-free and noise-tolerant approach to represent and classify bioacoustic signals and a highly compact signal descriptor inherited from SSA. The validity of the proposed method is verified using three challenging bioacoustic datasets containing anuran, bee, and mosquito species. Experimental results on three bioacoustic datasets have shown the competitive performance of the proposed method compared to commonly employed methods for bioacoustics signal classification in terms of accuracy.
翻訳日:2021-03-19 13:49:50 公開日:2021-03-18
# 神経テンソルの収縮とディープニューラル量子状態の表現力

Neural tensor contractions and the expressive power of deep neural quantum states ( http://arxiv.org/abs/2103.10293v1 )

ライセンス: Link先を確認
Or Sharir, Amnon Shashua and Giuseppe Carleo(参考訳) 一般的なテンソルネットワークとディープフィードフォワード人工ニューラルネットワークとの直接接続を確立する。 この結果の核心は、テンソル収縮を効率的に行うニューラルネットワーク層の構築であり、一般的な非線形活性化関数を用いている。 結果として生じるディープネットワークは、近似されるテンソルネットワークの収縮複雑性と密接に一致する多くのエッジを備えている。 この結果は、多体量子状態の文脈において、ニューラルネットワーク状態が実際に使用可能な変分テンソルネットワークよりも厳密に同じまたは高い表現力を持つことを示す。 例えば、全ての行列積状態は、結合次元における多くの辺多項式と系サイズにおける深さ対数を持つニューラルネットワーク状態として効率的に書けることを示す。 逆は真ではなく、我々の結果は、行列積状態や実際使用可能なPEPSで効率的に表現できない量子状態が存在するが、代わりにニューラルネットワーク状態で効率よく表現できる量子状態が存在することを示唆している。

We establish a direct connection between general tensor networks and deep feed-forward artificial neural networks. The core of our results is the construction of neural-network layers that efficiently perform tensor contractions, and that use commonly adopted non-linear activation functions. The resulting deep networks feature a number of edges that closely matches the contraction complexity of the tensor networks to be approximated. In the context of many-body quantum states, this result establishes that neural-network states have strictly the same or higher expressive power than practically usable variational tensor networks. As an example, we show that all matrix product states can be efficiently written as neural-network states with a number of edges polynomial in the bond dimension and depth logarithmic in the system size. The opposite instead does not hold true, and our results imply that there exist quantum states that are not efficiently expressible in terms of matrix product states or practically usable PEPS, but that are instead efficiently expressible with neural network states.
翻訳日:2021-03-19 13:49:27 公開日:2021-03-18
# 分岐・境界におけるスケジュールヒューリスティックスへの学習

Learning to Schedule Heuristics in Branch-and-Bound ( http://arxiv.org/abs/2103.10294v1 )

ライセンス: Link先を確認
Antonia Chmiela, Elias B. Khalil, Ambros Gleixner, Andrea Lodi, Sebastian Pokutta(参考訳) 主ヒューリスティックは混合整数プログラミング(mip)の完全解法において重要な役割を果たす。 解決者は十分な時間があれば最適な解を見つけることが保証されるが、現実世界のアプリケーションは通常、迅速な意思決定を可能にするために探索の早い段階で良い解を見つける必要がある。 MIP研究の多くは効果的なヒューリスティックスの設計に重点を置いているが、解法における複数のMIPヒューリスティックスをどのように管理するかという問題は、等しく注目されていない。 一般に、解法は幅広いインスタンスに対する経験的テストから導かれるハードコードルールに従う。 ヒューリスティックスのパフォーマンスはインスタンスに依存しているため、特定の問題に対してこれらの一般的なルールを使用することで、最高のパフォーマンスを得ることはできない。 本研究では,正確なMIP解法におけるヒューリスティックススケジューリングのための,最初のデータ駆動型フレームワークを提案する。 主ヒューリスティックスの性能を記述するデータから学習することにより、最小コストで多くの解を集合的に見つけるヒューリスティックスの問題固有のスケジュールを得る。 この問題を形式的に記述し、そのようなスケジュールを計算するための効率的なアルゴリズムを提案する。 最先端の学術的MIPソルバのデフォルト設定と比較して、挑戦的なインスタンスのクラスでは、平均原始積分を最大49%削減できる。

Primal heuristics play a crucial role in exact solvers for Mixed Integer Programming (MIP). While solvers are guaranteed to find optimal solutions given sufficient time, real-world applications typically require finding good solutions early on in the search to enable fast decision-making. While much of MIP research focuses on designing effective heuristics, the question of how to manage multiple MIP heuristics in a solver has not received equal attention. Generally, solvers follow hard-coded rules derived from empirical testing on broad sets of instances. Since the performance of heuristics is instance-dependent, using these general rules for a particular problem might not yield the best performance. In this work, we propose the first data-driven framework for scheduling heuristics in an exact MIP solver. By learning from data describing the performance of primal heuristics, we obtain a problem-specific schedule of heuristics that collectively find many solutions at minimal cost. We provide a formal description of the problem and propose an efficient algorithm for computing such a schedule. Compared to the default settings of a state-of-the-art academic MIP solver, we are able to reduce the average primal integral by up to 49% on a class of challenging instances.
翻訳日:2021-03-19 13:49:10 公開日:2021-03-18
# (参考訳) pytorchを用いた1次元アドベクション方程式の物理インフォームドニューラルネットワーク法

Physics-Informed Neural Network Method for Solving One-Dimensional Advection Equation Using PyTorch ( http://arxiv.org/abs/2103.09662v2 )

ライセンス: CC BY 4.0
S.R. Vadyala, S.N. Betgeri(参考訳) 対流方程式の数値解は、解析解を許容する条件下で、異なる有限差分近似と物理情報ニューラルネットワーク(PINN)を用いて決定される。 それらの精度を解析解と比較することにより検証する。 PyTorchのような機械学習フレームワークを使ってPINNを実装しました。 PINNのアプローチでは、PDEを損失関数の一部とする最適化の強い制約として尊重しながら、ニューラルネットワークをトレーニングすることができる。 標準の小規模循環シミュレーションでは, 乱流拡散モデルの影響とほぼ同程度の大きさの擬似拡散効果が組み込まれており, 数値解はpdesと一致しないことがわかった。 この振動は不正確さと計算の不確実性を引き起こす。 テストされた全てのスキームのうち、ピンズ近似のみが結果を正確に予測した。 PINNのアプローチは,大規模スーパーコンピュータ上でのコストと時間を要するシミュレーションを伴わずに,実時間物理シミュレーションと幾何最適化を可能とし,物理シミュレーション領域を変換できると仮定する。

Numerical solutions to the equation for advection are determined using different finite-difference approximations and physics-informed neural networks (PINNs) under conditions that allow an analytical solution. Their accuracy is examined by comparing them to the analytical solution. We used a machine learning framework like PyTorch to implement PINNs. PINNs approach allows training neural networks while respecting the PDEs as a strong constraint in the optimization as apposed to making them part of the loss function. In standard small-scale circulation simulations, it is shown that the conventional approach incorporates a pseudo diffusive effect that is almost as large as the effect of the turbulent diffusion model; hence the numerical solution is rendered inconsistent with the PDEs. This oscillation causes inaccuracy and computational uncertainty. Of all the schemes tested, only the PINNs approximation accurately predicted the outcome. We assume that the PINNs approach can transform the physics simulation area by allowing real-time physics simulation and geometry optimization without costly and time-consuming simulations on large supercomputers.
翻訳日:2021-03-19 12:47:01 公開日:2021-03-18
# (参考訳) グラフ畳み込みネットワークを用いた共同情報抽出のためのクロスタスクインスタンス表現相互作用とラベル依存性

Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extraction with Graph Convolutional Networks ( http://arxiv.org/abs/2103.09330v2 )

ライセンス: CC BY-SA 4.0
Minh Van Nguyen, Viet Dac Lai and Thien Huu Nguyen(参考訳) 情報抽出(ie)に関する既存の研究は、主に4つの主要なタスク(エンティティ参照認識、関係抽出、イベントトリガー検出、引数抽出)を個別に解決しており、タスク間の相互依存性の恩恵を受けていない。 本稿では,1つのモデル(FourIE)でIEの4つのタスクを同時に解くための新しいディープラーニングモデルを提案する。 4つのIEタスクを共同実行する以前の作業と比べて、FourIEはタスク間の依存関係をキャプチャする2つの新しいコントリビューションを備えている。 まず、表現レベルでは、4つのタスクのインスタンス間の相互作用グラフを導入し、1つのタスクの予測表現と、他のタスクの関連インスタンスとの相互作用グラフを導入する。 第2に、ラベルレベルにおいて、入力文で表現された型間の接続をキャプチャする4つのIEタスクにおける情報型に対する依存性グラフを提案する。 黄金型依存グラフと予測型依存グラフの一貫性を強制し、表現学習を改善するために、新しい正規化機構が導入された。 提案モデルは,3つの異なる言語を用いた単言語学習と多言語学習の両方において,ieの最先端性能を実現する。

Existing works on information extraction (IE) have mainly solved the four main tasks separately (entity mention recognition, relation extraction, event trigger detection, and argument extraction), thus failing to benefit from inter-dependencies between tasks. This paper presents a novel deep learning model to simultaneously solve the four tasks of IE in a single model (called FourIE). Compared to few prior work on jointly performing four IE tasks, FourIE features two novel contributions to capture inter-dependencies between tasks. First, at the representation level, we introduce an interaction graph between instances of the four tasks that is used to enrich the prediction representation for one instance with those from related instances of other tasks. Second, at the label level, we propose a dependency graph for the information types in the four IE tasks that captures the connections between the types expressed in an input sentence. A new regularization mechanism is introduced to enforce the consistency between the golden and predicted type dependency graphs to improve representation learning. We show that the proposed model achieves the state-of-the-art performance for joint IE on both monolingual and multilingual learning settings with three different languages.
翻訳日:2021-03-19 12:35:52 公開日:2021-03-18
# (参考訳) 物体検出における損失重量調整の再検討

Revisiting the Loss Weight Adjustment in Object Detection ( http://arxiv.org/abs/2103.09488v2 )

ライセンス: CC BY 4.0
Wenxin Yu, Bin Hu, Yucheng Hu, Tianxiang Lan, Yuanfan You, Dong Yin(参考訳) 定義上、オブジェクト検出は分類と回帰タスクを同時に解決するためにマルチタスクの損失を必要とする。 しかし、損失重量は実際に手動で設定される傾向がある。 したがって、これまで研究されていない非常に実践的な問題は、現在の損失関数に適合する損失重みを素早く見つける方法である。 さらに、異なる回帰損失関数を選択する場合、損失の重みを調整する必要があるかどうか、もしそうであれば、どのように調整すべきかが課題となる。 本稿では,予測ボックスシフトに関する実験と理論的解析を通じて,(1)回帰損失曲線が回帰損失曲線よりも早く減衰する,(2)損失重量が1未満である、(3)分類と回帰損失重量の差が大きすぎるべきではない、という3つの重要な結論を見出す。 そこで, 上記の結論に基づいて, 損失値の統計的特性に応じて, トレーニング過程における損失重みを動的に調整することにより, 上記の2つの問題を解決する適応的損失重み調整(ALWA)を提案する。 ALWAを1段および2段のオブジェクト検出器に組み込むことで,L1,SmoothL1,CIoU損失,PASCALVOC,MS COCOなどの一般的なオブジェクト検出ベンチマークの性能評価などを用いて,それらの性能を一貫した改善を示す。 コードはhttps://github.com/ywx-hub/ALWAで公開されている。

By definition, object detection requires a multi-task loss in order to solve classification and regression tasks simultaneously. However, loss weight tends to be set manually in actuality. Therefore, a very practical problem that has not been studied so far arises: how to quickly find the loss weight that fits the current loss functions. In addition, when we choose different regression loss functions, whether the loss weight need to be adjusted and if so, how should it be adjusted still is a problem demanding prompt solution. In this paper, through experiments and theoretical analysis of prediction box shifting, we firstly find out three important conclusions about optimal loss weight allocation strategy, including (1) the classification loss curve decays faster than regression loss curve; (2) loss weight is less than 1; (3) the gap between classification and regression loss weight should not be too large. Then, based on the above conclusions, we propose an Adaptive Loss Weight Adjustment(ALWA) to solve the above two problems by dynamically adjusting the loss weight in the training process, according to statistical characteristics of loss values. By incorporating ALWA into both one-stage and two-stage object detectors, we show a consistent improvement on their performance using L1, SmoothL1 and CIoU loss, performance measures on popular object detection benchmarks including PASCAL VOC and MS COCO. The code is available at https://github.com/ywx-hub/ALWA.
翻訳日:2021-03-19 12:11:28 公開日:2021-03-18
# (参考訳) PredRNN:時空間予測学習のためのリカレントニューラルネットワーク

PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2103.09504v2 )

ライセンス: CC BY 4.0
Yunbo Wang, Haixu Wu, Jianjin Zhang, Zhifeng Gao, Jianmin Wang, Philip S. Yu, Mingsheng Long(参考訳) 時空間列の予測学習は、歴史的文脈から学習することで将来の画像を生成することを目的としており、視覚力学は構成サブシステムで学習できるモジュラー構造を持つと考えられている。 本稿では,2つのメモリセルを明示的に分離し,ほぼ独立な遷移方式で動作し,最終的に複雑な環境の統一表現を形成する,新しいリカレントネットワークであるPredRNNを提示することによって,これらの構造をモデル化する。 具体的には、LSTMの元々のメモリセルに加えて、このネットワークは、すべての層にわたってボトムアップ方向とトップダウン方向の両方を伝播するジグザグメモリフローによって特徴付けられる。 また、メモリ分離損失を利用して、メモリセルが冗長な機能を学ぶのを防ぐ。 予測学習シナリオにおいて、ほとんどのシーケンス間RNNに一般化できる新しいカリキュラム学習戦略により、PredRNNをさらに改善する。 各成分の有効性を検証するため,詳細なアブレーション研究,勾配解析,可視化を行う。 提案手法は, 人工移動MNISTデータセット, KTH人行動データセット, 降水予測のためのレーダエコーデータセットの3つの標準データセットに対して, 高い競合性が得られることを示す。

The predictive learning of spatiotemporal sequences aims to generate future images by learning from the historical context, where the visual dynamics are believed to have modular structures that can be learned with compositional subsystems. This paper models these structures by presenting PredRNN, a new recurrent network, in which a pair of memory cells are explicitly decoupled, operate in nearly independent transition manners, and finally form unified representations of the complex environment. Concretely, besides the original memory cell of LSTM, this network is featured by a zigzag memory flow that propagates in both bottom-up and top-down directions across all layers, enabling the learned visual dynamics at different levels of RNNs to communicate. It also leverages a memory decoupling loss to keep the memory cells from learning redundant features. We further improve PredRNN with a new curriculum learning strategy, which can be generalized to most sequence-to-sequence RNNs in predictive learning scenarios. We provide detailed ablation studies, gradient analyses, and visualizations to verify the effectiveness of each component. We show that our approach obtains highly competitive results on three standard datasets: the synthetic Moving MNIST dataset, the KTH human action dataset, and a radar echo dataset for precipitation forecasting.
翻訳日:2021-03-19 11:54:09 公開日:2021-03-18
# 視覚言語モデルのゼロショット言語間伝達のための多言語マルチモーダル事前学習

Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models ( http://arxiv.org/abs/2103.08849v2 )

ライセンス: Link先を確認
Po-Yao Huang, Mandela Patrick, Junjie Hu, Graham Neubig, Florian Metze and Alexander Hauptmann(参考訳) 本稿では,視覚言語モデルのゼロショット言語間伝達について検討する。 具体的には,多言語間テキスト対ビデオ検索に着目し,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。 ゼロショット設定では,非英語文で多言語テキストビデオモデルに問い合わせると,性能が著しく低下することを示す。 この問題に対処するために,多言語マルチモーダル事前学習戦略を導入し,事前学習のための新しい多言語指導ビデオデータセット(multihowto100m)を収集する。 VTT実験により,アノテーションを付加せずに非英語での動画検索が大幅に改善された。 さらに,多言語アノテーションが利用可能であれば,vtt と vatex の多言語テキスト対ビデオ検索や multi30k の多言語テキスト対画像検索において,最近のベースラインを大きく上回っている。 私たちのモデルとMulti-HowTo100Mはhttp://github.com/berniebear/Multi-HT100Mで利用可能です。

This paper studies zero-shot cross-lingual transfer of vision-language models. Specifically, we focus on multilingual text-to-video search and propose a Transformer-based model that learns contextualized multilingual multimodal embeddings. Under a zero-shot setting, we empirically demonstrate that performance degrades significantly when we query the multilingual text-video model with non-English sentences. To address this problem, we introduce a multilingual multimodal pre-training strategy, and collect a new multilingual instructional video dataset (MultiHowTo100M) for pre-training. Experiments on VTT show that our method significantly improves video search in non-English languages without additional annotations. Furthermore, when multilingual annotations are available, our method outperforms recent baselines by a large margin in multilingual text-to-video search on VTT and VATEX; as well as in multilingual text-to-image search on Multi30K. Our model and Multi-HowTo100M is available at http://github.com/berniebear/Multi-HT100M.
翻訳日:2021-03-19 10:38:37 公開日:2021-03-18
# ブロックワイズ抽象構文木分割によるコード要約の改善

Improving Code Summarization with Block-wise Abstract Syntax Tree Splitting ( http://arxiv.org/abs/2103.07845v2 )

ライセンス: Link先を確認
Chen Lin, Zhichao Ouyang, Junqing Zhuang, Jianqiang Chen, Hui Li, Rongxin Wu(参考訳) 自動コード要約は、ソフトウェア開発者が手作業によるコメントの重い負担から解放し、ソフトウェア開発とメンテナンスに恩恵を与える。 ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。 しかし、既存のASTベースのメソッドは、トレーニングの難しさに悩まされ、不十分なコード要約を生成する。 本稿では,astsのリッチなツリー形式構文構造を十分に活用し,コード要約を改善するブロックワイズ抽象構文木分割法(略してbasts)を提案する。 BASTSは、コントロールフローグラフのドミネータツリーのブロックに基づいてメソッドのコードを分割し、各コード分割に対して分割ASTを生成する。 各分割ASTは、事前トレーニング戦略を使用してTree-LSTMによってモデル化され、ローカルな非線形構文エンコーディングをキャプチャする。 学習された構文エンコーディングは、コードエンコーディングと組み合わせられ、トランスフォーマティブに供給され、高品質のコードサマリーを生成する。 ベンチマークに関する総合的な実験は、BASTSが様々な評価指標で最先端のアプローチを著しく上回ることを示した。 再現性を容易にするため、実装はhttps://github.com/xmudm/bastsで利用可能です。

Automatic code summarization frees software developers from the heavy burden of manual commenting and benefits software development and maintenance. Abstract Syntax Tree (AST), which depicts the source code's syntactic structure, has been incorporated to guide the generation of code summaries. However, existing AST based methods suffer from the difficulty of training and generate inadequate code summaries. In this paper, we present the Block-wise Abstract Syntax Tree Splitting method (BASTS for short), which fully utilizes the rich tree-form syntax structure in ASTs, for improving code summarization. BASTS splits the code of a method based on the blocks in the dominator tree of the Control Flow Graph, and generates a split AST for each code split. Each split AST is then modeled by a Tree-LSTM using a pre-training strategy to capture local non-linear syntax encoding. The learned syntax encoding is combined with code encoding, and fed into Transformer to generate high-quality code summaries. Comprehensive experiments on benchmarks have demonstrated that BASTS significantly outperforms state-of-the-art approaches in terms of various evaluation metrics. To facilitate reproducibility, our implementation is available at https://github.com/XMUDM/BASTS.
翻訳日:2021-03-19 10:38:18 公開日:2021-03-18
# PC-HMR:2次元画像/ビデオからの3次元メッシュ復元のためのポスキャリブレーション

PC-HMR: Pose Calibration for 3D Human Mesh Recovery from 2D Images/Videos ( http://arxiv.org/abs/2103.09009v2 )

ライセンス: Link先を確認
Tianyu Luan, Yali Wang, Junhao Zhang, Zhe Wang, Zhipeng Zhou, Yu Qiao(参考訳) エンド・ツー・エンドのHuman Mesh Recovery (HMR) アプローチは3次元体再構築に成功している。 しかし、ほとんどのhmrベースのフレームワークは、画像やビデオからメッシュパラメータを直接学習することで人体を再構築し、視覚データにおける3d人間のポーズの明確なガイダンスを欠いている。 その結果、生成されたメッシュはしばしば、複雑なアクティビティの誤ったポーズを示す。 この問題に対処するために,人間のメッシュのキャリブレーションに3Dポーズを活用することを提案する。 具体的には,新しいポーズキャリブレーションフレームワークであるserial pc-hmrとparallel pc-hmrを開発した。 高度な3Dポーズ推定器とHMRを連続的または並列的に結合することにより、これらの2つのフレームワークは、簡潔なポーズキャリブレーションモジュールのガイダンスにより、人間のメッシュを効果的に補正することができる。 さらに, キャリブレーションモジュールは非剛性ポーズ変換により設計されているため, PC-HMRフレームワークは骨長の変動に柔軟に対応することができ, キャリブレーションメッシュのずれを軽減できる。 最後に、我々のフレームワークは、データ駆動学習と幾何学的モデリングの汎用的で補完的な統合に基づいている。 プラグアンドプレイモジュールを使用すると、イメージ/ビデオベースのヒューマンメッシュリカバリに効率よく適応できる。 さらに、テストフェーズで追加の3dポーズアノテーションを必要とせず、実際に推論の困難を発生させる。 我々は一般的なベンチマーク(Human3.6M, 3DPW, SURREAL)について広範な実験を行い、PC-HMRフレームワークがSOTA結果を達成する。

The end-to-end Human Mesh Recovery (HMR) approach has been successfully used for 3D body reconstruction. However, most HMR-based frameworks reconstruct human body by directly learning mesh parameters from images or videos, while lacking explicit guidance of 3D human pose in visual data. As a result, the generated mesh often exhibits incorrect pose for complex activities. To tackle this problem, we propose to exploit 3D pose to calibrate human mesh. Specifically, we develop two novel Pose Calibration frameworks, i.e., Serial PC-HMR and Parallel PC-HMR. By coupling advanced 3D pose estimators and HMR in a serial or parallel manner, these two frameworks can effectively correct human mesh with guidance of a concise pose calibration module. Furthermore, since the calibration module is designed via non-rigid pose transformation, our PC-HMR frameworks can flexibly tackle bone length variations to alleviate misplacement in the calibrated mesh. Finally, our frameworks are based on generic and complementary integration of data-driven learning and geometrical modeling. Via plug-and-play modules, they can be efficiently adapted for both image/video-based human mesh recovery. Additionally, they have no requirement of extra 3D pose annotations in the testing phase, which releases inference difficulties in practice. We perform extensive experiments on the popular bench-marks, i.e., Human3.6M, 3DPW and SURREAL, where our PC-HMR frameworks achieve the SOTA results.
翻訳日:2021-03-19 10:37:58 公開日:2021-03-18
# 映像に基づく人物再識別のためのディエンスインタラクション学習

Dense Interaction Learning for Video-based Person Re-identification ( http://arxiv.org/abs/2103.09013v2 )

ライセンス: Link先を確認
Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng Hua(参考訳) ビデオベースの人物再識別(re-ID)は、同じ人物をビデオクリップ間でマッチングすることを目的としている。 構造的相互作用を構築しながら、マルチスケールのきめ細かい特徴を効果的に活用することが、その成功の鍵となる。 本稿では,cnnベースと注意ベースの両方のアーキテクチャの利点を生かして,ビデオベースの人物再特定問題に取り組むためのハイブリッドフレームワークであるdenseilを提案する。 DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。 CNNエンコーダは識別空間の特徴を効率的に抽出し、DIデコーダはフレーム間の空間的時間的相互作用を密にモデル化するように設計されている。 従来と異なり、DIデコーダは中間の細粒度CNN特徴に密に対応させ、ビデオクリップ毎に自然に多粒度空間時間表現を与える。 さらに、時空間入力の位置関係を調べるために、DIデコーダにSTEP-Emb(Spatio-TEmporal Positional Embedding)を導入する。 我々の実験は、複数の標準ビデオベースのre-IDデータセットにおける最先端の手法を一貫して大幅に上回っている。

Video-based person re-identification (re-ID) aims at matching the same person across video clips. Efficiently exploiting multi-scale fine-grained features while building the structural interaction among them is pivotal for its success. In this paper, we propose a hybrid framework, Dense Interaction Learning (DenseIL), that takes the principal advantages of both CNN-based and Attention-based architectures to tackle video-based person re-ID difficulties. DenseIL contains a CNN encoder and a Dense Interaction (DI) decoder. The CNN encoder is responsible for efficiently extracting discriminative spatial features while the DI decoder is designed to densely model spatial-temporal inherent interaction across frames. Different from previous works, we additionally let the DI decoder densely attends to intermediate fine-grained CNN features and that naturally yields multi-grained spatial-temporal representation for each video clip. Moreover, we introduce Spatio-TEmporal Positional Embedding (STEP-Emb) into the DI decoder to investigate the positional relation among the spatial-temporal inputs. Our experiments consistently and significantly outperform all the state-of-the-art methods on multiple standard video-based re-ID datasets.
翻訳日:2021-03-19 10:37:33 公開日:2021-03-18
# メタン/空気燃焼の速度論的モデル学習に向けて

Toward Machine Learned Highly Reduce Kinetic Models For Methane/Air Combustion ( http://arxiv.org/abs/2103.08377v2 )

ライセンス: Link先を確認
Mark Kelly, Gilles Bourque, Stephen Dooley(参考訳) メタンの正確な低次元化学動力学モデルは、効率的なガスタービン燃焼器の設計に欠かせない要素である。 計算流体力学(CFD)に結合された運動モデルは、物理実験と比較して、運転条件、燃料組成、燃焼器設計の影響を迅速かつ効率的にテストする方法を提供する。 しかし、詳細な化学動力学モデルはCFDでの使用には計算コストがかかりすぎる。 対象とする詳細なモデル特性を高い忠実度で再現するコンパクトモデルを作成するための,新しいデータ指向三段階法を提案する。 第1段階では、パスフラックス解析(PFA)を用いて、118種を含む詳細なモデルからすべての非必須種を除去し、還元速度論的モデルを得る。 まず、選択された種(OH,H,CO,CH4)のプロファイルを完全にかき混ぜた反応器(PSR)シミュレーションで再現し、その後、詳細なモデルによる層火炎速度の予測に再最適化する。 これは、化学動力学(mlock)アルゴリズムの故意に開発した機械学習最適化によって実装されている。 MLOCKアルゴリズムは、選択された反応に対する3つのアレニウスパラメータを体系的に摂動させ、最適化対象のコンパクトモデルの計算における誤差を定量化する客観的な誤差関数を通じて新しいパラメータの適合性を評価する。 この戦略は、メタン/空気燃焼のための19種と15種のコンパクトモデルによって実証される。 どちらのコンパクトモデルも、リーンとリッチの両方の条件で0dと1dの計算範囲で検証され、親の詳細なメカニズムに良い一致を示します。 15種モデルは、現在の最先端モデルよりも精度とモデルが有効な条件の範囲の両方で優れていることが示されている。

Accurate low dimension chemical kinetic models for methane are an essential component in the design of efficient gas turbine combustors. Kinetic models coupled to computational fluid dynamics (CFD) provide quick and efficient ways to test the effect of operating conditions, fuel composition and combustor design compared to physical experiments. However, detailed chemical kinetic models are too computationally expensive for use in CFD. We propose a novel data orientated three-step methodology to produce compact models that replicate a target set of detailed model properties to a high fidelity. In the first step, a reduced kinetic model is obtained by removing all non-essential species from the detailed model containing 118 species using path flux analysis (PFA). It is then numerically optimised to replicate the detailed model's prediction in two rounds; First, to selected species (OH,H,CO and CH4) profiles in perfectly stirred reactor (PSR) simulations and then re-optimised to the detailed model's prediction of the laminar flame speed. This is implemented by a purposely developed Machine Learned Optimisation of Chemical Kinetics (MLOCK) algorithm. The MLOCK algorithm systematically perturbs all three Arrhenius parameters for selected reactions and assesses the suitability of the new parameters through an objective error function which quantifies the error in the compact model's calculation of the optimisation target. This strategy is demonstrated through the production of a 19 species and a 15 species compact model for methane/air combustion. Both compact models are validated across a range of 0D and 1D calculations across both lean and rich conditions and shows good agreement to the parent detailed mechanism. The 15 species model is shown to outperform the current state-of-art models in both accuracy and range of conditions the model is valid over.
翻訳日:2021-03-19 10:37:13 公開日:2021-03-18
# 暗号api提案のための埋め込みコードコンテキスト:新しい手法と比較

Embedding Code Contexts for Cryptographic API Suggestion:New Methodologies and Comparisons ( http://arxiv.org/abs/2103.08747v2 )

ライセンス: Link先を確認
Ya Xiao, Salman Ahmed, Wenjia Song, Xinyang Ge, Bimal Viswanath, Danfeng Yao(参考訳) 最近の研究努力にもかかわらず、api推奨による自動コード生成のビジョンは実現されていない。 APIレコメンデーションの正確性と表現性の課題には、体系的に対処する必要がある。 APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。 Multi-HyLSTMは、プログラム分析を利用して、APIの埋め込みとレコメンデーションをガイドする。 apiメソッドのデータ依存パスを分析することで、次のapiメソッド呼び出しを正確に予測するapiレコメンデーションタスクのためのマルチパスニューラルネットワークアーキテクチャをトレーニングし、専門化する。 これまでに報告されていない2つのプログラミング言語固有の課題に対処し、機能的に類似したAPIを区別し、低周波長範囲の影響を捉える。 提案手法は,プログラム解析支援組込み,マルチパスコード提案アーキテクチャ,低周波長距離エンハンスシーケンス学習,top-1レコメンデーションの精度向上など,設計選択の有効性を確認した。 最先端ツールSLANGの77.44%と比較してトップ1の精度は91.41%である。 245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%であり、Codotaの64.90%よりもはるかに優れている。 私たちは、データとコードを巨大なJava暗号コードデータセットとして公開します。

Despite recent research efforts, the vision of automatic code generation through API recommendation has not been realized. Accuracy and expressiveness challenges of API recommendation needs to be systematically addressed. We present a new neural network-based approach, Multi-HyLSTM for API recommendation --targeting cryptography-related code. Multi-HyLSTM leverages program analysis to guide the API embedding and recommendation. By analyzing the data dependence paths of API methods, we train embedding and specialize a multi-path neural network architecture for API recommendation tasks that accurately predict the next API method call. We address two previously unreported programming language-specific challenges, differentiating functionally similar APIs and capturing low-frequency long-range influences. Our results confirm the effectiveness of our design choices, including program-analysis-guided embedding, multi-path code suggestion architecture, and low-frequency long-range-enhanced sequence learning, with high accuracy on top-1 recommendations. We achieve a top-1 accuracy of 91.41% compared with 77.44% from the state-of-the-art tool SLANG. In an analysis of 245 test cases, compared with the commercial tool Codota, we achieve a top-1 recommendation accuracy of 88.98%, which is significantly better than Codota's accuracy of 64.90%. We publish our data and code as a large Java cryptographic code dataset.
翻訳日:2021-03-19 10:36:42 公開日:2021-03-18