このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210302となっている論文です。

PDF登録状況(公開日: 20210302)

TitleAuthorsAbstract論文公表日・翻訳日
# schur-weyl状態の生成に対する新しいアプローチ

A new approach to the construction of Schur-Weyl states ( http://arxiv.org/abs/2004.14799v2 )

ライセンス: Link先を確認
Micha{\l} Kaczor and Pawe{\l} Jakubczyk(参考訳) シュール・ワイル状態は、2つのヤングおよびワイル・タトーによって記述された対称性を持つ特別な状態のクラスに属する。 これらの状態にまたがるヒルベルト空間における物理系の表現は、非局所自由度に隠された量子情報を抽出することができる。 このような性質は量子計算における幅広い問題、特に量子アルゴリズムの構成において非常に有用であるため、これらの状態の正確な形式を知ることが非常に重要である。 さらに、それらは固有プロブレムのサイズを著しく減少させ、あるいは一般に対称群やユニタリ群代数で表される任意の物理量の表現行列を減少させる。 ここではスピン鎖系表現におけるシュル=ワイル状態構築の新しい方法を提案する。 本手法は,ユニタリ群 u(n) に対して clebsch-gordan 係数を構築し,適切な schur-weyl 状態の確率振幅を導出できる基本シフト作用素に基づいている。

The Schur-Weyl states belong to a special class of states with a symmetry described by two Young and Weyl tableaux. Representation of physical systems in Hilbert space spanned on these states enables to extract quantum information hidden in nonlocal degrees of freedom. Such property can be very useful in a broad range of problems in Quantum Computations, especially in quantum algorithms constructions, therefore it is very important to know exact form of these states. Moreover, they allow to reduce significantly the size of eigenproblem, or in general, diminishing the representation matrix of any physical quantities, represented in the symmetric or unitary group algebra. Here we present a new method of Schur-Weyl states construction in a spin chain system representation. Our approach is based on the fundamental shift operators out of which one can build Clebsch-Gordan coefficients for the unitary group U(n) and then derive appropriate Schur-Weyl state probability amplitudes.
翻訳日:2023-05-21 17:14:41 公開日:2021-03-02
# 局所化可能な量子コヒーレンス

Localizable quantum coherence ( http://arxiv.org/abs/2005.02988v2 )

ライセンス: Link先を確認
Alioscia Hamma, Georgios Styliaris, Paolo Zanardi(参考訳) コヒーレンス(coherence)は、参照基底に対して定義される量子力学の基本概念である。 したがって、相互作用の局所性を明らかにしたり、複合量子システムにおけるアクセス可能な操作を考慮に入れる必要はない。 本稿では,局所化コヒーレンスの概念を,特定のサブシステムに格納できるコヒーレンスとして,あるいは単に他の部分を無視して,そのコヒーレンスを表現した。 ヒルベルト空間におけるその拡散、その平均的性質を調べ、量子多体理論(例えば、局在状態や位相状態)における関心状態の実空間構造を明らかにするために適用可能であることを示す。

Coherence is a fundamental notion in quantum mechanics, defined relative to a reference basis. As such, it does not necessarily reveal the locality of interactions nor takes into account the accessible operations in a composite quantum system. In this paper, we put forward a notion of localizable coherence as the coherence that can be stored in a particular subsystem, either by measuring or just by disregarding the rest. We examine its spreading, its average properties in the Hilbert space and show that it can be applied to reveal the real-space structure of states of interest in quantum many-body theory, for example, localized or topological states.
翻訳日:2023-05-21 00:28:02 公開日:2021-03-02
# 非エルミート皮膚効果を持つ2次元量子ウォーク

Two-dimensional quantum walk with non-Hermitian skin effects ( http://arxiv.org/abs/2005.09474v2 )

ライセンス: Link先を確認
Tianyu Li, Yong-Sheng Zhang, and Wei Yi(参考訳) 開放境界条件下で非エルミート皮膚効果を示す2次元離散時間量子ウォークを構築する。 非エルミートバルク境界対応の確認として、位相的エッジ状態の出現は、時間依存の一般化ビランゾーンを誘導する非ブロックバンド理論を用いて計算されたフロケ巻数と一致することを示す。 さらに、準エネルギー帯域に付随する非ブロッホ位相不変量は、非ユニタリフロッケ作用素の局所生物直交固有波動関数によって定義される実空間の非エルミート局所チャーンマーカーによってキャプチャされる。 我々の研究は、皮膚効果が重要な役割を果たす非エルミートフロケット位相のさらなる研究を促進するだろう。

We construct a two-dimensional, discrete-time quantum walk exhibiting non-Hermitian skin effects under open-boundary conditions. As a confirmation of the non-Hermitian bulk-boundary correspondence, we show that the emergence of topological edge states are consistent with Floquet winding numbers calculated using a non-Bloch band theory invoking time-dependent generalized Billouin zones. Further, the non-Bloch topological invariants associated with quasienergy bands are captured by a non-Hermitian local Chern marker in real space, defined through local biorthogonal eigen wave functions of the non-unitary Floquet operator. Our work would stimulate further studies of non-Hermitian Floquet topological phases where skin effects play a key role.
翻訳日:2023-05-19 08:14:30 公開日:2021-03-02
# 2+1次元における量子速度方程式と動的質量生成

The quantum kinetic equation and dynamical mass generation in 2+1 Dimensions ( http://arxiv.org/abs/2007.02858v2 )

ライセンス: Link先を確認
Anping Huang, Shuzhe Shi, Xianglei Zhu, Lianyi He, Jinfeng Liao and Pengfei Zhuang(参考訳) 本研究では,2+1次元の相対論的量子動力学方程式をウィグナー関数形式論から研究し,最大$\hbar$ の体系的半古典的展開を行った。 導出方程式により、2+1次元の興味深い輸送現象を探索することができる。 この枠組み内では、外部電磁界によって誘起されるパリティオード輸送電流は自己整合的に導出される。 また, 平均場近似による4フェルミオン相互作用を実装し, 動的質量生成についても検討した。 この場合、平均場凝縮物の勾配によって新しい種類の輸送電流が誘導される。 最後に、この枠組みを用いて平衡下の2+1次元系の外部磁場における動的質量生成の研究を行う。

In this work, we study the relativistic quantum kinetic equations in 2+1 dimensions from Wigner function formalism by carrying out a systematic semi-classical expansion up to $\hbar$ order. The derived equations allow us to explore interesting transport phenomena in 2+1 dimensions. Within this framework, the parity-odd transport current induced by the external electromagnetic field is self-consistently derived. We also examine the dynamical mass generation by implementing four-fermion interaction with mean-field approximation. In this case, a new kind of transport current is found to be induced by the gradient of the mean-field condensate. Finally, we also utilize this framework to study the dynamical mass generation in an external magnetic field for the 2+1 dimensional system under equilibrium.
翻訳日:2023-05-11 04:12:22 公開日:2021-03-02
# 物理的量子エージェント

A Physical Quantum Agent ( http://arxiv.org/abs/2007.04426v3 )

ライセンス: Link先を確認
Michael. J. Kewming, Sally Shrapnel, Gerard. J. Milburn(参考訳) インボディード・インテリジェンス・エージェントの概念は、現代の人工知能とロボティクスにおいて重要な概念である。 物理的には、エージェントはセンサーやアクチュエータを介して相互作用する環境に埋め込まれたオープンシステムである。 センサとその環境に関する特徴を学習することによってセンサとアクチュエータの結果とを関連付ける学習アルゴリズムを含んでいる。 本稿では,光を用いて環境の成分を探索し,学習する簡易な光学エージェントを提案する。 量子エージェントは、単一の光子パルスを用いて世界を探索し、古典的なエージェントは平均光子番号が1に等しい弱いコヒーレントな状態を使用する。 両エージェントの熱力学的挙動を解析し, エージェントの世界の推定値を改善することは, アクチュエータパルスによるセンサ上で行う平均作業量の増加に対応することを示した。 したがって,本モデルは,機械学習,光学,統計熱力学のインタフェースを研究するための有用な玩具モデルを提供する。

The concept of an embodied intelligent agent is a key concept in modern artificial intelligence and robotics. Physically, an agent is an open system embedded in an environment that it interacts with through sensors and actuators. It contains a learning algorithm that correlates the sensor and actuator results by learning features about its environment. In this article we present a simple optical agent that uses light to probe and learn components of its environment. In our scenario, the quantum agent outperforms a classical agent: The quantum agent probes the world using single photon pulses, where its classical counterpart uses a weak coherent state with an average photon number equal to one. We analyze the thermodynamic behavior of both agents, showing that improving the agent's estimate of the world corresponds to an increase in average work done on the sensor by the actuator pulse. Thus, our model provides a useful toy model for studying the interface between machine learning, optics, and statistical thermodynamics.
翻訳日:2023-05-10 23:21:47 公開日:2021-03-02
# 量子エミッタからの時間結合多光子状態の忠実性

Fidelity of time-bin entangled multi-photon states from a quantum emitter ( http://arxiv.org/abs/2007.09298v4 )

ライセンス: Link先を確認
Konstantin Tiurev, Pol Llopart Mirambell, Mikkel Bloch Lauritzen, Martin Hayhurst Appel, Alexey Tiranov, Peter Lodahl, Anders S{\o}ndberg S{\o}rensen(参考訳) 量子ドットや窒素空孔中心などの単一固体量子エミッタによって生成される多光子絡み合った状態の忠実度を評価するための数学的枠組みを考案する。 この形式論の中では、グリーンベルガー・ホルン・ザイリンガーと一次元クラスター状態の生成における実システムに存在する不完全性の役割を理論的に研究する。 本研究では, フォノンによる脱落, 核スピン浴との相互作用, および2次放出などの基本的な限界と, 分岐効果, 非完全濾過, 光子損失などの技術的欠陥を考察する。 共著では、フォトニック結晶導波路に埋め込まれた量子ドットエミッタに基づく特定の物理実装を考察し、現在の技術で実現可能な細部を理論的に定式化することにより評価する。

We devise a mathematical framework for assessing the fidelity of multi-photon entangled states generated by a single solid-state quantum emitter, such as a quantum dot or a nitrogen-vacancy center. Within this formalism, we theoretically study the role of imperfections present in real systems on the generation of time-bin encoded Greenberger-Horne-Zeilinger and one-dimensional cluster states. We consider both fundamental limitations, such as the effect of phonon-induced dephasing, interaction with the nuclear spin bath, and second-order emissions, as well as technological imperfections, such as branching effects, non-perfect filtering, and photon losses. In a companion paper, we consider a particular physical implementation based on a quantum dot emitter embedded in a photonic crystal waveguide and apply our theoretical formalism to assess the fidelities achievable with current technologies.
翻訳日:2023-05-09 03:04:15 公開日:2021-03-02
# フォトニックナノ構造における固体量子エミッタを用いた高忠実多光子結合クラスター状態

High-fidelity multi-photon-entangled cluster state with solid-state quantum emitters in photonic nanostructures ( http://arxiv.org/abs/2007.09295v3 )

ライセンス: Link先を確認
Konstantin Tiurev, Martin Hayhurst Appel, Pol Llopart Mirambell, Mikkel Bloch Lauritzen, Alexey Tiranov, Peter Lodahl, Anders S{\o}ndberg S{\o}rensen(参考訳) 絡み合った多光子状態の決定論的生成のための完全なアーキテクチャを提案する。 本手法は、量子ドットエミッタの周期駆動とフォトニック結晶導波路による効率的な光マッターインタフェースを利用する。 実システムから生成するフォトニック状態の質を,本質的な実験的不完全性をすべて含んで評価する。 重要なことに、このプロトコルはスピンエコーを連想させる自然に組み込まれた再焦点法のために核スピン浴の力学に対して堅牢である。 本研究では,グリーンベルガー・ホルン・ザイリンガーと1次元クラスター状態が従来の「融合」法よりも高い忠実度と生成率で実現可能であることを示す。 提案するハードウェアは、計測に基づく量子通信と計算の実装に対するスケーラブルでリソース効率の良いアプローチを構成する。

We propose a complete architecture for deterministic generation of entangled multiphoton states. Our approach utilizes periodic driving of a quantum-dot emitter and an efficient light-matter interface enabled by a photonic crystal waveguide. We assess the quality of the photonic states produced from a real system by including all intrinsic experimental imperfections. Importantly, the protocol is robust against the nuclear spin bath dynamics due to a naturally built-in refocussing method reminiscent to spin echo. We demonstrate the feasibility of producing Greenberger-Horne-Zeilinger and one-dimensional cluster states with fidelities and generation rates exceeding those achieved with conventional 'fusion' methods in current state-of-the-art experiments. The proposed hardware constitutes a scalable and resource-efficient approach towards implementation of measurement-based quantum communication and computing.
翻訳日:2023-05-09 03:03:56 公開日:2021-03-02
# 想像力の運用資源理論

Operational Resource Theory of Imaginarity ( http://arxiv.org/abs/2007.14847v2 )

ライセンス: Link先を確認
Kang-Da Wu, Tulja Varun Kondra, Swapan Rana, Carlo Maria Scandolo, Guo-Yong Xiang, Chuan-Feng Li, Guang-Can Guo, Alexander Streltsov(参考訳) 波動-粒子双対性は量子力学の基本的特徴の一つであり、量子系の状態、その力学、相互作用を記述するために複素数を使用する。 量子論の創始以来、複素数は実際に必須なのか、それとも実数のみを用いて別の一貫した定式化が可能なのかが議論されてきた。 ここでは、量子資源理論の強力なツールを用いて、理論的および実験的に、この長年にわたる問題を攻撃する。 合理的な仮定の下では、量子状態は実際の要素しか持たなければ生成や操作が容易である。 これは、イマジナリティの資源理論に操作的意味を与える。 我々は、全ての量子状態の状態変換問題、任意の次元のすべての純粋状態、および全ての量子状態の近似虚数蒸留を含むいくつかの重要な問題を特定し、答える。 実量子状態は、局所的な操作や古典的な通信によって完全に区別できるが、一方の当事者が虚偽性にアクセスできない場合、非ゼロの確率では区別できない。 この現象を線形光学を用いて実験的に確認し,局所射影計測により異なる2光子量子状態の識別を行う。 これらの結果は、複素数が量子力学の必須部分であることを証明する。

Wave-particle duality is one of the basic features of quantum mechanics, giving rise to the use of complex numbers in describing states of quantum systems, their dynamics, and interaction. Since the inception of quantum theory, it has been debated whether complex numbers are actually essential, or whether an alternative consistent formulation is possible using real numbers only. Here, we attack this long-standing problem both theoretically and experimentally, using the powerful tools of quantum resource theories. We show that - under reasonable assumptions - quantum states are easier to create and manipulate if they only have real elements. This gives an operational meaning to the resource theory of imaginarity. We identify and answer several important questions which include the state-conversion problem for all qubit states and all pure states of any dimension, and the approximate imaginarity distillation for all quantum states. As an application, we show that imaginarity plays a crucial role for state discrimination: there exist real quantum states which can be perfectly distinguished via local operations and classical communication, but which cannot be distinguished with any nonzero probability if one of the parties has no access to imaginarity. We confirm this phenomenon experimentally with linear optics, performing discrimination of different two-photon quantum states by local projective measurements. These results prove that complex numbers are an indispensable part of quantum mechanics.
翻訳日:2023-05-07 20:33:28 公開日:2021-03-02
# 1次元以上のBose-Hubbardモデルのモット位相における相関拡散のための位相速度と群速度

Phase and group velocities for correlation spreading in the Mott phase of the Bose-Hubbard model in dimensions greater than one ( http://arxiv.org/abs/2008.00015v2 )

ライセンス: Link先を確認
Ali Mokhtari-Jazi, Matthew R. C. Fitzpatrick and Malcolm P. Kennett(参考訳) リーブ・ロビンソンと関連する境界は、非相対論的量子システムにおける情報の拡散率の上限となった。 量子クエンチ後のBose-Hubbardモデルにおける相関の拡散を実験的に観察した。 bose-hubbardモデルにおける2つの粒子既約 (2pi) 強結合アプローチを用いて, 1, 2, 3次元の粒子相関の拡散に対する群速度と位相速度を相互作用強度の関数として計算した。 この結果は, 超低温原子で実現した1次元および2次元Bose-Hubbardモデルにおける単一粒子相関の拡散速度の測定値と定量的に一致している。 彼らはまた、2次元の最近の実験で群速度よりも位相速度が観測されたという主張に同意した。 相関の拡散には, 位相速度と群速度に大きな差があることを実証し, ボース・ハバードモデルの位相図に相関が広がる速度の異方性の変化についても検討した。 以上の結果から,Bose-Hubbardモデルにおける2PI強結合法は,1次元以上での平衡外力学を研究する強力なツールとして確立された。

Lieb-Robinson and related bounds set an upper limit on the rate of spreading of information in non-relativistic quantum systems. Experimentally, they have been observed in the spreading of correlations in the Bose-Hubbard model after a quantum quench. Using a recently developed two particle irreducible (2PI) strong coupling approach to out-of-equilibrium dynamics in the Bose-Hubbard model we calculate both the group and phase velocities for the spreading of single-particle correlations in one, two and three dimensions as a function of interaction strength. Our results are in quantitative agreement with measurements of the velocities for the spreading of single particle correlations in both the one and two dimensional Bose-Hubbard model realized with ultra-cold atoms. They also agree with the claim that the phase velocity rather than the group velocity was observed in recent experiments in two dimensions. We demonstrate that there can be large differences between the phase and group velocities for the spreading of correlations and also explore the variation of the anisotropy in the velocity at which correlations spread across the phase diagram of the Bose-Hubbard model. Our results establish the 2PI strong coupling approach as a powerful tool to study out-of-equilibrium dynamics in the Bose-Hubbard model in dimensions greater than one.
翻訳日:2023-05-07 12:34:57 公開日:2021-03-02
# 変分量子回路の損失景観の特徴付け

Characterizing the loss landscape of variational quantum circuits ( http://arxiv.org/abs/2008.02785v2 )

ライセンス: Link先を確認
Patrick Huembeli, Alexandre Dauphin(参考訳) ノイズの多い中間スケール量子(nisq)デバイスと特に変分量子回路(vqc)によって強化された機械学習技術は、最近多くの関心を集め、ある問題に対してすでにベンチマークされている。 古典的なディープラーニングにインスパイアされたVQCは、大きなパラメータ空間上の効率的なトレーニングを可能にする勾配降下法によって訓練される。 nisqサイズ回路では、そのような手法は良好な収束を示す。 しかしながら、損失関数の収束と、勾配が消える状況におけるこれらの回路の訓練性に関する多くのオープンな疑問がある。 さらに、データの摂動に対する一般化と安定性の観点から「良い」極小がいかにして「良い」のかははっきりしないため、vqcsの収束を定量的に研究するツールが必要である。 本稿では,VQCの損失関数のヘシアンを計算する方法を紹介し,それを用いて損失景観を特徴付ける方法を示す。 ヘッセンの固有値は局所曲率に関する情報を与え,この情報がどのように解釈され,古典的ニューラルネットワークと比較されるかについて議論する。 実験の結果をいくつかの例でベンチマークし、まず単純な分析玩具モデルから、ヘッセンの動作に関する直感を提供し、次により大きな回路へ行き、データに基づいてVQCを訓練する。 最後に,変分回路のトレーニングにおいて,Hessianを用いて学習率の調整を行い,より高速な収束を実現する方法を示す。

Machine learning techniques enhanced by noisy intermediate-scale quantum (NISQ) devices and especially variational quantum circuits (VQC) have recently attracted much interest and have already been benchmarked for certain problems. Inspired by classical deep learning, VQCs are trained by gradient descent methods which allow for efficient training over big parameter spaces. For NISQ sized circuits, such methods show good convergence. There are however still many open questions related to the convergence of the loss function and to the trainability of these circuits in situations of vanishing gradients. Furthermore, it is not clear how "good" the minima are in terms of generalization and stability against perturbations of the data and there is, therefore, a need for tools to quantitatively study the convergence of the VQCs. In this work, we introduce a way to compute the Hessian of the loss function of VQCs and show how to characterize the loss landscape with it. The eigenvalues of the Hessian give information on the local curvature and we discuss how this information can be interpreted and compared to classical neural networks. We benchmark our results on several examples, starting with a simple analytic toy model to provide some intuition about the behavior of the Hessian, then going to bigger circuits, and also train VQCs on data. Finally, we show how the Hessian can be used to adjust the learning rate for faster convergence during the training of variational circuits.
翻訳日:2023-05-07 00:00:24 公開日:2021-03-02
# 機械学習による非マルコビアン度の推定

Estimating the degree of non-Markovianity using machine learning ( http://arxiv.org/abs/2009.03946v2 )

ライセンス: Link先を確認
Felipe F. Fanchini, G\"oktu\u{g} Karpat, Daniel Z. Rossatto, Ariel Norambuena, Ra\'ul Coto(参考訳) 近年、機械学習の応用は物理学の様々な分野においてますます重要になっている。 オープン量子系理論における最も重要な主題の1つは、その周囲の環境と相互作用しながら開系の時間進化を通して動的に現れる非マルコフ記憶効果の特徴づけの研究である。 ここでは,記憶効果の程度を定式化した2つの定式化子,すなわちトレース距離と非マルコビアン性の絡み合いに基づく尺度について考察する。 機械学習技術,特にベクトルマシンアルゴリズムを用いて,高精度な2つのパラダイム的オープンシステムモデルにおいて,非マルコビアン性の度合いを推定できることを実証する。 本手法は1ラウンドまたは最大2ラウンドの状態トモグラフィを必要とするため,非マルコフ性の程度を実験的に推定することができる。

In the last years, the application of machine learning methods has become increasingly relevant in different fields of physics. One of the most significant subjects in the theory of open quantum systems is the study of the characterization of non-Markovian memory effects that emerge dynamically throughout the time evolution of open systems as they interact with their surrounding environment. Here we consider two well-established quantifiers of the degree of memory effects, namely, the trace distance and the entanglement-based measures of non-Markovianity. We demonstrate that using machine learning techniques, in particular, support vector machine algorithms, it is possible to estimate the degree of non-Markovianity in two paradigmatic open system models with high precision. Our approach can be experimentally feasible to estimate the degree of non-Markovianity, since it requires a single or at most two rounds of state tomography.
翻訳日:2023-05-03 04:55:48 公開日:2021-03-02
# ミリスケール質量間の重力結合の測定

Measurement of Gravitational Coupling between Millimeter-Sized Masses ( http://arxiv.org/abs/2009.09546v2 )

ライセンス: Link先を確認
Tobias Westphal, Hans Hepach, Jeremias Pfaff, Markus Aspelmeyer(参考訳) 約1mm半径と90mg質量の2つの金球間の重力結合を示す。 周波数 f=12.7mHz のソース質量位置を周期的に調整することにより、テスト質量の位置で時間依存の重力加速度を発生させる。 350時間以上の積分時間において、試験質量発振器は系統的精度4E-11m/s^2、統計的精度4E-12m/s^2で測定できる。 これは2つの質量の間の最低表面距離400mumで重力信号を解くのに十分である。 信号強度と時間変化した1/r重力ポテンシャルに整合した線形結合と二次結合を観察する。 非重力力の寄与は観測された信号の10%未満に抑えることができた。 プランク質量以下の物体の結合力として重力の分離を可能にするため、さらなる改良が期待できる。 これにより、孤立した微視的な質量の新しい状態における重力の精密テストの道を開く。

We demonstrate gravitational coupling between two gold spheres of approximately 1mm radius and 90mg mass. By periodically modulating the source mass position at a frequency f=12.7mHz we generate a time-dependent gravitational acceleration at the location of the test mass, which is measured off resonance in a miniature torsional balance configuration. Over an integration time of 350 hours the test mass oscillator enables measurements with a systematic accuracy of 4E-11m/s^2 and a statistical precision of 4E-12m/s^2. This is sufficient to resolve the gravitational signal at a minimal surface distance of 400mum between the two masses. We observe both linear and quadratic coupling, consistent in signal strength with a time-varying 1/r gravitational potential. Contributions of non-gravitational forces could be kept to less than 10% of the observed signal. We expect further improvements to enable the isolation of gravity as a coupling force for objects well below the Planck mass. This opens the way for precision tests of gravity in a new regime of isolated microscopic source masses.
翻訳日:2023-05-01 11:27:45 公開日:2021-03-02
# デルタポテンシャルに対する有効作用:時空依存不均一性とカシミール自己エネルギー

Effective action for delta potentials: spacetime-dependent inhomogeneities and Casimir self-energy ( http://arxiv.org/abs/2010.11144v2 )

ライセンス: Link先を確認
S. A. Franchino-Vi\~nas and F. D. Mazzitelli(参考訳) デルタポテンシャルをモデルとした細い均一平面ミラーの存在下での量子スカラー場の真空変動について検討した。 本研究では, 熱ケルネル法を用いて, 不均一性(非摂動的背景)においてユークリッド効果を摂動的に評価する。 発散は局所逆項に吸収され、残りの有限部は一般に不均一性の非局所汎関数であり、これは$d=4$次元の無質量体に対して明示的に計算される。 時間に依存しない不均一性に対して、有効作用は部分透過ミラーのカシミール自己エネルギーを与える。 時間に依存する不均一性に対して、ウィック回転効果は、動的カシミール効果による粒子生成の確率を与える。

We study the vacuum fluctuations of a quantum scalar field in the presence of a thin and inhomogeneous flat mirror, modeled with a delta potential. Using Heat-Kernel techniques, we evaluate the Euclidean effective action perturbatively in the inhomogeneities (nonperturbatively in the constant background). We show that the divergences can be absorbed into a local counterterm, and that the remaining finite part is in general a nonlocal functional of the inhomogeneities, which we compute explicitly for massless fields in $D=4$ dimensions. For time-independent inhomogeneities, the effective action gives the Casimir self-energy for a partially transmitting mirror. For time-dependent inhomogeneities, the Wick-rotated effective action gives the probability of particle creation due to the dynamical Casimir effect.
翻訳日:2023-04-28 03:10:41 公開日:2021-03-02
# 全対称整数HS場に対するBRST-BV量子アクション

BRST-BV Quantum Actions for Constrained Totally-Symmetric Integer HS Fields ( http://arxiv.org/abs/2010.15741v4 )

ライセンス: Link先を確認
\v{C}estmir Burd\'ik, Alexander A. Reshetnyak(参考訳) d$次元ミンコフスキー空間における完全に対称な質量を持たないhs場に対する制限付きbrst-bvラグランジアン定式化は、非ミニマルbrst作用素 $q_{c|\mathrm{tot}}$ と非ミニマルハミルトニアンbfv発振器 $\overline{c}, \overline{\mathcal{p}}, \lambda, \pi$ とアンゴットおよびナシ・ラウトロップテンソル場を導入することにより、非ミニマル制約付きbrst-bvラグランジアン定式化に拡張される。 ゲージ固定手順は、演算子ゲージ固定BRST-BFVフェルミオン$\Psi_H$をゲージ固定BRST-BVフェルミオン関数$\Psi$のカーネルとし、BFV-BV双対性の概念を示す。 非最小brst拡張オフシェル制約を持つフォック空間量子作用は、ゲージ固定 fermion $\psi$ in a total brst-bv action $s^{\psi}_{0|s} = \int d \eta_0 \langle \chi^{\psi{} 0}_{\mathrm{tot}|c} \big| q_{c|\mathrm{tot}}\big| \chi^{\psi{tot} 0}_{\mathrm{tot}|c}\rangle$の変分微分による全一般化場反フィールドベクトルのシフトとして構成される。 2つのゲージパラメータに依存するゲージ条件を使い、従って$R_\xi$-gaugesの場合を拡張する。 triplet と duplet の定式化について、我々はトレースなしのフィールド・アンチフィールドとソース変数のみを使った表現について検討した。 グリーン関数の生成関数に対しては、BRST対称性変換が提案され、ウォードIDが得られる。

A constrained BRST-BV Lagrangian formulation for totally symmetric massless HS fields in a $d$-dimensional Minkowski space is extended to a non-minimal constrained BRST-BV Lagrangian formulation by using a non-minimal BRST operator $Q_{c|\mathrm{tot}}$ with non-minimal Hamiltonian BFV oscillators $\overline{C}, \overline{\mathcal{P}}, \lambda, \pi$, as well as antighost and Nakanishi-Lautrup tensor fields, in order to introduce an admissible self-consistent gauge condition. The gauge-fixing procedure involves an operator gauge-fixing BRST-BFV Fermion $\Psi_H$ as a kernel of the gauge-fixing BRST-BV Fermion functional $\Psi$, manifesting the concept of BFV-BV duality. A Fock-space quantum action with non-minimal BRST-extended off-shell constraints is constructed as a shift of the total generalized field-antifield vector by a variational derivative of the gauge-fixing Fermion $\Psi$ in a total BRST-BV action $S^{\Psi}_{0|s} = \int d \eta_0 \langle \chi^{\Psi{} 0}_{\mathrm{tot}|c} \big| Q_{c|\mathrm{tot}}\big| \chi^{\Psi{} 0}_{\mathrm{tot}|c}\rangle$. We use a gauge condition which depends on two gauge parameters, thereby extending the case of $R_\xi$-gauges. For triplet and duplet formulations we explored the representations with only traceless field-antifield and source variables. For the generating functionals of Green's functions, BRST symmetry transformations are suggested and Ward identities are obtained.
翻訳日:2023-04-27 00:38:07 公開日:2021-03-02
# 光パワーリミッタを用いた実用的な量子通信システムの実現

Securing practical quantum communication systems with optical power limiters ( http://arxiv.org/abs/2012.08702v2 )

ライセンス: Link先を確認
Gong Zhang, Ignatius William Primaatmaja, Jing Yan Haw, Xiao Gong, Chao Wang, Charles Ci Wen Lim(参考訳) 量子暗号システムにおける無許可光信号のエネルギーの制御は、実装のセキュリティに不可欠な基準である。 本稿では、様々な量子アプリケーションに適合するように容易に調整可能な、信頼性の高い電力制限閾値を提供する熱光学除電効果に基づく受動光パワーリミッタ装置を提案する。 さらに、このデバイスは、実装のセキュリティにとって重要な様々な信号のバリエーション(波長、パルス幅など)に対して堅牢である。 さらに、光子の強度、位相、偏光度に対する影響が極端に小さい(無視できないが)ため、一般的な通信目的に適した量子通信信号が得られないことを実験的に示した。 量子暗号の実用性を示すために,(1)トロイの木馬攻撃に対するセキュリティを強化した計測デバイス非依存の量子鍵分布,(2)明るい照明攻撃に対する対策としてパワーリミッタを用いること,(3)プラグアンドプレイ量子鍵分布の実装セキュリティを強化するためのパワーリミッタの適用,の3つの可能性を紹介し,議論する。

Controlling the energy of unauthorized light signals in a quantum cryptosystem is an essential criterion for implementation security. Here, we propose a passive optical power limiter device based on thermo-optical defocusing effects providing a reliable power limiting threshold which can be readily adjusted to suit various quantum applications. In addition, the device is robust against a wide variety of signal variations (e.g. wavelength, pulse width), which is important for implementation security. Moreover, we experimentally show that the proposed device does not compromise quantum communication signals, in that it has only a very minimal impact (if not, negligible impact) on the intensity, phase, or polarization degrees of freedom of the photon, thus making it suitable for general communication purposes. To show its practical utility for quantum cryptography, we demonstrate and discuss three potential applications: (1) measurement-device-independent quantum key distribution with enhanced security against a general class of Trojan-horse attacks, (2) using the power limiter as a countermeasure against bright illumination attacks, and (3) the application of power limiters to potentially enhance the implementation security of plug-and-play quantum key distribution.
翻訳日:2023-04-20 11:28:56 公開日:2021-03-02
# 永続ホモロジーを用いたフォトニックバンド構造設計

Photonic band structure design using persistent homology ( http://arxiv.org/abs/2012.10598v2 )

ライセンス: Link先を確認
Daniel Leykam, Dimitris G Angelakis(参考訳) 永続ホモロジーの機械学習技術は、そのトポロジ的特徴を様々な特徴尺度で計算することで、複雑なシステムやデータセットを分類する。 スピンモデルや多ビット絡み合った状態のような物理系を特徴づけるために永続ホモロジーを適用することへの関心が高まっている。 本稿では,周期的フォトニックメディアのバンド構造を特徴付け,最適化するためのツールとして持続的ホモロジーを提案する。 ハニカムフォトニック格子 Haldane モデルを例として、持続ホモロジーが「モートバンド」やマルチヴァレー分散関係を含む一般的なトポロジカルバンド理論のパラダイムの外にある様々なバンド構造を確実に分類し、格子に埋め込まれた量子エミッタの性質を制御できることを示す。 この手法はフォトニック結晶やモアレ超格子のようなより複雑なシステムの自動設計に有効である。

The machine learning technique of persistent homology classifies complex systems or datasets by computing their topological features over a range of characteristic scales. There is growing interest in applying persistent homology to characterize physical systems such as spin models and multiqubit entangled states. Here we propose persistent homology as a tool for characterizing and optimizing band structures of periodic photonic media. Using the honeycomb photonic lattice Haldane model as an example, we show how persistent homology is able to reliably classify a variety of band structures falling outside the usual paradigms of topological band theory, including "moat band" and multi-valley dispersion relations, and thereby control the properties of quantum emitters embedded in the lattice. The method is promising for the automated design of more complex systems such as photonic crystals and Moire superlattices.
翻訳日:2023-04-20 04:20:45 公開日:2021-03-02
# 超伝導人工原子による熱輸送

Heat transport through a superconducting artificial atom ( http://arxiv.org/abs/2012.11942v3 )

ライセンス: Link先を確認
Meng Xu, J. T. Stockburger and J. Ankerhold(参考訳) サーマル貯水池で呼ばれる共振器の間に配置される可変トランスモンキュービットからなる汎用超伝導セットによる量子熱伝達について検討した。 2種類のアーキテクチャ、シーケンシャルとビームスプリッタの設定が検討されている。 数値的高精度階層運動方程式 (HEOM) を用いて, 定常状態特性を明らかにし, パラメータ集合を実験的に同定した。 ベンチマークの結果は、パラメータ空間の広い範囲で失敗を示す近似的処理に基づく予測と比較される。 これらの発見は、超伝導デバイスにおける将来の熱制御の設計を改善する可能性がある。

Quantum heat transfer through a generic superconducting set-up consisting of a tunable transmon qubit placed between resonators that are termined by thermal reservoirs is explored. Two types of architectures are considered, a sequential and a beam splitter setting. Applying the numerical exact hierarchical equation of motion (HEOM) approach, steady state properties are revealed, and experimentally relevant parameter sets are identified. Benchmark results are compared with predictions based on approximate treatments to demonstrate their failure in broad ranges of parameter space. These findings may allow to improve future designs for heat control in superconducting devices.
翻訳日:2023-04-19 22:15:17 公開日:2021-03-02
# 非対称2光子ラビ模型における隠れ対称性と二重縮退

Double degeneracy associated with hidden symmetries in the asymmetric two-photon Rabi model ( http://arxiv.org/abs/2102.03944v2 )

ライセンス: Link先を確認
You-Fei Xie and Qing-Hu Chen(参考訳) 本稿では,非対称な2光子量子Rabiモデル(tpQRM)のサブ空間において,量子ビットのバイアスパラメータが正規化空洞周波数の偶数倍である場合の解像レベル交差を明らかにする。 部分空間に明示的な対称性が存在しないため、この二重縮退は隠れ対称性の存在を示唆する。 非退化例外点も完全に与えられる。 非対称tpqrmにおける二重縮退交差点の数は、制約条件の同じ順序の非対称1光子qrmと同等であることが判明した。 非対称tpqrmにおけるレベル交差の発生に必要なバイアスパラメータは、非対称1光子qrmの空洞周波数の倍数において特徴的に異なるため、2つの非対称qrmにおける異なる隠れ対称性が示唆される。

In this paper, we uncover the elusive level crossings in a subspace of the asymmetric two-photon quantum Rabi model (tpQRM) when the bias parameter of qubit is an even multiple of the renormalized cavity frequency. Due to the absence of any explicit symmetry in the subspace, this double degeneracy implies the existence of the hidden symmetry. The non-degenerate exceptional points are also given completely. It is found that the number of the doubly degenerate crossing points in the asymmetric tpQRM is comparable to that in asymmetric one-photon QRM in terms of the same order of the constrained conditions. The bias parameter required for occurrence of level crossings in the asymmetric tpQRM is characteristically different from that at a multiple of the cavity frequency in the asymmetric one-photon QRM, suggesting the different hidden symmetries in the two asymmetric QRMs.
翻訳日:2023-04-12 07:19:56 公開日:2021-03-02
# 量子コンピュータ上のSU(2)ハドロン

SU(2) hadrons on a quantum computer ( http://arxiv.org/abs/2102.08920v3 )

ライセンス: Link先を確認
Yasar Atas, Jinglei Zhang, Randy Lewis, Amin Jahanpour, Jan F. Haase, Christine A. Muschik(参考訳) 我々は初めて、量子コンピュータ上でゲージ場と物質場の両方を持つ非可換ゲージ理論を実現する。 これにより、ハドロンの観測と関連する質量の計算が可能になる。 ここで考えるsu(2)ゲージ群は、陽子、中性子、その他のハドロンの性質を記述する理論である量子色力学を究極的に研究するための重要な第一歩である。 量子コンピュータは、古典的コンピュータでは実現不可能なシミュレーションを提供することで、ゲージ理論に関する重要な研究を継続するための重要な新しい機会を生み出すことができる。 IBM超伝導プラットフォーム上での計算では、量子コンピュータ上の非アベリアシミュレーションで見たことのない中間子とバリオン状態の両方を研究するために、変分量子固有解法を用いている。 我々は、現在の量子ハードウェア上でのSU(2)ゲージ理論の完全な実装を可能にするだけでなく、現在未解決の粒子物理学や核物理学における問題に対処する将来の量子シミュレーションの前提を策定する。

We realize, for the first time, a non-Abelian gauge theory with both gauge and matter fields on a quantum computer. This enables the observation of hadrons and the calculation of their associated masses. The SU(2) gauge group considered here represents an important first step towards ultimately studying quantum chromodynamics, the theory that describes the properties of protons, neutrons and other hadrons. Quantum computers are able to create important new opportunities for ongoing essential research on gauge theories by providing simulations that are unattainable on classical computers. Our calculations on an IBM superconducting platform utilize a variational quantum eigensolver to study both meson and baryon states, hadrons which have never been seen in a non-Abelian simulation on a quantum computer. We develop a resource-efficient approach that not only allows the implementation of a full SU(2) gauge theory on present-day quantum hardware, but further lays out the premises for future quantum simulations that will address currently unanswered questions in particle and nuclear physics.
翻訳日:2023-04-10 23:56:58 公開日:2021-03-02
# TweetCOVID: 公衆の感情を分析し、Twitterのアクティビティを通じてCOVID-19に関する議論を行うシステム

TweetCOVID: A System for Analyzing Public Sentiments and Discussions about COVID-19 via Twitter Activities ( http://arxiv.org/abs/2103.01472v1 )

ライセンス: Link先を確認
Jolin Shaynn-Ly Kwan, Kwan Hui Lim(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、世界中の数百万人に影響を与える広範な健康と経済的影響を生み出した。 これらの影響をよりよく理解するために、私たちは、公開ツイートを使用して、さまざまな時間と場所について、彼らの感情、感情、関心のトピック、議論の議論の観点から、COVID-19パンデミックに対する公衆の反応を理解する能力を提供するTweetCOVIDシステムを紹介します。 また、提案したTweetCOVIDシステムの有用性を示す3つの例を挙げる。

The COVID-19 pandemic has created widespread health and economical impacts, affecting millions around the world. To better understand these impacts, we present the TweetCOVID system that offers the capability to understand the public reactions to the COVID-19 pandemic in terms of their sentiments, emotions, topics of interest and controversial discussions, over a range of time periods and locations, using public tweets. We also present three example use cases that illustrates the usefulness of our proposed TweetCOVID system.
翻訳日:2023-04-09 12:29:02 公開日:2021-03-02
# 不変最適制御によるロバスト刺激ラマン短絡-断熱通路

Robust stimulated Raman shortcut-to-adiabatic passage by invariant-based optimal control ( http://arxiv.org/abs/2103.01386v1 )

ライセンス: Link先を確認
Xue-Ke Song, Fei Meng, Bao-Jie Liu, Dong Wang, Liu Ye, and Man-Hong Yung(参考訳) 刺激されたラマン断熱通路(STIRAP)は、断熱進化に基づく3レベル量子系において、同じパリティを持つ2つの離散量子状態間の集団を正確に転送する効率的な手法を示している。 この手法は、物理学、化学、その他多くの分野で広く理論的および実験的に応用されている。 そこで本研究では,STIRAPの非変量的ショートカットによる高速化手法を提案する。 動的過程を制御することによって、第1レベルから第3レベルへの高速かつ正確な人口移動を実現することができるハミルトニアンの族を逆向きに設計する一方、系統的誤りは概して抑制される。 さらに、中間状態の個体数と転送過程におけるrabi周波数の振幅との詳細なトレードオフ関係を示す。 これらの結果は、将来の量子情報処理における3レベル量子システムの進化を操作するための最適な経路を提供する。

The stimulated Raman adiabatic passage (STIRAP) shows an efficient technique that accurately transfers population between two discrete quantum states with the same parity, in three-level quantum systems based on adiabatic evolution. This technique has widely theoretical and experimental applications in many fields of physics, chemistry, and beyond. Here, we present a generally robust approach to speed up STIRAP with invariant-based shortcut to adiabaticity. By controlling the dynamical process, we inversely design a family of Hamiltonians that can realize fast and accurate population transfer from the first to the third level, while the systematic error is largely suppressed in general. Furthermore, a detailed trade-off relation between the population of the intermediate state and the amplitudes of Rabi frequencies in the transfer process is illustrated. These results provide an optimal route toward manipulating the evolution of three-level quantum systems in future quantum information processing.
翻訳日:2023-04-09 12:28:17 公開日:2021-03-02
# エベレット解釈:構造

The Everett Interpretation: Structure ( http://arxiv.org/abs/2103.01366v1 )

ライセンス: Link先を確認
Simon Saunders(参考訳) 量子力学のエベレット解釈は、自然に2つの部分に分けられる:第一に、分岐の観点で量子状態の構造を解釈し、第二に、確率の観点でこの分岐構造の解釈である。 これはエヴェレット解釈の2つのレビューの1つであり、特にデコヒーレンス理論の役割に注目した構造に焦点を当てている。 量子ヒストリー形式論の観点から書かれたデコヒーレンス理論は、エヴェレットの意味で分岐構造の理論である。

The Everett interpretation of quantum mechanics divides naturally into two parts: first, the interpretation of the structure of the quantum state, in terms of branching, and second, the interpretation of this branching structure in terms of probability. This is the first of two reviews of the Everett interpretation, and focuses on structure, with particular attention to the role of decoherence theory. Written in terms of the quantum histories formalism, decoherence theory just is the theory of branching structure, in Everett's sense.
翻訳日:2023-04-09 12:27:58 公開日:2021-03-02
# LOBレクリエーションモデル:正規微分方程式リカレントニューラルネットワークを用いたTAQ履歴からのリミットオーダーブックの予測

The LOB Recreation Model: Predicting the Limit Order Book from TAQ History Using an Ordinary Differential Equation Recurrent Neural Network ( http://arxiv.org/abs/2103.01670v1 )

ライセンス: Link先を確認
Zijian Shi, Yu Chen, John Cartlidge(参考訳) 注文主導の金融市場において、金融資産の価格は、公開制限命令書(LOB)に掲載される注文(特定の価格で売買する要求)の相互作用によって発見される。 したがって、LOBデータは市場ダイナミクスをモデル化するのに非常に有用である。 しかし、lobのデータは自由にアクセスできないため、市場参加者や研究者はこの情報を活用したいと考えている。 幸いなことに、LOBの一番上に届く注文と市場で実行される取引(Trates and quotes)データ(TAQ)は、より容易に利用できます。 本稿では, TAQデータのみを用いて, 小型株に対するLOBのトップ5価格レベルを再現するための, 深層学習の観点からの最初の試みであるLOBレクリエーションモデルを提案する。 1)ゲートリカレントユニット(gru)モジュールを使用して、関連する引用履歴を選択的にコンパイルするヒストリコンパイラ、(2)通常微分方程式リカレントニューラルネットワーク(ode-rnn)を使用してネット注文の蓄積をシミュレートするマーケットイベントシミュレータ、(3)(1)と(2)によって生成された予測を適応結合する重み付けスキーム、の出力を組み合わせることにより、lobの奥深くに位置するオーダー数を予測する。 転送学習のパラダイムにより、1つの株で訓練されたソースモデルは、追加データに対する需要がはるかに少ない同じクラスの他の金融資産に適用できるように微調整することができる。 2つの実世界のLOBデータセットに対して行われた総合的な実験により、提案モデルはTAQデータのみを入力として、高い精度でLOBを効率的に再現できることを示した。

In an order-driven financial market, the price of a financial asset is discovered through the interaction of orders - requests to buy or sell at a particular price - that are posted to the public limit order book (LOB). Therefore, LOB data is extremely valuable for modelling market dynamics. However, LOB data is not freely accessible, which poses a challenge to market participants and researchers wishing to exploit this information. Fortunately, trades and quotes (TAQ) data - orders arriving at the top of the LOB, and trades executing in the market - are more readily available. In this paper, we present the LOB recreation model, a first attempt from a deep learning perspective to recreate the top five price levels of the LOB for small-tick stocks using only TAQ data. Volumes of orders sitting deep in the LOB are predicted by combining outputs from: (1) a history compiler that uses a Gated Recurrent Unit (GRU) module to selectively compile prediction relevant quote history; (2) a market events simulator, which uses an Ordinary Differential Equation Recurrent Neural Network (ODE-RNN) to simulate the accumulation of net order arrivals; and (3) a weighting scheme to adaptively combine the predictions generated by (1) and (2). By the paradigm of transfer learning, the source model trained on one stock can be fine-tuned to enable application to other financial assets of the same class with much lower demand on additional data. Comprehensive experiments conducted on two real world intraday LOB datasets demonstrate that the proposed model can efficiently recreate the LOB with high accuracy using only TAQ data as input.
翻訳日:2023-04-09 12:23:14 公開日:2021-03-02
# Clauser-Horne-Shimony-Holtゲームに基づくデバイス独立量子認証

Device-independent quantum authorization based on the Clauser-Horne-Shimony-Holt game ( http://arxiv.org/abs/2103.01662v1 )

ライセンス: Link先を確認
Ricardo Faleiro and Manuel Goul\~ao(参考訳) デバイス非依存暗号の精神では、非局所性を持つ2つの量子認証プリミティブを燃料資源として提示する。 それゆえ、ユーザーは個人データベースへのアクセスを許可する認証レベルを付与される。 認証レベルは、ユーザに配布される非ローカルリソースにエンコードされ、その後、そのようなリソースを使用してCHSHゲームに勝つ能力によって確認される。 プロトコルを形式化し、そのセキュリティを証明し、シミュレーションによるCHSH自己テストの概念を用いてデバイスに依存しない設定でフレーム化する。 最後に,Qiskitオープンソースフレームワークを用いた概念実証実装を提案する。

In the spirit of device-independent cryptography, we present a two-party quantum authorization primitive with non-locality as its fueling resource. Therein, users are attributed authorization levels granting them access to a private database accordingly. The authorization levels are encoded in the non-local resources distributed to the users, and subsequently confirmed by their ability to win CHSH games using such resources. We formalize the protocol, prove its security, and frame it in the device-independent setting employing the notion of CHSH self-testing via simulation. Finally, we provide a proof-of-concept implementation using the Qiskit open-source framework.
翻訳日:2023-04-09 12:22:42 公開日:2021-03-02
# 多成分DMとKSEA相互作用を持つ異方性ハイゼンベルクモデルにおける量子絡み合い

Quantum entanglement in the anisotropic Heisenberg model with multicomponent DM and KSEA interactions ( http://arxiv.org/abs/2103.01545v1 )

ライセンス: Link先を確認
A. V. Fedorova and M. A. Yurischev(参考訳) 群論的アプローチを用いて、2スピン1/2ハイゼンベルク系の外部磁場およびジアルシンスキー・モリヤ(dm)およびカプラン・シェクマン・エンティン・ウォルマン・アハロニー(ksea)相互作用の複数の成分に対する4つの9パラメータ量子状態の族を発見した。 特定の解析公式は、発見された量子状態の生成の絡み合いのために導かれる。 DMとKSEAの相互作用が絡み合いの挙動および絡み合い領域の形状に及ぼす影響について検討した。 2量子ビット量子状態と多粒子系の還元密度行列との接続について論じる。

Using group-theoretical approach we found a family of four nine-parameter quantum states for the two-spin-1/2 Heisenberg system in an external magnetic field and with multiple components of Dzyaloshinsky-Moriya (DM) and Kaplan-Shekhtman-Entin-Wohlman-Aharony (KSEA) interactions. Exact analytical formulas are derived for the entanglement of formation for the quantum states found. The influence of DM and KSEA interactions on the behavior of entanglement and on the shape of disentangled region is studied. A connection between the two-qubit quantum states and the reduced density matrices of many-particle systems is discussed.
翻訳日:2023-04-09 12:21:35 公開日:2021-03-02
# 超伝導マイクロ波共振器測定のための低温単一ポート校正

Cryogenic single-port calibration for superconducting microwave resonator measurements ( http://arxiv.org/abs/2103.01491v1 )

ライセンス: Link先を確認
Haozhi Wang, S. Singh, C.R.H. McRae, J.C. Bardin, S.-X. Lin, N. Messaoudi, A.R. Castelli, Y.J. Rosen, E.T. Holland, D.P. Pappas, J.Y. Mutus(参考訳) マイクロ波共振器の内部および結合品質因子の抽出には、超電導回路試験と材料損失特性の信頼性と信頼性が必要である。 デバイス設計や実験的な構成の制限によって課される一般的な方法は、単一ポート反射幾何、すなわち反射モードである。 しかし、低温中における測定鎖の校正により、低温系のインピーダンスミスマッチを考慮しなければならない。 本稿では, 電子レンジ規格とベクトルネットワークアナライザ(VNA)を用いて, 希釈冷凍機内のミリケルビン温度で試料を採取したデータに基づく単一ポート校正を行い, 量子現象の測定に有用であることを示す。 最後に, 2次元および3次元共振器の重ね合わせによるデータベース, 単一ポートキャリブレーションおよび反射計測について, 本手法の有効性を裏付ける確立された2ポート法との比較検討を行った。

Superconducting circuit testing and materials loss characterization requires robust and reliable methods for the extraction of internal and coupling quality factors of microwave resonators. A common method, imposed by limitations on the device design or experimental configuration, is the single-port reflection geometry, i.e. reflection-mode. However, impedance mismatches in cryogenic systems must be accounted for through calibration of the measurement chain while it is at low temperatures. In this paper, we demonstrate a data-based, single-port calibration using commercial microwave standards and a vector network analyzer (VNA) with samples at millikelvin temperature in a dilution refrigerator, making this method useful for measurements of quantum phenomena. Finally, we cross reference our data-based, single-port calibration and reflection measurement with over-coupled 2D- and 3D-resonators against well established two-port techniques corroborating the validity of our method.
翻訳日:2023-04-09 12:20:57 公開日:2021-03-02
# パフォーマンス関連トピックに着目した分散システムsyllabiの分析

An Analysis of Distributed Systems Syllabi With a Focus on Performance-Related Topics ( http://arxiv.org/abs/2103.01858v1 )

ライセンス: Link先を確認
Cristina L. Abad and Alexandru Iosup and Edwin F. Boza and Eduardo Ortiz-Holguin(参考訳) 我々は,コンピュータサイエンスのトッププログラムから,51の現在(2019-2020)の分散システムシラビのデータセットを分析し,これらのコースでパフォーマンスに関するトピックが教えられている状況と状況を明らかにすることに焦点を当てた。 また,dsコースで言及されるインフラストラクチャの規模について,小規模クライアントサーバシステムからクラウドスケール,ピアツーピア,グローバルスケールシステムまで検討した。 パフォーマンス、スケーラビリティ、弾力性などの目標、パフォーマンスベンチマークやモニタリングなどのアクティビティ、選択された8つのパフォーマンス改善テクニック(レプリケーション、キャッシュ、シャーディング、ロードバランシング、スケジューリング、ストリーミング、マイグレーション、オフロード)、パフォーマンスとパフォーマンスの多様性を含むトレードオフのようなコントロールの問題など、主な8つの発見を行います。

We analyze a dataset of 51 current (2019-2020) Distributed Systems syllabi from top Computer Science programs, focusing on finding the prevalence and context in which topics related to performance are being taught in these courses. We also study the scale of the infrastructure mentioned in DS courses, from small client-server systems to cloud-scale, peer-to-peer, global-scale systems. We make eight main findings, covering goals such as performance, and scalability and its variant elasticity; activities such as performance benchmarking and monitoring; eight selected performance-enhancing techniques (replication, caching, sharding, load balancing, scheduling, streaming, migrating, and offloading); and control issues such as trade-offs that include performance and performance variability.
翻訳日:2023-04-09 12:14:16 公開日:2021-03-02
# 想像力の資源理論:定量化と状態変換

Resource theory of imaginarity: Quantification and state conversion ( http://arxiv.org/abs/2103.01805v1 )

ライセンス: Link先を確認
Kang-Da Wu, Tulja Varun Kondra, Swapan Rana, Carlo Maria Scandolo, Guo-Yong Xiang, Chuan-Feng Li, Guang-Can Guo, Alexander Streltsov(参考訳) 複素数は古典物理学と量子物理学の両方で広く使われ、量子系とその動的挙動を記述する上で欠かせない要素である。 近年、イマジナリティの資源理論が導入され、量子力学や量子情報理論における複素数を体系的に研究できるようになった。 本研究は, 絡み合い理論とコヒーレンス理論の最近の進歩に動機づけられた, 想像力の資源理論の理論手法を開発する。 本研究では,イマジナリティの幾何学的イマジナリティとロバスト性に着目し,イマジナリティ量子化を考察し,イマジナリティ理論の状態変換問題に適用する。 さらに,光実験における実および一般操作の複雑さを解析し,その実装のための未固定波板の数に着目した。 また,地域国家差別における虚偽性の役割についても論じ,一対の真の直交的純状態が局所実数操作と古典的コミュニケーションによって識別可能であることを証明した。 本研究は, 量子物理学における複素数の重要性を明らかにし, 虚数が光学実験における資源であることを証明する。

Complex numbers are widely used in both classical and quantum physics, and are indispensable components for describing quantum systems and their dynamical behavior. Recently, the resource theory of imaginarity has been introduced, allowing for a systematic study of complex numbers in quantum mechanics and quantum information theory. In this work we develop theoretical methods for the resource theory of imaginarity, motivated by recent progress within theories of entanglement and coherence. We investigate imaginarity quantification, focusing on the geometric imaginarity and the robustness of imaginarity, and apply these tools to the state conversion problem in imaginarity theory. Moreover, we analyze the complexity of real and general operations in optical experiments, focusing on the number of unfixed wave plates for their implementation. We also discuss the role of imaginarity for local state discrimination, proving that any pair of real orthogonal pure states can be discriminated via local real operations and classical communication. Our study reveals the significance of complex numbers in quantum physics, and proves that imaginarity is a resource in optical experiments.
翻訳日:2023-04-09 12:13:41 公開日:2021-03-02
# 量子相関によるヘテロダイン検出

Heterodyne detection enhanced by quantum correlation ( http://arxiv.org/abs/2103.01764v1 )

ライセンス: Link先を確認
Boya Xie and Sheng Feng(参考訳) 位相非感受性(PI)デバイスとしてのヘテロダイン検出器は、宇宙ベースの重力波(GW)観測のような精密測定に重要な応用を見出した。 しかし、PIヘテロダイン検出器の出力信号は、画像帯域真空による信号-雑音比(SNR)劣化と不完全な量子効率に悩まされる。 ここでは、画像帯域真空が入力信号と量子相関している場合、SNR劣化を克服できることを示す。 検出器のノイズフィギュアを計算し,量子相関によるノイズ性能の向上とヘテロダイン検出の可能性を証明する。 この研究は、現在進行中のgwシグナル探索実験に大きな関心を寄せるべきである。

Heterodyne detectors as phase-insensitive (PI) devices have found important applications in precision measurements such as space-based gravitational-wave (GW) observation. However, the output signal of a PI heterodyne detector is supposed to suffer from signal-to-noise ratio (SNR) degradation due to image band vacuum and imperfect quantum efficiency. Here we show that the SNR degradation can be overcome when the image band vacuum is quantum correlated with the input signal. We calculate the noise figure of the detector and prove the feasibility of heterodyne detection with enhanced noise performance through quantum correlation. This work should be of great interest to ongoing space-borne GW signal searching experiments.
翻訳日:2023-04-09 12:12:52 公開日:2021-03-02
# 定数サイズのロバスト自己テストと非有界次元の測定

Constant-sized robust self-tests for states and measurements of unbounded dimension ( http://arxiv.org/abs/2103.01729v1 )

ライセンス: Link先を確認
Laura Man\v{c}inska, Jitendra Prakash, Christopher Schafhauser(参考訳) 我々は、最大エンタングル状態の測定から生じる相関、$p_{n,x}$を、それぞれ2つの結果からなる$n$の測定値を用いて考慮し、最大$xi$を加算する$n$プロジェクションから構築する。 相関は$p_{n,x}$で、基礎となる状態と測定をしっかりと自己検証する。 これを達成するために、より自然な代数的フレームワークに頑健な自己テストを証明するために、群理論のガウワーズ・ハタミに基づくアプローチを持ち上げる。 鍵となるステップは、関連する代数の「近似」表現を厳密なものに摂動できるゴワーズ・ハタミの定理の類似を得ることである。 n=4$ に対して、相関式 $p_{n,x}$ は任意の奇数次元の最大絡み合い状態と任意に高いランクの2-outcome射影的測定を自己テストする。 非有界次元の戦略のための定数サイズの自己テストの他のファミリーは、局所次元でさえも極度に絡み合った状態の無限族に対してそのような自己テストを示すfu(qip 2020)によるものである。 したがって、非有界次元および奇数局所次元を持つすべての極大絡み合い状態について、定数サイズの自己テストを示す最初の例である。

We consider correlations, $p_{n,x}$, arising from measuring a maximally entangled state using $n$ measurements with two outcomes each, constructed from $n$ projections that add up to $xI$. We show that the correlations $p_{n,x}$ robustly self-test the underlying states and measurements. To achieve this, we lift the group-theoretic Gowers-Hatami based approach for proving robust self-tests to a more natural algebraic framework. A key step is to obtain an analogue of the Gowers-Hatami theorem allowing to perturb an "approximate" representation of the relevant algebra to an exact one. For $n=4$, the correlations $p_{n,x}$ self-test the maximally entangled state of every odd dimension as well as 2-outcome projective measurements of arbitrarily high rank. The only other family of constant-sized self-tests for strategies of unbounded dimension is due to Fu (QIP 2020) who presents such self-tests for an infinite family of maximally entangled states with even local dimension. Therefore, we are the first to exhibit a constant-sized self-test for measurements of unbounded dimension as well as all maximally entangled states with odd local dimension.
翻訳日:2023-04-09 12:12:41 公開日:2021-03-02
# 境界を持つ空間における運動量の新たな概念に基づく半直線と区間の正準量子化

Canonical quantization on the half-line and in an interval based upon a new concept for the momentum in a space with boundaries ( http://arxiv.org/abs/2103.01715v1 )

ライセンス: Link先を確認
M. H. Al-Hashimi and U.-J. Wiese(参考訳) 半直線上や間隔で移動する粒子に対して、作用素 $\hat p = -i \partial_x$ は自己随伴ではなく、したがって物理運動量として適さない。 従って、$\hat p$ に基づく正準量子化は失敗する。 自己随伴運動量演算子 $\hat p_r$ の新たな概念に基づき、正準量子化は半直線と区間で実際に実装できることを示した。 ハミルトニアンの$\hat h$ と運動量作用素 $\hat p_r$ は、ヒルベルト空間における対応する領域 $d(\hat h)$ と $d(\hat p_r)$ を特徴づける自己随伴拡張パラメータを持つ。 ポアソン括弧を交換器で置き換えると、対応する作用素領域が適切に考慮されている場合にのみ意味のある結果が得られる。 運動量に関する新しい概念は、半直線の終端または間隔の2つの端で、不可避な境界で反射される量子力学的粒子の運動量測定の結果を記述するために用いられる。

For a particle moving on a half-line or in an interval the operator $\hat p = - i \partial_x$ is not self-adjoint and thus does not qualify as the physical momentum. Consequently canonical quantization based on $\hat p$ fails. Based upon a new concept for a self-adjoint momentum operator $\hat p_R$, we show that canonical quantization can indeed be implemented on the half-line and on an interval. Both the Hamiltonian $\hat H$ and the momentum operator $\hat p_R$ are endowed with self-adjoint extension parameters that characterize the corresponding domains $D(\hat H)$ and $D(\hat p_R)$ in the Hilbert space. When one replaces Poisson brackets by commutators, one obtains meaningful results only if the corresponding operator domains are properly taken into account. The new concept for the momentum is used to describe the results of momentum measurements of a quantum mechanical particle that is reflected at impenetrable boundaries, either at the end of the half-line or at the two ends of an interval.
翻訳日:2023-04-09 12:12:19 公開日:2021-03-02
# 回転空洞における物質の分極状態

Polaritonic states of matter in rotating cavity ( http://arxiv.org/abs/2103.01984v1 )

ライセンス: Link先を確認
Lorenz S. Cederbaum(参考訳) 量子光とキャビティ内の物質との相互作用は、ポラリトンと呼ばれる混合光マター状態を引き起こすことが知られている。 キャビティの回転が偏光子に与える影響について論じる。 この回転により分極子の数が増加することが示されている。 元の偏光子の構造は変更され、新しい偏光子は角速度と回転軸の選択に強く依存する回転によって誘導される。 分子では、回転は光誘起円錐交叉の数とその次元を変化させ、量子力学に強い影響を与える。 一般的な結果が議論される。

The interaction of quantum light with matter like that inside a cavity is known to give rise to mixed light-matter states called polaritons. We discuss the impact of rotation of the cavity on the polaritons. It is shown that the number of polaritons increases due to this rotation. The structure of the original polaritons is modified and new ones are induced by the rotation that strongly depend on the angular velocity and the choice of axis of rotation. In molecules the rotation can change the number of light-induced conical intersections and their dimensionality and hence strongly impact their quantum dynamics. General consequences are discussed.
翻訳日:2023-04-09 12:04:34 公開日:2021-03-02
# グラフェンの縦導電率における光誘起フロッケバンドギャップの観察

Observing light-induced Floquet band gaps in the longitudinal conductivity of graphene ( http://arxiv.org/abs/2103.01949v1 )

ライセンス: Link先を確認
Lukas Broers and Ludwig Mathey(参考訳) グラフェン中の光誘起フロックバンドギャップを検出するための実測可能な光学的長手伝導率を提案する。 これらのギャップは、プローブ周波数と駆動場強度に関して解決されたとき、導電率の共振特性として現れる。 我々は、周波数と運動量分解電子分布へのアクセスを可能にする散逸マスター方程式を用いて、これらの特徴を実証する。 この分布は、光誘起フロッケブロッホバンドに従い、これらのバンドの職業として自然に解釈される。 さらに,Floquet-Blochバンドのバンドギャップには,十分に強い駆動力を得るために,集団反転が存在することを示す。 これにより、対応する周波数での伝導率が強く低下する。 そこで本提案では, 固体中のフロケット工学の分野を進展させる光誘起フロケット・ブロッホバンドの明らかなデモンストレーションを行うとともに, 電子分布から導かれる光による輸送特性の制御を指摘する。

We propose optical longitudinal conductivity as a realistic observable to detect light-induced Floquet band gaps in graphene. These gaps manifest as resonant features in the conductivity, when resolved with respect to the probing frequency and the driving field strength. We demonstrate these features via a dissipative master equation approach which gives access to a frequency- and momentum-resolved electron distribution. This distribution follows the light-induced Floquet-Bloch bands, resulting in a natural interpretation as occupations of these bands. Furthermore, we show that there are population inversions of the Floquet-Bloch bands at the band gaps for sufficiently strong driving field strengths. This strongly reduces the conductivity at the corresponding frequencies. Therefore our proposal puts forth not only an unambiguous demonstration of light-induced Floquet-Bloch bands, which advances the field of Floquet engineering in solids, but also points out the control of transport properties via light, that derives from the electron distribution on these bands.
翻訳日:2023-04-09 12:03:59 公開日:2021-03-02
# 8状態エンコーディングのための図式セキュリティ証明

Diagrammatic security proof for 8-state encoding ( http://arxiv.org/abs/2103.01936v1 )

ライセンス: Link先を確認
Boris Skoric and Zef Wolffs(参考訳) ディラック表記は、量子状態や状態の操作を記述する最も一般的な方法である。 非常に便利で、ベクトル、スカラーおよび演算子を素早く視覚的に区別することができる。 複数のシステムの相互作用を伴う量子プロセスでは、さらに優れた可視化がcoeckeとkissingerによって図式形式(ck2017)という形で提案されている。 それらの表記法は、ファインマン図と幾分似ているダイアグラムの形で公式を表現し、量子コンピューティングのための回路記法よりも一般的である。 この文書は2つの部分からなる。 1) 量子過程の図式的表記法を要約し, 既に量子物理学を知っていて, 一般過程理論に興味がない読者向けに調整した。 この聴衆にとって、私たちの要約は coecke と kissinger [ck2017] による百科事典の書籍よりはおそろしく、一方、[ktw2017] の超コンパクトな導入よりもアクセスしやすい。 我々は[CK2017, KTW2017]から、基底状態が自身の複素共役と等しいと仮定しない、つまり、基底状態に対して対称記法を使わず、通常は省略されるワイヤに矢印を明示的に示す、という考え方を逸脱する。 2) Kissinger, Tull and Westerbaan [KTW2017] の作業を拡張し,BB84 および 6-state Quantum Key Distribution の図式的セキュリティ証明を行う。 彼らの証明は、プロトコルで使用されるベースが相互に偏りのない場合に動作する一連のダイアグラム操作に基づいている。 この結果は,量子鍵リサイクルプロトコル(sdv2017,ls2018)のツールとして提案されている8状態エンコーディングに拡張され,相互に偏りのないベースを持たない。

Dirac notation is the most common way to describe quantum states and operations on states. It is very convenient and allows for quick visual distinction between vectors, scalars and operators. For quantum processes that involve interactions of multiple systems an even better visualisation has been proposed by Coecke and Kissinger, in the form of a diagrammatic formalism [CK2017]. Their notation expresses formulas in the form of diagrams, somewhat similar to Feynman diagrams, and is more general than the circuit notation for quantum computing. This document consists of two parts. (1) We give a brief summary of the diagrammatic notation of quantum processes, tailored to readers who already know quantum physics and are not interested in general process theory. For this audience our summary is less daunting than the encyclopaedic book by Coecke and Kissinger [CK2017], and on the other hand more accessible than the ultra-compact introduction of [KTW2017]. We deviate a somewhat from [CK2017,KTW2017] in that we do not assume basis states to equal their own complex conjugate; this means that we do not use symmetric notation for basis states, and it leads us to explicitly show arrows on wires where they are usually omitted. (2) We extend the work of Kissinger, Tull and Westerbaan [KTW2017] which gives a diagrammatic security proof for BB84 and 6-state Quantum Key Distribution. Their proof is based on a sequence of diagrammatic manipulations that works when the bases used in the protocol are mutually unbiased. We extend this result to 8-state encoding, which has been proposed as a tool in quantum key recycling protocols [SdV2017,LS2018], and which does not have mutually unbiased bases.
翻訳日:2023-04-09 12:03:25 公開日:2021-03-02
# 小さなマルコフの誤りの分類法

A taxonomy of small Markovian errors ( http://arxiv.org/abs/2103.01928v1 )

ライセンス: Link先を確認
Robin Blume-Kohout, Marcus P. da Silva, Erik Nielsen, Timothy Proctor, Kenneth Rudinger, Mohan Sarovar, and Kevin Young(参考訳) 量子論理ゲートの誤差は通常、量子プロセス行列(CPTPマップ)によってモデル化される。 しかし、プロセス行列は不透明で、扱いにくい。 ゲートのプロセス行列を、同じ情報をより便利に表現するエラー生成器に変換する方法を示す。 単純で直感的な初等誤り発生器の基礎を構築し、それらを分類し、各ゲートの誤り発生器を様々なレートで混合して表現する方法を示す。 最後に,基本エラー発生器および/またはジェネレータ空間のサブセクタ全体を組み合わせることにより,ゲートエラーの低減モデルの構築方法を示す。 N-qubitプロセッサで一般的に予測されるほとんど全てのエラーを記述したパラメータがわずか9N^2$のモデルを含む、縮小モデルのいくつかの例で結論付けている。

Errors in quantum logic gates are usually modeled by quantum process matrices (CPTP maps). But process matrices can be opaque, and unwieldy. We show how to transform a gate's process matrix into an error generator that represents the same information more usefully. We construct a basis of simple and physically intuitive elementary error generators, classify them, and show how to represent any gate's error generator as a mixture of elementary error generators with various rates. Finally, we show how to build a large variety of reduced models for gate errors by combining elementary error generators and/or entire subsectors of generator space. We conclude with a few examples of reduced models, including one with just $9N^2$ parameters that describes almost all commonly predicted errors on an N-qubit processor.
翻訳日:2023-04-09 12:02:52 公開日:2021-03-02
# ダイヤモンド中のスズ空洞中心の電気的チューニング

Electrical tuning of tin-vacancy centers in diamond ( http://arxiv.org/abs/2103.01917v1 )

ライセンス: Link先を確認
Shahriar Aghaeimeibodi, Daniel Riedel, Alison E. Rugar, Constantin Dory, Jelena Vuckovic(参考訳) ダイヤモンド中のグループIV色中心は、その優れた光学特性とスピン特性のために固体スピン量子ビットとして注目されている。 これらの色中心の中で、スズ空孔(SnV$^{\,\textrm{-}}$)中心は、その大きな基底状態分割によって1$\,$K以上の温度で長いスピンコヒーレンス時間を可能にするため、特に興味深い。 しかし、通常、色中心は不均質な広がりに苦しめられ、ナノファブリケーションによって引き起こされる歪みによって悪化し、区別がつかない光子を放出する量子ノードの実装を妨げる。 ひずみとラマンチューニングは、異なるグループIV色中心間のスペクトルミスマッチを克服するための有望な手法として研究されてきたが、発光強度を犠牲にすることなくより局所的な制御を提供する方法を探る必要がある。 ここでは、直流スターク効果によるダイヤモンド中のSnV$^{\,\textrm{-}}$センターの電気的チューニングについて検討する。 我々は1.7$\,$GHzを超えるチューニング範囲を示す。 印加電界に対する二次および線形の依存性を観測した。 また,我々が観測したチューニング効果は印加電場の結果であり,ジュール加熱による温度調整とは異なることを確認した。 スタークチューニングは、エミッター間の遅延を克服し、複数の同一量子ノードの実現を可能にするための有望な道である。

Group-IV color centers in diamond have attracted significant attention as solid-state spin qubits because of their excellent optical and spin properties. Among these color centers, the tin-vacancy (SnV$^{\,\textrm{-}}$) center is of particular interest because its large ground-state splitting enables long spin coherence times at temperatures above 1$\,$K. However, color centers typically suffer from inhomogeneous broadening, which can be exacerbated by nanofabrication-induced strain, hindering the implementation of quantum nodes emitting indistinguishable photons. Although strain and Raman tuning have been investigated as promising techniques to overcome the spectral mismatch between distinct group-IV color centers, other approaches need to be explored to find methods that can offer more localized control without sacrificing emission intensity. Here, we study electrical tuning of SnV$^{\,\textrm{-}}$ centers in diamond via the direct-current Stark effect. We demonstrate a tuning range beyond 1.7$\,$GHz. We observe both quadratic and linear dependence on the applied electric field. We also confirm that the tuning effect we observe is a result of the applied electric field and is distinct from thermal tuning due to Joule heating. Stark tuning is a promising avenue toward overcoming detunings between emitters and enabling the realization of multiple identical quantum nodes.
翻訳日:2023-04-09 12:02:39 公開日:2021-03-02
# RFデータ駆動無線デバイス分類のためのディープニューラルネットワークの特徴設計

Deep Neural Network Feature Designs for RF Data-Driven Wireless Device Classification ( http://arxiv.org/abs/2105.02755v1 )

ライセンス: Link先を確認
Bechir Hamdaoui, Abdurrahman Elmaghbub, Seifeddine Mejri(参考訳) 無線周波数(RF)データを用いたディープラーニングベースの無線デバイス分類に関する研究は、主に視覚や言語などの領域で成熟した、既製のディープニューラルネットワーク(DNN)モデルを適用している。 しかし、無線RFデータには、他の領域と区別する固有の特徴がある。 例えば、RFデータには、基盤となるハードウェアとプロトコルの設定によって規定される時間と周波数の特徴が混在している。 さらに、無線RF通信信号は、これらの信号が本質的に含む繰り返しパターン(PHYパイロット、フレームプレフィックスなど)により、サイクロ定常性を示す。 本稿では,現在提案されている無線デバイス分類におけるDNN機能設計手法の問題点と,その限界について解説し,その説明から始める。 次に、RF信号データを用いた無線機器の分類に適したカスタムメイクDNNモデルに対して、RF通信信号の異なる構造と送信機ハードウェア障害によるスペクトル放射を利用する新しい特徴設計手法を提案する。 提案するdnnの特徴設計は,スケーラビリティ,精度,シグネチャアンチクローニング,環境摂動に対する非感受性の観点から,分類ロバスト性を大幅に改善した。 本稿は、DNNベースの無線デバイス分類のさらなる性能向上をもたらす大きな可能性を持つ他の機能設計戦略を提示し、これらの戦略に関するオープンな研究課題について論じる。

Most prior works on deep learning-based wireless device classification using radio frequency (RF) data apply off-the-shelf deep neural network (DNN) models, which were matured mainly for domains like vision and language. However, wireless RF data possesses unique characteristics that differentiate it from these other domains. For instance, RF data encompasses intermingled time and frequency features that are dictated by the underlying hardware and protocol configurations. In addition, wireless RF communication signals exhibit cyclostationarity due to repeated patterns (PHY pilots, frame prefixes, etc.) that these signals inherently contain. In this paper, we begin by explaining and showing the unsuitability as well as limitations of existing DNN feature design approaches currently proposed to be used for wireless device classification. We then present novel feature design approaches that exploit the distinct structures of the RF communication signals and the spectrum emissions caused by transmitter hardware impairments to custom-make DNN models suitable for classifying wireless devices using RF signal data. Our proposed DNN feature designs substantially improve classification robustness in terms of scalability, accuracy, signature anti-cloning, and insensitivity to environment perturbations. We end the paper by presenting other feature design strategies that have great potentials for providing further performance improvements of the DNN-based wireless device classification, and discuss the open research challenges related to these proposed strategies.
翻訳日:2023-04-09 11:56:16 公開日:2021-03-02
# 古典量子MAC上のソースの計算法

Computing Sum of Sources over a Classical-Quantum MAC ( http://arxiv.org/abs/2103.02082v1 )

ライセンス: Link先を確認
Touheed Anwar Atif, Arun Padakandla and S. Sandeep Pradhan(参考訳) 古典量子多重アクセスチャネルのエンコーダで観測される2つの古典的ソースの一般双変量関数を通信する問題を考える。 古典的チャネルの場合に開発された手法に基づいて,コセット符号に基づく符号化手法を提案し,解析する。 提案手法により,デコーダはソース自体を回復することなく所望の機能を取り戻すことができる。 我々は、同定された例で知られている現在よりも弱い新しい十分条件の集合を導出する。 この研究は、古典量子の点対点チャネルの能力を達成することが証明されたコセット符号の新しいアンサンブルに基づいている。

We consider the problem of communicating a general bivariate function of two classical sources observed at the encoders of a classical-quantum multiple access channel. Building on the techniques developed for the case of a classical channel, we propose and analyze a coding scheme based on coset codes. The proposed technique enables the decoder recover the desired function without recovering the sources themselves. We derive a new set of sufficient conditions that are weaker than the current known for identified examples. This work is based on a new ensemble of coset codes that are proven to achieve the capacity of a classical-quantum point-to-point channel.
翻訳日:2023-04-09 11:55:39 公開日:2021-03-02
# グローバル最適化のための連続状態セルオートマトンアルゴリズム

A continuous-state cellular automata algorithm for global optimization ( http://arxiv.org/abs/2103.02076v1 )

ライセンス: Link先を確認
Juan Carlos Seck-Tuoh-Mora, Norberto Hernandez-Romero, Pedro Lagos-Eulogio, Joselito Medina-Marin, Nadia Samantha Zu\~niga-Pe\~na(参考訳) セルオートマトンは、それらの要素間の単純な局所的な相互作用に基づいて複雑な振る舞いを発達させることができる。 これらの特徴のいくつかは、グローバル最適化のためのメタヒューリスティックの提案と改善に使われてきたが、セルオートマトンにおける進化規則によって提供される特性は、まだ直接最適化タスクに使われていない。 セルオートマトンの様々な進化規則がもたらす複雑さに触発されて、連続状態セルオートマトンアルゴリズム(CCAA)が提案されている。 このようにして、CCAAは異なる進化規則を利用して、各イテレーションにおける探索と利用特性を最大化するバランスを維持する。 CCAAの効率性は、文献で広く使われている33の試験問題、最近の文献でも使われている4つの工学的応用、適応無限インパルス応答(IIR)フィルタの設計、フルオーダーIIR参照関数10の試験で証明されている。 計算結果は、最先端のアルゴリズムと比較して、その競合性を証明している。 CCAAのソースコードはhttps://github.com/juanseck/CCAA.gitで公開されている。

Cellular automata are capable of developing complex behaviors based on simple local interactions between their elements. Some of these characteristics have been used to propose and improve meta-heuristics for global optimization; however, the properties offered by the evolution rules in cellular automata have not yet been used directly in optimization tasks. Inspired by the complexity that various evolution rules of cellular automata can offer, the continuous-state cellular automata algorithm (CCAA) is proposed. In this way, the CCAA takes advantage of different evolution rules to maintain a balance that maximizes the exploration and exploitation properties in each iteration. The efficiency of the CCAA is proven with 33 test problems widely used in the literature, 4 engineering applications that were also used in recent literature, and the design of adaptive infinite-impulse response (IIR) filters, testing 10 full-order IIR reference functions. The numerical results prove its competitiveness in comparison with state-of-the-art algorithms. The source codes of the CCAA are publicly available at https://github.com/juanseck/CCAA.git
翻訳日:2023-04-09 11:55:28 公開日:2021-03-02
# PBSダイアグラムによる量子チャネルのコヒーレント制御と識別性

Coherent control and distinguishability of quantum channels via PBS-diagrams ( http://arxiv.org/abs/2103.02073v1 )

ライセンス: Link先を確認
Cyril Branciard, Alexandre Cl\'ement, Mehdi Mhalla, and Simon Perdrix(参考訳) 我々は、偏光ビームスプリッター(pbs)を含む実用的な量子光学セットアップに触発された一般量子チャネルのコヒーレント制御のためのグラフィカル言語を提案する。 標準の完全正のトレース保存写像は、コヒーレントに制御された量子チャネルを表現するのに適切でないことが知られているので、スタイネスプーンの拡張である純粋チャネルを使うことを提案する。 我々は、コヒーレント制御下での量子チャネルの忠実な表現に向けて、様々なコヒーレント制御コンテキストにおける浄化チャネルの観測等価性を特徴付ける。

We introduce a graphical language for coherent control of general quantum channels inspired by practical quantum optical setups involving polarising beam splitters (PBS). As standard completely positive trace preserving maps are known not to be appropriate to represent coherently controlled quantum channels, we propose to instead use purified channels, an extension of Stinespring's dilation. We characterise the observational equivalence of purified channels in various coherent-control contexts, paving the way towards a faithful representation of quantum channels under coherent control.
翻訳日:2023-04-09 11:55:09 公開日:2021-03-02
# 研究グローバリゼーションにおける収束と不平等

Convergence and Inequality in Research Globalization ( http://arxiv.org/abs/2103.02052v1 )

ライセンス: Link先を確認
Saurabh Mishra and Kuansan Wang(参考訳) 前者は、貧困層が相補的な資源の交換の自由により、富裕層よりも速く成長できるのに対して、後者は富裕層と貧困層の間のより深い不平等を予測している。 研究のグローバル化に対するこれらの効果を理解するため、過去40年間に218カ国/地域のstem研究をカバーする学術論文や特許出版物に基づいて、500万以上の学術論文と170億の引用をカバーした詳細な研究を行う。 この調査に特有ののは、研究結果と、同じデータセットにおける影響の同時検証であり、saliencyと呼ばれる新しい機械学習ベースの尺度を使用して、研究の影響を定量化する際の本質的なバイアスを軽減する。 以上の結果から,STEM分野における高所得国と高所得国の間での収束の兆候は明らかであるが,低所得国と低所得国を高所得国から分離する格差が拡大していることが示唆された。 さらに、収束の速度はSTEMサブフィールドで顕著に異なり、スペクトルの反対端を占める医学や材料科学などの分野に人工知能(AI)の高度に戦略的な領域が挟まれている。 このデータは、マシュー効果、すなわち優先アタッチメント理論の指導的説明が、低所得国からの組織が既に支配的な人々と実質的な研究協力を行う場合に実際にキャッチアップ効果を促進することができるという議論を支持する。 これらのコラボレーションが関係するすべての当事者にとって有益であることを示すデータは、最も高度な収束の兆候が観察される材料科学の分野では、役割反転の事例が見られる。

The catch-up effect and the Matthew effect offer opposing characterizations of globalization: the former predicts an eventual convergence as the poor can grow faster than the rich due to free exchanges of complementary resources, while the latter, a deepening inequality between the rich and the poor. To understand these effects on the globalization of research, we conduct an in-depth study based on scholarly and patent publications covering STEM research from 218 countries/regions over the past four decades, covering more than 55 million scholarly articles and 1.7 billion citations. Unique to this investigation is the simultaneous examination of both the research output and its impact in the same data set, using a novel machine learning based measure, called saliency, to mitigate the intrinsic biases in quantifying the research impact. The results show that the two effects are in fact co-occurring: there are clear indications of convergence among the high income and upper middle income countries across the STEM fields, but a widening gap is developing that segregates the lower middle and low income regions from the higher income regions. Furthermore, the rate of convergence varies notably among the STEM sub-fields, with the highly strategic area of Artificial Intelligence (AI) sandwiched between fields such as Medicine and Materials Science that occupy the opposite ends of the spectrum. The data support the argument that a leading explanation of the Matthew effect, namely, the preferential attachment theory, can actually foster the catch-up effect when organizations from lower income countries forge substantial research collaborations with those already dominant. The data resoundingly show such collaborations benefit all parties involved, and a case of role reversal can be seen in the Materials Science field where the most advanced signs of convergence are observed.
翻訳日:2023-04-09 11:54:58 公開日:2021-03-02
# 密度汎関数理論に対する密度行列埋め込み理論に基づく近似

Approximations based on density-matrix embedding theory for density-functional theories ( http://arxiv.org/abs/2103.02027v1 )

ライセンス: Link先を確認
Iris Theophilou, Teresa E. Reinhard, Angel Rubio, Michael Ruggenthaler(参考訳) 近年,密度汎関数理論(dft)における近似交換相関汎関数を求める新しいアプローチ(u。 モルドバなど。 JCTC 15 5209 (2019) は密度行列埋め込み理論 (DMET) を用いて相互作用する波動関数の近似に依存する。 この近似相互作用波動関数は、補助系の還元密度行列の一部と近似相互作用密度行列とを同一とする反復手順によって決定される投影を用いて構成される。 両システムの対角線のみが連結であれば、コーン・シャムアプローチのdftへの相互作用対非相互作用写像の近似に繋がる。 しかし、他の選択は可能であり、DMETを運動エネルギー DFT や密度行列関数理論などの他の DFT と接続することができる。 本研究では,DMET法の基本部分について,DFTの観点から詳細に検討し,両手法が相互に補完する方法について述べる。 これはdmetを適用できる最も単純な設定であり、元々提示されたものであるため、一次元格子系の場合は明示的にそうしている。 DFTのマッピングがDMETにおける一意に定義された補助系と補助射影の同定にどのように使用できるか、DMETにインスパイアされた射影を用いて異なるDFTの近似を構築する方法について述べる。 このような代替近似戦略は、コーン・シャム場がエネルギー表現の関数的微分によって単に得られなくなるような運動エネルギーdftのような非線形結合観測量に基づくdftや、単純なコーン・シャム構成が実現不可能である還元密度行列汎関数理論において特に重要となる。

Recently a novel approach to find approximate exchange-correlation functionals in density-functional theory (DFT) was presented (U. Mordovina et. al., JCTC 15, 5209 (2019)), which relies on approximations to the interacting wave function using density-matrix embedding theory (DMET). This approximate interacting wave function is constructed by using a projection determined by an iterative procedure that makes parts of the reduced density matrix of an auxiliary system the same as the approximate interacting density matrix. If only the diagonal of both systems are connected this leads to an approximation of the interacting-to-non-interacting mapping of the Kohn-Sham approach to DFT. Yet other choices are possible and allow to connect DMET with other DFTs such as kinetic-energy DFT or reduced density-matrix functional theory. In this work we give a detailed review of the basics of the DMET procedure from a DFT perspective and show how both approaches can be used to supplement each other. We do so explicitly for the case of a one-dimensional lattice system, as this is the simplest setting where we can apply DMET and the one that was originally presented. Among others we highlight how the mappings of DFTs can be used to identify uniquely defined auxiliary systems and auxiliary projections in DMET and how to construct approximations for different DFTs using DMET inspired projections. Such alternative approximation strategies become especially important for DFTs that are based on non-linearly coupled observables such as kinetic-energy DFT, where the Kohn-Sham fields are no longer simply obtainable by functional differentiation of an energy expression, or for reduced density-matrix functional theories, where a straightforward Kohn-Sham construction is not feasible.
翻訳日:2023-04-09 11:54:00 公開日:2021-03-02
# 2\otimes3$Heisenberg鎖における状態間距離による熱的絡み合い

Thermal entanglement in $2\otimes3$ Heisenberg chains via distance between states ( http://arxiv.org/abs/2103.02019v1 )

ライセンス: Link先を確認
Saulo Luis Lima da Silva(参考訳) 絡み合いの測定に関わる研究のほとんどは、2つの相互作用量子ビットでモデル化できるシステムに焦点を当てている。 これは、スピンが$s > 1/2$の系において絡み合う解析計算を示す研究がほとんどないためである。 本稿では, 2\otimes3$ハイゼンベルク鎖における熱の絡み合いを, 状態間の距離を通じて初めて計算する方法を提案する。 我々はヒルベルト・シュミットノルムを用いて絡み合いを得る。 得られた結果は、スピン-$1/2$とスピン-$1$のカップリングを持つ鎖の絡み合い、例えば鉄磁性化合物やジマー-トリマーカップリングを持つ化合物を計算するために用いられる。

Most of the work involving entanglement measurement focuses on systems that can be modeled by two interacting qubits. This is due to the fact that there are few studies presenting entanglement analytical calculations in systems with spins $s > 1/2$. In this paper we present for the first time an analytical way of calculating thermal entanglement in a dimension $2\otimes3$ Heisenberg chain through the distance between states. We use the Hilbert-Schmidt norm to obtain entanglement. The result obtained can be used to calculate entanglement in chains with spin-$1/2$ coupling with spin-$1$, such as ferrimagnetic compounds as well as compounds with dimer-trimer coupling.
翻訳日:2023-04-09 11:53:31 公開日:2021-03-02
# SpaceNetデータを用いた複数角度からの道路網と走行時間抽出

Road Network and Travel Time Extraction from Multiple Look Angles with SpaceNet Data ( http://arxiv.org/abs/2001.05923v2 )

ライセンス: Link先を確認
Adam Van Etten, Jacob Shermeyer, Daniel Hogan, Nicholas Weir, Ryan Lewis(参考訳) 道路網の同定とリモートセンシングから直接の最適経路の同定は、幅広い人道的・商業的応用にとって重要である。 しかし,これまで道路画素の識別が試みられてきたが,特に頭上画像の場合,頭上画像からの経路走行時間の推定が問題となっている。 この目的のために、SpaceNet MVOIデータセットから、走行時間推定を伴う道路網を抽出する。 CRESIv2 フレームワークを用いて、様々な観測角度の道路網を抽出し、グラフ理論APLS_length と APLS_time のメトリクスを用いて27個の独自のナディア角で性能を定量化する能力を示す。 APLS_length と APLS_time の最小差 0.03 は,本手法の速度限界と走行時間とを極めて高い忠実度で有することを示す。 また,モデルトレーニング中に利用可能なすべての角度を組み込むことの有用性についても検討し,APLS_time = 0.56 のピークスコアを求める。 組み合わせたモデルは、非常に斜めのオフnadir角度での道路網の外観と、直上から撮影した画像とが全く異なるにもかかわらず、角度特定モデルに対するロバスト性を大幅に改善している。

Identification of road networks and optimal routes directly from remote sensing is of critical importance to a broad array of humanitarian and commercial applications. Yet while identification of road pixels has been attempted before, estimation of route travel times from overhead imagery remains a novel problem, particularly for off-nadir overhead imagery. To this end, we extract road networks with travel time estimates from the SpaceNet MVOI dataset. Utilizing the CRESIv2 framework, we demonstrate the ability to extract road networks in various observation angles and quantify performance at 27 unique nadir angles with the graph-theoretic APLS_length and APLS_time metrics. A minimal gap of 0.03 between APLS_length and APLS_time scores indicates that our approach yields speed limits and travel times with very high fidelity. We also explore the utility of incorporating all available angles during model training, and find a peak score of APLS_time = 0.56. The combined model exhibits greatly improved robustness over angle-specific models, despite the very different appearance of road networks at extremely oblique off-nadir angles versus images captured from directly overhead.
翻訳日:2023-01-11 00:21:21 公開日:2021-03-02
# 連続学習における過去知識の定着のための後見的活用

Using Hindsight to Anchor Past Knowledge in Continual Learning ( http://arxiv.org/abs/2002.08165v2 )

ライセンス: Link先を確認
Arslan Chaudhry, Albert Gordo, Puneet K. Dokania, Philip Torr, David Lopez-Paz(参考訳) 連続学習では、学習者は時間とともに分布が変化するデータの流れに直面する。 現代のニューラルネットワークは、以前に獲得した知識をすぐに忘れてしまうため、この設定で苦しむことが知られている。 このような破滅的な忘れ方に対処するために、多くの連続学習手法は異なるタイプの体験リプレイを実装し、エピソディックメモリとして知られる小さなバッファに格納された過去のデータを再学習する。 本研究では,従来のタスクのアンカーポイントの予測をそのまま維持しながら,学習者が2段階の最適化を用いて現在のタスクの知識を更新する,アンカーリングと呼ばれる新たな目的で経験リプレイを補完する。 これらのアンカーポイントは勾配に基づく最適化を用いて学習され、過去のタスクのエピソディックメモリ上で現在訓練されているモデルを微調整することで近似される。 連続学習のための教師付き学習ベンチマークによる実験により,本手法は,精度と測定値の忘れ方,およびエピソディック記憶のさまざまなサイズにおいて,標準経験リプレイを改善していることが示された。

In continual learning, the learner faces a stream of data whose distribution changes over time. Modern neural networks are known to suffer under this setting, as they quickly forget previously acquired knowledge. To address such catastrophic forgetting, many continual learning methods implement different types of experience replay, re-learning on past data stored in a small buffer known as episodic memory. In this work, we complement experience replay with a new objective that we call anchoring, where the learner uses bilevel optimization to update its knowledge on the current task, while keeping intact the predictions on some anchor points of past tasks. These anchor points are learned using gradient-based optimization to maximize forgetting, which is approximated by fine-tuning the currently trained model on the episodic memory of past tasks. Experiments on several supervised learning benchmarks for continual learning demonstrate that our approach improves the standard experience replay in terms of both accuracy and forgetting metrics and for various sizes of episodic memories.
翻訳日:2022-12-30 13:09:19 公開日:2021-03-02
# AlignSeg: 機能指向セグメンテーションネットワーク

AlignSeg: Feature-Aligned Segmentation Networks ( http://arxiv.org/abs/2003.00872v2 )

ライセンス: Link先を確認
Zilong Huang and Yunchao Wei and Xinggang Wang and Wenyu Liu and Thomas S. Huang and Humphrey Shi(参考訳) 異なる畳み込みブロックやコンテキスト埋め込みの観点から特徴を集約することは、セマンティックセグメンテーションのための機能表現を強化する効果的な方法であることが証明されている。 しかし、現在の一般的なネットワークアーキテクチャのほとんどは、機能集約プロセス中に生じる誤用を無視する傾向がある。 1)ステップバイステップのダウンサンプリング操作、及び 2) 文脈情報融合の無差別化。 本稿では,このような問題に対処する上での原理を考察し,機能整合セグメンテーションネットワーク(alignseg)を考案的に提案する。 AlignSegは2つの主要なモジュール、すなわちAligned Feature Aggregation (AlignFA)モジュールとAligned Context Modeling (AlignCM)モジュールで構成されている。 第一に、AlignFAは、単純な学習可能な補間戦略を採用して、画素の変換オフセットを学習し、マルチレゾリューション機能集約による特徴調整問題を効果的に軽減することができる。 第2に、コンテキスト埋め込みを手作業で行うことで、AlignCMは各ピクセルが適応的な方法でプライベートなコンテキスト情報を選択することを可能にする。 我々は,CityscapesとADE20Kの広範な実験によりAlignSegネットワークの有効性を検証し,最新のmIoUスコアを82.6%,45.95%とした。 ソースコードは利用可能になる予定です。

Aggregating features in terms of different convolutional blocks or contextual embeddings has been proven to be an effective way to strengthen feature representations for semantic segmentation. However, most of the current popular network architectures tend to ignore the misalignment issues during the feature aggregation process caused by 1) step-by-step downsampling operations, and 2) indiscriminate contextual information fusion. In this paper, we explore the principles in addressing such feature misalignment issues and inventively propose Feature-Aligned Segmentation Networks (AlignSeg). AlignSeg consists of two primary modules, i.e., the Aligned Feature Aggregation (AlignFA) module and the Aligned Context Modeling (AlignCM) module. First, AlignFA adopts a simple learnable interpolation strategy to learn transformation offsets of pixels, which can effectively relieve the feature misalignment issue caused by multiresolution feature aggregation. Second, with the contextual embeddings in hand, AlignCM enables each pixel to choose private custom contextual information in an adaptive manner, making the contextual embeddings aligned better to provide appropriate guidance. We validate the effectiveness of our AlignSeg network with extensive experiments on Cityscapes and ADE20K, achieving new state-of-the-art mIoU scores of 82.6% and 45.95%, respectively. Our source code will be made available.
翻訳日:2022-12-29 04:31:58 公開日:2021-03-02
# 収益を最適化し、規模で関連する品揃えを示す

Optimizing Revenue while showing Relevant Assortments at Scale ( http://arxiv.org/abs/2003.04736v2 )

ライセンス: Link先を確認
Theja Tulabandhula and Deeksha Sinha and Saketh Karra(参考訳) パーソナライズや多種多様なアイテムの入手の必要性から,eコマース業務においてスケーラブルなリアルタイムアソシエーション最適化が不可欠となっている。 単純化されたソートの選択がある場合、これは可能だが、ストアマネージャの洞察に基づいて関連するソートの集合に制約を課すことで最適化プロセスが困難になる。 我々は,この難易度において,(ほぼ)最適解を求める二分探索のバリエーションに基づいて,高速かつ柔軟なアルゴリズムを設計する。 特に,多項ロジット選択モデルに基づく大規模アソート最適化の問題を,実現可能なアソート構造に関する仮定なしで再検討する。 情報検索/機械学習分野における類似性検索の進歩を用いて,比較ステップを高速化する。 任意のアソシエーションの集合に対して、我々のアルゴリズムは、アソシエーションの個数のサブ線形な解を見つけることができ、また、より単純な濃度制約の場合、アイテムの個数の線型である(既存のメソッドは2次あるいはそれ以上である)。 実世界のデータセット(数十億ドルのプライスデータセットといくつかの小売取引データセットに基づく半合成データを用いた実験に加えて)を使用した実証的な検証は、我々のアルゴリズムが、アイテムの数が以前研究されたより大きいインスタンスに対して$\sim 10^5$$10\times$である場合でも競合していることを示している。

Scalable real-time assortment optimization has become essential in e-commerce operations due to the need for personalization and the availability of a large variety of items. While this can be done when there are simplistic assortment choices to be made, the optimization process becomes difficult when imposing constraints on the collection of relevant assortments based on insights by store-managers and historically well-performing assortments. We design fast and flexible algorithms based on variations of binary search that find the (approximately) optimal assortment in this difficult regime. In particular, we revisit the problem of large-scale assortment optimization under the multinomial logit choice model without any assumptions on the structure of the feasible assortments. We speed up the comparison steps using advances in similarity search in the field of information retrieval/machine learning. For an arbitrary collection of assortments, our algorithms can find a solution in time that is sub-linear in the number of assortments, and for the simpler case of cardinality constraints - linear in the number of items (existing methods are quadratic or worse). Empirical validations using a real world dataset (in addition to experiments using semi-synthetic data based on the Billion Prices dataset and several retail transaction datasets) show that our algorithms are competitive even when the number of items is $\sim 10^5$ ($10\times$ larger instances than previously studied).
翻訳日:2022-12-26 01:47:57 公開日:2021-03-02
# エンド・ツー・エンド運転に関する調査:アーキテクチャと訓練方法

A Survey of End-to-End Driving: Architectures and Training Methods ( http://arxiv.org/abs/2003.06404v2 )

ライセンス: Link先を確認
Ardi Tampuu, Maksym Semikin, Naveed Muhammad, Dmytro Fishman and Tambet Matiisen(参考訳) 自動運転は産業やアカデミアにも大きな関心がある。 自動運転への機械学習のアプローチの使用は長い間研究されてきたが、主に知覚の文脈で研究されている。 本稿では、運転パイプライン全体を1つのニューラルネットワークに置き換える、いわゆるエンドツーエンドの自動運転アプローチについて、より深く検討する。 本稿では,エンド・ツー・エンド駆動文学における学習方法,入出力モード,ネットワークアーキテクチャ,評価スキームについて概説する。 解釈可能性と安全性は別々に議論され、このアプローチは依然として困難である。 既存手法の包括的な概要を提供する以外に、エンドツーエンドの自動運転システムの最も有望な要素を組み合わせたアーキテクチャでレビューを締めくくります。

Autonomous driving is of great interest to industry and academia alike. The use of machine learning approaches for autonomous driving has long been studied, but mostly in the context of perception. In this paper we take a deeper look on the so called end-to-end approaches for autonomous driving, where the entire driving pipeline is replaced with a single neural network. We review the learning methods, input and output modalities, network architectures and evaluation schemes in end-to-end driving literature. Interpretability and safety are discussed separately, as they remain challenging for this approach. Beyond providing a comprehensive overview of existing methods, we conclude the review with an architecture that combines the most promising elements of the end-to-end autonomous driving systems.
翻訳日:2022-12-24 02:08:16 公開日:2021-03-02
# トポロジー変化と局所更新を考慮した分散sgdの統一理論

A Unified Theory of Decentralized SGD with Changing Topology and Local Updates ( http://arxiv.org/abs/2003.10422v3 )

ライセンス: Link先を確認
Anastasia Koloskova, Nicolas Loizou, Sadra Boreiri, Martin Jaggi, Sebastian U. Stich(参考訳) 分散確率最適化手法は、主に1イテレーションあたりのコストの安さ、データの局所性、通信効率が原因で近年注目を集めている。 本稿では,これまで様々な直観を必要とする分散SGD手法を網羅し,様々なコミュニティで個別に開発してきた統合収束解析について紹介する。 アルゴリズムフレームワークは,適応型ネットワークトポロジ上でのローカルsgd更新と同期およびペアワイズゴシップ更新をカバーする。 平滑(凸および非凸)問題に対する普遍収束率と、不均一(非同定分布データ)と iid-データ設定との補間率を導出し、超パラメータモデルなど、多くの特別な場合において線形収束率を回復する。 私たちの証明は、弱い仮定(通常、いくつかの面での事前作業よりも改善)に依存しており、例えば調整型sgdやフェデレーション平均化(ローカルsgd)など、多くの重要なシナリオにおいて最もよく知られた複雑性を回復(そして改善)します。

Decentralized stochastic optimization methods have gained a lot of attention recently, mainly because of their cheap per iteration cost, data locality, and their communication-efficiency. In this paper we introduce a unified convergence analysis that covers a large variety of decentralized SGD methods which so far have required different intuitions, have different applications, and which have been developed separately in various communities. Our algorithmic framework covers local SGD updates and synchronous and pairwise gossip updates on adaptive network topology. We derive universal convergence rates for smooth (convex and non-convex) problems and the rates interpolate between the heterogeneous (non-identically distributed data) and iid-data settings, recovering linear convergence rates in many special cases, for instance for over-parametrized models. Our proofs rely on weak assumptions (typically improving over prior work in several aspects) and recover (and improve) the best known complexity results for a host of important scenarios, such as for instance coorperative SGD and federated averaging (local SGD).
翻訳日:2022-12-20 23:49:47 公開日:2021-03-02
# クラスアンカークラスタリング: 距離ベースオープンセット認識における損失

Class Anchor Clustering: a Loss for Distance-based Open Set Recognition ( http://arxiv.org/abs/2004.02434v3 )

ライセンス: Link先を確認
Dimity Miller, Niko S\"underhauf, Michael Milford, Feras Dayoub(参考訳) オープンセット認識では、ディープニューラルネットワークはトレーニング中に未知のオブジェクトクラスに遭遇する。 既存のオープンセット分類器は、ネットワークのロジット空間における距離を測定することで既知のクラスと未知のクラスを区別し、既知のクラスが未知のクラスよりもトレーニングデータに近いと仮定する。 しかし、このアプローチはクロスエントロピー損失で訓練されたネットワークに適用され、クラスタリング動作は保証されない。 この制限を克服するために、クラスアンカークラスタリング(CAC)の損失を導入します。 cacは距離ベースの損失であり、ロジット空間のクラス依存中心の周りに密集したクラスターを形成するために既知のクラスを明示的に訓練する。 CACを用いたトレーニングは,6つの標準ベンチマークデータセットすべてに対して,距離ベースオープンセット分類器の最先端性能を実現し,分類精度を犠牲にすることなく,困難であるTinyImageNetに対して15.2%のAUROCが増加していることを示す。 また、我々のアンカークラスセンターは、特にオブジェクトベースデータセットや多数のトレーニングクラスにおいて、学習したクラスセンターよりも高いオープンセット性能を達成することを示す。

In open set recognition, deep neural networks encounter object classes that were unknown during training. Existing open set classifiers distinguish between known and unknown classes by measuring distance in a network's logit space, assuming that known classes cluster closer to the training data than unknown classes. However, this approach is applied post-hoc to networks trained with cross-entropy loss, which does not guarantee this clustering behaviour. To overcome this limitation, we introduce the Class Anchor Clustering (CAC) loss. CAC is a distance-based loss that explicitly trains known classes to form tight clusters around anchored class-dependent centres in the logit space. We show that training with CAC achieves state-of-the-art performance for distance-based open set classifiers on all six standard benchmark datasets, with a 15.2% AUROC increase on the challenging TinyImageNet, without sacrificing classification accuracy. We also show that our anchored class centres achieve higher open set performance than learnt class centres, particularly on object-based datasets and large numbers of training classes.
翻訳日:2022-12-16 06:54:12 公開日:2021-03-02
# 核画像分割のためのラベル-画像変換を用いた生成的合成拡張

Generative Synthetic Augmentation using Label-to-Image Translation for Nuclei Image Segmentation ( http://arxiv.org/abs/2004.10126v3 )

ライセンス: Link先を確認
Takato Yasuno(参考訳) 医用画像診断では, デジタル病理学の一分野として, セマンティックセグメンテーションを用いた病理画像解析が重要となる。 空間拡張は意味セグメンテーションに通常使用される。 悪性の腫瘍像は稀であり、核領域のラベルに注釈をつけるのに多くの時間を要する。 セグメンテーションの精度を最大化するためにデータセットを効果的に利用する必要がある。 一般化画像変換のための拡張がセグメント化性能に影響を及ぼすことが期待される。 本稿では,意味ラベルとエッジ構造をマッピングし,画像から画像へのラベラル変換による合成拡張を提案する。 本論文は特に腫瘍の原子核の染色スライスを扱う。 実際、いくつかのセグメンテーションアルゴリズムを実画像とラベルを含む初期データセットに適用し、それらの一般化画像を追加するために合成拡張を用いた。 提案手法により,提案手法の精度が向上したことを計算および報告する。

In medical image diagnosis, pathology image analysis using semantic segmentation becomes important for efficient screening as a field of digital pathology. The spatial augmentation is ordinary used for semantic segmentation. Tumor images under malignant are rare and to annotate the labels of nuclei region takes much time-consuming. We require an effective use of dataset to maximize the segmentation accuracy. It is expected that some augmentation to transform generalized images influence the segmentation performance. We propose a synthetic augmentation using label-to-image translation, mapping from a semantic label with the edge structure to a real image. Exactly this paper deal with stain slides of nuclei in tumor. Actually, we demonstrate several segmentation algorithms applied to the initial dataset that contains real images and labels using synthetic augmentation in order to add their generalized images. We computes and reports that a proposed synthetic augmentation procedure improve their accuracy.
翻訳日:2022-12-11 06:30:15 公開日:2021-03-02
# Amortized Bayesian model comparison with obviousial Deep Learning (特集 バイオサイバネティックスとバイオサイバネティックス)

Amortized Bayesian model comparison with evidential deep learning ( http://arxiv.org/abs/2004.10629v4 )

ライセンス: Link先を確認
Stefan T. Radev, Marco D'Alessandro, Ulf K. Mertens, Andreas Voss, Ullrich K\"othe, Paul-Christian B\"urkner(参考訳) 複雑な自然過程の競合する数学的モデルを比較することは、科学の多くの分野において共通の目標である。 ベイズ確率フレームワークは、モデル比較を行い、意思決定を導くのに有用なメトリクスを抽出するための原則的な方法を提供する。 しかし、多くの興味深いモデルが標準的なベイズ法では難解であり、それらは閉形式確率関数を欠いているか、計算量的に評価するには高価である。 本研究では,特殊ディープラーニングアーキテクチャを用いてベイズモデルの比較を行う新しい手法を提案する。 本手法は純粋にシミュレーションベースであり,各観測データセットに考慮した全ての代替モデルに明示的に適合するステップを回避する。 さらに、データに関する手作りの要約統計を必要とせず、複数のモデルや観測可能なデータセット上でシミュレーションのコストを抑えるように設計されている。 これにより,本手法は,多数のデータセットに対してモデル適合性を評価する必要があるシナリオにおいて特に有効であり,データセットごとの推論が事実上実現不可能である。 本手法は,コグニティブサイエンスと単細胞神経科学の非自明なモデルを用いて,おもちゃの例とシミュレーションデータに対して有用性を示す。 本手法は,本研究で検討した例を通して,精度,キャリブレーション,効率の面で優れた結果が得られることを示す。 我々は,本フレームワークが自然過程の計算モデルを扱う多くの分野において,モデルに基づく解析と推論を強化し,強化することができると論じる。 さらに,認識的不確実性尺度は,真のデータ生成モデルが有限個の候補モデル内にあると仮定する枠組みにおいても,絶対的証拠を定量化する一意な指標であると主張する。

Comparing competing mathematical models of complex natural processes is a shared goal among many branches of science. The Bayesian probabilistic framework offers a principled way to perform model comparison and extract useful metrics for guiding decisions. However, many interesting models are intractable with standard Bayesian methods, as they lack a closed-form likelihood function or the likelihood is computationally too expensive to evaluate. With this work, we propose a novel method for performing Bayesian model comparison using specialized deep learning architectures. Our method is purely simulation-based and circumvents the step of explicitly fitting all alternative models under consideration to each observed dataset. Moreover, it requires no hand-crafted summary statistics of the data and is designed to amortize the cost of simulation over multiple models and observable datasets. This makes the method particularly effective in scenarios where model fit needs to be assessed for a large number of datasets, so that per-dataset inference is practically infeasible.Finally, we propose a novel way to measure epistemic uncertainty in model comparison problems. We demonstrate the utility of our method on toy examples and simulated data from non-trivial models from cognitive science and single-cell neuroscience. We show that our method achieves excellent results in terms of accuracy, calibration, and efficiency across the examples considered in this work. We argue that our framework can enhance and enrich model-based analysis and inference in many fields dealing with computational models of natural processes. We further argue that the proposed measure of epistemic uncertainty provides a unique proxy to quantify absolute evidence even in a framework which assumes that the true data-generating model is within a finite set of candidate models.
翻訳日:2022-12-10 17:31:29 公開日:2021-03-02
# ニューラルネットワークの層をまたぐ決定はどのように行われるか? 異なるマスキングによる解釈

How do Decisions Emerge across Layers in Neural Models? Interpretation with Differentiable Masking ( http://arxiv.org/abs/2004.14992v3 )

ライセンス: Link先を確認
Nicola De Cao, Michael Schlichtkrull, Wilker Aziz, Ivan Titov(参考訳) 属性法はモデル予測に対する入力の寄与を評価する。 1つの方法は消去である:入力のサブセットは、予測に影響を与えることなく削除できる場合、無関係とみなされる。 概念的には単純ではあるが、消去の目的は難解であり、現代のディープNLPモデルでは近似探索は高価である。 消去は後見バイアスにも感受性がある: 入力を落とすことができるという事実は、モデルを ‘knows' にするという意味ではない。 結果として生じるプルーニングは過攻撃的であり、モデルが予測にどのように到着するかを反映していない。 これらの課題に対処するために,我々は差別化可能なマスキングを導入する。 DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。 入力トークンを包含または無視する決定は、解析されたモデルの中間的な隠蔽層に基づいて単純なモデルでなされる。 まず、検索ではなく予測するので、このアプローチは効率的です。 第二に、探索型分類器と同様に、ネットワークが対応するレイヤで何を「知識」しているかを明らかにする。 これにより、帰属ヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。 DiffMaskを用いて、感情分類と質問応答に関するBERTモデルの研究を行う。

Attribution methods assess the contribution of inputs to the model prediction. One way to do so is erasure: a subset of inputs is considered irrelevant if it can be removed without affecting the prediction. Though conceptually simple, erasure's objective is intractable and approximate search remains expensive with modern deep NLP models. Erasure is also susceptible to the hindsight bias: the fact that an input can be dropped does not mean that the model `knows' it can be dropped. The resulting pruning is over-aggressive and does not reflect how the model arrives at the prediction. To deal with these challenges, we introduce Differentiable Masking. DiffMask learns to mask-out subsets of the input while maintaining differentiability. The decision to include or disregard an input token is made with a simple model based on intermediate hidden layers of the analyzed model. First, this makes the approach efficient because we predict rather than search. Second, as with probing classifiers, this reveals what the network `knows' at the corresponding layers. This lets us not only plot attribution heatmaps but also analyze how decisions are formed across network layers. We use DiffMask to study BERT models on sentiment classification and question answering.
翻訳日:2022-12-08 03:04:10 公開日:2021-03-02
# BeCAPTCHA-Mouse:合成マウス軌道とボット検出の改善

BeCAPTCHA-Mouse: Synthetic Mouse Trajectories and Improved Bot Detection ( http://arxiv.org/abs/2005.00890v2 )

ライセンス: Link先を確認
Alejandro Acien and Aythami Morales and Julian Fierrez and Ruben Vera-Rodriguez(参考訳) まず,行動バイオメトリックスがコンピュータと人間を区別する可能性について検討した。 次に、下記のボット検出器BeCAPTCHA-Mouseを紹介する。 一 人間及びボットの標本の分類のための新しい特徴セットを得るためのマウスの動力学の神経運動モデル 二 実際の及び合成されたマウスの軌道を含む学習の枠組み 本研究では,マウスの軌跡合成法を2つ提案する。 a) ヒューリスティック関数に基づく関数ベースの方法、及び b) 生成器がガウス雑音入力からヒト様軌跡を合成する生成逆ネットワーク(gans)に基づくデータ駆動方式 becaptcha-mouse benchmark(becaptcha-mouseベンチマーク)は、ボット検出やその他のマウスベースのhciアプリケーションの研究に役立つ。 ベンチマークデータは,58ユーザーの実データと,さまざまなレベルの現実性を持つボットデータを含む15,000のマウストラジェクトリで構成されている。 実験の結果,BeCAPTCHA-Mouseは1つのマウス軌道のみを用いて,平均93%の精度で高実在性ボット軌道を検出することができた。 我々のアプローチが最先端のマウスの動的特徴と融合すると、ボット検出精度は36%以上増加し、マウスベースのボット検出は従来のCAPTCHAシステムを補完する高速で簡単で信頼性の高いツールであることが証明された。

We first study the suitability of behavioral biometrics to distinguish between computers and humans, commonly named as bot detection. We then present BeCAPTCHA-Mouse, a bot detector based on: i) a neuromotor model of mouse dynamics to obtain a novel feature set for the classification of human and bot samples; and ii) a learning framework involving real and synthetically generated mouse trajectories. We propose two new mouse trajectory synthesis methods for generating realistic data: a) a function-based method based on heuristic functions, and b) a data-driven method based on Generative Adversarial Networks (GANs) in which a Generator synthesizes human-like trajectories from a Gaussian noise input. Experiments are conducted on a new testbed also introduced here and available in GitHub: BeCAPTCHA-Mouse Benchmark; useful for research in bot detection and other mouse-based HCI applications. Our benchmark data consists of 15,000 mouse trajectories including real data from 58 users and bot data with various levels of realism. Our experiments show that BeCAPTCHA-Mouse is able to detect bot trajectories of high realism with 93% of accuracy in average using only one mouse trajectory. When our approach is fused with state-of-the-art mouse dynamic features, the bot detection accuracy increases relatively by more than 36%, proving that mouse-based bot detection is a fast, easy, and reliable tool to complement traditional CAPTCHA systems.
翻訳日:2022-12-07 12:51:13 公開日:2021-03-02
# 大規模MIMOレーダにおけるマルチターゲット検出のための強化学習に基づくアプローチ

A Reinforcement Learning based approach for Multi-target Detection in Massive MIMO radar ( http://arxiv.org/abs/2005.04708v4 )

ライセンス: Link先を確認
Aya Mostafa Ahmed, Alaa Alameer Ahmad, Stefano Fortunati, Aydin Sezgin, Maria S. Greco, Fulvio Gini(参考訳) 本稿では,MMIMO(Multiple input Multiple output)認知レーダにおけるマルチターゲット検出の問題点について考察する。 CRの概念は、特定のミッションを最適に満たすために、動的環境を感知し、インテリジェントに適応する知覚行動サイクルに基づいている。 しかし、これは通常、ほとんどのケースでは利用できない環境モデルに関する事前知識を必要とする。 本稿では,未知の外乱統計の存在下での認知的マルチターゲット検出のための強化学習(RL)に基づくアルゴリズムを提案する。 レーダーは、未知の環境(すなわち標的と乱れ)を連続的に感知し、その結果、特定のレンジ角細胞(すなわちビームフォーミング)にエネルギーを集中させることで、検出の確率を最大化するために送信波形を最適化するエージェントとして機能する。 さらに,本手法よりも複雑度の低いビームフォーミング最適化問題の解法を提案する。 定常環境と動的環境の両方において提案したRLアルゴリズムの性能を評価するため, 数値シミュレーションを行った。 RLベースのビームフォーミングは、電力割り当てが等しい従来の全方向アプローチと、RLのない適応ビームフォーミングと比較される。 提案した数値結果で強調されるように,RLをベースとしたビームフォーマは,目標検出性能において両手法に優れる。 性能改善は、低SNR、重尾乱れ、急速に変化するシナリオなど、環境的に厳しい条件下では特に顕著である。

This paper considers the problem of multi-target detection for massive multiple input multiple output (MMIMO) cognitive radar (CR). The concept of CR is based on the perception-action cycle that senses and intelligently adapts to the dynamic environment in order to optimally satisfy a specific mission. However, this usually requires a priori knowledge of the environmental model, which is not available in most cases. We propose a reinforcement learning (RL) based algorithm for cognitive multi-target detection in the presence of unknown disturbance statistics. The radar acts as an agent that continuously senses the unknown environment (i.e., targets and disturbance) and consequently optimizes transmitted waveforms in order to maximize the probability of detection ($P_\mathsf{D}$) by focusing the energy in specific range-angle cells (i.e., beamforming). Furthermore, we propose a solution to the beamforming optimization problem with less complexity than the existing methods. Numerical simulations are performed to assess the performance of the proposed RL-based algorithm in both stationary and dynamic environments. The RL based beamforming is compared to the conventional omnidirectional approach with equal power allocation and to adaptive beamforming with no RL. As highlighted by the proposed numerical results, our RL-based beamformer outperforms both approaches in terms of target detection performance. The performance improvement is even particularly remarkable under environmentally harsh conditions such as low SNR, heavy-tailed disturbance and rapidly changing scenarios.
翻訳日:2022-12-05 02:14:47 公開日:2021-03-02
# MOReL : モデルに基づくオフライン強化学習

MOReL : Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2005.05951v3 )

ライセンス: Link先を確認
Rahul Kidambi, Aravind Rajeswaran, Praneeth Netrapalli, Thorsten Joachims(参考訳) オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。 RLポリシーをオフラインでトレーニングする能力は、RLの適用性、データ効率、実験速度を大幅に拡張することができる。 オフライン RL での以前の作業は、ほとんどモデルなし RL アプローチに限られていた。 本研究では,モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。 このフレームワークは2つのステップから構成される。 (a)オフラインデータセットを用いた悲観的MDP(P-MDP)学習 (b)このP-MDPで準最適政策を学ぶ。 学習されたP-MDPは、任意のポリシーに対して、実環境における性能は、P-MDPの性能によってほぼ下限となるという特性を持つ。 これにより、ポリシー評価と学習の目的のために優れたサロゲートとして機能し、モデルベースのRLのようなモデルエクスプロイトの共通の落とし穴を克服できます。 理論的には、MOReLはオフラインRLに最適(ログファクタまで)であることを示す。 実験により,moll は最先端の rl ベンチマーク結果と一致するか,あるいは超えていることを示す。 さらに、MOReLのモジュラー設計により、そのコンポーネント(例えば、生成的モデリング、不確実性推定、計画など)の将来の進歩により、オフラインRLの進歩に直接変換できる。

In offline reinforcement learning (RL), the goal is to learn a highly rewarding policy based solely on a dataset of historical interactions with the environment. The ability to train RL policies offline can greatly expand the applicability of RL, its data efficiency, and its experimental velocity. Prior work in offline RL has been confined almost exclusively to model-free RL approaches. In this work, we present MOReL, an algorithmic framework for model-based offline RL. This framework consists of two steps: (a) learning a pessimistic MDP (P-MDP) using the offline dataset; and (b) learning a near-optimal policy in this P-MDP. The learned P-MDP has the property that for any policy, the performance in the real environment is approximately lower-bounded by the performance in the P-MDP. This enables it to serve as a good surrogate for purposes of policy evaluation and learning, and overcome common pitfalls of model-based RL like model exploitation. Theoretically, we show that MOReL is minimax optimal (up to log factors) for offline RL. Through experiments, we show that MOReL matches or exceeds state-of-the-art results in widely studied offline RL benchmarks. Moreover, the modular design of MOReL enables future advances in its components (e.g. generative modeling, uncertainty estimation, planning etc.) to directly translate into advances for offline RL.
翻訳日:2022-12-03 18:05:22 公開日:2021-03-02
# 機械学習支援5g/6gネットワークにおけるネットワークシミュレータの利用

Usage of Network Simulators in Machine-Learning-Assisted 5G/6G Networks ( http://arxiv.org/abs/2005.08281v2 )

ライセンス: Link先を確認
Francesc Wilhelmi, Marc Carrascosa, Cristina Cano, Anders Jonsson, Vishnu Ram, Boris Bellalta(参考訳) 間違いなく、機械学習(ML)は、複雑な問題に適用する際の前向きなパフォーマンスのため、将来のコミュニケーションの重要な推進役となるでしょう。 しかし、ネットワークシステムへのMLの適用は、特に信頼性と信頼性に関するネットワークオペレーターや他の利害関係者の間で懸念を喚起する。 本稿では,MLと通信システムのギャップを埋めるためのネットワークシミュレータの役割を考案する。 特に,ml-awareネットワークにおけるシミュレータのアーキテクチャ的統合により,運用ネットワークに適用する前にmlモデルのトレーニング,テスト,検証を行う。 さらに、この統合から生じる主な課題についての洞察を提供し、どのように克服できるかを議論するヒントを与えます。 最後に,家庭用Wi-Fiネットワークの実証テストベッド実装を通じて,ネットワークシミュレータのML支援通信への統合について述べる。

Without any doubt, Machine Learning (ML) will be an important driver of future communications due to its foreseen performance when applied to complex problems. However, the application of ML to networking systems raises concerns among network operators and other stakeholders, especially regarding trustworthiness and reliability. In this paper, we devise the role of network simulators for bridging the gap between ML and communications systems. In particular, we present an architectural integration of simulators in ML-aware networks for training, testing, and validating ML models before being applied to the operative network. Moreover, we provide insights on the main challenges resulting from this integration, and then give hints discussing how they can be overcome. Finally, we illustrate the integration of network simulators into ML-assisted communications through a proof-of-concept testbed implementation of a residential Wi-Fi network.
翻訳日:2022-12-02 06:05:26 公開日:2021-03-02
# ニューラルアーキテクチャ探索の包括的調査:課題と解決

A Comprehensive Survey of Neural Architecture Search: Challenges and Solutions ( http://arxiv.org/abs/2006.02903v3 )

ライセンス: Link先を確認
Pengzhen Ren, Yun Xiao, Xiaojun Chang, Po-Yao Huang, Zhihui Li, Xiaojiang Chen, and Xin Wang(参考訳) ディープラーニングは、強力な自動表現能力によって、多くの分野でブレークスルーと実質的な進歩を遂げています。 ニューラルアーキテクチャの設計は、データの特徴表現と最終的なパフォーマンスにとって重要であることが証明されている。 しかし、ニューラルアーキテクチャの設計は、研究者の以前の知識と経験に大きく依存している。 そして、人間固有の知識の限界のため、人々が独自の思考パラダイムから飛び出して最適なモデルを設計することは困難である。 したがって、直感的なアイデアは、人間の介入をできるだけ少なくし、アルゴリズムが自動的に神経アーキテクチャを設計することである。 neural architecture search (nas)は、そのような革命的なアルゴリズムであり、関連する研究は複雑で豊かである。 そのため,nasの包括的かつ体系的な調査が不可欠である。 従来,NASの主要な構成要素である探索空間,探索戦略,評価戦略に基づいて,既存の研究を分類し始めている。 この分類法はより直感的であるが、読者が課題と関連するランドマーク作業を理解することは困難である。 そこで本研究では,初期のNASアルゴリズムの特徴を概観することから始まり,これらの早期NASアルゴリズムの問題を要約し,その後の研究課題に対する解決策を提供する。 さらに,これらの研究の詳細な分析,比較,要約を行う。 最後に,今後の研究方針について述べる。

Deep learning has made breakthroughs and substantial in many fields due to its powerful automatic representation capabilities. It has been proven that neural architecture design is crucial to the feature representation of data and the final performance. However, the design of the neural architecture heavily relies on the researchers' prior knowledge and experience. And due to the limitations of human' inherent knowledge, it is difficult for people to jump out of their original thinking paradigm and design an optimal model. Therefore, an intuitive idea would be to reduce human intervention as much as possible and let the algorithm automatically design the neural architecture. Neural Architecture Search (NAS) is just such a revolutionary algorithm, and the related research work is complicated and rich. Therefore, a comprehensive and systematic survey on the NAS is essential. Previously related surveys have begun to classify existing work mainly based on the key components of NAS: search space, search strategy, and evaluation strategy. While this classification method is more intuitive, it is difficult for readers to grasp the challenges and the landmark work involved. Therefore, in this survey, we provide a new perspective: beginning with an overview of the characteristics of the earliest NAS algorithms, summarizing the problems in these early NAS algorithms, and then providing solutions for subsequent related research work. Besides, we conduct a detailed and comprehensive analysis, comparison, and summary of these works. Finally, we provide some possible future research directions.
翻訳日:2022-11-26 06:21:22 公開日:2021-03-02
# 有害雑音をもつハーフスペースの属性効率学習:ほぼ最適ラベル複雑性と耐雑音性

Attribute-Efficient Learning of Halfspaces with Malicious Noise: Near-Optimal Label Complexity and Noise Tolerance ( http://arxiv.org/abs/2006.03781v5 )

ライセンス: Link先を確認
Jie Shen and Chicheng Zhang(参考訳) 本稿では,雑音下での$\mathbb{R}^d$における均質なスパース半空間の計算効率のよい学習について述べる。 最近の研究は、様々な種類のラベルノイズ(例えば有界雑音)の下で属性効率の学習アルゴリズムを確立しているが、いつ、どのように$s$スパースハーフスペースが困難な悪質なノイズモデルの下で効率的に学習できるかという未解決の疑問が残る。 計算効率のよい能動学習アルゴリズムを設計し、ほぼ最適ラベル複雑性の$\tilde{O}\big({s \log^4 \frac d \epsilon} \big)$および耐雑音性$\eta = \Omega(\epsilon)$, where $\epsilon \in (0, 1)$は目標誤差率であり、未ラベルの例の分布が等方的対数対数対数対数対数対数対数対数対数と仮定して、この疑問に答える。 我々のアルゴリズムは受動的学習環境に直列に調整することができ、サンプルの複雑さは$\tilde{O}\big({\frac 1 \epsilon s^2 \log^5 d} \big)$であることを示す。 私たちの主な技術には、再重み付けや経験的リスク最小化といった属性効率の高いパラダイムや、無制限データに対する統一的な集中度に関する新たな分析が含まれています。

This paper is concerned with computationally efficient learning of homogeneous sparse halfspaces in $\mathbb{R}^d$ under noise. Though recent works have established attribute-efficient learning algorithms under various types of label noise (e.g. bounded noise), it remains an open question when and how $s$-sparse halfspaces can be efficiently learned under the challenging malicious noise model, where an adversary may corrupt both the unlabeled examples and the labels. We answer this question in the affirmative by designing a computationally efficient active learning algorithm with near-optimal label complexity of $\tilde{O}\big({s \log^4 \frac d \epsilon} \big)$ and noise tolerance $\eta = \Omega(\epsilon)$, where $\epsilon \in (0, 1)$ is the target error rate, under the assumption that the distribution over (uncorrupted) unlabeled examples is isotropic log-concave. Our algorithm can be straightforwardly tailored to the passive learning setting, and we show that the sample complexity is $\tilde{O}\big({\frac 1 \epsilon s^2 \log^5 d} \big)$ which also enjoys the attribute efficiency. Our main techniques include attribute-efficient paradigms for instance reweighting and for empirical risk minimization, and a new analysis of uniform concentration for unbounded data -- all of them crucially take the structure of the underlying halfspace into account.
翻訳日:2022-11-24 21:24:47 公開日:2021-03-02
# プライベートグラディエントDescenceによる非拘束プライベートGLMの寸法曲線の計算

Evading Curse of Dimensionality in Unconstrained Private GLMs via Private Gradient Descent ( http://arxiv.org/abs/2006.06783v2 )

ライセンス: Link先を確認
Shuang Song, Thomas Steinke, Om Thakkar, Abhradeep Thakurta(参考訳) 本稿では, 個人的リスク最小化(ERM)の課題を再考する。 制約のない凸一般化線形モデル (glms) に対して、$\tilde o\left(\sqrt{{\texttt{rank}}}/\epsilon n\right)$ という過剰な経験的リスクが得られ、ここで${\texttt{rank}}$ はglm問題における特徴行列のランクであり、$n$ はデータサンプルの数であり、$\epsilon$ はプライバシーパラメータである。 この境界は微分プライベート勾配降下(DP-GD)によって達成される。 さらに、制約のないプライベートermの第一下限を介して、我々の上限はタイトであることを示す。 制約されたERM設定とは対照的に、周囲のモデル空間(p$)の次元性には依存しない。 (注意:${\textt{rank}}\leq \min\{n, p\}$.) さらに、$p$の代わりに${\texttt{rank}}$に依存する類似の過剰人口リスク境界を得る。 滑らかな非凸 GLM 設定(すなわち、目的関数が非凸であるが GLM の構造を保存する)に対しては、DP-GD が $\tilde O\left(\sqrt{{\texttt{rank}}}/\epsilon n\right)$ の次元非依存収束を得ることを示す。 最後に, dp-gd の変種である convex glms についても, 十分に定義された目的の最小値に対して, 次元独立な収束を示すことが示されている。 そこで我々は,DP-GDの最適化プロファイルに対するクリッピングの効果を特徴付ける構造補題を提案する。

We revisit the well-studied problem of differentially private empirical risk minimization (ERM). We show that for unconstrained convex generalized linear models (GLMs), one can obtain an excess empirical risk of $\tilde O\left(\sqrt{{\texttt{rank}}}/\epsilon n\right)$, where ${\texttt{rank}}$ is the rank of the feature matrix in the GLM problem, $n$ is the number of data samples, and $\epsilon$ is the privacy parameter. This bound is attained via differentially private gradient descent (DP-GD). Furthermore, via the first lower bound for unconstrained private ERM, we show that our upper bound is tight. In sharp contrast to the constrained ERM setting, there is no dependence on the dimensionality of the ambient model space ($p$). (Notice that ${\texttt{rank}}\leq \min\{n, p\}$.) Besides, we obtain an analogous excess population risk bound which depends on ${\texttt{rank}}$ instead of $p$. For the smooth non-convex GLM setting (i.e., where the objective function is non-convex but preserves the GLM structure), we further show that DP-GD attains a dimension-independent convergence of $\tilde O\left(\sqrt{{\texttt{rank}}}/\epsilon n\right)$ to a first-order-stationary-point of the underlying objective. Finally, we show that for convex GLMs, a variant of DP-GD commonly used in practice (which involves clipping the individual gradients) also exhibits the same dimension-independent convergence to the minimum of a well-defined objective. To that end, we provide a structural lemma that characterizes the effect of clipping on the optimization profile of DP-GD.
翻訳日:2022-11-22 13:13:04 公開日:2021-03-02
# 誤特定ガウス過程に対するmartingalesを用いた不確かさ定量化

Uncertainty quantification using martingales for misspecified Gaussian processes ( http://arxiv.org/abs/2006.07368v2 )

ライセンス: Link先を確認
Willie Neiswanger, Aaditya Ramdas(参考訳) 我々は,gaussian process (gps) に対する不確実性定量化に対処し,ベイズ最適化 (bo) に目を向ける。 GPは後続不確実帯に基づく探索が容易であるため、BOで広く使用されている。 しかし、この便利さは堅牢さのコストによってもたらされる:実際に遭遇する典型的な関数は、データサイエンティストの以前のものから引き出される可能性は低く、不確実性の推定は誤解され、結果として得られる探索は最適ではない。 GP/BO不確実性定量化に対する頻繁なアプローチを提案する。 GPフレームワークを作業モデルとして利用するが,事前の正確性を前提としない。 代わりに、martingale法を用いて未知関数に対する信頼シーケンス(cs)を構築する。 もし前者が正しければ、後部GPバンドは我々のCSより狭くなります。 それにもかかわらず、前者が間違っている場合、我々のCSは統計的に有効であり、BOのカバレッジと実用性の両方の観点から、標準GP法よりも経験的に優れている。 さらに、パワードポイトがモデル不特定性に対して堅牢性を提供することを示す。

We address uncertainty quantification for Gaussian processes (GPs) under misspecified priors, with an eye towards Bayesian Optimization (BO). GPs are widely used in BO because they easily enable exploration based on posterior uncertainty bands. However, this convenience comes at the cost of robustness: a typical function encountered in practice is unlikely to have been drawn from the data scientist's prior, in which case uncertainty estimates can be misleading, and the resulting exploration can be suboptimal. We present a frequentist approach to GP/BO uncertainty quantification. We utilize the GP framework as a working model, but do not assume correctness of the prior. We instead construct a confidence sequence (CS) for the unknown function using martingale techniques. There is a necessary cost to achieving robustness: if the prior was correct, posterior GP bands are narrower than our CS. Nevertheless, when the prior is wrong, our CS is statistically valid and empirically outperforms standard GP methods, in terms of both coverage and utility for BO. Additionally, we demonstrate that powered likelihoods provide robustness against model misspecification.
翻訳日:2022-11-22 03:51:44 公開日:2021-03-02
# 不圧縮流体力学をスクラッチから学ぶ -- 一般化した高速で微分可能な流体モデルへ-

Learning Incompressible Fluid Dynamics from Scratch -- Towards Fast, Differentiable Fluid Models that Generalize ( http://arxiv.org/abs/2006.08762v3 )

ライセンス: Link先を確認
Nils Wandel, Michael Weinmann, Reinhard Klein(参考訳) 高速で安定な流体シミュレーションは、コンピュータ画像から研究・開発におけるコンピュータ支援設計まで、アプリケーションにとって必須の前提条件である。 しかし、非圧縮性流体の偏微分方程式の解法は難しい課題であり、従来の数値近似スキームは計算コストが高い。 最近のディープラーニングベースのアプローチは、大きなスピードアップを約束しているが、新しい流体ドメインに一般化せず、トレーニングのために流体シミュレーションデータを必要としたり、流体シミュレーションの主要部分を従来の方法にアウトソースする複雑なパイプラインに依存する。 本研究では,新しい流体領域に一般化し,流体シミュレーションデータを必要とせず,畳み込みニューラルネットワークを用いて,時間点tから時間t+dtまでの流体状態を1回のフォワードパスでマッピングする,新しい物理訓練手法を提案する。 これにより、パイプラインのトレーニングと神経流体モデルの評価が簡単になる。 トレーニング後、このフレームワークは高速流体シミュレーションが可能なモデルを生成し、Magnus効果やKarman vortex Streetといった様々な流体現象を処理できる。 トレーニングされたモデルの速度と一般化能力を示すインタラクティブなリアルタイムデモを示す。 さらに、トレーニングされたニューラルネットワークは、流体シミュレーションを時間内に前進させるための異なる更新ステップを提供するため、効率的な微分可能な流体解法である。 我々はこの事実を概念実証最適制御実験で活用する。 我々のモデルは計算速度と精度の点で,最近の微分可能流体ソルバを著しく上回っている。

Fast and stable fluid simulations are an essential prerequisite for applications ranging from computer-generated imagery to computer-aided design in research and development. However, solving the partial differential equations of incompressible fluids is a challenging task and traditional numerical approximation schemes come at high computational costs. Recent deep learning based approaches promise vast speed-ups but do not generalize to new fluid domains, require fluid simulation data for training, or rely on complex pipelines that outsource major parts of the fluid simulation to traditional methods. In this work, we propose a novel physics-constrained training approach that generalizes to new fluid domains, requires no fluid simulation data, and allows convolutional neural networks to map a fluid state from time-point t to a subsequent state at time t + dt in a single forward pass. This simplifies the pipeline to train and evaluate neural fluid models. After training, the framework yields models that are capable of fast fluid simulations and can handle various fluid phenomena including the Magnus effect and Karman vortex streets. We present an interactive real-time demo to show the speed and generalization capabilities of our trained models. Moreover, the trained neural networks are efficient differentiable fluid solvers as they offer a differentiable update step to advance the fluid simulation in time. We exploit this fact in a proof-of-concept optimal control experiment. Our models significantly outperform a recent differentiable fluid solver in terms of computational speed and accuracy.
翻訳日:2022-11-21 03:23:44 公開日:2021-03-02
# グラフ学習のためのWasserstein埋め込み

Wasserstein Embedding for Graph Learning ( http://arxiv.org/abs/2006.09430v2 )

ライセンス: Link先を確認
Soheil Kolouri, Navid Naderializadeh, Gustavo K. Rohde, Heiko Hoffmann(参考訳) 本稿では,様々な機械学習モデルをグラフレベルの予測タスクに適用可能なベクトル空間にグラフ全体を組み込むための新しい高速フレームワークである,waserstein embedded for graph learning (wegl)を提案する。 グラフ間の類似性をノード埋め込み分布間の類似性の関数として定義する上で,新たな知見を活用する。 具体的には、異なるグラフのノード埋め込み間の相似性を測定するためにwasserstein距離を用いる。 先行研究とは異なり,グラフ間距離のペアワイズ計算を回避し,グラフ数における二次から線形までの計算複雑性を低減する。 WEGLは参照分布から各ノードの埋め込みまでのMongeマップを計算し、これらのマップに基づいてグラフの固定サイズのベクトル表現を生成する。 我々は,様々なベンチマークグラフ属性予測タスクにおける新しいグラフ埋め込み手法を評価し,計算効率に優れながら最先端の分類性能を示す。 コードはhttps://github.com/navid-naderi/weglで入手できる。

We present Wasserstein Embedding for Graph Learning (WEGL), a novel and fast framework for embedding entire graphs in a vector space, in which various machine learning models are applicable for graph-level prediction tasks. We leverage new insights on defining similarity between graphs as a function of the similarity between their node embedding distributions. Specifically, we use the Wasserstein distance to measure the dissimilarity between node embeddings of different graphs. Unlike prior work, we avoid pairwise calculation of distances between graphs and reduce the computational complexity from quadratic to linear in the number of graphs. WEGL calculates Monge maps from a reference distribution to each node embedding and, based on these maps, creates a fixed-sized vector representation of the graph. We evaluate our new graph embedding approach on various benchmark graph-property prediction tasks, showing state-of-the-art classification performance while having superior computational efficiency. The code is available at https://github.com/navid-naderi/WEGL.
翻訳日:2022-11-20 19:35:51 公開日:2021-03-02
# 学習潜在構造を有する変分オートエンコーダ

Variational Autoencoder with Learned Latent Structure ( http://arxiv.org/abs/2006.10597v2 )

ライセンス: Link先を確認
Marissa C. Connor, Gregory H. Canal, Christopher J. Rozell(参考訳) 多様体仮説は、高次元のデータは低次元の非線形多様体の上または近くに横たわるものとしてモデル化できるというものである。 変分オートエンコーダ(vaes)はこの多様体を低次元の潜在ベクトルから高次元のデータへの写像を学習し、特定の事前分布を用いて潜在空間の全体構造を奨励することで近似する。 この前者は真のデータ多様体の構造と一致しない場合、データのより正確なモデルにつながる可能性がある。 このミスマッチを解決するために,学習可能な多様体モデルをVOEの潜時空間に組み込んだ学習潜在構造付き変分オートエンコーダ(VAELLS)を導入する。 これにより、データから非線形多様体構造を学習し、その構造を用いて潜在空間の先行を定義することができる。 潜在多様体モデルの積分は、先行がデータに十分に整合していることを保証するだけでなく、潜在空間における生成的変換パスを定義し、各クラスの例から生じる変換を持つクラス多様体を記述することもできる。 我々は、既知の潜在構造を持つ実例でモデルを検証し、実世界のデータセット上でその能力を実証する。

The manifold hypothesis states that high-dimensional data can be modeled as lying on or near a low-dimensional, nonlinear manifold. Variational Autoencoders (VAEs) approximate this manifold by learning mappings from low-dimensional latent vectors to high-dimensional data while encouraging a global structure in the latent space through the use of a specified prior distribution. When this prior does not match the structure of the true data manifold, it can lead to a less accurate model of the data. To resolve this mismatch, we introduce the Variational Autoencoder with Learned Latent Structure (VAELLS) which incorporates a learnable manifold model into the latent space of a VAE. This enables us to learn the nonlinear manifold structure from the data and use that structure to define a prior in the latent space. The integration of a latent manifold model not only ensures that our prior is well-matched to the data, but also allows us to define generative transformation paths in the latent space and describe class manifolds with transformations stemming from examples of each class. We validate our model on examples with known latent structure and also demonstrate its capabilities on a real-world dataset.
翻訳日:2022-11-19 12:47:57 公開日:2021-03-02
# グラフ畳み込みネットワークとグラフ正規化PCAの接続

Connecting Graph Convolutional Networks and Graph-Regularized PCA ( http://arxiv.org/abs/2006.12294v2 )

ライセンス: Link先を確認
Lingxiao Zhao, Leman Akoglu(参考訳) GCNモデルのグラフ畳み込み演算子は、もともとスペクトルグラフ畳み込みの局所化一階近似から動機付けられたものである。 この研究は、グラフ畳み込みとグラフ正規化PCA(GPCA)の間の \textit{mathematical connection を確立するという異なる見解に基づいている。 この接続に基づいて、グラフ畳み込み層を積み重ねたGCNアーキテクチャは、重ねたGPCAと密接な関係を持つ。 GPCA と 1 層あるいは 2 層 MLP の組み合わせによる \textit{unsupervised} 埋め込みは,Open Graph Benchmark \footnote{\url{https://ogb.stanford.edu/}} を含む5つのデータセットにわたる半教師付きノード分類タスクにおいて,GCN と同じような,あるいはそれ以上のパフォーマンスを実現することを実証的に実証した。 これはGCNの長所がグラフベースの正規化によって駆動されることを示唆している。 さらに、GPCAを教師付き設定に拡張し、同じラベルのノード間の"ゴースト"エッジで拡張されたグラフ上でGPCAと等価であることを示す。 最後に,GPCAを積み重ねた効果的な初期化戦略を設計し,GCNの収束を高速化し,多数の層で堅牢な性能を実現することを目的とした。 特に、提案された初期化は汎用的であり、他のGNNにも適用される。

Graph convolution operator of the GCN model is originally motivated from a localized first-order approximation of spectral graph convolutions. This work stands on a different view; establishing a \textit{mathematical connection between graph convolution and graph-regularized PCA} (GPCA). Based on this connection, GCN architecture, shaped by stacking graph convolution layers, shares a close relationship with stacking GPCA. We empirically demonstrate that the \textit{unsupervised} embeddings by GPCA paired with a 1- or 2-layer MLP achieves similar or even better performance than GCN on semi-supervised node classification tasks across five datasets including Open Graph Benchmark \footnote{\url{https://ogb.stanford.edu/}}. This suggests that the prowess of GCN is driven by graph based regularization. In addition, we extend GPCA to the (semi-)supervised setting and show that it is equivalent to GPCA on a graph extended with "ghost" edges between nodes of the same label. Finally, we capitalize on the discovered relationship to design an effective initialization strategy based on stacking GPCA, enabling GCN to converge faster and achieve robust performance at large number of layers. Notably, the proposed initialization is general-purpose and applies to other GNNs.
翻訳日:2022-11-18 05:03:39 公開日:2021-03-02
# 神経細胞オートマトン多様体

Neural Cellular Automata Manifold ( http://arxiv.org/abs/2006.12155v3 )

ライセンス: Link先を確認
Alejandro Hernandez Ruiz, Armand Vilalta, Francesc Moreno-Noguer(参考訳) ごく最近、ニューラルセルラーオートマタ (NCA) がディープネットワークで形態形成過程をシミュレートするために提案されている。 NCAは、固定された1ピクセルからイメージを成長させることを学ぶ。 本研究では,NCAのニューラルネットワーク(NN)アーキテクチャをより大きなNNにカプセル化可能であることを示す。 これにより、 nca の多様体を符号化し、それぞれ異なる画像を生成することができる新しいモデルを提案することができる。 そこで我々は,一般化能力を示すCAの埋め込み空間を効果的に学習している。 エンコーダアーキテクチャ内で動的畳み込みを導入することで,エンコーダとセル環境情報という2つの異なる情報ソースに初めて結合する。 生物学的には、我々のアプローチは転写因子の役割を担い、形態形成の直前に起こる細胞分化を促進する特定のタンパク質への遺伝子マッピングを調節する。 我々は、合成絵文字のデータセットと、CIFAR10の実際の画像を用いて、我々のアプローチを徹底的に評価した。 本モデルでは,画像生成以外の幅広い問題に適用可能な汎用ネットワークを導入する。

Very recently, the Neural Cellular Automata (NCA) has been proposed to simulate the morphogenesis process with deep networks. NCA learns to grow an image starting from a fixed single pixel. In this work, we show that the neural network (NN) architecture of the NCA can be encapsulated in a larger NN. This allows us to propose a new model that encodes a manifold of NCA, each of them capable of generating a distinct image. Therefore, we are effectively learning an embedding space of CA, which shows generalization capabilities. We accomplish this by introducing dynamic convolutions inside an Auto-Encoder architecture, for the first time used to join two different sources of information, the encoding and cells environment information. In biological terms, our approach would play the role of the transcription factors, modulating the mapping of genes into specific proteins that drive cellular differentiation, which occurs right before the morphogenesis. We thoroughly evaluate our approach in a dataset of synthetic emojis and also in real images of CIFAR10. Our model introduces a general-purpose network, which can be used in a broad range of problems beyond image generation.
翻訳日:2022-11-18 04:19:06 公開日:2021-03-02
# 機械学習におけるサブモジュール型コンビネーション情報対策

Submodular Combinatorial Information Measures with Applications in Machine Learning ( http://arxiv.org/abs/2006.15412v6 )

ライセンス: Link先を確認
Rishabh Iyer and Ninad Khargonkar and Jeff Bilmes and Himanshu Asnani(参考訳) エントロピーや相互情報のような情報理論の量は、機械学習で多くの用途を見出した。 確率変数の集合上のエントロピーは部分モジュラーであるため、これらのエントロピー量と部分モジュラリティの間に強い関係があることはよく知られている。 本稿では,独立性,(条件)エントロピー,(条件)相互情報,および(必ずしもランダムではない)変数の集合上で定義された総相関を一般化する組合せ情報尺度について検討する。 これらの測度は、エントロピーを厳密に一般化する部分モジュラー関数を介して全てパラメータ化されるので、対応するエントロピー測度を厳密に一般化する。 批判的に言えば、一般にエントロピー的相互情報とは異なり、三階偏微分が非負性性を満たす部分モジュラ函数の大規模なクラスに対して、部分モジュラー相互情報は一方の引数において実際に部分モジュラーであることが示される。 これには、施設の位置やセットカバー機能など、実用上便利なケースがいくつか含まれている。 本研究では,これらの部分モジュラー情報量と,確率的カバレッジ,グラフカット,飽和カバレッジ関数の具体的インスタンス化について検討し,それらすべてが数学的に直感的で実用的な表現であることを示す。 アプリケーションに関しては、サブモジュラー(条件付き)相互情報の最大化と、相互情報ベース、クエリベース、プライバシ保存要約などの問題とを結びつけ、マルチセットサブモジュラー相互情報の最適化をクラスタリングとロバストパーティショニングに結びつける。

Information-theoretic quantities like entropy and mutual information have found numerous uses in machine learning. It is well known that there is a strong connection between these entropic quantities and submodularity since entropy over a set of random variables is submodular. In this paper, we study combinatorial information measures that generalize independence, (conditional) entropy, (conditional) mutual information, and total correlation defined over sets of (not necessarily random) variables. These measures strictly generalize the corresponding entropic measures since they are all parameterized via submodular functions that themselves strictly generalize entropy. Critically, we show that, unlike entropic mutual information in general, the submodular mutual information is actually submodular in one argument, holding the other fixed, for a large class of submodular functions whose third-order partial derivatives satisfy a non-negativity property. This turns out to include a number of practically useful cases such as the facility location and set-cover functions. We study specific instantiations of the submodular information measures on these, as well as the probabilistic coverage, graph-cut, and saturated coverage functions, and see that they all have mathematically intuitive and practically useful expressions. Regarding applications, we connect the maximization of submodular (conditional) mutual information to problems such as mutual-information-based, query-based, and privacy-preserving summarization -- and we connect optimizing the multi-set submodular mutual information to clustering and robust partitioning.
翻訳日:2022-11-16 07:51:58 公開日:2021-03-02
# mgsvf: クラスインクリメンタル学習のための多粒度スロー対高速フレームワーク

MgSvF: Multi-Grained Slow vs. Fast Framework for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2006.15524v3 )

ライセンス: Link先を確認
Hanbin Zhao, Yongjian Fu, Mintong Kang, Qi Tian, Fei Wu, Xi Li(参考訳) 難題として、FSCIL(英語版)は課題の連続を継続的に学習し、古い知識の忘れが遅いことと新しい知識への適応が速いというジレンマに直面している。 本稿では,この「遅い対速い」(SvF)ジレンマに集中して,どの知識コンポーネントを遅い方法で,あるいは速い方法で更新すべきかを判断し,古知識保存と新知識適応のバランスをとる。 本研究では,SvFジレンマを空間内(同じ特徴空間内)と空間間(異なる特徴空間間)の2つの異なる粒子から処理する多粒SvF学習戦略を提案する。 提案手法は空間内svf能力を高めるための新しい周波数認識正規化を設計、一方で空間間svf学習性能を向上させるために新しい特徴空間合成操作を開発する。 マルチグラデーションSvF学習戦略により,本手法は最先端の手法よりも大きなマージンで優れる。

As a challenging problem, few-shot class-incremental learning (FSCIL) continually learns a sequence of tasks, confronting the dilemma between slow forgetting of old knowledge and fast adaptation to new knowledge. In this paper, we concentrate on this "slow vs. fast" (SvF) dilemma to determine which knowledge components to be updated in a slow fashion or a fast fashion, and thereby balance old-knowledge preservation and new-knowledge adaptation. We propose a multi-grained SvF learning strategy to cope with the SvF dilemma from two different grains: intra-space (within the same feature space) and inter-space (between two different feature spaces). The proposed strategy designs a novel frequency-aware regularization to boost the intra-space SvF capability, and meanwhile develops a new feature space composition operation to enhance the inter-space SvF learning performance. With the multi-grained SvF learning strategy, our method outperforms the state-of-the-art approaches by a large margin.
翻訳日:2022-11-16 02:14:03 公開日:2021-03-02
# PathGAN:Attentive Generative Adversarial Networkによるローカルパス計画

PathGAN: Local Path Planning with Attentive Generative Adversarial Networks ( http://arxiv.org/abs/2007.03877v2 )

ライセンス: Link先を確認
Dooseop Choi, Seung-jun Han, Kyoungwook Min, Jeongdan Choi(参考訳) 高精細マップを使わずに自動運転を実現するため,自走車のための自走車中心画像から複数の可視経路を生成できるモデルを提案する。 生成モデルは特徴抽出ネットワーク(FEN)と経路生成ネットワーク(PGN)の2つのニューラルネットワークからなる。 FENはエゴ中心画像から有意義な特徴を抽出する一方、PGNは運転意図と速度から特徴から複数の経路を生成する。 生成した経路が意図と一致しうることを保証するため,注意識別器を導入し,生成的対向ネットワークの枠組みの下でPGNで学習する。 また,経路内の位置と位置内に隠された意図との間の相互作用モデルを作成し,その相互作用モデルを反映した新しいPGNアーキテクチャを設計し,生成した経路の精度と多様性を向上させる。 最後に、記録されたセンサデータを個別のハイレベルな駆動動作にラベル付けした自律運転用データセットであるETRIDrivingを紹介し、精度と多様性の観点から提案したETRIDrivingの最先端性能を示す。

To achieve autonomous driving without high-definition maps, we present a model capable of generating multiple plausible paths from egocentric images for autonomous vehicles. Our generative model comprises two neural networks: the feature extraction network (FEN) and path generation network (PGN). The FEN extracts meaningful features from an egocentric image, whereas the PGN generates multiple paths from the features, given a driving intention and speed. To ensure that the paths generated are plausible and consistent with the intention, we introduce an attentive discriminator and train it with the PGN under generative adversarial networks framework. We also devise an interaction model between the positions in the paths and the intentions hidden in the positions and design a novel PGN architecture that reflects the interaction model, resulting in the improvement of the accuracy and diversity of the generated paths. Finally, we introduce ETRIDriving, a dataset for autonomous driving in which the recorded sensor data are labeled with discrete high-level driving actions, and demonstrate the state-of-the-art performance of the proposed model on ETRIDriving in terms of accuracy and diversity.
翻訳日:2022-11-12 13:15:39 公開日:2021-03-02
# マルチモーダルシャッフル変換器によるビデオ対話のための動的グラフ表現学習

Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers ( http://arxiv.org/abs/2007.03848v2 )

ライセンス: Link先を確認
Shijie Geng, Peng Gao, Moitreya Chatterjee, Chiori Hori, Jonathan Le Roux, Yongfeng Zhang, Hongsheng Li, Anoop Cherian(参考訳) 音声視覚シーン認識ダイアログ(AVSD)タスクは、入力ビデオ、関連するオーディオ、および短いキャプションが与えられた場合、エージェントが音声視覚コンテンツについて人間と質問応答ダイアログに振りかける必要がある。 このタスクは、複数の人間と機械の相互作用に影響を及ぼす可能性のある、多モーダルな表現学習と推論のシナリオに挑戦する。 この課題を解決するために,トランスフォーマーモジュールの列からなる意味制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを導入する。 提案するTransformer変種は,マルチヘッド出力にシャッフル方式を用いて,より優れた正規化を示す。 本稿では,フレーム毎に時空間的グラフ表現を生成するフレーム内推論層と,時間的手がかりをキャプチャするフレーム間アグリゲーションモジュールとからなる,新たな動的シーングラフ表現学習パイプラインを提案する。 パイプライン全体がエンドツーエンドでトレーニングされています。 我々は,AVSDデータセットのベンチマーク実験を行い,回答生成と選択タスクについて述べる。 以上の結果から,すべての評価指標において最先端のパフォーマンスを示す。

Given an input video, its associated audio, and a brief caption, the audio-visual scene aware dialog (AVSD) task requires an agent to indulge in a question-answer dialog with a human about the audio-visual content. This task thus poses a challenging multi-modal representation learning and reasoning scenario, advancements into which could influence several human-machine interaction applications. To solve this task, we introduce a semantics-controlled multi-modal shuffled Transformer reasoning framework, consisting of a sequence of Transformer modules, each taking a modality as input and producing representations conditioned on the input question. Our proposed Transformer variant uses a shuffling scheme on their multi-head outputs, demonstrating better regularization. To encode fine-grained visual information, we present a novel dynamic scene graph representation learning pipeline that consists of an intra-frame reasoning layer producing spatio-semantic graph representations for every frame, and an inter-frame aggregation module capturing temporal cues. Our entire pipeline is trained end-to-end. We present experiments on the benchmark AVSD dataset, both on answer generation and selection tasks. Our results demonstrate state-of-the-art performances on all evaluation metrics.
翻訳日:2022-11-12 09:52:31 公開日:2021-03-02
# カテゴリー階層ソフト制約を持つ専門家の敵対的混合

Adversarial Mixture Of Experts with Category Hierarchy Soft Constraint ( http://arxiv.org/abs/2007.12349v3 )

ライセンス: Link先を確認
Zhuojian Xiao, Yunjiang jiang, Guoyu Tang, Lin Liu, Sulong Xu, Yun Xiao, Weipeng Yan(参考訳) 商品検索は、人々がeコマースウェブサイトで買い物のニーズを満たす最も一般的な方法だ。 製品は通常、"Clothing"や"Electronics"といった幅広い分類のタグの1つと、"Refrigerator"や"TV"といった粒度の細かいカテゴリを"Electronics"の下にアノテートする。 これらのタグはクエリカテゴリの階層を構築するために使用される。 価格やブランドの人気といった特徴の分布は、クエリカテゴリによって大きく異なる。 さらに、CTR/CVR予測の目的のための特徴的重要性は、あるカテゴリごとに異なる。 本研究では,各問合せカテゴリを専門とするランキングモデルを学ぶために,エキスパート(moe)フレームワークの混合を利用する。 特に,我々のゲートネットワークは,ユーザクエリから抽出したカテゴリIDのみに依存している。 古典的なmoeのピックエキスパートタワーは、それぞれの入力例に対して自発的に選択するが、専門家とクエリカテゴリ間のより明示的で透明な接続を確立するための2つのテクニックを探索する。 専門分野の専門家の差別化を支援するため,専門家のアウトプットに逆正則化の形式を導入し,相互に意見の相違を強いる。 結果として、それぞれの予測問題を互いにコピーするのではなく、異なる角度からアプローチする傾向にある。 これは異なるカテゴリのゲート出力ベクトルのより強力なクラスタリング効果によって検証される。 さらに、カテゴリ階層に基づくソフトゲーティング制約が課せられ、同様の製品が類似のゲート値を選択するのに役立つ。 同様の専門家を 共有する可能性が高くなるのです これにより、小さな兄弟カテゴリ間でトレーニングデータを集約することで、データの不足を克服できる。

Product search is the most common way for people to satisfy their shopping needs on e-commerce websites. Products are typically annotated with one of several broad categorical tags, such as "Clothing" or "Electronics", as well as finer-grained categories like "Refrigerator" or "TV", both under "Electronics". These tags are used to construct a hierarchy of query categories. Distributions of features such as price and brand popularity vary wildly across query categories. In addition, feature importance for the purpose of CTR/CVR predictions differs from one category to another. In this work, we leverage the Mixture of Expert (MoE) framework to learn a ranking model that specializes for each query category. In particular, our gate network relies solely on the category ids extracted from the user query. While classical MoE's pick expert towers spontaneously for each input example, we explore two techniques to establish more explicit and transparent connections between the experts and query categories. To help differentiate experts on their domain specialties, we introduce a form of adversarial regularization among the expert outputs, forcing them to disagree with one another. As a result, they tend to approach each prediction problem from different angles, rather than copying one another. This is validated by a much stronger clustering effect of the gate output vectors under different categories. In addition, soft gating constraints based on the categorical hierarchy are imposed to help similar products choose similar gate values. and make them more likely to share similar experts. This allows aggregation of training data among smaller sibling categories to overcome data scarcity.
翻訳日:2022-11-07 06:04:19 公開日:2021-03-02
# トランスエンコーダを用いたクロスモーダル検索のための細粒度視覚テキストアライメント

Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders ( http://arxiv.org/abs/2008.05231v2 )

ライセンス: Link先を確認
Nicola Messina, Giuseppe Amato, Andrea Esuli, Fabrizio Falchi, Claudio Gennaro, St\'ephane Marchand-Maillet(参考訳) ディープラーニングベースのビジュアルテキスト処理システムの進化にもかかわらず、正確なマルチモーダルマッチングは難しい課題である。 本研究では,単語領域のアライメントに基づく画像-文マッチングによるクロスモーダル検索の課題を,グローバルな画像-文レベルでのみ監視することで解決する。 具体的には,Transformer Encoder Reasoning and Alignment Network (TERAN) と呼ばれる新しい手法を提案する。 TERANは、画像と文の基本的な構成要素、すなわち画像領域と単語の微妙な一致を強制し、両方のモダリティの情報豊かさを維持する。 TERANは、MS-COCOおよびFlickr30kデータセット上の画像検索タスクの最先端結果を取得する。 さらに,MS-COCOでは,文検索タスクに対する現在のアプローチよりも優れている。 スケーラブルなクロスモーダル情報検索に焦点を当てたTERANは、ビジュアルおよびテキストデータパイプラインを適切に分離するように設計されている。 クロスアテンションリンクは、大規模検索システムにおいて、オンライン検索に必要な視覚的およびテキスト的特徴とオフラインインデックス化ステップを別々に抽出する機会を無効にする。 この点において、TERANはロス計算の直前の最終的なアライメントフェーズにおいてのみ、2つのドメインからの情報をマージする。 TEANが生成する微粒なアライメントは,大規模なクロスモーダル情報検索のための効率的かつ効率的な手法の研究への道を開いたと論じる。 本手法の有効性を関連する最先端手法と比較する。 MS-COCO 1Kテストセットでは,画像の5.7%と3.5%の改善とRecall@1メトリックの文検索タスクが得られた。 実験に使われるコードはGitHubでhttps://github.com/mesnico/TERAN.comで公開されている。

Despite the evolution of deep-learning-based visual-textual processing systems, precise multi-modal matching remains a challenging task. In this work, we tackle the task of cross-modal retrieval through image-sentence matching based on word-region alignments, using supervision only at the global image-sentence level. Specifically, we present a novel approach called Transformer Encoder Reasoning and Alignment Network (TERAN). TERAN enforces a fine-grained match between the underlying components of images and sentences, i.e., image regions and words, respectively, in order to preserve the informative richness of both modalities. TERAN obtains state-of-the-art results on the image retrieval task on both MS-COCO and Flickr30k datasets. Moreover, on MS-COCO, it also outperforms current approaches on the sentence retrieval task. Focusing on scalable cross-modal information retrieval, TERAN is designed to keep the visual and textual data pipelines well separated. Cross-attention links invalidate any chance to separately extract visual and textual features needed for the online search and the offline indexing steps in large-scale retrieval systems. In this respect, TERAN merges the information from the two domains only during the final alignment phase, immediately before the loss computation. We argue that the fine-grained alignments produced by TERAN pave the way towards the research for effective and efficient methods for large-scale cross-modal information retrieval. We compare the effectiveness of our approach against relevant state-of-the-art methods. On the MS-COCO 1K test set, we obtain an improvement of 5.7% and 3.5% respectively on the image and the sentence retrieval tasks on the Recall@1 metric. The code used for the experiments is publicly available on GitHub at https://github.com/mesnico/TERAN.
翻訳日:2022-10-31 05:32:30 公開日:2021-03-02
# 弱ラベルビデオを用いた痛覚強度推定の順序回帰のための深部領域適応

Deep Domain Adaptation for Ordinal Regression of Pain Intensity Estimation Using Weakly-Labelled Videos ( http://arxiv.org/abs/2008.06392v2 )

ライセンス: Link先を確認
Gnana Praveen R, Eric Granger, Patrick Cardinal(参考訳) ビデオで捉えた表情から痛みの強さを推定することは、医療応用にとって大きな可能性を秘めている。 表情の主観的変化や操作的捕捉条件に関する課題から,表情認識のための最先端dlモデルの精度は低下する可能性がある。 ドメイン適応は、様々なソースとターゲットドメインをまたいだビデオデータ間で発生するドメインシフトの問題を軽減するために広く研究されてきた。 さらに,映像の収集・注釈作業や,隣接する強度レベルのあいまいさによる主観的偏見から,弱い教師付き学習が注目されている。 最先端のWSLモデルは典型的には回帰問題として定式化され、痛み強度レベルと時間的コヒーレンスの間の順序関係は利用されない。 本稿では, 順序回帰を伴う弱教師付きDAのための新しいDLモデルを提案する。 WSDA-ORモデルは、ターゲットシーケンスに割り当てられた強度レベル間の順序関係を強制し、複数の関連するフレームをシーケンスレベルラベルに関連付ける。 特に、複数のインスタンス学習を、対象領域から弱い順序配列レベルラベルを効率的に表現するためにソフトガウシアンラベルを使用する深層逆daと統合することにより、判別的およびドメイン不変な特徴表現を学習する。 提案手法は,完全ラベル付きソースドメインデータとしてrecola video dataset,弱いラベル付きターゲットドメインデータとしてunbc-mcmaster shoulder pain video datasetを用いて検証した。 また,BIOVIDおよび疲労データセット上でWSDA-ORを検証し,シーケンスレベルの推定を行った。

Estimation of pain intensity from facial expressions captured in videos has an immense potential for health care applications. Given the challenges related to subjective variations of facial expressions, and operational capture conditions, the accuracy of state-of-the-art DL models for recognizing facial expressions may decline. Domain adaptation has been widely explored to alleviate the problem of domain shifts that typically occur between video data captured across various source and target domains. Moreover, given the laborious task of collecting and annotating videos, and subjective bias due to ambiguity among adjacent intensity levels, weakly-supervised learning is gaining attention in such applications. State-of-the-art WSL models are typically formulated as regression problems, and do not leverage the ordinal relationship among pain intensity levels, nor temporal coherence of multiple consecutive frames. This paper introduces a new DL model for weakly-supervised DA with ordinal regression that can be adapted using target domain videos with coarse labels provided on a periodic basis. The WSDA-OR model enforces ordinal relationships among intensity levels assigned to target sequences, and associates multiple relevant frames to sequence-level labels. In particular, it learns discriminant and domain-invariant feature representations by integrating multiple instance learning with deep adversarial DA, where soft Gaussian labels are used to efficiently represent the weak ordinal sequence-level labels from target domain. The proposed approach was validated using RECOLA video dataset as fully-labeled source domain data, and UNBC-McMaster shoulder pain video dataset as weakly-labeled target domain data. We have also validated WSDA-OR on BIOVID and Fatigue datasets for sequence level estimation.
翻訳日:2022-10-30 23:42:00 公開日:2021-03-02
# 深層学習によるマイクロスリープエピソードの自動検出

Automatic detection of microsleep episodes with deep learning ( http://arxiv.org/abs/2009.03027v2 )

ライセンス: Link先を確認
Alexander Malafeev, Anneke Hertig-Godeschalk, David R. Schreier, Jelena Skorucak, Johannes Mathis, Peter Achermann(参考訳) 15秒未満の短い睡眠の断片は、マイクロスリープエピソード(mses)として定義され、しばしば主観的に眠気と知覚される。 主な特徴は脳波(eeg)の頻度の低下であり、標準的な基準に従ってn1睡眠期と類似している。 覚醒検査(MWT)の維持は、警戒を評価するために臨床現場でしばしば用いられる。 ほとんどの睡眠覚醒センターにおけるMWTのスコア付けは、古典的な睡眠の定義(30秒間)に限られており、MSEを定義する確立された基準が欠如しているために、MSEは考慮されていない。 我々は,機械学習によるMSEの自動検出,すなわち生の脳波とEOGデータを入力として深層学習を目的とした。 76例のMWTデータを解析した。 専門家は目覚ましさを視覚的に評価し、最近開発されたスコア基準mce、microsleep episode candidate (msec)、drowsiness episodes of drowsiness (ed) に従っている。 畳み込みニューラルネットワーク(cnns)とcnnとlong-short term memory(lstm)ネットワークを組み合わせたセグメンテーションアルゴリズムを実装した。 LSTMネットワーク(LSTM Network)は、過去のイベントのメモリを持ち、それらを考慮に入れたリカレントニューラルネットワークの一種である。 分類器の訓練には53例, 検証には12例, 検査には11例であった。 我々のアルゴリズムは、人間の専門家に近い性能を示した。 この検出はウェイクフルネスとMSEに非常に適しており、MSEcとEDには不十分であり、これらの境界線セグメントの試験間信頼性は低かった。 生の脳波とEOGデータに基づく深部神経ネットワークを用いたMSEを、人間の専門家に近い性能で確実に検出できるという原理の証明を提供する。 アルゴリズムのコード(https://github.com/alexander-malafeev/microsleep-detection )とデータ(https://zenodo.org/record/3251716 )が利用可能である。

Brief fragments of sleep shorter than 15 s are defined as microsleep episodes (MSEs), often subjectively perceived as sleepiness. Their main characteristic is a slowing in frequency in the electroencephalogram (EEG), similar to stage N1 sleep according to standard criteria. The maintenance of wakefulness test (MWT) is often used in a clinical setting to assess vigilance. Scoring of the MWT in most sleep-wake centers is limited to classical definition of sleep (30-s epochs), and MSEs are mostly not considered in the absence of established scoring criteria defining MSEs but also because of the laborious work. We aimed for automatic detection of MSEs with machine learning, i.e. with deep learning based on raw EEG and EOG data as input. We analyzed MWT data of 76 patients. Experts visually scored wakefulness, and according to recently developed scoring criteria MSEs, microsleep episode candidates (MSEc), and episodes of drowsiness (ED). We implemented segmentation algorithms based on convolutional neural networks (CNNs) and a combination of a CNN with a long-short term memory (LSTM) network. A LSTM network is a type of a recurrent neural network which has a memory for past events and takes them into account. Data of 53 patients were used for training of the classifiers, 12 for validation and 11 for testing. Our algorithms showed a good performance close to human experts. The detection was very good for wakefulness and MSEs and poor for MSEc and ED, similar to the low inter-expert reliability for these borderline segments. We provide a proof of principle that it is feasible to reliably detect MSEs with deep neuronal networks based on raw EEG and EOG data with a performance close to that of human experts. Code of algorithms ( https://github.com/alexander-malafeev/microsleep-detection ) and data ( https://zenodo.org/record/3251716 ) are available.
翻訳日:2022-10-21 02:39:47 公開日:2021-03-02
# ニューラルネットワークの補間方法:feedforwardからgraph neural networkへ

How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks ( http://arxiv.org/abs/2009.11848v5 )

ライセンス: Link先を確認
Keyulu Xu, Mozhi Zhang, Jingling Li, Simon S. Du, Ken-ichi Kawarabayashi, Stefanie Jegelka(参考訳) 勾配降下法によりトレーニングされたニューラルネットワーク、すなわちトレーニング分布の支持の外で学習されるものについて検討する。 フィードフォワードニューラルネットワーク、すなわち多層パーセプトロン(MLP)は、特定の単純なタスクではうまく外挿しないが、グラフニューラルネットワーク(GNN) -MLPモジュールを備えた構造化ネットワークは、より複雑なタスクでいくつかの成功を収めている。 理論的説明に向けて、我々はMPPとGNNがよく外挿される条件を特定する。 まず、ReLU MLPが始点から任意の方向に沿った線型関数に素早く収束するという観測を定量化し、ReLU MLPがほとんどの非線形関数を外挿しないことを示す。 しかし、トレーニング分布が十分に"多様性"である場合には、線形目標関数を確実に学習することができる。 第二に、gnnの成功と限界を分析することに関連して、これらの結果は理論的および実証的な証拠を提供する仮説を示唆する: アルゴリズム的タスクを新しいデータ(例えば、より大きなグラフやエッジ重み)に外挿するgnnの成功は、アーキテクチャや特徴におけるタスク固有の非線形性の符号化に依存している。 我々の理論的解析は、過パラメータネットワークと神経接核の接続に基づいている。 経験的に、我々の理論は異なるトレーニング環境にまたがっている。

We study how neural networks trained by gradient descent extrapolate, i.e., what they learn outside the support of the training distribution. Previous works report mixed empirical results when extrapolating with neural networks: while feedforward neural networks, a.k.a. multilayer perceptrons (MLPs), do not extrapolate well in certain simple tasks, Graph Neural Networks (GNNs) -- structured networks with MLP modules -- have shown some success in more complex tasks. Working towards a theoretical explanation, we identify conditions under which MLPs and GNNs extrapolate well. First, we quantify the observation that ReLU MLPs quickly converge to linear functions along any direction from the origin, which implies that ReLU MLPs do not extrapolate most nonlinear functions. But, they can provably learn a linear target function when the training distribution is sufficiently "diverse". Second, in connection to analyzing the successes and limitations of GNNs, these results suggest a hypothesis for which we provide theoretical and empirical evidence: the success of GNNs in extrapolating algorithmic tasks to new data (e.g., larger graphs or edge weights) relies on encoding task-specific non-linearities in the architecture or features. Our theoretical analysis builds on a connection of over-parameterized networks to the neural tangent kernel. Empirically, our theory holds across different training settings.
翻訳日:2022-10-15 03:57:04 公開日:2021-03-02
# OR最適化のための初期クラスタ構築のための航空機クルースケジューリングの飛行接続予測

Flight-connection Prediction for Airline Crew Scheduling to Construct Initial Clusters for OR Optimizer ( http://arxiv.org/abs/2009.12501v2 )

ライセンス: Link先を確認
Yassine Yaakoubi, Fran\c{c}ois Soumis, Simon Lacoste-Julien(参考訳) そこで,本稿では,大規模航空会社における年間収益の増大を1%程度に抑えることを目的として,コラム生成に基づく大規模商用ソルバ(gencol)を,機械学習分類アルゴリズムを用いて初期化するケーススタディについて述べる。 模倣学習フレームワークの下では、乗組員の次の接続飛行を予測し、履歴データから訓練されたマルチクラス分類問題として構成し、高い精度(全体99.7%、難しいインスタンスでは82.5%)を達成する適応型ニューラルネットワークアプローチを設計することに焦点を当てる。 簡単なヒューリスティックスを用いて,genCOLソルバに供給可能な初期クルーペアリングクラスタを形成することにより,最大10倍の速度向上と最大0.2%のコスト削減を実現し,本手法の有用性を実証する。

We present a case study of using machine learning classification algorithms to initialize a large-scale commercial solver (GENCOL) based on column generation in the context of the airline crew pairing problem, where small savings of as little as 1% translate to increasing annual revenue by dozens of millions of dollars in a large airline. Under the imitation learning framework, we focus on the problem of predicting the next connecting flight of a crew, framed as a multiclass classification problem trained from historical data, and design an adapted neural network approach that achieves high accuracy (99.7% overall or 82.5% on harder instances). We demonstrate the usefulness of our approach by using simple heuristics to combine the flight-connection predictions to form initial crew-pairing clusters that can be fed in the GENCOL solver, yielding a 10x speed improvement and up to 0.2% cost saving.
翻訳日:2022-10-14 08:36:16 公開日:2021-03-02
# 細胞複合体ニューラルネットワーク

Cell Complex Neural Networks ( http://arxiv.org/abs/2010.00743v4 )

ライセンス: Link先を確認
Mustafa Hajij, Kyle Istvan, Ghada Zamzmi(参考訳) 細胞複合体は、細胞と呼ばれる単純なブロックから構築された位相空間である。 グラフ、単純複体、多面体錯体を一般化し、実用上重要な領域を形成する。 また、グラフやメッシュのような制限的な構造の複雑な関係を包含できる組合せ形式も提供する。 本稿では,セルコンプレックス上でニューラルネットワーク型計算を行うための汎用的・組合せ的・統一的な構成である \textbf{cell complexes neural networks (cxns) を提案する。 基底空間のトポロジーを考慮に入れて、グラフへのメッセージパッシングスキームを一般化したセル複合体上の細胞間メッセージパッシングスキームを導入する。 最後に、ユークリッド空間内の任意の錯体に対するセルの表現を学習できる統一セル複合体エンコーダ・デコーダフレームワークを提案する。 特に、セル複合体のオートエンコーダ構成は、特別な場合、node2vecの一般化である \textbf{cell2vec} をいかに与えるかを示す。

Cell complexes are topological spaces constructed from simple blocks called cells. They generalize graphs, simplicial complexes, and polyhedral complexes that form important domains for practical applications. They also provide a combinatorial formalism that allows the inclusion of complicated relationships of restrictive structures such as graphs and meshes. In this paper, we propose \textbf{Cell Complexes Neural Networks (CXNs)}, a general, combinatorial and unifying construction for performing neural network-type computations on cell complexes. We introduce an inter-cellular message passing scheme on cell complexes that takes the topology of the underlying space into account and generalizes message passing scheme to graphs. Finally, we introduce a unified cell complex encoder-decoder framework that enables learning representation of cells for a given complex inside the Euclidean spaces. In particular, we show how our cell complex autoencoder construction can give, in the special case \textbf{cell2vec}, a generalization for node2vec.
翻訳日:2022-10-12 00:32:43 公開日:2021-03-02
# 事前学習モデルにおける性相関の測定と低減

Measuring and Reducing Gendered Correlations in Pre-trained Models ( http://arxiv.org/abs/2010.06032v2 )

ライセンス: Link先を確認
Kellie Webster and Xuezhi Wang and Ian Tenney and Alex Beutel and Emily Pitler and Ellie Pavlick and Jilin Chen and Ed Chi and Slav Petrov(参考訳) 事前訓練されたモデルは自然言語理解に革命をもたらした。 しかし、研究者は、多くのアプリケーションで望ましくない人工物をエンコードできることを発見した。 このような相関関係を,事前学習モデルにおける意図しない相関の対処方法についてのケーススタディとして検討する。 我々はメトリクスを定義し、類似の精度を持つモデルが相関を非常に異なる速度でエンコードできることを明らかにする。 汎用手法を用いて相関を計測する方法を示し,様々な戦略のトレードオフを浮き彫りにする。 これらの結果から,(1)意図しない相関関係を慎重に評価し,(2)一見無害な構成の違いに留意し,(3)一般的な緩和に焦点を当てたロバストモデルのトレーニングを推奨する。

Pre-trained models have revolutionized natural language understanding. However, researchers have found they can encode artifacts undesired in many applications, such as professions correlating with one gender more than another. We explore such gendered correlations as a case study for how to address unintended correlations in pre-trained models. We define metrics and reveal that it is possible for models with similar accuracy to encode correlations at very different rates. We show how measured correlations can be reduced with general-purpose techniques, and highlight the trade offs different strategies have. With these results, we make recommendations for training robust models: (1) carefully evaluate unintended correlations, (2) be mindful of seemingly innocuous configuration differences, and (3) focus on general mitigations.
翻訳日:2022-10-08 07:09:02 公開日:2021-03-02
# 強化学習のための小型世界モデル

Smaller World Models for Reinforcement Learning ( http://arxiv.org/abs/2010.05767v2 )

ライセンス: Link先を確認
Jan Robine, Tobias Uelwer, Stefan Harmeling(参考訳) サンプル効率は強化学習の基本的な問題である。 モデルベースのアルゴリズムは、モデルで環境をシミュレートすることで、データのより良い利用を試みる。 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いた世界モデルのための新しいニューラルネットワークアーキテクチャを提案する。 モデルフリーPPOエージェントは、世界モデルからのシミュレーション体験に基づいて純粋に訓練される。 我々はKaiserらによって導入されたセットアップ(2020)を採用し、実際の環境と100Kのインタラクションしかできない。 本手法を36 atari 環境に適用し,その単純なアルゴリズムに匹敵する性能が得られた。

Sample efficiency remains a fundamental issue of reinforcement learning. Model-based algorithms try to make better use of data by simulating the environment with a model. We propose a new neural network architecture for world models based on a vector quantized-variational autoencoder (VQ-VAE) to encode observations and a convolutional LSTM to predict the next embedding indices. A model-free PPO agent is trained purely on simulated experience from the world model. We adopt the setup introduced by Kaiser et al. (2020), which only allows 100K interactions with the real environment. We apply our method on 36 Atari environments and show that we reach comparable performance to their SimPLe algorithm, while our model is significantly smaller.
翻訳日:2022-10-08 05:31:04 公開日:2021-03-02
# hiemによる効率的なロボットオブジェクト検索 - 内在的-extrinsic modelingによる階層的ポリシ学習

Efficient Robotic Object Search via HIEM: Hierarchical Policy Learning with Intrinsic-Extrinsic Modeling ( http://arxiv.org/abs/2010.08596v2 )

ライセンス: Link先を確認
Xin Ye and Yezhou Yang(参考訳) ロボットの自律的な動作を可能にすることで、深層強化学習はロボットの物体探索タスクに有望なアプローチとなるが、深層強化学習アプローチは、そのタスクの性質に乏しい報酬設定に苦しむことになる。 この課題に対処するために,本質的な報酬設定を用いた階層的・解釈可能なモデリングに基づく,オブジェクト探索タスクのための新しいポリシー学習パラダイムを提案する。 より具体的には、本質的な報酬サブゴールによって駆動されるプロキシ低レベルポリシーを通じて、環境を効率的に探索する。 効率的な探索体験からさらに階層的なポリシーを学び、高いレベルと低いレベルの両方のポリシーを最適化し、オブジェクト検索タスクをうまく実行するための極端な報酬目標に向かっています。 House3D環境下で行った実験は、我々のモデルで訓練されたロボットが、より最適かつ解釈可能な方法で物体探索タスクを実行できることを示す。

Despite the significant success at enabling robots with autonomous behaviors makes deep reinforcement learning a promising approach for robotic object search task, the deep reinforcement learning approach severely suffers from the nature sparse reward setting of the task. To tackle this challenge, we present a novel policy learning paradigm for the object search task, based on hierarchical and interpretable modeling with an intrinsic-extrinsic reward setting. More specifically, we explore the environment efficiently through a proxy low-level policy which is driven by the intrinsic rewarding sub-goals. We further learn our hierarchical policy from the efficient exploration experience where we optimize both of our high-level and low-level policies towards the extrinsic rewarding goal to perform the object search task well. Experiments conducted on the House3D environment validate and show that the robot, trained with our model, can perform the object search task in a more optimal and interpretable way.
翻訳日:2022-10-06 21:39:56 公開日:2021-03-02
# ポイントクラウドシーケンスからのパートモビリティの自己教師付き学習

Self-Supervised Learning of Part Mobility from Point Cloud Sequence ( http://arxiv.org/abs/2010.11735v2 )

ライセンス: Link先を確認
Yahao Shi, Xinyu Cao and Bin Zhou(参考訳) 部分移動解析は3次元物体の機能的理解を実現する上で重要な側面である。 3次元物体の連続的な部分運動から部分移動性を得るのは自然である。 本研究では,動的物体を表す点雲列から,動作部品のセグメント化と動作特性の予測を行う自己教師手法を提案する。 点雲列からの時空間情報を十分に活用するために、点雲を直接処理するのではなく、系列の連続フレーム間の相関を利用して軌道を生成する。 本稿では,その部分的な剛性運動とともに軌跡の特徴表現を学ぶために,PointRNNと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 動作部分分割, 動き軸予測, 動き範囲推定など, 様々なタスクにおける提案手法の評価を行った。 その結果,本手法は,合成データと実データの両方において,従来の手法よりも優れていた。 さらに,本手法は,新しいオブジェクトや見えないオブジェクトに一般化することができる。 事前の形状構造、事前の形状カテゴリー情報、形状方向を知る必要はないことを強調することが重要である。 私たちの知る限りでは、これは動的オブジェクトのポイントクラウドシーケンスから部分モビリティを抽出する、ディープラーニングに関する最初の研究です。

Part mobility analysis is a significant aspect required to achieve a functional understanding of 3D objects. It would be natural to obtain part mobility from the continuous part motion of 3D objects. In this study, we introduce a self-supervised method for segmenting motion parts and predicting their motion attributes from a point cloud sequence representing a dynamic object. To sufficiently utilize spatiotemporal information from the point cloud sequence, we generate trajectories by using correlations among successive frames of the sequence instead of directly processing the point clouds. We propose a novel neural network architecture called PointRNN to learn feature representations of trajectories along with their part rigid motions. We evaluate our method on various tasks including motion part segmentation, motion axis prediction and motion range estimation. The results demonstrate that our method outperforms previous techniques on both synthetic and real datasets. Moreover, our method has the ability to generalize to new and unseen objects. It is important to emphasize that it is not required to know any prior shape structure, prior shape category information, or shape orientation. To the best of our knowledge, this is the first study on deep learning to extract part mobility from point cloud sequence of a dynamic object.
翻訳日:2022-10-05 07:12:51 公開日:2021-03-02
# ブロックチェーン対応スマートコントラクトとリアリティキャプチャ技術を用いた建設決済自動化

Construction Payment Automation Using Blockchain-Enabled Smart Contracts and Reality Capture Technologies ( http://arxiv.org/abs/2010.15232v3 )

ライセンス: Link先を確認
Hesam Hamledari and Martin Fischer(参考訳) 本稿では,建設進捗支払いの自律的管理のためのスマートコントラクトベースのソリューションを提案する。 現実的なキャプチャ技術とビルディング情報モデリング(BIM)によって実現された、支払い(キャッシュフロー)と現場(製品フロー)の進捗評価のギャップを埋める。 このアプローチは、既存の支払いアプリケーションの集中型および非常に中間的なメカニズムへの依存を排除します。 構築進捗は、コンテンツアドレス可能なファイル共有を用いて分散して記憶され、オンチェーン支払い決済とリエン権利の転送を自動化するスマートコントラクトにブロードキャストされる。 この方法は、カメラ付き無人航空機 (uav) とレーザースキャナを備えた無人地上車両 (ugv) を用いて進捗監視を行う2つの商業建設プロジェクトで、7つの下請け業者への支払い処理にうまく使用された。 その結果,支払いの頻度,粒度,透明性が向上する可能性が示唆された。 この論文は、プロジェクト管理の意義に関する議論で締めくくられ、シングルトンステートマシンとしてのプロジェクトの新しいモデルを紹介している。

This paper presents a smart contract-based solution for autonomous administration of construction progress payments. It bridges the gap between payments (cash flow) and the progress assessments at job sites (product flow) enabled by reality capture technologies and building information modeling (BIM). The approach eliminates the reliance on the centralized and heavily intermediated mechanisms of existing payment applications. The construction progress is stored in a distributed manner using content addressable file sharing; it is broadcasted to a smart contract which automates the on-chain payment settlements and the transfer of lien rights. The method was successfully used for processing payments to 7 subcontractors in two commercial construction projects where progress monitoring was performed using a camera-equipped unmanned aerial vehicle (UAV) and an unmanned ground vehicle (UGV) equipped with a laser scanner. The results show promise for the method's potential for increasing the frequency, granularity, and transparency of payments. The paper is concluded with a discussion of implications for project management, introducing a new model of project as a singleton state machine.
翻訳日:2022-10-02 06:14:37 公開日:2021-03-02
# プログレッシブ音声トリガー検出:精度とレイテンシ

Progressive Voice Trigger Detection: Accuracy vs Latency ( http://arxiv.org/abs/2010.15446v2 )

ライセンス: Link先を確認
Siddharth Sigtia, John Bridle, Hywel Richards, Pascal Clark, Erik Marchi, Vineet Garg(参考訳) 仮想アシスタントのための音声トリガー検出アーキテクチャを提案する。 この作業の主なアイデアは、トリガーフレーズをすぐに追従する言葉で情報を活用することである。 まず、検出されたトリガーフレーズの後に、より多くのオーディオコンテキストを含めることで、より正確な判断が得られます。 しかし、毎回より多くのオーディオを聞くのを待つと、レイテンシが増加する。 プログレッシブ音声トリガー検出により、明確なトリガー候補を迅速に受け入れることで、レイテンシと精度のトレードオフが可能になります。 2段階のアーキテクチャを用いて,検出された真のトリガの3%のみを遅延させることで,遅延の無視可能な増加のみを伴いながら,偽拒絶率の66%の相対的改善が得られることを示した。

We present an architecture for voice trigger detection for virtual assistants. The main idea in this work is to exploit information in words that immediately follow the trigger phrase. We first demonstrate that by including more audio context after a detected trigger phrase, we can indeed get a more accurate decision. However, waiting to listen to more audio each time incurs a latency increase. Progressive Voice Trigger Detection allows us to trade-off latency and accuracy by accepting clear trigger candidates quickly, but waiting for more context to decide whether to accept more marginal examples. Using a two-stage architecture, we show that by delaying the decision for just 3% of detected true triggers in the test set, we are able to obtain a relative improvement of 66% in false rejection rate, while incurring only a negligible increase in latency.
翻訳日:2022-10-02 00:04:50 公開日:2021-03-02
# 間違った予測からの正しい判断:個別の校正に代わるメカニズム設計

Right Decisions from Wrong Predictions: A Mechanism Design Alternative to Individual Calibration ( http://arxiv.org/abs/2011.07476v2 )

ライセンス: Link先を確認
Shengjia Zhao, Stefano Ermon(参考訳) 意思決定者は、しばしば不完全な確率予測に頼る必要がある。 平均的なパフォーマンス指標は一般的に利用可能であるが、個々の予測と対応するユーティリティの品質を評価するのは難しい。 個人予測の信頼性を意思決定者に伝えるため,予測ユーティリティが実際に取得したユーティリティと一致することを保証する補償機構を提案する。 予測エラーに対する意思決定者の補償策が有効であり、長期的には持続できない可能性がある一方で、公正な賭けやオンライン学習を確実に活用できないメカニズムを提案する。 本研究では、航空会社が推定する飛行遅延確率に基づいて、乗客が個々の旅行計画をどのように確実に最適化できるかを示す。

Decision makers often need to rely on imperfect probabilistic forecasts. While average performance metrics are typically available, it is difficult to assess the quality of individual forecasts and the corresponding utilities. To convey confidence about individual predictions to decision-makers, we propose a compensation mechanism ensuring that the forecasted utility matches the actually accrued utility. While a naive scheme to compensate decision-makers for prediction errors can be exploited and might not be sustainable in the long run, we propose a mechanism based on fair bets and online learning that provably cannot be exploited. We demonstrate an application showing how passengers could confidently optimize individual travel plans based on flight delay probabilities estimated by an airline.
翻訳日:2022-09-25 07:12:40 公開日:2021-03-02
# 一般化と記憶:バイアスポテンシャルモデル

Generalization and Memorization: The Bias Potential Model ( http://arxiv.org/abs/2011.14269v4 )

ライセンス: Link先を確認
Hongkang Yang and Weinan E(参考訳) 生成モデルや密度推定器のような確率分布の学習モデルは、学習関数のモデルとは全く異なる振る舞いをする。 1つの例は記憶現象、すなわち、生成的敵ネットワーク(GAN)で起こる経験的分布への究極の収束である。 このため、一般化の問題は教師あり学習よりも微妙である。 バイアスポテンシャルモデルでは, 早期停止が採用されれば, 次元非依存一般化精度は達成可能であり, 長期的には標本を記憶するか, 発散するかのいずれかである。

Models for learning probability distributions such as generative models and density estimators behave quite differently from models for learning functions. One example is found in the memorization phenomenon, namely the ultimate convergence to the empirical distribution, that occurs in generative adversarial networks (GANs). For this reason, the issue of generalization is more subtle than that for supervised learning. For the bias potential model, we show that dimension-independent generalization accuracy is achievable if early stopping is adopted, despite that in the long term, the model either memorizes the samples or diverges.
翻訳日:2021-06-07 09:07:57 公開日:2021-03-02
# (参考訳) breaking writer's block: 自然言語生成モデルの低コスト微調整

Breaking Writer's Block: Low-cost Fine-tuning of Natural Language Generation Models ( http://arxiv.org/abs/2101.03216v2 )

ライセンス: CC BY 4.0
Alexandre Duval, Thomas Lamson, Gael de Leseleuc de Kerouara and Matthias Gall\'e(参考訳) 近年,大規模事前学習言語モデルの微調整による情報抽出課題の解決が標準化されている。 これは、制御された言語生成のための様々な技術に依存している生成タスクには当てはまらない。 本稿では,自然言語生成モデルを用いて,書き手のブロックを解く問題を微調整するシステムについて述べる。 微調整は、左のコンテキストに加えて適切なコンテキストも含むように条件を変更し、また、人間の著者が生成したいという段落のエンティティ、サイズ、ジャンル、要約のオプションリストも変更する。 提案したファインチューニングは,少ないエポックと合計150米ドルのコストで優れた結果が得られる。 システムはwebサービスとしてアクセスでき、すべてのコードがリリースされます。 インターフェースとモデルを展示するビデオも公開されている。

It is standard procedure these days to solve Information Extraction task by fine-tuning large pre-trained language models. This is not the case for generation task, which relies on a variety of techniques for controlled language generation. In this paper, we describe a system that fine-tunes a natural language generation model for the problem of solving Writer's Block. The fine-tuning changes the conditioning to also include the right context in addition to the left context, as well as an optional list of entities, the size, the genre and a summary of the paragraph that the human author wishes to generate. Our proposed fine-tuning obtains excellent results, even with a small number of epochs and a total cost of USD 150. The system can be accessed as a web-service, and all the code is released. A video showcasing the interface and the model is also available.
翻訳日:2021-05-01 15:32:02 公開日:2021-03-02
# 高速逆校正によるディープニューラルネットワークの信頼性予測に向けて

Towards Trustworthy Predictions from Deep Neural Networks with Fast Adversarial Calibration ( http://arxiv.org/abs/2012.10923v2 )

ライセンス: Link先を確認
Christian Tomani, Florian Buettner(参考訳) 現実世界のアプリケーションにおける意思決定を導くAIシステムの広範な受容を促進するために、デプロイされたモデルの信頼性が重要です。 つまり、予測モデルが不確実性を認識し、ドメイン内サンプルとドメイン内シフトの両方に対して適切に調整された(従って信頼できる)予測をもたらすことが重要である。 予測の不確実性を説明する最近の取り組みとしては、トレーニングされたニューラルネットワークの処理ステップ、ベイズニューラルネットワーク、アンサンブルアプローチや実証的ディープラーニングのような非ベイズ的アプローチなどがある。 本稿では,ドメインシフト後に得られたサンプルに対して,信頼度の高い信頼度を得るための効率的かつ汎用的なモデリング手法を提案する。 本稿では,エントロピー増大損失項と逆キャリブレーション損失項を組み合わせた新たなトレーニング戦略を導入し,幅広い領域ドリフトに対する精度の高い技術的信頼性の高い予測が可能であることを示す。 従来提案されてきた様々なデータモダリティ,シーケンスデータ,ネットワークアーキテクチャ,摂動戦略など,幅広いデータセットに対するアプローチを包括的に評価した。 モデリング手法は既存の最先端手法よりも大幅に優れており,ドメインドリフト下での精度の高い予測が得られている。

To facilitate a wide-spread acceptance of AI systems guiding decision making in real-world applications, trustworthiness of deployed models is key. That is, it is crucial for predictive models to be uncertainty-aware and yield well-calibrated (and thus trustworthy) predictions for both in-domain samples as well as under domain shift. Recent efforts to account for predictive uncertainty include post-processing steps for trained neural networks, Bayesian neural networks as well as alternative non-Bayesian approaches such as ensemble approaches and evidential deep learning. Here, we propose an efficient yet general modelling approach for obtaining well-calibrated, trustworthy probabilities for samples obtained after a domain shift. We introduce a new training strategy combining an entropy-encouraging loss term with an adversarial calibration loss term and demonstrate that this results in well-calibrated and technically trustworthy predictions for a wide range of domain drifts. We comprehensively evaluate previously proposed approaches on different data modalities, a large range of data sets including sequence data, network architectures and perturbation strategies. We observe that our modelling approach substantially outperforms existing state-of-the-art approaches, yielding well-calibrated predictions under domain drift.
翻訳日:2021-05-01 04:50:47 公開日:2021-03-02
# グラフレベル外乱検出のための伝搬モデルの問題

Issues with Propagation Based Models for Graph-Level Outlier Detection ( http://arxiv.org/abs/2012.12931v2 )

ライセンス: Link先を確認
Lingxiao Zhao, Leman Akoglu(参考訳) グラフレベルの異常検出 (glod: graph-level outlier detection) は、グラフデータベース内の異常なグラフを識別する作業である。 GNNとグラフカーネルによるグラフ埋め込みは、他のグラフレベルタスク、すなわち、有望な結果を得た。 グラフ分類では、これらのモデルを用いてGLODに取り組む。 本論文は,新しいモデルを開発する代わりに,GLODに伝搬モデルを適用することによる基本的かつ興味深い問題に着目し,一方のクラスを外れ値としてダウンサンプリングしたバイナリグラフ分類データセットを用いて評価する。 モデルのROC-AUC性能は,どのクラスがダウンサンプリングされているかによって大きく変化する。 興味深いことに、これら2つの変種に対するROC-AUCは1に略し、その性能ギャップは伝播の増加とともに増幅される。 本研究では,伝搬モデルにより生成されたグラフ埋め込み空間を慎重に研究し,(1)伝播によって増幅されるクラス内密度の相違,(2)クラス間の重なり合う支持(埋め込みの混合)の2つの駆動因子を求める。 本研究は, グラフ伝搬モデルと分類データセットを用いて, 初めて外乱検出を行った結果に光を当てるものである。

Graph-Level Outlier Detection (GLOD) is the task of identifying unusual graphs within a graph database, which received little attention compared to node-level detection in a single graph. As propagation based graph embedding by GNNs and graph kernels achieved promising results on another graph-level task, i.e. graph classification, we study applying those models to tackle GLOD. Instead of developing new models, this paper identifies and delves into a fundamental and intriguing issue with applying propagation based models to GLOD, with evaluation conducted on repurposed binary graph classification datasets where one class is down-sampled as outlier. We find that ROC-AUC performance of the models change significantly (flips from high to low) depending on which class is down-sampled. Interestingly, ROC-AUCs on these two variants approximately sum to 1 and their performance gap is amplified with increasing propagations. We carefully study the graph embedding space produced by propagation based models and find two driving factors: (1) disparity between within-class densities which is amplified by propagation, and (2) overlapping support (mixing of embeddings) across classes. Our study sheds light onto the effects of using graph propagation based models and classification datasets for outlier detection for the first time.
翻訳日:2021-04-25 18:18:42 公開日:2021-03-02
# (参考訳) メッセージパッシングアルゴリズムのランダムシーケンシャルダイナミクスに対する厳密解

Exact solution to the random sequential dynamics of a message passing algorithm ( http://arxiv.org/abs/2101.01571v2 )

ライセンス: CC BY 4.0
Burak \c{C}akmak and Manfred Opper(参考訳) 大規模システム限界におけるランダムな相互作用を持つIsingモデルのメッセージパッシングアルゴリズムのランダムシーケンシャルダイナミクスを解析する。 2時間相関関数と収束速度の厳密な結果を導出する。 静的問題に対する「em de almedia-thouless」の安定性基準は、ランダムなシーケンシャルダイナミクスの大域的な収束に必要かつ十分であることが判明した。

We analyze the random sequential dynamics of a message passing algorithm for Ising models with random interactions in the large system limit. We derive exact results for the two-time correlation functions and the speed of convergence. The {\em de Almedia-Thouless} stability criterion of the static problem is found to be necessary and sufficient for the global convergence of the random sequential dynamics.
翻訳日:2021-04-11 15:31:13 公開日:2021-03-02
# 深層学習に基づく医学的意思決定支援 --皮膚がん診断のケーススタディ-

Deep Learning Based Decision Support for Medicine -- A Case Study on Skin Cancer Diagnosis ( http://arxiv.org/abs/2103.05112v1 )

ライセンス: Link先を確認
Adriano Lucieri, Andreas Dengel and Sheraz Ahmed(参考訳) メラノーマなどの皮膚がんの早期発見は、患者の生存率を高めるために重要である。 皮膚がん検診におけるDeep Learning (DL)-based Decision Support Systems (DSS) の臨床応用は、患者のケアの質を向上させる可能性がある。 医療AIコミュニティにおける作業の大部分は、主に自律的な手術に関連する診断設定に焦点を当てている。 しかし、実際の意思決定支援は、平易な診断を超えて説明を提供するべきである。 本稿では,臨床像,皮膚内視鏡像,病理像から皮膚癌の診断例を例に,医療応用における説明可能なDLベースの意思決定支援に向けた取り組みの概要について述べる。 分析の結果、病理組織学的皮膚像の説明には注意が払われず、現在の研究は視覚関連地図と皮膚内視鏡的特徴同定が支配的であることが明らかとなった。 我々は、将来の作業は、ステークホルダーの認知概念を満たすことに集中し、グローバルなアプローチとローカルなアプローチを組み合わせて多様なモダリティを活用する徹底的な説明を提供するべきであると結論付けている。 さらに、誤った振る舞いの場合にモデルに介入し、ガイドする可能性は、DLベースのDSSなどとしてAIのデプロイを成功させるための大きなステップとして特定されている。

Early detection of skin cancers like melanoma is crucial to ensure high chances of survival for patients. Clinical application of Deep Learning (DL)-based Decision Support Systems (DSS) for skin cancer screening has the potential to improve the quality of patient care. The majority of work in the medical AI community focuses on a diagnosis setting that is mainly relevant for autonomous operation. Practical decision support should, however, go beyond plain diagnosis and provide explanations. This paper provides an overview of works towards explainable, DL-based decision support in medical applications with the example of skin cancer diagnosis from clinical, dermoscopic and histopathologic images. Analysis reveals that comparably little attention is payed to the explanation of histopathologic skin images and that current work is dominated by visual relevance maps as well as dermoscopic feature identification. We conclude that future work should focus on meeting the stakeholder's cognitive concepts, providing exhaustive explanations that combine global and local approaches and leverage diverse modalities. Moreover, the possibility to intervene and guide models in case of misbehaviour is identified as a major step towards successful deployment of AI as DL-based DSS and beyond.
翻訳日:2021-04-05 00:57:00 公開日:2021-03-02
# ブラックボックス学習者における特徴関係の意義評価

Significance tests of feature relevance for a blackbox learner ( http://arxiv.org/abs/2103.04985v1 )

ライセンス: Link先を確認
Ben Dai, Xiaotong Shen, Wei Pan(参考訳) 近年のエキサイティングな発展は、新しい科学的洞察と発見を求める多くの科学分野におけるディープラーニングの普及である。 学習結果を解釈するために、研究者は説明可能な特徴の仮説テストを行い、科学的ドメイン知識を前進させる。 このような状況において、ブラックボックス学習者のテストは、難解なモデル、パラメータ推定の未知の制限分布、高い計算制約のために厳しい課題をもたらす。 本稿では,ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。 1つ目は、モデルフィッティングにおけるパラメータ推定に用いられる推定サンプルとは独立な、推論サンプルの摂動による損失差を評価する。 後者はさらに推論サンプルを2つに分割するが、データの摂動は必要ない。 また、繰り返しサンプル分割に基づく$p$-valuesの順序統計を集約し、それらの組み合わせ版を開発する。 分割率と摂動サイズを推定するために,計算量制約に基づく型 \rom{1} の誤差を適切に制御する適応分割スキームを開発した。 textit{bias-sd-ratio} をデフレーションすることにより、テスト統計の漸近的な零分布とそれらの整合性を統計力の観点から確立する。 理論的パワー分析とシミュレーションにより,1分割試験は2分割試験よりも強力であることがわかったが,後者は大規模データセットに適用しやすくなった。 さらに, 繰り返し試料分割による電力損失を補償しながら, 組合せ試験はより安定である。 数値解析により,提案手法の有効性を2つのベンチマーク例で示す。 提案するテストを実装した python library {\tt dnn-inference} https://dnn-inference.readthedocs.io/en/latest/ である。

An exciting recent development is the uptake of deep learning in many scientific fields, where the objective is seeking novel scientific insights and discoveries. To interpret a learning outcome, researchers perform hypothesis testing for explainable features to advance scientific domain knowledge. In such a situation, testing for a blackbox learner poses a severe challenge because of intractable models, unknown limiting distributions of parameter estimates, and high computational constraints. In this article, we derive two consistent tests for the feature relevance of a blackbox learner. The first one evaluates a loss difference with perturbation on an inference sample, which is independent of an estimation sample used for parameter estimation in model fitting. The second further splits the inference sample into two but does not require data perturbation. Also, we develop their combined versions by aggregating the order statistics of the $p$-values based on repeated sample splitting. To estimate the splitting ratio and the perturbation size, we develop adaptive splitting schemes for suitably controlling the Type \rom{1} error subject to computational constraints. By deflating the \textit{bias-sd-ratio}, we establish asymptotic null distributions of the test statistics and their consistency in terms of statistical power. Our theoretical power analysis and simulations indicate that the one-split test is more powerful than the two-split test, though the latter is easier to apply for large datasets. Moreover, the combined tests are more stable while compensating for a power loss by repeated sample splitting. Numerically, we demonstrate the utility of the proposed tests on two benchmark examples. Accompanying this paper is our Python library {\tt dnn-inference} https://dnn-inference.readthedocs.io/en/latest/ that implements the proposed tests.
翻訳日:2021-04-05 00:55:58 公開日:2021-03-02
# ニューロモルフィックコンピューティングとAI応用のための3次元統合システム設計の一事例

A Case for 3D Integrated System Design for Neuromorphic Computing & AI Applications ( http://arxiv.org/abs/2103.04852v1 )

ライセンス: Link先を確認
Eren Kurshan, Hai Li, Mingoo Seok, Yuan Xie(参考訳) 過去10年間、人工知能は社会の多くの応用分野を見つけてきた。 AIソリューションが洗練され、ユースケースが大きくなるにつれて、彼らは、実装プロセス中に直面するパフォーマンスとエネルギー効率の課題に対処する必要性を強調した。 これらの課題に対処するため、ニューロモルフィックチップへの関心が高まっている。 ニューロモルフィックコンピューティングは、非フォン・ノイマンのアーキテクチャと、人間の脳を模倣する新しいデバイス、回路、製造技術に依存している。 このような技術の中で、3D統合は、AIハードウェアとスケーリング法則の継続にとって重要な有効性である。 本稿では、ニューロモルフィックチップ設計における3d統合のユニークな機会を概観し、次世代ニューロモルフィックアーキテクチャにおける新たな機会について論じ、障害をレビューする。 インスピレーションとエミュレーションの目的のために脳に頼っていたニューロモルフィックアーキテクチャは、人間の脳の機能とアーキテクチャの限られた理解のために大きな課題に直面している。 しかし、高レベルの投資はニューロモルフィックチップの開発に向けられている。 3d統合は、コスト効率が良く柔軟なニューロモルフィックチップの設計に戦略的な利点をもたらすだけでなく、将来の設計にさらなる利益をもたらすために高度な機能を取り入れた設計の柔軟性をもたらすかもしれないと論じている。

Over the last decade, artificial intelligence has found many applications areas in the society. As AI solutions have become more sophistication and the use cases grew, they highlighted the need to address performance and energy efficiency challenges faced during the implementation process. To address these challenges, there has been growing interest in neuromorphic chips. Neuromorphic computing relies on non von Neumann architectures as well as novel devices, circuits and manufacturing technologies to mimic the human brain. Among such technologies, 3D integration is an important enabler for AI hardware and the continuation of the scaling laws. In this paper, we overview the unique opportunities 3D integration provides in neuromorphic chip design, discuss the emerging opportunities in next generation neuromorphic architectures and review the obstacles. Neuromorphic architectures, which relied on the brain for inspiration and emulation purposes, face grand challenges due to the limited understanding of the functionality and the architecture of the human brain. Yet, high-levels of investments are dedicated to develop neuromorphic chips. We argue that 3D integration not only provides strategic advantages to the cost-effective and flexible design of neuromorphic chips, it may provide design flexibility in incorporating advanced capabilities to further benefits the designs in the future.
翻訳日:2021-04-05 00:55:30 公開日:2021-03-02
# 複数のトレーニング戦略を用いたBERTに基づく頭字語の曖昧化

BERT-based Acronym Disambiguation with Multiple Training Strategies ( http://arxiv.org/abs/2103.00488v2 )

ライセンス: Link先を確認
Chunguang Pan, Bingyan Song, Shengguang Wang and Zhipeng Luo(参考訳) Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。 頭字語を使うのは便利だが、理解が難しい場合もある。 単語の適切な拡張を識別することは、自然言語処理の実践的な課題である。 科学分野におけるADのための研究はほとんど行われていないため、BERTと動的負のサンプル選択、タスク適応事前学習、対逆訓練、擬似ラベリングを含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。 SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationで1位となった。

Acronym disambiguation (AD) task aims to find the correct expansions of an ambiguous ancronym in a given sentence. Although it is convenient to use acronyms, sometimes they could be difficult to understand. Identifying the appropriate expansions of an acronym is a practical task in natural language processing. Since few works have been done for AD in scientific field, we propose a binary classification model incorporating BERT and several training strategies including dynamic negative sample selection, task adaptive pretraining, adversarial training and pseudo labeling in this paper. Experiments on SciAD show the effectiveness of our proposed model and our score ranks 1st in SDU@AAAI-21 shared task 2: Acronym Disambiguation.
翻訳日:2021-04-05 00:48:52 公開日:2021-03-02
# 環境騒音を考慮した重み付き多層ネットワークにおけるコミュニティ検出

Community Detection in Weighted Multilayer Networks with Ambient Noise ( http://arxiv.org/abs/2103.00486v2 )

ライセンス: Link先を確認
Mark He, Dylan Lu, Jason Xu, Rose Mary Xavier(参考訳) 本稿では,ブロック間相互作用を管理する大域的環境雑音の存在を考慮した,多層重み付きネットワークのための新しい確率的ブロックモデルを提案する。 重み付き多層ネットワークにおける分類階層は、1つのクラスタ(ブロック)以外はすべて一意な局所信号によって制御されていると仮定し、一方1ブロックは周囲ノイズに分類され、異なるブロック間の相互作用として同一に振る舞う。 階層的変動推論を用いてブロック構造を局所信号や大域雑音として共同で検出・分類する。 これらの原理は、マルチ層重み付きネットワークのためのSBANM(Stochastic Block)と呼ばれる新しいコミュニティ検出アルゴリズムに組み込まれている。 この手法を複数の異なる領域に適用する。 我々はフィラデルフィア神経発達コホートに着目し,精神病症状と精神病に関連する診断カテゴリーを形成する被験者のコミュニティを探索する。

We introduce a novel class of stochastic blockmodel for multilayer weighted networks that accounts for the presence of a global ambient noise that governs between-block interactions. We induce a hierarchy of classifications in weighted multilayer networks by assuming that all but one cluster (block) are governed by unique local signals, while a single block is classified as ambient noise, which behaves identically as interactions across differing blocks. Hierarchical variational inference is employed to jointly detect and typologize block-structures as local signals or global noise. These principles are incorporated into novel community detection algorithm called Stochastic Block (with) Ambient Noise Model (SBANM) for multilayer weighted networks. We apply this method to several different domains. We focus on the Philadelphia Neurodevelopmental Cohort to discover communities of subjects that form diagnostic categories relating psychopathological symptoms to psychosis.
翻訳日:2021-04-05 00:46:44 公開日:2021-03-02
# (参考訳) 強化学習とコンピュータビジョンを用いた自律型ロボット芝刈り機の局所ナビゲーションとドッキング

Local Navigation and Docking of an Autonomous Robot Mower using Reinforcement Learning and Computer Vision ( http://arxiv.org/abs/2101.06248v3 )

ライセンス: CC BY 4.0
Ali Taghibakhshi, Nathan Ogden, Matthew West(参考訳) 本稿では,John Deere Tango自動芝刈り機のナビゲーションおよびドッキング制御システムについて,単一のカメラのみを入力として実演する。 このビジョンのみのシステムは、安価で製造が簡単で外部センサーを必要としないため、興味深い。 これは、統合位置センサとgps(global positioning system)技術に依存する既存のシステムとは対照的である。 システムを構築するために、最先端のオブジェクト検出アーキテクチャであるYou Only Look Once (YOLO)と強化学習(RL)アーキテクチャであるDouble Deep QNetworks (Double DQN)を組み合わせた。 オブジェクト検出ネットワークは、芝刈り機上の特徴を特定し、その出力をRLネットワークに渡すことで、高速で堅牢なトレーニングを可能にする低次元表現を提供する。 最後に、RLネットワークは、カスタムシミュレーション環境において、マシンを所望の場所にナビゲートする方法を学ぶ。 芝刈り機でテストすると、システムは任意の初期位置と方向からセンチメートルレベルの精度でドッキングできる。

We demonstrate a successful navigation and docking control system for the John Deere Tango autonomous mower, using only a single camera as the input. This vision-only system is of interest because it is inexpensive, simple for production, and requires no external sensing. This is in contrast to existing systems that rely on integrated position sensors and global positioning system (GPS) technologies. To produce our system we combined a state-of-the-art object detection architecture, You Only Look Once (YOLO), with a reinforcement learning (RL) architecture, Double Deep QNetworks (Double DQN). The object detection network identifies features on the mower and passes its output to the RL network, providing it with a low-dimensional representation that enables rapid and robust training. Finally, the RL network learns how to navigate the machine to the desired spot in a custom simulation environment. When tested on mower hardware, the system is able to dock with centimeter-level accuracy from arbitrary initial locations and orientations.
翻訳日:2021-03-28 12:53:29 公開日:2021-03-02
# ベイズ最適化による安全かつ効率的なモデルフリー適応制御

Safe and Efficient Model-free Adaptive Control via Bayesian Optimization ( http://arxiv.org/abs/2101.07825v2 )

ライセンス: Link先を確認
Christopher K\"onig, Matteo Turchetta, John Lygeros, Alisa Rupenyan, Andreas Krause(参考訳) 適応制御アプローチは、正確なシステムモデルやコントローラの適切なパラメトリゼーションが利用できる場合に、高性能なコントローラが得られる。 適応制御のための既存のデータ駆動アプローチは、ダイナミクスの不確実性や外乱に関する追加情報を伴う標準モデルベースメソッドをほとんど強化している。 本研究では,適応制御のための純粋データ駆動モデルフリーアプローチを提案する。 システムデータのみに基づく低レベルコントローラのチューニングは、アルゴリズムの安全性と計算性能に懸念を生じさせる。 提案手法は安全かつサンプル効率のよいベイズ最適化アルゴリズムであるGoOSEに基づいている。 本稿では,GoOSEの回転運動システムにおける実用性を実現するために,いくつかの計算およびアルゴリズムの修正を導入する。 我々は,提案手法がサンプル効率であり,安全性の観点から制約ベイズ最適化よりも優れており,グリッド評価によって計算された性能オプティマを達成することを数値的に示す。 さらに,提案する適応制御手法を回転運動系で実験的に実証する。

Adaptive control approaches yield high-performance controllers when a precise system model or suitable parametrizations of the controller are available. Existing data-driven approaches for adaptive control mostly augment standard model-based methods with additional information about uncertainties in the dynamics or about disturbances. In this work, we propose a purely data-driven, model-free approach for adaptive control. Tuning low-level controllers based solely on system data raises concerns on the underlying algorithm safety and computational performance. Thus, our approach builds on GoOSE, an algorithm for safe and sample-efficient Bayesian optimization. We introduce several computational and algorithmic modifications in GoOSE that enable its practical use on a rotational motion system. We numerically demonstrate for several types of disturbances that our approach is sample efficient, outperforms constrained Bayesian optimization in terms of safety, and achieves the performance optima computed by grid evaluation. We further demonstrate the proposed adaptive control approach experimentally on a rotational motion system.
翻訳日:2021-03-22 11:23:51 公開日:2021-03-02
# 後方分布からのサンプリングによる確率的画像の発声

Stochastic Image Denoising by Sampling from the Posterior Distribution ( http://arxiv.org/abs/2101.09552v2 )

ライセンス: Link先を確認
Bahjat Kawar, Gregory Vaksman, Michael Elad(参考訳) 画像復調はよく知られ、よく研究されている問題であり、結果と元の画像との間の平均二乗誤差(MSE)の最小化を目標としている。 残念なことに、特に厳しいノイズレベルでは、最小MSE(MMSE)ソリューションはぼやけた出力画像をもたらす可能性がある。 本研究は,MSEを小さく保ちつつ,現実的かつ高い知覚的品質の成果を生み出す,新しい確率的 denoising 手法を提案する。 提案手法では,任意のMMSEデノイザの繰り返し適用に依存するランゲヴィンダイナミクスを用いて,後方分布から効果的にサンプリングすることで再構成画像を得る。 その確率性のため、提案アルゴリズムは与えられたノイズ入力に対して様々な高品質な出力を生成できるが、いずれも正当な特徴付けの結果である。 さらに,塗装問題に対処するアルゴリズムを拡張し,部分的な与えられたデータからノイズを取り除き,欠落した画素を復元する。

Image denoising is a well-known and well studied problem, commonly targeting a minimization of the mean squared error (MSE) between the outcome and the original image. Unfortunately, especially for severe noise levels, such Minimum MSE (MMSE) solutions may lead to blurry output images. In this work we propose a novel stochastic denoising approach that produces viable and high perceptual quality results, while maintaining a small MSE. Our method employs Langevin dynamics that relies on a repeated application of any given MMSE denoiser, obtaining the reconstructed image by effectively sampling from the posterior distribution. Due to its stochasticity, the proposed algorithm can produce a variety of high-quality outputs for a given noisy input, all shown to be legitimate denoising results. In addition, we present an extension of our algorithm for handling the inpainting problem, recovering missing pixels while removing noise from partially given data.
翻訳日:2021-03-19 10:41:44 公開日:2021-03-02
# 連続時間競合に基づく検索の改善

Improving Continuous-time Conflict Based Search ( http://arxiv.org/abs/2101.09723v2 )

ライセンス: Link先を確認
Anton Andreychuk, Konstantin Yakovlev, Eli Boyarski and Roni Stern(参考訳) Conflict-Based Search (CBS) は、従来のマルチエージェントパス探索 (MAPF) 問題を最適に解くための強力なアルゴリズムフレームワークである。 Continuous-time CBS(CCBS)は、CBSの最近提案されたバージョンで、時間を差別することなく最適なソリューションを保証します。 しかし、CBSのスケーラビリティはCBSの既知の改善を含まないため制限されている。 本稿では,このギャップを解消し,CBS改善の成功,すなわちコンフリクト(PC)の優先順位付け,ディスジョイント分割(DS)とハイレベルヒューリスティックス(高レベルヒューリスティックス)をCCBSの継続的な時間設定に適応させる方法について検討する。 これらの適応は自明ではなく、異なる種類の制約の慎重な処理、セーフインターバルパス計画(SIPP)アルゴリズムの一般化バージョンの適用、およびカーディナルコンフリクトの概念の拡張を必要とする。 一般グラフと2^k$-neighborhoodグリッドの両方で実験を行い,提案手法の効果を評価した。 これらの改善を伴うCCBSは、バニラCCBSを大幅に上回り、場合によってはほぼ2倍のエージェントで問題を解決し、連続時間領域におけるマルチエージェントパスの発見の限界を押し広げる。

Conflict-Based Search (CBS) is a powerful algorithmic framework for optimally solving classical multi-agent path finding (MAPF) problems, where time is discretized into the time steps. Continuous-time CBS (CCBS) is a recently proposed version of CBS that guarantees optimal solutions without the need to discretize time. However, the scalability of CCBS is limited because it does not include any known improvements of CBS. In this paper, we begin to close this gap and explore how to adapt successful CBS improvements, namely, prioritizing conflicts (PC), disjoint splitting (DS), and high-level heuristics, to the continuous time setting of CCBS. These adaptions are not trivial, and require careful handling of different types of constraints, applying a generalized version of the Safe interval path planning (SIPP) algorithm, and extending the notion of cardinal conflicts. We evaluate the effect of the suggested enhancements by running experiments both on general graphs and $2^k$-neighborhood grids. CCBS with these improvements significantly outperforms vanilla CCBS, solving problems with almost twice as many agents in some cases and pushing the limits of multiagent path finding in continuous-time domains.
翻訳日:2021-03-16 09:12:22 公開日:2021-03-02
# (参考訳) 見えないドメインへの一般化:ドメイン一般化に関する調査

Generalizing to Unseen Domains: A Survey on Domain Generalization ( http://arxiv.org/abs/2103.03097v1 )

ライセンス: CC BY 4.0
Jindong Wang, Cuiling Lan, Chang Liu, Yidong Ouyang, Tao Qin(参考訳) ドメイン一般化(Domain Generalization, DG)、すなわち分布外一般化(out-of-distriion generalization)は近年、関心を集めている。 ドメイン一般化は、1つまたは複数の異なるが関連するドメインが与えられる困難な設定を扱い、目的は目に見えないテストドメインに一般化できるモデルを学ぶことです。 長年、大きな進歩を遂げてきた。 本稿では,領域一般化の最近の進歩に対する最初のレビューを紹介する。 まず、ドメイン一般化の形式的な定義を提供し、いくつかの関連分野について議論します。 次に、ドメイン一般化に関する理論を徹底的に検討し、一般化の背後にある理論を慎重に分析する。 次に,最近のアルゴリズムを3つのクラスに分類し,データ操作,表現学習,学習戦略を詳細に提示する。 第三に、一般的なデータセットとアプリケーションを紹介します。 最後に,既存の文献を要約し,今後の研究課題について紹介する。

Domain generalization (DG), i.e., out-of-distribution generalization, has attracted increased interests in recent years. Domain generalization deals with a challenging setting where one or several different but related domain(s) are given, and the goal is to learn a model that can generalize to an unseen test domain. For years, great progress has been achieved. This paper presents the first review for recent advances in domain generalization. First, we provide a formal definition of domain generalization and discuss several related fields. Next, we thoroughly review the theories related to domain generalization and carefully analyze the theory behind generalization. Then, we categorize recent algorithms into three classes and present them in detail: data manipulation, representation learning, and learning strategy, each of which contains several popular algorithms. Third, we introduce the commonly used datasets and applications. Finally, we summarize existing literature and present some potential research topics for the future.
翻訳日:2021-03-08 00:20:28 公開日:2021-03-02
# (参考訳) 深層学習分類器のベンチマーク

Benchmarking Deep Learning Classifiers: Beyond Accuracy ( http://arxiv.org/abs/2103.03102v1 )

ライセンス: CC BY 4.0
Wei Dai, Daniel Berleant(参考訳) 深層学習(DL)分類器を評価する以前の研究では、top-1/top-5精度がしばしば使用されている。 しかし、DL分類器の精度は不安定であり、不完全または逆の画像で再テストするとしばしば大きく変化する。 本論文は,DL分類器のロバスト性を評価するために,平均精度と変動係数からなる2次元メートル法を提案することによって,不完全画像上でのDL分類器のロバスト性を評価するための,小さいが基本的な作業である。 ピアマンのランク相関係数とピアソンの相関係数を用いて独立性を評価する。 mCVと呼ばれる統計的プロットは、テスト画像中の様々な量の不完全性にまたがるDL分類器の性能のロバスト性を可視化することを目的としている。 最後に,2要素劣化による欠陥画像がDL分類器の堅牢性向上に有効であることを示す。 すべてのソースコードと関連するイメージセットは、将来の研究プロジェクトをサポートするためにウェブサイト(http://www.animpala.com)で共有される。

Previous research evaluating deep learning (DL) classifiers has often used top-1/top-5 accuracy. However, the accuracy of DL classifiers is unstable in that it often changes significantly when retested on imperfect or adversarial images. This paper adds to the small but fundamental body of work on benchmarking the robustness of DL classifiers on imperfect images by proposing a two-dimensional metric, consisting of mean accuracy and coefficient of variation, to measure the robustness of DL classifiers. Spearman's rank correlation coefficient and Pearson's correlation coefficient are used and their independence evaluated. A statistical plot we call mCV is presented which aims to help visualize the robustness of the performance of DL classifiers across varying amounts of imperfection in tested images. Finally, we demonstrate that defective images corrupted by two-factor corruption could be used to improve the robustness of DL classifiers. All source codes and related image sets are shared on a website (http://www.animpala.com) to support future research projects.
翻訳日:2021-03-07 23:33:53 公開日:2021-03-02
# (参考訳) 電力ネットワークチャレンジを実行するための学習 - ふりかえりの分析

Learning to run a Power Network Challenge: a Retrospective Analysis ( http://arxiv.org/abs/2103.03104v1 )

ライセンス: CC BY 4.0
Antoine Marot, Benjamin Donnot, Gabriel Dulac-Arnold, Adrian Kelly, A\"idan O'Sullivan, Jan Viebahn, Mariette Awad, Isabelle Guyon, Patrick Panciatici, Camilo Romero(参考訳) 電力網は、地理的に広い地域を横断する電力輸送を担っており、現代の生活が重く依存する複雑なインフラである。 需要と生産のプロファイルの変化、再生可能エネルギーの統合の増加、および高圧ネットワーク技術は、停電を避けながら電気輸送を最適化する際に、人間のオペレーターにとって真の課題です。 電力ネットワーク運用における適応性を実現するための人工知能手法の可能性を探るため,我々は次世代の電力ネットワークにおける重要な問題に対する強化学習ソリューションの開発を促進するため,L2RPNチャレンジを設計した。 NeurIPS 2020コンペティションは、世界中の300以上の参加者が集まる国際コミュニティから好評を博しました。 この課題の主な貢献は、提案された包括的なGrid2Opフレームワークと、現実的なシーケンシャルネットワーク操作シナリオを実行する関連するベンチマークです。 このフレームワークはオープンソース化されており、GridAliveエコシステムで新しい環境を簡単に定義できます。 既存の非線形物理シミュレータに頼り、予測不可能な再生可能エネルギー源の利用の増加による不確実性(a)ライン切断に必要な堅牢性(b)という2つの重要な問題を表す一連の摂動と課題を創出する。 本論文では,コンペティションのハイライトについて詳しく述べる。 ベンチマークスイートを提示し、ベストエージェントによる超人的なパフォーマンス実証を観察し、挑戦の勝利解を解析する。 我々は,競争を成功させるための組織的洞察を提案し,オープン研究の道筋で結論づける。 私たちの研究は、電力ネットワーク運用のためのより持続可能なソリューションを作成するための研究を促進することが期待されます。

Power networks, responsible for transporting electricity across large geographical regions, are complex infrastructures on which modern life critically depend. Variations in demand and production profiles, with increasing renewable energy integration, as well as the high voltage network technology, constitute a real challenge for human operators when optimizing electricity transportation while avoiding blackouts. Motivated to investigate the potential of Artificial Intelligence methods in enabling adaptability in power network operation, we have designed a L2RPN challenge to encourage the development of reinforcement learning solutions to key problems present in the next-generation power networks. The NeurIPS 2020 competition was well received by the international community attracting over 300 participants worldwide. The main contribution of this challenge is our proposed comprehensive Grid2Op framework, and associated benchmark, which plays realistic sequential network operations scenarios. The framework is open-sourced and easily re-usable to define new environments with its companion GridAlive ecosystem. It relies on existing non-linear physical simulators and let us create a series of perturbations and challenges that are representative of two important problems: a) the uncertainty resulting from the increased use of unpredictable renewable energy sources, and b) the robustness required with contingent line disconnections. In this paper, we provide details about the competition highlights. We present the benchmark suite and analyse the winning solutions of the challenge, observing one super-human performance demonstration by the best agent. We propose our organizational insights for a successful competition and conclude on open research avenues. We expect our work will foster research to create more sustainable solutions for power network operations.
翻訳日:2021-03-07 09:38:42 公開日:2021-03-02
# (参考訳) CloudAAE: ポイントクラウド上のオンラインデータ合成による6Dオブジェクトポインター回帰学習

CloudAAE: Learning 6D Object Pose Regression with On-line Data Synthesis on Point Clouds ( http://arxiv.org/abs/2103.01977v1 )

ライセンス: CC BY 4.0
Ge Gao, Mikko Lauri, Xiaolin Hu, Jianwei Zhang and Simone Frintrop(参考訳) 手動アノテーションが高価であるため,合成データ上での6次元ポーズ推定システムの訓練が望まれる。 しかし、合成画像と実画像の間の領域ギャップが大きいため、カラー画像の合成は高価である。 対照的に、この領域のギャップはかなり小さく、深度情報を埋めるのが簡単です。 本研究では,ポイントクラウドに代表される深度情報から6Dオブジェクトのポーズを復元するシステムと,トレーニング用の合成ポイントクラウドセグメントを生成する軽量データ合成パイプラインを提案する。 我々は6Dオブジェクトのポーズ情報を符号化する潜在コード学習に、拡張オートエンコーダ(AAE)を用いる。 データ合成パイプラインはテクスチャレスの3Dオブジェクトモデルと望ましい視点のみを必要とし、時間とハードウェアの両方のストレージの点で安価です。 我々のデータ合成プロセスは、RGB画像データをレンダリングする一般的なアプローチよりも最大3桁高速である。 本稿では,linemod,linemodoclocion,ycbビデオデータセットにおけるシステムの有効性を示す。 私たちのシステムの実装は、https://github.com/GeeeG/CloudAAE.comで利用可能です。

It is often desired to train 6D pose estimation systems on synthetic data because manual annotation is expensive. However, due to the large domain gap between the synthetic and real images, synthesizing color images is expensive. In contrast, this domain gap is considerably smaller and easier to fill for depth information. In this work, we present a system that regresses 6D object pose from depth information represented by point clouds, and a lightweight data synthesis pipeline that creates synthetic point cloud segments for training. We use an augmented autoencoder (AAE) for learning a latent code that encodes 6D object pose information for pose regression. The data synthesis pipeline only requires texture-less 3D object models and desired viewpoints, and it is cheap in terms of both time and hardware storage. Our data synthesis process is up to three orders of magnitude faster than commonly applied approaches that render RGB image data. We show the effectiveness of our system on the LineMOD, LineMOD Occlusion, and YCB Video datasets. The implementation of our system is available at: https://github.com/GeeeG/CloudAAE.
翻訳日:2021-03-07 01:47:01 公開日:2021-03-02
# (参考訳) Deep J-Sense: Unrolled Alternating OptimizationによるMRIの高速化

Deep J-Sense: Accelerated MRI Reconstruction via Unrolled Alternating Optimization ( http://arxiv.org/abs/2103.02087v1 )

ライセンス: CC BY 4.0
Marius Arvinte, Sriram Vishwanath, Ahmed H. Tewfik, and Jonathan I. Tamir(参考訳) 高速マルチコイル磁気共鳴画像再構成は, 圧縮センシングと深層学習を併用して, 大幅に改善されている。 しかし、これらの方法はコイル感度プロファイルの推定やモデルパラメータの推定のためのキャリブレーションデータに依存する。 従来の研究では,これらの手法は,これらの推定値の品質が低い場合や,スキャンパラメータが訓練条件と異なる場合,性能が低下することが示されている。 本稿では、非ローリングの交互化に基づくディープラーニングアプローチとしてDeep J-Senseを導入し、ロバスト性を高める:我々のアルゴリズムは磁化(画像)カーネルとコイル感度マップの両方を洗練する。 膝の高速MRIデータセットのサブセットによる実験結果から, 再建性能が向上し, 加速度係数やキャリブレーション領域サイズにかなりのロバスト性が得られることがわかった。

Accelerated multi-coil magnetic resonance imaging reconstruction has seen a substantial recent improvement combining compressed sensing with deep learning. However, most of these methods rely on estimates of the coil sensitivity profiles, or on calibration data for estimating model parameters. Prior work has shown that these methods degrade in performance when the quality of these estimators are poor or when the scan parameters differ from the training conditions. Here we introduce Deep J-Sense as a deep learning approach that builds on unrolled alternating minimization and increases robustness: our algorithm refines both the magnetization (image) kernel and the coil sensitivity maps. Experimental results on a subset of the knee fastMRI dataset show that this increases reconstruction performance and provides a significant degree of robustness to varying acceleration factors and calibration region sizes.
翻訳日:2021-03-06 19:15:43 公開日:2021-03-02
# (参考訳) 情報(pseudo)計量について

On Information (pseudo) Metric ( http://arxiv.org/abs/2103.02008v1 )

ライセンス: CC BY 4.0
Pierre Baudot(参考訳) このショートノートは情報計量を再検討し、これは確率法則の通常のようにではなく、可観測変数(ランダム変数)の多様体上の擬計量であることを示す。 測地学は境界と条件付き独立条件の点で特徴づけられる。 ピタゴラスの定理が与えられ、特別な場合、潜在的に興味深い自然整数三重項を与える。 このメトリクスはinfotopoパッケージを使用して糖尿病データセットのイラストとして計算される。

This short note revisit information metric, underlining that it is a pseudo metric on manifolds of observables (random variables), rather than as usual on probability laws. Geodesics are characterized in terms of their boundaries and conditional independence condition. Pythagorean theorem is given, providing in special case potentially interesting natural integer triplets. This metric is computed for illustration on Diabetes dataset using infotopo package.
翻訳日:2021-03-06 16:51:14 公開日:2021-03-02
# (参考訳) EnD: バイアス補正のための深部表現のエンタングリングとアンタングリング

EnD: Entangling and Disentangling deep representations for bias correction ( http://arxiv.org/abs/2103.02023v1 )

ライセンス: CC BY 4.0
Enzo Tartaglione, Carlo Alberto Barbano, Marco Grangetto(参考訳) 人工ニューラルネットワークは、ますます多くのタスクで最先端の処理を行い、今日では驚くほど多くのタスクの解決に使われている。 トレーニングデータにバイアスが存在するなど、これらのモデルの一般化能力を疑問視する問題があります。 本研究では,深層モデルが望ましくないバイアスを学習することを防ぐための正規化戦略であるEnDを提案する。 特に、深層ニューラルネットワークの特定のポイントに「情報のボトルネック」を挿入し、バイアスに関する情報を分離し、モデルの残りの部分でトレーニングタスクに有用な情報を前方に伝播させます。 EnDの大きな利点のひとつは、トレーニングモデルに直接適用される正規化子であるため、追加のトレーニング複雑性(デコーダやモデルの余分なレイヤなど)を必要としないことです。 実験の結果、EnDは非バイアステストセットの一般化を効果的に改善し、X線画像からCOVID-19検出の隠れバイアスを除去するなど、実際のシナリオに効果的に適用できることがわかった。

Artificial neural networks perform state-of-the-art in an ever-growing number of tasks, and nowadays they are used to solve an incredibly large variety of tasks. There are problems, like the presence of biases in the training data, which question the generalization capability of these models. In this work we propose EnD, a regularization strategy whose aim is to prevent deep models from learning unwanted biases. In particular, we insert an "information bottleneck" at a certain point of the deep neural network, where we disentangle the information about the bias, still letting the useful information for the training task forward-propagating in the rest of the model. One big advantage of EnD is that we do not require additional training complexity (like decoders or extra layers in the model), since it is a regularizer directly applied on the trained model. Our experiments show that EnD effectively improves the generalization on unbiased test sets, and it can be effectively applied on real-case scenarios, like removing hidden biases in the COVID-19 detection from radiographic images.
翻訳日:2021-03-06 14:37:15 公開日:2021-03-02
# (参考訳) 逐次的位置学習 : ヒューリスティックフリー高性能長期位置認識

Sequential Place Learning: Heuristic-Free High-Performance Long-Term Place Recognition ( http://arxiv.org/abs/2103.02074v1 )

ライセンス: CC BY 4.0
Marvin Chanc\'an, Michael Milford(参考訳) 手作りのヒューリスティックを用いた逐次マッチングは、10年近くにわたってペアワイズ類似性向上のためのルートベースの位置認識において標準的な手法である。 しかし、これらのアルゴリズムの精度リコール性能は、短時間ウィンドウ(TW)の長さを検索する際に劇的に低下し、自律ナビゲーション研究のために大規模なロボットデータセットに高い計算コストとストレージコストを要求します。 ここでは、視覚なしでも時空スケールを強力にナビゲートする生物学的システムの影響を受けて、連続プロセスを介して共同視覚および位置表現学習技術を開発し、バックプロパゲーションを介して訓練可能な学習ベースのCNN+LSTMアーキテクチャを設計、視点および外観不変の場所認識のために。 我々のアプローチであるシーケンシャル・プレース・ラーニング(SPL)は、CNN関数をベースとして、単一のトラバーサルから環境を視覚的に符号化し、ストレージ容量を削減し、LSTMは各視覚埋め込みを、対応する位置データ(動き推定のソースから得られる)と時間的に融合させて直接逐次推論を行う。 従来の2段階のパイプライン、例えばmatch-then-temporally-filterとは対照的に、ネットワークは、短いtwを使用しても単一の単眼画像シーケンスから一致したシーケンスを共同学習しながら、偽陽性率を直接排除する。 したがって、我々のモデルは、4つの挑戦的ベンチマークデータセット上で新しい最先端性能基準を設定しながら15の古典的手法より優れており、そのうちの1つは100%の精度でリコールレートで解ける。 さらに,SPLは,35,768連続フレームからなる729kmの経路において,従来の方法よりも最大70倍高速に展開可能であることを示す。 ベースラインコードはhttps://github.com/mchancan/deepseqslamで入手できます。

Sequential matching using hand-crafted heuristics has been standard practice in route-based place recognition for enhancing pairwise similarity results for nearly a decade. However, precision-recall performance of these algorithms dramatically degrades when searching on short temporal window (TW) lengths, while demanding high compute and storage costs on large robotic datasets for autonomous navigation research. Here, influenced by biological systems that robustly navigate spacetime scales even without vision, we develop a joint visual and positional representation learning technique, via a sequential process, and design a learning-based CNN+LSTM architecture, trainable via backpropagation through time, for viewpoint- and appearance-invariant place recognition. Our approach, Sequential Place Learning (SPL), is based on a CNN function that visually encodes an environment from a single traversal, thus reducing storage capacity, while an LSTM temporally fuses each visual embedding with corresponding positional data -- obtained from any source of motion estimation -- for direct sequential inference. Contrary to classical two-stage pipelines, e.g., match-then-temporally-filter, our network directly eliminates false-positive rates while jointly learning sequence matching from a single monocular image sequence, even using short TWs. Hence, we demonstrate that our model outperforms 15 classical methods while setting new state-of-the-art performance standards on 4 challenging benchmark datasets, where one of them can be considered solved with recall rates of 100% at 100% precision, correctly matching all places under extreme sunlight-darkness changes. In addition, we show that SPL can be up to 70x faster to deploy than classical methods on a 729 km route comprising 35,768 consecutive frames. Extensive experiments demonstrate the... Baseline code available at https://github.com/mchancan/deepseqslam
翻訳日:2021-03-06 14:23:09 公開日:2021-03-02
# (参考訳) ミニマックスモデル学習

Minimax Model Learning ( http://arxiv.org/abs/2103.02084v1 )

ライセンス: CC BY 4.0
Cameron Voloshin, Nan Jiang, Yisong Yue(参考訳) モデルに基づく強化学習における遷移モデル学習のための新しいオフポリシ損失関数を提案する。 特に、私たちの損失は、分配シフトの修正に重点を置いて、オフポリシ政策評価目標に由来します。 従来のモデルベース技術に比べ、データ生成ポリシーと異なる学習・評価ポリシーにより、モデル誤認や分布シフトによるロバスト性の向上が図れます。 理論解析を行い、既存のモデルに基づくオフポリシ評価手法よりも実証的な改善を示す。 損失がオフポリシ最適化(OPO)に使用できることを示すさらなる分析を提供し、OPOのより最近の改善との統合を実証します。

We present a novel off-policy loss function for learning a transition model in model-based reinforcement learning. Notably, our loss is derived from the off-policy policy evaluation objective with an emphasis on correcting distribution shift. Compared to previous model-based techniques, our approach allows for greater robustness under model misspecification or distribution shift induced by learning/evaluating policies that are distinct from the data-generating policy. We provide a theoretical analysis and show empirical improvements over existing model-based off-policy evaluation methods. We provide further analysis showing our loss can be used for off-policy optimization (OPO) and demonstrate its integration with more recent improvements in OPO.
翻訳日:2021-03-06 12:15:55 公開日:2021-03-02
# (参考訳) n-shot Task-Oriented Dialogue Augmentationへのシンプルだが効果的なアプローチ

A Simple But Effective Approach to n-shot Task-Oriented Dialogue Augmentation ( http://arxiv.org/abs/2103.00293v2 )

ライセンス: CC BY 4.0
Taha Aksu and Nancy F. Chen and Min-Yen Kan and Zhengyuan Liu(参考訳) タスク指向の会話データの収集とアノテーションはコストと時間を要する方法です。 トレーニングに必要なデータ量を持たない新しいドメインにおける最先端の(SOTA)システムのパフォーマンスを改善するために、多くの拡張技術が提案されている。 しかし、これらの強化技術(例) また、学習ベースのアプローチを使用するため、ある程度の量のデータも必要です。 これにより、新興の低リソースドメインでのSOTAシステムの使用が不可能になる。 そこで我々は,この課題に対処すべく,タスク指向の対話を完全自動的に作成するフレームワークを導入して,少数の対話の入力サイズで動作させる。 我々のフレームワークは、タスク指向対話における各ターンペアが特定の機能を持つという単純な考え方を使い、このアイデアを利用して新しい対話を生成する。 対話状態追跡タスクにおいて,SOTAモデルTRADEと統合することにより,低リソース環境でのフレームワークの評価を行い,複数のドメインにおける微調整シナリオの大幅な改善を観察する。 このエンドツーエンドの対話拡張フレームワークは,タスク指向の対話ドメインにおける自然言語理解のパフォーマンス向上に不可欠なツールである,と我々は結論付けている。

The collection and annotation of task-oriented conversational data is a costly and time-consuming manner. Many augmentation techniques have been proposed to improve the performance of state-of-the-art (SOTA) systems in new domains that lack the necessary amount of data for training. However, these augmentation techniques (e.g. paraphrasing) also require some mediocre amount of data since they use learning-based approaches. This makes using SOTA systems in emerging low-resource domains infeasible. We, to tackle this problem, introduce a framework, that creates synthetic task-oriented dialogues in a fully automatic manner, which operates with input sizes of as small as a few dialogues. Our framework uses the simple idea that each turn-pair in a task-oriented dialogue has a certain function and exploits this idea to mix them creating new dialogues. We evaluate our framework within a low-resource setting by integrating it with a SOTA model TRADE in the dialogue state tracking task and observe significant improvements in the fine-tuning scenarios in several domains. We conclude that this end-to-end dialogue augmentation framework can be a crucial tool for natural language understanding performance in emerging task-oriented dialogue domains.
翻訳日:2021-03-06 08:39:11 公開日:2021-03-02
# (参考訳) MetaSCI:ビデオ圧縮センシングのためのスケーラブルで適応的な再構築

MetaSCI: Scalable and Adaptive Reconstruction for Video Compressive Sensing ( http://arxiv.org/abs/2103.01786v1 )

ライセンス: CC BY 4.0
Zhengjue Wang and Hao Zhang and Ziheng Cheng and Bo Chen and Xin Yuan(参考訳) 2次元検出器を用いて高速映像をキャプチャするために、ビデオスナップショット圧縮画像(SCI)は有望なシステムであり、ビデオフレームは異なるマスクで符号化され、スナップショット計測に圧縮される。 これに続いて、効率的なアルゴリズムは、ディープラーニングネットワークによって最先端の結果が達成される高速フレームを再構築することが望まれる。 しかし、これらのネットワークは通常、特定の小規模マスクのために訓練され、訓練時間とgpuメモリの要求が高く、それゆえ、同じサイズの新しいマスクと、より大型のマスクである$ii$)に対して$i$となる。 メタSCIと呼ばれるSCI再構築のためのMeta Modulated Convolutional Networkを開発することで,これらの課題に対処する。 MetaSCIは、異なるマスクのための共有バックボーンと、各マスクごとに異なる変調パラメータに進化する軽量なメタ変調パラメータで構成されており、新しいマスク(またはシステム)へのcbf \emの高速適応の性質を持ち、大きなデータにスケールする準備ができている。 広範なシミュレーションと実データ結果から,提案手法の優れた性能を示す。 私たちのコードは {\small\url{https://github.com/xyvirtualgroup/MetaSCI-CVPR2021}}で利用可能です。

To capture high-speed videos using a two-dimensional detector, video snapshot compressive imaging (SCI) is a promising system, where the video frames are coded by different masks and then compressed to a snapshot measurement. Following this, efficient algorithms are desired to reconstruct the high-speed frames, where the state-of-the-art results are achieved by deep learning networks. However, these networks are usually trained for specific small-scale masks and often have high demands of training time and GPU memory, which are hence {\bf \em not flexible} to $i$) a new mask with the same size and $ii$) a larger-scale mask. We address these challenges by developing a Meta Modulated Convolutional Network for SCI reconstruction, dubbed MetaSCI. MetaSCI is composed of a shared backbone for different masks, and light-weight meta-modulation parameters to evolve to different modulation parameters for each mask, thus having the properties of {\bf \em fast adaptation} to new masks (or systems) and ready to {\bf \em scale to large data}. Extensive simulation and real data results demonstrate the superior performance of our proposed approach. Our code is available at {\small\url{https://github.com/xyvirtualgroup/MetaSCI-CVPR2021}}.
翻訳日:2021-03-06 08:14:06 公開日:2021-03-02
# (参考訳) 生成型逆変換器

Generative Adversarial Transformers ( http://arxiv.org/abs/2103.01209v2 )

ライセンス: CC BY 4.0
Drew A. Hudson and C. Lawrence Zitnick(参考訳) 本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。 このネットワークは、画像間の長距離相互作用を可能にする二部構造を用いており、線形効率の計算を維持しながら、高分解能合成に容易にスケールできる。 反復的に、潜在的な変数の集合から進化する視覚的特徴に情報を伝達し、その逆は、互いに照らし合わせてそれぞれの洗練をサポートし、オブジェクトやシーンの構成表現の出現を奨励する。 古典的なトランスフォーマーアーキテクチャとは対照的に、フレキシブルな領域ベースの変調を可能にする乗法積分を利用しており、成功しているStyleGANネットワークの一般化と見なすことができる。 シミュレーションされたマルチオブジェクト環境から、実世界のリッチな屋内および屋外シーンまで、さまざまなデータセットに対する注意深く評価することで、モデルの強みと堅牢性を示し、高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の結果を得る。 さらに質的および定量的な実験により、モデルの内部動作を洞察し、解釈可能性の向上とより強い解離を明らかにし、アプローチのメリットと有効性を示しています。 モデルの実装はhttps://github.com/dorarad/gansformer.orgで利用可能である。

We introduce the GANsformer, a novel and efficient type of transformer, and explore it for the task of visual generative modeling. The network employs a bipartite structure that enables long-range interactions across the image, while maintaining computation of linearly efficiency, that can readily scale to high-resolution synthesis. It iteratively propagates information from a set of latent variables to the evolving visual features and vice versa, to support the refinement of each in light of the other and encourage the emergence of compositional representations of objects and scenes. In contrast to the classic transformer architecture, it utilizes multiplicative integration that allows flexible region-based modulation, and can thus be seen as a generalization of the successful StyleGAN network. We demonstrate the model's strength and robustness through a careful evaluation over a range of datasets, from simulated multi-object environments to rich real-world indoor and outdoor scenes, showing it achieves state-of-the-art results in terms of image quality and diversity, while enjoying fast learning and better data-efficiency. Further qualitative and quantitative experiments offer us an insight into the model's inner workings, revealing improved interpretability and stronger disentanglement, and illustrating the benefits and efficacy of our approach. An implementation of the model is available at https://github.com/dorarad/gansformer.
翻訳日:2021-03-06 07:21:53 公開日:2021-03-02
# (参考訳) 説明することを学びましたか? 解釈可能性手法が解釈中の予測をエンコードする方法

Have We Learned to Explain?: How Interpretability Methods Can Learn to Encode Predictions in their Interpretations ( http://arxiv.org/abs/2103.01890v1 )

ライセンス: CC BY 4.0
Neil Jethani, Mukund Sudarshan, Yindalon Aphinyanaphongs, Rajesh Ranganath(参考訳) 解釈可能な機械学習の必要性は確立されているが、多くの一般的なアプローチは遅く、忠実性がなく、評価が難しい。 Amortized descriptionメソッドは、単一のデータインスタンスに特徴的重要性を返すグローバルセレクタモデルを学ぶことで、解釈を提供するコストを削減します。 ターゲットの予測モデルによって評価されるように、セレクタモデルは解釈の忠実度を最適化するように訓練される。 ポピュラーな手法はセレクタモデルと予測モデルを共同で学習し,解釈内で予測を符号化できることを示す。 EVAL-Xは、解釈を定量的に評価する手法であり、REAL-Xは、入力の任意のサブセットを与えられた真のデータ生成分布を近似する予測モデルを学ぶ償却説明法である。 EVAL-Xは、予測が解釈にエンコードされたときに検出でき、定量的および放射線学者評価を通じてREAL-Xの利点を示す。

While the need for interpretable machine learning has been established, many common approaches are slow, lack fidelity, or hard to evaluate. Amortized explanation methods reduce the cost of providing interpretations by learning a global selector model that returns feature importances for a single instance of data. The selector model is trained to optimize the fidelity of the interpretations, as evaluated by a predictor model for the target. Popular methods learn the selector and predictor model in concert, which we show allows predictions to be encoded within interpretations. We introduce EVAL-X as a method to quantitatively evaluate interpretations and REAL-X as an amortized explanation method, which learn a predictor model that approximates the true data generating distribution given any subset of the input. We show EVAL-X can detect when predictions are encoded in interpretations and show the advantages of REAL-X through quantitative and radiologist evaluation.
翻訳日:2021-03-06 06:56:51 公開日:2021-03-02
# (参考訳) 画像デレンダリングのためのデュアル強化ベースの仕様生成

Dual Reinforcement-Based Specification Generation for Image De-Rendering ( http://arxiv.org/abs/2103.01867v1 )

ライセンス: CC BY 4.0
Ramakanth Pasunuru, David Rosenberg, Gideon Mann, Mohit Bansal(参考訳) ディープラーニングの進歩は、コンピュータ生成画像のデレンダリングによるグラフィックプログラムの推論に有望な進歩をもたらした。 しかし、現在の手法では、どのデコード方法がグラフィックプログラムを推論するためのインダクティブバイアスを改善するかは検討されていない。 本研究では, LSTM-RNN 対 Transformer ネットワークを, 順序非依存なグラフィックスプログラムのためのデコーダとして有効性を検討した。 これらはシーケンスモデルであるため、可能性トレーニングのためにグラフィックプログラム内のオブジェクトの順序を選択する必要があります。 LSTMの性能はシーケンス順序(ランダム順序とパターンベースの順序)に非常に敏感であるが、トランスフォーマーの性能はシーケンス順序から大きく独立していた。 さらに,グラフィックプログラム仕様とレンダリング画像の両方に基づいて,多種多様な報酬によってデコーダの帰納的バイアスを改善するための,ポリシー勾配に基づく強化学習手法を提案する。 また,これら相補的な報酬の組み合わせについても検討する。 2つのグラフィックプログラム生成データセットの最先端結果を得る。

Advances in deep learning have led to promising progress in inferring graphics programs by de-rendering computer-generated images. However, current methods do not explore which decoding methods lead to better inductive bias for inferring graphics programs. In our work, we first explore the effectiveness of LSTM-RNN versus Transformer networks as decoders for order-independent graphics programs. Since these are sequence models, we must choose an ordering of the objects in the graphics programs for likelihood training. We found that the LSTM performance was highly sensitive to the sequence ordering (random order vs. pattern-based order), while Transformer performance was roughly independent of the sequence ordering. Further, we present a policy gradient based reinforcement learning approach for better inductive bias in the decoder via multiple diverse rewards based both on the graphics program specification and the rendered image. We also explore the combination of these complementary rewards. We achieve state-of-the-art results on two graphics program generation datasets.
翻訳日:2021-03-06 06:28:35 公開日:2021-03-02
# (参考訳) モデル解釈可能性に関する対比的説明

Contrastive Explanations for Model Interpretability ( http://arxiv.org/abs/2103.01378v1 )

ライセンス: CC BY 4.0
Alon Jacovi, Swabha Swayamdipta, Shauli Ravfogel, Yanai Elazar, Yejin Choi, Yoav Goldberg(参考訳) 対照的な説明は、ある出来事が他の出来事と対照的に起こった理由を明確にする。 彼らは人間にとってより直感的で、生産も理解もしやすい。 本稿では,非矛盾情報を無視して表現を改変し,コントラスト的推論のみに基づいてモデル行動を変更することにより,分類モデルの対比的説明を作成する手法を提案する。 提案手法はモデル表現を潜在空間に投影し,2つの潜在的な決定を区別するために有用な特徴(モデルに対して)のみをキャプチャする。 2つのテキスト分類タスクにおいて,高レベル抽象概念帰属と低レベル入力トークン/スパン帰属の両方を用いて,コントラスト的説明の価値を示す。 具体的には、どのラベルに対して、どのラベルに対して、入力のいくつかの側面が有用か? そして、入力のどの側面が特定の決定に役に立ちますか? 全体としては,モデル決定のより正確できめ細かな解釈性を提供するために,ラベルコントラスト的説明の能力に光を当てた。

Contrastive explanations clarify why an event occurred in contrast to another. They are more inherently intuitive to humans to both produce and comprehend. We propose a methodology to produce contrastive explanations for classification models by modifying the representation to disregard non-contrastive information, and modifying model behavior to only be based on contrastive reasoning. Our method is based on projecting model representation to a latent space that captures only the features that are useful (to the model) to differentiate two potential decisions. We demonstrate the value of contrastive explanations by analyzing two different scenarios, using both high-level abstract concept attribution and low-level input token/span attribution, on two widely used text classification tasks. Specifically, we produce explanations for answering: for which label, and against which alternative label, is some aspect of the input useful? And which aspects of the input are useful for and against particular decisions? Overall, our findings shed light on the ability of label-contrastive explanations to provide a more accurate and finer-grained interpretability of a model's decision.
翻訳日:2021-03-06 06:00:59 公開日:2021-03-02
# (参考訳) 感情発生ペア抽出のためのエンドツーエンドネットワーク

An End-to-End Network for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2103.01544v1 )

ライセンス: CC BY 4.0
Aaditya Singh and Shreeshail Hingane and Saim Wani and Ashutosh Modi(参考訳) Emotion-Cause Pair Extraction(ECPE)のタスクは、文書中の感情とその対応する原因のすべての潜在的な条項ペアを抽出することを目指しています。 感情原因抽出(ECE)のよりよく研究されたタスクとは異なり、ECPEはアノテーションとして提供される感情条項を必要としない。 以前のECPEの研究は、感情抽出、原因抽出、ペアリングを独立して行うマルチステージアプローチ、あるいはその制限を解決するために複雑なアーキテクチャを使用していた。 本稿では,ECPEタスクのエンドツーエンドモデルを提案する。 英語ECPEコーパスが利用できないため、NCCIR-13 ECEコーパスを適応させ、このデータセット上にECPEタスクのベースラインを確立します。 提案手法は,多段階アプローチよりも高い性能向上(F1スコアの約6.5増加)を達成し,最先端手法に匹敵する性能を実現する。

The task of Emotion-Cause Pair Extraction (ECPE) aims to extract all potential clause-pairs of emotions and their corresponding causes in a document. Unlike the more well-studied task of Emotion Cause Extraction (ECE), ECPE does not require the emotion clauses to be provided as annotations. Previous works on ECPE have either followed a multi-stage approach where emotion extraction, cause extraction, and pairing are done independently or use complex architectures to resolve its limitations. In this paper, we propose an end-to-end model for the ECPE task. Due to the unavailability of an English language ECPE corpus, we adapt the NTCIR-13 ECE corpus and establish a baseline for the ECPE task on this dataset. On this dataset, the proposed method produces significant performance improvements (~6.5 increase in F1 score) over the multi-stage approach and achieves comparable performance to the state-of-the-art methods.
翻訳日:2021-03-06 05:38:03 公開日:2021-03-02
# (参考訳) 神経生産システム

Neural Production Systems ( http://arxiv.org/abs/2103.01937v1 )

ライセンス: CC BY 4.0
Anirudh Goyal, Aniket Didolkar, Nan Rosemary Ke, Charles Blundell, Philippe Beaudoin, Nicolas Heess, Michael Mozer, Yoshua Bengio(参考訳) 視覚環境は、異なるオブジェクトまたはエンティティから構成される。 これらのエンティティは、相互に相互作用する方法を決定するプロパティ -- 可視性と潜在性 -- を持っている。 イメージをエンティティに分割するために、ディープラーニング研究者はスロットベースのアーキテクチャのような構造的誘導バイアスを提案した。 実体間の相互作用をモデル化するために、同値グラフニューラルネットワーク(GNN)が使用されるが、これらは2つの理由でタスクに特に適していない。 第一に、GNNは、独立したエンティティ間の関係がそうであるように、相互作用が疎いことを前提としない。 第二に、GNNはエンティティ条件による相互作用に関する知識を分解しない。 別の方法として、私たちは認知科学からインスピレーションを得て、特定のエンティティに対するルールにプレースホルダ変数をバインドすることで適用される一連のルールテンプレートからなる古典的なアプローチであるプロダクションシステムを復活させます。 ルールはエンティティにマッチしてスコアされ、エンティティプロパティの更新に最適なルールが適用される。 一連の実験では、このアーキテクチャが柔軟でダイナミックな制御フローを達成し、エンティティ固有のルールベースの情報をファクタライズするのに役立つことを実証します。 この知識の分離は、リッチな視覚環境における堅牢な未来予測を実現し、GNNを用いた最先端の手法を上回り、単純な(少数の)環境からより複雑な環境への外挿を可能にします。

Visual environments are structured, consisting of distinct objects or entities. These entities have properties -- both visible and latent -- that determine the manner in which they interact with one another. To partition images into entities, deep-learning researchers have proposed structural inductive biases such as slot-based architectures. To model interactions among entities, equivariant graph neural nets (GNNs) are used, but these are not particularly well suited to the task for two reasons. First, GNNs do not predispose interactions to be sparse, as relationships among independent entities are likely to be. Second, GNNs do not factorize knowledge about interactions in an entity-conditional manner. As an alternative, we take inspiration from cognitive science and resurrect a classic approach, production systems, which consist of a set of rule templates that are applied by binding placeholder variables in the rules to specific entities. Rules are scored on their match to entities, and the best fitting rules are applied to update entity properties. In a series of experiments, we demonstrate that this architecture achieves a flexible, dynamic flow of control and serves to factorize entity-specific and rule-based information. This disentangling of knowledge achieves robust future-state prediction in rich visual environments, outperforming state-of-the-art methods using GNNs, and allows for the extrapolation from simple (few object) environments to more complex environments.
翻訳日:2021-03-06 04:15:12 公開日:2021-03-02
# (参考訳) deepmerge ii: ドメイン間の銀河識別を融合する堅牢なディープラーニングアルゴリズムの構築

DeepMerge II: Building Robust Deep Learning Algorithms for Merging Galaxy Identification Across Domains ( http://arxiv.org/abs/2103.01373v1 )

ライセンス: CC BY 4.0
A. \'Ciprijanovi\'c, D. Kafkes, K. Downey, S. Jenkins, G. N. Perdue, S. Madireddy, T. Johnston, G. F. Snyder, B. Nord(参考訳) 天文学では、ニューラルネットワークはしばしばシミュレーションデータで訓練され、望遠鏡の観測に使用されます。 残念ながら、シミュレーションデータ上でモデルをトレーニングし、それを計測データに適用すると、新たなターゲットデータセット上でのモデル精度の相当かつ潜在的に低下につながる。 シミュレーションと計測データは異なるデータドメインを表し、アルゴリズムが両方で動作するためには、ドメイン不変学習が必要である。 ここでは、追加の転送損失として最大平均離散値 (MMD) と、DANN (Domain Adversarial Neural Networks) の$-$を用いて、融合銀河と非融合銀河を分類する天文学的文脈において、ドメイン不変の特徴を抽出する可能性を示す。 さらに,Fisher損失とエントロピー最小化を利用して,ドメイン内クラス識別性を向上する方法について検討する。 従来の深層学習アルゴリズムと比較して,各領域適応手法の追加により分類器の性能が向上することを示した。 この2つの例は、遠方の銀河の2つのIllustris-1シミュレーションデータセットと、近くの銀河のシミュレーションデータとSloan Digital Sky Surveyの観測データである。 私たちの実験におけるドメイン適応技術の使用は、ターゲットドメイン分類精度を${\sim}20\%$まで高めることにつながります。 これらの技術により、シミュレーションデータに基づいて訓練されたニューラルネットワークモデルを成功裏に実装し、現在および将来の大規模天文調査で天体を効率的に検出および研究することができます。

In astronomy, neural networks are often trained on simulation data with the prospect of being used on telescope observations. Unfortunately, training a model on simulation data and then applying it to instrument data leads to a substantial and potentially even detrimental decrease in model accuracy on the new target dataset. Simulated and instrument data represent different data domains, and for an algorithm to work in both, domain-invariant learning is necessary. Here we employ domain adaptation techniques$-$ Maximum Mean Discrepancy (MMD) as an additional transfer loss and Domain Adversarial Neural Networks (DANNs)$-$ and demonstrate their viability to extract domain-invariant features within the astronomical context of classifying merging and non-merging galaxies. Additionally, we explore the use of Fisher loss and entropy minimization to enforce better in-domain class discriminability. We show that the addition of each domain adaptation technique improves the performance of a classifier when compared to conventional deep learning algorithms. We demonstrate this on two examples: between two Illustris-1 simulated datasets of distant merging galaxies, and between Illustris-1 simulated data of nearby merging galaxies and observed data from the Sloan Digital Sky Survey. The use of domain adaptation techniques in our experiments leads to an increase of target domain classification accuracy of up to ${\sim}20\%$. With further development, these techniques will allow astronomers to successfully implement neural network models trained on simulation data to efficiently detect and study astrophysical objects in current and future large-scale astronomical surveys.
翻訳日:2021-03-06 03:05:35 公開日:2021-03-02
# (参考訳) 埋め込み拡張による対話生成の効率化に向けて

Towards Efficiently Diversifying Dialogue Generation via Embedding Augmentation ( http://arxiv.org/abs/2103.01534v1 )

ライセンス: CC BY 4.0
Yu Cao, Liang Ding, Zhiliang Tian, Meng Fang(参考訳) 対話生成モデルは、ジェネリックで反復的な応答を生成するという課題に直面している。 本論文では, トークン操作を重視し, ハードラベルを用いた単一試料中の本質的多様性を無視する従来の増強法と異なり, ソフト埋め込み拡張とソフトラベルによる神経対話モデルの生成多様性の促進を提案する。 特に、いくつかのキー入力トークンを選択し、その埋め込みとセマンティックに近いトークンからの埋め込みを融合します。 新しい組込みは、元の組込みを置き換えるモデルの入力として機能する。 さらに、ソフトラベルは損失計算に使用され、与えられた入力に対してマルチターゲットの監督を行う。 2つのデータセットの実験結果から,本手法は生モデルよりも多様な応答を生成できる一方,生成した応答の品質を保証するn-gramの精度が維持できることが示された。

Dialogue generation models face the challenge of producing generic and repetitive responses. Unlike previous augmentation methods that mostly focus on token manipulation and ignore the essential variety within a single sample using hard labels, we propose to promote the generation diversity of the neural dialogue models via soft embedding augmentation along with soft labels in this paper. Particularly, we select some key input tokens and fuse their embeddings together with embeddings from their semantic-neighbor tokens. The new embeddings serve as the input of the model to replace the original one. Besides, soft labels are used in loss calculation, resulting in multi-target supervision for a given input. Our experimental results on two datasets illustrate that our proposed method is capable of generating more diverse responses than raw models while remains a similar n-gram accuracy that ensures the quality of generated responses.
翻訳日:2021-03-06 02:22:03 公開日:2021-03-02
# (参考訳) 構成可能なNLPワークフローのためのデータセンタフレームワーク

A Data-Centric Framework for Composable NLP Workflows ( http://arxiv.org/abs/2103.01834v1 )

ライセンス: CC BY 4.0
Zhengzhong Liu, Guanxiong Ding, Avinash Bukkittu, Mansi Gupta, Pengzhi Gao, Atif Ahmed, Shikun Zhang, Xin Gao, Swapnil Singhavi, Linwei Li, Wei Wei, Zecong Hu, Haoran Shi, Xiaodan Liang, Teruko Mitamura, Eric P. Xing, and Zhiting Hu(参考訳) アプリケーションドメインにおける経験的自然言語処理(NLP)システム(例えば、医療、金融、教育)は、データの取り込み、人間のアノテーション、テキスト検索、分析、生成、可視化など、さまざまなコンポーネント間の相互運用を含む。 このような高度なNLPワークフローの迅速な開発を支援するために,我々は統一されたオープンソースフレームワークを構築している。 このフレームワークは、幅広いNLPタスクによって異種結果をエンコードするための統一データ表現を導入している。 nlpタスク、ビジュアライゼーション、アノテーションのためのプロセッサの大規模なリポジトリを提供しており、統一表現の下で完全な相互運用性で簡単に組み立てることができる。 拡張性の高いフレームワークにより、外部の既製のNLPとディープラーニングライブラリからカスタムプロセッサをプラグインできる。 フレームワーク全体は,2つのモジュール化された統合可能なオープンソースプロジェクト,すなわちforte1(ワークフローインフラストラクチャとnlp関数プロセッサ)とstave2(ユーザインタラクション,可視化,アノテーション)を通じて提供される。

Empirical natural language processing (NLP) systems in application domains (e.g., healthcare, finance, education) involve interoperation among multiple components, ranging from data ingestion, human annotation, to text retrieval, analysis, generation, and visualization. We establish a unified open-source framework to support fast development of such sophisticated NLP workflows in a composable manner. The framework introduces a uniform data representation to encode heterogeneous results by a wide range of NLP tasks. It offers a large repository of processors for NLP tasks, visualization, and annotation, which can be easily assembled with full interoperability under the unified representation. The highly extensible framework allows plugging in custom processors from external off-the-shelf NLP and deep learning libraries. The whole framework is delivered through two modularized yet integratable open-source projects, namely Forte1 (for workflow infrastructure and NLP function processors) and Stave2 (for user interaction, visualization, and annotation).
翻訳日:2021-03-06 02:09:45 公開日:2021-03-02
# (参考訳) カプセルネットワークによる短期動作予測改善のためのスパース意味層の潜時表現

Exploiting latent representation of sparse semantic layers for improved short-term motion prediction with Capsule Networks ( http://arxiv.org/abs/2103.01644v1 )

ライセンス: CC BY 4.0
Albert Dulian and John C. Murray(参考訳) 都市環境が高度に複雑化する中、自動運転車(AV)に埋め込まれた安全システムは、近くのエージェントの短期的な将来の動きを正確に予測できることが非常に重要です。 この問題は、追跡されたエージェントの将来の動きを記述する座標列を生成することでさらに理解することができる。 道路構造を規定する特徴を抽出するための畳み込みニューラルネットワーク(CNN)を組み合わせることで,道路のラスタライズされたトップダウンイメージを使用することによる,様々な提案手法が有益であることを示す。 運転可能な区域、車線、通路)。 対照的に,本稿では,ハイデフィケーション(hd)マップの小さな領域に対応する疎意味層の階層的表現を学習する文脈において,カプセルネットワーク(capsnets)の利用について検討する。 地図の各領域は、エージェントの現在の位置に関して抽出された別々の幾何学的層に分解される。 CapsNetsに基づくアーキテクチャを使用することで、検出された画像内の特徴間の階層的関係を維持すると同時に、プール操作によってしばしば発生する空間データの損失を防ぐことができる。 公開データセットのnuTonomyシーンでモデルをトレーニングし、評価し、最近公開された方法と比較します。 提案手法は,ネットワーク全体のサイズを劇的に削減しながら,最近発表された決定論的予測よりも大幅に改善することを示す。

As urban environments manifest high levels of complexity it is of vital importance that safety systems embedded within autonomous vehicles (AVs) are able to accurately anticipate short-term future motion of nearby agents. This problem can be further understood as generating a sequence of coordinates describing the future motion of the tracked agent. Various proposed approaches demonstrate significant benefits of using a rasterised top-down image of the road, with a combination of Convolutional Neural Networks (CNNs), for extraction of relevant features that define the road structure (eg. driveable areas, lanes, walkways). In contrast, this paper explores use of Capsule Networks (CapsNets) in the context of learning a hierarchical representation of sparse semantic layers corresponding to small regions of the High-Definition (HD) map. Each region of the map is dismantled into separate geometrical layers that are extracted with respect to the agent's current position. By using an architecture based on CapsNets the model is able to retain hierarchical relationships between detected features within images whilst also preventing loss of spatial data often caused by the pooling operation. We train and evaluate our model on publicly available dataset nuTonomy scenes and compare it to recently published methods. We show that our model achieves significant improvement over recently published works on deterministic prediction, whilst drastically reducing the overall size of the network.
翻訳日:2021-03-06 02:00:52 公開日:2021-03-02
# (参考訳) 解釈可能なマルチモーダルヘイトスピーチ検出

Interpretable Multi-Modal Hate Speech Detection ( http://arxiv.org/abs/2103.01616v1 )

ライセンス: CC BY 4.0
Prashanth Vijayaraghavan, Hugo Larochelle, Deb Roy(参考訳) 世界中の世論や信念の形成におけるソーシャルメディアの役割が高まる中、ソーシャルメディア上でのヘイトスピーチの問題を識別し、対処するための関心が高まっています。 オンライン空間でのヘイトスピーチには、社会的分極や憎悪犯罪など、深刻な兆候がある。 以前の研究ではヘイトスピーチをオンラインで検出する自動化技術が提案されているが、これらの手法はテキストコンテンツを超えては見られない。 さらに、誤った予測の社会的および法的意味から、そのようなモデルの解釈可能性の側面に焦点を合わせる試みは、ほとんど行われていない。 本研究は, 特定の憎悪表現が作られる社会文化的文脈とともに, テキストの意味を効果的に捉えることによって, ヘイトスピーチを効果的に検出し, (b) モデルの決定に対する解釈可能な洞察を提供する, ディープニューラルマルチモーダルモデルを提案する。 異なるモデリング手法の徹底的な評価を行うことで,既存のヘイトスピーチ分類手法を上回るモデルであることが実証された。 最後に、異なるカテゴリの憎悪に関連する未知のクラスタに対する社会的および文化的コンテキスト機能の重要性を示します。

With growing role of social media in shaping public opinions and beliefs across the world, there has been an increased attention to identify and counter the problem of hate speech on social media. Hate speech on online spaces has serious manifestations, including social polarization and hate crimes. While prior works have proposed automated techniques to detect hate speech online, these techniques primarily fail to look beyond the textual content. Moreover, few attempts have been made to focus on the aspects of interpretability of such models given the social and legal implications of incorrect predictions. In this work, we propose a deep neural multi-modal model that can: (a) detect hate speech by effectively capturing the semantics of the text along with socio-cultural context in which a particular hate expression is made, and (b) provide interpretable insights into decisions of our model. By performing a thorough evaluation of different modeling techniques, we demonstrate that our model is able to outperform the existing state-of-the-art hate speech classification approaches. Finally, we show the importance of social and cultural context features towards unearthing clusters associated with different categories of hate.
翻訳日:2021-03-06 00:54:31 公開日:2021-03-02
# (参考訳) AdeNet: 電力線で損傷した電気絶縁体を識別するディープラーニングアーキテクチャ

AdeNet: Deep learning architecture that identifies damaged electrical insulators in power lines ( http://arxiv.org/abs/2103.01426v1 )

ライセンス: CC BY 4.0
Ademola Okerinde and Lior Shamir and William Hsu and Tom Theis(参考訳) セラミック絶縁体は電子システムにとって重要であり、高電圧電流の危険性から人を守るように設計されている。 しかし、絶縁体は不死ではなく、自然劣化によって徐々に損傷することがある。 そのため、絶縁体の状態は継続的に監視されなければならず、通常はuavを用いて行われる。 UAVは多数の絶縁体の画像を収集し、これらの画像を分析して損傷しているものを識別する。 本稿では,損傷した絶縁体を特定するために設計された深層ニューラルネットワークとしてadenetを記述し,絶縁体状態の自動解析のための複数のアプローチをテストする。 浅い学習方法と同様に、いくつかのディープニューラルネットワークがテストされた。 最良の結果(88.8\%)は、転送学習なしでAdeNetを用いて達成された。 AdeNetはまた、偽陰性率を$\sim$7\%に減らした。 人間の検査を完全に置き換えることはできないが、その高いスループットは損傷した絶縁体を監視するのに要する労力を削減し、損傷した絶縁体を置き換えるための早期警告を提供する。

Ceramic insulators are important to electronic systems, designed and installed to protect humans from the danger of high voltage electric current. However, insulators are not immortal, and natural deterioration can gradually damage them. Therefore, the condition of insulators must be continually monitored, which is normally done using UAVs. UAVs collect many images of insulators, and these images are then analyzed to identify those that are damaged. Here we describe AdeNet as a deep neural network designed to identify damaged insulators, and test multiple approaches to automatic analysis of the condition of insulators. Several deep neural networks were tested, as were shallow learning methods. The best results (88.8\%) were achieved using AdeNet without transfer learning. AdeNet also reduced the false negative rate to $\sim$7\%. While the method cannot fully replace human inspection, its high throughput can reduce the amount of labor required to monitor lines for damaged insulators and provide early warning to replace damaged insulators.
翻訳日:2021-03-05 23:56:49 公開日:2021-03-02
# (参考訳) 多次元時系列における欠落値計算

Missing Value Imputation on Multidimensional Time Series ( http://arxiv.org/abs/2103.01600v1 )

ライセンス: CC BY-SA 4.0
Parikshit Bansal, Prathamesh Deshpande, Sunita Sarawagi(参考訳) 本稿では,多次元時系列データセットにおける深層学習手法DeepMVIを提案する。 欠落した値は、異なるソースから長い時間にわたってデータを集約する意思決定支援プラットフォームや、欠落したデータを慎重に処理するための信頼性の高いデータ分析コールに共通する。 1つの戦略は、欠落した値を出力することであり、単純な補間、SVDのような行列分解法、カルマンフィルタのような統計モデル、そして最近のディープラーニング手法にまたがる幅広いアルゴリズムが存在する。 欠落したデータを除外するよりも、集計分析に悪い結果をもたらすことが多いことが示されています。 DeepMVIはニューラルネットワークを使用して、時系列に沿ってきめ細かなパターンと粗いパターンを組み合わせ、関連するシリーズからカテゴリ次元の傾向を結合する。 既製のニューラルネットワークアーキテクチャに失敗した後、私たちは、新しい畳み込みウィンドウ機能を備えたテンポラルトランスと、学習された埋め込みによるカーネル回帰を含む独自のネットワークを設計します。 パラメータとそのトレーニングは、欠落ブロックとデータ特性の異なる配置を一般化するために慎重に設計されている。 9つの実際のデータセット、異なる4つのシナリオ、そして7つの既存のメソッドを比較した実験は、DeepMVIがはるかに正確であることを示し、最も優れた既存のメソッドと比較して、半分以上のケースでエラーを50%以上削減している。 単純な行列分解法よりも遅いが、値の欠落よりも全体として正確な分析を提供するのがdeepmviのみであることを示し、時間オーバーヘッドの増加を正当化する。

We present DeepMVI, a deep learning method for missing value imputation in multidimensional time-series datasets. Missing values are commonplace in decision support platforms that aggregate data over long time stretches from disparate sources, and reliable data analytics calls for careful handling of missing data. One strategy is imputing the missing values, and a wide variety of algorithms exist spanning simple interpolation, matrix factorization methods like SVD, statistical models like Kalman filters, and recent deep learning methods. We show that often these provide worse results on aggregate analytics compared to just excluding the missing data. DeepMVI uses a neural network to combine fine-grained and coarse-grained patterns along a time series, and trends from related series across categorical dimensions. After failing with off-the-shelf neural architectures, we design our own network that includes a temporal transformer with a novel convolutional window feature, and kernel regression with learned embeddings. The parameters and their training are designed carefully to generalize across different placements of missing blocks and data characteristics. Experiments across nine real datasets, four different missing scenarios, comparing seven existing methods show that DeepMVI is significantly more accurate, reducing error by more than 50% in more than half the cases, compared to the best existing method. Although slower than simpler matrix factorization methods, we justify the increased time overheads by showing that DeepMVI is the only option that provided overall more accurate analytics than dropping missing values.
翻訳日:2021-03-05 23:46:01 公開日:2021-03-02
# (参考訳) R'enyi差分プライバシーを用いた実用的なプライバシーフィルタとオドメーターと差分プライベートディープラーニングへの応用

Practical Privacy Filters and Odometers with R\'enyi Differential Privacy and Applications to Differentially Private Deep Learning ( http://arxiv.org/abs/2103.01379v1 )

ライセンス: CC BY 4.0
Mathias L\'ecuyer(参考訳) 差分プライバシー(DP)は、ディープラーニングを保護するプライバシーに対する主要なアプローチです。 そのため、DPの一般的なフレームワークへのドロップイン統合を提供するための複数の取り組みがある。 DPを作るために各勾配計算にノイズを加えるこれらの努力は、DP計算のこのシーケンスで生じる総プライバシー損失を束縛するために組成定理に頼っている。 しかし、既存の組成定理は効率と柔軟性の間の緊張を示す。 ほとんどの定理では、シーケンス内のすべての計算はプライバシー予算と呼ばれる予め定義されたDPパラメータを持つ必要がある。 これにより、プライバシ予算を順応するトレーニングアルゴリズムの設計や、あるいはプライバシ損失の総削減のために早期に終了するアルゴリズムの設計が防止される。 あるいは、適応的なプライバシー予算のためのいくつかの既存の構成結果が、プライバシー損失の複雑な境界を提供し、定数が大きすぎて実用的ではない。 本稿では,R\'enyi Differential Privacy のレンズを用いて適応的プライバシー予算の下でDP合成を研究し,より小さな定数を持つより単純な合成定理を証明し,アルゴリズム設計に十分な実用性を持たせる。 DP深層学習のためのこの定理の2つの応用を実証する: ノイズまたはバッチサイズをオンラインで適応して、固定された総プライバシー損失内のモデルの精度を改善すること、そして全プライバシー損失を減らすためにモデルを微調整するときに早めに停止すること。

Differential Privacy (DP) is the leading approach to privacy preserving deep learning. As such, there are multiple efforts to provide drop-in integration of DP into popular frameworks. These efforts, which add noise to each gradient computation to make it DP, rely on composition theorems to bound the total privacy loss incurred over this sequence of DP computations. However, existing composition theorems present a tension between efficiency and flexibility. Most theorems require all computations in the sequence to have a predefined DP parameter, called the privacy budget. This prevents the design of training algorithms that adapt the privacy budget on the fly, or that terminate early to reduce the total privacy loss. Alternatively, the few existing composition results for adaptive privacy budgets provide complex bounds on the privacy loss, with constants too large to be practical. In this paper, we study DP composition under adaptive privacy budgets through the lens of R\'enyi Differential Privacy, proving a simpler composition theorem with smaller constants, making it practical enough to use in algorithm design. We demonstrate two applications of this theorem for DP deep learning: adapting the noise or batch size online to improve a model's accuracy within a fixed total privacy loss, and stopping early when fine-tuning a model to reduce total privacy loss.
翻訳日:2021-03-05 17:45:55 公開日:2021-03-02
# (参考訳) 過パラメータ化下におけるラベル不均衡とグループ感性分類

Label-Imbalanced and Group-Sensitive Classification under Overparameterization ( http://arxiv.org/abs/2103.01550v1 )

ライセンス: CC0 1.0
Ganesh Ramachandra Kini, Orestis Paraskevas, Samet Oymak and Christos Thrampoulidis(参考訳) label-imbalanced and group-sensitive classificationは、標準トレーニングアルゴリズムを適切に修正して、バランスのとれたエラーや機会の均等さといった関連するメトリクスを最適化しようとする。 ラベルの不均衡に対する最近の研究は、標準的な経験的リスク最小化のためのロジット調整された損失修正を提案している。 これは一般には効果がなく、訓練がゼロの訓練・テロ体制で継続する過度にパラメータ化された体制では特にそうである。 特に分離可能なデータセットのバイナリ線形分類では、修正された損失がロジット調整にもかかわらずmax-margin svm分類器に収束することを示す。 代わりに、コストに敏感なsvm(cs-svm)に直接関係するより一般的なベクトルスケーリングの損失を提案し、マイノリティクラスにより大きなマージンを与える。 ガウス混合データモデルに対する鋭い漸近解析を通じて、マイノリティクラスとマイノリティクラスのエラーのバランスをとるCS-SVMの有効性を実証する。 また,本解析はマージン比パラメータを最適に調整するための簡易な手法も導出する。 そこで本研究では, 2つの共通する不均衡(ラベル/グループ)を統一的に処理し, 2つの分類にどのように拡張するかを示す。 我々は, 合成および実世界の両方のデータセットに関する数値実験により, 理論的知見を裏付ける。

Label-imbalanced and group-sensitive classification seeks to appropriately modify standard training algorithms to optimize relevant metrics such as balanced error and/or equal opportunity. For label imbalances, recent works have proposed a logit-adjusted loss modification to standard empirical risk minimization. We show that this might be ineffective in general and, in particular so, in the overparameterized regime where training continues in the zero training-error regime. Specifically for binary linear classification of a separable dataset, we show that the modified loss converges to the max-margin SVM classifier despite the logit adjustment. Instead, we propose a more general vector-scaling loss that directly relates to the cost-sensitive SVM (CS-SVM), thus favoring larger margin to the minority class. Through an insightful sharp asymptotic analysis for a Gaussian-mixtures data model, we demonstrate the efficacy of CS-SVM in balancing the errors of the minority/majority classes. Our analysis also leads to a simple strategy for optimally tuning the involved margin-ratio parameter. Then, we show how our results extend naturally to binary classification with sensitive groups, thus treating the two common types of imbalances (label/group) in a unifying way. We corroborate our theoretical findings with numerical experiments on both synthetic and real-world datasets.
翻訳日:2021-03-05 17:13:15 公開日:2021-03-02
# (参考訳) 時系列データ生成のためのスペクトル化GAN

A Spectral Enabled GAN for Time Series Data Generation ( http://arxiv.org/abs/2103.01904v1 )

ライセンス: CC BY 4.0
Kaleb E. Smith and Anthony O. Smith(参考訳) 時間依存データは、今日のデータ駆動世界における主要な情報源である。 しかし、この種のデータを生成することは、その課題を示し、生成機械学習の分野で興味深い研究分野となった。 そのようなアプローチの1つは、Smithらによるものである。 彼はTime Series Generative Adversarial Network(TSGAN)を開発し、トレーニングと学習の特定の側面に欠陥があるにもかかわらず、時間依存データの生成と少数のショット生成の能力で有望なパフォーマンスを示した。 本稿では,tsganにおける独立ネットワークの学習を統一し,学習と学習の両方に依存させることにより,tsganの結果を改善し,これらの欠陥に対処することを目的とする。 統合TSGAN(uTSGAN)と呼ばれるこの改善は、コミュニティで使用されている70のベンチマーク時系列データセットで、その前任者に定量的および定性的に評価された。 utsganは、データセット全体のfidスコアが向上し、少数のショット生成能力を維持しながら、トレーニング期間の3/4以下で、データセットのトレーニングエポック数とデータセットの60\%とで、データセットの80\%でtsganを上回ることを示した。

Time dependent data is a main source of information in today's data driven world. Generating this type of data though has shown its challenges and made it an interesting research area in the field of generative machine learning. One such approach was that by Smith et al. who developed Time Series Generative Adversarial Network (TSGAN) which showed promising performance in generating time dependent data and the ability of few shot generation though being flawed in certain aspects of training and learning. This paper looks to improve on the results from TSGAN and address those flaws by unifying the training of the independent networks in TSGAN and creating a dependency both in training and learning. This improvement, called unified TSGAN (uTSGAN) was tested and comapred both quantitatively and qualitatively to its predecessor on 70 benchmark time series data sets used in the community. uTSGAN showed to outperform TSGAN in 80\% of the data sets by the same number of training epochs and 60\% of the data sets in 3/4th the amount of training time or less while maintaining the few shot generation ability with better FID scores across those data sets.
翻訳日:2021-03-05 17:12:05 公開日:2021-03-02
# 金融犯罪と不正検出のためのグラフコンピューティング:トレンド,課題,展望

Graph Computing for Financial Crime and Fraud Detection: Trends, Challenges and Outlook ( http://arxiv.org/abs/2103.03227v1 )

ライセンス: Link先を確認
E.Kurshan, H. Shen(参考訳) デジタル決済の台頭は、金融犯罪の状況に一連の変化をもたらした。 その結果、ルールベースシステムのような従来の不正検出手法は、ほとんど効果が無くなっている。 グラフコンピューティングの原則を用いたAIと機械学習のソリューションは、近年大きな関心を集めている。 グラフベースの技術は、金融犯罪検出にユニークな解決策を提供する。 しかし、リアルタイム金融取引処理システムにおける産業規模でのそのようなソリューションの実装は、多くのアプリケーション課題を浮き彫りにしている。 本稿では,現在および次世代グラフソリューションが直面する実装難しさについて述べる。 さらに、金融犯罪やデジタル決済の傾向は、検出技術の継続的な有効性の新たな課題を示している。 脅威の状況を分析し、グラフベースのソリューションを開発する上で重要な洞察を提供すると主張します。

The rise of digital payments has caused consequential changes in the financial crime landscape. As a result, traditional fraud detection approaches such as rule-based systems have largely become ineffective. AI and machine learning solutions using graph computing principles have gained significant interest in recent years. Graph-based techniques provide unique solution opportunities for financial crime detection. However, implementing such solutions at industrial-scale in real-time financial transaction processing systems has brought numerous application challenges to light. In this paper, we discuss the implementation difficulties current and next-generation graph solutions face. Furthermore, financial crime and digital payments trends indicate emerging challenges in the continued effectiveness of the detection techniques. We analyze the threat landscape and argue that it provides key insights for developing graph-based solutions.
翻訳日:2021-03-05 15:04:55 公開日:2021-03-02
# (参考訳) 画像からの雑草検出のための深層学習手法の検討

A Survey of Deep Learning Techniques for Weed Detection from Images ( http://arxiv.org/abs/2103.01415v1 )

ライセンス: CC BY 4.0
A S M Mahmudul Hasan, Ferdous Sohel, Dean Diepeveen, Hamid Laga and Michael G.K. Jones(参考訳) ディープラーニング(DL)技術の急速な進歩により、画像やビデオからのオブジェクトの迅速な検出、ローカライゼーション、認識が可能になった。 DL技術は現在、農業や農業に関する多くの応用で使われている。 雑草の自動検出と分類は雑草管理において重要な役割を果たすため、高収率に寄与する。 画像からの作物の雑草検出は、雑草と作物の両方に類似した色(「緑と緑」)があり、その形状と食感が成長段階で非常に類似しているため、本質的に困難な問題です。 また、ある設定の作物を別の設定の雑草と見なすこともできる。 その検出に加えて、特定の雑草種の認識が不可欠であり、標的となる制御機構(例えば)が重要である。 適切な除草剤と正しい用量)が適用できる。 本稿では,既存の深層学習に基づく雑草検出・分類手法について概説する。 データ取得、データセット作成、作物の雑草の検出、場所と分類に用いられるDL技術、評価指標のアプローチの4つの主要な手順に関する詳細な文献をカバーしています。 その結果,多くの研究が教師あり学習手法を応用し,植物データセット上で事前学習したモデルを微調整することで,高い分類精度を達成していることがわかった。

The rapid advances in Deep Learning (DL) techniques have enabled rapid detection, localisation, and recognition of objects from images or videos. DL techniques are now being used in many applications related to agriculture and farming. Automatic detection and classification of weeds can play an important role in weed management and so contribute to higher yields. Weed detection in crops from imagery is inherently a challenging problem because both weeds and crops have similar colours ('green-on-green'), and their shapes and texture can be very similar at the growth phase. Also, a crop in one setting can be considered a weed in another. In addition to their detection, the recognition of specific weed species is essential so that targeted controlling mechanisms (e.g. appropriate herbicides and correct doses) can be applied. In this paper, we review existing deep learning-based weed detection and classification techniques. We cover the detailed literature on four main procedures, i.e., data acquisition, dataset preparation, DL techniques employed for detection, location and classification of weeds in crops, and evaluation metrics approaches. We found that most studies applied supervised learning techniques, they achieved high classification accuracy by fine-tuning pre-trained models on any plant dataset, and past experiments have already achieved high accuracy when a large amount of labelled data is available.
翻訳日:2021-03-05 14:37:56 公開日:2021-03-02
# (参考訳) CNN-LSTMによる都市拡張予測手法

A Novel CNN-LSTM-based Approach to Predict Urban Expansion ( http://arxiv.org/abs/2103.01695v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Hamza Ghandorh, Mehshan Ahmed Khan, Fawad Ahmed, Jawad Ahmad(参考訳) 時系列リモートセンシングデータは、土地被覆の変化の監視からサーベイリング作物、沿岸部の変化、洪水リスクアセスメント、都市スプロールまで、幅広いアプリケーションで使用できる豊富な情報源を提供します。 本稿では,時系列衛星画像を用いた都市拡大予測の課題について論じる。 そこで本稿では, 都市拡大を予測するために, セマンティックイメージセグメンテーションに基づく新しい2段階アプローチを提案する。 最初のステップは、異なる時間スケールで都市地域に関する情報を抽出し、トレーニングステップで使用するために準備することです。 2番目のステップは、Convolutional Neural Networks(CNN)とLong Short Term Memory(LSTM)を組み合わせ、時間的特徴を学び、都市の拡大を予測します。 本論文では,サウジアラビアの3大都市,すなわちリヤド,ジェッダ,ダムマムを表す複数の衛星画像を用いて実験を行った。 提案手法を実証的に評価し,その成果を最新手法と比較して検討した。 本評価の結果から,新しい結合型CNN-LSTM手法の性能,特に平均正方形誤差,ルート平均正方形誤差,ピーク信号の雑音比,構造類似度指数,全体分類精度に基づく評価の点において,性能が向上していることが判明した。

Time-series remote sensing data offer a rich source of information that can be used in a wide range of applications, from monitoring changes in land cover to surveilling crops, coastal changes, flood risk assessment, and urban sprawl. This paper addresses the challenge of using time-series satellite images to predict urban expansion. Building upon previous work, we propose a novel two-step approach based on semantic image segmentation in order to predict urban expansion. The first step aims to extract information about urban regions at different time scales and prepare them for use in the training step. The second step combines Convolutional Neural Networks (CNN) with Long Short Term Memory (LSTM) methods in order to learn temporal features and thus predict urban expansion. In this paper, experimental results are conducted using several multi-date satellite images representing the three largest cities in Saudi Arabia, namely: Riyadh, Jeddah, and Dammam. We empirically evaluated our proposed technique, and examined its results by comparing them with state-of-the-art approaches. Following this evaluation, we determined that our results reveal improved performance for the new-coupled CNN-LSTM approach, particularly in terms of assessments based on Mean Square Error, Root Mean Square Error, Peak Signal to Noise Ratio, Structural Similarity Index, and overall classification accuracy.
翻訳日:2021-03-05 14:35:56 公開日:2021-03-02
# (参考訳) 解釈可能なハイパースペクトルAI:非凸モデリングがハイパースペクトルリモートセンシングに合うとき

Interpretable Hyperspectral AI: When Non-Convex Modeling meets Hyperspectral Remote Sensing ( http://arxiv.org/abs/2103.01449v1 )

ライセンス: CC BY 4.0
Danfeng Hong and Wei He and Naoto Yokoya and Jing Yao and Lianru Gao and Liangpei Zhang and Jocelyn Chanussot and Xiao Xiang Zhu(参考訳) ハイパースペクトルイメージング(hyperspectral imaging)は、地球科学とリモートセンシング(rs)における画期的な技術である。 過去10年間で、主に熟練した専門家によってこれらのハイパースペクトル(HS)製品を処理および分析するための膨大な努力が行われています。 しかし、データ量の増加に伴い、人力と材料資源のコストの大部分は、手作業の負担軽減と効率の向上に新たな課題をもたらしている。 そのため、様々なHS RSアプリケーションに対してよりインテリジェントで自動的なアプローチを開発することが急務である。 凸最適化を備えた機械学習(ML)ツールは、多数の人工知能(AI)関連アプリケーションのタスクに成功しました。 しかし、HSイメージングの過程における様々なスペクトル変動の影響と高次元HS信号の複雑さと冗長性により、複雑な実用的問題を扱う能力は限定的であり、特にHSデータでは限られている。 凸モデルと比較して、より複雑な実シーンを特徴付け、技術的・理論的にモデル解釈可能性を提供する非凸モデリングは、難解なHSビジョンタスクと現在の高度なインテリジェントデータ処理モデルとのギャップを減らすための実現可能な解決策であることが証明されている。

Hyperspectral imaging, also known as image spectrometry, is a landmark technique in geoscience and remote sensing (RS). In the past decade, enormous efforts have been made to process and analyze these hyperspectral (HS) products mainly by means of seasoned experts. However, with the ever-growing volume of data, the bulk of costs in manpower and material resources poses new challenges on reducing the burden of manual labor and improving efficiency. For this reason, it is, therefore, urgent to develop more intelligent and automatic approaches for various HS RS applications. Machine learning (ML) tools with convex optimization have successfully undertaken the tasks of numerous artificial intelligence (AI)-related applications. However, their ability in handling complex practical problems remains limited, particularly for HS data, due to the effects of various spectral variabilities in the process of HS imaging and the complexity and redundancy of higher dimensional HS signals. Compared to the convex models, non-convex modeling, which is capable of characterizing more complex real scenes and providing the model interpretability technically and theoretically, has been proven to be a feasible solution to reduce the gap between challenging HS vision tasks and currently advanced intelligent data processing models.
翻訳日:2021-03-05 12:57:22 公開日:2021-03-02
# (参考訳) FinSim-2:Hypernym Detection in the Financial Services Domain using Knowledge Graphs (英語)

FinMatcher at FinSim-2: Hypernym Detection in the Financial Services Domain using Knowledge Graphs ( http://arxiv.org/abs/2103.01576v1 )

ライセンス: CC BY 4.0
Jan Portisch and Michael Hladik and Heiko Paulheim(参考訳) 本稿では,Web 会議と連携して,Web 上での金融技術ワークショップ (FinWeb) と共同で実施されている FinSim 2021 共有タスクについて,FinMatcher システムとその成果について述べる。 FinSim-2共有タスクは、金融サービスドメインの一連の概念ラベルで構成されています。 ゴールは、与えられた概念セットから最も関連するトップレベル概念を見つけることである。 FinMatcherシステムは、WordNet、Wikidata、WebIsALODの3つの公開知識グラフを利用しています。 グラフは明示的な特徴と、最も近いハイパーネムを予測するためにニューラル分類器に入力される潜時特徴を生成するために使用される。

This paper presents the FinMatcher system and its results for the FinSim 2021 shared task which is co-located with the Workshop on Financial Technology on the Web (FinWeb) in conjunction with The Web Conference. The FinSim-2 shared task consists of a set of concept labels from the financial services domain. The goal is to find the most relevant top-level concept from a given set of concepts. The FinMatcher system exploits three publicly available knowledge graphs, namely WordNet, Wikidata, and WebIsALOD. The graphs are used to generate explicit features as well as latent features which are fed into a neural classifier to predict the closest hypernym.
翻訳日:2021-03-05 10:52:51 公開日:2021-03-02
# (参考訳) ドメイン間の推奨事項: 課題, 進捗, 展望

Cross-Domain Recommendation: Challenges, Progress, and Prospects ( http://arxiv.org/abs/2103.01696v1 )

ライセンス: CC BY 4.0
Feng Zhu, Yan Wang, Chaochao Chen, Jun Zhou, Longfei Li, Guanfeng Liu(参考訳) 従来のレコメンデーションシステム(RS)におけるデータ分散性の問題に対処するために、よりリッチなドメインからの比較的リッチな情報を活用するためにクロスドメインレコメンデーション(CDR)が提案されている。 近年、CDRは広範囲に研究されているが、既存のCDRアプローチの体系的なレビューが欠けている。 このギャップを埋めるために,本稿では,課題,研究の進展,今後の方向性など,既存のCDRアプローチの総合的なレビューを行う。 具体的には,既存のCDRアプローチを,まず単一ターゲットCDR,マルチドメインレコメンデーション,デュアルターゲットCDR,マルチターゲットCDRの4つのタイプにまとめる。 次に、これらのCDRアプローチの定義と課題を示す。 次に、これらのアプローチに関する全分類と新しい分類を提案し、研究の進展を詳細に報告する。 最後に、我々はCDRでいくつかの有望な研究の方向を共有します。

To address the long-standing data sparsity problem in recommender systems (RSs), cross-domain recommendation (CDR) has been proposed to leverage the relatively richer information from a richer domain to improve the recommendation performance in a sparser domain. Although CDR has been extensively studied in recent years, there is a lack of a systematic review of the existing CDR approaches. To fill this gap, in this paper, we provide a comprehensive review of existing CDR approaches, including challenges, research progress, and future directions. Specifically, we first summarize existing CDR approaches into four types, including single-target CDR, multi-domain recommendation, dual-target CDR, and multi-target CDR. We then present the definitions and challenges of these CDR approaches. Next, we propose a full-view categorization and new taxonomies on these approaches and report their research progress in detail. In the end, we share several promising research directions in CDR.
翻訳日:2021-03-05 09:48:23 公開日:2021-03-02
# (参考訳) ReLUネットワークにおけるデミスティファイトバッチ正規化:等価凸最適化モデルと命令正規化

Demystifying Batch Normalization in ReLU Networks: Equivalent Convex Optimization Models and Implicit Regularization ( http://arxiv.org/abs/2103.01499v1 )

ライセンス: CC BY 4.0
Tolga Ergen, Arda Sahiner, Batu Ozturkler, John Pauly, Morteza Mardani, Mert Pilanci(参考訳) バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速し、安定化するための一般的な手法である。 実験的な成功にもかかわらず、BNの完全な理論的理解はまだ開発されていない。 本研究では,凸最適化のレンズを用いてBNを解析する。 多項式時間で訓練可能なBNを用いた重量減少正規化RELUネットワークの正確な凸表現を得るために,凸双対性に基づく解析フレームワークを導入する。 また, 最適層重みは高次元および/または過パラメータ化状態において単純な閉形式式として得られることを示した。 さらに、Gradient Descentは標準の非凸BNネットワークにアルゴリズム的バイアス効果を与え、この暗黙的な正規化を凸目標に明示的に符号化するアプローチを設計する。 CIFAR画像分類による実験は、標準BNネットワークのパフォーマンスを模倣し、大幅に改善するためのこの明示的な正規化の有効性を強調している。

Batch Normalization (BN) is a commonly used technique to accelerate and stabilize training of deep neural networks. Despite its empirical success, a full theoretical understanding of BN is yet to be developed. In this work, we analyze BN through the lens of convex optimization. We introduce an analytic framework based on convex duality to obtain exact convex representations of weight-decay regularized ReLU networks with BN, which can be trained in polynomial-time. Our analyses also show that optimal layer weights can be obtained as simple closed-form formulas in the high-dimensional and/or overparameterized regimes. Furthermore, we find that Gradient Descent provides an algorithmic bias effect on the standard non-convex BN network, and we design an approach to explicitly encode this implicit regularization into the convex objective. Experiments with CIFAR image classification highlight the effectiveness of this explicit regularization for mimicking and substantially improving the performance of standard BN networks.
翻訳日:2021-03-05 07:56:46 公開日:2021-03-02
# (参考訳) よりリアルな非線形モデルのヘッシアン固有スペクトル

Hessian Eigenspectra of More Realistic Nonlinear Models ( http://arxiv.org/abs/2103.01519v1 )

ライセンス: CC BY 4.0
Zhenyu Liao and Michael W. Mahoney(参考訳) 最適化問題を考えると、ヘッセン行列とその固有スペクトルは、より効率的な二次アルゴリズムの設計からモデル解析と回帰診断の実行まで、様々な方法で用いられる。 非線形モデルと非凸問題を考慮すると、ヘッセンスペクトル解析をよりトラクタブルにするために、強い単純化仮定がしばしばなされる。 これは、そのような解析の結論がより現実的な非線形モデルにどの程度関連しているかという問題につながる。 本稿では, ランダム行列理論による決定論的等価性を用いて, 従来の一般化線形モデルを一般化するモデルを含む, 幅広い非線形モデル群に対するヘッセン固有スペクトルの補題を, 従来より強固な単純化の仮定に頼らずに評価する。 データ特性、非線形応答モデル、損失関数に応じて、ヘッシアンは、有界または非有界のサポート、シングルまたはマルチバルク、バルクの左側または右側の孤立した固有値の異なるスペクトル挙動を持つことができることを示しています。 このような単純な非自明な非線形モデルに注目して、より複雑な機械学習モデルで観察される多くの視覚的特徴の理論的起源を明らかにする。

Given an optimization problem, the Hessian matrix and its eigenspectrum can be used in many ways, ranging from designing more efficient second-order algorithms to performing model analysis and regression diagnostics. When nonlinear models and non-convex problems are considered, strong simplifying assumptions are often made to make Hessian spectral analysis more tractable. This leads to the question of how relevant the conclusions of such analyses are for more realistic nonlinear models. In this paper, we exploit deterministic equivalent techniques from random matrix theory to make a \emph{precise} characterization of the Hessian eigenspectra for a broad family of nonlinear models, including models that generalize the classical generalized linear models, without relying on strong simplifying assumptions used previously. We show that, depending on the data properties, the nonlinear response model, and the loss function, the Hessian can have \emph{qualitatively} different spectral behaviors: of bounded or unbounded support, with single- or multi-bulk, and with isolated eigenvalues on the left- or right-hand side of the bulk. By focusing on such a simple but nontrivial nonlinear model, our analysis takes a step forward to unveil the theoretical origin of many visually striking features observed in more complex machine learning models.
翻訳日:2021-03-05 07:55:43 公開日:2021-03-02
# (参考訳) フィッシャーベクトルに基づく顔提示攻撃検出の一般化について

On the Generalisation Capabilities of Fisher Vector based Face Presentation Attack Detection ( http://arxiv.org/abs/2103.01721v1 )

ライセンス: CC BY 4.0
L\'azaro J. Gonz\'alez-Soler, Marta Gomez-Barrero, Christoph Busch(参考訳) 過去数十年間、生体認証システムによって経験された幅広い発展は、信頼性を低下させるいくつかの脅威を明らかにしてきた。 これらは、バイオメトリックシステムにアクセスする権限のない被験者によって簡単に実行できる攻撃プレゼンテーションです。 これらのセキュリティ上の懸念を軽減するため、ほとんどの顔提示攻撃検出技術は、既知の提示攻撃機器(PAI)および取得条件で評価された場合、未知の攻撃がテストセットに含まれるようなより困難なシナリオとは対照的に、優れた検出性能を報告している。 より現実的なシナリオでは、既存のアルゴリズムは未知のPAI種を検出するのに困難に直面します。 本研究では,2値化統計画像特徴ヒストグラムから計算したフィッシャーベクトルに基づく新しい特徴空間を用いて,未知の攻撃の検出を強化するために,既知のサンプルから意味的特徴部分集合を検出する。 この新たな表現は、無料で利用可能な顔データベースから得られる未知の攻撃に対して評価され、有望な結果を示している: AUCと17%未満のBPCER100と98%以上のAUCは、未知の攻撃の存在下で達成できる。 さらに,限られた数のパラメータをトレーニングすることにより,クロスデータセットシナリオに対する最先端のディープラーニングベースのアプローチを実現することができる。

In the last decades, the broad development experienced by biometric systems has unveiled several threats which may decrease their trustworthiness. Those are attack presentations which can be easily carried out by a non-authorised subject to gain access to the biometric system. In order to mitigate those security concerns, most face Presentation Attack Detection techniques have reported a good detection performance when they are evaluated on known Presentation Attack Instruments (PAI) and acquisition conditions, in contrast to more challenging scenarios where unknown attacks are included in the test set. For those more realistic scenarios, the existing algorithms face difficulties to detect unknown PAI species in many cases. In this work, we use a new feature space based on Fisher Vectors, computed from compact Binarised Statistical Image Features histograms, which allow discovering semantic feature subsets from known samples in order to enhance the detection of unknown attacks. This new representation, evaluated for challenging unknown attacks taken from freely available facial databases, shows promising results: a BPCER100 under 17% together with an AUC over 98% can be achieved in the presence of unknown attacks. In addition, by training a limited number of parameters, our method is able to achieve state-of-the-art deep learning-based approaches for cross-dataset scenarios.
翻訳日:2021-03-05 06:31:13 公開日:2021-03-02
# (参考訳) RuSentEval: 言語ソース,エンコーダフォース!

RuSentEval: Linguistic Source, Encoder Force! ( http://arxiv.org/abs/2103.00573v2 )

ライセンス: CC BY 4.0
Vladislav Mikhailov and Ekaterina Taktasheva and Elina Sigdel and Ekaterina Artemova(参考訳) 事前に訓練されたトランスフォーマー言語モデルの成功は、これらのモデルがどのように機能するか、そして言語について何を学ぶかに大きな関心をもたらしました。 しかし、この分野の先行研究は主に英語に特化しており、他の言語についてはほとんど知られていない。 この目的のために、ロシア向けの14の探索タスクの強化セットであるRuSentEvalを紹介した。 補足的探索法を組み合わせて,ロシア語と英語の2つのタイプ論的対照的な言語に対して,多言語トランスフォーマー5つの言語特性の分布を探索する。 本研究は,言語知識の表現方法に関する共通理解と矛盾する興味深い知見を示し,言語的差異にもかかわらず,いくつかの性質が類似した方法で学習されていることを示す。

The success of pre-trained transformer language models has brought a great deal of interest on how these models work, and what they learn about language. However, prior research in the field is mainly devoted to English, and little is known regarding other languages. To this end, we introduce RuSentEval, an enhanced set of 14 probing tasks for Russian, including ones that have not been explored yet. We apply a combination of complementary probing methods to explore the distribution of various linguistic properties in five multilingual transformers for two typologically contrasting languages -- Russian and English. Our results provide intriguing findings that contradict the common understanding of how linguistic knowledge is represented, and demonstrate that some properties are learned in a similar manner despite the language differences.
翻訳日:2021-03-05 05:47:57 公開日:2021-03-02
# (参考訳) M6:中国のマルチモーダルプリトレーナー

M6: A Chinese Multimodal Pretrainer ( http://arxiv.org/abs/2103.00823v2 )

ライセンス: CC BY 4.0
Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, Hongxia Yang(参考訳) 本研究では、1.9TB以上の画像と292GBの幅広い領域をカバーするテキストからなる中国語のマルチモーダルプリトレーニングのための最大のデータセットを構築する。 本稿では,マルチモダリティとマルチモダリティ・マルチタスク・メガトランスフォーマのマルチモダリティに着目し,単一モダリティと複数モダリティのデータの統合プリトレーニングを行うm6というクロスモダリティプリトレーニング手法を提案する。 モデルのサイズを100億から1000億のパラメータに拡大し、中国で最大の事前訓練モデルを構築します。 このモデルを一連の下流アプリケーションに適用し、強力なベースラインと比較して優れた性能を発揮します。 さらに,テキスト誘導画像生成の下流タスクを特に設計し,精細なm6が高精細で精細な画像を生成することができることを示す。

In this work, we construct the largest dataset for multimodal pretraining in Chinese, which consists of over 1.9TB images and 292GB texts that cover a wide range of domains. We propose a cross-modal pretraining method called M6, referring to Multi-Modality to Multi-Modality Multitask Mega-transformer, for unified pretraining on the data of single modality and multiple modalities. We scale the model size up to 10 billion and 100 billion parameters, and build the largest pretrained model in Chinese. We apply the model to a series of downstream applications, and demonstrate its outstanding performance in comparison with strong baselines. Furthermore, we specifically design a downstream task of text-guided image generation, and show that the finetuned M6 can create high-quality images with high resolution and abundant details.
翻訳日:2021-03-05 05:06:04 公開日:2021-03-02
# (参考訳) Hindi-Urdu Adposition and Case Supersenses v1.0

Hindi-Urdu Adposition and Case Supersenses v1.0 ( http://arxiv.org/abs/2103.01399v1 )

ライセンス: CC BY-SA 4.0
Aryaman Arora, Nitin Venkateswaran, Nathan Schneider(参考訳) これらはSNACS(Semantic Network of Adposition and Case Supersenses; Schneider et al)の適用ガイドラインである。 2018) デリーの現代標準ヒンディー語に。 SNACSは50のスーパーセンス(セマンティックラベル)のインベントリであり、語彙・セマンティック関数および基礎となる文脈との関係について、配置とケースマーカーの使用をラベル付けする。 英語ガイドライン(Schneider et al., 2020)は、この文書のモデルとして使用されました。 ケース・システムに加えて、ヒンディー語は斜めのジェネティヴに構築された非常に豊かな代用体系を持ち、現在のヒングリッシュでも生産的な借用語が組み込まれている。 この文書は英語ガイドラインのバージョン2.5と一致している。

These are the guidelines for the application of SNACS (Semantic Network of Adposition and Case Supersenses; Schneider et al. 2018) to Modern Standard Hindi of Delhi. SNACS is an inventory of 50 supersenses (semantic labels) for labelling the use of adpositions and case markers with respect to both lexical-semantic function and relation to the underlying context. The English guidelines (Schneider et al., 2020) were used as a model for this document. Besides the case system, Hindi has an extremely rich adpositional system built on the oblique genitive, with productive incorporation of loanwords even in present-day Hinglish. This document is aligned with version 2.5 of the English guidelines.
翻訳日:2021-03-05 02:54:22 公開日:2021-03-02
# (参考訳) 双方向ニューラル言語モデルを用いた教師なし単語分割

Unsupervised Word Segmentation with Bi-directional Neural Language Model ( http://arxiv.org/abs/2103.01421v1 )

ライセンス: CC BY 4.0
Lihao Wang, Zongyi Li, Xiaoqing Zheng(参考訳) 本稿では,教師なし単語分割モデルを提案する。学習目的は,そのすべてのセグメント化を考慮した文の生成確率を最大化することである。 そのような生成確率は、文脈が再帰的に与えられる各可能なセグメントの確率に分解できる。 長期的および短期的な依存関係をよりよく捉えるために、セグメントのコンテキストの特徴をよりよく捉えるために双方向のニューラル言語モデルを提案する。 2つの復号アルゴリズムは、単語境界の曖昧さを和らげる最後のセグメンテーションを生成するために、両方の方向からのコンテキスト特徴を組み合わせるために記述される。 実験結果から,中国語のさまざまなデータセットの異なる評価設定において,文脈に敏感な教師なしセグメンテーションモデルを達成し,タイ語に匹敵する結果を得た。

We present an unsupervised word segmentation model, in which the learning objective is to maximize the generation probability of a sentence given its all possible segmentation. Such generation probability can be factorized into the likelihood of each possible segment given the context in a recursive way. In order to better capture the long- and short-term dependencies, we propose to use bi-directional neural language models to better capture the features of segment's context. Two decoding algorithms are also described to combine the context features from both directions to generate the final segmentation, which helps to reconcile word boundary ambiguities. Experimental results showed that our context-sensitive unsupervised segmentation model achieved state-of-the-art at different evaluation settings on various data sets for Chinese, and the comparable result for Thai.
翻訳日:2021-03-05 02:53:24 公開日:2021-03-02
# (参考訳) 政治的敵に対する憎しみ: 攻撃的言論とスタンス検出に基づく2020年アメリカ合衆国大統領選挙のtwitterコーパス調査

Hate Towards the Political Opponent: A Twitter Corpus Study of the 2020 US Elections on the Basis of Offensive Speech and Stance Detection ( http://arxiv.org/abs/2103.01664v1 )

ライセンス: CC BY 4.0
Lara Grimminger and Roman Klinger(参考訳) 2020年の米国選挙は、ソーシャルメディアキャンペーンと相互非難によって特徴づけられています。 本論文では、ヘイトフルで攻撃的なコミュニケーションを発信することで、ビデンとトランプの支持者のオンラインコミュニケーションにも影響するかどうかを考察する。 嫌がらせ/攻撃的なスピーチ検出とスタンス検出のタスクに参加して、候補者に対する特定のスタンスを表現する場合、キャンペーン期間中に3000ツイートを注釈するアノテーションタスクを策定します。 有利と反対の確立されたクラスの横に、我々は混合と中立のスタンスを追加し、また、候補者が意見の表現なしで言及されている場合に注釈を付けます。 さらに、ツイートが攻撃的なスタイルで書かれているかどうかを注釈します。 これにより、ジョー・バイデンと民主党の支持者が、ドナルド・トランプや共和党の支持者と異なるコミュニケーションをとるかどうかを分析できる。 BERTベースライン分類器は、誰かが候補者の支持者である場合の検知を高品質で行うことができる(トランプは.89F1、バイデンは.91F1)一方、候補者に対して反対であることを示す検出はより困難である(それぞれ.79F1、.64F1)。 ヘイト/攻撃音声の自動検出は依然として困難である(.53 f1)。 我々のコーパスは公開されており、姿勢を考慮した攻撃的言語の計算モデリングのための新しい資源となっている。

The 2020 US Elections have been, more than ever before, characterized by social media campaigns and mutual accusations. We investigate in this paper if this manifests also in online communication of the supporters of the candidates Biden and Trump, by uttering hateful and offensive communication. We formulate an annotation task, in which we join the tasks of hateful/offensive speech detection and stance detection, and annotate 3000 Tweets from the campaign period, if they express a particular stance towards a candidate. Next to the established classes of favorable and against, we add mixed and neutral stances and also annotate if a candidate is mentioned without an opinion expression. Further, we annotate if the tweet is written in an offensive style. This enables us to analyze if supporters of Joe Biden and the Democratic Party communicate differently than supporters of Donald Trump and the Republican Party. A BERT baseline classifier shows that the detection if somebody is a supporter of a candidate can be performed with high quality (.89 F1 for Trump and .91 F1 for Biden), while the detection that somebody expresses to be against a candidate is more challenging (.79 F1 and .64 F1, respectively). The automatic detection of hate/offensive speech remains challenging (with .53 F1). Our corpus is publicly available and constitutes a novel resource for computational modelling of offensive language under consideration of stances.
翻訳日:2021-03-05 02:39:57 公開日:2021-03-02
# (参考訳) Emotion Ratings: 強度、アノテーションの信頼性、契約がどう絡み合っているか

Emotion Ratings: How Intensity, Annotation Confidence and Agreements are Entangled ( http://arxiv.org/abs/2103.01667v1 )

ライセンス: CC BY 4.0
Enrica Troiano and Sebastian Pad\'o and Roman Klinger(参考訳) 人間が文章の感情的内容を判断するとき、その判断の正しさ、すなわちその信頼度も暗黙的に評価する。 私たちは、アノテーションタスクでうまく機能したという人々の(in)自信が、お互いの合意(dis)につながると仮定します。 もしこれが本当なら、信頼はアノテーションの体系的な違いの診断ツールとなるかもしれない。 我々の仮定を調査するため、現代アメリカ英語コーパスのサブセットについて調査を行い、その回答の信頼度を評価しながら、中性文と感情を含む文を区別するようラッカーに求めた。 信頼は、アノテーション間の不一致を近似する。 さらに、テキストプロンプトアノテータの強い影響を知覚し、より特定の分類パフォーマンスを得るという、感情強度と信頼が相関していることがわかります。 この洞察は、自動回帰器や分類器が実際に強度を予測したり、むしろ人間の自己認識された自信を予測したりすることで、強度のモデリング研究に関係している。

When humans judge the affective content of texts, they also implicitly assess the correctness of such judgment, that is, their confidence. We hypothesize that people's (in)confidence that they performed well in an annotation task leads to (dis)agreements among each other. If this is true, confidence may serve as a diagnostic tool for systematic differences in annotations. To probe our assumption, we conduct a study on a subset of the Corpus of Contemporary American English, in which we ask raters to distinguish neutral sentences from emotion-bearing ones, while scoring the confidence of their answers. Confidence turns out to approximate inter-annotator disagreements. Further, we find that confidence is correlated to emotion intensity: perceiving stronger affect in text prompts annotators to more certain classification performances. This insight is relevant for modelling studies of intensity, as it opens the question wether automatic regressors or classifiers actually predict intensity, or rather human's self-perceived confidence.
翻訳日:2021-03-05 02:25:59 公開日:2021-03-02
# (参考訳) AraBERT and Farasa Segmentation Based Approach for Sarcasm and Sentiment Detection in Arabic Tweets

AraBERT and Farasa Segmentation Based Approach For Sarcasm and Sentiment Detection in Arabic Tweets ( http://arxiv.org/abs/2103.01679v1 )

ライセンス: CC BY 4.0
Anshul Wadhawan(参考訳) 本稿では、EACL WANLP-2021共有タスク2:Sarcasm and Sentiment Detectionに取り組む戦略を紹介します。 サブタスクの1つは、あるアラビア語のツイートが本質的にサッカスティックであるかどうかを識別するシステムを開発することであり、もう1つはアラビア語のツイートの感情を識別することを目的とする。 私たちは2つのステップでそのタスクにアプローチする。 最初のステップでは、テキストのさまざまな部分に挿入、削除、セグメンテーション操作を実行することで、提供されるArSarcasm-v2データセットを前処理する。 2番目のステップは、AraELECTRAとAraBERTという2つのトランスフォーマーベースのモデルの複数のバリエーションの実験である。 最終アプローチはSarcasmとSentiment Detectionのサブタスクでそれぞれ7位と4位にランクされた。

This paper presents our strategy to tackle the EACL WANLP-2021 Shared Task 2: Sarcasm and Sentiment Detection. One of the subtasks aims at developing a system that identifies whether a given Arabic tweet is sarcastic in nature or not, while the other aims to identify the sentiment of the Arabic tweet. We approach the task in two steps. The first step involves pre processing the provided ArSarcasm-v2 dataset by performing insertions, deletions and segmentation operations on various parts of the text. The second step involves experimenting with multiple variants of two transformer based models, AraELECTRA and AraBERT. Our final approach was ranked seventh and fourth in the Sarcasm and Sentiment Detection subtasks respectively.
翻訳日:2021-03-05 02:12:53 公開日:2021-03-02
# (参考訳) ヒトロボット対話のための会話ノルム

Conversational Norms for Human-Robot Dialogues ( http://arxiv.org/abs/2103.01706v1 )

ライセンス: CC BY 4.0
Maitreyee Tewari, Thomas Hellstr\"om, Suna Bensch(参考訳) 本稿では,gricean maximsのような会話規範の破れを処理し,対話参加者が情報的,関連的,簡潔に,どのように自分の発話を理想的に形成するかを記述した,コンピュータ化された対話システムの開発を支援することを目的とした最近の研究プロジェクトについて述べる。 提案手法は,協調型分散文法システム(cdgss)を用いた対話と規範をモデル化し,侵入を検知し,人間とロボットの対話システムにおいてそれらを扱う手法を開発することである。

This paper describes a recently initiated research project aiming at supporting development of computerised dialogue systems that handle breaches of conversational norms such as the Gricean maxims, which describe how dialogue participants ideally form their utterances in order to be informative, relevant, brief, etc. Our approach is to model dialogue and norms with co-operating distributed grammar systems (CDGSs), and to develop methods to detect breaches and to handle them in dialogue systems for verbal human-robot interaction.
翻訳日:2021-03-05 02:05:07 公開日:2021-03-02
# (参考訳) openspielにおけるマルチエージェント強化学習 : 再現報告

Multi-agent Reinforcement Learning in OpenSpiel: A Reproduction Report ( http://arxiv.org/abs/2103.00187v2 )

ライセンス: CC BY 4.0
Michael Walton, Viliam Lisy(参考訳) 本稿では,ゲーム学習のためのOpenSpielフレームワークで実装されたコアアルゴリズムの再現について述べる。 この研究の主な貢献は、OpenSpielの再実装された検索および強化学習アルゴリズムが、それぞれの原作で報告された結果に対する検証である。 さらに、これらの実験を再現するのに必要なハイパーパラメータとソースコードの完全なドキュメントも提供しています。

In this report, we present results reproductions for several core algorithms implemented in the OpenSpiel framework for learning in games. The primary contribution of this work is a validation of OpenSpiel's re-implemented search and Reinforcement Learning algorithms against the results reported in their respective originating works. Additionally, we provide complete documentation of hyperparameters and source code required to reproduce these experiments easily and exactly.
翻訳日:2021-03-05 02:01:51 公開日:2021-03-02
# (参考訳) 協調型ナレッジトランスファーによるネットワーク量子化

All at Once Network Quantization via Collaborative Knowledge Transfer ( http://arxiv.org/abs/2103.01435v1 )

ライセンス: CC BY 4.0
Ximeng Sun, Rameswar Panda, Chun-Fu Chen, Naigang Wang, Bowen Pan Kailash Gopalakrishnan, Aude Oliva, Rogerio Feris, Kate Saenko(参考訳) ネットワーク量子化は、エッジデバイス上でディープニューラルネットワークを圧縮および加速するための最も広く使われている方法の1つである。 既存のアプローチは一般的なベンチマークデータセットで印象的な結果を提供するが、一般的には量子化プロセスを繰り返して低精度ネットワークをゼロから再トレーニングし、異なるリソース制約に対応する異なるネットワークへと繋がる。 これは、実際にはビット幅の動的変更が望まれている多くの現実世界のアプリケーションにおけるディープネットワークのスケーラブルな展開を制限する。 異なるシナリオでの即時適応のために、別のモデルを保存するために、再トレーニングや追加メモリを必要とせずに、推論中に単一のディープネットワークのビット幅を柔軟に調整する。 本稿では,全対数量子化ネットワークを効率的に学習するための協調的知識伝達手法を提案する。 具体的には、全てのビット幅でモデルを共同最適化しながら、知識を低精度の学生に伝達するための高精度{teacher}を選択する適応的選択戦略を提案する。 さらに、知識を効果的に伝達するために、低精度の学生ネットワーク内のブロックを高精度の教師ネットワーク内の対応するブロックにランダムに置き換えることにより、動的ブロックスワッピング方法を開発する。 画像と映像の分類に挑戦的かつ多様なデータセットに関する広範囲な実験により,最先端手法に対する提案手法の有効性が実証された。

Network quantization has rapidly become one of the most widely used methods to compress and accelerate deep neural networks on edge devices. While existing approaches offer impressive results on common benchmark datasets, they generally repeat the quantization process and retrain the low-precision network from scratch, leading to different networks tailored for different resource constraints. This limits scalable deployment of deep networks in many real-world applications, where in practice dynamic changes in bit-width are often desired. All at Once quantization addresses this problem, by flexibly adjusting the bit-width of a single deep network during inference, without requiring re-training or additional memory to store separate models, for instant adaptation in different scenarios. In this paper, we develop a novel collaborative knowledge transfer approach for efficiently training the all-at-once quantization network. Specifically, we propose an adaptive selection strategy to choose a high-precision \enquote{teacher} for transferring knowledge to the low-precision student while jointly optimizing the model with all bit-widths. Furthermore, to effectively transfer knowledge, we develop a dynamic block swapping method by randomly replacing the blocks in the lower-precision student network with the corresponding blocks in the higher-precision teacher network. Extensive experiments on several challenging and diverse datasets for both image and video classification well demonstrate the efficacy of our proposed approach over state-of-the-art methods.
翻訳日:2021-03-04 21:44:06 公開日:2021-03-02
# (参考訳) デモグラフィックを超えた顔認識バイアスに関する総合的研究

A Comprehensive Study on Face Recognition Biases Beyond Demographics ( http://arxiv.org/abs/2103.01592v1 )

ライセンス: CC BY 4.0
Philipp Terh\"orst, Jan Niklas Kolf, Marco Huber, Florian Kirchbuchner, Naser Damer, Aythami Morales, Julian Fierrez, Arjan Kuijper(参考訳) 顔認識(FR)システムは重要な意思決定プロセスに影響を及ぼす。 近年の研究では、FRソリューションはユーザの人口統計に基づく大きなパフォーマンス差を示すことが示されている。 しかし、信頼性の高いFR技術を実現するためには、人口動態を超えた幅広い顔特性がFRに与える影響を知ることが不可欠である。 そこで本研究では,幅広い属性に対してFRバイアスを解析する。 2つの人気FRモデルの検証性能に及ぼす47属性の影響について検討する。 実験は公開のMAADFace属性データベース上で120万以上の高品質の属性アノテーションを使って行われた。 偏りのある性能に関する誤解を招くことを防ぐため、制御群に基づく妥当性値を導入し、不均衡なテストデータが性能差を引き起こすかどうかを判定した。 その結果,非デマトグラフィー特性は,アクセサリー,髪型,色,顔の形,顔の異常など,認識性能に強く影響を及ぼすことがわかった。 この研究の観察は、FRシステムをより堅牢で説明可能で公正にするためのさらなる進歩に対する強い必要性を示しています。 さらに,frネットワークの動作をよりよく理解し,これらのネットワークの堅牢性を高め,より一般化したバイアス緩和型顔認識ソリューションの開発に寄与する可能性が示唆された。

Face recognition (FR) systems have a growing effect on critical decision-making processes. Recent works have shown that FR solutions show strong performance differences based on the user's demographics. However, to enable a trustworthy FR technology, it is essential to know the influence of an extended range of facial attributes on FR beyond demographics. Therefore, in this work, we analyse FR bias over a wide range of attributes. We investigate the influence of 47 attributes on the verification performance of two popular FR models. The experiments were performed on the publicly available MAADFace attribute database with over 120M high-quality attribute annotations. To prevent misleading statements about biased performances, we introduced control group based validity values to decide if unbalanced test data causes the performance differences. The results demonstrate that also many non-demographic attributes strongly affect the recognition performance, such as accessories, hair-styles and colors, face shapes, or facial anomalies. The observations of this work show the strong need for further advances in making FR system more robust, explainable, and fair. Moreover, our findings might help to a better understanding of how FR networks work, to enhance the robustness of these networks, and to develop more generalized bias-mitigating face recognition solutions.
翻訳日:2021-03-04 21:22:22 公開日:2021-03-02
# (参考訳) 衛星画像からのジオメトリ誘導ストリートビューパノラマ合成

Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery ( http://arxiv.org/abs/2103.01623v1 )

ライセンス: CC0 1.0
Yujiao Shi, Dylan Campbell, Xin Yu, Hongdong Li(参考訳) 本稿では,衛星画像を用いた新しいストリートビューパノラマの合成手法を提案する。 提案手法は,小さな衛星画像パッチを入力として,Googleのストリートビュー型パノラマを,衛星画像パッチの中央と同じ地理的位置から取得したかのように生成する。 既存の作業はこの課題を画像生成問題として取り上げ、生成的逆ネットワークを用いて暗黙的にクロスビュー変換を学習し、ドメインの関連性を無視する。 本稿では,2視点画像間の幾何対応性を明確に確立し,相互変換学習を容易にすることを提案する。 具体的には、実世界の3dポイントが両視点で見える場合、この3dポイントの高さ情報から、2次元画像内の投影されたポイントの間に決定論的マッピングが存在することを観察する。 そこで我々は,このような幾何学的対応を明示的に確立し,衛星画像を街路視点に投影する,s2sp(street-view image projection)モジュールを開発した。 次に,衛星画像をネットワーク入力として投影することで,衛星画像と幾何的に整合したリアルなストリートビューパノラマを合成する。 S2SPモジュールは差別化可能であり、フレームワーク全体がエンドツーエンドでトレーニングされています。 2つのクロスビューベンチマークデータセットの広範な実験結果は、既存のアプローチよりもシーンジオメトリをよりよく尊重する画像を生成することを実証している。

This paper presents a new approach for synthesizing a novel street-view panorama given an overhead satellite image. Taking a small satellite image patch as input, our method generates a Google's omnidirectional street-view type panorama, as if it is captured from the same geographical location as the center of the satellite patch. Existing works tackle this task as an image generation problem which adopts generative adversarial networks to implicitly learn the cross-view transformations, while ignoring the domain relevance. In this paper, we propose to explicitly establish the geometric correspondences between the two-view images so as to facilitate the cross-view transformation learning. Specifically, we observe that when a 3D point in the real world is visible in both views, there is a deterministic mapping between the projected points in the two-view images given the height information of this 3D point. Motivated by this, we develop a novel Satellite to Street-view image Projection (S2SP) module which explicitly establishes such geometric correspondences and projects the satellite images to the street viewpoint. With these projected satellite images as network input, we next employ a generator to synthesize realistic street-view panoramas that are geometrically consistent with the satellite images. Our S2SP module is differentiable and the whole framework is trained in an end-to-end manner. Extensive experimental results on two cross-view benchmark datasets demonstrate that our method generates images that better respect the scene geometry than existing approaches.
翻訳日:2021-03-04 20:57:36 公開日:2021-03-02
# (参考訳) 基礎画像からの参照糖尿病網膜症検出のための解釈可能なマルチケースアプローチ

An Interpretable Multiple-Instance Approach for the Detection of referable Diabetic Retinopathy from Fundus Images ( http://arxiv.org/abs/2103.01702v1 )

ライセンス: CC BY 4.0
Alexandros Papadopoulos, Fotis Topouzis, Anastasios Delopoulos(参考訳) 糖尿病網膜症(DR)は、世界的に視力喪失の主要な原因です。 しかし、その流行にもかかわらず、影響を受けた人々の大半は、その状態を評価するために必要な専門眼科医や機器へのアクセスを欠いています。 これにより治療開始の遅れが生じ、成功へのチャンスが低下する可能性がある。 眼底画像の疾患を自動的に検出する機械学習システムは、遠隔地や人間の診断を補完するためのDR重症度推定へのアクセスを容易にする手段として提案されている。 本論文では,マルチスタンス学習のパラダイムに基づく基盤画像における参照可能なDRの検出のための機械学習システムを提案する。 画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。 さらに、DRが特徴的な病変を通して現れる潜在的な画像領域も強調することができる。 我々は,現在利用可能な網膜画像データセットに対する我々のアプローチを評価するとともに,その予測の解釈可能な可視化も行う。

Diabetic Retinopathy (DR) is a leading cause of vision loss globally. Yet despite its prevalence, the majority of affected people lack access to the specialized ophthalmologists and equipment required for assessing their condition. This can lead to delays in the start of treatment, thereby lowering their chances for a successful outcome. Machine learning systems that automatically detect the disease in eye fundus images have been proposed as a means of facilitating access to DR severity estimates for patients in remote regions or even for complementing the human expert's diagnosis. In this paper, we propose a machine learning system for the detection of referable DR in fundus images that is based on the paradigm of multiple-instance learning. By extracting local information from image patches and combining it efficiently through an attention mechanism, our system is able to achieve high classification accuracy. Moreover, it can highlight potential image regions where DR manifests through its characteristic lesions. We evaluate our approach on publicly available retinal image datasets, in which it exhibits near state-of-the-art performance, while also producing interpretable visualizations of its predictions.
翻訳日:2021-03-04 20:34:49 公開日:2021-03-02
# (参考訳) リソースレポジショニングによるネットワークPruning

Network Pruning via Resource Reallocation ( http://arxiv.org/abs/2103.01847v1 )

ライセンス: CC BY 4.0
Yuenan Hou, Zheng Ma, Chunxiao Liu, Zhe Wang, and Chen Change Loy(参考訳) チャネルプルーニングは, 大型ネットワークから重要でないチャネルを排除し, 小型化に有効な手法として広く認識されている。 現代の手法では, 従来の過度パラメータ化モデルから反復的プルーニング手順を実行するのが一般的であり, 特にプルーニングが攻撃的である場合, 面倒かつ高価である。 本稿では,rEsource rEalLocation (PEEL) によるネットワーク・プルーニング(ネットワーク・プルーニング)と呼ばれる簡易で効果的なチャネル・プルーニング手法を提案する。 特に、PEELはまず事前に定義されたバックボーンを構築し、リソースのレポジショニングを行い、少ない情報層からより重要な層へのパラメータを1ラウンドでシフトすることで、これらの情報層のポジティブな効果を増幅します。 PEELの有効性を実証するために、ResNet-18、ResNet-50、MobileNetV2、MobileNetV3小型およびEfficientNet-B0でImageNet上で広範な実験を行います。 実験結果から,PEELによって発見された構造は,各種プルーニング条件下での最先端のプルーニングアルゴリズムと競合する性能を示した。 私たちのコードはhttps://github.com/cardwing/Codes-for-PEELで入手できます。

Channel pruning is broadly recognized as an effective approach to obtain a small compact model through eliminating unimportant channels from a large cumbersome network. Contemporary methods typically perform iterative pruning procedure from the original over-parameterized model, which is both tedious and expensive especially when the pruning is aggressive. In this paper, we propose a simple yet effective channel pruning technique, termed network Pruning via rEsource rEalLocation (PEEL), to quickly produce a desired slim model with negligible cost. Specifically, PEEL first constructs a predefined backbone and then conducts resource reallocation on it to shift parameters from less informative layers to more important layers in one round, thus amplifying the positive effect of these informative layers. To demonstrate the effectiveness of PEEL , we perform extensive experiments on ImageNet with ResNet-18, ResNet-50, MobileNetV2, MobileNetV3-small and EfficientNet-B0. Experimental results show that structures uncovered by PEEL exhibit competitive performance with state-of-the-art pruning algorithms under various pruning settings. Our code is available at https://github.com/cardwing/Codes-for-PEEL.
翻訳日:2021-03-04 20:14:48 公開日:2021-03-02
# 野生の視覚機能の自己監督的前訓練

Self-supervised Pretraining of Visual Features in the Wild ( http://arxiv.org/abs/2103.01988v1 )

ライセンス: Link先を確認
Priya Goyal, Mathilde Caron, Benjamin Lefaudeux, Min Xu, Pengchao Wang, Vivek Pai, Mannat Singh, Vitaliy Liptchinsky, Ishan Misra, Armand Joulin, Piotr Bojanowski(参考訳) 近年,MoCo,SimCLR,BYOL,SwAVといった自己指導型学習手法が,教師付き手法とのギャップを減らしている。 これらの結果は、高度にキュレートされたimagenetデータセットであるコントロール環境で達成されている。 しかし、自己教師付き学習の前提は、任意のランダムな画像と任意の無制限データセットから学習できることである。 本研究では, 自己監督が期待に沿うかどうかを, 監視なく無作為かつ非定型な画像上で大規模モデルを訓練することによって検討する。 私たちの最後のSelf-supervised(SEER)モデルは、512 GPUで1Bランダムイメージで訓練された1.3Bパラメータを持つRegNetYで、84.2%のトップ-1精度を達成し、最高の自己監督プリトレーニングモデルを1%超え、実際の環境で自己監督学習が機能することを確認します。 興味深いことに、自己教師型モデルは、ImageNetの10%にしかアクセスできない77.9%のトップ1を達成している。 コード: https://github.com/facebookresearch/vissl

Recently, self-supervised learning methods like MoCo, SimCLR, BYOL and SwAV have reduced the gap with supervised methods. These results have been achieved in a control environment, that is the highly curated ImageNet dataset. However, the premise of self-supervised learning is that it can learn from any random image and from any unbounded dataset. In this work, we explore if self-supervision lives to its expectation by training large models on random, uncurated images with no supervision. Our final SElf-supERvised (SEER) model, a RegNetY with 1.3B parameters trained on 1B random images with 512 GPUs achieves 84.2% top-1 accuracy, surpassing the best self-supervised pretrained model by 1% and confirming that self-supervised learning works in a real world setting. Interestingly, we also observe that self-supervised models are good few-shot learners achieving 77.9% top-1 with access to only 10% of ImageNet. Code: https://github.com/facebookresearch/vissl
翻訳日:2021-03-04 15:12:03 公開日:2021-03-02
# DeepFake-o-meter: DeepFake検出のためのオープンプラットフォーム

DeepFake-o-meter: An Open Platform for DeepFake Detection ( http://arxiv.org/abs/2103.02018v1 )

ライセンス: Link先を確認
Yuezun Li, Cong Zhang, Pu Sun, Honggang Qi, and Siwei Lyu(参考訳) 近年、ディープラーニングベースの技術の出現と計算コストの大幅な削減により、DeepFakesとして知られる人間の顔のリアルなビデオを作成することが可能になった。 DeepFakesを作成するためのオープンソースツールの可用性は、オンラインメディアの信頼性を脅かすものです。 本研究では,DeepFake-o-meterと呼ばれるオープンソースのオンラインプラットフォームを開発し,最新のDeepFake検出手法を統合し,ユーザにとって便利なインターフェースを提供する。 本稿では,DeepFake-o-meterの設計と機能について述べる。

In recent years, the advent of deep learning-based techniques and the significant reduction in the cost of computation resulted in the feasibility of creating realistic videos of human faces, commonly known as DeepFakes. The availability of open-source tools to create DeepFakes poses as a threat to the trustworthiness of the online media. In this work, we develop an open-source online platform, known as DeepFake-o-meter, that integrates state-of-the-art DeepFake detection methods and provide a convenient interface for the users. We describe the design and function of DeepFake-o-meter in this work.
翻訳日:2021-03-04 15:11:42 公開日:2021-03-02
# サブグループサンプリングによるトレーニング予測モデルのばらつき低減

Variance Reduction in Training Forecasting Models with Subgroup Sampling ( http://arxiv.org/abs/2103.02062v1 )

ライセンス: Link先を確認
Yucheng Lu, Youngsuk Park, Lifan Chen, Yuyang Wang, Christopher De Sa, Dean Foster(参考訳) 大規模時系列の現実世界のアプリケーションでは、時系列の時間パターンが時間とともにドリフトしながら同じデータセット内で互いに異なる状況に遭遇することが多い。 本稿では,このような不均一性の下で,確率最適化器を用いて予測モデルを訓練する(例)。 SGD)は大きな勾配のばらつきに苦しむ可能性があるため、長期間の訓練が必要です。 そこで本研究では,プリグループ時系列のサンプリングによる大きなばらつきを緩和するサブグループサンプリングと呼ばれるサンプリング戦略を提案する。 さらに、分散化SGDスタイルの最適化器であるSCottを導入し、サブグループサンプリングを制御変数法と共設計する。 理論的には、スムーズな非凸目的に対するSCottの収束保証を提供する。 SCottと他のベースラインオプティマイザを合成時間と実時間の両方の時系列予測問題で評価し,反復時間と壁時計時間の両方に関してSCottがより高速に収束することを示す。 さらに、予測モデルの一般化を損なうことなく、Adam と Adagrad を高速化できる2つの SCott 変種を示す。

In real-world applications of large-scale time series, one often encounters the situation where the temporal patterns of time series, while drifting over time, differ from one another in the same dataset. In this paper, we provably show under such heterogeneity, training a forecasting model with commonly used stochastic optimizers (e.g. SGD) potentially suffers large gradient variance, and thus requires long time training. To alleviate this issue, we propose a sampling strategy named Subgroup Sampling, which mitigates the large variance via sampling over pre-grouped time series. We further introduce SCott, a variance reduced SGD-style optimizer that co-designs subgroup sampling with the control variate method. In theory, we provide the convergence guarantee of SCott on smooth non-convex objectives. Empirically, we evaluate SCott and other baseline optimizers on both synthetic and real-world time series forecasting problems, and show SCott converges faster with respect to both iterations and wall clock time. Additionally, we show two SCott variants that can speed up Adam and Adagrad without compromising generalization of forecasting models.
翻訳日:2021-03-04 15:09:59 公開日:2021-03-02
# スケーラブルな3Dオブジェクト検出のための擬似ラベル

Pseudo-labeling for Scalable 3D Object Detection ( http://arxiv.org/abs/2103.02093v1 )

ライセンス: Link先を確認
Benjamin Caine, Rebecca Roelofs, Vijay Vasudevan, Jiquan Ngiam, Yuning Chai, Zhifeng Chen, Jonathon Shlens(参考訳) 自動運転車を安全に展開するには、様々な環境や地理的に高い精度で車載認識システムを確実に動作させなければならない。 新しいドメインにおけるそのようなシステムの有効性を改善する最も一般的な手法の1つは、大きなラベル付きデータセットの収集であるが、そのようなデータセットは、特に、新しいデプロイメントのジオグラフィックが高価な3Dバウンディングボックスアノテーションを持つ追加データを必要とする場合、非常にコストがかかる。 3Dオブジェクト検出のための擬似ラベル付けは、安価でより広く利用可能なラベル付きデータを活用する効果的な方法であり、様々なアーキテクチャ、データ拡張戦略、ラベル付きデータセットのサイズでパフォーマンス向上につながることを実証する。 全体として、より良い教師モデルがより良い生徒モデルをもたらすこと、そして高価な教師を効率よくシンプルな学生に蒸留できることを示します。 具体的には,疑似ラベル学習した学生モデルが,ラベル付き例の3~10倍の確率で訓練された教師付きモデルを上回ることを実証する。 学生モデルとして2年前の建築である PointPillars [24] を用いて, 大量の擬似ラベルデータを活用するだけで, 精度の達成が可能となる。 最後に,これらの学習モデルが教師なしモデルよりも一般化し,ラベルなしデータしか持たない新しいドメインに一般化することを示し,擬似ラベル訓練を教師なしドメイン適応の効果的な形態とする。

To safely deploy autonomous vehicles, onboard perception systems must work reliably at high accuracy across a diverse set of environments and geographies. One of the most common techniques to improve the efficacy of such systems in new domains involves collecting large labeled datasets, but such datasets can be extremely costly to obtain, especially if each new deployment geography requires additional data with expensive 3D bounding box annotations. We demonstrate that pseudo-labeling for 3D object detection is an effective way to exploit less expensive and more widely available unlabeled data, and can lead to performance gains across various architectures, data augmentation strategies, and sizes of the labeled dataset. Overall, we show that better teacher models lead to better student models, and that we can distill expensive teachers into efficient, simple students. Specifically, we demonstrate that pseudo-label-trained student models can outperform supervised models trained on 3-10 times the amount of labeled examples. Using PointPillars [24], a two-year-old architecture, as our student model, we are able to achieve state of the art accuracy simply by leveraging large quantities of pseudo-labeled data. Lastly, we show that these student models generalize better than supervised models to a new domain in which we only have unlabeled data, making pseudo-label training an effective form of unsupervised domain adaptation.
翻訳日:2021-03-04 15:09:03 公開日:2021-03-02
# webをナビゲートする学習のためのadversarial environment generation

Adversarial Environment Generation for Learning to Navigate the Web ( http://arxiv.org/abs/2103.01991v1 )

ライセンス: Link先を確認
Izzeddin Gur, Natasha Jaques, Kevin Malta, Manoj Tiwari, Honglak Lee, Aleksandra Faust(参考訳) Webを自律的にナビゲートする学習は、難しいシーケンシャルな意思決定タスクです。 状態空間とアクション空間は自然界において大きく複合的であり、ウェブサイトは複数のページからなる動的環境である。 webナビゲーションエージェントのトレーニングのボトルネックの1つは、様々な現実世界のウェブサイトをカバーするトレーニング環境の学習可能なカリキュラムを提供することである。 そこで本稿では,強化学習(RL)エージェントを訓練する上で困難なWeb環境を生成するために,Adversarial Environment Generation (AEG) を提案する。 我々は、RL敵が合成プリミティブを使用して任意の複雑なWebサイトを生成することができる新しいベンチマーク環境gMiniWoBを提供する。 敵を訓練するために,一対のナビゲータエージェントによって得られたスコアの差を利用して後悔を最大化する新しい手法を提案する。 その結果,我々のアプローチは,ミニマックス後悔AEGの以前の方法を大幅に上回ることがわかった。 残念な目的は、ナビゲーターエージェントのための「ちょうど右の挑戦」である環境のカリキュラムを設計するために敵を訓練します。私たちの結果は、敵がますます複雑なWebナビゲーションタスクを生成することを学ぶことを示しています。 我々の技術で訓練されたナビゲータエージェントは、フォームフィリングやフライトの予約など、困難で高次元のウェブナビゲーションタスクを完成させることを学ぶ。 提案するフレキシブルなb-paired手法で訓練されたナビゲータエージェントは,最先端のrl webナビゲーション手法を含む,競争力の高い自動カリキュラム生成ベースラインを上回っており,いくつかのタスクで80%以上の成功率を達成している。

Learning to autonomously navigate the web is a difficult sequential decision making task. The state and action spaces are large and combinatorial in nature, and websites are dynamic environments consisting of several pages. One of the bottlenecks of training web navigation agents is providing a learnable curriculum of training environments that can cover the large variety of real-world websites. Therefore, we propose using Adversarial Environment Generation (AEG) to generate challenging web environments in which to train reinforcement learning (RL) agents. We provide a new benchmarking environment, gMiniWoB, which enables an RL adversary to use compositional primitives to learn to generate arbitrarily complex websites. To train the adversary, we propose a new technique for maximizing regret using the difference in the scores obtained by a pair of navigator agents. Our results show that our approach significantly outperforms prior methods for minimax regret AEG. The regret objective trains the adversary to design a curriculum of environments that are "just-the-right-challenge" for the navigator agents; our results show that over time, the adversary learns to generate increasingly complex web navigation tasks. The navigator agents trained with our technique learn to complete challenging, high-dimensional web navigation tasks, such as form filling, booking a flight etc. We show that the navigator agent trained with our proposed Flexible b-PAIRED technique significantly outperforms competitive automatic curriculum generation baselines -- including a state-of-the-art RL web navigation approach -- on a set of challenging unseen test environments, and achieves more than 80% success rate on some tasks.
翻訳日:2021-03-04 15:07:30 公開日:2021-03-02
# pecnet : 好酸球性食道炎の生検診断のための深層マルチラベルセグメンテーションネットワーク

PECNet: A Deep Multi-Label Segmentation Network for Eosinophilic Esophagitis Biopsy Diagnostics ( http://arxiv.org/abs/2103.02015v1 )

ライセンス: Link先を確認
Nati Daniel, Ariel Larey, Eliel Aknin, Garrett A. Osswald, Julie M. Caldwell, Mark Rochman, Margaret H. Collins, Guang-Yu Yang, Nicoleta C. Arva, Kelley E. Capocelli, Marc E. Rothenberg, Yonatan Savir(参考訳) 背景。 好酸球性食道炎 (EoE) は好酸球増加を伴う食道のアレルギー性炎症性疾患である。 疾患の診断とモニタリングには食道生検における好酸球の濃度の決定が必要である。 方法。 ここでは,機械学習を用いてeoeを識別,定量化し,診断することを目的とした。 23名のeoe患者から得られた食道生検のh&e染色標本の全スライドを走査して得られた4345画像の100mピクセル以上をラベルづけした。 このデータセットを使用して,マルチラベルセグメンテーション深層ネットワークをトレーニングした。 そこで本研究では,複数の施設から得られた419例のスライド画像の複製コホートについて検討した。 発見。 PECNetは0.93の結合(mIoU)上の平均交差で、不完全および不完全好酸球の両方を分割した。 このセグメンテーションは、無傷好酸球を平均絶対誤差0.611で定量し、EoE病活性を98.5%の精度で分類することができた。 検証コホートの全スライド画像を用いて、PECNetは94.8%の精度、94.3%の感度、95.14%のEoE疾患活性を報告した。 解釈。 我々は,eoe診断とデジタル病理学における2つの主な課題,複数種類の小さな特徴を同時に検出する必要性,スライド全体を効率的に解析する能力を有する,ディープラーニングマルチラベルセマンティクスセグメンテーションネットワークを開発した。 以上の結果から,eoeの自動診断への道が開けられ,同様の課題のある他の条件でも利用できる。

Background. Eosinophilic esophagitis (EoE) is an allergic inflammatory condition of the esophagus associated with elevated numbers of eosinophils. Disease diagnosis and monitoring requires determining the concentration of eosinophils in esophageal biopsies, a time-consuming, tedious and somewhat subjective task currently performed by pathologists. Methods. Herein, we aimed to use machine learning to identify, quantitate and diagnose EoE. We labeled more than 100M pixels of 4345 images obtained by scanning whole slides of H&E-stained sections of esophageal biopsies derived from 23 EoE patients. We used this dataset to train a multi-label segmentation deep network. To validate the network, we examined a replication cohort of 1089 whole slide images from 419 patients derived from multiple institutions. Findings. PECNet segmented both intact and not-intact eosinophils with a mean intersection over union (mIoU) of 0.93. This segmentation was able to quantitate intact eosinophils with a mean absolute error of 0.611 eosinophils and classify EoE disease activity with an accuracy of 98.5%. Using whole slide images from the validation cohort, PECNet achieved an accuracy of 94.8%, sensitivity of 94.3%, and specificity of 95.14% in reporting EoE disease activity. Interpretation. We have developed a deep learning multi-label semantic segmentation network that successfully addresses two of the main challenges in EoE diagnostics and digital pathology, the need to detect several types of small features simultaneously and the ability to analyze whole slides efficiently. Our results pave the way for an automated diagnosis of EoE and can be utilized for other conditions with similar challenges.
翻訳日:2021-03-04 15:04:56 公開日:2021-03-02
# dp-instahide: 個別データ拡張による中毒やバックドア攻撃の回避

DP-InstaHide: Provably Defusing Poisoning and Backdoor Attacks with Differentially Private Data Augmentations ( http://arxiv.org/abs/2103.02079v1 )

ライセンス: Link先を確認
Eitan Borgnia, Jonas Geiping, Valeriia Cherepanova, Liam Fowl, Arjun Gupta, Amin Ghiasi, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) データ中毒とバックドア攻撃は、トレーニングデータを操作して、被害者モデルのセキュリティ侵害を引き起こす。 これらの攻撃はディファレンシャル・プライベート(DP)トレーニング手法で確実に偏向することができるが、モデル性能は大幅に低下する。 InstaHide法は、厳格な保証がないにもかかわらず、ミックスアップ強化のプライバシー特性が想定されるDPトレーニングの代替として最近提案されている。 本研究では,混合や無作為な付加雑音などの強いデータ拡張が,少ない精度のトレードオフを保ちながら,毒攻撃を無効にすることを示す。 そこで本研究では,混合正規化器と付加雑音を組み合わせたDP-InstaHideの学習手法を提案する。 DP-InstaHideの厳密な分析によると、ミキサップは確かにプライバシー上の利点があり、kウェイミキサップによるトレーニングは、単純DPメカニズムよりも少なくともk倍強いDP保証が得られる。 ミックスアップは(ノイズとは対照的に)性能をモデル化するのに有益であるため、DP-InstaHideは他のDPメソッドよりも強い経験的性能を達成するためのメカニズムを提供する。

Data poisoning and backdoor attacks manipulate training data to induce security breaches in a victim model. These attacks can be provably deflected using differentially private (DP) training methods, although this comes with a sharp decrease in model performance. The InstaHide method has recently been proposed as an alternative to DP training that leverages supposed privacy properties of the mixup augmentation, although without rigorous guarantees. In this work, we show that strong data augmentations, such as mixup and random additive noise, nullify poison attacks while enduring only a small accuracy trade-off. To explain these finding, we propose a training method, DP-InstaHide, which combines the mixup regularizer with additive noise. A rigorous analysis of DP-InstaHide shows that mixup does indeed have privacy advantages, and that training with k-way mixup provably yields at least k times stronger DP guarantees than a naive DP mechanism. Because mixup (as opposed to noise) is beneficial to model performance, DP-InstaHide provides a mechanism for achieving stronger empirical performance against poisoning attacks than other known DP methods.
翻訳日:2021-03-04 15:04:25 公開日:2021-03-02
# 視覚経路に基づくナビゲーションのためのシーケンスベースフィルタリング : メリット,トレードオフ,設計選択の分析

Sequence-Based Filtering for Visual Route-Based Navigation: Analysing the Benefits, Trade-offs and Design Choices ( http://arxiv.org/abs/2103.01994v1 )

ライセンス: Link先を確認
Mihnea-Alexandru Tomit\u{a}, Mubariz Zaffar, Michael Milford, Klaus McDonald-Maier, Shoaib Ehsan(参考訳) 視覚場所認識(VPR)は、環境、視点、外観の変化の下で視覚情報を使用して、以前に訪れた場所を正しく思い出す機能です。 VPRの新たなトレンドは、経路ベースのナビゲーションのための単一フレームベースの場所マッチング技術の上にシーケンスベースのフィルタリング方法を使用することである。 この組み合わせは、計算コストの増加でパフォーマンスを向上させる潜在的な場所のさまざまなレベルにつながります。 パフォーマンス向上(シーケンシャルなフィルタリングによる)は、シングルフレームベースのマッチングメソッドのスペクトル全体に沿ってどのように変化しますか? シーケンスマッチング長はパフォーマンス曲線にどのように影響しますか? どの特定の組み合わせがパフォーマンスと計算のトレードオフを提供しますか? しかし、これらの重要な質問を検討する以前の作業は不足しており、これまでのシーケンスベースのフィルタリング作業のほとんどは体系的なアプローチなしで使用されています。 この研究ギャップを埋めるために,本研究では,単一フレーム方式の配置マッチング技術の性能と,それらの手法を用いたシーケンスベースフィルタリングの応用との関係を詳細に検討する。 個々のトレードオフ、プロパティ、およびシングルフレームベースとシーケンシャルの異なる組み合わせの制限を分析します。 多くの最先端のVPR手法と広く使われているパブリックデータセットを使用して、VPRコミュニティにとって有意義な洞察を含む調査結果を提示する。

Visual Place Recognition (VPR) is the ability to correctly recall a previously visited place using visual information under environmental, viewpoint and appearance changes. An emerging trend in VPR is the use of sequence-based filtering methods on top of single-frame-based place matching techniques for route-based navigation. The combination leads to varying levels of potential place matching performance boosts at increased computational costs. This raises a number of interesting research questions: How does performance boost (due to sequential filtering) vary along the entire spectrum of single-frame-based matching methods? How does sequence matching length affect the performance curve? Which specific combinations provide a good trade-off between performance and computation? However, there is lack of previous work looking at these important questions and most of the sequence-based filtering work to date has been used without a systematic approach. To bridge this research gap, this paper conducts an in-depth investigation of the relationship between the performance of single-frame-based place matching techniques and the use of sequence-based filtering on top of those methods. It analyzes individual trade-offs, properties and limitations for different combinations of single-frame-based and sequential techniques. A number of state-of-the-art VPR methods and widely used public datasets are utilized to present the findings that contain a number of meaningful insights for the VPR community.
翻訳日:2021-03-04 15:02:13 公開日:2021-03-02
# 材料測定ユニット:調査による基礎

Material Measurement Units: Foundations Through a Survey ( http://arxiv.org/abs/2103.01997v1 )

ライセンス: Link先を確認
Federico Zocco and Se\'an McLoone(参考訳) 鉱物や工業材料の長期利用は、製造製品の成分であるため、持続可能な開発に必要な条件である。 特に、GPUや太陽光発電パネルなどの需要が高まる技術は、重要な原料でできている。 本論文では, 材料管理の効率化を図るため, 文献において, 材料計測ユニット(Material Measurement Unit, MMU)と呼ばれる新しいコンピュータビジョン対応材料モニタリング技術を同定し, 第二に, MMUの開発に関わる作業の調査を行い, 第三に, 複数のMMUを展開している材料在庫監視センサネットワークについて述べる。

Long-term availability of minerals and industrial materials is a necessary condition for sustainable development as they are the constituents of any manufacturing product. In particular, technologies with increasing demand such as GPUs and photovoltaic panels are made of critical raw materials. To enhance the efficiency of material management, in this paper we make three main contributions: first, we identify in the literature an emerging computer-vision-enabled material monitoring technology which we call Material Measurement Unit (MMU); second, we provide a survey of works relevant to the development of MMUs; third, we describe a material stock monitoring sensor network deploying multiple MMUs.
翻訳日:2021-03-04 15:01:53 公開日:2021-03-02
# OCT画像における網膜層の不確実性誘導半監督セグメンテーション

Uncertainty guided semi-supervised segmentation of retinal layers in OCT images ( http://arxiv.org/abs/2103.02083v1 )

ライセンス: Link先を確認
Suman Sedai, Bhavna Antony, Ravneet Rai, Katie Jones, Hiroshi Ishikawa, Joel Schuman, Wollstein Gadi and Rahil Garnavi(参考訳) 深層畳み込みニューラルネットワークは医用画像分割タスクにおいて優れた性能を示している。 教師あり深層学習法を訓練する場合の一般的な問題は、時間と費用がかかるラベル付きデータの欠如である。 本稿では,限定ラベル付きサンプルと多数の未ラベル画像を用いてセグメンテーションネットワークを訓練する学生-教員アプローチに基づく,新しい不確実性誘導半教師付き学習を提案する。 まず,教師セグメンテーションモデルをベイズ深層学習を用いてラベル付きサンプルから学習する。 トレーニングされたモデルは、未ラベル集合に対するソフトセグメンテーションラベルと不確実性マップを生成するために使用される。 教師モデルの不確実性から推定されるセグメント品質のピクセル単位の信頼度を、新たに設計されたロス関数を用いて、ソフトセグメント化サンプルを用いて更新する。 網膜層セグメンテーションタスクの実験結果から,提案手法は完全教師付きアプローチと比較してセグメンテーション性能を向上し,エキスパートアノテータと同等であることがわかった。 提案する半教師付きセグメンテーションフレームワークは,アノテートされた医用画像へのアクセスが困難である様々な画像モダリティのバイオメディカルイメージセグメンテーションに有効である。

Deep convolutional neural networks have shown outstanding performance in medical image segmentation tasks. The usual problem when training supervised deep learning methods is the lack of labeled data which is time-consuming and costly to obtain. In this paper, we propose a novel uncertainty-guided semi-supervised learning based on a student-teacher approach for training the segmentation network using limited labeled samples and a large number of unlabeled images. First, a teacher segmentation model is trained from the labeled samples using Bayesian deep learning. The trained model is used to generate soft segmentation labels and uncertainty maps for the unlabeled set. The student model is then updated using the softly segmented samples and the corresponding pixel-wise confidence of the segmentation quality estimated from the uncertainty of the teacher model using a newly designed loss function. Experimental results on a retinal layer segmentation task show that the proposed method improves the segmentation performance in comparison to the fully supervised approach and is on par with the expert annotator. The proposed semi-supervised segmentation framework is a key contribution and applicable for biomedical image segmentation across various imaging modalities where access to annotated medical images is challenging
翻訳日:2021-03-04 15:01:42 公開日:2021-03-02
# 高リスク意思決定における機械学習のユーザビリティ課題の理解

Understanding the Usability Challenges of Machine Learning In High-Stakes Decision Making ( http://arxiv.org/abs/2103.02071v1 )

ライセンス: Link先を確認
Alexandra Zytek, Dongyu Liu, Rhema Vaithianathan, and Kalyan Veeramachaneni(参考訳) 機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。 多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。 モデルに対するユーザ信頼の欠如、人間-MLの不一致を解決できないこと、複雑な問題を1つのアルゴリズム出力に過度に単純化することに対する倫理的懸念など、複数のMLユーザビリティの問題が発生する可能性がある。 本稿では,児童福祉スクリーニングの分野に存在するmlユーザビリティの課題を,現場観察,インタビュー,正式なユーザ調査を含む児童福祉スクリーニング者との一連のコラボレーションを通して検討する。 コラボレーションを通じて、4つの重要なML課題を特定し、それらに対処する有望なML拡張ツール(ローカルファクターコントリビューション)に注目しました。 また,児童福祉スクリーニングと類似のドメインエキスパートのための今後の強化ツールの開発において考慮すべき設計事項の一覧を作成した。

Machine learning (ML) is being applied to a diverse and ever-growing set of domains. In many cases, domain experts -- who often have no expertise in ML or data science -- are asked to use ML predictions to make high-stakes decisions. Multiple ML usability challenges can appear as result, such as lack of user trust in the model, inability to reconcile human-ML disagreement, and ethical concerns about oversimplification of complex problems to a single algorithm output. In this paper, we investigate the ML usability challenges present in the domain of child welfare screening through a series of collaborations with child welfare screeners, which included field observations, interviews, and a formal user study. Through our collaborations, we identified four key ML challenges, and honed in on one promising ML augmentation tool to address them (local factor contributions). We also composed a list of design considerations to be taken into account when developing future augmentation tools for child welfare screeners and similar domain experts.
翻訳日:2021-03-04 14:55:36 公開日:2021-03-02
# フェアネス、半教師付き学習など:確率的ペアワイズ制約によるクラスタリングの汎用フレームワーク

Fairness, Semi-Supervised Learning, and More: A General Framework for Clustering with Stochastic Pairwise Constraints ( http://arxiv.org/abs/2103.02013v1 )

ライセンス: Link先を確認
Brian Brubach, Darshan Chakrabarti, John P. Dickerson, Aravind Srinivasan, Leonidas Tsepenekas(参考訳) メトリクスクラスタリングは、コンビナート最適化とデータマイニングから機械学習と運用研究まで、さまざまな分野で基本的です。 しかし、さまざまな状況では、どのペアのポイントを一緒にクラスタ化すべきかについて、基本的なメトリクスと異なる追加の要件や知識があるかもしれません。 このようなシナリオを捉え、分析するために、我々はいくつかの必須クラスタリングの目的(半径/中間/平均)に組み込む新しい \emph{確率対方向制約} ファミリーを紹介します。 さらに,これらの制約は,半教師付き学習において,クラスタリングにおける「emph{individual fairness}」や「emph{must-link}」制約を含む,興味をそそるアプリケーションの集合を簡潔にモデル化できることを実証する。 我々の主な成果は、重要なクラスタリング目的に対して証明可能な保証を持つ近似アルゴリズムを出力する一般的なフレームワークと、確率的対の制約を尊重するソリューションを作成することからなる。 さらに,特定の目的に対して,理論的な観点から可能な最善の条件である必然的制約の場合に,改良された結果を考案する。 最後に,アルゴリズムの有効性を検証する実験的な証拠を示す。

Metric clustering is fundamental in areas ranging from Combinatorial Optimization and Data Mining, to Machine Learning and Operations Research. However, in a variety of situations we may have additional requirements or knowledge, distinct from the underlying metric, regarding which pairs of points should be clustered together. To capture and analyze such scenarios, we introduce a novel family of \emph{stochastic pairwise constraints}, which we incorporate into several essential clustering objectives (radius/median/means). Moreover, we demonstrate that these constraints can succinctly model an intriguing collection of applications, including among others \emph{Individual Fairness} in clustering and \emph{Must-link} constraints in semi-supervised learning. Our main result consists of a general framework that yields approximation algorithms with provable guarantees for important clustering objectives, while at the same time producing solutions that respect the stochastic pairwise constraints. Furthermore, for certain objectives we devise improved results in the case of Must-link constraints, which are also the best possible from a theoretical perspective. Finally, we present experimental evidence that validates the effectiveness of our algorithms.
翻訳日:2021-03-04 14:49:23 公開日:2021-03-02
# 非IIDデータからの分散学習のためのクロスグラデーションアグリゲーション

Cross-Gradient Aggregation for Decentralized Learning from Non-IID data ( http://arxiv.org/abs/2103.02051v1 )

ライセンス: Link先を確認
Yasaman Esfandiari, Sin Yong Tan, Zhanhong Jiang, Aditya Balu, Ethan Herron, Chinmay Hegde, Soumik Sarkar(参考訳) 分散学習により、コラボレーションエージェントのグループは、中央パラメータサーバーを必要とせずに、分散データセットを使用してモデルを学ぶことができる。 近年、分散学習アルゴリズムは、集中型アルゴリズムに匹敵するベンチマークデータセットで最先端の結果を実証している。 しかし、競争性能を達成するための重要な前提は、データは独立して、実生活のアプリケーションでは適用できないエージェント間で均等に分散(IID)されていることである。 連続学習のアイデアから着想を得たCGA(Cross-Gradient Aggregation)を提案する。これは,(i)各エージェントが,隣人のデータセットに対するモデルの派生体であるクロスグラデーション情報を集め,(ii)二次プログラミング(QP)に基づく投影グラデーションを用いてモデルを更新する,新たな分散学習アルゴリズムである。 我々は,CGAの収束特性を理論的に解析し,MNISTおよびCIFAR-10データセットから採取した非IIDデータ分布の効率性を示す。 実験では,既存の最先端分散学習アルゴリズムよりもcgaの学習性能が優れており,ピアツーピア通信のオーバーヘッドを低減するために情報圧縮性能が向上していることを示す。

Decentralized learning enables a group of collaborative agents to learn models using a distributed dataset without the need for a central parameter server. Recently, decentralized learning algorithms have demonstrated state-of-the-art results on benchmark data sets, comparable with centralized algorithms. However, the key assumption to achieve competitive performance is that the data is independently and identically distributed (IID) among the agents which, in real-life applications, is often not applicable. Inspired by ideas from continual learning, we propose Cross-Gradient Aggregation (CGA), a novel decentralized learning algorithm where (i) each agent aggregates cross-gradient information, i.e., derivatives of its model with respect to its neighbors' datasets, and (ii) updates its model using a projected gradient based on quadratic programming (QP). We theoretically analyze the convergence characteristics of CGA and demonstrate its efficiency on non-IID data distributions sampled from the MNIST and CIFAR-10 datasets. Our empirical comparisons show superior learning performance of CGA over existing state-of-the-art decentralized learning algorithms, as well as maintaining the improved performance under information compression to reduce peer-to-peer communication overhead.
翻訳日:2021-03-04 14:49:00 公開日:2021-03-02
# データ拡張とAutoMLによる時系列予測のためのニューラルネットワークの改善

Improving Neural Networks for Time Series Forecasting using Data Augmentation and AutoML ( http://arxiv.org/abs/2103.01992v1 )

ライセンス: Link先を確認
Indrajeet Y. Javeri, Mohammadhossein Toutiaee, Ismailcem B. Arpinar, Tom W. Miller, John A. Miller(参考訳) 時系列予測のためのBox-Jenkins法のような統計手法は1970年に開発されて以来顕著である。 多くの研究者は、効率的に推定し、解釈可能性を提供するため、そのようなモデルに依存しています。 しかし、機械学習研究の進歩は、ニューラルネットワークが大量の学習問題やデータセットに対して高い精度を与えるため、強力なデータモデリング技術になり得ることを示している。 過去にも時系列予測も試みられてきましたが、その全体的な結果は、特に中間長時系列データでは統計モデルよりも有意に良くありませんでした。 それらのモデリング能力は、これらの非線形モデルに必要な大量のパラメータを推定するのに十分なデータが得られない場合に限られる。 本稿では,このようなネットワークの性能を向上させるためのデータ拡張手法について述べる。 本手法は, 統計的モデルからの予測を用いて, 中間時間時系列におけるニューラルネットワークのパワーを解き放ち, 競争的な結果を生み出すことができる。 これは、Neural Architecture Searchのような自動機械学習技術を組み合わせることで、与えられた時系列に最適なニューラルネットワークを見つけるのに役立つことを示している。 これらの組み合わせにより、新型コロナウイルスデータセットの2つの構成が大幅に強化され、拡張データを使用しないニューラルネットワーク上でそれぞれ19.90%と11.43%の予測精度が向上しました。

Statistical methods such as the Box-Jenkins method for time series forecasting have been prominent since their development in 1970. Many researchers rely on such models as they can be efficiently estimated and also provide interpretability. However, advances in machine learning research indicate that neural networks can be powerful data modeling techniques, as they can give higher accuracy for a plethora of learning problems and datasets. In the past, they have been tried on time series forecasting as well, but their overall results have not been significantly better than the statistical models especially for intermediate length times series data. Their modeling capacities are limited in cases where enough data may not be available to estimate the large number of parameters that these non-linear models require. This paper presents an easy to implement data augmentation method to significantly improve the performance of such networks. Our method, Augmented-Neural-Network, which involves using forecasts from statistical models, can help unlock the power of neural networks on intermediate length time series and produces competitive results. It shows that data augmentation, when paired Automated Machine Learning techniques such as Neural Architecture Search, can help to find the best neural architecture for a given time series. Using the combination of these, demonstrates significant enhancement for two configurations of our technique for COVID-19 dataset, improving forecasting accuracy by 19.90% and 11.43%, respectively, over the neural networks that do not use augmented data.
翻訳日:2021-03-04 14:46:09 公開日:2021-03-02
# オンライン敵攻撃

Online Adversarial Attacks ( http://arxiv.org/abs/2103.02014v1 )

ライセンス: Link先を確認
Andjela Mladenovic, Avishek Joey Bose, Hugo Berard, William L. Hamilton, Simon Lacoste-Julien, Pascal Vincent, Gauthier Gidel(参考訳) 敵対的攻撃はディープラーニングモデルの重大な脆弱性を露呈するが、ストリームとしてデータが到着する設定にはほとんど注意が払われていない。 本稿では,実世界のユースケースに見られる2つの重要な要素を強調して,オンラインの敵対的攻撃問題を形式化する。攻撃者はターゲットモデルの部分的知識の下で行動しなければならない。 まず、よく研究された $k$-\textit{secretary problem} に平行に描画し、オンライン脅威モデルの決定論的変形を厳密に分析し、現在のベストシングルしきい値アルゴリズムよりも$k=2$の競争率を証明できるシンプルかつ実用的なアルゴリズムである \algoname を提案します。 また、オンラインブラックボックス攻撃をノイズ下の$k$-secretary問題に効果的に還元する \textit{stochastic $k$-secretary} を導入し、この設定に適応した \textit{any} オンラインアルゴリズムの競合比に関する理論的境界を証明します。 最後に, MNIST と CIFAR-10 の系統的な実験をバニラとロバストな分類器で行うことによって, 理論結果を補完し, \algoname のようなオンライン秘書アルゴリズムを活用することで, 最適オフラインソリューションによって達成されたものに近いオンライン攻撃成功率が得られることを示した。

Adversarial attacks expose important vulnerabilities of deep learning models, yet little attention has been paid to settings where data arrives as a stream. In this paper, we formalize the online adversarial attack problem, emphasizing two key elements found in real-world use-cases: attackers must operate under partial knowledge of the target model, and the decisions made by the attacker are irrevocable since they operate on a transient data stream. We first rigorously analyze a deterministic variant of the online threat model by drawing parallels to the well-studied $k$-\textit{secretary problem} and propose \algoname, a simple yet practical algorithm yielding a provably better competitive ratio for $k=2$ over the current best single threshold algorithm. We also introduce the \textit{stochastic $k$-secretary} -- effectively reducing online blackbox attacks to a $k$-secretary problem under noise -- and prove theoretical bounds on the competitive ratios of \textit{any} online algorithms adapted to this setting. Finally, we complement our theoretical results by conducting a systematic suite of experiments on MNIST and CIFAR-10 with both vanilla and robust classifiers, revealing that, by leveraging online secretary algorithms, like \algoname, we can get an online attack success rate close to the one achieved by the optimal offline solution.
翻訳日:2021-03-04 14:45:48 公開日:2021-03-02
# (参考訳) botcha: 野生の悪質な非人間トラフィックを検出する

Botcha: Detecting Malicious Non-Human Traffic in the Wild ( http://arxiv.org/abs/2103.01428v1 )

ライセンス: CC BY 4.0
Sunny Dhamnani, Ritwik Sinha, Vishwa Vinay, Lilly Kumari, Margarita Savova(参考訳) 悪意のあるボットは、ウェブの全トラフィックの約4分の1を占め、eコマースサイトで動作するパーソナライゼーションとレコメンデーションアルゴリズムのパフォーマンスを低下させる。 Positive-Unlabeled Learning(PUラーニング)は、ポジティブ(P)と非ラベル(U)インスタンスのみを使用してバイナリ分類器をトレーニングする機能を提供する。 ラベルなしデータは、正クラスと負クラスの両方からなる。 非悪意のあるアクターの厳格なサブセット、例えば、Webセッション中に人間だけが購入する仮定、または明確なCAPTCHAのラベルを見つけることができます。 しかし、ボットの進化と敵対的な性質のため、悪意のある行動の信号を見つけることはほとんど不可能です。 このようなセットアップは自然にPU学習に役立ちます。 残念なことに、標準的なPU学習アプローチでは、ラベル付けされた正の集合が全ての正のランダムなサンプルであると仮定している。 本研究では,選択された完全無作為仮定の違反に対して,より堅牢なPU学習の2つの修正を提案し,悪意のあるボットを除外するシステムを提案する。 1つのパブリックデータセットと1つのプロプライエタリデータセットにおいて、提案手法は標準的なPU学習法よりも、Webデータ中の人間を特定するのに優れていることを示す。

Malicious bots make up about a quarter of all traffic on the web, and degrade the performance of personalization and recommendation algorithms that operate on e-commerce sites. Positive-Unlabeled learning (PU learning) provides the ability to train a binary classifier using only positive (P) and unlabeled (U) instances. The unlabeled data comprises of both positive and negative classes. It is possible to find labels for strict subsets of non-malicious actors, e.g., the assumption that only humans purchase during web sessions, or clear CAPTCHAs. However, finding signals of malicious behavior is almost impossible due to the ever-evolving and adversarial nature of bots. Such a set-up naturally lends itself to PU learning. Unfortunately, standard PU learning approaches assume that the labeled set of positives are a random sample of all positives, this is unlikely to hold in practice. In this work, we propose two modifications to PU learning that make it more robust to violations of the selected-completely-at-random assumption, leading to a system that can filter out malicious bots. In one public and one proprietary dataset, we show that proposed approaches are better at identifying humans in web data than standard PU learning methods.
翻訳日:2021-03-04 12:38:00 公開日:2021-03-02
# 推薦システムにおけるホットエンベディング活用による高性能トレーニング

High-Performance Training by Exploiting Hot-Embeddings in Recommendation Systems ( http://arxiv.org/abs/2103.00686v2 )

ライセンス: Link先を確認
Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant J. Nair(参考訳) 推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。 現在の推奨モデルには、ディープラーニングベース(DLRM)と時間ベースシーケンス(TBSM)モデルがある。 これらのモデルは、巨大な埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数(メモリバウンド)の数値表現を格納し、ニューラルネットワークを使用して出力(計算バウンド)を生成する。 これらの競合する計算とメモリの要求のため、レコメンデーションモデルのトレーニングプロセスはそれぞれ、組み込みとニューラルネットワークの実行のためのCPUとGPUに分割される。 このようなトレーニングプロセスは、各埋め込みエントリに同じレベルの重要度を鼻で割り当てる。 本稿では,いくつかの学習入力とその埋め込みテーブルへのアクセスが,最大10000倍以上のエントリがアクセスされることで大きく歪んでいることを観察する。 本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。 そこで本稿では,gpuメモリ容量と入力人気指数に基づいて動的ノブをソフトウェアに公開する,頻繁にアクセスされる組込み(fae)フレームワークを提案する。 このフレームワークは、GPU内の埋め込みテーブルのホット部分のサイズを効率的に見積もり、変更し、残りの埋め込みをCPUに再配置します。 全体として、我々のフレームワークは、Intel-Xeon CPUとNvidia Tesla-V100 GPUを使用するベースラインと比較して、Kaggle、Terabyte、Alibabaデータセットの推奨モデルのトレーニングを2.34倍高速化し、精度を維持しています。

Recommendation models are commonly used learning models that suggest relevant items to a user for e-commerce and online advertisement-based applications. Current recommendation models include deep-learning-based (DLRM) and time-based sequence (TBSM) models. These models use massive embedding tables to store a numerical representation of item's and user's categorical variables (memory-bound) while also using neural networks to generate outputs (compute-bound). Due to these conflicting compute and memory requirements, the training process for recommendation models is divided across CPU and GPU for embedding and neural network executions, respectively. Such a training process naively assigns the same level of importance to each embedding entry. This paper observes that some training inputs and their accesses into the embedding tables are heavily skewed with certain entries being accessed up to 10000x more. This paper tries to leverage skewed embedded table accesses to efficiently use the GPU resources during training. To this end, this paper proposes a Frequently Accessed Embeddings (FAE) framework that exposes a dynamic knob to the software based on the GPU memory capacity and the input popularity index. This framework efficiently estimates and varies the size of the hot portions of the embedding tables within GPUs and reallocates the rest of the embeddings on the CPU. Overall, our framework speeds-up the training of the recommendation models on Kaggle, Terabyte, and Alibaba datasets by 2.34x as compared to a baseline that uses Intel-Xeon CPUs and Nvidia Tesla-V100 GPUs, while maintaining accuracy.
翻訳日:2021-03-04 12:28:10 公開日:2021-03-02
# (参考訳) ForceNet:大規模量子計算のためのグラフニューラルネットワーク

ForceNet: A Graph Neural Network for Large-Scale Quantum Calculations ( http://arxiv.org/abs/2103.01436v1 )

ライセンス: CC BY 4.0
Weihua Hu, Muhammed Shuaibi, Abhishek Das, Siddharth Goyal, Anuroop Sriram, Jure Leskovec, Devi Parikh, C. Lawrence Zitnick(参考訳) 大量の原子シミュレーションデータが利用できるため、高速で正確な機械学習モデルを開発し、高価な物理ベースの計算を近似する大きな機会がある。 推定する重要な量は原子力であり、最新のグラフニューラルネットワーク(GNN)は回転共分散のような基本的な物理的制約を明示的に強制する。 しかし、物理的制約を厳密に満たすためには、既存のモデルは計算効率とモデル表現性のトレードオフをしなければならない。 ここでは別のアプローチを探求する。 明示的な物理的制約を課さないことで、計算効率を保ちながら表現的モデルを柔軟に設計することができる。 物理的制約は、物理ベースのデータ拡張を使用してモデルをトレーニングすることで暗黙的に課される。 提案手法を評価するため,我々はスケーラブルで表現力に富んだGNNモデルであるForceNetを慎重に設計し,これまでにない規模の量子物理学計算データセットであるOC20(Chanussot et al., 2020)に適用した。 提案したForceNetは、最先端の物理ベースのGNNよりも高精度に原子力を予測できると同時に、トレーニングと推論の両方において高速である。 全体として、我々の有望かつ反直感的な結果は、将来の研究のためのエキサイティングな道を開く。

With massive amounts of atomic simulation data available, there is a huge opportunity to develop fast and accurate machine learning models to approximate expensive physics-based calculations. The key quantity to estimate is atomic forces, where the state-of-the-art Graph Neural Networks (GNNs) explicitly enforce basic physical constraints such as rotation-covariance. However, to strictly satisfy the physical constraints, existing models have to make tradeoffs between computational efficiency and model expressiveness. Here we explore an alternative approach. By not imposing explicit physical constraints, we can flexibly design expressive models while maintaining their computational efficiency. Physical constraints are implicitly imposed by training the models using physics-based data augmentation. To evaluate the approach, we carefully design a scalable and expressive GNN model, ForceNet, and apply it to OC20 (Chanussot et al., 2020), an unprecedentedly-large dataset of quantum physics calculations. Our proposed ForceNet is able to predict atomic forces more accurately than state-of-the-art physics-based GNNs while being faster both in training and inference. Overall, our promising and counter-intuitive results open up an exciting avenue for future research.
翻訳日:2021-03-04 12:22:18 公開日:2021-03-02
# (参考訳) スケーラブルなセット符号化のためのミニバッチ一貫性スロットセットエンコーダ

Mini-Batch Consistent Slot Set Encoder for Scalable Set Encoding ( http://arxiv.org/abs/2103.01615v1 )

ライセンス: CC BY 4.0
Bruno Andreis, Jeffrey Willette, Juho Lee, Sung Ju Hwang(参考訳) ほとんどの既存のセットエンコーディングアルゴリズムは、セットのすべての要素がトレーニングや推論中にアクセス可能であるという前提の下で動作します。 さらに,大濃度集合を同時処理するのに十分な計算資源が存在すると仮定した。 しかし、両方の仮定は集合の濃度が禁止的に大きいときに失敗し、集合をメモリにロードすることもできない。 より極端なケースでは、セットのサイズは潜在的に無制限であり、セットの要素は、モデルが不規則な間隔でフルセットデータのサブセットを受け取るストリーミング方法で与えることができます。 大規模集合符号化におけるそのような実用的な課題に取り組むために,不変性と等分散の通常の制約を超越し,大規模集合符号化に必要な新しい特性であるミニバッチ一貫性を導入する。 本稿では,設定要素に対してミニバッチ処理が可能で,より多くのデータが到着するにつれて,セット表現を更新できる,スケーラブルで効率的なセット符号化機構を提案する。 提案手法は, 入力集合の無作為分割に対して最小バッチ一貫性を持つだけでなく, 不変および等分散に必要な対称性を尊重する。 提案手法は計算効率が高く,集合構造データに対するリッチな集合符号化表現が得られることを示す。

Most existing set encoding algorithms operate under the assumption that all the elements of the set are accessible during training and inference. Additionally, it is assumed that there are enough computational resources available for concurrently processing sets of large cardinality. However, both assumptions fail when the cardinality of the set is prohibitively large such that we cannot even load the set into memory. In more extreme cases, the set size could be potentially unlimited, and the elements of the set could be given in a streaming manner, where the model receives subsets of the full set data at irregular intervals. To tackle such practical challenges in large-scale set encoding, we go beyond the usual constraints of invariance and equivariance and introduce a new property termed Mini-Batch Consistency that is required for large scale mini-batch set encoding. We present a scalable and efficient set encoding mechanism that is amenable to mini-batch processing with respect to set elements and capable of updating set representations as more data arrives. The proposed method respects the required symmetries of invariance and equivariance as well as being Mini-Batch Consistent for random partitions of the input set. We perform extensive experiments and show that our method is computationally efficient and results in rich set encoding representations for set-structured data.
翻訳日:2021-03-04 11:57:40 公開日:2021-03-02
# (参考訳) プロダクトマニホールドプロジェクションによる非絡み合い表現の学習

Learning disentangled representations via product manifold projection ( http://arxiv.org/abs/2103.01638v1 )

ライセンス: CC0 1.0
Marco Fumero, Luca Cosmo, Simone Melzi, Emanuele Rodol\`a(参考訳) そこで本研究では,ある観測セットの根底にある変化の生成因子を解き放つ新しい手法を提案する。 我々の手法は、データ空間の下の(未知の)低次元多様体を、部分多様体の積として明示的にモデル化できるという考えに基づいている。 これにより、解束の新しい定義と、データの背後にある未知の説明要因を回復するための新しい弱監督アルゴリズムが生まれます。 トレーニング時に、アルゴリズムは非i.i.dのペアのみを必要とします。 要素が少なくとも1つ、おそらく多次元の変動の生成因子を共有するデータサンプル。 これらの変換の性質に関する知識を必要とせず、各部分空間の性質について限定的な仮定をしない。 我々の手法は実装が容易であり、任意の変換を行う様々な種類のデータ(画像から3次元表面まで)に適用することができる。 標準合成ベンチマークに加えて,本手法を実世界の課題に適用し,技術状況と良好に比較した。

We propose a novel approach to disentangle the generative factors of variation underlying a given set of observations. Our method builds upon the idea that the (unknown) low-dimensional manifold underlying the data space can be explicitly modeled as a product of submanifolds. This gives rise to a new definition of disentanglement, and to a novel weakly-supervised algorithm for recovering the unknown explanatory factors behind the data. At training time, our algorithm only requires pairs of non i.i.d. data samples whose elements share at least one, possibly multidimensional, generative factor of variation. We require no knowledge on the nature of these transformations, and do not make any limiting assumption on the properties of each subspace. Our approach is easy to implement, and can be successfully applied to different kinds of data (from images to 3D surfaces) undergoing arbitrary transformations. In addition to standard synthetic benchmarks, we showcase our method in challenging real-world applications, where we compare favorably with the state of the art.
翻訳日:2021-03-04 11:55:13 公開日:2021-03-02
# (参考訳) Listen, Read, Identify: Multimodal Singing Language Identification

Listen, Read, and Identify: Multimodal Singing Language Identification ( http://arxiv.org/abs/2103.01893v1 )

ライセンス: CC BY 4.0
Keunwoo Choi, Yuxuan Wang(参考訳) 音声コンテンツとテキストメタデータの両方を用いたマルチモーダル歌唱言語分類モデルを提案する。 提案モデルであるLRID-Netは,メタデータから推定した音声信号と言語確率ベクトルを取り,目標言語10言語の確率を出力する。 オプションとして、LRID-Netは、欠落したモダリティを扱うために、モダリティドロップアウトで容易にされる。 実験では、様々なモードのドロップアウト構成のLRID-Netを訓練し、様々な入力モードの組み合わせでそれらをテストした。 実験の結果,マルチモーダル入力により性能が向上することが示された。 また, モダリティ・ドロップアウトの導入は, 完全なモダリティ・インプットが存在する場合のモデルの性能を低下させることなく, モデルが欠落したモダリティ・ケースをある程度扱えることを示唆している。

We propose a multimodal singing language classification model that uses both audio content and textual metadata. LRID-Net, the proposed model, takes an audio signal and a language probability vector estimated from the metadata and outputs the probabilities of the ten target languages. Optionally, LRID-Net is facilitated with modality dropouts to handle a missing modality. In the experiment, we trained several LRID-Nets with varying modality dropout configuration and test them with various combinations of input modalities. The experiment results demonstrate that using multimodal input improves the performance. The results also suggest that adopting modality dropout does not degrade performance of the model when there are full modality inputs while enabling the model to handle missing modality cases to some extent.
翻訳日:2021-03-04 10:21:01 公開日:2021-03-02
# (参考訳) 騒音環境における視聴覚感情認識の検討

Investigations on Audiovisual Emotion Recognition in Noisy Conditions ( http://arxiv.org/abs/2103.01894v1 )

ライセンス: CC BY-SA 4.0
Michael Neumann and Ngoc Thang Vu(参考訳) 本稿では,音声特徴に着目した雑音環境下での聴覚的感情認識について検討する。 i)音声の感情認識は、ノイズの多いデータに対してどのように機能するのか? そして(ii)マルチモーダルアプローチは、精度を改善し、異なるノイズレベルでの潜在的な性能低下を補うために何を拡張するか? 異なる信号-雑音比で重畳された2つの感情データセットの分析を行い、3種類の音響特性を比較した。 視覚的特徴はハイブリッドフュージョンアプローチに組み込まれている。 最初のニューラルネットワーク層は、モダリティ固有のものと別個のもので、次に最終予測の前に少なくとも1つの共有層が続く。 その結果、クリーンオーディオで訓練されたモデルがノイズの多いデータに適用されると、パフォーマンスが大幅に低下し、視覚機能の追加によりこの効果が軽減されます。

In this paper we explore audiovisual emotion recognition under noisy acoustic conditions with a focus on speech features. We attempt to answer the following research questions: (i) How does speech emotion recognition perform on noisy data? and (ii) To what extend does a multimodal approach improve the accuracy and compensate for potential performance degradation at different noise levels? We present an analytical investigation on two emotion datasets with superimposed noise at different signal-to-noise ratios, comparing three types of acoustic features. Visual features are incorporated with a hybrid fusion approach: The first neural network layers are separate modality-specific ones, followed by at least one shared layer before the final prediction. The results show a significant performance decrease when a model trained on clean audio is applied to noisy data and that the addition of visual features alleviates this effect.
翻訳日:2021-03-04 09:53:03 公開日:2021-03-02
# (参考訳) 医用画像におけるROI検出の実践的枠組み-骨盤後部X線写真における股関節検出のケーススタディ

A Practical Framework for ROI Detection in Medical Images -- a case study for hip detection in anteroposterior pelvic radiographs ( http://arxiv.org/abs/2103.01584v1 )

ライセンス: CC BY 4.0
Feng-Yu Liu, Chih-Chi Chen, Shann-Ching Chen, Chien-Hung Liao(参考訳) 胸部X線像における心ROI検出,胸部X線像における肺境界検出,骨盤X線像における大腿骨頭検出など,多くの医療画像応用においてROI自動検出は重要なステップである。 そこで本研究では, 医療画像におけるROI検出の実践的枠組みを提案し, 骨盤X線写真における股関節検出のケーススタディを行った。 資料と方法:Chang Gung Memorial Hospital Osteoarthritisの4,290の高解像度ラジオグラフ、Osteoarthritis Initiativeの3,008の低中解像度ラジオグラフ、およびGoogleイメージ検索エンジンの101の異種ラジオグラフを含む、3つの多様なソースから7,399AP骨盤ラジオグラフで見られる股関節を分析したレトロスペクティブ研究を実施しました。 ResNet-101バックボーンを備えたシングルショットマルチボックスディテクタ(SSD)を用いたディープラーニングベースのROI検出フレームワークと、得られたデータセットの特性に基づいてカスタマイズされたヘッド構造を提示した。 結果:IoU=0.8115,平均信頼=0.9812,およびIoU=0.5(AP50)=0.9901の平均精度を独立したテストセットで達成し,検出された股関節領域が股関節の主な特徴を適切にカバーしていることを示唆した。 結論:提案されたアプローチは、低コストのラベリング、データ駆動モデル設計、異種データテストを特徴とする。 我々はap骨盤x線写真に対するロバストな股関節領域検出器の訓練の可能性を示した。 この実用的なフレームワークは、幅広い医療画像応用に有望な可能性を秘めている。

Purpose Automated detection of region of interest (ROI) is a critical step for many medical image applications such as heart ROIs detection in perfusion MRI images, lung boundary detection in chest X-rays, and femoral head detection in pelvic radiographs. Thus, we proposed a practical framework of ROIs detection in medical images, with a case study for hip detection in anteroposterior (AP) pelvic radiographs. Materials and Methods: We conducted a retrospective study which analyzed hip joints seen on 7,399 AP pelvic radiographs from three diverse sources, including 4,290 high resolution radiographs from Chang Gung Memorial Hospital Osteoarthritis, 3,008 low to medium resolution radiographs from Osteoarthritis Initiative, and 101 heterogeneous radiographs from Google image search engine. We presented a deep learning-based ROI detection framework utilizing single-shot multi-box detector (SSD) with ResNet-101 backbone and customized head structure based on the characteristics of the obtained datasets, whose ground truths were labeled by non-medical annotators in a simple graphical interface. Results: Our method achieved average intersection over union (IoU)=0.8115, average confidence=0.9812, and average precision with threshold IoU=0.5 (AP50)=0.9901 in the independent test set, suggesting that the detected hip regions have appropriately covered main features of the hip joints. Conclusion: The proposed approach featured on low-cost labeling, data-driven model design, and heterogeneous data testing. We have demonstrated the feasibility of training a robust hip region detector for AP pelvic radiographs. This practical framework has a promising potential for a wide range of medical image applications.
翻訳日:2021-03-04 08:15:56 公開日:2021-03-02
# (参考訳) 新型コロナウイルス(covid-19)の感染拡大に伴う都市封鎖による交通密度の低下--高解像度リモートセンシング画像から

Transportation Density Reduction Caused by City Lockdowns Across the World during the COVID-19 Epidemic: From the View of High-resolution Remote Sensing Imagery ( http://arxiv.org/abs/2103.01717v1 )

ライセンス: CC BY 4.0
Chen Wu, Sihan Zhu, Jiaqi Yang, Meiqi Hu, Bo Du, Liangpei Zhang, Lefei Zhang, Chengxi Han, and Meng Lan(参考訳) 2020年前半に新型コロナウイルス(COVID-19)の流行が悪化し始めると、世界中の多くの都市で人的感染を抑え、感染拡大を緩和する厳格なロックダウン政策が実施された。 都市内の交通密度の低下は主観的に感じられたが,1m以下の高解像度のリモートセンシング画像から都市内人口の流れとロックダウン政策の拘束性との関係を反映する客観的かつ定量的な研究はこれまでにない。 したがって、新型コロナウイルス(COVID-19)の流行の中で、世界中の6つの震源都市(ウハン、ミラノ、マドリッド、パリ、ニューヨーク、ロンドン)でロックダウンが実施された前後の交通密度の減少を定量的に調査し、多時的高分解能リモートセンシング画像から車両を抽出します。 0.5mの解像度を持つ画像に対して,教師なし車両候補抽出とディープラーニング同定を組み合わせた新しい車両検出モデルを提案した。 その結果,ロックダウン後の6都市で交通密度が平均50%(最大75.96%)減少したことが示唆された。 また, 輸送密度低下率に対する影響は, R^2値が0.83を超え, 政策制約性とも高い相関関係を示した。 特定都市内においても交通密度の変化は相違し、市の土地利用パターンに応じて分布する傾向にあった。 公共交通機関の削減や禁止などを考えると,都市封鎖政策は都市内における人道感染の抑制に有効であることが示唆された。

As the COVID-19 epidemic began to worsen in the first months of 2020, stringent lockdown policies were implemented in numerous cities throughout the world to control human transmission and mitigate its spread. Although transportation density reduction inside the city was felt subjectively, there has thus far been no objective and quantitative study of its variation to reflect the intracity population flows and their corresponding relationship with lockdown policy stringency from the view of remote sensing images with the high resolution under 1m. Accordingly, we here provide a quantitative investigation of the transportation density reduction before and after lockdown was implemented in six epicenter cities (Wuhan, Milan, Madrid, Paris, New York, and London) around the world during the COVID-19 epidemic, which is accomplished by extracting vehicles from the multi-temporal high-resolution remote sensing images. A novel vehicle detection model combining unsupervised vehicle candidate extraction and deep learning identification was specifically proposed for the images with the resolution of 0.5m. Our results indicate that transportation densities were reduced by an average of approximately 50% (and as much as 75.96%) in these six cities following lockdown. The influences on transportation density reduction rates are also highly correlated with policy stringency, with an R^2 value exceeding 0.83. Even within a specific city, the transportation density changes differed and tended to be distributed in accordance with the city's land-use patterns. Considering that public transportation was mostly reduced or even forbidden, our results indicate that city lockdown policies are effective at limiting human transmission within cities.
翻訳日:2021-03-04 08:03:33 公開日:2021-03-02
# (参考訳) 一般化制御障壁関数を用いたモデルベース安全強化学習

Model-based Safe Reinforcement Learning using Generalized Control Barrier Function ( http://arxiv.org/abs/2103.01556v1 )

ライセンス: CC0 1.0
Haitong Ma, Jianyu Chen, Shengbo Eben Li, Ziyu Lin, Sifa Zheng(参考訳) モデル情報は将来の軌道を予測するのに使用できるため、自動運転のような現実世界のタスクに強化学習(rl)を実装する際に危険領域を避ける可能性がある。 しかし、既存の研究ではモデルフリーの制約付きRLがほとんどであり、これは必然的な制約違反を引き起こす。 本稿では,制約境界までの距離で定義される一般化制御障壁関数(gcbf)を用いて,制約付きrlのモデルベース実現可能性向上手法を提案する。 モデル情報を使用することで、実際の安全制約に従わずに安全にポリシーを最適化でき、サンプル効率が向上します。 制約付きポリシー勾配の解法における実現不可能性の難しさは、適応係数機構によって処理される。 複雑な自律運転衝突回避タスクにおいて,シミュレーションと実車実験の両方において提案手法を評価する。 提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。

Model information can be used to predict future trajectories, so it has huge potential to avoid dangerous region when implementing reinforcement learning (RL) on real-world tasks, like autonomous driving. However, existing studies mostly use model-free constrained RL, which causes inevitable constraint violations. This paper proposes a model-based feasibility enhancement technique of constrained RL, which enhances the feasibility of policy using generalized control barrier function (GCBF) defined on the distance to constraint boundary. By using the model information, the policy can be optimized safely without violating actual safety constraints, and the sample efficiency is increased. The major difficulty of infeasibility in solving the constrained policy gradient is handled by an adaptive coefficient mechanism. We evaluate the proposed method in both simulations and real vehicle experiments in a complex autonomous driving collision avoidance task. The proposed method achieves up to four times fewer constraint violations and converges 3.36 times faster than baseline constrained RL approaches.
翻訳日:2021-03-04 01:56:21 公開日:2021-03-02
# (参考訳) マシンラーニングによるダブルカバー

Double Coverage with Machine-Learned Advice ( http://arxiv.org/abs/2103.01640v1 )

ライセンス: CC BY 4.0
Alexander Lindermayr, Nicole Megow, Bertrand Simon(参考訳) オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。 従来のオンラインモデルでは、アルゴリズムはリクエストシーケンスに関する情報を持たないが、いくつかのアドバイスが与えられた(例)。 アルゴリズムの決定に関する機械的な予測)。 しかし、予測の質は保証されておらず、その正確さには程遠いかもしれない。 私たちの主な結果は、ライン上のkサーバ(Chrobak et al.、SIDMA 1991)のためのよく知られたダブルカバレッジアルゴリズムの学習強化されたバリエーションであり、予測と私たちの信頼を彼らの品質に統合しています。 ユーザ定義信頼度パラメータの関数であり、最適な一貫性、全ての予測が正しい場合のパフォーマンス、そして予測品質に関係なく最適なロバスト性の間をスムーズに補間する誤差依存競争比を与える。 良い予測を与えると、オンラインアルゴリズムの既知の下限をアドバイスなしで改善します。 さらに,本アルゴリズムは局所特性とメモリレス特性を尊重する決定論的アルゴリズムのクラスにおいて,任意のkに対してほぼ最適な一貫性-破壊性トレードオフを達成することを示す。 我々のアルゴリズムは、以前に提案された(より一般的な)学習増強アルゴリズムより優れている。 これまでのアルゴリズムはメモリを多用していたが、我々のアルゴリズムはメモリレスである。 最後に、実世界のデータに対するアルゴリズムの実践性と優れた性能を実験で実証する。

We study the fundamental online $k$-server problem in a learning-augmented setting. While in the traditional online model, an algorithm has no information about the request sequence, we assume that there is given some advice (e.g. machine-learned predictions) on an algorithm's decision. There is, however, no guarantee on the quality of the prediction and it might be far from being correct. Our main result is a learning-augmented variation of the well-known Double Coverage algorithm for k-server on the line (Chrobak et al., SIDMA 1991) in which we integrate predictions as well as our trust into their quality. We give an error-dependent competitive ratio, which is a function of a user-defined trustiness parameter, and which interpolates smoothly between an optimal consistency, the performance in case that all predictions are correct, and the best-possible robustness regardless of the prediction quality. When given good predictions, we improve upon known lower bounds for online algorithms without advice. We further show that our algorithm achieves for any k an almost optimal consistency-robustness tradeoff, within a class of deterministic algorithms respecting local and memoryless properties. Our algorithm outperforms a previously proposed (more general) learning-augmented algorithm. It is remarkable that the previous algorithm heavily exploits memory, whereas our algorithm is memoryless. Finally, we demonstrate in experiments the practicability and the superior performance of our algorithm on real-world data.
翻訳日:2021-03-04 01:41:17 公開日:2021-03-02
# (参考訳) Implicit Graph Neural Networksにおけるグラフ情報消失現象

Graph Information Vanishing Phenomenon inImplicit Graph Neural Networks ( http://arxiv.org/abs/2103.01770v1 )

ライセンス: CC BY 4.0
Haifeng Li, Jun Cao, Jiawei Zhu, Qing Zhu, Guohua Wu(参考訳) GNNの重要な問題の1つは、ノード表現を学ぶための集約プロセスにおける隣ノードの重要性を記述する方法である。 GNNのクラスは、グラフ注意ネットワークのような暗黙のGNNと呼ばれる近隣ノードの重要性を表現するために暗黙の重みを学習することでこの問題を解決する。 暗黙的なGNNsの基本的な考え方は、データ駆動の方法で隣ノードの重要性をエンコードするLearlable Transformation Structures(LTS)に続く特殊なプロパティを持つグラフ情報を導入することである。 本稿では,この学習過程において,LTSがグラフ情報の特殊特性を消失させ,ノード表現の学習に不適なグラフ情報をもたらすことを論じる。 この現象をグラフ情報消滅(GIV)と呼ぶ。 また、LTSは異なるグラフ情報を非常に類似した結果にマップします。 以上の2点を検証するために, グラフ情報の順序をランダムにディスラプトし, グラフ情報をランダム値に置き換えるランダムな置換演算子を用いて, 5つの暗黙的GNN法と7つのベンチマークデータセットを用いて, 70のランダムな実験の2組を設計した。 その結果、ランダム化はモデル性能に93\%は影響せず、約7%が平均0.5\%の精度損失を引き起こすことがわかった。 また、LTSマッピングによって生成された出力結果のコサイン類似性は、81.%の比率で99.%以上である。 実験結果から,Implicit GNNにおけるGIVの存在を裏付ける証拠が得られ,既存のImplicit GNNの手法がグラフ情報をうまく利用していないことが示唆された。 グラフ情報とltsの関係を再考して、グラフ情報がノード表現で使われるようにすべきである。

One of the key problems of GNNs is how to describe the importance of neighbor nodes in the aggregation process for learning node representations. A class of GNNs solves this problem by learning implicit weights to represent the importance of neighbor nodes, which we call implicit GNNs such as Graph Attention Network. The basic idea of implicit GNNs is to introduce graph information with special properties followed by Learnable Transformation Structures (LTS) which encode the importance of neighbor nodes via a data-driven way. In this paper, we argue that LTS makes the special properties of graph information disappear during the learning process, resulting in graph information unhelpful for learning node representations. We call this phenomenon Graph Information Vanishing (GIV). Also, we find that LTS maps different graph information into highly similar results. To validate the above two points, we design two sets of 70 random experiments on five Implicit GNNs methods and seven benchmark datasets by using a random permutation operator to randomly disrupt the order of graph information and replacing graph information with random values. We find that randomization does not affect the model performance in 93\% of the cases, with about 7 percentage causing an average 0.5\% accuracy loss. And the cosine similarity of output results, generated by LTS mapping different graph information, over 99\% with an 81\% proportion. The experimental results provide evidence to support the existence of GIV in Implicit GNNs and imply that the existing methods of Implicit GNNs do not make good use of graph information. The relationship between graph information and LTS should be rethought to ensure that graph information is used in node representation.
翻訳日:2021-03-04 01:02:31 公開日:2021-03-02
# (参考訳) 戦略分類を実践する

Strategic Classification Made Practical ( http://arxiv.org/abs/2103.01826v1 )

ライセンス: CC BY 4.0
Sagi Levanon and Nir Rosenfeld(参考訳) 戦略分類は、ユーザーが結果を改善するために戦略的に機能を変更できるような環境での学習の問題について考察する。 この設定は広く適用され、近年注目を集めている。 しかし、その実用的意義にもかかわらず、この空間での作業はこれまで主に理論的に行われてきた。 本稿では,戦略的分類のための実践的な学習フレームワークを提案する。 当社のアプローチは,ユーザの戦略的対応を通じて差別化することで達成される,"戦略的"経験的リスクを直接的に最小化する。 これにより、元の問題定式化を超えて、より現実的な学習シナリオに拡張できる柔軟性を提供します。 様々な学習環境におけるアプローチの有効性について実験を行った。

Strategic classification regards the problem of learning in settings where users can strategically modify their features to improve outcomes. This setting applies broadly and has received much recent attention. But despite its practical significance, work in this space has so far been predominantly theoretical. In this paper we present a learning framework for strategic classification that is practical. Our approach directly minimizes the "strategic" empirical risk, achieved by differentiating through the strategic response of users. This provides flexibility that allows us to extend beyond the original problem formulation and towards more realistic learning scenarios. A series of experiments demonstrates the effectiveness of our approach on various learning settings.
翻訳日:2021-03-04 00:46:03 公開日:2021-03-02
# (参考訳) 鼻をたどる -- どのコードの臭いが追いかける価値があるか?

Follow Your Nose -- Which Code Smells are Worth Chasing? ( http://arxiv.org/abs/2103.01861v1 )

ライセンス: CC BY 4.0
Idan Amit, Nili Ben Ezra, Dror G. Feitelson(参考訳) コードの臭いの一般的なユースケースは因果関係を仮定している:臭いを識別し、除去し、そうすることでコードを改善する。 私たちは、この使用に対する彼らのフィットネスを実証的に調査します。 コードの臭いが品質を低下させるような特性のリストを提示します。 私たちは、677のgithubリポジトリから31,687のjavaファイルの臭いを評価しました。 匂いの影響を,品質,生産性,バグ検出効率の4つの指標で測定した。 CheckStyleの臭い検出器によって計算された151のコードの臭いのうち、20%未満が原因であることが判明し、ほんの一握りだけがかなり堅牢である。 最も強い臭いは、シンプルさ、防御的なプログラミング、抽象化です。 潜在的な原因臭のないファイルは、高品質である可能性が高い50%です。 残念なことに、ほとんどの臭いは取り除かれず、開発者は簡単に取り除く傾向があり、効果的ではない。

The common use case of code smells assumes causality: Identify a smell, remove it, and by doing so improve the code. We empirically investigate their fitness to this use. We present a list of properties that code smells should have if they indeed cause lower quality. We evaluated the smells in 31,687 Java files from 677 GitHub repositories, all the repositories with 200+ commits in 2019. We measured the influence of smells on four metrics for quality, productivity, and bug detection efficiency. Out of 151 code smells computed by the CheckStyle smell detector, less than 20% were found to be potentially causal, and only a handful are rather robust. The strongest smells deal with simplicity, defensive programming, and abstraction. Files without the potentially causal smells are 50% more likely to be of high quality. Unfortunately, most smells are not removed, and developers tend to remove the easy ones and not the effective ones.
翻訳日:2021-03-04 00:26:32 公開日:2021-03-02
# (参考訳) 幾何対応インスタンス強調学習のロバスト性評価

Evaluating the Robustness of Geometry-Aware Instance-Reweighted Adversarial Training ( http://arxiv.org/abs/2103.01914v1 )

ライセンス: CC BY 4.0
Dorjan Hitaj, Giulio Pagnotta, Iacopo Masi, Luigi V. Mancini(参考訳) 本技術報告では、Geometry-aware Instance-reweighted Adversarial Training[7]と呼ばれる最近の手法の対比堅牢性を評価します。 GAIRATは、CIFAR-10データセットに対する敵対攻撃に対する防御に関する最新の結果を報告します。 実際、この方法で訓練されたネットワークは、通常の敵対的トレーニング(AT)よりも改善を示しながら、損失を再スケーリングすることによって特定のサンプルにモデルを偏っていることがわかります。 実際、これはロジットをスケールする攻撃の影響を受けやすいモデルにつながります。 オリジナルのモデルはAutoAttackで59%の精度を示しており、擬似ラベルで追加データでトレーニングされている。 我々は逆を示す分析を提供する。 特に, CIFAR-10のみをトレーニングした場合, GAIRATの精度を55%から44%に低下させる正のスカラーでロジットを乗算するPGD攻撃を行う。 本報告では,この攻撃に対するGAIRATの脆弱性の背後にある理由について,モデルを厳格に評価し,知見を提供する。 結果の再現性を実現するために、早急にコードを公開します。

In this technical report, we evaluate the adversarial robustness of a very recent method called "Geometry-aware Instance-reweighted Adversarial Training"[7]. GAIRAT reports state-of-the-art results on defenses to adversarial attacks on the CIFAR-10 dataset. In fact, we find that a network trained with this method, while showing an improvement over regular adversarial training (AT), is biasing the model towards certain samples by re-scaling the loss. Indeed, this leads the model to be susceptible to attacks that scale the logits. The original model shows an accuracy of 59% under AutoAttack - when trained with additional data with pseudo-labels. We provide an analysis that shows the opposite. In particular, we craft a PGD attack multiplying the logits by a positive scalar that decreases the GAIRAT accuracy from from 55% to 44%, when trained solely on CIFAR-10. In this report, we rigorously evaluate the model and provide insights into the reasons behind the vulnerability of GAIRAT to this adversarial attack. We will release the code promptly to enable the reproducibility of our findings.
翻訳日:2021-03-04 00:04:19 公開日:2021-03-02
# (参考訳) Frank-Wolfe法によるオンライン直交辞書学習

Online Orthogonal Dictionary Learning Based on Frank-Wolfe Method ( http://arxiv.org/abs/2103.01484v1 )

ライセンス: CC BY 4.0
Ye Xue and Vincent Lau(参考訳) 辞書学習は信号処理や機械学習で広く使われている教師なし学習手法である。 既存の辞書学習のほとんどがオフラインで行われている。 主に辞書学習のオフライン方法が2つある。 1つは辞書とスパースコードの両方の代替最適化を行うことであり、もう1つは直交群に制限することで辞書を最適化することである。 後者は直交辞書学習と呼ばれ、複雑さの低い実装であるため、低コストのデバイスに好適である。 しかし、直交辞書学習の既存のスキームはバッチデータのみで動作し、リアルタイムアプリケーションには適用できないオンライン実装はできない。 本稿では,履歴データを保存せずに,ストリーミングデータから動的に辞書を学習するオンライン直交辞書スキームを提案する。 提案手法は,新しい問題定式化と収束解析を用いた効率的なオンラインアルゴリズム設計を含む。 問題定式化において,直交制約を緩和し,効率的なオンラインアルゴリズムを実現する。 アルゴリズム設計では,O(ln t/t^(1/4))の収束率を持つ新しいフランク・ウルフ型オンラインアルゴリズムを提案する。 重要なシステムパラメータの観点からの収束率も導出される。 合成データと実世界のセンサ読み取りによる実験は、提案されたオンライン直交辞書学習スキームの有効性と効率を示す。

Dictionary learning is a widely used unsupervised learning method in signal processing and machine learning. Most existing works of dictionary learning are in an offline manner. There are mainly two offline ways for dictionary learning. One is to do an alternative optimization of both the dictionary and the sparse code; the other way is to optimize the dictionary by restricting it over the orthogonal group. The latter one is called orthogonal dictionary learning which has a lower complexity implementation, hence, it is more favorable for lowcost devices. However, existing schemes on orthogonal dictionary learning only work with batch data and can not be implemented online, which is not applicable for real-time applications. This paper proposes a novel online orthogonal dictionary scheme to dynamically learn the dictionary from streaming data without storing the historical data. The proposed scheme includes a novel problem formulation and an efficient online algorithm design with convergence analysis. In the problem formulation, we relax the orthogonal constraint to enable an efficient online algorithm. In the algorithm design, we propose a new Frank-Wolfe-based online algorithm with a convergence rate of O(ln t/t^(1/4)). The convergence rate in terms of key system parameters is also derived. Experiments with synthetic data and real-world sensor readings demonstrate the effectiveness and efficiency of the proposed online orthogonal dictionary learning scheme.
翻訳日:2021-03-03 20:12:51 公開日:2021-03-02
# (参考訳) 冗長非局在マイクロホンアレイを用いた音場モニタリング

Audio scene monitoring using redundant un-localized microphone arrays ( http://arxiv.org/abs/2103.01830v1 )

ライセンス: CC BY 4.0
Peter Gerstoft, Yihan Hu, Chaitanya Patil, Ardel Alegre, Michael J. Bianco, Yoav Freund, and Francois Grondin(参考訳) 複数のマイクロホンアレイを備えた部屋で音源をローカライズするシステムを提案する。 既存の多くのアプローチとは異なり、空間内の配列の位置は未知であると仮定される。 各円配列は、独立して到着方向推定(DOA)を行う。 doasは融合センターに供給され、結合され、キャリブレーションのためにラベル付きソース位置をほとんど必要としない2つの提案方法に基づいてローカライズを行うために使用される。 最初の提案方法は、観察されたDOAの主成分分析(PCA)に基づいており、校正を必要としません。 配列クラスタは、時間とともに連結DOAのPCAによって定義される多様体上でローカライズを行うことができる。 提案手法は, DOAベクトルと室内多様体間のアフィン変換を用いて局所化を行う。 PCAアプローチはトレーニングシーケンスの要件が少ないが、アレイの1つからDOAを欠いた場合の堅牢性は低い。 このアプローチは、オフィス内の未知の固定位置に配置された5つの8マイクロホン円配列で実証される。 PCAアプローチと直接アプローチの両方は、キャリブレーションポイントと同じような精度で数個のキャリブレーションポイントに基づいて、容易に矩形をマッピングすることができる。 ここで示した方法は、スマートホームにおけるアクティビティを監視するためのステップを提供し、配列位置を必要としないため、インストールの手間をほとんど必要としない。

We present a system for localizing sound sources in a room with several microphone arrays. Unlike most existing approaches, the positions of the arrays in space are assumed to be unknown. Each circular array performs direction of arrival (DOA) estimation independently. The DOAs are then fed to a fusion center where they are concatenated and used to perform the localization based on two proposed methods, which require only few labeled source locations for calibration. The first proposed method is based on principal component analysis (PCA) of the observed DOA and does not require any calibration. The array cluster can then perform localization on a manifold defined by the PCA of concatenated DOAs over time. The second proposed method performs localization using an affine transformation between the DOA vectors and the room manifold. The PCA approach has fewer requirements on the training sequence, but is less robust to missing DOAs from one of the arrays. The approach is demonstrated with a set of five 8-microphone circular arrays, placed at unknown fixed locations in an office. Both the PCA approach and the direct approach can easily map out a rectangle based on a few calibration points with similar accuracy as calibration points. The methods demonstrated here provide a step towards monitoring activities in a smart home and require little installation effort as the array locations are not needed.
翻訳日:2021-03-03 19:12:48 公開日:2021-03-02
# (参考訳) SoundCLR:環境音の分類改善のための表現のコントラスト学習

SoundCLR: Contrastive Learning of Representations For Improved Environmental Sound Classification ( http://arxiv.org/abs/2103.01929v1 )

ライセンス: CC BY 4.0
Alireza Nasiri, and Jianjun Hu(参考訳) 環境音分類(ESC)は、非音声音声処理の研究の挑戦的な分野です。 escにおける現在の研究のほとんどは、特定のオーディオデータセットに合わせた特殊なアーキテクチャを持つ深層モデルの設計に重点を置いている。 しかし最近の研究では、ImageNetで訓練されたモデルからの転送学習がESCで非常に効果的な技術であることを驚くほど示しています。 本稿では,各クラスのサンプルを他のクラスから切り離した表現を学習する,最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習法であるSoundCLRを提案する。 当社のディープネットワークモデルは、分類層によるより良い確率出力に寄与するコントラスト損失と、分類層の出力におけるクロスエントロピー損失を組み合わせて、サンプルをそれぞれの1ホットエンコードラベルにマッピングすることによって訓練されます。 利用可能な環境音データセットの比較的小さなサイズのために、我々は、転送学習と強力なデータ拡張パイプラインを提案し、モデルに入力する前に、音信号とそのログメル分光器の両方に増分を適用します。 実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。 ESC-10, ESC-50, US8K, 検証精度99.75\%, 93.4\%, 86.49\%の3つのベンチマークデータセットにおいて, 比較対象とクロスエントロピー損失を併用してトレーニングしたハイブリッドディープネットワークモデルの有効性が示された。 私たちのモデルのアンサンブルバージョンは、他のトップアンサンブルメソッドよりも優れています。 コードはhttps://github.com/alireza-nasiri/SoundCLRで入手できる。

Environmental Sound Classification (ESC) is a challenging field of research in non-speech audio processing. Most of current research in ESC focuses on designing deep models with special architectures tailored for specific audio datasets, which usually cannot exploit the intrinsic patterns in the data. However recent studies have surprisingly shown that transfer learning from models trained on ImageNet is a very effective technique in ESC. Herein, we propose SoundCLR, a supervised contrastive learning method for effective environment sound classification with state-of-the-art performance, which works by learning representations that disentangle the samples of each class from those of other classes. Our deep network models are trained by combining a contrastive loss that contributes to a better probability output by the classification layer with a cross-entropy loss on the output of the classifier layer to map the samples to their respective 1-hot encoded labels. Due to the comparatively small sizes of the available environmental sound datasets, we propose and exploit a transfer learning and strong data augmentation pipeline and apply the augmentations on both the sound signals and their log-mel spectrograms before inputting them to the model. Our experiments show that our masking based augmentation technique on the log-mel spectrograms can significantly improve the recognition performance. Our extensive benchmark experiments show that our hybrid deep network models trained with combined contrastive and cross-entropy loss achieved the state-of-the-art performance on three benchmark datasets ESC-10, ESC-50, and US8K with validation accuracies of 99.75\%, 93.4\%, and 86.49\% respectively. The ensemble version of our models also outperforms other top ensemble methods. The code is available at https://github.com/alireza-nasiri/SoundCLR.
翻訳日:2021-03-03 18:57:52 公開日:2021-03-02
# PHASE:Physically-grounded Abstract Social Events for Machine Social Perception

PHASE: PHysically-grounded Abstract Social Events for Machine Social Perception ( http://arxiv.org/abs/2103.01933v1 )

ライセンス: Link先を確認
Aviv Netanyahu, Tianmin Shu, Boris Katz, Andrei Barbu, Joshua B. Tenenbaum(参考訳) 物理的環境の文脈における社会的相互作用を知覚し、推論する能力は、人間の社会的知能と人間と機械の協調の中核である。 しかしながら、事前のデータセットやベンチマークは、ハイファイブのような短い行動や、集まりのような単純なグループ活動など、複雑な社会的相互作用に対する物理的に根ざした認識を体系的に評価していない。 本研究は,他者のエージェント支援などの社会的概念を含め,実生活における幅広いソーシャルインタラクションに類似した,物理的に根拠のある抽象的ソーシャルイベント,フェーズのデータセットを作成する。 PHASEは、物理エンジンと階層的プランナーを用いて手続き的に生成された連続空間で動くエージェントのペアの2次元アニメーションで構成されている。 エージェントは視野が限られており、複数のランドマークや障害物のある環境で複数のオブジェクトと対話することができる。 PHASEを用いて,社会認識タスクと社会的予測タスクを設計する。 PHASEは、人間が社会的出来事における豊かな相互作用を知覚し、シミュレートされたエージェントが人間と同様に振る舞うことを示す人間の実験によって検証される。 ベースラインモデルとして,最先端のフィードフォワードニューラルネットワークに匹敵するベイズ逆計画手法(シミュレーション,計画,局所推定)を導入する。 PHASEは、複雑な社会的相互作用を認識できる新しいモデルを開発するための困難な新しい挑戦として役立つことを願っています。

The ability to perceive and reason about social interactions in the context of physical environments is core to human social intelligence and human-machine cooperation. However, no prior dataset or benchmark has systematically evaluated physically grounded perception of complex social interactions that go beyond short actions, such as high-fiving, or simple group activities, such as gathering. In this work, we create a dataset of physically-grounded abstract social events, PHASE, that resemble a wide range of real-life social interactions by including social concepts such as helping another agent. PHASE consists of 2D animations of pairs of agents moving in a continuous space generated procedurally using a physics engine and a hierarchical planner. Agents have a limited field of view, and can interact with multiple objects, in an environment that has multiple landmarks and obstacles. Using PHASE, we design a social recognition task and a social prediction task. PHASE is validated with human experiments demonstrating that humans perceive rich interactions in the social events, and that the simulated agents behave similarly to humans. As a baseline model, we introduce a Bayesian inverse planning approach, SIMPLE (SIMulation, Planning and Local Estimation), which outperforms state-of-the-art feed-forward neural networks. We hope that PHASE can serve as a difficult new challenge for developing new models that can recognize complex social interactions.
翻訳日:2021-03-03 17:35:16 公開日:2021-03-02
# BERTをベースとした特許ノベルティ検索のトレーニング

BERT based patent novelty search by training claims to their own description ( http://arxiv.org/abs/2103.01126v2 )

ライセンス: Link先を確認
Michael Freunek and Andr\'e Bodmer(参考訳) 本稿では,特許クレームを自己記述に結合する手法を提案する。 この方法を適用することで、BERTはクレームの適切な記述を訓練する。 このようなトレーニングされたBERT (claim-to-description- BERT) は、特許の新規性に関する記述を識別することができる。 さらに,BERTの出力を有意に処理するために,新たなスコアリング方式,関連スコア,あるいは新規スコアを導入する。 特許に関する最初の主張とそれに対応する記述に基づいてBERTを訓練することにより,特許出願の手法を検証した。 BERTの出力は、検索レポートの引用X文書と比較して、関連スコアと結果に基づいて処理されている。 テストの結果、BERTは引用されたX文書のいくつかを非常に関連性が高いと評価した。

In this paper we present a method to concatenate patent claims to their own description. By applying this method, BERT trains suitable descriptions for claims. Such a trained BERT (claim-to-description- BERT) could be able to identify novelty relevant descriptions for patents. In addition, we introduce a new scoring scheme, relevance scoring or novelty scoring, to process the output of BERT in a meaningful way. We tested the method on patent applications by training BERT on the first claims of patents and corresponding descriptions. BERT's output has been processed according to the relevance score and the results compared with the cited X documents in the search reports. The test showed that BERT has scored some of the cited X documents as highly relevant.
翻訳日:2021-03-03 17:34:51 公開日:2021-03-02
# プロジェクションフリーニューラルtd学習におけるサンプル複雑性と過パラメータ境界

Sample Complexity and Overparameterization Bounds for Projection-Free Neural TD Learning ( http://arxiv.org/abs/2103.01391v1 )

ライセンス: Link先を確認
Semih Cayci, Siddhartha Satpathi, Niao He, R. Srikant(参考訳) ニューラルネットワークに基づく値関数近似による時間差学習のダイナミクスを一般状態空間、すなわち \emph{Neural TD Learning} 上で研究する。 既存のニューラルネットワークによるTD学習の分析は、無限幅解析または(ランダム)コンパクト集合におけるネットワークパラメータの制約に依存しており、その結果、各イテレーションで追加のプロジェクションステップが必要になる。 本稿では,ニューラルTD学習における新たな収束解析手法であるemph{without any projection}を確立する。 我々は、$poly(\overline{\nu},1/\epsilon)$を超える任意の幅の2層ReLUネットワークを備えた投影のないTD学習が、$poly(\overline{\nu},1/\epsilon)$与えられた$poly(\overline{\nu},1/\epsilon)$反復またはサンプルで真の値関数に収束することを示した。 我々のサンプル複雑性と過パラメータ境界は、遅延トレーニング環境で停止されたランダムプロセスとしてネットワークパラメータのドリフト解析に基づいている。

We study the dynamics of temporal-difference learning with neural network-based value function approximation over a general state space, namely, \emph{Neural TD learning}. Existing analysis of neural TD learning relies on either infinite width-analysis or constraining the network parameters in a (random) compact set; as a result, an extra projection step is required at each iteration. This paper establishes a new convergence analysis of neural TD learning \emph{without any projection}. We show that the projection-free TD learning equipped with a two-layer ReLU network of any width exceeding $poly(\overline{\nu},1/\epsilon)$ converges to the true value function with error $\epsilon$ given $poly(\overline{\nu},1/\epsilon)$ iterations or samples, where $\overline{\nu}$ is an upper bound on the RKHS norm of the value function induced by the neural tangent kernel. Our sample complexity and overparameterization bounds are based on a drift analysis of the network parameters as a stopped random process in the lazy training regime.
翻訳日:2021-03-03 17:33:18 公開日:2021-03-02
# 対人訓練における損失関数の平滑性解析

Smoothness Analysis of Loss Functions of Adversarial Training ( http://arxiv.org/abs/2103.01400v1 )

ライセンス: Link先を確認
Sekitoshi Kanai, Masanori Yamada, Hiroshi Takahashi, Yuki Yamanaka, Yasutoshi Ida(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 対比ロバスト性に関する最近の研究は、最適化性能に関連しているため、パラメータ空間の損失ランドスケープに焦点を当てている。 これらの研究は、損失関数が滑らかでない、すなわちその勾配がリプシッツ連続ではないため、パラメータに関する逆トレーニングの損失関数を最適化することは難しいと結論付けている。 しかし、この分析は、パラメータに対する敵対攻撃の依存を無視します。 敵の攻撃はモデルにとって最悪のノイズであるため、モデルのパラメータに依存するべきである。 本研究では, 依存度を考慮した二分線形分類のための対向学習における損失関数の滑らかさを解析する。 リプシッツ連続性は、この場合の敵対攻撃の制約の種類に依存することが明らかとなった。 特に、L2 の制約の下では、逆損失は 0 を除いて滑らかである。

Deep neural networks are vulnerable to adversarial attacks. Recent studies of adversarial robustness focus on the loss landscape in the parameter space since it is related to optimization performance. These studies conclude that it is hard to optimize the loss function for adversarial training with respect to parameters because the loss function is not smooth: i.e., its gradient is not Lipschitz continuous. However, this analysis ignores the dependence of adversarial attacks on parameters. Since adversarial attacks are the worst noise for the models, they should depend on the parameters of the models. In this study, we analyze the smoothness of the loss function of adversarial training for binary linear classification considering the dependence. We reveal that the Lipschitz continuity depends on the types of constraints of adversarial attacks in this case. Specifically, under the L2 constraints, the adversarial loss is smooth except at zero.
翻訳日:2021-03-03 17:32:50 公開日:2021-03-02
# A HINT from Arithmetic: on systematic generalization of Perception, Syntax, and Semantics (特集 認知・シンタックス・セマンティックス)

A HINT from Arithmetic: On Systematic Generalization of Perception, Syntax, and Semantics ( http://arxiv.org/abs/2103.01403v1 )

ライセンス: Link先を確認
Qing Li, Siyuan Huang, Yining Hong, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu(参考訳) 人間が算術を習得し、未知の問題に一般化する能力に着想を得て、知覚、構文、セマンティクスの3つの異なるレベルで一般化可能な概念を学習する機械の能力を研究するための新しいデータセット「ヒント」を提案する。 特に、指と演算子の両方を含むヒントの概念は、弱い教師のやり方で学ぶ必要がある:手書き式の最終結果のみが監督として提供される。 学習エージェントは、イメージ(知覚)のような生の信号から概念がどのように認識されるか、複数の概念が構造的に組み合わされ、有効な表現(構文)を形成するか、そして様々な推論タスク(意味論)が実現されるかを考える必要がある。 体系的な一般化に焦点をあてて,学習概念の補間と補間の両方を評価する5次元テストセットを慎重に設計する。 そこで本研究では,ニューラルネットと文法解析とプログラム合成を統合し,新たな推論・アブダクション戦略によって学習したニューラルシンボリックシステムを提案する。 実験では、提案されたニューラルシンボリックシステムは強力な一般化能力を示し、RNNやTransformerのようなエンドツーエンドのニューラルメソッドを大幅に上回る。 また,構文と意味論の補間における再帰的前置法の重要性も示唆した。

Inspired by humans' remarkable ability to master arithmetic and generalize to unseen problems, we present a new dataset, HINT, to study machines' capability of learning generalizable concepts at three different levels: perception, syntax, and semantics. In particular, concepts in HINT, including both digits and operators, are required to learn in a weakly-supervised fashion: Only the final results of handwriting expressions are provided as supervision. Learning agents need to reckon how concepts are perceived from raw signals such as images (i.e., perception), how multiple concepts are structurally combined to form a valid expression (i.e., syntax), and how concepts are realized to afford various reasoning tasks (i.e., semantics). With a focus on systematic generalization, we carefully design a five-fold test set to evaluate both the interpolation and the extrapolation of learned concepts. To tackle this challenging problem, we propose a neural-symbolic system by integrating neural networks with grammar parsing and program synthesis, learned by a novel deduction--abduction strategy. In experiments, the proposed neural-symbolic system demonstrates strong generalization capability and significantly outperforms end-to-end neural methods like RNN and Transformer. The results also indicate the significance of recursive priors for extrapolation on syntax and semantics.
翻訳日:2021-03-03 17:30:29 公開日:2021-03-02
# 私は本物か偽のセレブか? deepfake偽装攻撃下での顔認識ウェブapiの測定

Am I a Real or Fake Celebrity? Measuring Commercial Face Recognition Web APIs under Deepfake Impersonation Attack ( http://arxiv.org/abs/2103.00847v2 )

ライセンス: Link先を確認
Shahroz Tariq, Sowon Jeon, Simon S. Woo(参考訳) 近年,ディープニューラルネットワークを用いた顔認識技術が進歩している。 その結果、Microsoft、Amazon、Naverなどの企業は、エンドユーザーのニーズを満たすために、さまざまなアプリケーション向けに高精度な商用顔認識Webサービスを提供しています。 しかしながら、このような技術は、事実上すべての個人が迅速に偽造攻撃を実施できるため、永続的に脅威にさらされている。 特に、これらの攻撃は認証および識別サービスにとって重大な脅威となり、顔認識技術の精度と堅牢性に大きく依存します。 その重力にもかかわらず、商用Web APIを用いたディープフェイクの悪用とその堅牢性に関する問題は、まだ十分に調査されていない。 本研究では,セレブリティ認識APIを用いたDeepfake Impersonation (DI)攻撃に対するブラックボックス商用顔認識APIの堅牢性に関する測定研究を事例として紹介する。 5つのディープフェイクデータセットを使用します。そのうち2つは私たちによって作成され、リリースされる予定です。 より具体的には,2つのシナリオ(ターゲットと非ターゲット)に基づいて攻撃性能を測定し,忠実度,信頼度,類似度指標を用いてシステムの挙動をさらに分析する。 したがって、人気企業の顔認識技術がDI攻撃にいかに脆弱であるかを実証し、ターゲット(すなわち正確なマッチング)と非ターゲット(すなわちセレブと一致する)攻撃の最大成功率78.0%と99.9%を達成した。 また、標的攻撃と非標的攻撃の攻撃成功率を0%と0.02%に低下させ、DI攻撃を緩和するための実用的防御戦略を提案します。

Recently, significant advancements have been made in face recognition technologies using Deep Neural Networks. As a result, companies such as Microsoft, Amazon, and Naver offer highly accurate commercial face recognition web services for diverse applications to meet the end-user needs. Naturally, however, such technologies are threatened persistently, as virtually any individual can quickly implement impersonation attacks. In particular, these attacks can be a significant threat for authentication and identification services, which heavily rely on their underlying face recognition technologies' accuracy and robustness. Despite its gravity, the issue regarding deepfake abuse using commercial web APIs and their robustness has not yet been thoroughly investigated. This work provides a measurement study on the robustness of black-box commercial face recognition APIs against Deepfake Impersonation (DI) attacks using celebrity recognition APIs as an example case study. We use five deepfake datasets, two of which are created by us and planned to be released. More specifically, we measure attack performance based on two scenarios (targeted and non-targeted) and further analyze the differing system behaviors using fidelity, confidence, and similarity metrics. Accordingly, we demonstrate how vulnerable face recognition technologies from popular companies are to DI attack, achieving maximum success rates of 78.0% and 99.9% for targeted (i.e., precise match) and non-targeted (i.e., match with any celebrity) attacks, respectively. Moreover, we propose practical defense strategies to mitigate DI attacks, reducing the attack success rates to as low as 0% and 0.02% for targeted and non-targeted attacks, respectively.
翻訳日:2021-03-03 17:30:03 公開日:2021-03-02
# 自動符号化による関節後部最大化による逆問題の解法

Solving Inverse Problems by Joint Posterior Maximization with Autoencoding Prior ( http://arxiv.org/abs/2103.01648v1 )

ライセンス: Link先を確認
Mario Gonz\'alez, Andr\'es Almansa, Pauline Tan(参考訳) 本研究では,前者が変分オートエンコーダ(VAE)である画像の逆問題に対する問題に対処する。 具体的には、プリエントが一度トレーニングされ、再トレーニングせずに多くの異なるログコンケーブ劣化モデルで再利用できるデカップリングケースを考える。 この問題に対する従来のMAPベースのアプローチは、非凸最適化アルゴリズムをもたらすが、我々のアプローチは、自然に代替最適化アルゴリズムに導かれるジョイント(空間遅延)MAPを計算し、確率エンコーダを用いて計算を高速化する。 得られた技術(JPMAP)は、オートエンコーディングプリミティブを使用して関節後部最大化を行う。 提案する対象関数が bi-convex に非常に近いという理論的および実験的証拠を示す。 実際、我々の最適化スキームが定常点に収束することを保証するのに十分である弱い双凸性特性を満たす。 また, 生成モデルの品質に影響を与えることなく, エンコーダが分布外画像によく一般化することを保証するため, 発声基準を用いてvaeを正しくトレーニングすることの重要性を強調する。 この単純な変更は、手順全体に堅牢性を提供するための鍵です。 最後に、共同MAP手法がより一般的なMAPアプローチとどのように関連しているかを示し、JPMAPアルゴリズムを使用してより堅牢なMAP推定を提供する継続スキームを提案します。 実験結果はまた、JPMAPアプローチで得られたソリューションの高品質を他の非凸MAPアプローチと比較して示し、より頻繁にスプリアスローカルオプティマで立ち往生します。

In this work we address the problem of solving ill-posed inverse problems in imaging where the prior is a variational autoencoder (VAE). Specifically we consider the decoupled case where the prior is trained once and can be reused for many different log-concave degradation models without retraining. Whereas previous MAP-based approaches to this problem lead to highly non-convex optimization algorithms, our approach computes the joint (space-latent) MAP that naturally leads to alternate optimization algorithms and to the use of a stochastic encoder to accelerate computations. The resulting technique (JPMAP) performs Joint Posterior Maximization using an Autoencoding Prior. We show theoretical and experimental evidence that the proposed objective function is quite close to bi-convex. Indeed it satisfies a weak bi-convexity property which is sufficient to guarantee that our optimization scheme converges to a stationary point. We also highlight the importance of correctly training the VAE using a denoising criterion, in order to ensure that the encoder generalizes well to out-of-distribution images, without affecting the quality of the generative model. This simple modification is key to providing robustness to the whole procedure. Finally we show how our joint MAP methodology relates to more common MAP approaches, and we propose a continuation scheme that makes use of our JPMAP algorithm to provide more robust MAP estimates. Experimental results also show the higher quality of the solutions obtained by our JPMAP approach with respect to other non-convex MAP approaches which more often get stuck in spurious local optima.
翻訳日:2021-03-03 17:29:15 公開日:2021-03-02
# Abstractive Query-Focused Multi-Document Summarizationのためのデータ拡張

Data Augmentation for Abstractive Query-Focused Multi-Document Summarization ( http://arxiv.org/abs/2103.01863v1 )

ライセンス: Link先を確認
Ramakanth Pasunuru, Asli Celikyilmaz, Michel Galley, Chenyan Xiong, Yizhe Zhang, Mohit Bansal, Jianfeng Gao(参考訳) クエリ指向のマルチドキュメント要約(QMDS)の進歩は、十分な大規模な高品質のトレーニングデータセットが不足しているため、制限されている。 本稿では,QMDSCNNデータセットを作成するために,(1)一般的な単一文書CNN/デイリーメール要約データセットを転送し,(2)QMDSIRデータセットを作成するために検索クエリログをマイニングする2つのQMDSトレーニングデータセットについて述べる。 これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。 これらの実際の要約とクエリの両方をカバーするために、ducデータセットに新しい最先端の転送結果をもたらす複合データセット上に、抽象的なエンドツーエンドニューラルネットワークモデルを構築します。 また,複数の文書とともにクエリをより効率的なエンコーディングを可能にする新しい階層エンコーダも導入する。 実験の結果,データ拡張およびエンコーディング手法は,複数の属性による評価と同様に,自動メトリクスのベースラインモデルよりも優れていることがわかった。

The progress in Query-focused Multi-Document Summarization (QMDS) has been limited by the lack of sufficient largescale high-quality training datasets. We present two QMDS training datasets, which we construct using two data augmentation methods: (1) transferring the commonly used single-document CNN/Daily Mail summarization dataset to create the QMDSCNN dataset, and (2) mining search-query logs to create the QMDSIR dataset. These two datasets have complementary properties, i.e., QMDSCNN has real summaries but queries are simulated, while QMDSIR has real queries but simulated summaries. To cover both these real summary and query aspects, we build abstractive end-to-end neural network models on the combined datasets that yield new state-of-the-art transfer results on DUC datasets. We also introduce new hierarchical encoders that enable a more efficient encoding of the query together with multiple documents. Empirical results demonstrate that our data augmentation and encoding methods outperform baseline models on automatic metrics, as well as on human evaluations along multiple attributes.
翻訳日:2021-03-03 17:28:34 公開日:2021-03-02
# 構造化例に対する微分可能帰納論理プログラミング

Differentiable Inductive Logic Programming for Structured Examples ( http://arxiv.org/abs/2103.01719v1 )

ライセンス: Link先を確認
Hikaru Shindo, Masaaki Nishino, Akihiro Yamamoto(参考訳) 論理の微分可能な実装は、シンボリック推論とディープニューラルネットワークのシームレスな組み合わせをもたらす。 実例から論理プログラムを学ぶための微分可能なフレームワークを開発した最近の研究は、ノイズの多いデータセットから合理的な解を得ることもできる。 しかし、このフレームワークは、例えば、関数シンボルが許されず、節の形状が固定されるなど、ソリューションの表現を厳しく制限する。 その結果、フレームワークは構造化された例を扱うことができない。 そこで本研究では, 雑音や構造化例から論理プログラムを学習するための新しいフレームワークを提案する。 まず,各節の一般性によって定義される構造空間を探索し,微分可能なソルバの効率的な探索空間を得るための適応項探索法を提案する。 第2に,異なる推論関数を実行するために必要な基底原子の集合を決定するために,基底原子の列挙アルゴリズムを提案する。 最後に,論理プログラムをソフトに構成する新しい手法を提案し,複数の節からなる複雑なプログラムを扱えるようにした。 実験の結果,新しいフレームワークは,シーケンスやツリーなど,ノイズの多い構造化例から論理プログラムを学習できることが判明した。 我々のフレームワークは、関数記号を持つ複数の節からなる複雑なプログラムを扱うためにスケールできる。

The differentiable implementation of logic yields a seamless combination of symbolic reasoning and deep neural networks. Recent research, which has developed a differentiable framework to learn logic programs from examples, can even acquire reasonable solutions from noisy datasets. However, this framework severely limits expressions for solutions, e.g., no function symbols are allowed, and the shapes of clauses are fixed. As a result, the framework cannot deal with structured examples. Therefore we propose a new framework to learn logic programs from noisy and structured examples, including the following contributions. First, we propose an adaptive clause search method by looking through structured space, which is defined by the generality of the clauses, to yield an efficient search space for differentiable solvers. Second, we propose for ground atoms an enumeration algorithm, which determines a necessary and sufficient set of ground atoms to perform differentiable inference functions. Finally, we propose a new method to compose logic programs softly, enabling the system to deal with complex programs consisting of several clauses. Our experiments show that our new framework can learn logic programs from noisy and structured examples, such as sequences or trees. Our framework can be scaled to deal with complex programs that consist of several clauses with function symbols.
翻訳日:2021-03-03 17:22:23 公開日:2021-03-02
# 分布形式意味論

Distributional Formal Semantics ( http://arxiv.org/abs/2103.01713v1 )

ライセンス: Link先を確認
Noortje J. Venhuizen and Petra Hendriks and Matthew W. Crocker and Harm Brouwer(参考訳) 自然言語のセマンティクスは最近、形式的アプローチと分布的アプローチの補完的な強みを意味に組み合わせようとしている。 より具体的には、形式的意味表現による形式的意味機械の強化、形式的意味論への意味的類似性の概念の導入、あるいは包含や構成性といった形式的概念を組み入れることを目的とした分布システムの定義が提案されている。 しかし、世界の形式的および分布的アプローチモデルと言語的共起の基本的な「表現的通貨」を考えると、その統一は非常に困難であることが証明されている。 ここでは,形式モデルのレベルでの形式的意味体系に分布性を統合する分布形式意味論を定義する。 このアプローチは、本質的にも構成的である確率的で分散的な意味表現を提供し、量化や関係性といった基本的な意味概念を自然に捉える。 さらに,これらの表現の確率論的性質が確率的推論を可能にし,情報理論的な「情報」概念(エントロピーと超越性の観点から測定)がいかに自然にそれに従うかを示す。 最後に, 再帰的ニューラルネットワークモデルを用いて, 言語入力から意味表現を漸進的に導出する方法と, 帰納法, 前置法, 照応性といった重要な意味的現象を直感的に捉えた帰納的意味構築手法について述べる。

Natural language semantics has recently sought to combine the complementary strengths of formal and distributional approaches to meaning. More specifically, proposals have been put forward to augment formal semantic machinery with distributional meaning representations, thereby introducing the notion of semantic similarity into formal semantics, or to define distributional systems that aim to incorporate formal notions such as entailment and compositionality. However, given the fundamentally different 'representational currency' underlying formal and distributional approaches - models of the world versus linguistic co-occurrence - their unification has proven extremely difficult. Here, we define a Distributional Formal Semantics that integrates distributionality into a formal semantic system on the level of formal models. This approach offers probabilistic, distributed meaning representations that are also inherently compositional, and that naturally capture fundamental semantic notions such as quantification and entailment. Furthermore, we show how the probabilistic nature of these representations allows for probabilistic inference, and how the information-theoretic notion of "information" (measured in terms of Entropy and Surprisal) naturally follows from it. Finally, we illustrate how meaning representations can be derived incrementally from linguistic input using a recurrent neural network model, and how the resultant incremental semantic construction procedure intuitively captures key semantic phenomena, including negation, presupposition, and anaphoricity.
翻訳日:2021-03-03 17:21:10 公開日:2021-03-02
# 線形ニューラルネットワークによる高速適応

Fast Adaptation with Linearized Neural Networks ( http://arxiv.org/abs/2103.01439v1 )

ライセンス: Link先を確認
Wesley J. Maddox, Shuai Tang, Pablo Garcia Moreno, Andrew Gordon Wilson, Andreas Damianou(参考訳) 訓練されたニューラルネットワークの誘導バイアスを理解することは困難であり、その結果、新しい設定に適応する。 ニューラルネットワークの線形化の帰納的バイアスについて検討し,全ネットワーク関数の驚くほどよい要約であることを示した。 この発見に触発されて,これらの帰納的バイアスをネットワークのヤコビアンから設計されたカーネルを通してガウス過程に埋め込む手法を提案する。 この設定では、領域適応は不確実性推定を伴う解釈可能な後方推論の形式を取る。 この推論は分析的であり、新しいタスクへの微調整ニューラルネットワーク重み付けのような標準技術で見られる局所的な最適問題を含まない。 スケーラブルなフィッシャーベクター製品の新しい実装を含むマトリックスマルチプライに基づく重要な計算速度を開発しています。 画像分類と回帰に関する実験は,ニューラルネットワークの微調整と比較して,トランスファー学習におけるこのフレームワークの期待と利便性を示すものである。 コードはhttps://github.com/amzn/xfer/tree/master/finite_ntkで入手できる。

The inductive biases of trained neural networks are difficult to understand and, consequently, to adapt to new settings. We study the inductive biases of linearizations of neural networks, which we show to be surprisingly good summaries of the full network functions. Inspired by this finding, we propose a technique for embedding these inductive biases into Gaussian processes through a kernel designed from the Jacobian of the network. In this setting, domain adaptation takes the form of interpretable posterior inference, with accompanying uncertainty estimation. This inference is analytic and free of local optima issues found in standard techniques such as fine-tuning neural network weights to a new task. We develop significant computational speed-ups based on matrix multiplies, including a novel implementation for scalable Fisher vector products. Our experiments on both image classification and regression demonstrate the promise and convenience of this framework for transfer learning, compared to neural network fine-tuning. Code is available at https://github.com/amzn/xfer/tree/master/finite_ntk.
翻訳日:2021-03-03 17:16:44 公開日:2021-03-02
# スケーラブルなオンラインガウスプロセスのためのカーネル補間

Kernel Interpolation for Scalable Online Gaussian Processes ( http://arxiv.org/abs/2103.01454v1 )

ライセンス: Link先を確認
Samuel Stanton, Wesley J. Maddox, Ian Delbridge, Andrew Gordon Wilson(参考訳) gaussian process(gps)は、サンプル効率のよいコントロールやブラックボックス最適化など、オンライン設定におけるパフォーマンスのゴールドスタンダードを提供します。 しかし、$n$ポイントを観測した後に単一の新しい観測を収容するためにGP後部を更新すると、正確な設定で少なくとも$O(n)$計算が発生します。 本稿では,一定時間$O(1)$のオンライン更新に対して,正確な推論を維持しつつ,構造化カーネル補間を用いて効率よく計算をリサイクルする方法を示す。 我々は,マラリア発生率予測の誤差を低減するために,オンライン回帰と分類,ベイズ最適化,アクティブサンプリングの多岐にわたる手法の可能性を実証する。 コードはhttps://github.com/wjmaddox/online_gpで入手できる。

Gaussian processes (GPs) provide a gold standard for performance in online settings, such as sample-efficient control and black box optimization, where we need to update a posterior distribution as we acquire data in a sequential fashion. However, updating a GP posterior to accommodate even a single new observation after having observed $n$ points incurs at least $O(n)$ computations in the exact setting. We show how to use structured kernel interpolation to efficiently recycle computations for constant-time $O(1)$ online updates with respect to the number of points $n$, while retaining exact inference. We demonstrate the promise of our approach in a range of online regression and classification settings, Bayesian optimization, and active sampling to reduce error in malaria incidence forecasting. Code is available at https://github.com/wjmaddox/online_gp.
翻訳日:2021-03-03 17:16:27 公開日:2021-03-02
# Wasserstein GANsは失敗した(Wasserstein距離を近似するため)

Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance) ( http://arxiv.org/abs/2103.01678v1 )

ライセンス: Link先を確認
Jan Stanczuk, Christian Etmann, Lisa Maria Kreusser, Carola-Bibiane Schonlieb(参考訳) wasserstein gans は実分布と生成分布の間の wasserstein 距離を最小化するアイデアに基づいている。 理論的なセットアップとWasserstein GANのトレーニングの現実の違いの詳細な数学的分析を提供します。 本研究では、WGAN損失がWasserstein距離の有意義な近似ではないという理論的および実証的な証拠を収集する。 さらに、wasserstein距離は深い生成モデルにとって望ましい損失関数ではないと論じ、wasserstein gansの成功は、実際にはwasserstein距離を近似しなかったことに起因していると結論づける。

Wasserstein GANs are based on the idea of minimising the Wasserstein distance between a real and a generated distribution. We provide an in-depth mathematical analysis of differences between the theoretical setup and the reality of training Wasserstein GANs. In this work, we gather both theoretical and empirical evidence that the WGAN loss is not a meaningful approximation of the Wasserstein distance. Moreover, we argue that the Wasserstein distance is not even a desirable loss function for deep generative models, and conclude that the success of Wasserstein GANs can in truth be attributed to a failure to approximate the Wasserstein distance.
翻訳日:2021-03-03 17:16:13 公開日:2021-03-02
# ベイズネットワークの混合学習を用いた石油・ガス貯留層パラメータ解析

Oil and Gas Reservoirs Parameters Analysis Using Mixed Learning of Bayesian Networks ( http://arxiv.org/abs/2103.01804v1 )

ライセンス: Link先を確認
Irina Deeva, Anna Bubnova, Petr Andriushchenko, Anton Voskresenskiy, Nikita Bukhanov, Nikolay O. Nikitin, Anna V. Kalyuzhnaya(参考訳) 本稿では,石油・ガス貯留層開発におけるデータ解析,因果推論,予測のための多目的ベイズ法について考察する。 これにより、貯水池のパラメータの分析、パラメータ間の発見依存性(原因と影響の関係を含む)、異常のチェック、欠落したパラメータの期待値の予測、最も近い類似点の検索などが可能になる。 この手法はベイズネットワークの構造学習のための拡張アルゴリズムMixLearn@BNに基づいている。 MixLearn@BNの主なアイデアは、(1)均質なデータサブセット上のネットワーク構造を学習すること、(2)専門家によって構造の一部を割り当てること、(3)混合データ上の分布パラメータを学習すること(離散的および連続的)である。 均質なデータサブセットは類似した特徴(アナローグ)を持つ貯水池のさまざまなグループとして識別され、類似度測定はいくつかの種類の距離に基づいている可能性がある。 ベイジアンネットワーク学習の手法は,そのようなネットワーク上での予測や因果推論の質を向上させることを目的としている。 実験により,提案手法が欠落値の予測と異常検出精度に有意な利点があることが証明された。 さらに、この手法は世界中の1000以上の石油貯水池のデータベースに適用され、地質学的パラメーターの関係に関する新たな知見を発見できた。

In this paper, a multipurpose Bayesian-based method for data analysis, causal inference and prediction in the sphere of oil and gas reservoir development is considered. This allows analysing parameters of a reservoir, discovery dependencies among parameters (including cause and effects relations), checking for anomalies, prediction of expected values of missing parameters, looking for the closest analogues, and much more. The method is based on extended algorithm MixLearn@BN for structural learning of Bayesian networks. Key ideas of MixLearn@BN are following: (1) learning the network structure on homogeneous data subsets, (2) assigning a part of the structure by an expert, and (3) learning the distribution parameters on mixed data (discrete and continuous). Homogeneous data subsets are identified as various groups of reservoirs with similar features (analogues), where similarity measure may be based on several types of distances. The aim of the described technique of Bayesian network learning is to improve the quality of predictions and causal inference on such networks. Experimental studies prove that the suggested method gives a significant advantage in missing values prediction and anomalies detection accuracy. Moreover, the method was applied to the database of more than a thousand petroleum reservoirs across the globe and allowed to discover novel insights in geological parameters relationships.
翻訳日:2021-03-03 17:15:58 公開日:2021-03-02
# 低次元埋め込みによる事前知識の分解

Factoring out prior knowledge from low-dimensional embeddings ( http://arxiv.org/abs/2103.01828v1 )

ライセンス: Link先を確認
Edith Heiter, Jonas Fischer, Jilles Vreeken(参考訳) tSNEやUMAPのような低次元埋め込み技術は、高次元データを可視化し、興味深い構造の発見を促進する。 これらは広く使われているが、データに関する背景知識に照らしてではなく、そのままデータを視覚化する。 しかし、我々がすでに知っていることは、何が新しく、それゆえ興味深いかを強く決定する。 本稿では,低次元埋め込みから距離行列の形で事前知識を分解する2つの手法を提案する。 tSNE埋め込みから事前知識を抽出するために,Jensen-Shannon分散を用いた原則的手法でtSNEの目的を適応するJEDIを提案する。 下流の組込み手法の事前知識を評価するために、入力距離行列上で直接操作するCONFETTIを提案します。 合成データと実世界のデータの両方に関する広範囲な実験は、両方の方法がうまく機能していることを示し、それ以外は隠れている有意義な構造を示す埋め込みを提供する。

Low-dimensional embedding techniques such as tSNE and UMAP allow visualizing high-dimensional data and therewith facilitate the discovery of interesting structure. Although they are widely used, they visualize data as is, rather than in light of the background knowledge we have about the data. What we already know, however, strongly determines what is novel and hence interesting. In this paper we propose two methods for factoring out prior knowledge in the form of distance matrices from low-dimensional embeddings. To factor out prior knowledge from tSNE embeddings, we propose JEDI that adapts the tSNE objective in a principled way using Jensen-Shannon divergence. To factor out prior knowledge from any downstream embedding approach, we propose CONFETTI, in which we directly operate on the input distance matrices. Extensive experiments on both synthetic and real world data show that both methods work well, providing embeddings that exhibit meaningful structure that would otherwise remain hidden.
翻訳日:2021-03-03 17:15:35 公開日:2021-03-02
# 個人化フェデレーション学習のための選択肢の理論

A Theorem of the Alternative for Personalized Federated Learning ( http://arxiv.org/abs/2103.01901v1 )

ライセンス: Link先を確認
Shuxiao Chen, Qinqing Zheng, Qi Long, Weijie J. Su(参考訳) フェデレートラーニングの難しさは、クライアント間の統計的異質性から広く認識されている: ローカルデータセットは、しばしば異なるが、全く関係のない分布から来ており、パーソナライゼーションは、各個人の観点から最適な結果を達成するために必要である。 本稿では,スムースで強い凸損失を伴う個人化連合学習の余剰リスクが,ミニマックスの観点からのデータ不均一性にどのように依存するかを示す。 我々の分析は、個人化学習の代替案の驚くべき定理を明らかにしている: (a) あるデータ不均一性の測定値がこのしきい値以下である場合、FedAvgアルゴリズム [McMahan et al., 2017] は極小最適である; (b) 不均一性の測定値がこのしきい値以上である場合、純粋なローカルトレーニングを行う(つまり、クライアントがローカルデータセット上で、通信なしで経験的リスク最小化問題を解く)。 その結果,クライアントワイドの不均一性に適応する難解な(無限次元)問題は,2つのベースラインアルゴリズム間で選択する単純な二項決定問題に還元できることが示唆された。 我々の分析は、連帯学習の性質を考慮したアルゴリズム安定性という新しい概念に依存している。

A widely recognized difficulty in federated learning arises from the statistical heterogeneity among clients: local datasets often come from different but not entirely unrelated distributions, and personalization is, therefore, necessary to achieve optimal results from each individual's perspective. In this paper, we show how the excess risks of personalized federated learning with a smooth, strongly convex loss depend on data heterogeneity from a minimax point of view. Our analysis reveals a surprising theorem of the alternative for personalized federated learning: there exists a threshold such that (a) if a certain measure of data heterogeneity is below this threshold, the FedAvg algorithm [McMahan et al., 2017] is minimax optimal; (b) when the measure of heterogeneity is above this threshold, then doing pure local training (i.e., clients solve empirical risk minimization problems on their local datasets without any communication) is minimax optimal. As an implication, our results show that the presumably difficult (infinite-dimensional) problem of adapting to client-wise heterogeneity can be reduced to a simple binary decision problem of choosing between the two baseline algorithms. Our analysis relies on a new notion of algorithmic stability that takes into account the nature of federated learning.
翻訳日:2021-03-03 17:15:19 公開日:2021-03-02
# WIT:マルチモーダル多言語機械学習のためのウィキペディアベースの画像テキストデータセット

WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning ( http://arxiv.org/abs/2103.01913v1 )

ライセンス: Link先を確認
Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork(参考訳) 深層表現学習と事前学習技術によるマイルストーンの改善は、下流のNLP、IR、ビジョンタスク間で大きなパフォーマンス向上をもたらした。 マルチモーダルモデリング技術は、補完的な情報(画像とテキストのモダリティ)を学習するための大規模な高品質の視覚言語データセットを活用することを目指している。 本稿では,ウィキペディアベースの画像テキスト (WIT) Dataset\footnote{\url{https://github.com/google-research-datasets/wit}} を紹介する。 witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。 そのサイズは、画像テキスト検索などの下流タスクに適用した場合に示すように、WITをマルチモーダルモデルの事前トレーニングデータセットとして使用することができる。 WITには4つの利点がある。 まず、WITは(執筆時点で)3倍の画像-テキストのサンプル数によって最大のマルチモーダルデータセットです。 第二に、WITは100以上の言語(それぞれが少なくとも12Kの例を持っている)をカバーし、多くの画像に多言語テキストを提供しています。 第三に、WITは、以前のデータセットがカバーするものと比較して、より多様な概念と現実世界のエンティティのセットを表します。 最後に、WITは、画像テキスト検索タスクを例に、実世界の非常に困難なテストセットを提供する。

The milestone improvements brought about by deep representation learning and pre-training techniques have led to large performance gains across downstream NLP, IR and Vision tasks. Multimodal modeling techniques aim to leverage large high-quality visio-linguistic datasets for learning complementary information (across image and text modalities). In this paper, we introduce the Wikipedia-based Image Text (WIT) Dataset\footnote{\url{https://github.com/google-research-datasets/wit}} to better facilitate multimodal, multilingual learning. WIT is composed of a curated set of 37.6 million entity rich image-text examples with 11.5 million unique images across 108 Wikipedia languages. Its size enables WIT to be used as a pretraining dataset for multimodal models, as we show when applied to downstream tasks such as image-text retrieval. WIT has four main and unique advantages. First, WIT is the largest multimodal dataset by the number of image-text examples by 3x (at the time of writing). Second, WIT is massively multilingual (first of its kind) with coverage over 100+ languages (each of which has at least 12K examples) and provides cross-lingual texts for many images. Third, WIT represents a more diverse set of concepts and real world entities relative to what previous datasets cover. Lastly, WIT provides a very challenging real-world test set, as we empirically illustrate using an image-text retrieval task as an example.
翻訳日:2021-03-03 17:14:53 公開日:2021-03-02
# 普遍的敵対攻撃に関する調査

A Survey On Universal Adversarial Attack ( http://arxiv.org/abs/2103.01498v1 )

ライセンス: Link先を確認
Chaoning Zhang, Philipp Benz, Chenguo Lin, Adil Karjauv, Jing Wu, In So Kweon(参考訳) ディープニューラルネットワーク(DNN)は様々なアプリケーションで顕著な性能を示してきたが、敵の摂動の攻撃に弱いことが広く知られている。 この興味深い現象は機械学習に大きな注目を集めており、コミュニティにとってより驚くべきのは、普遍的敵対的摂動(UAP)の存在である。 ほとんどの画像に対してターゲットのDNNを騙す単一の摂動。 UAPの利点は、事前に生成し、攻撃中にオンザフライで適用できることである。 本調査は, 深層分類器に対するUAPの取り組みから, 攻撃・防衛双方の課題とUAPの存在理由を論じ, 近年の普遍的敵攻撃の進展をまとめたものである。 さらに、深い分類を超えた幅広いアプリケーションにおけるユニバーサルアタックもカバーされている。

Deep neural networks (DNNs) have demonstrated remarkable performance for various applications, meanwhile, they are widely known to be vulnerable to the attack of adversarial perturbations. This intriguing phenomenon has attracted significant attention in machine learning and what might be more surprising to the community is the existence of universal adversarial perturbations (UAPs), i.e. a single perturbation to fool the target DNN for most images. The advantage of UAP is that it can be generated beforehand and then be applied on-the-fly during the attack. With the focus on UAP against deep classifiers, this survey summarizes the recent progress on universal adversarial attacks, discussing the challenges from both the attack and defense sides, as well as the reason for the existence of UAP. Additionally, universal attacks in a wide range of applications beyond deep classification are also covered.
翻訳日:2021-03-03 17:10:49 公開日:2021-03-02
# TransTailor: トランスファー学習を改善するための事前トレーニングモデル

TransTailor: Pruning the Pre-trained Model for Improved Transfer Learning ( http://arxiv.org/abs/2103.01542v1 )

ライセンス: Link先を確認
Bingyan Liu, Yifeng Cai, Yao Guo, Xiangqun Chen(参考訳) 事前学習モデルの増加により、転送学習による限られたデータタスクのパフォーマンスが大幅に向上しました。 しかし、転送学習の進歩は主に、モデルと対象タスクの間の構造ミスマッチを無視した事前学習モデルの重み付けを最適化することに焦点を当てている。 本稿では,重みの調整に加えて,目標課題に合うように事前訓練されたモデルの構造を調整し,他の角度からの転送性能を向上させることを目的とする。 そこで本研究では,事前学習モデルの構築を目標としたtranstailorを提案する。 従来のプランニングパイプラインと異なり、トレーニング済みモデルを目標重量の重要度に応じて微調整し、特定のターゲットタスクに合わせて最適なサブモデルを生成します。 このようにして、ファイナルパフォーマンスのために微調整時に適用できるより適切なサブ構造を転送する。 複数の事前訓練されたモデルとデータセットに関する広範な実験は、TransTailorが従来の耕作方法よりも優れていることを実証し、より小さなモデルを使用して、他の最先端の転送学習方法よりも競争力またはさらに優れたパフォーマンスを実現します。 特にstanford dogsデータセットでは、transtailorは他の転送方法よりも2.7%精度が向上し、フラップは20%減少した。

The increasing of pre-trained models has significantly facilitated the performance on limited data tasks with transfer learning. However, progress on transfer learning mainly focuses on optimizing the weights of pre-trained models, which ignores the structure mismatch between the model and the target task. This paper aims to improve the transfer performance from another angle - in addition to tuning the weights, we tune the structure of pre-trained models, in order to better match the target task. To this end, we propose TransTailor, targeting at pruning the pre-trained model for improved transfer learning. Different from traditional pruning pipelines, we prune and fine-tune the pre-trained model according to the target-aware weight importance, generating an optimal sub-model tailored for a specific target task. In this way, we transfer a more suitable sub-structure that can be applied during fine-tuning to benefit the final performance. Extensive experiments on multiple pre-trained models and datasets demonstrate that TransTailor outperforms the traditional pruning methods and achieves competitive or even better performance than other state-of-the-art transfer learning methods while using a smaller model. Notably, on the Stanford Dogs dataset, TransTailor can achieve 2.7% accuracy improvement over other transfer methods with 20% fewer FLOPs.
翻訳日:2021-03-03 17:10:34 公開日:2021-03-02
# 最も転送可能な表現を学習するための文脈誘導畳み込みニューラルネットワーク

Contextually Guided Convolutional Neural Networks for Learning Most Transferable Representations ( http://arxiv.org/abs/2103.01566v1 )

ライセンス: Link先を確認
Olcay Kursun, Semih Dinc, Oleg V. Favorov(参考訳) 非常に大きなラベル付きデータセットで広く訓練されたDeep Convolutional Neural Networks(CNN)は、入力パターンの優先的に強力な特徴を認識し、客観的なコンテンツを効率的に表現することを学びます。 このような内部表現の客観性により、ディープCNNは容易にこれらの表現を新しい分類タスクに適用することができる。 深いcnnは、エラーバックプロパゲーションに基づく教師付きトレーニングの難しいプロセスを通じて内部表現を開発する。 対照的に、大脳皮質の深いニューラルネットワークは、文脈情報によって局所レベルで誘導される、監視されていないプロセスでさらに強力な内部表現を開発する。 このような局所的な文脈的ガイダンス原則を単一層CNNアーキテクチャで実装し、限られたサイズのデータセットで訓練された浅いCNNにおいて、汎用表現(追加のトレーニングなしで新しいタスクに転送可能な表現)を開発するための効率的なアルゴリズムを提案する。 コンテキストガイド付きCNN(CG-CNN)は、データセット内のランダムな画像位置で選択された近隣画像パッチのグループに基づいて訓練される。 このような隣接パッチは共通のコンテキストを持つ可能性が高いため、トレーニング目的で同じクラスに属するものとして扱われる。 イメージパッチの異なるコンテキスト共有グループでのトレーニングの繰り返し、ひとつのイテレーションで最適化されたCNN機能は、さらに最適化するために次のイテレーションに転送される。 この過程において、cnnの特徴は、転送ユーティリティとして定量化される任意の分類タスクに対して高い多能性、または推論的ユーティリティを取得する。 自然画像への応用において、CG-CNNの機能は、転送ユーティリティと分類精度が、よく知られたディープネットワークの第1CNN層で同等であることを示す。

Deep Convolutional Neural Networks (CNNs), trained extensively on very large labeled datasets, learn to recognize inferentially powerful features in their input patterns and represent efficiently their objective content. Such objectivity of their internal representations enables deep CNNs to readily transfer and successfully apply these representations to new classification tasks. Deep CNNs develop their internal representations through a challenging process of error backpropagation-based supervised training. In contrast, deep neural networks of the cerebral cortex develop their even more powerful internal representations in an unsupervised process, apparently guided at a local level by contextual information. Implementing such local contextual guidance principles in a single-layer CNN architecture, we propose an efficient algorithm for developing broad-purpose representations (i.e., representations transferable to new tasks without additional training) in shallow CNNs trained on limited-size datasets. A contextually guided CNN (CG-CNN) is trained on groups of neighboring image patches picked at random image locations in the dataset. Such neighboring patches are likely to have a common context and therefore are treated for the purposes of training as belonging to the same class. Across multiple iterations of such training on different context-sharing groups of image patches, CNN features that are optimized in one iteration are then transferred to the next iteration for further optimization, etc. In this process, CNN features acquire higher pluripotency, or inferential utility for any arbitrary classification task, which we quantify as a transfer utility. In our application to natural images, we find that CG-CNN features show the same, if not higher, transfer utility and classification accuracy as comparable transferable features in the first CNN layer of the well-known deep networks.
翻訳日:2021-03-03 17:10:12 公開日:2021-03-02
# 教師学習による内視鏡機器セグメンテーションのシミュレーション・トゥ・リアル・ドメイン適応

Simulation-to-Real domain adaptation with teacher-student learning for endoscopic instrument segmentation ( http://arxiv.org/abs/2103.01593v1 )

ライセンス: Link先を確認
Manish Sahu, Anirban Mukhopadhyay, Stefan Zachow(参考訳) 目的: 内視鏡映像における手術器具のセグメンテーションは、手術シーンの自動理解とプロセスモデリングに不可欠です。 しかし,手動アノテーションが臨床専門家の貴重な時間を占有しているため,完全教師付き深層学習に頼ることは困難である。 方法:現在の一貫性に基づく非教師付きドメイン適応フレームワークの誤学習問題に取り組むために,注釈付きシミュレーションデータとラベルなし実データから共同で学習する教師学習手法を提案する。 結果: 3つのデータセットに対する実験結果から, 内視鏡機器分割作業に対する現在のアプローチよりも, 提案フレームワークの有効性が示された。 さらに、すべてのデータセットのパフォーマンスに影響を及ぼす主要な要因を分析し、アプローチの強みと失敗モードを強調します。 結論: 提案手法は, 未ラベルの実映像フレームを有効利用し, 純粋なシミュレーションベーストレーニングや過去の最先端技術よりも, 一般化性能を向上させることができることを示す。 これにより、アノテーション不足設定における外科的ツールの効果的なセグメンテーションに一歩近づきます。

Purpose: Segmentation of surgical instruments in endoscopic videos is essential for automated surgical scene understanding and process modeling. However, relying on fully supervised deep learning for this task is challenging because manual annotation occupies valuable time of the clinical experts. Methods: We introduce a teacher-student learning approach that learns jointly from annotated simulation data and unlabeled real data to tackle the erroneous learning problem of the current consistency-based unsupervised domain adaptation framework. Results: Empirical results on three datasets highlight the effectiveness of the proposed framework over current approaches for the endoscopic instrument segmentation task. Additionally, we provide analysis of major factors affecting the performance on all datasets to highlight the strengths and failure modes of our approach. Conclusion: We show that our proposed approach can successfully exploit the unlabeled real endoscopic video frames and improve generalization performance over pure simulation-based training and the previous state-of-the-art. This takes us one step closer to effective segmentation of surgical tools in the annotation scarce setting.
翻訳日:2021-03-03 17:09:42 公開日:2021-03-02
# 超球面一様性による学習

Learning with Hyperspherical Uniformity ( http://arxiv.org/abs/2103.01649v1 )

ライセンス: Link先を確認
Weiyang Liu, Rongmei Lin, Zhen Liu, Li Xiong, Bernhard Sch\"olkopf, Adrian Weller(参考訳) 過パラメータの性質から、ニューラルネットワークは非線形関数近似の強力なツールである。 目に見えないデータに対する良好な一般化を達成するためには、適切な誘導バイアスがニューラルネットワークにとって非常に重要です。 最も簡単な方法の1つは、追加の目的でニューラルネットワークを正規化することだ。 L2正規化はニューラルネットワークの標準正規化として機能する。 その人気にもかかわらず、本質的には個々のニューロンの1次元を正則化しており、高パラメータのニューラルネットワークの能力を制御するには十分ではない。 このことから、超球面均一性は神経細胞間の相互作用に影響を与える新しいリレーショナル正規化の族として提案されている。 超球面均一性を達成するための幾何的に異なる方法を考える。 超球面均一性の有効性は理論的な洞察と経験的評価によって正当化される。

Due to the over-parameterization nature, neural networks are a powerful tool for nonlinear function approximation. In order to achieve good generalization on unseen data, a suitable inductive bias is of great importance for neural networks. One of the most straightforward ways is to regularize the neural network with some additional objectives. L2 regularization serves as a standard regularization for neural networks. Despite its popularity, it essentially regularizes one dimension of the individual neuron, which is not strong enough to control the capacity of highly over-parameterized neural networks. Motivated by this, hyperspherical uniformity is proposed as a novel family of relational regularizations that impact the interaction among neurons. We consider several geometrically distinct ways to achieve hyperspherical uniformity. The effectiveness of hyperspherical uniformity is justified by theoretical insights and empirical evaluations.
翻訳日:2021-03-03 17:09:25 公開日:2021-03-02
# 最大および平均ポーリングの一般化法の比較

Comparison of Methods Generalizing Max- and Average-Pooling ( http://arxiv.org/abs/2103.01746v1 )

ライセンス: Link先を確認
Florentin Bieder, Robin Sandk\"uhler, Philippe C. Cattin(参考訳) 最大および平均プールは、畳み込みニューラルネットワークにおけるダウンサンプリングの最も一般的なプーリング方法である。 本稿では,最大値と平均値の両方を一般化する異なるプール法の比較を行う。 さらに, 最大関数の円滑な近似に基づく別の手法を提案し, 関連手法を用いて文脈に配置する。 比較のために、VGG16画像分類ネットワークを使用して、自然の高解像度画像の大きなデータセット(Google Open Images v5)でトレーニングする。 結果は、より洗練された方法のどれでも、標準的な最大または平均プールよりもこの分類タスクで有意に優れています。

Max- and average-pooling are the most popular pooling methods for downsampling in convolutional neural networks. In this paper, we compare different pooling methods that generalize both max- and average-pooling. Furthermore, we propose another method based on a smooth approximation of the maximum function and put it into context with related methods. For the comparison, we use a VGG16 image classification network and train it on a large dataset of natural high-resolution images (Google Open Images v5). The results show that none of the more sophisticated methods perform significantly better in this classification task than standard max- or average-pooling.
翻訳日:2021-03-03 17:09:15 公開日:2021-03-02
# 教師なし機械学習モデルの逆例

Adversarial Examples for Unsupervised Machine Learning Models ( http://arxiv.org/abs/2103.01895v1 )

ライセンス: Link先を確認
Chia-Yi Hsu, Pin-Yu Chen, Songtao Lu, Sijia Lu, Chia-Mu Yu(参考訳) 回避予測を引き起こす逆例は、機械学習モデルの堅牢性を評価および改善するために広く使用されている。 しかし、近年の敵対的事例研究は、教師付き学習課題に焦点をあて、基礎的真理データラベル、目標目標、訓練された分類器からの監督に頼っている。 本稿では,教師なしモデルの逆例生成の枠組みを提案し,データ拡張のための新しい応用例を示す。 本フレームワークは,相互情報推定器を情報理論的類似性尺度として活用し,監視なしに逆例を生成する。 我々は、教師なし逆数例の効率的な生成のための証明可能な収束保証を備えた新しいMinMaxアルゴリズムを提案する。 我々のフレームワークは、教師付き敵の例にも拡張できる。 教師なしの逆例をモデルリトレーニングのための単純なプラグインデータ拡張ツールとして使用する場合、データ再構成、表現学習、コントラスト学習など、教師なしのタスクやデータセット間で一貫して重要な改善が観察される。 本研究は,非教師なし学習問題の頑健さを研究・改善するための新しい手法と利点を示す。 当社のコードはhttps://github.com/IBM/UAEで入手できます。

Adversarial examples causing evasive predictions are widely used to evaluate and improve the robustness of machine learning models. However, current studies on adversarial examples focus on supervised learning tasks, relying on the ground-truth data label, a targeted objective, or supervision from a trained classifier. In this paper, we propose a framework of generating adversarial examples for unsupervised models and demonstrate novel applications to data augmentation. Our framework exploits a mutual information neural estimator as an information-theoretic similarity measure to generate adversarial examples without supervision. We propose a new MinMax algorithm with provable convergence guarantees for efficient generation of unsupervised adversarial examples. Our framework can also be extended to supervised adversarial examples. When using unsupervised adversarial examples as a simple plug-in data augmentation tool for model retraining, significant improvements are consistently observed across different unsupervised tasks and datasets, including data reconstruction, representation learning, and contrastive learning. Our results show novel methods and advantages in studying and improving robustness of unsupervised learning problems via adversarial examples. Our codes are available at https://github.com/IBM/UAE.
翻訳日:2021-03-03 17:09:06 公開日:2021-03-02
# 対向ロバスト性を改善するためのデータ拡張

Fixing Data Augmentation to Improve Adversarial Robustness ( http://arxiv.org/abs/2103.01946v1 )

ライセンス: Link先を確認
Sylvestre-Alvise Rebuffi, Sven Gowal, Dan A. Calian, Florian Stimberg, Olivia Wiles, Timothy Mann(参考訳) 相手のトレーニングは、トレーニング中に堅牢なテスト精度が低下し始める現象である、堅牢なオーバーフィッティングに苦しむ。 本稿では,ロバストなオーバーフィッティングを減らす手段として,ヒューリスティックス駆動とデータ駆動の強化に焦点をあてる。 まず, 従来の結果とは対照的に, モデル重量平均化と組み合わせることで, データの増大がロバストな精度を著しく向上させることを示した。 第2に,最先端生成モデルを活用してトレーニングセットのサイズを人工的に拡大し,さらに敵対的ロバスト性を向上させる方法について検討する。 最後に, CIFAR-10 に対する $\ell_\infty$ と $\ell_2$ サイズ $\epsilon = 8/255$ と $\epsilon = 128/255$ に対するアプローチを評価した。 従来の最先端手法に比べて,+7.06%と+5.88%の絶対値が大幅に向上した。 特に、サイズが$\epsilon = 8/255$の$\ell_\infty$ノルムバウンドの摂動に対して、我々のモデルは、外部データを用いずに64.20%の堅牢な精度に達し、外部データを使用するほとんどの先行処理を上回っています。

Adversarial training suffers from robust overfitting, a phenomenon where the robust test accuracy starts to decrease during training. In this paper, we focus on both heuristics-driven and data-driven augmentations as a means to reduce robust overfitting. First, we demonstrate that, contrary to previous findings, when combined with model weight averaging, data augmentation can significantly boost robust accuracy. Second, we explore how state-of-the-art generative models can be leveraged to artificially increase the size of the training set and further improve adversarial robustness. Finally, we evaluate our approach on CIFAR-10 against $\ell_\infty$ and $\ell_2$ norm-bounded perturbations of size $\epsilon = 8/255$ and $\epsilon = 128/255$, respectively. We show large absolute improvements of +7.06% and +5.88% in robust accuracy compared to previous state-of-the-art methods. In particular, against $\ell_\infty$ norm-bounded perturbations of size $\epsilon = 8/255$, our model reaches 64.20% robust accuracy without using any external data, beating most prior works that use external data.
翻訳日:2021-03-03 17:08:49 公開日:2021-03-02
# VQVAEによる映像予測

Predicting Video with VQVAE ( http://arxiv.org/abs/2103.01950v1 )

ライセンス: Link先を確認
Jacob Walker, Ali Razavi, and A\"aron van den Oord(参考訳) 近年は、過去の映像枠に与えた将来の映像予測の課題が研究コミュニティで注目を集めています。 本稿では,Vector Quantized Variational Auto Encoders (VQ-VAE) を用いた新しいアプローチを提案する。 VQ-VAEでは、高解像度のビデオを階層的な多スケール離散潜在変数に圧縮する。 画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。 高度に制約されたデータセットを強調した以前の研究とは対照的に、kinetics-600のような非常に多様な大規模データセットにフォーカスしています。 私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。 さらに,クラウドソーシングによる人的評価を通じて,先行研究に対するアプローチを検証する。

In recent years, the task of video prediction-forecasting future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution videos into a hierarchical set of multi-scale discrete latent variables. Compared to pixels, this compressed latent space has dramatically reduced dimensionality, allowing us to apply scalable autoregressive generative models to predict video. In contrast to previous work that has largely emphasized highly constrained datasets, we focus on very diverse, large-scale datasets such as Kinetics-600. We predict video at a higher resolution on unconstrained videos, 256x256, than any other previous method to our knowledge. We further validate our approach against prior work via a crowdsourced human evaluation.
翻訳日:2021-03-03 17:08:24 公開日:2021-03-02
# サンプリング下における推奨評価指標の推定

On Estimating Recommendation Evaluation Metrics under Sampling ( http://arxiv.org/abs/2103.01474v1 )

ライセンス: Link先を確認
Ruoming Jin and Dong Li and Benjamin Mudrak and Jing Gao Zhi Liu(参考訳) krichene と rendle による最近の研究 ~\cite{krichene20@kdd20} は、レコメンデーションのためのサンプリングベースのtop-k評価基準に基づいており、レコメンデーションアルゴリズムの評価にサンプリングを使用することの妥当性について多くの議論がなされている。 彼らの研究と最近の研究 ~\cite{li@kdd20} は、サンプリングベースのメトリクスを、アイテムのセット全体をランク付けするグローバルな指標にマッピングするための基本的なアプローチを提案しているが、サンプリングがレコメンデーション評価にどのように使われるべきかについての理解とコンセンサスはまだ欠如している。 提案手法はかなり非形式的(サンプリングを計量評価にリンクする)か、Recall/Precision~\cite{Krichene20@KDD20,Li@KDD20}のような単純なメトリクスでしか動作できない。 本稿では,経験的ランク分布の学習に関する新しい研究課題と,推定ランク分布に基づく新しいアプローチを導入し,トップkの指標を推定する。 この質問は、推奨のためのサンプリングの基盤となるメカニズムと密接に関連しているため、サンプリングのパワーをよりよく理解し、推奨を評価するためにサンプリングを使うべきか、どのように使うべきかという疑問を解決するのに役立ちます。 我々は、MLE(Maximal Likelihood Estimation)とその重み付き変種に基づく2つのアプローチと、ME(Maximal Entropy)プリンシパルを導入して、経験的ランク分布を復元し、それをメトリクス推定に利用する。 実験結果から,トップkメトリクスに基づく推薦アルゴリズムの評価に新たなアプローチを用いることの利点が示された。

Since the recent study ~\cite{Krichene20@KDD20} done by Krichene and Rendle on the sampling-based top-k evaluation metric for recommendation, there has been a lot of debates on the validity of using sampling to evaluate recommendation algorithms. Though their work and the recent work ~\cite{Li@KDD20} have proposed some basic approaches for mapping the sampling-based metrics to their global counterparts which rank the entire set of items, there is still a lack of understanding and consensus on how sampling should be used for recommendation evaluation. The proposed approaches either are rather uninformative (linking sampling to metric evaluation) or can only work on simple metrics, such as Recall/Precision~\cite{Krichene20@KDD20,Li@KDD20}. In this paper, we introduce a new research problem on learning the empirical rank distribution, and a new approach based on the estimated rank distribution, to estimate the top-k metrics. Since this question is closely related to the underlying mechanism of sampling for recommendation, tackling it can help better understand the power of sampling and can help resolve the questions of if and how should we use sampling for evaluating recommendation. We introduce two approaches based on MLE (Maximal Likelihood Estimation) and its weighted variants, and ME (Maximal Entropy) principals to recover the empirical rank distribution, and then utilize them for metrics estimation. The experimental results show the advantages of using the new approaches for evaluating recommendation algorithms based on top-k metrics.
翻訳日:2021-03-03 17:08:12 公開日:2021-03-02
# 絶え間ない、オンライン、無監視の深さに向けて

Towards Continual, Online, Unsupervised Depth ( http://arxiv.org/abs/2103.00369v2 )

ライセンス: Link先を確認
Muhammad Umar Karim Khan(参考訳) 受動センサによる深度抽出は深層学習によって著しく改善されているが、トレーニング中に観察されていない環境にさらされた場合、これらのアプローチは正確な深度を得ることができない可能性がある。 ニューラルネットワークがデプロイ中にトレーニングするオンライン適応は、教師なし学習によって便利なソリューションを提供する。 しかし、オンライン適応は、ニューラルネットワークが過去を忘れる原因となります。 このように、過去のトレーニングは無駄にされ、過去のシーンを観察してもネットワークは良い結果が得られない。 この作業は、入力がオンラインで時間的に関連付けられており、トレーニングは完全に教師なしである、実用的なオンライン適応を扱う。 タスク境界のない正規化とリプレイに基づく手法は、オンラインデータに適応しながら破滅的な忘れ込みを避けるために提案される。 実験は、構造から運動とステレオの両方の異なるデータセット上で行われる。 近年の手法よりも優れている適応性とともに忘れられる結果が得られる。 提案されたアプローチは、ニューラルネットワークが監視(ターゲットラベルとタスク)なしでデプロイされる場面を学習し、過去を忘れずに展開するという、人工知能のパラダイムに合致している。 コードは github.com/umarKarim/cou_stereo と github.com/umarKarim/cou_sfm で入手できる。

Although depth extraction with passive sensors has seen remarkable improvement with deep learning, these approaches may fail to obtain correct depth if they are exposed to environments not observed during training. Online adaptation, where the neural network trains while deployed, with unsupervised learning provides a convenient solution. However, online adaptation causes a neural network to forget the past. Thus, past training is wasted and the network is not able to provide good results if it observes past scenes. This work deals with practical online-adaptation where the input is online and temporally-correlated, and training is completely unsupervised. Regularization and replay-based methods without task boundaries are proposed to avoid catastrophic forgetting while adapting to online data. Experiments are performed on different datasets with both structure-from-motion and stereo. Results of forgetting as well as adaptation are provided, which are superior to recent methods. The proposed approach is more inline with the artificial general intelligence paradigm as the neural network learns the scene where it is deployed without any supervision (target labels and tasks) and without forgetting about the past. Code is available at github.com/umarKarim/cou_stereo and github.com/umarKarim/cou_sfm.
翻訳日:2021-03-03 17:07:20 公開日:2021-03-02
# 深層言語モデルを用いた語彙・構成構文・意味論の分解

Decomposing lexical and compositional syntax and semantics with deep language models ( http://arxiv.org/abs/2103.01620v1 )

ライセンス: Link先を確認
Charlotte Caucheteux, Alexandre Gramfort, Jean-Remi King(参考訳) GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。 しかし、これらの活性化の性質は未知であり、おそらく異なる言語分類を混同している。 本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つの組み合わせクラスに分類する分類法を提案する。 次に、GPT2の活性化のレンズを通して、約4.6時間のナレーションテキストの聴取中に、機能的磁気共鳴画像(fMRI)で記録された345人の脳活動を分解する統計的方法を紹介した。 その結果は2つの結果が浮かび上がった。 まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。 第二に、以前の主張に反して、構文とセマンティクスは分離されたモジュールに関連づけられず、代わりに共通の分散ニューラルネットワークを共有するように見える。 全体として、本研究は自然主義的な設定で生成された言語構成の分散表現を分離する一般的な枠組みを導入する。

The activations of language transformers like GPT2 have been shown to linearly map onto brain activity during speech comprehension. However, the nature of these activations remains largely unknown and presumably conflate distinct linguistic classes. Here, we propose a taxonomy to factorize the high-dimensional activations of language models into four combinatorial classes: lexical, compositional, syntactic, and semantic representations. We then introduce a statistical method to decompose, through the lens of GPT2's activations, the brain activity of 345 subjects recorded with functional magnetic resonance imaging (fMRI) during the listening of ~4.6 hours of narrated text. The results highlight two findings. First, compositional representations recruit a more widespread cortical network than lexical ones, and encompass the bilateral temporal, parietal and prefrontal cortices. Second, contrary to previous claims, syntax and semantics are not associated with separated modules, but, instead, appear to share a common and distributed neural substrate. Overall, this study introduces a general framework to isolate the distributed representations of linguistic constructs generated in naturalistic settings.
翻訳日:2021-03-03 17:05:53 公開日:2021-03-02
# PFA: 効果的なモデルパーソナライゼーションのためのプライバシ保護フェデレーション適応

PFA: Privacy-preserving Federated Adaptation for Effective Model Personalization ( http://arxiv.org/abs/2103.01548v1 )

ライセンス: Link先を確認
Bingyan Liu, Yao Guo, Xiangqun Chen(参考訳) フェデレートラーニング(FL)は、プライバシを改善した分散機械学習パラダイムとして普及している。 学習後、結果のフェデレーションモデルは、各クライアントにさらにパーソナライズされるべきです。 パーソナライゼーションを実現するいくつかの方法が提案されているが、典型的には単一のローカルデバイスに限定される。 本論文では,単一クライアントを超えたパーソナライゼーションの実現を試みる。 その動機は、FLの間、類似したデータ配信を持つ多くのクライアントが存在し、類似したクライアントが相互に協力できれば、パーソナライズ性能が大幅に向上する可能性があることである。 そこで本研究では,より優れたパーソナライズ結果を得るために,訓練されたモデルをフェデレーション方式で適応させることを目的とした,フェデレーション適応という新しい概念を提案する。 しかし、連合適応の鍵となる課題は、プライバシの懸念のため、適応中にクライアントから生データをアウトソースできないことです。 本稿では,プライバシ保護フェデレーテッド・アダプテーションを実現するフレームワークであるPFAを提案する。 pfaは、プライバシ保存表現を生成するためにニューラルネットワークのスパーシティ特性を利用して、同様のデータ分布を持つクライアントを効率的に識別する。 グループ化の結果に基づいて、PFAは適応を達成するためにフェデレーションモデル上でグループ的にFLプロセスを実行する。 評価のために、クラス不均衡条件と背景拡散条件の両方をシミュレートするために、公開データセットに基づくいくつかの実用的なflデータセットを手作業で構築する。 これらのデータセットと一般的なモデルアーキテクチャに関する広範な実験は、PFAの有効性を実証し、ユーザーのプライバシーを確保しながら、他の最先端のメソッドを大きなマージンで上回る。 コードはhttps://github.com/lebyni/PFAで公開します。

Federated learning (FL) has become a prevalent distributed machine learning paradigm with improved privacy. After learning, the resulting federated model should be further personalized to each different client. While several methods have been proposed to achieve personalization, they are typically limited to a single local device, which may incur bias or overfitting since data in a single device is extremely limited. In this paper, we attempt to realize personalization beyond a single client. The motivation is that during FL, there may exist many clients with similar data distribution, and thus the personalization performance could be significantly boosted if these similar clients can cooperate with each other. Inspired by this, this paper introduces a new concept called federated adaptation, targeting at adapting the trained model in a federated manner to achieve better personalization results. However, the key challenge for federated adaptation is that we could not outsource any raw data from the client during adaptation, due to privacy concerns. In this paper, we propose PFA, a framework to accomplish Privacy-preserving Federated Adaptation. PFA leverages the sparsity property of neural networks to generate privacy-preserving representations and uses them to efficiently identify clients with similar data distributions. Based on the grouping results, PFA conducts an FL process in a group-wise way on the federated model to accomplish the adaptation. For evaluation, we manually construct several practical FL datasets based on public datasets in order to simulate both the class-imbalance and background-difference conditions. Extensive experiments on these datasets and popular model architectures demonstrate the effectiveness of PFA, outperforming other state-of-the-art methods by a large margin while ensuring user privacy. We will release our code at: https://github.com/lebyni/PFA.
翻訳日:2021-03-03 17:01:24 公開日:2021-03-02
# スケーラブルで効率的なエージェントのためのスパーストレーニング理論

Sparse Training Theory for Scalable and Efficient Agents ( http://arxiv.org/abs/2103.01636v1 )

ライセンス: Link先を確認
Decebal Constantin Mocanu, Elena Mocanu, Tiago Pinto, Selima Curci, Phuong H. Nguyen, Madeleine Gibescu, Damien Ernst, Zita A. Vale(参考訳) 人工知能の基本的なタスクは学習です。 ディープニューラルネットワークは、すべての学習パラダイム、すなわち、完璧に対処できることが証明されている。 教師なし、監督なし、強化学習。 それでも、従来のディープラーニングアプローチはクラウドコンピューティング機能を活用しており、低い計算リソースを持つ自律エージェントにはうまくスケールしない。 クラウドでも、計算とメモリの制限に悩まされており、数十億のニューロンを持つネットワークを仮定するエージェントに対して、適切に大きな物理世界をモデル化することはできない。 これらの問題は、スパースネットワークをゼロからトレーニングするスパーストレーニングという新しいトピックによってここ数年で解決されます。 本稿では,分散トレーニングの課題と限界について述べるとともに,スパーストレーニングの制約を緩和し,ディープラーニングのスケーラビリティを現在の限界をはるかに越える可能性を持つ,新たな理論研究の方向性をいくつか紹介する。 それにもかかわらず、複雑なマルチエージェント設定における理論的進歩は、スマートグリッドケーススタディを用いて、現実世界の観点から議論される。

A fundamental task for artificial intelligence is learning. Deep Neural Networks have proven to cope perfectly with all learning paradigms, i.e. supervised, unsupervised, and reinforcement learning. Nevertheless, traditional deep learning approaches make use of cloud computing facilities and do not scale well to autonomous agents with low computational resources. Even in the cloud, they suffer from computational and memory limitations, and they cannot be used to model adequately large physical worlds for agents which assume networks with billions of neurons. These issues are addressed in the last few years by the emerging topic of sparse training, which trains sparse networks from scratch. This paper discusses sparse training state-of-the-art, its challenges and limitations while introducing a couple of new theoretical research directions which has the potential of alleviating sparse training limitations to push deep learning scalability well beyond its current boundaries. Nevertheless, the theoretical advancements impact in complex multi-agents settings is discussed from a real-world perspective, using the smart grid case study.
翻訳日:2021-03-03 17:00:55 公開日:2021-03-02
# グラフ時間畳み込みニューラルネットワーク

Graph-Time Convolutional Neural Networks ( http://arxiv.org/abs/2103.01730v1 )

ライセンス: Link先を確認
Elvin Isufi and Gabriele Mazzola(参考訳) 時空間データはグラフ上のプロセスとして表現することができ、その空間関係を明示的または暗黙的に捉える。 このような構造を利用して表現を学習する方法は、グラフを扱う上で重要な課題の1つである。 本稿では,製品グラフによる時空間関係を表現し,第1原理のグラフ時間畳み込みニューラルネットワーク(GTCNN)を開発する。 gtcnnは、各層がグラフ時間畳み込みモジュール、グラフ時間プーリングモジュール、非線形性からなる合成アーキテクチャである。 我々は,畳み込み演算子のシフト・アンド・サム原理に従い,製品グラフ上の高レベル特徴を学習し,グラフ時間畳み込みフィルタを開発する。 製品グラフ自体はパラメトリックであるため、データから時空間結合も学ぶことができます。 我々は,アクティブノード数とパラメータを削減しつつ,空間グラフ(データに関する先行情報)を保存するゼロパッドプーリングを開発した。 合成および実データを用いた実験結果は、異なるコンポーネントを相関させ、ベースラインおよび最先端ソリューションと比較する。

Spatiotemporal data can be represented as a process over a graph, which captures their spatial relationships either explicitly or implicitly. How to leverage such a structure for learning representations is one of the key challenges when working with graphs. In this paper, we represent the spatiotemporal relationships through product graphs and develop a first principle graph-time convolutional neural network (GTCNN). The GTCNN is a compositional architecture with each layer comprising a graph-time convolutional module, a graph-time pooling module, and a nonlinearity. We develop a graph-time convolutional filter by following the shift-and-sum principles of the convolutional operator to learn higher-level features over the product graph. The product graph itself is parametric so that we can learn also the spatiotemporal coupling from data. We develop a zero-pad pooling that preserves the spatial graph (the prior about the data) while reducing the number of active nodes and the parameters. Experimental results with synthetic and real data corroborate the different components and compare with baseline and state-of-the-art solutions.
翻訳日:2021-03-03 17:00:38 公開日:2021-03-02
# 多エージェント協調ゲームにおけるMAPPOのサプライズ効果

The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games ( http://arxiv.org/abs/2103.01955v1 )

ライセンス: Link先を確認
Chao Yu, Akash Velu, Eugene Vinitsky, Yu Wang, Alexandre Bayen, Yi Wu(参考訳) Proximal Policy Optimization(PPO)は、ポピュラーなオンポリシー強化学習アルゴリズムであるが、マルチエージェント問題におけるオフポリシー学習アルゴリズムよりも大幅に少ない。 本研究では,集中型値関数を採用したマルチエージェントPPO (Multi-Agent PPO) の変種について検討する。 1GPUデスクトップを使用して、MAPPOが3つの一般的なマルチエージェントテストベッド(パーティクルワールド環境、Starcraft II Micromanagement Tasks、Hanabi Challenge)で最先端のパフォーマンスを実現し、ハイパーパラメータのチューニングを最小限に抑え、ドメイン固有のアルゴリズムの変更やアーキテクチャなしで達成できることを示します。 ほとんどの環境において、MAPPOはオフポリシのベースラインと比較して、サンプルの複雑さと実行時間の大幅な短縮を実現していることがわかります。 最後に、MAPPOの実用性能に最も影響する5つの要因をアブレーション研究で紹介します。

Proximal Policy Optimization (PPO) is a popular on-policy reinforcement learning algorithm but is significantly less utilized than off-policy learning algorithms in multi-agent problems. In this work, we investigate Multi-Agent PPO (MAPPO), a multi-agent PPO variant which adopts a centralized value function. Using a 1-GPU desktop, we show that MAPPO achieves performance comparable to the state-of-the-art in three popular multi-agent testbeds: the Particle World environments, Starcraft II Micromanagement Tasks, and the Hanabi Challenge, with minimal hyperparameter tuning and without any domain-specific algorithmic modifications or architectures. In the majority of environments, we find that compared to off-policy baselines, MAPPO achieves better or comparable sample complexity as well as substantially faster running time. Finally, we present 5 factors most influential to MAPPO's practical performance with ablation studies.
翻訳日:2021-03-03 17:00:21 公開日:2021-03-02
# DPlis:ランダム化スムージングによるプライベートディープラーニングの有用性向上

DPlis: Boosting Utility of Differentially Private Deep Learning via Randomized Smoothing ( http://arxiv.org/abs/2103.01496v1 )

ライセンス: Link先を確認
Wenxiao Wang (1), Tianhao Wang (2), Lun Wang (3), Nanqing Luo (4), Pan Zhou (4), Dawn Song (3), Ruoxi Jia (5) ((1) Tsinghua University, (2) Harvard University, (3) University of California, Berkeley, (4) Huazhong University of Science and Technology, (5) Virginia Tech)(参考訳) 深層学習技術は、幅広いタスクで顕著なパフォーマンスを達成しました。 ただし、プライバシーに敏感なデータセットでトレーニングする場合、モデルパラメータはトレーニングデータに個人情報を公開することがあります。 事前のプライベートトレーニングの試みは、厳格なプライバシー保証を提供するが、非プライベートトレーニングよりもはるかに低いモデルパフォーマンスをもたらす。 さらに、同じトレーニングアルゴリズムの異なる実行は、大きなパフォーマンスのばらつきを持つモデルを生成する。 これらの課題を解決するため,DPlis--Differentially Private Learning wIth Smoothingを提案する。 DPlisの中心的な考えは損失の風景の大きい平らな地域にある騒音抵抗力があるモデルに好む滑らかな損失機能を構築することです。 DPlisの実用性向上のための理論的正当性を提供する。 広範な実験は、DPlisが与えられたプライバシー予算の下でモデル品質とトレーニングの安定性を効果的に向上できることを示した。

Deep learning techniques have achieved remarkable performance in wide-ranging tasks. However, when trained on privacy-sensitive datasets, the model parameters may expose private information in training data. Prior attempts for differentially private training, although offering rigorous privacy guarantees, lead to much lower model performance than the non-private ones. Besides, different runs of the same training algorithm produce models with large performance variance. To address these issues, we propose DPlis--Differentially Private Learning wIth Smoothing. The core idea of DPlis is to construct a smooth loss function that favors noise-resilient models lying in large flat regions of the loss landscape. We provide theoretical justification for the utility improvements of DPlis. Extensive experiments also demonstrate that DPlis can effectively boost model quality and training stability under a given privacy budget.
翻訳日:2021-03-03 16:58:16 公開日:2021-03-02
# private stochastic convex optimization: optimal rate in $\ell_1$ geometry

Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$ Geometry ( http://arxiv.org/abs/2103.01516v1 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Tomer Koren, Kunal Talwar(参考訳) $\ell_1$-boundedドメインに対する確率的凸最適化は、LASSOのような機械学習アプリケーションではユビキタスだが、差分プライバシーで学ぶ際には理解されていない。 対数係数まで、任意の $(\varepsilon,\delta)$-differentially private optimizationr の最適過剰人口損失は $\sqrt{\log(d)/n} + \sqrt{d}/\varepsilon n.$ 上界は、~\citet{FeldmanKoTa20} の反復的局在化アプローチと、プライベート正規化ミラー降下の新しい解析を組み合わせた新しいアルゴリズムに基づいている。 p\in [1,2]$ の $\ell_p$ 境界付きドメインに適用され、最大 $n^{3/2}$ 勾配でのクエリは、$n^2$ 勾配を必要とする $\ell_2$ の場合に対する最もよく知られたアルゴリズムよりも改善される。 さらに、損失関数が追加の平滑性仮定を満たすと、余剰損失は $\sqrt{\log(d)/n} + (\log(d)/\varepsilon n)^{2/3}.$ この境界は、データの単一のパスを必要とするフランク・ウルフアルゴリズムの新しい分散還元バージョンによって達成される。 また、この場合の下限が上記の2つのレートの最小値であることも示します。

Stochastic convex optimization over an $\ell_1$-bounded domain is ubiquitous in machine learning applications such as LASSO but remains poorly understood when learning with differential privacy. We show that, up to logarithmic factors the optimal excess population loss of any $(\varepsilon,\delta)$-differentially private optimizer is $\sqrt{\log(d)/n} + \sqrt{d}/\varepsilon n.$ The upper bound is based on a new algorithm that combines the iterative localization approach of~\citet{FeldmanKoTa20} with a new analysis of private regularized mirror descent. It applies to $\ell_p$ bounded domains for $p\in [1,2]$ and queries at most $n^{3/2}$ gradients improving over the best previously known algorithm for the $\ell_2$ case which needs $n^2$ gradients. Further, we show that when the loss functions satisfy additional smoothness assumptions, the excess loss is upper bounded (up to logarithmic factors) by $\sqrt{\log(d)/n} + (\log(d)/\varepsilon n)^{2/3}.$ This bound is achieved by a new variance-reduced version of the Frank-Wolfe algorithm that requires just a single pass over the data. We also show that the lower bound in this case is the minimum of the two rates mentioned above.
翻訳日:2021-03-03 16:58:05 公開日:2021-03-02
# 構造ヘルスモニタリングのための確率的推論--データからの新しい学習モード

Probabilistic Inference for Structural Health Monitoring: New Modes of Learning from Data ( http://arxiv.org/abs/2103.01676v1 )

ライセンス: Link先を確認
Lawrence A. Bull, Paul Gardner, Timothy J. Rogers, Elizabeth J. Cross, Nikolaos Dervilis, Keith Worden(参考訳) データ駆動型SHMでは、運用中のシステムから記録された信号はノイズが多く不完全である。 操作状態、環境状態、損傷状態のそれぞれに対応するデータは、前もって利用されることは稀であり、さらに、測定値を記述するラベル付けは、しばしば利用できない。 その結果、SHMを実装するために使用されるアルゴリズムは堅牢で適応的であり、トレーニングデータに欠落した情報(新しい情報が利用可能になったら、新しい情報を含めることができる)を収容する必要がある。 統計的学習のための新しい手法(以前の研究で導入された)をレビューすることで、確率論的アルゴリズムは実際にSHMデータのモデリングに自然な解決策をもたらすと論じられている。 3つのケーススタディでは、半教師付き学習、アクティブ学習、マルチタスク学習を含むSHM信号への適用のために確率的手法が適応される。

In data-driven SHM, the signals recorded from systems in operation can be noisy and incomplete. Data corresponding to each of the operational, environmental, and damage states are rarely available a priori; furthermore, labelling to describe the measurements is often unavailable. In consequence, the algorithms used to implement SHM should be robust and adaptive, while accommodating for missing information in the training-data -- such that new information can be included if it becomes available. By reviewing novel techniques for statistical learning (introduced in previous work), it is argued that probabilistic algorithms offer a natural solution to the modelling of SHM data in practice. In three case-studies, probabilistic methods are adapted for applications to SHM signals -- including semi-supervised learning, active learning, and multi-task learning.
翻訳日:2021-03-03 16:57:25 公開日:2021-03-02
# 信用スコアリングにおける公平性:アセスメント、実施、利益インプリケーション

Fairness in Credit Scoring: Assessment, Implementation and Profit Implications ( http://arxiv.org/abs/2103.01907v1 )

ライセンス: Link先を確認
Nikita Kozodoi, Johannes Jacob, Stefan Lessmann(参考訳) アルゴリズムによる意思決定の台頭は、公正機械学習(ML)に関する多くの研究を生み出した。 金融機関は、さまざまな信用関連の決定をサポートするリスクスコアカードを構築するためにMLを使用します。 しかし、信用スコアリングにおける公正MLに関する文献は乏しい。 論文には2つの貢献がある。 まず、MLモデル開発パイプラインに公平性目標を組み込むためのアルゴリズムオプションの体系的な概要を提供する。 この範囲では、統計的公平性基準の空間を集約し、信用スコアの妥当性を検討します。 第2に,7つの実世界のデータセットを用いて,利益指向の信用スコア設定において,異なる公平性プロセッサについて実証研究を行う。 実証的な結果は、公平性措置の評価を実証し、公正な信用スコアリングを実行するためのますます適切なオプションを特定し、貸付決定における利益公平性トレードオフを明確にします。 具体的には、複数のフェアネス基準をほぼ同時に満たし、スコアカードのフェアネスを測定するための適切な基準として分離を識別する。 また、公正なプロセッサは利益と公平さのバランスを良好に保ちます。 より一般的には、比較的低コストでアルゴリズムの識別を合理的なレベルに還元できることを示す。

The rise of algorithmic decision-making has spawned much research on fair machine learning (ML). Financial institutions use ML for building risk scorecards that support a range of credit-related decisions. Yet, the literature on fair ML in credit scoring is scarce. The paper makes two contributions. First, we provide a systematic overview of algorithmic options for incorporating fairness goals in the ML model development pipeline. In this scope, we also consolidate the space of statistical fairness criteria and examine their adequacy for credit scoring. Second, we perform an empirical study of different fairness processors in a profit-oriented credit scoring setup using seven real-world data sets. The empirical results substantiate the evaluation of fairness measures, identify more and less suitable options to implement fair credit scoring, and clarify the profit-fairness trade-off in lending decisions. Specifically, we find that multiple fairness criteria can be approximately satisfied at once and identify separation as a proper criterion for measuring the fairness of a scorecard. We also find fair in-processors to deliver a good balance between profit and fairness. More generally, we show that algorithmic discrimination can be reduced to a reasonable level at a relatively low cost.
翻訳日:2021-03-03 16:57:12 公開日:2021-03-02
# 成長が遅い木

Slow-Growing Trees ( http://arxiv.org/abs/2103.01926v1 )

ライセンス: Link先を確認
Philippe Goulet Coulombe(参考訳) ランダムフォレストの性能は、CARTの欲張りアルゴリズムに学習率を利用する1つの遅い成長木(SGT)によって一致させることができる。 SGTは、CARTは反復重み付き最小二乗手順の極端な場合である、という見解を利用する。 さらに,樹木群落(BT)と森林群落(RF)の統一的な景観を提示する。 Greedy MLアルゴリズムの結果は、“スローラーニング”あるいは多様化”によって改善できる。 SGTは1つの深い木を推定するために前者を適用し、Booging(高い学習率の確率BTを袋詰めする)は後者を付加的な浅い木と使用します。 この木アンサンブル四重項(Booging, BT, SGT, RF)の性能をシミュレーションおよび実回帰タスクで評価する。

Random Forest's performance can be matched by a single slow-growing tree (SGT), which uses a learning rate to tame CART's greedy algorithm. SGT exploits the view that CART is an extreme case of an iterative weighted least square procedure. Moreover, a unifying view of Boosted Trees (BT) and Random Forests (RF) is presented. Greedy ML algorithms' outcomes can be improved using either "slow learning" or diversification. SGT applies the former to estimate a single deep tree, and Booging (bagging stochastic BT with a high learning rate) uses the latter with additive shallow trees. The performance of this tree ensemble quaternity (Booging, BT, SGT, RF) is assessed on simulated and real regression tasks.
翻訳日:2021-03-03 16:56:55 公開日:2021-03-02
# 効率的なデノナイジングのための特徴量ネットワークと知識蒸留

Feature-Align Network and Knowledge Distillation for Efficient Denoising ( http://arxiv.org/abs/2103.01524v1 )

ライセンス: Link先を確認
Lucas D. Young, Fitsum A. Reda, Rakesh Ranjan, Jon Morton, Jun Hu, Yazhu Ling, Xiaoyu Xiang, David Liu, Vikas Chandra(参考訳) 深層学習に基づくRAW画像復調は画像復元において重要な問題である。 近年の作品は、画像品質を問う最新技術を押し上げている。 しかし、これらのネットワークの多くは、モバイルデバイスで効率的に使うには計算コストがかかりすぎる。 本稿では,モバイルデバイス上でのRAWデノイジングを効率的に行うための新しいネットワークを提案する。 1)空間的に変化するノイズに対応するために,新しい特徴分離層を付加した効率的なエンコーダ・デコーダネットワーク。 2) RAW領域で計算された新しい知覚的特徴損失を高周波画像コンテンツとして保存する。 (3) 雑音レベルの異なるサブレンジに調整された複数のモデルの使用の分析。 (4) ノイズモデリングを伴うオープンソースの生ノイズクリーンペアデータセットであり、生雑音の研究を容易にする。 提案するネットワークとトレーニング技術の有効性を評価し、最先端のネットワークと競合する結果を示し、パラメータとMACを大幅に削減します。 Darmstadt Noise Datasetベンチマークでは、24.28dBのPSNRを達成し、MACは263倍、パラメータは49.12dBを達成した最先端のネットワークよりも17.6倍少ない。

Deep learning-based RAW image denoising is a quintessential problem in image restoration. Recent works have pushed the state-of-the-art in denoising image quality. However, many of these networks are computationally too expensive for efficient use in mobile devices. Here, we propose a novel network for efficient RAW denoising on mobile devices. Our contributions are: (1) An efficient encoder-decoder network augmented with a new Feature-Align layer to attend to spatially varying noise. (2) A new perceptual Feature Loss calculated in the RAW domain to preserve high frequency image content. (3) An analysis of the use of multiple models tuned to different subranges of noise levels. (4) An open-source RAW noisy-clean paired dataset with noise modeling, to facilitate research in RAW denoising. We evaluate the effectiveness of our proposed network and training techniques and show results that compete with the state-of-the-art network, while using significantly fewer parameters and MACs. On the Darmstadt Noise Dataset benchmark, we achieve a PSNR of 48.28dB, with 263 times fewer MACs, and 17.6 times fewer parameters than the state-of-the-art network, which achieves 49.12 dB.
翻訳日:2021-03-03 16:53:47 公開日:2021-03-02
# SME:ReRAMベースのスパースマルチプリケーションエンジンでニューラルネットワークのビットスパースを絞り込む

SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit Sparsity of Neural Network ( http://arxiv.org/abs/2103.01705v1 )

ライセンス: Link先を確認
Fangxin Liu, Wenbo Zhao, Yilong Zhao, Zongwu Wang, Tao Yang, Zhezhi He, Naifeng Jing, Xiaoyao Liang, Li Jiang(参考訳) Resistive Random-Access-Memory(ReRAM)クロスバーは、Vector-Matrix Multiplication-and-Accumulations(VMM)のインメモリおよびインサイドアナログコンピューティング能力のおかげで、ディープニューラルネットワーク(DNN)アクセラレータのための有望な技術です。 しかし、DNNの空間性を利用するクロスバーアーキテクチャは困難である。 これは必然的に複雑でコストのかかる制御を引き起こし、密結合のクロスバー構造が制限されるため、きめ細かな粒度を悪用する。 この対策として,ハードウェアとソフトウェアの共同設計フレームワークをベースとした,新しいReRAMベースのDNNアクセラレータであるSparse-Multiplication-Engine(SME)を開発した。 まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。 第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。 この機構は、密結合したクロスバー構造を分離し、クロスバーの間隔を累積することができる。 最後に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。 我々は、SMEアーキテクチャを設計し、他の量子化手法と異なるReRAMセル技術の使用について議論する。 従来の最先端の設計と比較すると、SMEはResent-50とMobileNet-v2を使用してクロスバーの使用を8.7xと2.1xに縮小し、ImageNetの精度は0.3%未満である。

Resistive Random-Access-Memory (ReRAM) crossbar is a promising technique for deep neural network (DNN) accelerators, thanks to its in-memory and in-situ analog computing abilities for Vector-Matrix Multiplication-and-Accumulations (VMMs). However, it is challenging for crossbar architecture to exploit the sparsity in the DNN. It inevitably causes complex and costly control to exploit fine-grained sparsity due to the limitation of tightly-coupled crossbar structure. As the countermeasure, we developed a novel ReRAM-based DNN accelerator, named Sparse-Multiplication-Engine (SME), based on a hardware and software co-design framework. First, we orchestrate the bit-sparse pattern to increase the density of bit-sparsity based on existing quantization methods. Second, we propose a novel weigh mapping mechanism to slice the bits of a weight across the crossbars and splice the activation results in peripheral circuits. This mechanism can decouple the tightly-coupled crossbar structure and cumulate the sparsity in the crossbar. Finally, a superior squeeze-out scheme empties the crossbars mapped with highly-sparse non-zeros from the previous two steps. We design the SME architecture and discuss its use for other quantization methods and different ReRAM cell technologies. Compared with prior state-of-the-art designs, the SME shrinks the use of crossbars up to 8.7x and 2.1x using Resent-50 and MobileNet-v2, respectively, with less than 0.3% accuracy drop on ImageNet.
翻訳日:2021-03-03 16:53:29 公開日:2021-03-02
# 医用イメージングと機械学習

Medical Imaging and Machine Learning ( http://arxiv.org/abs/2103.01938v1 )

ライセンス: Link先を確認
Rohan Shad, John P. Cunningham, Euan A. Ashley, Curtis P. Langlotz, William Hiesinger(参考訳) 計算能力、ディープラーニングアーキテクチャ、およびエキスパートラベル付きデータセットの進歩は、様々なシナリオで臨床専門家に匹敵する医療画像人工知能システムの開発を促した。 2018年に国立衛生研究所は、画像取得、アルゴリズム、データ標準化、および翻訳可能な臨床決定支援システムの研究の基礎的ロードマップを作成し、医療画像における人工知能の未来のための重要な焦点領域を特定しました。 データ可用性、新しいコンピューティングアーキテクチャの必要性、そして説明可能なAIアルゴリズムは、過去数年間だけで非常に進歩したにもかかわらず、依然として関係がある。 さらに、データ共有の翻訳目標、規制承認のためのパフォーマンスの検証、意図しないバイアスの一般化と緩和は、開発プロセスの初期段階において考慮する必要がある。 本稿では,高次元臨床画像データに特有の課題について考察するとともに,高次元マルチモダリティ・機械学習システムの開発における技術的・倫理的考察を強調する。

Advances in computing power, deep learning architectures, and expert labelled datasets have spurred the development of medical imaging artificial intelligence systems that rival clinical experts in a variety of scenarios. The National Institutes of Health in 2018 identified key focus areas for the future of artificial intelligence in medical imaging, creating a foundational roadmap for research in image acquisition, algorithms, data standardization, and translatable clinical decision support systems. Among the key issues raised in the report: data availability, need for novel computing architectures and explainable AI algorithms, are still relevant despite the tremendous progress made over the past few years alone. Furthermore, translational goals of data sharing, validation of performance for regulatory approval, generalizability and mitigation of unintended bias must be accounted for early in the development process. In this perspective paper we explore challenges unique to high dimensional clinical imaging data, in addition to highlighting some of the technical and ethical considerations in developing high-dimensional, multi-modality, machine learning systems for clinical decision support.
翻訳日:2021-03-03 16:53:01 公開日:2021-03-02
# チューンイン:カクテルパーティー効果をシミュレートした注意ネットワークに干渉するネガティブな環境下でのトレーニング

Tune-In: Training Under Negative Environments with Interference for Attention Networks Simulating Cocktail Party Effect ( http://arxiv.org/abs/2103.01461v1 )

ライセンス: Link先を確認
Jun Wang, Max W. Y. Lam, Dan Su, Dong Yu(参考訳) 本研究では, カクテルパーティー問題について検討し, 干渉を伴う負の環境下でのトレーニングを省略した, Tune-In と呼ばれる新しい注意ネットワークを提案する。 まず、共有特徴空間に基づいて話者知識と音声刺激の2つの異なる空間を学習し、そこで新しいブロック構造を全ての空間のビルディングブロックとして設計し、協調して異なるタスクを解く。 2つの空間の間には、人間のカクテルパーティ効果のボトムアップとトップダウンのプロセスを模倣した、新しいクロス・アンド・デュアル・アテンション・メカニズムによって情報を互いに向き合う。 その結果、実質的に識別可能で一般化可能な話者表現は、我々の自己監督訓練を通じて、厳しい干渉条件下で学習できることがわかった。 実験結果は、このパラドックスを検証します。 一方、tune-inはsi-snriとsdriにおいて、あらゆるテストモードで一貫して、特に最先端のベンチマークシステムよりも低いメモリと計算消費において、極めて優れた音声分離性能を達成している。

We study the cocktail party problem and propose a novel attention network called Tune-In, abbreviated for training under negative environments with interference. It firstly learns two separate spaces of speaker-knowledge and speech-stimuli based on a shared feature space, where a new block structure is designed as the building block for all spaces, and then cooperatively solves different tasks. Between the two spaces, information is cast towards each other via a novel cross- and dual-attention mechanism, mimicking the bottom-up and top-down processes of a human's cocktail party effect. It turns out that substantially discriminative and generalizable speaker representations can be learnt in severely interfered conditions via our self-supervised training. The experimental results verify this seeming paradox. The learnt speaker embedding has superior discriminative power than a standard speaker verification method; meanwhile, Tune-In achieves remarkably better speech separation performances in terms of SI-SNRi and SDRi consistently in all test modes, and especially at lower memory and computational consumption, than state-of-the-art benchmark systems.
翻訳日:2021-03-03 16:52:03 公開日:2021-03-02
# 非線形制御-アフィン系の不確かさ環境の安全学習

Safe Learning of Uncertain Environments for Nonlinear Control-Affine Systems ( http://arxiv.org/abs/2103.01413v1 )

ライセンス: Link先を確認
Farhad Farokhi, Alex Leong, Iman Shames, Mohammad Zamani(参考訳) 多くの学習ベースの制御手法では、未知の動的モデルを学習することが制御フェーズに先行し、状態空間の安全な領域に留まるようにシステムを制御することを目的としている。 この作業では,学習と制御の同時進行による安全性の確保が目標です。 具体的には,未知の加法的不確実性を考慮した非線形制御系における安全学習の問題を考える。 不確かさをガウス信号としてモデル化し、状態測定を用いて平均と共分散を学習する。 我々は,不確実性の平均と共分散に関する厳密な時間変動境界を提供し,それらの制約を状態空間上の障壁関数としてコード化された安全制約により最適化プログラムを介して制御入力を変更する。 最適化問題に対して実現可能な解が存在することを条件に学習と制御を同時に実施しながら、任意に大きな確率で状態が安全セットに残ることを保証できることを示す。 この最適化の二次的定式化は計算効率が良い。 これは、学習した平均と共分散に関する不確実性に対処するために安全性の制約を締め付けることに基づいている。 学習平均に対する我々の信頼度と共分散が増加するにつれて、締め付けの規模は小さくなる(つまり、環境に関するより多くの測定値を集めるにつれて)。 この方法の拡張は、より一般的な環境に対応するために、区分的な定数平均と共変性を持つガウスの不確かさに対して与えられる。

In many learning based control methodologies, learning the unknown dynamic model precedes the control phase, while the aim is to control the system such that it remains in some safe region of the state space. In this work our aim is to guarantee safety while learning and control proceed simultaneously. Specifically, we consider the problem of safe learning in nonlinear control-affine systems subject to unknown additive uncertainty. We model uncertainty as a Gaussian signal and use state measurements to learn its mean and covariance. We provide rigorous time-varying bounds on the mean and covariance of the uncertainty and employ them to modify the control input via an optimisation program with safety constraints encoded as a barrier function on the state space. We show that with an arbitrarily large probability we can guarantee that the state will remain in the safe set, while learning and control are carried out simultaneously, provided that a feasible solution exists for the optimisation problem. We provide a secondary formulation of this optimisation that is computationally more efficient. This is based on tightening the safety constraints to counter the uncertainty about the learned mean and covariance. The magnitude of the tightening can be decreased as our confidence in the learned mean and covariance increases (i.e., as we gather more measurements about the environment). Extensions of the method are provided for Gaussian uncertainties with piecewise constant mean and covariance to accommodate more general environments.
翻訳日:2021-03-03 16:51:42 公開日:2021-03-02
# ProtoDUNE生データ復調のためのディープラーニング戦略

Deep Learning strategies for ProtoDUNE raw data denoising ( http://arxiv.org/abs/2103.01596v1 )

ライセンス: Link先を確認
Marco Rossi, Sofia Vallecorsa(参考訳) 本研究では、ProtoDUNE実験から生のシミュレーションデータを消すためのさまざまな機械学習ベースの戦略を検討する。 ProtoDUNE検出器はCERNによってホストされ、ニュートリノ物理学の実験であるDUNEの技術のテストと校正を目的としている。 私たちのモデルは、ディープラーニングアルゴリズムを活用して、デジタル検出器信号を物理的高レベルな量に変換することからなる再構築作業チェーンの最初のステップを作ります。 DUNEコラボレーションによって実装された従来のアルゴリズムに対して、このアプローチをベンチマークします。 グラフニューラルネットワークの能力をテストしながら、マルチGPUセットアップを活用してトレーニングと推論プロセスを加速します。

In this work we investigate different machine learning based strategies for denoising raw simulation data from ProtoDUNE experiment. ProtoDUNE detector is hosted by CERN and it aims to test and calibrate the technologies for DUNE, a forthcoming experiment in neutrino physics. Our models leverage deep learning algorithms to make the first step in the reconstruction workchain, which consists in converting digital detector signals into physical high level quantities. We benchmark this approach against traditional algorithms implemented by the DUNE collaboration. We test the capabilities of graph neural networks, while exploiting multi-GPU setups to accelerate training and inference processes.
翻訳日:2021-03-03 16:51:20 公開日:2021-03-02
# 過パラメータ2層ニューラルネットワークにおける非負出力重みの自己規則性

Self-Regularity of Non-Negative Output Weights for Overparameterized Two-Layer Neural Networks ( http://arxiv.org/abs/2103.01887v1 )

ライセンス: Link先を確認
David Gamarnik, Eren C. K{\i}z{\i}lda\u{g}, and Ilias Zadik(参考訳) 我々は、Sigmoid, rectified linear unit (ReLU) またはバイナリステップアクティベーション関数を用いて、トレーニングエラーによって定量化されたトレーニングデータセットを可能な限り正確に“適合”する2層ニューラルネットワークを見つけることの問題を考察し、以下の質問に答える: \emph{does a low training error guarantees the norm of the output layer (outer norm) itself? 非負の出力重みの場合、この質問は肯定的に答える。 単純な被覆数引数を用いて,入力/ラベル対の分布分布的仮定をかなり軽度に満たし,そのようなネットワークが多項式数のデータに対して小さなトレーニングエラーを発生させることは,必ずしも制御の行き届いた外部ノルムであることを示す。 特に、(a) は多項式($d$) サンプル複雑性を持ち、(b) は隠れた単位数から独立しており(非常に高い可能性がある)、(c) はトレーニングアルゴリズムに従わない、そして(d) はデータに対して非常に穏やかな仮定を必要とする(特に入力ベクトル $x\in\mathbb{r}^d$ は独立座標を持つ必要はない)。 次に、境界を利用してそのようなネットワークに対する一般化保証を確立する。これは、我々が調査するネットワークアーキテクチャが属する複雑性クラスのスケール感知尺度である。 特に、我々の一般化境界は、良いサンプル複雑性(plynomials in $d$ with a low degree)を持ち、実際、いくつかの重要な場合においてほぼ直線的である。

We consider the problem of finding a two-layer neural network with sigmoid, rectified linear unit (ReLU), or binary step activation functions that "fits" a training data set as accurately as possible as quantified by the training error; and study the following question: \emph{does a low training error guarantee that the norm of the output layer (outer norm) itself is small?} We answer affirmatively this question for the case of non-negative output weights. Using a simple covering number argument, we establish that under quite mild distributional assumptions on the input/label pairs; any such network achieving a small training error on polynomially many data necessarily has a well-controlled outer norm. Notably, our results (a) have a polynomial (in $d$) sample complexity, (b) are independent of the number of hidden units (which can potentially be very high), (c) are oblivious to the training algorithm; and (d) require quite mild assumptions on the data (in particular the input vector $X\in\mathbb{R}^d$ need not have independent coordinates). We then leverage our bounds to establish generalization guarantees for such networks through \emph{fat-shattering dimension}, a scale-sensitive measure of the complexity class that the network architectures we investigate belong to. Notably, our generalization bounds also have good sample complexity (polynomials in $d$ with a low degree), and are in fact near-linear for some important cases of interest.
翻訳日:2021-03-03 16:51:11 公開日:2021-03-02
# 後方蒸留による製品記述の探索

Probing Product Description Generation via Posterior Distillation ( http://arxiv.org/abs/2103.01594v1 )

ライセンス: Link先を確認
Haolan Zhan, Hainan Zhang, Hongshen Chen, Lei Shen, Zhuoye Ding, Yongjun Bao, Weipeng Yan, Yanyan Lan(参考訳) 製品記述生成(pdg)では,ユーザのエクスペリエンスを向上させるだけでなく,より多くのクリックを得ることができるレコメンデーションシステムにおいて,ユーザ対応の側面が重要である。 高品質な顧客レビューは、ユーザ主導の側面を掘り下げるのに理想的なソースだと見なすことができます。 しかし、実際には、多くの新製品(ロングテール商品として知られる)が十分な量の顧客レビューを収集できないため、製品記述生成タスクにおいて大きな課題が生じる。 既存の作品は、商品情報、すなわち商品属性やタイトルワードのみに基づいて製品記述を生成する傾向にあり、退屈な内容につながり、顧客を効果的に惹きつけることができない。 そこで本研究では,顧客レビューのユーザケア情報を活用したTransformerアーキテクチャに基づく適応型後方ネットワークを提案する。 具体的には、まず製品タイトルと属性をエンコードする自己注意型トランスフォーマーエンコーダを拡張します。 次に, ユーザ主導のアスペクトを生成プロセスに統合する有用なレビュー情報を活用するために, 適応型後部蒸留モジュールを適用した。 最後に,コピー機構を付加したトランスベース復号位相を適用し,製品記述を自動的に生成する。 また,中国の大規模製品記述データセットも収集し,この分野での研究を支援している。 実験結果から,本モデルは自動指標と人的評価の両方において従来の生成モデルよりも優れていることがわかった。

In product description generation (PDG), the user-cared aspect is critical for the recommendation system, which can not only improve user's experiences but also obtain more clicks. High-quality customer reviews can be considered as an ideal source to mine user-cared aspects. However, in reality, a large number of new products (known as long-tailed commodities) cannot gather sufficient amount of customer reviews, which brings a big challenge in the product description generation task. Existing works tend to generate the product description solely based on item information, i.e., product attributes or title words, which leads to tedious contents and cannot attract customers effectively. To tackle this problem, we propose an adaptive posterior network based on Transformer architecture that can utilize user-cared information from customer reviews. Specifically, we first extend the self-attentive Transformer encoder to encode product titles and attributes. Then, we apply an adaptive posterior distillation module to utilize useful review information, which integrates user-cared aspects to the generation process. Finally, we apply a Transformer-based decoding phase with copy mechanism to automatically generate the product description. Besides, we also collect a large-scare Chinese product description dataset to support our work and further research in this field. Experimental results show that our model is superior to traditional generative models in both automatic indicators and human evaluation.
翻訳日:2021-03-03 16:47:57 公開日:2021-03-02
# 再発見仮説:言語モデルは言語学を満たさなければならない

The Rediscovery Hypothesis: Language Models Need to Meet Linguistics ( http://arxiv.org/abs/2103.01819v1 )

ライセンス: Link先を確認
Vassilina Nikoulina, Maxat Tezekbayev, Nuradil Kozhakhmet, Madina Babazhanova, Matthias Gall\'e, Zhenisbek Assylbekov(参考訳) nlpコミュニティでは、現代言語モデルに言語知識が含まれているかどうか、いわゆる \textit{probes} を通じて議論が続いている。 本稿では,言語知識が現代言語モデルの性能向上の条件であるかどうかを考察し,それを「textit{rediscovery hypothesis}」と呼ぶ。 第一に, 言語構造を探索すると, かなり圧縮されるが, 事前学習目標によく適合する言語モデルが良好なスコアを保っていることを示す。 この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。 このフレームワークはまた、単語予測タスクに対する言語情報の影響を測定するためのメトリクスを提供する。 我々は, 分析結果を, 実タスクと合成の両方で, 様々な実験で強化する。

There is an ongoing debate in the NLP community whether modern language models contain linguistic knowledge, recovered through so-called \textit{probes}. In this paper we study whether linguistic knowledge is a necessary condition for good performance of modern language models, which we call the \textit{rediscovery hypothesis}. In the first place we show that language models that are significantly compressed but perform well on their pretraining objectives retain good scores when probed for linguistic structures. This result supports the rediscovery hypothesis and leads to the second contribution of our paper: an information-theoretic framework that relates language modeling objective with linguistic information. This framework also provides a metric to measure the impact of linguistic information on the word prediction task. We reinforce our analytical results with various experiments, both on synthetic and on real tasks.
翻訳日:2021-03-03 16:47:37 公開日:2021-03-02
# MultiSubs: 大規模マルチモーダルおよびマルチ言語データセット

MultiSubs: A Large-scale Multimodal and Multilingual Dataset ( http://arxiv.org/abs/2103.01910v1 )

ライセンス: Link先を確認
Josiah Wang, Pranava Madhyastha, Josiel Figueiredo, Chiraag Lala, Lucia Specia(参考訳) 本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。 データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。 データセットは、(i) 画像が全文ではなくテキスト断片に整列される、(ii) テキスト断片と文に対して複数の画像が可能、(iii) 文は自由形式であり、実世界的である、(iv) 並列テキストは多言語である、という貴重なリソースである。 我々は、データセットの自動画像選択プロセスの品質を評価するために、人間のための補足ゲームを構築した。 i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。 人間の評価および自動モデルの結果はイメージがテキスト文脈に有用な補足であることができることを示します。 このデータセットは、特に自由形式の文の文脈における単語の視覚的接地に関する研究に有効である。

This paper introduces a large-scale multimodal and multilingual dataset that aims to facilitate research on grounding words to images in their contextual usage in language. The dataset consists of images selected to unambiguously illustrate concepts expressed in sentences from movie subtitles. The dataset is a valuable resource as (i) the images are aligned to text fragments rather than whole sentences; (ii) multiple images are possible for a text fragment and a sentence; (iii) the sentences are free-form and real-world like; (iv) the parallel texts are multilingual. We set up a fill-in-the-blank game for humans to evaluate the quality of the automatic image selection process of our dataset. We show the utility of the dataset on two automatic tasks: (i) fill-in-the blank; (ii) lexical translation. Results of the human evaluation and automatic models demonstrate that images can be a useful complement to the textual context. The dataset will benefit research on visual grounding of words especially in the context of free-form sentences.
翻訳日:2021-03-03 16:47:25 公開日:2021-03-02
# 授業増分学習におけるデータの蒸留因果効果

Distilling Causal Effect of Data in Class-Incremental Learning ( http://arxiv.org/abs/2103.01737v1 )

ライセンス: Link先を確認
Xinting Hu, Kaihua Tang, Chunyan Miao, Xian-Sheng Hua, Hanwang Zhang(参考訳) 本研究では,CIL(Class-Incremental Learning)における破滅的忘れについて説明し,データリプレイや特徴/ラベル蒸留といった既存のアンチフォーガーティング手法に直交する新しい蒸留法を導出するための因果的枠組みを提案する。 まず最初に、CILをフレームワークに配置し、2) 忘れる理由に答える: 古いデータの因果効果が新しいトレーニングで失われ、3) 既存のテクニックがそれを緩和する方法について説明する: 因果効果を取り戻せる。 この枠組みから, 特徴・ラベル蒸留は貯蔵効率が高いが, その因果効果は, データ再生によって保存されるエンドツーエンドの特徴学習の長所と一致しないことがわかった。 そこで本研究では,データ再生の因果効果と基本的に等価であるが,再生ストレージのコストを伴わずに,古いデータと新しいデータとの衝突効果を蒸留することを提案する。 因果効果分析のおかげで、データストリームのIncremental Momentum Effectをさらにキャプチャし、新しいデータ効果によって圧倒された古い効果を保持するのに役立つものを削除し、テストにおける古いクラスの忘れを軽減することができます。 CIFAR-100、ImageNet-Sub&Fullの3つのCILベンチマークに関する広範な実験は、提案された因果効果蒸留が、様々な最先端のCIL法を大きなマージン(0.72%--9.06%)で改善できることを示した。

We propose a causal framework to explain the catastrophic forgetting in Class-Incremental Learning (CIL) and then derive a novel distillation method that is orthogonal to the existing anti-forgetting techniques, such as data replay and feature/label distillation. We first 1) place CIL into the framework, 2) answer why the forgetting happens: the causal effect of the old data is lost in new training, and then 3) explain how the existing techniques mitigate it: they bring the causal effect back. Based on the framework, we find that although the feature/label distillation is storage-efficient, its causal effect is not coherent with the end-to-end feature learning merit, which is however preserved by data replay. To this end, we propose to distill the Colliding Effect between the old and the new data, which is fundamentally equivalent to the causal effect of data replay, but without any cost of replay storage. Thanks to the causal effect analysis, we can further capture the Incremental Momentum Effect of the data stream, removing which can help to retain the old effect overwhelmed by the new data effect, and thus alleviate the forgetting of the old class in testing. Extensive experiments on three CIL benchmarks: CIFAR-100, ImageNet-Sub&Full, show that the proposed causal effect distillation can improve various state-of-the-art CIL methods by a large margin (0.72%--9.06%).
翻訳日:2021-03-03 16:45:13 公開日:2021-03-02
# 可変リリース日数によるシングルおよびパラレルマシンスケジューリング

Single and Parallel Machine Scheduling with Variable Release Dates ( http://arxiv.org/abs/2103.01785v1 )

ライセンス: Link先を確認
Felix Mohr, Gonzalo Mej\'ia, Francisco Yuraszeck(参考訳) 本稿では,同一並列マシンにおける全重み付き流れ時間最小化問題の簡単な拡張について検討する。 標準問題は、処理時間と重み付きジョブの集合を単純に定義し、すべてのジョブがリリース日0を持ち、期限がないと仮定するが、各ジョブのリリース日は、単一のグローバル最新の到着期限によってのみ制約される決定変数であると仮定する。 私たちの知る限り、この単純で実際的に非常に関係のある拡張は研究されていない。 本研究の主な貢献は, 単一マシンの場合においてもNP完全性を示し, 遺伝的アルゴリズム, 木探索, 制約プログラミングなど, 様々な典型的なアプローチについて, 徹底的な実証研究を行うことである。

In this paper we study a simple extension of the total weighted flowtime minimization problem for single and identical parallel machines. While the standard problem simply defines a set of jobs with their processing times and weights and assumes that all jobs have release date 0 and have no deadline, we assume that the release date of each job is a decision variable that is only constrained by a single global latest arrival deadline. To our knowledge, this simple yet practically highly relevant extension has never been studied. Our main contribution is that we show the NP- completeness of the problem even for the single machine case and provide an exhaustive empirical study of different typical approaches including genetic algorithms, tree search, and constraint programming.
翻訳日:2021-03-03 16:44:48 公開日:2021-03-02
# OMNet: 部分から部分へのポイントクラウド登録のためのオーバーラップマスクの学習

OMNet: Learning Overlapping Mask for Partial-to-Partial Point Cloud Registration ( http://arxiv.org/abs/2103.00937v2 )

ライセンス: Link先を確認
Hao Xu, Shuaicheng Liu, Guangfu Wang, Guanghui Liu, Bing Zeng(参考訳) ポイントクラウド登録は、多くの計算分野で重要なタスクです。 以前の対応マッチングに基づく手法では、点雲は、点のスパース特徴マッチングに従って3次元の剛性変換に適合する特徴的な幾何学的構造を持つ必要がある。 しかし、変換の精度は抽出された特徴の品質に大きく依存しており、入力の偏りやノイズに関してエラーが発生しやすい。 また、すべての領域の幾何学的知識を活用できない。 一方で、以前のグローバル機能ベースのディープラーニングアプローチでは、登録にポイントクラウド全体を活用することが可能だが、グローバル機能をポイント単位の機能から集約する場合、重複しないポイントの悪影響を無視する。 本稿では、部分から部分へのポイントクラウド登録のためのグローバル機能ベースの反復ネットワークOMNetについて述べる。 マスクを粗雑に学習し,重複しない領域を拒絶し,部分から部分への登録を同一形状の登録に変換する。 さらに、以前の作業で使用されたデータは、各オブジェクトのcadモデルから一度だけサンプリングされ、ソースと参照の同じポイントクラウドになる。 ソースと参照点のクラウドに対してCADモデルを2回サンプリングし、従来は存在していたオーバーフィッティングの問題を回避する、より実用的なデータ生成方法を提案する。 実験結果から,従来の学習法や深層学習法に比べ,最先端のパフォーマンスを実現した。

Point cloud registration is a key task in many computational fields. Previous correspondence matching based methods require the point clouds to have distinctive geometric structures to fit a 3D rigid transformation according to point-wise sparse feature matches. However, the accuracy of transformation heavily relies on the quality of extracted features, which are prone to errors with respect partiality and noise of the inputs. In addition, they can not utilize the geometric knowledge of all regions. On the other hand, previous global feature based deep learning approaches can utilize the entire point cloud for the registration, however they ignore the negative effect of non-overlapping points when aggregating global feature from point-wise features. In this paper, we present OMNet, a global feature based iterative network for partial-to-partial point cloud registration. We learn masks in a coarse-to-fine manner to reject non-overlapping regions, which converting the partial-to-partial registration to the registration of the same shapes. Moreover, the data used in previous works are only sampled once from CAD models for each object, resulting the same point cloud for the source and the reference. We propose a more practical manner for data generation, where a CAD model is sampled twice for the source and the reference point clouds, avoiding over-fitting issues that commonly exist previously. Experimental results show that our approach achieves state-of-the-art performance compared to traditional and deep learning methods.
翻訳日:2021-03-03 16:34:59 公開日:2021-03-02
# オープンセット認識のための対比相互点学習

Adversarial Reciprocal Points Learning for Open Set Recognition ( http://arxiv.org/abs/2103.00953v2 )

ライセンス: Link先を確認
Guangyao Chen and Peixi Peng and Xiangqian Wang and Yonghong Tian(参考訳) オープンセット認識(OSR)は,未知のクラスを同時に分類し,未知のクラスを「未知」と識別することを目的として,信頼性の高い機械学習に不可欠であり,ラベル付き既知のデータに対する経験的分類リスクと潜在的未知データに対するオープンスペースリスクを同時に低減する方法がOSRの課題である。 この課題に対処するために,マルチクラス統合の観点からオープンスペースリスク問題を定式化し,新しい概念の相互的視点で未展開のクラス外空間をモデル化する。 これに従い、ARPL(Adversarial Reciprocal Point Learning)と呼ばれる新しい学習フレームワークが提案され、既知の分類精度を失うことなく、既知の分布と未知分布の重複を最小限に抑える。 具体的には、対応する既知のカテゴリを持つクラス外空間で各相互ポイントを学習し、複数の既知のカテゴリ間の対立を利用して経験的分類リスクを低減させる。 次に,相反点によって構築される潜在開空間を制限し,オープンスペースリスクを低減するために,逆マージン制約を提案する。 オープンスペースから未知の分布を更に推定するために、相互ポイントと既知のクラスとの間の逆機構に基づいて、多様で紛らわしいトレーニングサンプルを生成するために、インスタンス化逆拡張法が設計されている。 これにより、未知のクラスに対するモデル識別性が効果的に向上する。 各種ベンチマークデータセットの大規模な実験結果から,提案手法は他の既存手法よりもかなり優れていることが示唆され,最先端の性能が達成された。

Open set recognition (OSR), aiming to simultaneously classify the seen classes and identify the unseen classes as 'unknown', is essential for reliable machine learning.The key challenge of OSR is how to reduce the empirical classification risk on the labeled known data and the open space risk on the potential unknown data simultaneously. To handle the challenge, we formulate the open space risk problem from the perspective of multi-class integration, and model the unexploited extra-class space with a novel concept Reciprocal Point. Follow this, a novel learning framework, termed Adversarial Reciprocal Point Learning (ARPL), is proposed to minimize the overlap of known distribution and unknown distributions without loss of known classification accuracy. Specifically, each reciprocal point is learned by the extra-class space with the corresponding known category, and the confrontation among multiple known categories are employed to reduce the empirical classification risk. Then, an adversarial margin constraint is proposed to reduce the open space risk by limiting the latent open space constructed by reciprocal points. To further estimate the unknown distribution from open space, an instantiated adversarial enhancement method is designed to generate diverse and confusing training samples, based on the adversarial mechanism between the reciprocal points and known classes. This can effectively enhance the model distinguishability to the unknown classes. Extensive experimental results on various benchmark datasets indicate that the proposed method is significantly superior to other existing approaches and achieves state-of-the-art performance.
翻訳日:2021-03-03 16:34:04 公開日:2021-03-02
# AttriMeter: 人物再識別のための属性ガイド付きメトリクスインタプリタ

AttriMeter: An Attribute-guided Metric Interpreter for Person Re-Identification ( http://arxiv.org/abs/2103.01451v1 )

ライセンス: Link先を確認
Xiaodong Chen, Xinchen Liu, Wu Liu, Xiao-Ping Zhang, Yongdong Zhang, and Tao Mei(参考訳) ReID(Person Re-identification)は、CNN(Convolutional Neural Networks)の採用により大幅に改善されました。 しかし、人物認証システムは2人の人物とマッチングする場合に距離または類似性しか提供しないため、ユーザーが類似点を理解できない。 そこで我々は,CNNベースのReIDモデルの結果を意味的に,定量的に説明するAttribute-Guided Metric Interpreter(AttriMeter)を提案する。 AttriMeterにはプラグイン可能な構造があり、任意のターゲットモデル、すなわち解釈が必要なReIDモデルにグラフ化することができる。 属性分解ヘッドを使用すると、ターゲットモデルから属性誘導注意マップ(AAM)のグループを生成することを学ぶことができます。 対象モデルから2人の特徴にAAMを適用することにより、個々の属性の寄与を測定することができる属性誘導コンポーネントのセットに、それらの距離を分解する。 さらに, 対象モデルの結果と分解成分のアトリメータからの一貫性を保証するために, 距離蒸留損失を設計, 属性の不均衡分布に起因するバイアスを解消するために, 属性先行損失を設計できる。 最後に、さまざまなReIDモデルとデータセットに関する広範な実験と分析は、AttriMeterの有効性を示している。

Person Re-identification (ReID) has achieved significant improvement due to the adoption of Convolutional Neural Networks (CNNs). However, person ReID systems only provide a distance or similarity when matching two persons, which makes users hardly understand why they are similar or not. Therefore, we propose an Attribute-guided Metric Interpreter, named AttriMeter, to semantically and quantitatively explain the results of CNN-based ReID models. The AttriMeter has a pluggable structure that can be grafted on arbitrary target models, i.e., the ReID models that need to be interpreted. With an attribute decomposition head, it can learn to generate a group of attribute-guided attention maps (AAMs) from the target model. By applying AAMs to features of two persons from the target model, their distance will be decomposed into a set of attribute-guided components that can measure the contributions of individual attributes. Moreover, we design a distance distillation loss to guarantee the consistency between the results from the target model and the decomposed components from AttriMeter, and an attribute prior loss to eliminate the biases caused by the unbalanced distribution of attributes. Finally, extensive experiments and analysis on a variety of ReID models and datasets show the effectiveness of AttriMeter.
翻訳日:2021-03-03 16:29:03 公開日:2021-03-02
# 階層的スタイル・ディエンタングルメントによる画像と画像の翻訳

Image-to-image Translation via Hierarchical Style Disentanglement ( http://arxiv.org/abs/2103.01456v1 )

ライセンス: Link先を確認
Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji(参考訳) 近年,画像から画像への変換は,複数ラベル(異なるラベルで条件付翻訳)と複数スタイル(多様なスタイル付き生成)の両タスクの実現に大きく進歩している。 しかし、ラベルの独立性と排他性が未熟であるため、既存の努力は翻訳結果に制御不能な操作を伴って打ち破られる。 本論文では,この問題に対処するためにHiSD(Hierarchical Style Disentanglement)を提案する。 具体的には,ラベルを階層的な木構造に整理し,独立タグ,排他属性,不規則なスタイルを上下に割り当てる。 対応する新しい翻訳プロセスは、制御可能な翻訳のためにスタイルを識別する上記の構造に適応するように設計されている。 CelebA-HQデータセットの定性的および定量的結果の両方が提案されたHiSDの能力を検証する。 この手法が確固たるベースラインとなり、画像から画像への翻訳における将来の研究のための階層的に整理されたアノテーションで新しい洞察を提供することを期待しています。 コードはhttps://github.com/imlixinyang/hisdでリリースされた。

Recently, image-to-image translation has made significant progress in achieving both multi-label (\ie, translation conditioned on different labels) and multi-style (\ie, generation with diverse styles) tasks. However, due to the unexplored independence and exclusiveness in the labels, existing endeavors are defeated by involving uncontrolled manipulations to the translation results. In this paper, we propose Hierarchical Style Disentanglement (HiSD) to address this issue. Specifically, we organize the labels into a hierarchical tree structure, in which independent tags, exclusive attributes, and disentangled styles are allocated from top to bottom. Correspondingly, a new translation process is designed to adapt the above structure, in which the styles are identified for controllable translations. Both qualitative and quantitative results on the CelebA-HQ dataset verify the ability of the proposed HiSD. We hope our method will serve as a solid baseline and provide fresh insights with the hierarchically organized annotations for future research in image-to-image translation. The code has been released at https://github.com/imlixinyang/HiSD.
翻訳日:2021-03-03 16:28:41 公開日:2021-03-02
# 3次元点生成のための拡散確率モデル

Diffusion Probabilistic Models for 3D Point Cloud Generation ( http://arxiv.org/abs/2103.01458v1 )

ライセンス: Link先を確認
Shitong Luo, Wei Hu(参考訳) 本稿では,形状補完,アップサンプリング,合成,データ拡張といった様々な3次元視覚タスクにおいて重要なポイントクラウド生成の確率モデルを提案する。 非平衡熱力学における拡散過程に触発されて、点雲内の点を熱浴と接触する熱力学系の粒子として捉え、元の分布からノイズ分布に拡散する。 したがって、点雲の発生は、ノイズ分布を所望の形状の分布に変換する逆拡散過程を学習する量になる。 具体的には,特定の形状に潜むマルコフ連鎖として,点雲の逆拡散過程をモデル化する。 我々は、トレーニングのための閉形式における変分境界を導出し、モデルの実装を提供する。 実験により,本モデルがポイントクラウド生成および自動符号化における最先端性能を実現することを示す。 コードは \url{https://github.com/luost26/diffusion-point-cloud} で入手できる。

We present a probabilistic model for point cloud generation, which is critical for various 3D vision tasks such as shape completion, upsampling, synthesis and data augmentation. Inspired by the diffusion process in non-equilibrium thermodynamics, we view points in point clouds as particles in a thermodynamic system in contact with a heat bath, which diffuse from the original distribution to a noise distribution. Point cloud generation thus amounts to learning the reverse diffusion process that transforms the noise distribution to the distribution of a desired shape. Specifically, we propose to model the reverse diffusion process for point clouds as a Markov chain conditioned on certain shape latent. We derive the variational bound in closed form for training and provide implementations of the model. Experimental results demonstrate that our model achieves the state-of-the-art performance in point cloud generation and auto-encoding. The code is available at \url{https://github.com/luost26/diffusion-point-cloud}.
翻訳日:2021-03-03 16:28:24 公開日:2021-03-02
# Patch-NetVLAD:場所認識のためのローカルグローバルディスクリプタのマルチスケール融合

Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition ( http://arxiv.org/abs/2103.01486v1 )

ライセンス: Link先を確認
Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer(参考訳) 視覚場所認識は、常に変化する世界の外観と視点の変化の双対の問題に対処する必要があるロボットと自律システムのための挑戦的なタスクです。 本論文では,パッチレベルの特徴をNetVLAD残余から導出することにより,ローカルとグローバルの両方のディスクリプタメソッドの利点を組み合わせるための新しい定式化を提供する。 既存の局所キーポイント特徴の固定空間近傍体制とは異なり、特徴空間グリッド上で定義された深層学習局所特徴の集約とマッチングを可能にする。 さらに、補完的スケールを持つパッチ機能のマルチスケール融合についても紹介する。 パッチサイズ) 統合的な特徴空間を通して、融合した特徴が条件(シーズン、構造、照明)と視点(翻訳と回転)の両方に非常に不変であることを示す。 Patch-NetVLADは、同等の計算でグローバルとローカルのフィーチャーディスクリプタベースのメソッドを上回り、ECCV2020でFacebook Mapillary Visual Place Recognition Challengeを受賞するなど、さまざまな困難な現実世界のデータセットで最先端のビジュアルプレース認識結果を達成します。 ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。 Patch-NetVLADは、構成可能なフレームワークで優れたパフォーマンスと計算効率を組み合わせることで、スタンドアロンの認識能力とSLAMシステムの全体的なパフォーマンスの両方を向上させるのに適しています。

Visual Place Recognition is a challenging task for robotics and autonomous systems, which must deal with the twin problems of appearance and viewpoint change in an always changing world. This paper introduces Patch-NetVLAD, which provides a novel formulation for combining the advantages of both local and global descriptor methods by deriving patch-level features from NetVLAD residuals. Unlike the fixed spatial neighborhood regime of existing local keypoint features, our method enables aggregation and matching of deep-learned local features defined over the feature-space grid. We further introduce a multi-scale fusion of patch features that have complementary scales (i.e. patch sizes) via an integral feature space and show that the fused features are highly invariant to both condition (season, structure, and illumination) and viewpoint (translation and rotation) changes. Patch-NetVLAD outperforms both global and local feature descriptor-based methods with comparable compute, achieving state-of-the-art visual place recognition results on a range of challenging real-world datasets, including winning the Facebook Mapillary Visual Place Recognition Challenge at ECCV2020. It is also adaptable to user requirements, with a speed-optimised version operating over an order of magnitude faster than the state-of-the-art. By combining superior performance with improved computational efficiency in a configurable framework, Patch-NetVLAD is well suited to enhance both stand-alone place recognition capabilities and the overall performance of SLAM systems.
翻訳日:2021-03-03 16:28:08 公開日:2021-03-02
# 年齢不変顔認識が顔年齢合成に会うとき:マルチタスク学習フレームワーク

When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework ( http://arxiv.org/abs/2103.01520v1 )

ライセンス: Link先を確認
Zhizhong Huang, Junping Zhang, Hongming Shan(参考訳) To minimize the effects of age variation in face recognition, previous work either extracts identity-related discriminative features by minimizing the correlation between identity- and age-related features, called age-invariant face recognition (AIFR), or removes age variation by transforming the faces of different age groups into the same age group, called face age synthesis (FAS); however, the former lacks visual results for model interpretation while the latter suffers from artifacts compromising downstream recognition. そこで本論文では,この2つのタスクを共同で処理するための統合型マルチタスクフレームワークである \methodname を提案する。 具体的には、顔の特徴を2つの非相関なコンポーネント(アイデンティティ関連と年齢関連)に注意メカニズムで分解し、マルチタスクトレーニングと継続的ドメインアダプションを使用してこれらの2つのコンポーネントをデコレーションします。 グループレベルのfasを実現する従来のone-hotエンコーディングとは対照的に, 合成顔の年齢平滑性を改善するための重み共有戦略を用いて, アイデンティティレベルfasを実現する新しいアイデンティティ条件モジュールを提案する。 さらに、AIFRとFASの開発を進めるために、年齢と性別のアノテーションを備えた大規模なクロスエイジフェイスデータセットを収集し、リリースします。 5つのベンチマーククロスエイジデータセットに関する広範な実験は、AIFRとFASの既存の最先端の方法よりも、提案された \methodname の優れたパフォーマンスを示しています。 さらに2つの一般的な顔認識データセットで \methodname を検証し,野放しの顔認識性能を示す。 ソースコードとデータセットは~\url{https://github.com/Hzzone/MTLFace}で入手できる。

To minimize the effects of age variation in face recognition, previous work either extracts identity-related discriminative features by minimizing the correlation between identity- and age-related features, called age-invariant face recognition (AIFR), or removes age variation by transforming the faces of different age groups into the same age group, called face age synthesis (FAS); however, the former lacks visual results for model interpretation while the latter suffers from artifacts compromising downstream recognition. Therefore, this paper proposes a unified, multi-task framework to jointly handle these two tasks, termed \methodname, which can learn age-invariant identity-related representation while achieving pleasing face synthesis. Specifically, we first decompose the mixed face feature into two uncorrelated components -- identity- and age-related feature -- through an attention mechanism, and then decorrelate these two components using multi-task training and continuous domain adaption. In contrast to the conventional one-hot encoding that achieves group-level FAS, we propose a novel identity conditional module to achieve identity-level FAS, with a weight-sharing strategy to improve the age smoothness of synthesized faces. In addition, we collect and release a large cross-age face dataset with age and gender annotations to advance the development of the AIFR and FAS. Extensive experiments on five benchmark cross-age datasets demonstrate the superior performance of our proposed \methodname over existing state-of-the-art methods for AIFR and FAS. We further validate \methodname on two popular general face recognition datasets, showing competitive performance for face recognition in the wild. The source code and dataset are available at~\url{https://github.com/Hzzone/MTLFace}.
翻訳日:2021-03-03 16:27:41 公開日:2021-03-02
# 変換一貫性による数発オープンセット認識

Few-shot Open-set Recognition by Transformation Consistency ( http://arxiv.org/abs/2103.01537v1 )

ライセンス: Link先を確認
Minki Jeong, Seokeon Choi, Changick Kim(参考訳) 本稿では,FSL ( few-shot Learning) とOSR (open-set recognition) を組み合わせたFSOSR ( few-shot open-set recognition) 問題に対処する。 目立たないクラスのサンプルを拒絶しながら、与えられた小さなラベル付きサンプルセットに迅速にモデルを適用することを目指しています。 OSRはリッチなデータを必要とし、FSLは閉集合分類を考慮するため、既存のOSRとFSL法はFSOSR問題を解決する上で性能が悪い。 以前のFSOSR法は擬似未見のクラス標本ベース法に従っており、他のデータセットから擬似未見のサンプルを収集するか、サンプルを合成して未見のクラス表現をモデル化する。 しかし、このアプローチは疑似サンプルの組成に大きく依存しています。 本論文では,疑似未知のサンプルを必要としない新規な未知クラスの試料検出器であるSnaTCHerを提案する。 本手法は,変換整合性に基づいて,変換されたプロトタイプと修正されたプロトタイプセットとの差を測定する。 修正セットはクエリ機能とその予測クラスプロトタイプを置き換えることで構成される。 SnaTCHerは変換されたプロトタイプと大きく異なるサンプルを拒絶する。 提案手法は,未知のクラス分布推定問題を疑似未知のクラスサンプルとは独立に,相対的な特徴変換問題に変更する。 SnaTCHerを様々なプロトタイプ変換法で検討し、閉集合分類の低減なしに、見当たらないサンプル検出性能を一貫して改善することを観察します。

In this paper, we attack a few-shot open-set recognition (FSOSR) problem, which is a combination of few-shot learning (FSL) and open-set recognition (OSR). It aims to quickly adapt a model to a given small set of labeled samples while rejecting unseen class samples. Since OSR requires rich data and FSL considers closed-set classification, existing OSR and FSL methods show poor performances in solving FSOSR problems. The previous FSOSR method follows the pseudo-unseen class sample-based methods, which collect pseudo-unseen samples from the other dataset or synthesize samples to model unseen class representations. However, this approach is heavily dependent on the composition of the pseudo samples. In this paper, we propose a novel unknown class sample detector, named SnaTCHer, that does not require pseudo-unseen samples. Based on the transformation consistency, our method measures the difference between the transformed prototypes and a modified prototype set. The modified set is composed by replacing a query feature and its predicted class prototype. SnaTCHer rejects samples with large differences to the transformed prototypes. Our method alters the unseen class distribution estimation problem to a relative feature transformation problem, independent of pseudo-unseen class samples. We investigate our SnaTCHer with various prototype transformation methods and observe that our method consistently improves unseen class sample detection performance without closed-set classification reduction.
翻訳日:2021-03-03 16:27:15 公開日:2021-03-02
# 本物のマスクとフェイクフェイス:仮面提示攻撃検出について

Real Masks and Fake Faces: On the Masked Face Presentation Attack Detection ( http://arxiv.org/abs/2103.01546v1 )

ライセンス: Link先を確認
Meiling Fang, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、大規模な公衆衛生問題を引き起こしている。 マスクは、新型コロナウイルス感染を減らす最も効率的な方法の1つとなっている。 これにより、顔認識(FR)はいくつかの識別的特徴が隠されているため、困難なタスクとなる。 さらに、顔提示攻撃検出(PAD)はFRシステムのセキュリティを確保するために重要です。 マスク付きFR研究の増加とは対照的に、PADに対するマスク付き攻撃の影響は検討されていない。 そこで本研究では,実世界の状況を反映して,実写マスクを装着した新たなアタックと,実写マスクを装着したアタックを提案する。 さらに,7つの最新のPADアルゴリズムをデータベース内およびクロスデータベースシナリオで使用し,マスキング攻撃がPAD性能に及ぼす影響を検討した。 マスク攻撃に対するFRシステムの脆弱性も評価した。 この実験は、実際のマスク攻撃がfrシステムの運用とセキュリティに深刻な脅威をもたらすことを示している。

The ongoing COVID-19 pandemic has lead to massive public health issues. Face masks have become one of the most efficient ways to reduce coronavirus transmission. This makes face recognition (FR) a challenging task as several discriminative features are hidden. Moreover, face presentation attack detection (PAD) is crucial to ensure the security of FR systems. In contrast to growing numbers of masked FR studies, the impact of masked attacks on PAD has not been explored. Therefore, we present novel attacks with real masks placed on presentations and attacks with subjects wearing masks to reflect the current real-world situation. Furthermore, this study investigates the effect of masked attacks on PAD performance by using seven state-of-the-art PAD algorithms under intra- and cross-database scenarios. We also evaluate the vulnerability of FR systems on masked attacks. The experiments show that real masked attacks pose a serious threat to the operation and security of FR systems.
翻訳日:2021-03-03 16:26:49 公開日:2021-03-02
# 顔認識のためのクラス間差分アライメント

Inter-class Discrepancy Alignment for Face Recognition ( http://arxiv.org/abs/2103.01559v1 )

ライセンス: Link先を確認
Jiaheng Liu, Yudong Wu, Yichao Wu, Zhenmao Li, Chen Ken, Ding Liang, Junjie Yan(参考訳) 顔認識(FR)の分野は、深層学習の急増とともに大きな進歩をみせている。 既存の手法は主に識別的特徴の抽出に重点を置いており、文脈情報を考慮せずにコサイン距離やl2距離を直接計算している。 本研究では,実例とクラス間の類似性で表される局所的なcon-textがFRにとって重要な役割を担っていることを示す。 具体的には,特徴空間の局所的なインフォームをメトリックに組み込んで,IDA(Inter-class DiscrepancyAlignment)と呼ばれる統合フレームワークを2つの専用モジュール,IDA-DAO(Disdisrepancy Alignment Operator)とSupport Set Estimation(IDA-SSE)で提案する。 ida-daoは、超球面上の適応的支持集合によって定義される画像と隣接点の間の不一致を考慮した類似度スコアの調整に用いられる。 実際の推論では,オンライン推論におけるサポートセットの取得は困難である。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。 さらに,評価プロセスにおいて,他の画像を必要としない暗黙的に推定を行うことができる学習可能なIDA-SSEを提案する。 提案するidaは既存のfrシステムにシームレスかつ効率的に組み込むことができる。 このフレームワークは、1)精度を大幅に向上させることができ、2)さまざまな分布の顔画像に堅牢なモデルを作ることができ、ベルやホイッスルがなければ、私たちの方法は複数の標準FRベンチマークで最先端のパフォーマンスを達成します。

The field of face recognition (FR) has witnessed great progress with the surge of deep learning. Existing methods mainly focus on extracting discriminative features, and directly compute the cosine or L2 distance by the point-to-point way without considering the context information. In this study, we make a key observation that the local con-text represented by the similarities between the instance and its inter-class neighbors1plays an important role forFR. Specifically, we attempt to incorporate the local in-formation in the feature space into the metric, and pro-pose a unified framework calledInter-class DiscrepancyAlignment(IDA), with two dedicated modules, Discrepancy Alignment Operator(IDA-DAO) andSupport Set Estimation(IDA-SSE). IDA-DAO is used to align the similarity scores considering the discrepancy between the images and its neighbors, which is defined by adaptive support sets on the hypersphere. For practical inference, it is difficult to acquire support set during online inference. IDA-SSE can provide convincing inter-class neighbors by introducing virtual candidate images generated with GAN. Further-more, we propose the learnable IDA-SSE, which can implicitly give estimation without the need of any other images in the evaluation process. The proposed IDA can be incorporated into existing FR systems seamlessly and efficiently. Extensive experiments demonstrate that this frame-work can 1) significantly improve the accuracy, and 2) make the model robust to the face images of various distributions.Without bells and whistles, our method achieves state-of-the-art performance on multiple standard FR benchmarks.
翻訳日:2021-03-03 16:26:36 公開日:2021-03-02
# CNNを使って指静脈画像の起源を特定する

Using CNNs to Identify the Origin of Finger Vein Image ( http://arxiv.org/abs/2103.01632v1 )

ライセンス: Link先を確認
Babak Maser, Andreas Uhl(参考訳) 深層学習手法を用いて指静脈(FV)センサモデル同定タスクについて検討する。 これまでのバイオメトリック・モダリティでは,相関に基づくPRNUとテクスチャ記述子に基づく手法のみが適用されている。 我々は、VGG16、ResNet、Xceptionモデルなど、幅広いCNNファミリーモデルをカバーするCNNアーキテクチャを5つ採用している。 さらに、FV2021と呼ばれる新しいアーキテクチャが提案され、そのコンパクトさと訓練すべきパラメータの数が少ないことに長けている。 8つの公的なFVデータセットからの関心データだけでなく、元のサンプルも実験に使用されている。 センサ識別に優れたAUC-ROCスコア1.0、ROIサンプル0.9997が達成されている。 以前の方法と比較して、CNNベースのアプローチが優れていることを示し、結果を改善しました。

We study the finger vein (FV) sensor model identification task using a deep learning approach. So far, for this biometric modality, only correlation-based PRNU and texture descriptor-based methods have been applied. We employ five prominent CNN architectures covering a wide range of CNN family models, including VGG16, ResNet, and the Xception model. In addition, a novel architecture termed FV2021 is proposed in this work, which excels by its compactness and a low number of parameters to be trained. Original samples, as well as the region of interest data from eight publicly accessible FV datasets, are used in experimentation. An excellent sensor identification AUC-ROC score of 1.0 for patches of uncropped samples and 0.9997 for ROI samples have been achieved. The comparison with former methods shows that the CNN-based approach is superior and improved the results.
翻訳日:2021-03-03 16:26:08 公開日:2021-03-02
# Part2Whole: 部分クエリによるクロスモーダル検索の反復的な詳細化

Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with Partial Query ( http://arxiv.org/abs/2103.01654v1 )

ライセンス: Link先を確認
Guanyu Cai, Xinyang Jiang, Jun Zhang, Yifei Gong, Lianghua He, Pai Peng, Xiaowei Guo, Xing Sun(参考訳) 近年,テキストによる画像検索が著しく進歩している。 しかし、ユーザが複雑なシーンの不完全な記述を提供する可能性があり、その結果が不完全な記述に適合する偽陽性で満たされることが多いため、既存のメソッドのパフォーマンスは実生活に苦しむ。 本稿では,部分検索問題を導入し,テキストベース画像検索におけるその影響を広範囲に分析する。 そこで我々は,欠落した詳細を反復的に拡張することでこの問題に取り組むための対話型検索フレームワークPart2Wholeを提案する。 特に、インタラクティブ検索エージェントは、ユーザフレンドリーなインタラクションとギャラリーの統計的特性に基づいて、初期クエリを洗練するための最適なポリシーを構築するように訓練される。 ユーザに大きく依存して差別化情報をフィードバックする他のダイアログベースの方法と比較して、AIは最適なフィードバック検索プロセスを引き継ぎ、ユーザに詳細に関する確認ベースの質問を知らせます。 さらに,人間-機械対話データ取得の難しさから,完全教師付き学習は実現できないことが多いため,テキスト-画像データセット以外の人間-注釈データを必要としない弱教師付き強化学習手法を提案する。 実験により,複雑なシーンにおけるテキスト画像検索の性能が大幅に向上することを示した。

Text-based image retrieval has seen considerable progress in recent years. However, the performance of existing methods suffers in real life since the user is likely to provide an incomplete description of a complex scene, which often leads to results filled with false positives that fit the incomplete description. In this work, we introduce the partial-query problem and extensively analyze its influence on text-based image retrieval. We then propose an interactive retrieval framework called Part2Whole to tackle this problem by iteratively enriching the missing details. Specifically, an Interactive Retrieval Agent is trained to build an optimal policy to refine the initial query based on a user-friendly interaction and statistical characteristics of the gallery. Compared to other dialog-based methods that rely heavily on the user to feed back differentiating information, we let AI take over the optimal feedback searching process and hint the user with confirmation-based questions about details. Furthermore, since fully-supervised training is often infeasible due to the difficulty of obtaining human-machine dialog data, we present a weakly-supervised reinforcement learning method that needs no human-annotated data other than the text-image dataset. Experiments show that our framework significantly improves the performance of text-based image retrieval under complex scenes.
翻訳日:2021-03-03 16:25:53 公開日:2021-03-02
# 自己拘束型トリプルトロスによる顔認識のためのアンマスキングエンベディング

Unmasking Face Embeddings by Self-restrained Triplet Loss for Accurate Masked Face Recognition ( http://arxiv.org/abs/2103.01716v1 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Florian Kirchbuchner and Arjan Kuijper(参考訳) 顔を生体認証特性として用いることは、捕捉過程の接触のない性質と認識アルゴリズムの高精度により動機付けられる。 新型コロナウイルス(COVID-19)のパンデミックの後、公衆の場でマスクを着用してパンデミックを管理することが課された。 しかし,マスク着用による顔隠蔽は,顔認識システムにとって新たな課題となる。 本稿では,マスク付き顔認識性能を改善するためのソリューションを提案する。 具体的には,既存の顔認識モデル上で動作させるEmbedding Unmasking Model (EUM)を提案する。 また、EUMが同一アイデンティティのマスクされていない顔のこれらに類似した埋め込みを作成することを可能にする新しい損失関数、自己拘束トリプルト(SRT)を提案します。 2つの顔認識モデルと2つの実マスキングデータセットによる評価結果から,提案手法がほとんどの実験環境における性能を著しく向上することを示した。

Using the face as a biometric identity trait is motivated by the contactless nature of the capture process and the high accuracy of the recognition algorithms. After the current COVID-19 pandemic, wearing a face mask has been imposed in public places to keep the pandemic under control. However, face occlusion due to wearing a mask presents an emerging challenge for face recognition systems. In this paper, we presented a solution to improve the masked face recognition performance. Specifically, we propose the Embedding Unmasking Model (EUM) operated on top of existing face recognition models. We also propose a novel loss function, the Self-restrained Triplet (SRT), which enabled the EUM to produce embeddings similar to these of unmasked faces of the same identities. The achieved evaluation results on two face recognition models and two real masked datasets proved that our proposed approach significantly improves the performance in most experimental settings.
翻訳日:2021-03-03 16:25:32 公開日:2021-03-02
# Image/Video Deep Anomaly Detection: A Survey

Image/Video Deep Anomaly Detection: A Survey ( http://arxiv.org/abs/2103.01739v1 )

ライセンス: Link先を確認
Bahram Mohammadi, Mahmood Fathy and Mohammad Sabokrou(参考訳) 異常検出(AD)問題の重要性は、最近多くの研究者が注目している。 その結果,本研究における提案手法の数は着実に増加している。 ADは、画像/ビデオ異常、不規則性、突然のイベント検出などの重要なコンピュータビジョンおよび画像処理タスクと強く相関します。 最近では、Deep Neural Networks(DNN)は高性能なソリューションを提供していますが、計算コストを犠牲にしています。 しかし,提案手法と適用可能な実語アプローチの間には明らかなギャップがある。 ADが現在進行中の課題である、特に画像やビデオにおける懸念の高まりに対して、視覚的なADタスクに対処する手法の落とし穴と展望について議論する時が来た。 本稿では,画像/ビデオの深層学習に基づくAD手法について,詳細な調査を行う。 また、現在の課題と今後の研究の方向性を徹底的に議論する。

The considerable significance of Anomaly Detection (AD) problem has recently drawn the attention of many researchers. Consequently, the number of proposed methods in this research field has been increased steadily. AD strongly correlates with the important computer vision and image processing tasks such as image/video anomaly, irregularity and sudden event detection. More recently, Deep Neural Networks (DNNs) offer a high performance set of solutions, but at the expense of a heavy computational cost. However, there is a noticeable gap between the previously proposed methods and an applicable real-word approach. Regarding the raised concerns about AD as an ongoing challenging problem, notably in images and videos, the time has come to argue over the pitfalls and prospects of methods have attempted to deal with visual AD tasks. Hereupon, in this survey we intend to conduct an in-depth investigation into the images/videos deep learning based AD methods. We also discuss current challenges and future research directions thoroughly.
翻訳日:2021-03-03 16:25:16 公開日:2021-03-02
# IdentityDP: 顔画像に対する差分的個人識別保護

IdentityDP: Differential Private Identification Protection for Face Images ( http://arxiv.org/abs/2103.01745v1 )

ライセンス: Link先を確認
Yunqian Wen, Li Song, Bo Liu, Ming Ding, and Rong Xie(参考訳) 顔写真が爆発的に成長し、ソーシャルメディアで広く普及し、アクセスが容易になったため、個人情報のセキュリティとプライバシーは前例のない課題となっている。 一方、高度なアイデンティティ非依存のコンピュータビジョン技術によってもたらされる利便性は魅力的である。 そのため、人物の身元保護を慎重に検討しながら、顔画像を使用することが重要である。 顔画像が与えられたとき、顔の匿名化(face anonymization)とも呼ばれる顔の識別は、同じ外観と同じ背景を持つ別の画像を生成し、実際の身元は隠されている。 大規模な努力が続けられているが、既存の顔の識別技術は写真に不十分であるか、プライバシーとユーティリティのバランスが取れないかのいずれかである。 本稿では,これらの課題に対処し,顔の特定を改善することに焦点を当てる。 データ駆動のディープニューラルネットワークと差分プライバシー(DP)メカニズムを組み合わせた顔の匿名化フレームワークであるIdentityDPを提案する。 このフレームワークは、顔表現のゆがみ、$\epsilon$-IdentityDP摂動、画像再構成の3段階を含む。 私たちのモデルは、顔の識別関連情報を効果的に隠蔽し、視覚的な類似性を保持し、検出、追跡などのアイデンティティ非依存なコンピュータビジョンタスクに使用できる高品質な画像を生成することができる。 従来の方法とは違って,プライバシとユーティリティのバランスを,実践的な要求に応じて調整し,事前アノテーションなしで結果の多様性を提供する。 提案された匿名化フレームワークの有効性と一般化能力を示す広範な実験。

Because of the explosive growth of face photos as well as their widespread dissemination and easy accessibility in social media, the security and privacy of personal identity information becomes an unprecedented challenge. Meanwhile, the convenience brought by advanced identity-agnostic computer vision technologies is attractive. Therefore, it is important to use face images while taking careful consideration in protecting people's identities. Given a face image, face de-identification, also known as face anonymization, refers to generating another image with similar appearance and the same background, while the real identity is hidden. Although extensive efforts have been made, existing face de-identification techniques are either insufficient in photo-reality or incapable of well-balancing privacy and utility. In this paper, we focus on tackling these challenges to improve face de-identification. We propose IdentityDP, a face anonymization framework that combines a data-driven deep neural network with a differential privacy (DP) mechanism. This framework encompasses three stages: facial representations disentanglement, $\epsilon$-IdentityDP perturbation and image reconstruction. Our model can effectively obfuscate the identity-related information of faces, preserve significant visual similarity, and generate high-quality images that can be used for identity-agnostic computer vision tasks, such as detection, tracking, etc. Different from the previous methods, we can adjust the balance of privacy and utility through the privacy budget according to pratical demands and provide a diversity of results without pre-annotations. Extensive experiments demonstrate the effectiveness and generalization ability of our proposed anonymization framework.
翻訳日:2021-03-03 16:25:01 公開日:2021-03-02
# 重度の教師付きセマンティックセグメンテーションにおけるコンテキストデカップリング拡張

Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.01795v1 )

ライセンス: Link先を確認
Yukun Su, Ruizhou Sun, Guosheng Lin, Qingyao Wu(参考訳) ディープラーニングニューラルネットワークにはデータ拡張が不可欠である。 大量のトレーニングサンプルを提供することで、モデルの一般化能力を向上させることができる。 弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は近年深く研究されている課題であり、WSSSの従来のデータ拡張手法は通常、幾何学的変換、ランダムなトリミング、カラージッタリングを用いている。 しかし、同じ文脈のセマンティックデータを増やすだけで、オブジェクトを区別するためにネットワークに大きな利益をもたらすわけではない。例えば、「飛行機」の正しい画像レベルの分類は、オブジェクト自体の認識によるだけでなく、「スキー」のような共起コンテキストによっても、モデルがオブジェクトの特徴に焦点を絞ることが少なくなる。 この目的のために、オブジェクトが出現する固有のコンテキストを変更するためのContext Decoupling Augmentation (CDA) 法を提案し、それによって、オブジェクトインスタンスとコンテキスト情報間の依存を除去するネットワークを駆動する。 提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。

Data augmentation is vital for deep learning neural networks. By providing massive training samples, it helps to improve the generalization ability of the model. Weakly supervised semantic segmentation (WSSS) is a challenging problem that has been deeply studied in recent years, conventional data augmentation approaches for WSSS usually employ geometrical transformations, random cropping and color jittering. However, merely increasing the same contextual semantic data does not bring much gain to the networks to distinguish the objects, e.g., the correct image-level classification of "aeroplane" may be not only due to the recognition of the object itself, but also its co-occurrence context like "sky", which will cause the model to focus less on the object features. To this end, we present a Context Decoupling Augmentation (CDA) method, to change the inherent context in which the objects appear and thus drive the network to remove the dependence between object instances and contextual information. To validate the effectiveness of the proposed method, extensive experiments on PASCAL VOC 2012 dataset with several alternative network architectures demonstrate that CDA can boost various popular WSSS methods to the new state-of-the-art by a large margin.
翻訳日:2021-03-03 16:24:36 公開日:2021-03-02
# 大規模復元のための正方根束調整

Square Root Bundle Adjustment for Large-Scale Reconstruction ( http://arxiv.org/abs/2103.01843v1 )

ライセンス: Link先を確認
Nikolaus Demmel, Christiane Sommer, Daniel Cremers, Vladyslav Usenko(参考訳) QR分解によるランドマーク変数のnullspace marginalizationに依存するバンドル調整問題の新たな定式化を提案する。 我々のアプローチは正方形根束調整と呼ばれ、よく使われるシュア補体系と代数的に等価であり、計算の数値安定性を改善し、単一精度浮動小数点数による大規模束調整問題を解くことができる。 我々は,BALデータセットを用いた実世界の実験において,提案した解法が平均的に同じ精度で達成できることを示す。 かなり高速で動作しますが、密集した問題に対するメモリ量の増大が必要になります。 提案手法は単純な線形代数演算に依存し,単一精度線形代数処理に最適化されたハードウェアプラットフォームへのバンドル調整の効率的な実装への道を開く。

We propose a new formulation for the bundle adjustment problem which relies on nullspace marginalization of landmark variables by QR decomposition. Our approach, which we call square root bundle adjustment, is algebraically equivalent to the commonly used Schur complement trick, improves the numeric stability of computations and allows for solving large-scale bundle adjustment problems with single precision floating point numbers. We show in real-world experiments with the BAL datasets that even in single precision the proposed solver achieves on average equally accurate solutions compared to Schur complement solvers using double precision. It runs significantly faster, but can require larger amounts of memory on dense problems. The proposed formulation relies on simple linear algebra operations and opens the way for efficient implementations of bundle adjustment on hardware platforms optimized for single precision linear algebra processing.
翻訳日:2021-03-03 16:24:11 公開日:2021-03-02
# 空間位相浅層学習:周波数領域における顔偽造検出の再考

Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain ( http://arxiv.org/abs/2103.01856v1 )

ライセンス: Link先を確認
Honggu Liu, Xiaodan Li, Wenbo Zhou, Yuefeng Chen, Yuan He, Hui Xue, Weiming Zhang and Nenghai Yu(参考訳) 顔偽造技術における顕著な成功は、セキュリティ上の懸念からコンピュータビジョンにおいて大きな注目を集めている。 我々は、アップサンプリングがほとんどの顔偽造技術に必要なステップであり、累積アップサンプリングは、特に位相スペクトルにおいて、周波数領域に明らかな変化をもたらすことを観察する。 自然画像の特性によると、位相スペクトルは余分な情報を提供し、振幅スペクトルの損失を補完する豊富な周波数成分を保持します。 そこで本論文では, 空間画像と位相スペクトルを組み合わせ, 顔偽造のアップサンプリングアーチファクトを捕捉し, 顔偽造検出のための移動性を改善する, 空間位相浅化学習(SPSL)法を提案する。 また、位相スペクトルの有効性も理論的に解析します。 さらに,顔偽造検出タスクにおいて,局所的なテクスチャ情報の方が高レベルな意味情報よりも重要であることに気付く。 そこで我々は,ネットワークを浅め,高次特徴を抑え,局所領域に焦点を合わせることにより受容場を小さくする。 大規模な実験により,SPSLはクロスデータセット評価における最先端性能とマルチクラス分類を達成でき,単一データセット評価において同等の結果を得ることができることが示された。

The remarkable success in face forgery techniques has received considerable attention in computer vision due to security concerns. We observe that up-sampling is a necessary step of most face forgery techniques, and cumulative up-sampling will result in obvious changes in the frequency domain, especially in the phase spectrum. According to the property of natural images, the phase spectrum preserves abundant frequency components that provide extra information and complement the loss of the amplitude spectrum. To this end, we present a novel Spatial-Phase Shallow Learning (SPSL) method, which combines spatial image and phase spectrum to capture the up-sampling artifacts of face forgery to improve the transferability, for face forgery detection. And we also theoretically analyze the validity of utilizing the phase spectrum. Moreover, we notice that local texture information is more crucial than high-level semantic information for the face forgery detection task. So we reduce the receptive fields by shallowing the network to suppress high-level features and focus on the local region. Extensive experiments show that SPSL can achieve the state-of-the-art performance on cross-datasets evaluation as well as multi-class classification and obtain comparable results on single dataset evaluation.
翻訳日:2021-03-03 16:23:59 公開日:2021-03-02
# ショット安定な少数ショット物体検出のための意味関係推論

Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection ( http://arxiv.org/abs/2103.01903v1 )

ライセンス: Link先を確認
Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides(参考訳) フェーショット物体検出は、実世界のデータの固有の長尾分布のために、必要かつ長続きする問題である。 そのパフォーマンスは、新しいクラスのデータ不足に大きく影響されます。 しかし、新しいクラスとベースクラスのセマンティックな関係は、データの可用性に関係なく一定である。 本研究では,この意味的関係を視覚情報とともに利用し,新たな物体検出の学習に明示的な関係推論を導入する。 具体的には、大きなテキストコーパスから学んだ意味的埋め込みによって、各クラスの概念を表します。 検出器は、対象のイメージ表現をこの埋め込み空間に投影するように訓練される。 また, 生の埋め込みをヒューリスティックな知識グラフで自明に利用する問題を特定し, 動的関係グラフによる埋め込みの強化を提案する。 その結果、SRR-FSDと呼ばれる少数ショット検出器は、新しい物体のショットの変動に対して頑丈で安定である。 実験では、SRR-FSDは、より高いショットで競争力のある結果を達成することができ、さらに重要なことは、より低い明示的なショットと暗黙的なショットの両方で、大幅にパフォーマンスが向上します。 事前訓練された分類データセットから暗黙的なショットを除去したベンチマークプロトコルは、将来の研究にとってより現実的な設定となる。

Few-shot object detection is an imperative and long-lasting problem due to the inherent long-tail distribution of real-world data. Its performance is largely affected by the data scarcity of novel classes. But the semantic relation between the novel classes and the base classes is constant regardless of the data availability. In this work, we investigate utilizing this semantic relation together with the visual information and introduce explicit relation reasoning into the learning of novel object detection. Specifically, we represent each class concept by a semantic embedding learned from a large corpus of text. The detector is trained to project the image representations of objects into this embedding space. We also identify the problems of trivially using the raw embeddings with a heuristic knowledge graph and propose to augment the embeddings with a dynamic relation graph. As a result, our few-shot detector, termed SRR-FSD, is robust and stable to the variation of shots of novel objects. Experiments show that SRR-FSD can achieve competitive results at higher shots, and more importantly, a significantly better performance given both lower explicit and implicit shots. The proposed benchmark protocol with implicit shots removed from the pretrained classification dataset can serve as a more realistic setting for future research.
翻訳日:2021-03-03 16:23:37 公開日:2021-03-02
# グラフニューラルネットワークのためのマルチレベルアテンションプール:複数の局所性を持つグラフ表現の統合

Multi-Level Attention Pooling for Graph Neural Networks: Unifying Graph Representations with Multiple Localities ( http://arxiv.org/abs/2103.01488v1 )

ライセンス: Link先を確認
Takeshi D. Itoh and Takatomi Kubo and Kazushi Ikeda(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データのベクトル表現の学習に広く用いられ,従来の手法よりも優れたタスク性能を実現している。 GNNsの基礎は、ノード内の情報を隣人に伝搬するメッセージパッシング手順である。 この手順は層ごとに1ステップ進むので、ノード間の情報伝達の範囲は初期層では小さく、後層に向かって拡張される。 ここでの問題は、レイヤ数の増加に伴ってモデルパフォーマンスが低下することです。 潜在的な原因は、ディープGNNモデルが多くのメッセージパッシングステップを通じて、優れたモデルパフォーマンスに不可欠なノードのローカル情報を失う傾向があることである。 いわゆる過スムージング問題を解決するため,MLAP(Multi-level attention pooling)アーキテクチャを提案する。 メッセージパッシングの各ステップに注目のプーリング層を持ち、レイヤーワイズグラフ表現を統合して最終的なグラフ表現を計算します。 MLAPアーキテクチャは、モデルが複数のレベルの局所性を持つグラフの構造情報を利用することを可能にする。 実験結果から, MLAPアーキテクチャは, ベースラインアーキテクチャと比較して, グラフ分類タスクにおけるモデルのパフォーマンスを向上することを示した。 さらに,レイヤワイドグラフ表現の解析から,複数レベルの局所性を持つ情報を集約することで,クラス識別性が向上したグラフ表現を学習できる可能性が示唆された。

Graph neural networks (GNNs) have been widely used to learn vector representation of graph-structured data and achieved better task performance than conventional methods. The foundation of GNNs is the message passing procedure, which propagates the information in a node to its neighbors. Since this procedure proceeds one step per layer, the scope of the information propagation among nodes is small in the early layers, and it expands toward the later layers. The problem here is that the model performances degrade as the number of layers increases. A potential cause is that deep GNN models tend to lose the nodes' local information, which would be essential for good model performances, through many message passing steps. To solve this so-called oversmoothing problem, we propose a multi-level attention pooling (MLAP) architecture. It has an attention pooling layer for each message passing step and computes the final graph representation by unifying the layer-wise graph representations. The MLAP architecture allows models to utilize the structural information of graphs with multiple levels of localities because it preserves layer-wise information before losing them due to oversmoothing. Results of our experiments show that the MLAP architecture improves deeper models' performance in graph classification tasks compared to the baseline architectures. In addition, analyses on the layer-wise graph representations suggest that MLAP has the potential to learn graph representations with improved class discriminability by aggregating information with multiple levels of localities.
翻訳日:2021-03-03 16:15:34 公開日:2021-03-02
# メタコントラスト学習によるタスク適応ニューラルネットワークの検索

Task-Adaptive Neural Network Retrieval with Meta-Contrastive Learning ( http://arxiv.org/abs/2103.01495v1 )

ライセンス: Link先を確認
Wonyong Jeong, Hayeon Lee, Gun Park, Eunyoung Hyung, Jinheon Baek, Sung Ju Hwang(参考訳) 従来のニューラルアーキテクチャサーチ(NAS)アプローチのほとんどは、最適なパラメータを検索せずにアーキテクチャ(ネットワークトポロジ)だけを生成するという点で制限されている。 一部のNASメソッドは、ImageNetのような大規模データセットでトレーニングされたスーパーネットを利用することでこの問題に対処するが、ターゲットタスクがスーパーネットがトレーニングされたデータセットと非常に異なる場合、サブ最適である可能性がある。 そこで本研究では,与えられたタスクや制約に対して最適な事前学習ネットワークを求めるニューラルネットワーク探索手法を提案する。 モデル動物園からのパラメータの数)。 コントラスト損失を伴うクロスモーダル潜在空間をメタラーニングし、ハイパフォーマンスを得るデータセットとネットワークの類似性を最大化し、無関係なデータセット-ネットワークペア間の類似性を最小化することにより、このフレームワークをトレーニングする。 提案手法の有効性を,既存のNASベースラインに対して10個の実世界のデータセット上で検証する。 その結果,本手法は,目標性能に達するためのトレーニングステップが大幅に少ないベースラインで得られたモデルを上回るネットワークを瞬時に検索する。

Most conventional Neural Architecture Search (NAS) approaches are limited in that they only generate architectures (network topologies) without searching for optimal parameters. While some NAS methods handle this issue by utilizing a supernet trained on a large-scale dataset such as ImageNet, they may be suboptimal if the target tasks are highly dissimilar from the dataset the supernet is trained on. To tackle this issue, we propose a novel neural network retrieval method, which retrieves the most optimal pre-trained network for a given task and constraints (e.g. number of parameters) from a model zoo. We train this framework by meta-learning a cross-modal latent space with contrastive loss, to maximize the similarity between a dataset and a network that obtains high performance on it, and minimize the similarity between an irrelevant dataset-network pair. We validate the efficacy of our method on ten real-world datasets, against existing NAS baselines. The results show that our method instantly retrieves networks that outperforms models obtained with the baselines with significantly fewer training steps to reach the target performance.
翻訳日:2021-03-03 16:15:11 公開日:2021-03-02
# 適応共振理論に基づくクラスタリングによるマルチラベル分類

Multi-label Classification via Adaptive Resonance Theory-based Clustering ( http://arxiv.org/abs/2103.01511v1 )

ライセンス: Link先を確認
Naoki Masuyama, Yusuke Nojima, Chu Kiong Loo, Hisao Ishibuchi(参考訳) 本稿では,適応共振理論(art)に基づくクラスタリングアルゴリズムとラベル確率計算のためのベイズ法を適用し,連続学習が可能なマルチラベル分類アルゴリズムを提案する。 artベースのクラスタリングアルゴリズムは、所定のデータに対応するプロトタイプノードを適応的かつ継続的に生成し、生成されたノードを分類器として使用する。 ラベル確率計算は、クラスごとにラベルの出現回数を独立にカウントし、ベイズ確率を計算する。 したがって、ラベル確率計算は、ラベルの数の増加に対処することができる。 合成および実世界のマルチラベルデータセットによる実験結果から,提案アルゴリズムは連続学習を実現しつつ,他のよく知られたアルゴリズムと競合する分類性能を有することが示された。

This paper proposes a multi-label classification algorithm capable of continual learning by applying an Adaptive Resonance Theory (ART)-based clustering algorithm and the Bayesian approach for label probability computation. The ART-based clustering algorithm adaptively and continually generates prototype nodes corresponding to given data, and the generated nodes are used as classifiers. The label probability computation independently counts the number of label appearances for each class and calculates the Bayesian probabilities. Thus, the label probability computation can cope with an increase in the number of labels. Experimental results with synthetic and real-world multi-label datasets show that the proposed algorithm has competitive classification performance to other well-known algorithms while realizing continual learning.
翻訳日:2021-03-03 16:14:51 公開日:2021-03-02
# DeepCert:ニューラルネットワーク画像分類器のコンテキスト関連ロバスト性検証

DeepCert: Verification of Contextually Relevant Robustness for Neural Network Image Classifiers ( http://arxiv.org/abs/2103.01629v1 )

ライセンス: Link先を確認
Colin Paterson, Haoze Wu, John Grese, Radu Calinescu, Corina S. Pasareanu and Clark Barrett(参考訳) 本稿では,ディープニューラルネットワーク(DNN)画像分類器の堅牢性を検証するツールであるDeepCertを紹介する。 近年,DNN分類器のロバスト性は激しい研究の対象となっているが,本研究では,既存のLpノルムを用いて,画像の小さな摂動に対するDNNのロバスト性を検証することに焦点を当てた。 これは、DNN画像分類器に対する潜在的な敵対的攻撃を特定するのに有用であるが、文脈的に関連する画像の摂動に対するDNN堅牢性を検証することはできない。 DeepCert addresses this underexplored verification problem by supporting:(1) the encoding of real-world image perturbations; (2) the systematic evaluation of contextually relevant DNN robustness, using both testing and formal verification; (3) the generation of contextually relevant counterexamples; and, through these, (4) the selection of DNN image classifiers suitable for the operational context (i)envisaged when a potentially safety-critical system is designed, or (ii)observed by a deployed system. 本稿では,DNN画像分類器が2つのベンチマークデータセット(「ドイツ交通信号」と「CIFAR-10」)に対して,複数の文脈に関連のある摂動に対して構築するロバスト性を検証するために,DeepCertの有効性を示す。

We introduce DeepCert, a tool-supported method for verifying the robustness of deep neural network (DNN) image classifiers to contextually relevant perturbations such as blur, haze, and changes in image contrast. While the robustness of DNN classifiers has been the subject of intense research in recent years, the solutions delivered by this research focus on verifying DNN robustness to small perturbations in the images being classified, with perturbation magnitude measured using established Lp norms. This is useful for identifying potential adversarial attacks on DNN image classifiers, but cannot verify DNN robustness to contextually relevant image perturbations, which are typically not small when expressed with Lp norms. DeepCert addresses this underexplored verification problem by supporting:(1) the encoding of real-world image perturbations; (2) the systematic evaluation of contextually relevant DNN robustness, using both testing and formal verification; (3) the generation of contextually relevant counterexamples; and, through these, (4) the selection of DNN image classifiers suitable for the operational context (i)envisaged when a potentially safety-critical system is designed, or (ii)observed by a deployed system. We demonstrate the effectiveness of DeepCert by showing how it can be used to verify the robustness of DNN image classifiers build for two benchmark datasets (`German Traffic Sign' and `CIFAR-10') to multiple contextually relevant perturbations.
翻訳日:2021-03-03 16:14:38 公開日:2021-03-02
# 自己監督対称非負行列ファクタリゼーション

Self-supervised Symmetric Nonnegative Matrix Factorization ( http://arxiv.org/abs/2103.01689v1 )

ライセンス: Link先を確認
Yuheng Jia, Hui Liu, Junhui Hou, Sam Kwong, Qingfu Zhang(参考訳) 対称非負行列ファクタリゼーション(SNMF)は、データクラスタリングの強力な方法であることが実証されている。 しかし、SNMFは非凸最適化問題として数学的に定式化されており、変数の初期化に敏感である。 クラスタリング結果の集合からより優れたクラスタリング結果を求めるアンサンブルクラスタリングに着想を得て,SNMFの初期化特性に対する感度を利用して,追加情報に頼ることなく,クラスタリング性能を段階的に向上させることができる自己教師型SNMF(S$^3$NMF)を提案する。 具体的には、まずランダムな非負行列でSNMFを繰り返し実行し、毎回初期化を行い、複数の分解行列を作ります。 次に、得られた行列の質を適応的に学習した重みでランク付けし、SNMFに対してさらに識別性が期待される新しい類似性行列を再構成する。 これら2つのステップは、停止基準/最大イテレーション数を達成するまで繰り返します。 S$^3$NMFを制約最適化問題として数学的に定式化し、理論的収束が保証された代替最適化アルゴリズムを提供する。 一般的に使用される10$のベンチマークデータセットに関する広範な実験結果は、$ 5$の量的指標の観点から、$ 12$の最先端の方法よりもS$^3$NMFの重大な利点を示しています。 ソースコードはhttps://github.com/jyh-learning/SSSNMFで公開されている。

Symmetric nonnegative matrix factorization (SNMF) has demonstrated to be a powerful method for data clustering. However, SNMF is mathematically formulated as a non-convex optimization problem, making it sensitive to the initialization of variables. Inspired by ensemble clustering that aims to seek a better clustering result from a set of clustering results, we propose self-supervised SNMF (S$^3$NMF), which is capable of boosting clustering performance progressively by taking advantage of the sensitivity to initialization characteristic of SNMF, without relying on any additional information. Specifically, we first perform SNMF repeatedly with a random nonnegative matrix for initialization each time, leading to multiple decomposed matrices. Then, we rank the quality of the resulting matrices with adaptively learned weights, from which a new similarity matrix that is expected to be more discriminative is reconstructed for SNMF again. These two steps are iterated until the stopping criterion/maximum number of iterations is achieved. We mathematically formulate S$^3$NMF as a constraint optimization problem, and provide an alternative optimization algorithm to solve it with the theoretical convergence guaranteed. Extensive experimental results on $10$ commonly used benchmark datasets demonstrate the significant advantage of our S$^3$NMF over $12$ state-of-the-art methods in terms of $5$ quantitative metrics. The source code is publicly available at https://github.com/jyh-learning/SSSNMF.
翻訳日:2021-03-03 16:14:14 公開日:2021-03-02
# Autobahn: 自己同型に基づくグラフニューラルネットワーク

Autobahn: Automorphism-based Graph Neural Nets ( http://arxiv.org/abs/2103.01710v1 )

ライセンス: Link先を確認
Erik Henning Thiede, Wenda Zhou, Risi Kondor(参考訳) グラフニューラルネットワークの新しいファミリーであるAutomorphismベースのグラフニューラルネットワーク(Autobahn)を紹介します。 Autobahnでは、グラフをサブグラフの集合に分解し、各サブグラフの自己同型群と等価な局所畳み込みを適用する。 ローカル地区やサブグラフの特定の選択は、メッセージパッシングニューラルネットワークなどの既存のアーキテクチャを回復する。 例として、グラフをパスとサイクルに分解するグラフニューラルネットワークを紹介します。 結果として生じる畳み込みは、グラフの一部が変換できる自然な方法を反映しており、大域的置換等分散を犠牲にすることなく畳み込みの直感的な意味を保っている。 Autobahnを分子グラフに適用することで、最先端の結果が得られることを検証します。

We introduce Automorphism-based graph neural networks (Autobahn), a new family of graph neural networks. In an Autobahn, we decompose the graph into a collection of subgraphs and applying local convolutions that are equivariant to each subgraph's automorphism group. Specific choices of local neighborhoods and subgraphs recover existing architectures such as message passing neural networks. However, our formalism also encompasses novel architectures: as an example, we introduce a graph neural network that decomposes the graph into paths and cycles. The resulting convolutions reflect the natural way that parts of the graph can transform, preserving the intuitive meaning of convolution without sacrificing global permutation equivariance. We validate our approach by applying Autobahn to molecular graphs, where it achieves state-of-the-art results.
翻訳日:2021-03-03 16:13:51 公開日:2021-03-02
# グラフモデルと公平性正規化としてのフェアI-プロジェクションのKL分散

The KL-Divergence between a Graph Model and its Fair I-Projection as a Fairness Regularizer ( http://arxiv.org/abs/2103.01846v1 )

ライセンス: Link先を確認
Maarten Buyl, Tijl De Bie(参考訳) グラフ上の学習と推論は確率モデル(例えば、確率モデル)によってますます行われる。 指数的ランダムグラフモデル、グラフ埋め込みモデル、グラフニューラルネットワーク。 しかし、グラフが人間の関係をモデル化する場合、それらは必然的にバイアスや偏見、その他の不等式や不等式を反映する。 したがって、重要な課題は、正確なグラフモデリングアプローチを設計し、問題に必要な公正性の概念に従って公正性を保証することである。 しかし、このトピックに関する過去の研究は乏しく、特定のグラフモデリング手法の偏りに限られており、しばしば間接的に公正性を確保することを目的としている。 本稿では,ほとんどの確率グラフモデリング手法に適用可能な汎用的なアプローチを提案する。 具体的には、選択された公正度基準に対応するフェアグラフモデルのクラスを最初に定義する。 そこで本稿では,グラフモデルとI-射影とのKL分割として定義される公正正則化器をフェアモデルの集合上に提案する。 既存のグラフモデリング手法と組み合わせてこのフェアネス正規化器を効率よくフェアネスと精度を交換できることを実証する一方、最先端のモデルは、彼らが特別に設計したフェアネス基準に対してのみ、このトレードオフを行うことができる。

Learning and reasoning over graphs is increasingly done by means of probabilistic models, e.g. exponential random graph models, graph embedding models, and graph neural networks. When graphs are modeling relations between people, however, they will inevitably reflect biases, prejudices, and other forms of inequity and inequality. An important challenge is thus to design accurate graph modeling approaches while guaranteeing fairness according to the specific notion of fairness that the problem requires. Yet, past work on the topic remains scarce, is limited to debiasing specific graph modeling methods, and often aims to ensure fairness in an indirect manner. We propose a generic approach applicable to most probabilistic graph modeling approaches. Specifically, we first define the class of fair graph models corresponding to a chosen set of fairness criteria. Given this, we propose a fairness regularizer defined as the KL-divergence between the graph model and its I-projection onto the set of fair models. We demonstrate that using this fairness regularizer in combination with existing graph modeling approaches efficiently trades-off fairness with accuracy, whereas the state-of-the-art models can only make this trade-off for the fairness criterion that they were specifically designed for.
翻訳日:2021-03-03 16:13:37 公開日:2021-03-02
# グラフコンピューティングによる金融犯罪と不正検出: アプリケーションの考察と展望

Financial Crime & Fraud Detection Using Graph Computing: Application Considerations & Outlook ( http://arxiv.org/abs/2103.01854v1 )

ライセンス: Link先を確認
E. Kurshan, H. Shen, H.Yu(参考訳) 近年、デジタル決済の先例のない成長は、詐欺や金融犯罪の連続的な変化を促した。 この新しい状況では、ルールベースのエンジンのような従来の不正検出アプローチはほとんど効果がない。 グラフコンピューティングの原則を使ったaiと機械学習のソリューションが大きな関心を集めている。 グラフニューラルネットワークと新たな適応ソリューションは、詐欺や金融犯罪検出の将来に魅力的な機会を提供する。 しかし、金融取引処理システムにおけるグラフベースのソリューションの実装は、多くの障害とアプリケーションの考慮を明らかにした。 本稿では,金融犯罪現場の最新動向を概観し,現在と新興のグラフソリューションが直面する実装の難しさについて論じる。 アプリケーションの要求と実装の課題は、効果的なソリューションを開発する上で重要な洞察を提供する。

In recent years, the unprecedented growth in digital payments fueled consequential changes in fraud and financial crimes. In this new landscape, traditional fraud detection approaches such as rule-based engines have largely become ineffective. AI and machine learning solutions using graph computing principles have gained significant interest. Graph neural networks and emerging adaptive solutions provide compelling opportunities for the future of fraud and financial crime detection. However, implementing the graph-based solutions in financial transaction processing systems has brought numerous obstacles and application considerations to light. In this paper, we overview the latest trends in the financial crimes landscape and discuss the implementation difficulties current and emerging graph solutions face. We argue that the application demands and implementation challenges provide key insights in developing effective solutions.
翻訳日:2021-03-03 16:13:17 公開日:2021-03-02
# 機械学習とディープラーニング分類器のアンサンブルに対する並列的アプローチに基づく身体活動認識

Physical Activity Recognition Based on a Parallel Approach for an Ensemble of Machine Learning and Deep Learning Classifiers ( http://arxiv.org/abs/2103.01859v1 )

ライセンス: Link先を確認
M. Abid, A. Khabou, Y. Ouakrim, H. Watel, S. Chemkhi, A. Mitiche, A.Benazza-Benyahia, and N. Mezghani(参考訳) モノのインターネット(IOT)に組み込まれたウェアラブルセンサーデバイスによる人間の活動認識(HAR)は、リモートヘルス監視と緊急通知において重要な役割を果たし、より高い基準の医療を提供することができます。 本研究の目的は,医療に適用可能な意思決定の正確性と実行速度を推定するヒューマンアクティビティ認識手法を検討することである。 本手法は、特徴工学に基づく効率的な分類器と特徴学習に基づくデータ表現を組み合わせることで、ウェアラブルセンサの加速度時系列データを分類する。 スマートテキスタイルに単一ウエストウーン加速度計を装着した44名の被験者から取得したデータを用いて,10種類の活動を行い,平均認識率90%を達成し,個々の分類器よりも有意に良好な結果を得た。 この方法は、機能的および計算的並列化を容易に適応し、実行時間を著しく短縮する。

Human activity recognition (HAR) by wearable sensor devices embedded in the Internet of things (IOT) can play a significant role in remote health monitoring and emergency notification, to provide healthcare of higher standards. The purpose of this study is to investigate a human activity recognition method of accrued decision accuracy and speed of execution to be applicable in healthcare. This method classifies wearable sensor acceleration time series data of human movement using efficient classifier combination of feature engineering-based and feature learning-based data representation. Leave-one-subject-out cross-validation of the method with data acquired from 44 subjects wearing a single waist-worn accelerometer on a smart textile, and engaged in a variety of 10 activities, yields an average recognition rate of 90%, performing significantly better than individual classifiers. The method easily accommodates functional and computational parallelization to bring execution time significantly down.
翻訳日:2021-03-03 16:13:07 公開日:2021-03-02
# 健康産業におけるDMアルゴリズム

DM algorithms in healthindustry ( http://arxiv.org/abs/2103.01888v1 )

ライセンス: Link先を確認
Li Wang(参考訳) 本調査は, 保健産業におけるデータマイニング(dm)のアプローチを, 様々な研究グループからレビューするものである。 現在のコモディティコンピュータに組み込まれた現代的なマルチコアプロセッサにフォーカスしており、これは通常、小さなサーバーとワークステーションのコンピュータとして大学の研究所で見られる。 故意に高性能なコンピュータではない。 現代のマルチコアプロセッサは、複数の (2から100以上) コンピュータコアで構成されており、"multiple instruction multiple data" (mimd) の原則に従って互いに独立して動作する。 彼らは共通のメインメモリ(共有メモリ)を持っています。 これらのコンピュータコアには複数の(2-16)算術論理ユニットがあり、ベクトルのような方法で複数のデータ上で同じ演算を同時に行うことができる(命令多重データ、SIMD)。 DMアルゴリズムは両方のタイプの並列処理(SIMDとMIMD)を使用しなければならず、メインメモリ(集中化コンポーネント)へのアクセスは効率向上の主な障壁である。 これは、ECG、EEG、CT、SPECT、fMRI、DTI、超音波、顕微鏡、皮膚顕微鏡などの医療分野におけるDMにとって重要である。

This survey reviews several approaches of data mining (DM) in healthindustry from many research groups world wide. The focus is on modern multi-core processors built into today's commodity computers, which are typically found at university institutes both as small server and workstation computers. So they are deliberately not high-performance computers. Modern multi-core processors consist of several (2 to over 100) computer cores, which work independently of each other according to the principle of "multiple instruction multiple data" (MIMD). They have a common main memory (shared memory). Each of these computer cores has several (2-16) arithmetic-logic units, which can simultaneously carry out the same arithmetic operation on several data in a vector-like manner (single instruction multiple data, SIMD). DM algorithms must use both types of parallelism (SIMD and MIMD), with access to the main memory (centralized component) being the main barrier to increased efficiency. This is important for DM in healthindustry applications like ECG, EEG, CT, SPECT, fMRI, DTI, ultrasound, microscopy, dermascopy, etc.
翻訳日:2021-03-03 16:12:51 公開日:2021-03-02
# 擬似学習によるオフライン強化学習

Offline Reinforcement Learning with Pseudometric Learning ( http://arxiv.org/abs/2103.01948v1 )

ライセンス: Link先を確認
Robert Dadashi, Shideh Rezaeifar, Nino Vieillard, L\'eonard Hussenot, Olivier Pietquin, Matthieu Geist(参考訳) オフライン強化学習手法は、対話なしに環境のログ化された遷移からポリシーを学習しようとする。 関数近似の存在下、および環境の状態-動作空間の限られた範囲の仮定下において、ログされた遷移の支持に近い状態-アクションペアを訪問するようにポリシーを強制する必要がある。 本研究では、ログ化された遷移から擬似測度(擬似測度に近縁な)を学習するための反復的手順を提案し、その手法を用いて近接性の概念を定義する。 我々は、その収束を示し、関数近似設定に拡張する。 次に、この擬似メトリックを使用して、アクター-批判アルゴリズムで新しいルックアップベースのボーナスを定義する。 このボーナスは、記録された遷移をサポートするために、決定された擬似メトリックの観点からアクターに近づき続けるよう促す。 最後に,手動操作と移動作業における手法の評価を行った。

Offline Reinforcement Learning methods seek to learn a policy from logged transitions of an environment, without any interaction. In the presence of function approximation, and under the assumption of limited coverage of the state-action space of the environment, it is necessary to enforce the policy to visit state-action pairs close to the support of logged transitions. In this work, we propose an iterative procedure to learn a pseudometric (closely related to bisimulation metrics) from logged transitions, and use it to define this notion of closeness. We show its convergence and extend it to the function approximation setting. We then use this pseudometric to define a new lookup based bonus in an actor-critic algorithm: PLOff. This bonus encourages the actor to stay close, in terms of the defined pseudometric, to the support of logged transitions. Finally, we evaluate the method on hand manipulation and locomotion tasks.
翻訳日:2021-03-03 16:12:32 公開日:2021-03-02
# TopicTracker: トピックの軌道識別と可視化のためのプラットフォーム

TopicTracker: A Platform for Topic Trajectory Identification and Visualisation ( http://arxiv.org/abs/2103.01432v1 )

ライセンス: Link先を確認
Yong-Bin Kang and Timos Sellis(参考訳) トピックの軌跡情報は、特定の時間におけるトピックとその進化的関係のダイナミクスに関する重要な洞察を提供する。 また、この情報は、前回のトピックの出現、修正、統合に関するシーケンシャルまたは相互関連イベントを通じて、新しいトピックがどのように出現または形成されたかを理解するのに役立つ。 それにもかかわらず、トピック軌道識別のための既存の方法の実装は、使用可能なソフトウェアとしてほとんど利用できません。 本稿では,トピックトラック識別と可視化のためのプラットフォームである topictracker を提案する。 トピックトラッカーの鍵は、情報の3つの側面を一緒に表現できることです。2つの種類の入力が与えられます:時間の経過とともに基礎となるトピックのセットからなるタイムスタンプされたトピックプロファイルとその中の進化強度マトリックス:動的トピックの進化経路、トピックの進化状態、およびトピックの重要性。 TopicTrackerは、Rソフトウェアを使って実装された公開ソフトウェアである。

Topic trajectory information provides crucial insight into the dynamics of topics and their evolutionary relationships over a given time. Also, this information can help to improve our understanding on how new topics have emerged or formed through a sequential or interrelated events of emergence, modification and integration of prior topics. Nevertheless, the implementation of the existing methods for topic trajectory identification is rarely available as usable software. In this paper, we present TopicTracker, a platform for topic trajectory identification and visualisation. The key of Topic Tracker is that it can represent the three facets of information together, given two kinds of input: a time-stamped topic profile consisting of the set of the underlying topics over time, and the evolution strength matrix among them: evolutionary pathways of dynamic topics, evolution states of the topics, and topic importance. TopicTracker is a publicly available software implemented using the R software.
翻訳日:2021-03-03 16:10:51 公開日:2021-03-02
# 長時間音声認識:オンラインASRとVADのためのエンドツーエンドマルチタスク学習フレームワーク

Long-Running Speech Recognizer:An End-to-End Multi-Task Learning Framework for Online ASR and VAD ( http://arxiv.org/abs/2103.01661v1 )

ライセンス: Link先を確認
Meng Li, Shiyu Zhou, Bo Xu(参考訳) 実世界のアプリケーションにエンドツーエンドの自動音声認識(E2E-ASR)システムを使用する場合、通常、音声中の非音声部分を捨ててパフォーマンスを改善し、計算コストを削減するために音声活動検出(VAD)システムが必要です。 本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。 提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。 VADの補助により、その接続性時間分類(CTC)損失関数がVADアライメント情報を活用することにより、ASR性能が向上する。 推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。 セグメント化音声データを用いた実験の結果,提案フレームワークは,asrタスクにおけるstlフレームワークよりも優れていることがわかった。 非セグメント音声データから、LR-SRシステムは、追加のGMMベースまたはDNNベースの音声活動検知器を構築するベースラインASRシステムより優れていることが分かる。

When we use End-to-end automatic speech recognition (E2E-ASR) system for real-world applications, a voice activity detection (VAD) system is usually needed to improve the performance and to reduce the computational cost by discarding non-speech parts in the audio. This paper presents a novel end-to-end (E2E), multi-task learning (MTL) framework that integrates ASR and VAD into one model. The proposed system, which we refer to as Long-Running Speech Recognizer (LR-SR), learns ASR and VAD jointly from two seperate task-specific datasets in the training stage. With the assistance of VAD, the ASR performance improves as its connectionist temporal classification (CTC) loss function can leverage the VAD alignment information. In the inference stage, the LR-SR system removes non-speech parts at low computational cost and recognizes speech parts with high robustness. Experimental results on segmented speech data show that the proposed MTL framework outperforms the baseline single-task learning (STL) framework in ASR task. On unsegmented speech data, we find that the LR-SR system outperforms the baseline ASR systems that build an extra GMM-based or DNN-based voice activity detector.
翻訳日:2021-03-03 16:09:34 公開日:2021-03-02
# カメラモーションからの深さと物体検出

Depth from Camera Motion and Object Detection ( http://arxiv.org/abs/2103.01468v1 )

ライセンス: Link先を確認
Brent A. Griffin and Jason J. Corso(参考訳) 本稿では, カメラ動作の測定値から検出対象の深さを推定する学習(例えば, ロボット運動学や車体計測学など)の課題に対処する。 1)境界ボックスとアンキャリブレーションカメラの動きの一般化された表現を用いてオブジェクトの深さを推定するリカレントニューラルネットワーク(DBox)を設計し、2)モーションおよび検出データセット(ODMD)を介してオブジェクト深さを導入する。 ODMDトレーニングデータは拡張可能で構成可能であり、ODMDベンチマークには4つの検証とテストセットにわたる21,600の例が含まれている。 これらのセットには、エンドエフェクタカメラを使用してYCBデータセットからオブジェクトを見つけるモバイルロボット実験や、カメラの動きやバウンディングボックスデータに摂動を加えた例が含まれる。 odmdベンチマークに加えて、他の単眼アプリケーションドメインにおけるdboxを評価し、既存の運転およびロボティクスベンチマークで最先端の結果を達成し、カメラフォンを用いてオブジェクトの深さを推定する。

This paper addresses the problem of learning to estimate the depth of detected objects given some measurement of camera motion (e.g., from robot kinematics or vehicle odometry). We achieve this by 1) designing a recurrent neural network (DBox) that estimates the depth of objects using a generalized representation of bounding boxes and uncalibrated camera movement and 2) introducing the Object Depth via Motion and Detection Dataset (ODMD). ODMD training data are extensible and configurable, and the ODMD benchmark includes 21,600 examples across four validation and test sets. These sets include mobile robot experiments using an end-effector camera to locate objects from the YCB dataset and examples with perturbations added to camera motion or bounding box data. In addition to the ODMD benchmark, we evaluate DBox in other monocular application domains, achieving state-of-the-art results on existing driving and robotics benchmarks and estimating the depth of objects using a camera phone.
翻訳日:2021-03-03 16:04:03 公開日:2021-03-02
# 点と線の特徴を持つ単眼視SLAMの退化回避

Avoiding Degeneracy for Monocular Visual SLAM with Point and Line Features ( http://arxiv.org/abs/2103.01501v1 )

ライセンス: Link先を確認
Hyunjun Lim, Yeeun Kim, Kwangik Jung, Sumin Hu, and Hyun Myung(参考訳) 本論文では, 点と線に基づく視覚SLAMアルゴリズムの退化回避法を提案する。 Visual SLAMは主にポイント機能を使用します。 しかし、低テクスチャと照度変動環境では点特徴が頑健性に欠ける。 したがって、線特徴は点特徴の弱点を補うために用いられる。 さらに、点特徴は肉眼で識別可能な特徴を表すには不十分であり、つまり写像点特徴は認識できない。 上記の制限を克服するため、以前の研究ではラインの特徴が積極的に採用されていた。 しかし,本論文では,ライン機能の使用過程で退化が起きるため,この問題の解決を試みる。 まず, 縮退線を識別する簡単な方法を提案する。 さらに, 縮退問題を回避するために, 新たな構造制約を提案する。 最後に、堅牢な光フローに基づくリエン追跡法を用いた点線単眼SLAMシステムを実装します。 結果はEuRoCデータセットを用いて検証され、他の最先端アルゴリズムと比較される。 より正確な位置決めとマッピング結果が得られることが証明されています。

In this paper, a degeneracy avoidance method for a point and line based visual SLAM algorithm is proposed. Visual SLAM predominantly uses point features. However, point features lack robustness in low texture and illuminance variant environments. Therefore, line features are used to compensate the weaknesses of point features. In addition, point features are poor in representing discernable features for the naked eye, meaning mapped point features cannot be recognized. To overcome the limitations above, line features were actively employed in previous studies. However, since degeneracy arises in the process of using line features, this paper attempts to solve this problem. First, a simple method to identify degenerate lines is presented. In addition, a novel structural constraint is proposed to avoid the degeneracy problem. At last, a point and line based monocular SLAM system using a robust optical-flow based lien tracking method is implemented. The results are verified using experiments with the EuRoC dataset and compared with other state-of-the-art algorithms. It is proven that our method yields more accurate localization as well as mapping results.
翻訳日:2021-03-03 16:03:45 公開日:2021-03-02
# 視覚的再構成とナビゲーションのためのポースオンリーソリューション

A Pose-only Solution to Visual Reconstruction and Navigation ( http://arxiv.org/abs/2103.01530v1 )

ライセンス: Link先を確認
Qi Cai, Lilian Zhang, Yuanxin Wu, Wenxian Yu, Dewen Hu(参考訳) ロボットが周囲の環境と対話するためには,視覚ナビゲーションと3次元シーン再構成が不可欠である。 大規模なシーンやクリティカルなカメラの動きは、この目標を達成するために研究コミュニティが直面する大きな課題です。 私たちは、これらの課題を解決できるポーズオンリーのイメージングジオメトリフレームワークとアルゴリズムを立ち上げました。 この表現はカメラグローバル翻訳の線形関数であり、効率的で堅牢なカメラモーション推定を可能にする。 その結果、空間的特徴座標は解析的に再構成でき、非線形最適化を必要としない。 実験により,シーンの復元と関連するカメラポーズの計算効率が2~4桁向上することを示した。 このソリューションは、多くのフォアフロントアプリケーションでリアルタイムの3Dビジュアルコンピューティングをアンロックすることを約束するかもしれない。

Visual navigation and three-dimensional (3D) scene reconstruction are essential for robotics to interact with the surrounding environment. Large-scale scenes and critical camera motions are great challenges facing the research community to achieve this goal. We raised a pose-only imaging geometry framework and algorithms that can help solve these challenges. The representation is a linear function of camera global translations, which allows for efficient and robust camera motion estimation. As a result, the spatial feature coordinates can be analytically reconstructed and do not require nonlinear optimization. Experiments demonstrate that the computational efficiency of recovering the scene and associated camera poses is significantly improved by 2-4 orders of magnitude. This solution might be promising to unlock real-time 3D visual computing in many forefront applications.
翻訳日:2021-03-03 16:03:31 公開日:2021-03-02
# クラス特異的畳み込みによる効率的なDeep Image Denoising

Efficient Deep Image Denoising via Class Specific Convolution ( http://arxiv.org/abs/2103.01624v1 )

ライセンス: Link先を確認
Lu Xu, Jiawei Zhang, Xuanye Cheng, Feng Zhang, Xing Wei, Jimmy Ren(参考訳) 深層ニューラルネットワークはここ数年、画像の雑音化に広く使われてきた。 この問題で大きな成功を収めたものの、計算的に非効率であり、モバイルデバイスで実装するには不適当である。 本稿では,画素ワイド分類に基づく画像認識のための効率的なディープニューラルネットワークを提案する。 計算効率の良いネットワークでは、どんなコンテンツからでもノイズを効果的に取り除くことはできないが、特定のタイプのパターンやテクスチャから切り離すことができる。 提案手法は,このような分割征服方式に従う。 まず,局所勾配統計に基づく雑音画像中の画素の分類に効率的なU-netを用いる。 次に、既存のデノナイジングネットワークにおける畳み込み層の一部を、異なるクラスのピクセルに対して異なる重みを使用するクラス固有畳み込み層(CSConv)によって置き換える。 公開データセット上での定量的・定性評価は,提案手法が最先端アルゴリズムと比較して性能を犠牲にすることなく計算コストを削減できることを実証する。

Deep neural networks have been widely used in image denoising during the past few years. Even though they achieve great success on this problem, they are computationally inefficient which makes them inappropriate to be implemented in mobile devices. In this paper, we propose an efficient deep neural network for image denoising based on pixel-wise classification. Despite using a computationally efficient network cannot effectively remove the noises from any content, it is still capable to denoise from a specific type of pattern or texture. The proposed method follows such a divide and conquer scheme. We first use an efficient U-net to pixel-wisely classify pixels in the noisy image based on the local gradient statistics. Then we replace part of the convolution layers in existing denoising networks by the proposed Class Specific Convolution layers (CSConv) which use different weights for different classes of pixels. Quantitative and qualitative evaluations on public datasets demonstrate that the proposed method can reduce the computational costs without sacrificing the performance compared to state-of-the-art algorithms.
翻訳日:2021-03-03 16:03:23 公開日:2021-03-02
# 視覚データ処理のための脳型アルゴリズム

Brain-inspired algorithms for processing of visual data ( http://arxiv.org/abs/2103.01634v1 )

ライセンス: Link先を確認
Nicola Strisciuglio(参考訳) 脳の視覚系の研究は、脳を構成するいくつかの種類のニューロンの計算モデルから派生した多くの神経科学者の関心と関心を惹きつけている。 これらの発見は画像処理とコンピュータビジョンの研究者に視覚データ処理の問題を解決するためにそのようなモデルをデプロイするきっかけとなった。 本稿では、視覚野におけるいくつかのニューロンの機能に関する神経科学的な知見に基づいて、画像処理とコンピュータビジョンのアプローチを検討する。 さらに、脳の視覚系の階層構造と畳み込みネットワーク(Convolutional Networks, ConvNets)の構造とのつながりを分析します。 入力刺激の変化に対する安定性が向上した視覚系を提供するニューロンの応答抑制機構に特に注意を払い、画像処理オペレータとconvnetsにおけるそれらの実装について論じる。

The study of the visual system of the brain has attracted the attention and interest of many neuro-scientists, that derived computational models of some types of neuron that compose it. These findings inspired researchers in image processing and computer vision to deploy such models to solve problems of visual data processing. In this paper, we review approaches for image processing and computer vision, the design of which is based on neuro-scientific findings about the functions of some neurons in the visual cortex. Furthermore, we analyze the connection between the hierarchical organization of the visual system of the brain and the structure of Convolutional Networks (ConvNets). We pay particular attention to the mechanisms of inhibition of the responses of some neurons, which provide the visual system with improved stability to changing input stimuli, and discuss their implementation in image processing operators and in ConvNets.
翻訳日:2021-03-03 16:03:09 公開日:2021-03-02
# 超解像圧縮画像の並列化とアーティファクト低減と分解能向上のシリーズ統合

Super-resolving Compressed Images via Parallel and Series Integration of Artifact Reduction and Resolution Enhancement ( http://arxiv.org/abs/2103.01698v1 )

ライセンス: Link先を確認
Hongming Luo, Fei Zhou, Guangsen Liao, and Guoping Qiu(参考訳) 実世界のアプリケーションでは、画像はサブサンプリングされるだけでなく、様々なアーティファクトを含むように重く圧縮される。 このような画像の解像度を高める簡単な方法は、アーティファクトを悪化させ、視覚的に不快にさせる。 実用的価値は高いものの,圧縮画像の超解像は文献ではあまり研究されていない。 本論文では,アーティファクト除去と解像度向上の並列および直列統合に基づく新しい圧縮画像超解像(CISR)フレームワークを提案する。 クリーンな低分解能(LR)入力画像と、ダウンサンプリングおよび圧縮観察からのクリーンな高分解能(HR)出力イメージを推定するための最大後方推論に基づいて、アーティファクトリダクションモジュール(ARM)とリゾリューションエンハンスモジュール(REM)の2つのディープニューラルネットワークモジュールからなるCISRアーキテクチャを設計しました。 ARMとREMは、圧縮LRイメージを入力として取得することと並行して動作し、REMはARMの出力を入力の1つとして取得し、ARMはREMの出力を他の入力として取得する。 CSIRシステムのユニークな特徴は、異なる方法で圧縮されたLR画像を様々な品質に超解ける1つの訓練されたモデルである。 これは、画像劣化を処理するためのディープニューラルネットワーク容量と、ARMとREM間の並列および直列接続を利用して、特定の劣化への依存を減らすことで実現される。 ARMとREMは、深層展開技術によって同時に訓練される。 JPEGとWebP圧縮画像の混合に対して,圧縮型と圧縮係数の事前知識のない実験を行った。 視覚的および定量的比較は,最先端スーパーリゾルメンテーション法よりも優れていることを示す。

In real-world applications, images may be not only sub-sampled but also heavily compressed thus often containing various artifacts. Simple methods for enhancing the resolution of such images will exacerbate the artifacts, rendering them visually objectionable. In spite of its high practical values, super-resolving compressed images is not well studied in the literature. In this paper, we propose a novel compressed image super resolution (CISR) framework based on parallel and series integration of artifact removal and resolution enhancement. Based on maximum a posterior inference for estimating a clean low-resolution (LR) input image and a clean high resolution (HR) output image from down-sampled and compressed observations, we have designed a CISR architecture consisting of two deep neural network modules: the artifact reduction module (ARM) and resolution enhancement module (REM). ARM and REM work in parallel with both taking the compressed LR image as their inputs, while they also work in series with REM taking the output of ARM as one of its inputs and ARM taking the output of REM as its other input. A unique property of our CSIR system is that a single trained model is able to super-resolve LR images compressed by different methods to various qualities. This is achieved by exploiting deep neural net-works capacity for handling image degradations, and the parallel and series connections between ARM and REM to reduce the dependency on specific degradations. ARM and REM are trained simultaneously by the deep unfolding technique. Experiments are conducted on a mixture of JPEG and WebP compressed images without a priori knowledge of the compression type and com-pression factor. Visual and quantitative comparisons demonstrate the superiority of our method over state-of-the-art super resolu-tion methods.
翻訳日:2021-03-03 16:02:56 公開日:2021-03-02
# wavelet-based subband decompositionを用いた画像分類のための構造的正規化畳み込みニューラルネットワーク

A Structurally Regularized Convolutional Neural Network for Image Classification using Wavelet-based SubBand Decomposition ( http://arxiv.org/abs/2103.01823v1 )

ライセンス: Link先を確認
Pavel Sinha, Ioannis Psaromiligkos, Zeljko Zilic(参考訳) ウェーブレットを用いた画像のサブバンド分解に基づく画像分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 提案アーキテクチャは、入力画像スペクトルを複数の臨界サンプリングサブバンドに分解し、サブバンド毎に1つのCNNを用いて特徴を抽出し、最後に、抽出した特徴を完全連結層を用いて分類する。 各サブバンドを個別のCNNで処理することにより、各CNNの学習範囲を単一のサブバンドに制限し、構造正規化の形式を課す。 これにより、上述した結果に示すように、より優れた一般化能力が得られる。 提案アーキテクチャは,総乗算加算器演算における最良クラス性能と,総パラメータの観点からは最良クラス性能を実現するが,競合クラス性能は維持する。 また,提案手法は,重みとバイアスの量子化と入力量子化によって生じる雑音に対して,通常のフルバンドcnnよりも頑健であることを示す。

We propose a convolutional neural network (CNN) architecture for image classification based on subband decomposition of the image using wavelets. The proposed architecture decomposes the input image spectra into multiple critically sampled subbands, extracts features using a single CNN per subband, and finally, performs classification by combining the extracted features using a fully connected layer. Processing each of the subbands by an individual CNN, thereby limiting the learning scope of each CNN to a single subband, imposes a form of structural regularization. This provides better generalization capability as seen by the presented results. The proposed architecture achieves best-in-class performance in terms of total multiply-add-accumulator operations and nearly best-in-class performance in terms of total parameters required, yet it maintains competitive classification performance. We also show the proposed architecture is more robust than the regular full-band CNN to noise caused by weight-and-bias quantization and input quantization.
翻訳日:2021-03-03 16:02:29 公開日:2021-03-02
# grad-cam heatmapsによるテスト自動化 -- vision aiのためのmlopsの今後のパイプセグメント?

Test Automation with Grad-CAM Heatmaps -- A Future Pipe Segment in MLOps for Vision AI? ( http://arxiv.org/abs/2103.01837v1 )

ライセンス: Link先を確認
Markus Borg, Ronald Jabangwe, Simon {\AA}berg, Arvid Ekblom, Ludwig Hedlund, August Lidfeldt(参考訳) 機械学習(ML)は現代の知覚システムの基本部分である。 過去10年間、訓練されたディープニューラルネットワークを用いたコンピュータビジョンのパフォーマンスは、注意深い機能工学に基づく以前のアプローチを上回っている。 しかし、大規模なMLモデルの不透明さは、自動車の文脈のような重要な応用にとって重大な障害となる。 モデル内部を視覚的に説明するために,グラデーション重み付けクラスアクティベーションマッピング(grad-cam)が提案されている。 本稿では,Grad-CAMのヒートマップを用いて,歩行者の地下道で訓練された画像認識モデルの説明性を高める方法について述べる。 我々は、このヒートマップがEUの7つの重要な要件であるTrustworthy AIへのコンプライアンスをどのようにサポートしているかを議論する。 最後に、MLOpsパイプラインにパイプセグメントとして自動ヒートマップ解析を追加することを提案する。 このようなビルディングブロックは、テストイメージの無効なピクセルに基づいて訓練されたMLモデルがアクティブになっているかどうかを自動的に検出し、バイアスモデルを提案する。

Machine Learning (ML) is a fundamental part of modern perception systems. In the last decade, the performance of computer vision using trained deep neural networks has outperformed previous approaches based on careful feature engineering. However, the opaqueness of large ML models is a substantial impediment for critical applications such as in the automotive context. As a remedy, Gradient-weighted Class Activation Mapping (Grad-CAM) has been proposed to provide visual explanations of model internals. In this paper, we demonstrate how Grad-CAM heatmaps can be used to increase the explainability of an image recognition model trained for a pedestrian underpass. We argue how the heatmaps support compliance to the EU's seven key requirements for Trustworthy AI. Finally, we propose adding automated heatmap analysis as a pipe segment in an MLOps pipeline. We believe that such a building block can be used to automatically detect if a trained ML-model is activated based on invalid pixels in test images, suggesting biased models.
翻訳日:2021-03-03 16:02:11 公開日:2021-03-02
# HED-UNet:南極海岸線監視のためのセグメンテーションとエッジ検出の組み合わせ

HED-UNet: Combined Segmentation and Edge Detection for Monitoring the Antarctic Coastline ( http://arxiv.org/abs/2103.01849v1 )

ライセンス: Link先を確認
Konrad Heidler, Lichao Mou, Celia Baumhoer, Andreas Dietz, Xiao Xiang Zhu(参考訳) 近年, 深層学習に基づく海岸線検出アルゴリズムが, 従来の統計手法を上回り始めている。 しかし、それらは通常、陸地と水を分断するか、海岸線を分断する単一目的のモデルとしてのみ訓練される。 これとは対照的に、人間のアノテーションーは通常、手動海岸線検出を行う際に、セグメンテーションとデラインの両方のメンタルマップを保持します。 このタスクの双対性を考慮するため、我々はこれらの2つのアプローチを深層学習モデルで統一する新しいモデルを考え出した。 セマンティックセグメンテーションフレームワーク(UNet)とエッジ検出フレームワーク(HED)の主なビルディングブロックからインスピレーションを得て、どちらのタスクも自然な方法で結合される。 複数の解像度でサイド予測を深く監視し、トレーニングを効率化します。 最後に、これらの多スケール予測を最終モデル出力に適応的にマージする階層的注意機構を導入する。 このアプローチの利点は、海岸線検出が難しい南極海岸の一部をカバーするセンチネル-1画像のデータセットで、他の伝統的および深層学習に基づく海岸線検出方法よりも優れている。 このメソッドの実装は \url{https://github.com/khdlr/HED-UNet} で入手できる。

Deep learning-based coastline detection algorithms have begun to outshine traditional statistical methods in recent years. However, they are usually trained only as single-purpose models to either segment land and water or delineate the coastline. In contrast to this, a human annotator will usually keep a mental map of both segmentation and delineation when performing manual coastline detection. To take into account this task duality, we therefore devise a new model to unite these two approaches in a deep learning model. By taking inspiration from the main building blocks of a semantic segmentation framework (UNet) and an edge detection framework (HED), both tasks are combined in a natural way. Training is made efficient by employing deep supervision on side predictions at multiple resolutions. Finally, a hierarchical attention mechanism is introduced to adaptively merge these multiscale predictions into the final model output. The advantages of this approach over other traditional and deep learning-based methods for coastline detection are demonstrated on a dataset of Sentinel-1 imagery covering parts of the Antarctic coast, where coastline detection is notoriously difficult. An implementation of our method is available at \url{https://github.com/khdlr/HED-UNet}.
翻訳日:2021-03-03 16:01:57 公開日:2021-03-02
# Masked Face Recognition: Human vs. Machine

Masked Face Recognition: Human vs. Machine ( http://arxiv.org/abs/2103.01924v1 )

ライセンス: Link先を確認
Naser Damer, Fadi Boutros, Marius S\"u{\ss}milch, Meiling Fang, Florian Kirchbuchner, Arjan Kuijper(参考訳) 最近のCOVID-19パンデミックは、衛生的で無接触のアイデンティティ検証方法に焦点を当てています。 しかし、パンデミックは、パンデミックをコントロールし続けるために不可欠なフェイスマスクの広範な使用につながりました。 協調環境における顔認識に対するマスク着用の影響は,現在,未検討の課題である。 最近の報告では、自動顔認識ソリューションの性能に対するマスクプローブ効果を評価している。 しかし、そのようなソリューションは特定のプロセスで失敗し、人間の専門家による検証タスクを実行する。 本研究は,最先端の顔認識ソリューションと比較して,人間専門家の顔認証性能を共同評価し,詳細な分析を行う。 これには、12人の人間専門家と4つの自動認識ソリューションによる広範な評価が含まれる。 この研究は、人間と機械の検証行動の相関の異なる側面に関する一連のテイクホームメッセージで締めくくっている。

The recent COVID-19 pandemic has increased the focus on hygienic and contactless identity verification methods. However, the pandemic led to the wide use of face masks, essential to keep the pandemic under control. The effect of wearing a mask on face recognition in a collaborative environment is currently sensitive yet understudied issue. Recent reports have tackled this by evaluating the masked probe effect on the performance of automatic face recognition solutions. However, such solutions can fail in certain processes, leading to performing the verification task by a human expert. This work provides a joint evaluation and in-depth analyses of the face verification performance of human experts in comparison to state-of-the-art automatic face recognition solutions. This involves an extensive evaluation with 12 human experts and 4 automatic recognition solutions. The study concludes with a set of take-home-messages on different aspects of the correlation between the verification behavior of human and machine.
翻訳日:2021-03-03 16:01:36 公開日:2021-03-02
# 効率的なニューラルレンダリングのためのボリュームプリミティブの混合

Mixture of Volumetric Primitives for Efficient Neural Rendering ( http://arxiv.org/abs/2103.01954v1 )

ライセンス: Link先を確認
Stephen Lombardi, Tomas Simon, Gabriel Schwartz, Michael Zollhoefer, Yaser Sheikh, Jason Saragih(参考訳) 人間のリアルタイムレンダリングとアニメーションは、ゲーム、映画、テレプレゼンスアプリケーションにおいてコア機能である。 既存の方法には、私たちの仕事で対処しようとする多くの欠点があります。 トライアングルメッシュは、ヘアのような薄い構造をモデル化するのが困難であり、ニューラルネットワークボリュームのようなボリューム表現は、適切なメモリ予算を考えると解像度が低く、ニューラルネットワークの放射フィールドのような高分解能の暗黙表現は、リアルタイムアプリケーションで使用するには遅すぎる。 本稿では,ボリューム表現の完全性と,ポイントベースやメッシュベースといったプリミティブベースのレンダリング効率を組み合わせた動的3dコンテンツのレンダリングのための表現であるボリュームプリミティブ(mvp)の混合について述べる。 提案手法は,空間的に共有された計算をデコンボリューションアーキテクチャで利用し,空間の空き領域における計算を,占有領域のみをカバーできる体積プリミティブで最小化する。 パラメータ化は対応制約と追跡制約の統合をサポートし、また、薄いあるいは半透明な構造や大きなトポロジカル変数を持つ領域など、古典的な追跡が失敗する領域に対して堅牢である。 MVPは、ボリュームとプリミティブベースの表現の両方を一般化するハイブリッドです。 一連の広範な実験を通じて、我々はそれがそれらの制限の多くを避けながら、各々の強みを継承することを実証します。 我々はまた、私たちのアプローチを最先端のいくつかのメソッドと比較し、MVPが品質と実行時のパフォーマンスの点で優れた結果をもたらすことを示す。

Real-time rendering and animation of humans is a core function in games, movies, and telepresence applications. Existing methods have a number of drawbacks we aim to address with our work. Triangle meshes have difficulty modeling thin structures like hair, volumetric representations like Neural Volumes are too low-resolution given a reasonable memory budget, and high-resolution implicit representations like Neural Radiance Fields are too slow for use in real-time applications. We present Mixture of Volumetric Primitives (MVP), a representation for rendering dynamic 3D content that combines the completeness of volumetric representations with the efficiency of primitive-based rendering, e.g., point-based or mesh-based methods. Our approach achieves this by leveraging spatially shared computation with a deconvolutional architecture and by minimizing computation in empty regions of space with volumetric primitives that can move to cover only occupied regions. Our parameterization supports the integration of correspondence and tracking constraints, while being robust to areas where classical tracking fails, such as around thin or translucent structures and areas with large topological variability. MVP is a hybrid that generalizes both volumetric and primitive-based representations. Through a series of extensive experiments we demonstrate that it inherits the strengths of each, while avoiding many of their limitations. We also compare our approach to several state-of-the-art methods and demonstrate that MVP produces superior results in terms of quality and runtime performance.
翻訳日:2021-03-03 16:01:23 公開日:2021-03-02
# DeepReDuce: 高速プライベート推論のためのReLU削減

DeepReDuce: ReLU Reduction for Fast Private Inference ( http://arxiv.org/abs/2103.01396v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Zahra Ghodsi, Siddharth Garg, Brandon Reagen(参考訳) 最近のプライバシーの懸念の高まりにより、研究者はプライベートなニューラルネットワーク推論の手法を考案しました。 プライベート推論に直面する主な課題は、暗号化されたデータに対する計算が非現実的に高いレイテンシのペナルティを課すことである。 実用的でプライベートな推論を可能にするには、精度を維持しながらネットワークリルーカウントを最小化する新しい最適化手法が必要である。 本稿では,プライベートな推論遅延を低減するために,ReLUを不正に除去するための最適化セットであるDeepReDuceを提案する。 重要な洞察は、すべてのReLUが正確性に等しく貢献するわけではないことである。 この洞察を利用して、古典的なネットワークからReLUをドロップまたは削除し、推論遅延を大幅に低減し、高い精度を維持する。 DeepReDuceは、ターゲットネットワークを指定し、ReLUの数と精度をトレードオフするネットワークのParetoフロンティアを出力します。 プライベート推論のための最先端のDeepReDuceと比較して、精度が向上し、ReLUカウントを最大3.5%(iso-ReLUカウント)と3.5$\times$(iso-accuracy)に削減します。

The recent rise of privacy concerns has led researchers to devise methods for private neural inference -- where inferences are made directly on encrypted data, never seeing inputs. The primary challenge facing private inference is that computing on encrypted data levies an impractically-high latency penalty, stemming mostly from non-linear operators like ReLU. Enabling practical and private inference requires new optimization methods that minimize network ReLU counts while preserving accuracy. This paper proposes DeepReDuce: a set of optimizations for the judicious removal of ReLUs to reduce private inference latency. The key insight is that not all ReLUs contribute equally to accuracy. We leverage this insight to drop, or remove, ReLUs from classic networks to significantly reduce inference latency and maintain high accuracy. Given a target network, DeepReDuce outputs a Pareto frontier of networks that tradeoff the number of ReLUs and accuracy. Compared to the state-of-the-art for private inference DeepReDuce improves accuracy and reduces ReLU count by up to 3.5% (iso-ReLU count) and 3.5$\times$ (iso-accuracy), respectively.
翻訳日:2021-03-03 15:52:36 公開日:2021-03-02
# 木質構造を有する複合広告クリエイティブの効率的な最適選定

Efficient Optimal Selection for Composited Advertising Creatives with Tree Structure ( http://arxiv.org/abs/2103.01453v1 )

ライセンス: Link先を確認
Jin Chen, Tiezheng Ge, Gangwei Jiang, Zhiqiang Zhang, Defu Lian, Kai Zheng(参考訳) 広告クリエイティビティはオンラインeコマース広告の著名な媒体の1つだ。 視覚的に楽しめる広告クリエイティビティは、製品のクリックスルーレート(CTR)を増加させる可能性がある。 広告クリエイティブは通常、広告主によって手作りされ、広告プラットフォームに配信される。 近年、広告プラットフォームは、各要素の任意に指定された要素を広告クリエイティビティに即時に組み込むことができるため、広告主は基本資料の提供しか必要としない。 広告主をファシリテートしながら、多くの潜在的な広告クリエイティブをコンポジットすることができ、限られたリアルタイムフィードバックでCTRを正確に推定することは困難です。 そこで本研究では,木構造に基づく適応的で効率的なアドクリエイティブ選択(AES)フレームワークを提案する。 合成材料上の木構造は、CTRに基づく効率的な広告創造的選択のための動的プログラミングを可能にする。 限られたフィードバックのため、CTR推定器は通常高いばらつきを持つ。 トンプソンサンプリングに基づく探索手法は、CTR推定器のばらつきを低減し、フィードバック間隔を緩和するために広く用いられている。 ツリー構造に基づいて、トンプソンサンプリングは動的プログラミングに適応され、最大のCTRを持つ潜在的な広告クリエイティブの効率的な探索につながります。 最後に,提案アルゴリズムを合成データセットと実世界のデータセットで評価する。 その結果, コンバージェンス率とCTR全体の比較では, 競合するベースラインよりも優れていることがわかった。

Ad creatives are one of the prominent mediums for online e-commerce advertisements. Ad creatives with enjoyable visual appearance may increase the click-through rate (CTR) of products. Ad creatives are typically handcrafted by advertisers and then delivered to the advertising platforms for advertisement. In recent years, advertising platforms are capable of instantly compositing ad creatives with arbitrarily designated elements of each ingredient, so advertisers are only required to provide basic materials. While facilitating the advertisers, a great number of potential ad creatives can be composited, making it difficult to accurately estimate CTR for them given limited real-time feedback. To this end, we propose an Adaptive and Efficient ad creative Selection (AES) framework based on a tree structure. The tree structure on compositing ingredients enables dynamic programming for efficient ad creative selection on the basis of CTR. Due to limited feedback, the CTR estimator is usually of high variance. Exploration techniques based on Thompson sampling are widely used for reducing variances of the CTR estimator, alleviating feedback sparsity. Based on the tree structure, Thompson sampling is adapted with dynamic programming, leading to efficient exploration for potential ad creatives with the largest CTR. We finally evaluate the proposed algorithm on the synthetic dataset and the real-world dataset. The results show that our approach can outperform competing baselines in terms of convergence rate and overall CTR.
翻訳日:2021-03-03 15:52:15 公開日:2021-03-02
# エンコーダデコーダに基づく深畳み込みニューラルネットワークを用いたグリッド温度予測の統計的後処理

Statistical Post-processing for Gridded Temperature Forecasts Using Encoder-Decoder Based Deep Convolutional Neural Networks ( http://arxiv.org/abs/2103.01479v1 )

ライセンス: Link先を確認
Atsushi Kudo(参考訳) 日本気象庁(JMA)は,表層温度の影響を受けやすいため,積雪量や降水量を予測するための格子状温度誘導を運用している。 操作温度誘導はカルマンフィルタ法に基づいており,観測地点でのみ温度観測とNWP出力を用いるが,NWPモデルが前線の位置を正確に予測しなかったり,観測温度が極端に寒かったり,高温であったりする場合には温度場を補正することは困難である。 本稿では, 関東地方の表面の格子温度を予測するために, エンコーダデコーダ型畳み込みニューラルネットワーク(cnns)を用いた。 評価の結果,提案手法は操作指針を大幅に改善し,前線の位置誤差や極温度などのNWPモデルのバイアスを補正できることがわかった。

Japan Meteorological Agency (JMA) has been operating gridded temperature guidance for predicting snow amount and precipitation type because those elements are susceptible to a temperature at the surface. The operational temperature guidance is based on the Kalman filter technique and uses temperature observation and NWP outputs only at observation sites; it has been difficult to correct a temperature field when NWP models did not predict the location of a front correctly or when the observed temperature was extremely cold or hot. In the present paper, encoder-decoder-based convolutional neural networks (CNNs) were employed to predict gridded temperatures at the surface around the Kanto district. The verification results showed that the proposed method improves operational guidance significantly and can correct NWP model biases, including a positional error of fronts and extreme temperatures.
翻訳日:2021-03-03 15:51:56 公開日:2021-03-02
# マインドマッピング: 効率的なアルゴリズムアクセラレータマッピング空間検索の実現

Mind Mappings: Enabling Efficient Algorithm-Accelerator Mapping Space Search ( http://arxiv.org/abs/2103.01489v1 )

ライセンス: Link先を確認
Kartik Hegde, Po-An Tsai, Sitao Huang, Vikas Chandra, Angshuman Parashar, and Christopher W. Fletcher(参考訳) 現代のコンピューティングは、増大する性能と効率の要求を満たすために、ますます専門化に依存している。 このような特殊なハードウェアアーキテクチャを設計する上でのコアとなる課題は、マッピング空間探索、すなわちアルゴリズムからハードウェアへの最適なマッピングの探索方法である。 以前の研究によると、非効率なマッピングを選択すると、乗算係数の効率のオーバーヘッドが生じる可能性がある。 さらに、検索空間は大きいだけでなく、高度な検索テクニックを前もって非凸かつ非平滑である。 その結果、従来の研究は、専門家の選択や準最適探索ヒューリスティックを用いて、マッピング空間探索を実装することを余儀なくされた。 本研究では,アルゴリズムアクセラレータマッピング空間探索のための新しい勾配に基づく探索手法であるマインドマッピングを提案する。 鍵となるアイデアは、滑らかで微分可能な近似を非滑らかで凸でない探索空間に導出することである。 滑らかで微分可能な近似により、効率的な勾配に基づく探索アルゴリズムを利用して高品質なマッピングを見つけることができる。 我々は、マインドマッピングを事前作業で使用されるブラックボックス最適化スキームと比較する。 2つの重要なワークロード(CNNとMTTKRP)のマッピングを見つけるために、提案された検索は、平均$1.40\times$、$1.76\times$、$1.29\times$(一定数のステップで実行される場合)と$3.16\times$、$4.19\times$、および$2.90\times$(一定の時間で実行される場合)シミュレートアニーリング、遺伝的アルゴリズムおよび強化学習と比較してより良いエネルギー遅延製品(EDP)を達成するマッピングを見つける。 一方、マインドマッピングは理論上の下界よりも高い5.32\times$5.32\timesのマッピングを返す。

Modern day computing increasingly relies on specialization to satiate growing performance and efficiency requirements. A core challenge in designing such specialized hardware architectures is how to perform mapping space search, i.e., search for an optimal mapping from algorithm to hardware. Prior work shows that choosing an inefficient mapping can lead to multiplicative-factor efficiency overheads. Additionally, the search space is not only large but also non-convex and non-smooth, precluding advanced search techniques. As a result, previous works are forced to implement mapping space search using expert choices or sub-optimal search heuristics. This work proposes Mind Mappings, a novel gradient-based search method for algorithm-accelerator mapping space search. The key idea is to derive a smooth, differentiable approximation to the otherwise non-smooth, non-convex search space. With a smooth, differentiable approximation, we can leverage efficient gradient-based search algorithms to find high-quality mappings. We extensively compare Mind Mappings to black-box optimization schemes used in prior work. When tasked to find mappings for two important workloads (CNN and MTTKRP), the proposed search finds mappings that achieve an average $1.40\times$, $1.76\times$, and $1.29\times$ (when run for a fixed number of steps) and $3.16\times$, $4.19\times$, and $2.90\times$ (when run for a fixed amount of time) better energy-delay product (EDP) relative to Simulated Annealing, Genetic Algorithms and Reinforcement Learning, respectively. Meanwhile, Mind Mappings returns mappings with only $5.32\times$ higher EDP than a possibly unachievable theoretical lower-bound, indicating proximity to the global optima.
翻訳日:2021-03-03 15:51:39 公開日:2021-03-02
# activeguard:adversarial exampleによるアクティブなdnn ip保護技術

ActiveGuard: An Active DNN IP Protection Technique via Adversarial Examples ( http://arxiv.org/abs/2103.01527v1 )

ライセンス: Link先を確認
Mingfu Xue, Shichang Sun, Can He, Yushu Zhang, Jian Wang, Weiqiang Liu(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは高価であるため、DNNはモデル所有者の知的財産(IP)と見なすことができます。 これまで、既存の保護作業のほとんどは、DNNモデルが盗まれた後に所有権を検証することに重点を置いています。 そこで本研究では,DNN海賊行為に対する敵例に基づくアクティブなDNNIP保護手法であるActiveGuardを提案する。 ActiveGuardは、敵の例を通じて認証制御とユーザの指紋管理を実現し、オーナシップの検証を提供する。 具体的には、activeguardは、認証されたユーザーと不正なユーザーを区別するユーザーの指紋として、複雑な敵の例を利用する。 認証認証や認証使用のためにDNNに指紋を入力できるが、認証されていないユーザは、追加のコントロール層により、モデルのパフォーマンスが低下する。 さらに、ActiveGuardはモデル所有者がDNNの重みに透かしを埋め込むことを可能にする。 dnnが違法に海賊化されると、モデルオーナーは埋め込み透かしを抽出し、所有権確認を行うことができる。 実験の結果,LeNet-5 と Wide Residual Network (WRN) の試験精度はそれぞれ 99.15% と 91.46% であり,未承認のユーザでは2つの DNN の試験精度は 8.92% (LeNet-5) と 10% (WRN) であることがわかった。 さらに、認証された各ユーザは、高い成功率(最大100%)で指紋認証をパスすることができる。 オーナシップ検証では,DNNモデルの通常の性能には影響しないが,組込み透かしをうまく抽出することができる。 さらに、ActiveGuardは指紋偽造攻撃、モデル微調整攻撃、プルーニング攻撃に対して堅牢であることが示されている。

The training of Deep Neural Networks (DNN) is costly, thus DNN can be considered as the intellectual properties (IP) of model owners. To date, most of the existing protection works focus on verifying the ownership after the DNN model is stolen, which cannot resist piracy in advance. To this end, we propose an active DNN IP protection method based on adversarial examples against DNN piracy, named ActiveGuard. ActiveGuard aims to achieve authorization control and users' fingerprints management through adversarial examples, and can provide ownership verification. Specifically, ActiveGuard exploits the elaborate adversarial examples as users' fingerprints to distinguish authorized users from unauthorized users. Legitimate users can enter fingerprints into DNN for identity authentication and authorized usage, while unauthorized users will obtain poor model performance due to an additional control layer. In addition, ActiveGuard enables the model owner to embed a watermark into the weights of DNN. When the DNN is illegally pirated, the model owner can extract the embedded watermark and perform ownership verification. Experimental results show that, for authorized users, the test accuracy of LeNet-5 and Wide Residual Network (WRN) models are 99.15% and 91.46%, respectively, while for unauthorized users, the test accuracy of the two DNNs are only 8.92% (LeNet-5) and 10% (WRN), respectively. Besides, each authorized user can pass the fingerprint authentication with a high success rate (up to 100%). For ownership verification, the embedded watermark can be successfully extracted, while the normal performance of the DNN model will not be affected. Further, ActiveGuard is demonstrated to be robust against fingerprint forgery attack, model fine-tuning attack and pruning attack.
翻訳日:2021-03-03 15:50:59 公開日:2021-03-02
# 気を付けて! 物性推定のための人の動きの観察

Careful with That! Observation of Human Movements to Estimate Objects Properties ( http://arxiv.org/abs/2103.01555v1 )

ライセンス: Link先を確認
Linda Lastrico, Alessandro Carf\`i, Alessia Vignolo, Alessandra Sciutti, Fulvio Mastrogiovanni and Francesco Rea(参考訳) 人間はパートナーの動きの微妙な特性を解釈し、このスキルを使用してスムーズな相互作用を促進するのに非常に効果的です。 したがって、人間の活動を支援するロボットプラットフォームは、同様の能力を得る必要がある。 この研究では、物体の重さとその操作に必要な注意力についての洞察を伝える人間の運動行動の特徴に焦点を当てた。 最終目標は、ロボットがオブジェクトハンドリングに必要なケアの度合いを自律的に推測し、人間の操作を観察するだけで、そのアイテムが軽いか重いかを識別できるようにすることです。 この予備研究は、カメラでシーンを観察するロボットにこれらの能力を実装するための有望なステップである。 実際、ロボットカメラやモーションキャプチャシステムからの視覚的取得のストリームに依存する機械学習アルゴリズムを通じて、オブジェクトを処理する際に人間のオペレータが慎重であるかどうかを確実に控除できることを実証しました。 一方,光と重物体を区別するには同じアプローチが不十分であることがわかった。

Humans are very effective at interpreting subtle properties of the partner's movement and use this skill to promote smooth interactions. Therefore, robotic platforms that support human partners in daily activities should acquire similar abilities. In this work we focused on the features of human motor actions that communicate insights on the weight of an object and the carefulness required in its manipulation. Our final goal is to enable a robot to autonomously infer the degree of care required in object handling and to discriminate whether the item is light or heavy, just by observing a human manipulation. This preliminary study represents a promising step towards the implementation of those abilities on a robot observing the scene with its camera. Indeed, we succeeded in demonstrating that it is possible to reliably deduct if the human operator is careful when handling an object, through machine learning algorithms relying on the stream of visual acquisition from either a robot camera or from a motion capture system. On the other hand, we observed that the same approach is inadequate to discriminate between light and heavy objects.
翻訳日:2021-03-03 15:50:28 公開日:2021-03-02
# 企業システムにおけるログ配置勧告の探索的研究

An Exploratory Study of Log Placement Recommendation in an Enterprise System ( http://arxiv.org/abs/2103.01755v1 )

ライセンス: Link先を確認
Jeanderson C\^andido, Jan Haesen, Maur\'icio Aniche, Arie van Deursen(参考訳) ロギングは複雑なシステムの運用と監視において重要な役割を果たす開発プラクティスである。 開発者は、ログステートメントをソースコードに置き、ログデータを使用して、システムが本番環境でどのように振る舞うかを理解する。 残念ながら、開発中のログの場所を期待することは難しい。 これまでの研究では、ログはコードベース全体のごく一部であるため、データの不均衡にもかかわらず、機械学習を活用してログ配置を推奨する可能性を示している。 しかし、これらの技術が業界にどのように当てはまるのかは不明であり、不均衡なデータやサンプリング技術の影響についてはほとんど知られていない。 本稿では,大規模決済企業であるAdyenのコードベースにおけるログ配置問題について検討する。 2M SLOCを合計する34,526のJavaファイルと309,527のメソッドを分析します。 コードメトリクスに基づく5つのモデルの有効性を体系的に評価し、サンプリング手法の効果を調査し、どのモデルが予測に関連があると考えられるかを理解し、29のApacheプロジェクトから388,086のメソッドを活用でき、業界環境でログの場所を学べるかどうかを評価する。 当社の最高の性能モデルは、バランスの取れた精度の79%、精度の81%、リコールの60%を実現します。 サンプリング技術はリコールを改善する一方で、精度を制限されたコストで罰する。 オープンソースデータを用いた実験は、Adyenのテストセットよりも性能の低いモデルが得られるが、偽陽性率の低いため有用である。 当社のサポートスクリプトとツールは、コミュニティで利用可能です。

Logging is a development practice that plays an important role in the operations and monitoring of complex systems. Developers place log statements in the source code and use log data to understand how the system behaves in production. Unfortunately, anticipating where to log during development is challenging. Previous studies show the feasibility of leveraging machine learning to recommend log placement despite the data imbalance since logging is a fraction of the overall code base. However, it remains unknown how those techniques apply to an industry setting, and little is known about the effect of imbalanced data and sampling techniques. In this paper, we study the log placement problem in the code base of Adyen, a large-scale payment company. We analyze 34,526 Java files and 309,527 methods that sum up +2M SLOC. We systematically measure the effectiveness of five models based on code metrics, explore the effect of sampling techniques, understand which features models consider to be relevant for the prediction, and evaluate whether we can exploit 388,086 methods from 29 Apache projects to learn where to log in an industry setting. Our best performing model achieves 79% of balanced accuracy, 81% of precision, 60% of recall. While sampling techniques improve recall, they penalize precision at a prohibitive cost. Experiments with open-source data yield under-performing models over Adyen's test set; nevertheless, they are useful due to their low rate of false positives. Our supporting scripts and tools are available to the community.
翻訳日:2021-03-03 15:50:13 公開日:2021-03-02
# スケジュール付きeMBBトラフィックを用いたURLLCデータ管理のための深層強化学習

Deep Reinforcement Learning for URLLC data management on top of scheduled eMBB traffic ( http://arxiv.org/abs/2103.01801v1 )

ライセンス: Link先を確認
Fabio Saggese, Luca Pasqualini, Marco Moretti, and Andrea Abrardo(参考訳) 5Gの出現と5G(B5G)ネットワークを超えての研究により、新しい非常に関連性の高い研究課題は、異なる種類のトラフィックの共存を管理する方法です。 本稿では,高信頼低遅延通信 (URLLC) と拡張モバイルブロードバンド (eMBB) トラフィック間で利用可能な物理層資源をスライスする深層強化学習 (DRL) アルゴリズムを提案する。 具体的には、時間周波数リソースグリッドをeMBBトラフィックで完全に占有し、最新のDRLアルゴリズムである近位ポリシー最適化(PPO)を採用するようDRLエージェントを訓練し、eMBBコードワードを句読して着信URLLCトラフィックを動的に割り当てます。 各eMBBコードワードが停止している以上の一定の限られた量の句読点を許容できると仮定すると、DRLエージェントによって考案されたポリシーがURLLCトラフィックのレイテンシ要件に違反しないことを示し、同時に、他の最先端のスキームと比較して、eMBBコードワードの数を最小限のレベルで停止に保つことを管理しています。

With the advent of 5G and the research into beyond 5G (B5G) networks, a novel and very relevant research issue is how to manage the coexistence of different types of traffic, each with very stringent but completely different requirements. In this paper we propose a deep reinforcement learning (DRL) algorithm to slice the available physical layer resources between ultra-reliable low-latency communications (URLLC) and enhanced Mobile BroadBand (eMBB) traffic. Specifically, in our setting the time-frequency resource grid is fully occupied by eMBB traffic and we train the DRL agent to employ proximal policy optimization (PPO), a state-of-the-art DRL algorithm, to dynamically allocate the incoming URLLC traffic by puncturing eMBB codewords. Assuming that each eMBB codeword can tolerate a certain limited amount of puncturing beyond which is in outage, we show that the policy devised by the DRL agent never violates the latency requirement of URLLC traffic and, at the same time, manages to keep the number of eMBB codewords in outage at minimum levels, when compared to other state-of-the-art schemes.
翻訳日:2021-03-03 15:49:49 公開日:2021-03-02
# 中間最適治療レジム

Median Optimal Treatment Regimes ( http://arxiv.org/abs/2103.01802v1 )

ライセンス: Link先を確認
Liu Leqi, Edward H. Kennedy(参考訳) 最適な治療体制は、対象特性に基づいて治療決定を行うためのパーソナライズされたポリシーであり、ある価値を最大化するポリシーが選択される。 治療において平均的な結果が治療対統制において高い者に対してのみ治療を割り当てる体制を通じて、人口の平均的な結果の最大化を目指すのが一般的である。 しかし、平均は不安定な集中度尺度であり、不正確な統計手続きと少数の被験者に過度に影響される不公平な決定をもたらす可能性がある。 そこで本研究では, 条件中央値が高い患者を治療対象として, 適切な治療体制を新たに提案する。 これにより、同じグループの個人に対する最適な決定は、(i)グループのごく一部(平均基準とは違って)または(ii)異なるグループの無関係な被験者(限界中央値/量子的基準とは違って)によって過度に影響されない。 本稿では,政策の全体的中央値処理結果と最適な中央値処理体制の最大化をまとめた,新たな評価尺度であるACME(Average Conditional Median Effect)を導入する。 平均的および限界的最適治療体制と中間的最適治療体制を区別する重要な動機づけ例を開発した後、政策のACMEを推定するための非パラメトリックな効率性を与え、弱条件下での効率性を実現する新しい二重堅牢型推定器を提案する。 数値シミュレーションにより推定器の有限サンプル特性を考察し, hiv患者に対するランダム化臨床試験から得られたデータを用いて, 提案アルゴリズムを示した。

Optimal treatment regimes are personalized policies for making a treatment decision based on subject characteristics, with the policy chosen to maximize some value. It is common to aim to maximize the mean outcome in the population, via a regime assigning treatment only to those whose mean outcome is higher under treatment versus control. However, the mean can be an unstable measure of centrality, resulting in imprecise statistical procedures, as well as unfair decisions that can be overly influenced by a small fraction of subjects. In this work, we propose a new median optimal treatment regime that instead treats individuals whose conditional median is higher under treatment. This ensures that optimal decisions for individuals from the same group are not overly influenced either by (i) a small fraction of the group (unlike the mean criterion), or (ii) unrelated subjects from different groups (unlike marginal median/quantile criteria). We introduce a new measure of value, the Average Conditional Median Effect (ACME), which summarizes across-group median treatment outcomes of a policy, and which the optimal median treatment regime maximizes. After developing key motivating examples that distinguish median optimal treatment regimes from mean and marginal median optimal treatment regimes, we give a nonparametric efficiency bound for estimating the ACME of a policy, and propose a new doubly robust-style estimator that achieves the efficiency bound under weak conditions. Finite-sample properties of the estimator are explored via numerical simulations and the proposed algorithm is illustrated using data from a randomized clinical trial in patients with HIV.
翻訳日:2021-03-03 15:49:26 公開日:2021-03-02
# 学習に基づく資源制約型移動ロボットの超広帯域位置推定時間差のバイアス補正

Learning-based Bias Correction for Time Difference of Arrival Ultra-wideband Localization of Resource-constrained Mobile Robots ( http://arxiv.org/abs/2103.01885v1 )

ライセンス: Link先を確認
Wenda Zhao, Jacopo Panerati, Angela P. Schoellig (University of Toronto Institute for Aerospace Studies, Vector Institute for Artificial Intelligence)(参考訳) 正確な屋内ローカライゼーションは、倉庫管理から監視タスクまで、多くのロボティクスアプリケーションにとって重要な技術である。 ultra-wideband (uwb) time difference of arrival (tdoa)ベースのローカライゼーションは、多くのデバイスにスケール可能な軽量で低コストなソリューションであり、特にリソースに制約のあるマルチロボットアプリケーションに適している。 しかし、標準の商用UWB無線のローカライゼーション精度は、しばしば測定バイアスと外れ値のために不十分である。 本稿では,(i)学習に基づくバイアス補正と(ii)M推定に基づくロバストフィルタを併用して,アウトレーヤの処理を行う,ロバストなUWB TDOAローカライゼーションフレームワークを提案する。 提案手法の主な特徴は, 学習バイアスが異なるUWBアンカーのセットアップに一般化され, (ii) 資源制約ハードウェア上での動作に十分な計算効率が得られたことである。 Crazyflieナノクワッドコプターのアプローチを実証します。 実験の結果, 提案手法は, imu と uwb にのみ依存しており, バイアス補償のないベースラインアプローチと比較して, 平均42.08パーセントのローカライズ誤差 (3つの異なるアンカー設定) を低減できることがわかった。 また、UWB TDOAローカライゼーション手法を用いて、クワッドコプター上での自律軌道追跡も行う。

Accurate indoor localization is a crucial enabling technology for many robotics applications, from warehouse management to monitoring tasks. Ultra-wideband (UWB) time difference of arrival (TDOA)-based localization is a promising lightweight, low-cost solution that can scale to a large number of devices -- making it especially suited for resource-constrained multi-robot applications. However, the localization accuracy of standard, commercially available UWB radios is often insufficient due to significant measurement bias and outliers. In this letter, we address these issues by proposing a robust UWB TDOA localization framework comprising of (i) learning-based bias correction and (ii) M-estimation-based robust filtering to handle outliers. The key properties of our approach are that (i) the learned biases generalize to different UWB anchor setups and (ii) the approach is computationally efficient enough to run on resource-constrained hardware. We demonstrate our approach on a Crazyflie nano-quadcopter. Experimental results show that the proposed localization framework, relying only on the onboard IMU and UWB, provides an average of 42.08 percent localization error reduction (in three different anchor setups) compared to the baseline approach without bias compensation. {We also show autonomous trajectory tracking on a quadcopter using our UWB TDOA localization approach.}
翻訳日:2021-03-03 15:48:56 公開日:2021-03-02
# グラディエント学習のカテゴリー的基礎

Categorical Foundations of Gradient-Based Learning ( http://arxiv.org/abs/2103.01931v1 )

ライセンス: Link先を確認
G.S.H. Cruttwell, Bruno Gavranovi\'c, Neil Ghani, Paul Wilson, Fabio Zanasi(参考訳) 本稿では,レンズ,パラメータマップ,逆微分カテゴリの観点から,勾配に基づく機械学習アルゴリズムの分類的基礎を提案する。 この基盤は強力な説明と統一の枠組みを提供しており、ADAM、AdaGrad、Nesterov運動量などの様々な勾配降下アルゴリズムと、MSEやSoftmaxのクロスエントロピーのような様々な損失関数を包含し、それらの類似点と相違点に新たな光を当てている。 また,このアプローチでは,(滑らかな写像のカテゴリでモデル化された)ニューラルネットワークを超えて一般化し,ブール回路などの勾配ベースの学習に関連する他の構造を説明する。 最後に,Pythonにおける勾配に基づく学習の新たな実装も開発し,フレームワークが導入した原則を取り入れた。

We propose a categorical foundation of gradient-based machine learning algorithms in terms of lenses, parametrised maps, and reverse derivative categories. This foundation provides a powerful explanatory and unifying framework: it encompasses a variety of gradient descent algorithms such as ADAM, AdaGrad, and Nesterov momentum, as well as a variety of loss functions such as as MSE and Softmax cross-entropy, shedding new light on their similarities and differences. Our approach also generalises beyond neural networks (modelled in categories of smooth maps), accounting for other structures relevant to gradient-based learning such as boolean circuits. Finally, we also develop a novel implementation of gradient-based learning in Python, informed by the principles introduced by our framework.
翻訳日:2021-03-03 15:48:28 公開日:2021-03-02
# データ分布シフトによるモデルの局所予測不確実性を定量化するカーネルフレームワーク

A Kernel Framework to Quantify a Model's Local Predictive Uncertainty under Data Distributional Shifts ( http://arxiv.org/abs/2103.01374v1 )

ライセンス: Link先を確認
Rishabh Singh and Jose C. Principe(参考訳) モデル不確実性の定量化のための従来のベイズアプローチは、各ネットワークパラメータ上の境界化の悪名高い困難なプロセスに依存して、その確率密度関数を推定する(PDF)。 我々の仮説は、トレーニングされたニューラルネットワークの内部層出力は、そのマッピング機能(重みによって定量化される)と入力データ分布の両方に関連する全ての情報を含んでいるということである。 そこで本研究では,ガウス再生カーネルヒルベルト空間(RKHS)において,生予測空間(活性化前),p(y'|x,w)のPDFをモデルPDFとして明示的に推定する訓練ニューラルネットワークの予測不確実性定量のためのフレームワークを提案する。 ガウス RKHS は p(y'|x,w) の局所密度推定を提供しており、これによりさらに、グラデーションに基づく量子物理学の定式化を利用して、複数の局所不確実性モーメントの観点からモデル PDF を分解することができる。 これにより、フレームワークは、モデルによって学習されたトレーニングデータPDFからテストデータの分散シフトを検出することができる。 既存の不確実性の定量化手法に対するフレームワークを, 一般的な摂動法を用いて破損したベンチマークデータセット上で評価する。 カーネルフレームワークは、モデル予測エラーを検出する能力に基づいて、はるかに精度の高いモデル不確実性推定を提供する。

Traditional Bayesian approaches for model uncertainty quantification rely on notoriously difficult processes of marginalization over each network parameter to estimate its probability density function (PDF). Our hypothesis is that internal layer outputs of a trained neural network contain all of the information related to both its mapping function (quantified by its weights) as well as the input data distribution. We therefore propose a framework for predictive uncertainty quantification of a trained neural network that explicitly estimates the PDF of its raw prediction space (before activation), p(y'|x,w), which we refer to as the model PDF, in a Gaussian reproducing kernel Hilbert space (RKHS). The Gaussian RKHS provides a localized density estimate of p(y'|x,w), which further enables us to utilize gradient based formulations of quantum physics to decompose the model PDF in terms of multiple local uncertainty moments that provide much greater resolution of the PDF than the central moments characterized by Bayesian methods. This provides the framework with a better ability to detect distributional shifts in test data away from the training data PDF learned by the model. We evaluate the framework against existing uncertainty quantification methods on benchmark datasets that have been corrupted using common perturbation techniques. The kernel framework is observed to provide model uncertainty estimates with much greater precision based on the ability to detect model prediction errors.
翻訳日:2021-03-03 15:43:18 公開日:2021-03-02
# 非同期フェデレーション学習のための無線ネットワークにおける適応伝送スケジューリング

Adaptive Transmission Scheduling in Wireless Networks for Asynchronous Federated Learning ( http://arxiv.org/abs/2103.01422v1 )

ライセンス: Link先を確認
Hyun-Suk Lee, Jang-Won Lee(参考訳) 本稿では,無線分散学習ネットワーク(WDLN)における非同期フェデレーション学習(FL)について検討する。 各エッジ装置が非同期FLを介してローカルデータをより効率的に利用できるようにするため、WDLNにおける非同期FLの送信スケジューリングは、時間変化チャネルや確率データ到着などのシステム不確実性や、WDLN内の無線リソースの不足を考慮して慎重に決定する必要がある。 そこで本研究では,非同期FLからの学習量を表す効果スコアという指標を提案する。 そこで, Asynchronous Learning-aware transmission Scheduling (ALS) 問題を定式化し, 効果スコアを最大化し, ALSA-PI, BALSA, BALSA-PO という3つのALSアルゴリズムを開発し, それを解いた。 不確実性に関する統計的情報が分かっていれば、ALSA-PIによって最適かつ効率的に解ける。 たとえそうでなくても、デバイスから報告された状態情報を用いてベイズ的アプローチに基づいて不確実性を学ぶBALSAによって、最適に解ける。 BALSA-POはこの問題を解決するが、実際にはより制限されたWDLNに対処し、APはBALSAで使用される情報と比較して限られた状態情報を観察することができる。 ALSアルゴリズムによって訓練されたモデルが、理想的なベンチマークによりそれに近い性能を達成し、モデル精度、トレーニング損失、学習速度、学習の堅牢性の観点から、他の最先端のベースラインスケジューリングアルゴリズムよりも優れていることを示す。 これらの結果は,alsアルゴリズムの適応スケジューリング戦略が非同期flに有効であることを示す。

In this paper, we study asynchronous federated learning (FL) in a wireless distributed learning network (WDLN). To allow each edge device to use its local data more efficiently via asynchronous FL, transmission scheduling in the WDLN for asynchronous FL should be carefully determined considering system uncertainties, such as time-varying channel and stochastic data arrivals, and the scarce radio resources in the WDLN. To address this, we propose a metric, called an effectivity score, which represents the amount of learning from asynchronous FL. We then formulate an Asynchronous Learning-aware transmission Scheduling (ALS) problem to maximize the effectivity score and develop three ALS algorithms, called ALSA-PI, BALSA, and BALSA-PO, to solve it. If the statistical information about the uncertainties is known, the problem can be optimally and efficiently solved by ALSA-PI. Even if not, it can be still optimally solved by BALSA that learns the uncertainties based on a Bayesian approach using the state information reported from devices. BALSA-PO suboptimally solves the problem, but it addresses a more restrictive WDLN in practice, where the AP can observe a limited state information compared with the information used in BALSA. We show via simulations that the models trained by our ALS algorithms achieve performances close to that by an ideal benchmark and outperform those by other state-of-the-art baseline scheduling algorithms in terms of model accuracy, training loss, learning speed, and robustness of learning. These results demonstrate that the adaptive scheduling strategy in our ALS algorithms is effective to asynchronous FL.
翻訳日:2021-03-03 15:42:50 公開日:2021-03-02
# ZeroSARAH:ゼロフルグラデーション計算による効率的な非凸有限数最適化

ZeroSARAH: Efficient Nonconvex Finite-Sum Optimization with Zero Full Gradient Computation ( http://arxiv.org/abs/2103.01447v1 )

ライセンス: Link先を確認
Zhize Li, Peter Richt\'arik(参考訳) 本稿では,多数の非凸関数 $\frac{1}{n}\sum_{i=1}^{n}f_i(x)$ の平均を最小化するために,分散還元法 SARAH (Nguyen et al., 2017) の新しい変種である ZeroSARAH を提案する。 我々の知る限り、この非凸有限サム法では、SARAH, SVRG, SAGA およびそれらの変種を含む既存の分散還元法は、初期点 $x^0$ ですべての$n$のデータサンプルの完全な勾配を計算し、数回の繰り返し(SVRG, SARAH およびそれらの変種)で周期的に全勾配を計算する必要がある。 さらに、SVRG、SAGAおよびそれらの変種は通常、SARAHの変種よりも弱い収束結果が得られる: $n^{2/3}/\epsilon^2$ vs. $n^{1/2}/\epsilon^2$。 ZeroSARAHは、初期点においても完全な勾配計算を必要としない最初の分散還元法である。 さらに、ZeroSARAHは新たな最先端コンバージェンス結果を得ることができ(例えば、SPIDER、SpiderBoost、SARAH、SSRGD、PAGEなど)、以前の最もよく知られた結果を改善することができる。 データサンプル$n$の数が通常非常に大きいので、すべてのグラデーション計算(これは時間のかかるステップです)を避けることは多くのアプリケーションで重要です。 特に分散設定では、すべてのデータサンプルに対するフルグラデーションの定期的な計算は、すべてのマシン/デバイスを定期的に同期させる必要があります。 したがって、ZeroSARAHは、完全なデバイス参加が現実的でない分散・フェデレーション学習において実践的な影響を期待する。

We propose ZeroSARAH -- a novel variant of the variance-reduced method SARAH (Nguyen et al., 2017) -- for minimizing the average of a large number of nonconvex functions $\frac{1}{n}\sum_{i=1}^{n}f_i(x)$. To the best of our knowledge, in this nonconvex finite-sum regime, all existing variance-reduced methods, including SARAH, SVRG, SAGA and their variants, need to compute the full gradient over all $n$ data samples at the initial point $x^0$, and then periodically compute the full gradient once every few iterations (for SVRG, SARAH and their variants). Moreover, SVRG, SAGA and their variants typically achieve weaker convergence results than variants of SARAH: $n^{2/3}/\epsilon^2$ vs. $n^{1/2}/\epsilon^2$. ZeroSARAH is the first variance-reduced method which does not require any full gradient computations, not even for the initial point. Moreover, ZeroSARAH obtains new state-of-the-art convergence results, which can improve the previous best-known result (given by e.g., SPIDER, SpiderBoost, SARAH, SSRGD and PAGE) in certain regimes. Avoiding any full gradient computations (which is a time-consuming step) is important in many applications as the number of data samples $n$ usually is very large. Especially in the distributed setting, periodic computation of full gradient over all data samples needs to periodically synchronize all machines/devices, which may be impossible or very hard to achieve. Thus, we expect that ZeroSARAH will have a practical impact in distributed and federated learning where full device participation is impractical.
翻訳日:2021-03-03 15:42:21 公開日:2021-03-02
# クロスモーダル対応損失を用いた視聴覚分離

Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss ( http://arxiv.org/abs/2103.01463v1 )

ライセンス: Link先を確認
Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura(参考訳) 本稿では,訓練中の音声特性を反映するために,分離信号と視覚信号との対応を考慮した音声・音声分離学習手法を提案する。 音声-視覚音声分離は、話者の視覚信号を用いて混合音から個々の音声信号を推定する手法である。 音声-視覚音声分離に関する従来の研究は、主に音源信号と分離信号の間の距離を反映した音声のみ損失の分離モデルを訓練する。 しかし、従来の損失は、話者の特徴や音声情報を含む音声信号の特性を反映していないため、歪みや残音につながる。 そこで本研究では,音声信号と視覚信号の同時発生に基づくクロスモーダル対応(CMC)損失を提案する。 視覚信号は背景雑音の影響を受けず、話者および音声情報を含むため、CMC損失を使用することにより、音声特性を維持しながら音声-視覚音声分離モデルがノイズを除去することができる。 実験の結果,提案手法はCMC損失に基づいて共起を学習し,分離性能を向上することを示した。

We present an audio-visual speech separation learning method that considers the correspondence between the separated signals and the visual signals to reflect the speech characteristics during training. Audio-visual speech separation is a technique to estimate the individual speech signals from a mixture using the visual signals of the speakers. Conventional studies on audio-visual speech separation mainly train the separation model on the audio-only loss, which reflects the distance between the source signals and the separated signals. However, conventional losses do not reflect the characteristics of the speech signals, including the speaker's characteristics and phonetic information, which leads to distortion or remaining noise. To address this problem, we propose the cross-modal correspondence (CMC) loss, which is based on the cooccurrence of the speech signal and the visual signal. Since the visual signal is not affected by background noise and contains speaker and phonetic information, using the CMC loss enables the audio-visual speech separation model to remove noise while preserving the speech characteristics. Experimental results demonstrate that the proposed method learns the cooccurrence on the basis of CMC loss, which improves separation performance.
翻訳日:2021-03-03 15:41:44 公開日:2021-03-02
# テンソルパワーリカレントモデルの記憶機構について

On the Memory Mechanism of Tensor-Power Recurrent Models ( http://arxiv.org/abs/2103.01521v1 )

ライセンス: Link先を確認
Hejia Qiu, Chao Li, Ying Weng, Zhun Sun, Xingyu He, Qibin Zhao(参考訳) テンソルパワー(TP)リカレントモデル(英: Tensor-power Recurrent model)は、リカレント関係がp倍(すなわち次数-p)テンソル積からなる非線形力学系の族である。 このようなモデルがadvanced recurrent neural networks (rnns) によく現れるにもかかわらず、この時点では、シーケンスタスクにおいて重要な特性であるメモリ特性の研究は限られている。 本研究では,tpリカレントモデルの記憶機構を徹底的に検討する。 理論的には、大きなpが長いメモリ効果を達成するための必須条件であることは証明するが、不安定な動的挙動を引き起こす。 実験的には、p級を離散から微分可能な領域に拡張し、さまざまなデータセットから効率的に学習できるようにすることでこの問題に取り組みます。 合わせて、新しいモデルは安定した方法で長い記憶効果の恩恵を受けることが期待されます。 提案モデルが単一セルアーキテクチャとseq2seqアーキテクチャの両方の様々な高度なRNNと比較して競争性能を達成することを実験的に示した。

Tensor-power (TP) recurrent model is a family of non-linear dynamical systems, of which the recurrence relation consists of a p-fold (a.k.a., degree-p) tensor product. Despite such the model frequently appears in the advanced recurrent neural networks (RNNs), to this date there is limited study on its memory property, a critical characteristic in sequence tasks. In this work, we conduct a thorough investigation of the memory mechanism of TP recurrent models. Theoretically, we prove that a large degree p is an essential condition to achieve the long memory effect, yet it would lead to unstable dynamical behaviors. Empirically, we tackle this issue by extending the degree p from discrete to a differentiable domain, such that it is efficiently learnable from a variety of datasets. Taken together, the new model is expected to benefit from the long memory effect in a stable manner. We experimentally show that the proposed model achieves competitive performance compared to various advanced RNNs in both the single-cell and seq2seq architectures.
翻訳日:2021-03-03 15:41:24 公開日:2021-03-02
# ガウス過程分散最小化に基づくグラフへの影響最大化のためのカーネルモデル

Kernel-Based Models for Influence Maximization on Graphs based on Gaussian Process Variance Minimization ( http://arxiv.org/abs/2103.01575v1 )

ライセンス: Link先を確認
Salvatore Cuomo and Wolfgang Erb and Gabriele Santin(参考訳) 新しい知識の推論、隠されたパターンの発見、および多数のソースからの大量のデータからの洞察の発見は、単に科学的な分野ではなく、データサイエンス(DS)を芸術にします。 情報解析が可能な数理モデルの研究と設計はdsの中心的な研究テーマである。 本研究では,カーネル・ベース近似,ガウス過程回帰,対応する分散項の最小化といった考え方を用いて,グラフに対する影響最大化(im)の新しいモデルを紹介し,検討する。 このIMモデルの適切なカーネルを決定するためにデータ駆動アプローチを適用することができ、モデルパラメータをチューニングするために機械学習手法が採用される。 コストのかかるモンテカルロシミュレーションに依拠するこの分野の確率モデルと比較して,本モデルは,グラフ上のノードの最適影響を計算するための,単純かつ費用効率の高い更新戦略を可能にする。 いくつかの数値実験では、この新しいモデルの特性と利点を示す。

The inference of novel knowledge, the discovery of hidden patterns, and the uncovering of insights from large amounts of data from a multitude of sources make Data Science (DS) to an art rather than just a mere scientific discipline. The study and design of mathematical models able to analyze information represents a central research topic in DS. In this work, we introduce and investigate a novel model for influence maximization (IM) on graphs using ideas from kernel-based approximation, Gaussian process regression, and the minimization of a corresponding variance term. Data-driven approaches can be applied to determine proper kernels for this IM model and machine learning methodologies are adopted to tune the model parameters. Compared to stochastic models in this field that rely on costly Monte-Carlo simulations, our model allows for a simple and cost-efficient update strategy to compute optimal influencing nodes on a graph. In several numerical experiments, we show the properties and benefits of this new model.
翻訳日:2021-03-03 15:41:05 公開日:2021-03-02
# 不均一勾配符号化における最適通信計算トレードオフ

Optimal Communication-Computation Trade-Off in Heterogeneous Gradient Coding ( http://arxiv.org/abs/2103.01589v1 )

ライセンス: Link先を確認
Tayyebeh Jahani-Nezhad, Mohammad Ali Maddah-Ali(参考訳) グラディエントコーディングにより、マスターノードは部分勾配の集約を導出することができ、いくつかのワーカノードがローカルデータセット上で計算し、最小の通信コストとストラグラーの存在下で計算する。 本稿では,線形符号化を用いた勾配符号化において,emph{arbitrary}データ配置を持つ異種分散システムの最適な通信コストを,s \in \mathbb{n}$ stragglers と $a \in \mathbb{n}$ adversarial node で特徴付ける。 特に、勾配ベクトルの大きさで正規化された最適な通信コストは$(r-s-2a)^{-1}$に等しいことが示され、ここでは$r \in \mathbb{n}$はデータ分割が複製される最小数である。 言い換えれば、通信コストは、配置の構造に関係なく、最小限の複製でデータパーティションによって決定されます。 提案された達成可能なスキームは、集合勾配行列の多項式関数の計算も対象とすることができる。 また、データ配置の繰り返しが通信コストに課される制限を満たすために必要なものよりも小さい場合や、システム設計の推定値よりもストラグラーの数が多いと思われる場合に、近似計算からいくつかのアイデアを借り、近似勾配符号化スキームを提案します。

Gradient coding allows a master node to derive the aggregate of the partial gradients, calculated by some worker nodes over the local data sets, with minimum communication cost, and in the presence of stragglers. In this paper, for gradient coding with linear encoding, we characterize the optimum communication cost for heterogeneous distributed systems with \emph{arbitrary} data placement, with $s \in \mathbb{N}$ stragglers and $a \in \mathbb{N}$ adversarial nodes. In particular, we show that the optimum communication cost, normalized by the size of the gradient vectors, is equal to $(r-s-2a)^{-1}$, where $r \in \mathbb{N}$ is the minimum number that a data partition is replicated. In other words, the communication cost is determined by the data partition with the minimum replication, irrespective of the structure of the placement. The proposed achievable scheme also allows us to target the computation of a polynomial function of the aggregated gradient matrix. It also allows us to borrow some ideas from approximation computing and propose an approximate gradient coding scheme for the cases when the repetition in data placement is smaller than what is needed to meet the restriction imposed on communication cost or when the number of stragglers appears to be more than the presumed value in the system design.
翻訳日:2021-03-03 15:40:50 公開日:2021-03-02
# MISOダウンリンクシステムの学習ロバストビームフォーミング

Learning Robust Beamforming for MISO Downlink Systems ( http://arxiv.org/abs/2103.01602v1 )

ライセンス: Link先を確認
Junbeom Kim, Hoon Lee, Seok-Hwan Park(参考訳) 本稿では,ダウンリンクマルチユーザシステムにおけるロバストビームフォーミング最適化のための学習ソリューションについて検討する。 基地局(BS)は、不完全チャネル状態情報(CSI)とその確率的特徴のみで効率的なマルチアンテナ伝送戦略を特定する。 そこで本研究では,完全なCSIの推定値と統計的知識のみを受け入れる深層ニューラルネットワーク(DNN)を実世界の伝播環境に適合するように最適化した,堅牢なトレーニングアルゴリズムを提案する。 これにより、トレーニングされたDNNは、実際のCSIの完全な観測のみに基づいて、効率的なロバストなビームフォーミングソリューションを提供することができる。 従来の手法と比較して,提案手法の利点を数値的に検証した。

This paper investigates a learning solution for robust beamforming optimization in downlink multi-user systems. A base station (BS) identifies efficient multi-antenna transmission strategies only with imperfect channel state information (CSI) and its stochastic features. To this end, we propose a robust training algorithm where a deep neural network (DNN), which only accepts estimates and statistical knowledge of the perfect CSI, is optimized to fit to real-world propagation environment. Consequently, the trained DNN can provide efficient robust beamforming solutions based only on imperfect observations of the actual CSI. Numerical results validate the advantages of the proposed learning approach compared to conventional schemes.
翻訳日:2021-03-03 15:40:24 公開日:2021-03-02
# 深層学習に基づくデータ隠蔽, ステレオグラフィー, 透かしに関する簡易調査

A Brief Survey on Deep Learning Based Data Hiding, Steganography and Watermarking ( http://arxiv.org/abs/2103.01607v1 )

ライセンス: Link先を確認
Chaoning Zhang, Chenguo Lin, Philipp Benz, Kejiang Chen, Weiming Zhang and In So Kweon(参考訳) データ非表示は、限られた知覚的変化でメッセージを隠す技術です。 近年、深層学習はそれに対する豊富な視点を提供し、大きな進歩を遂げています。 本稿では,既存の文献を簡潔かつ包括的にレビューし,3つのメタアーキテクチャを概説する。 そこで本研究では,ステガノグラフィ,ライトフィールドメッセージング,ウォーターマーキングなど,深層隠れの応用に関する具体的な戦略を概説する。 最後に、敵攻撃の視点を取り入れることで、深い隠れに関するさらなる洞察を提供する。

Data hiding is the art of concealing messages with limited perceptual changes. Recently, deep learning has provided enriching perspectives for it and made significant progress. In this work, we conduct a brief yet comprehensive review of existing literature and outline three meta-architectures. Based on this, we summarize specific strategies for various applications of deep hiding, including steganography, light field messaging and watermarking. Finally, further insight into deep hiding is provided through incorporating the perspective of adversarial attack.
翻訳日:2021-03-03 15:40:14 公開日:2021-03-02
# Virufy:COVID-19の自動検出のためのマルチブランチディープラーニングネットワーク

Virufy: A Multi-Branch Deep Learning Network for Automated Detection of COVID-19 ( http://arxiv.org/abs/2103.01806v1 )

ライセンス: Link先を確認
Ahmed Fakhry, Xinyi Jiang, Jaclyn Xiao, Gunvant Chaudhari, Asriel Han, Amil Khanzada(参考訳) 新型コロナウイルス検査の迅速で手頃な価格のソリューションは、世界的なパンデミックの広がりを封じ込め、医療機関の負担を軽減するために必要です。 現在、限られたテスト場所と高価な機器は、特に低リソース設定でテストしようとする個人にとって困難です。 研究者らは、臨床設定 [5, 15] に記録された音声サンプルを使用して、COVID-19感染状況を検出するモデルを提示し、音声ベースの人工知能モデルを使用してCOVID-19を識別することができることを示唆した。 このようなモデルは、高速、広範、低リソースのテストのためにスマートフォンにデプロイされる可能性がある。 しかし、以前の研究では、主に臨床設定から収集されたクリーンオーディオサンプルのモデルを訓練していますが、平均的なスマートフォンから収集されたオーディオサンプルは、モデルがトレーニングしたクリーンデータとは異なる最適な品質データをもたらす可能性があります。 この不一致は、新型コロナウイルス(COVID-19)のステータス予測に影響を及ぼすバイアスをもたらす可能性がある。 そこで本研究では,データ処理が手作業で行われていないクラウドソースデータに対して,トレーニングとテストを行うマルチブランチ深層学習ネットワークを提案する。 さらに,このモデルにより,COUGHVIDデータセット [16] の最先端結果が得られる。 各カテゴリーの結果を分解した後、covid-19陽性のラベルを持つオーディオサンプルのaucは0.99であることを示した。

Fast and affordable solutions for COVID-19 testing are necessary to contain the spread of the global pandemic and help relieve the burden on medical facilities. Currently, limited testing locations and expensive equipment pose difficulties for individuals trying to be tested, especially in low-resource settings. Researchers have successfully presented models for detecting COVID-19 infection status using audio samples recorded in clinical settings [5, 15], suggesting that audio-based Artificial Intelligence models can be used to identify COVID-19. Such models have the potential to be deployed on smartphones for fast, widespread, and low-resource testing. However, while previous studies have trained models on cleaned audio samples collected mainly from clinical settings, audio samples collected from average smartphones may yield suboptimal quality data that is different from the clean data that models were trained on. This discrepancy may add a bias that affects COVID-19 status predictions. To tackle this issue, we propose a multi-branch deep learning network that is trained and tested on crowdsourced data where most of the data has not been manually processed and cleaned. Furthermore, the model achieves state-of-art results for the COUGHVID dataset [16]. After breaking down results for each category, we have shown an AUC of 0.99 for audio samples with COVID-19 positive labels.
翻訳日:2021-03-03 15:40:06 公開日:2021-03-02
# 深部強化学習を用いた室温および双方向EV充電のデータ駆動MIMO制御:シミュレーションと実験

Data-driven MIMO control of room temperature and bidirectional EV charging using deep reinforcement learning: simulation and experiments ( http://arxiv.org/abs/2103.01886v1 )

ライセンス: Link先を確認
B. Svetozarevic, C.Baumann, S. Muntwiler, L. Di Natale, P. Heer, M. Zeilinger(参考訳) 現代の建物の制御は、再生可能エネルギー発生装置、貯蔵装置、電気自動車の接続(evs)の統合による複雑な多変量制御問題であり、一方、全体的なエネルギーの最小化と快適さの要求による複雑な多変量制御問題である。 従来のルールベース(rb)とモデル予測制御(mpc)のような先進的なモデルベースのコントローラは、現代の建物のシステム全体の最適性能を達成するための現在の自動化産業要件を、低い手数料とメンテナンスコストで満たすことができない。 本研究では,ビル内におけるマルチインプット・マルチ・アウトプット(MIMO)問題(室温と双方向EV充電の連成制御)の制御ポリシを,次回の旅行に必要なEVバッテリに十分なエネルギーを残しながら,収容者の快適さと省エネを最大化することを目的とした,完全にブラックボックスなデータ駆動方式を提案する。 室内温度とEV帯電を,繰り返しニューラルネットワークと一方向線形関数を用いてモデル化し,これらのモデルをDDPG(Deep Deterministic Policy Gradient)強化学習アルゴリズムのシミュレーション環境として利用し,最適制御ポリシーの探索を行った。 シミュレーションでは、DDPG制御剤は標準のRBコントローラと比較して平均17%の省エネと19%の快適性を達成した。 同様に、ジョイントルームの暖房と双方向のEV充電制御では、DDPG MIMOコントローラは2つの標準RBコントローラと比較して平均12%の快適さ、11%の省エネ、42%の省エネを実現した。 また、スイスのデュッベンドルフのエムパにあるDFAB HOUSEの手法も検証し、暖房シーズン中に3週間にわたってより良い快適さで27%の省エネを得ました。

The control of modern buildings is, on one hand, a complex multi-variable control problem due to the integration of renewable energy generation devices, storage devices, and connection of electrical vehicles (EVs), and, on the other hand, a complex multi-criteria problem due to requirements for overall energy minimization and comfort satisfaction. Both conventional rule-based (RB) and advanced model-based controllers, such as model predictive control (MPC), cannot fulfil the current building automation industry requirements of achieving system-wide optimal performance of a modern building at low commissioning and maintenance costs. In this work, we present a fully black-box, data-driven method to obtain a control policy for a multi-input-multi-output (MIMO) problem in buildings -- the joint control of a room temperature and a bidirectional EV charging -- with the aim to maximize occupants comfort and energy savings while leaving enough energy in the EV battery for the next trip. We modelled the room temperature and EV charging using recurrent neural networks and a piece-wise linear function, respectively, and used these models as a simulation environment for the Deep Deterministic Policy Gradient (DDPG) reinforcement learning algorithm to find an optimal control policy. In the simulation, the DDPG control agent achieved on average 17% energy savings and 19% better comfort during the heating season compared to a standard RB controller. Similarly, for the joint room heating and bidirectional EV charging control, the DDPG MIMO controller achieved on average 12% better comfort satisfaction, 11% energy savings, and 42% energy costs savings compared to two standard RB controllers. We also validated the method on the DFAB HOUSE at Empa, Duebendorf, in Switzerland where we obtained 27% energy savings at better comfort over three weeks during the heating season.
翻訳日:2021-03-03 15:39:45 公開日:2021-03-02
# 不確実な風条件下でのメタラーニングに基づくロバスト適応飛行制御

Meta-Learning-Based Robust Adaptive Flight Control Under Uncertain Wind Conditions ( http://arxiv.org/abs/2103.01932v1 )

ライセンス: Link先を確認
Michael O'Connell, Guanya Shi, Xichen Shi, Soon-Jo Chung(参考訳) リアルタイムモデル学習は、可変風条件で飛行するドローンのような複雑な力学システムにとって困難であることを証明する。 ディープニューラルネットワークのような機械学習技術は、高い表現力を持つが、頻繁に更新するには遅すぎる。 一方、適応制御は単純な線形パラメータモデルに依存しており、フィードバック制御ループと同じくらい速く更新できます。 本稿では,ディープニューラルネットワークからの出力を,異なる風条件を表現できる基本関数の集合として扱うオンライン複合適応手法を提案する。 トレーニングを支援するため、メタ学習技術は適応に有用なネットワーク出力の最適化に使用される。 我々は,風条件の異なる空洞でドローンを飛ばし,挑戦的な軌道を飛行させることにより,我々のアプローチを検証する。 私達は異なった基礎機能セットの他の適応的なコントローラーと結果を比較し、追跡および予測の間違い上の改善を示します。

Realtime model learning proves challenging for complex dynamical systems, such as drones flying in variable wind conditions. Machine learning technique such as deep neural networks have high representation power but is often too slow to update onboard. On the other hand, adaptive control relies on simple linear parameter models can update as fast as the feedback control loop. We propose an online composite adaptation method that treats outputs from a deep neural network as a set of basis functions capable of representing different wind conditions. To help with training, meta-learning techniques are used to optimize the network output useful for adaptation. We validate our approach by flying a drone in an open air wind tunnel under varying wind conditions and along challenging trajectories. We compare the result with other adaptive controller with different basis function sets and show improvement over tracking and prediction errors.
翻訳日:2021-03-03 15:39:07 公開日:2021-03-02
# ユーザサンプリングとワイヤレスアグリゲーションによるフェデレーション学習のプライバシー増幅

Privacy Amplification for Federated Learning via User Sampling and Wireless Aggregation ( http://arxiv.org/abs/2103.01953v1 )

ライセンス: Link先を確認
Mohamed Seif, Wei-Ting Chang, Ravi Tandon(参考訳) 本稿では,ガウスマルチアクセスチャネルをモデルとしたユーザサンプリングによる無線チャネル上でのフェデレーション学習の問題点を,DP/LDP(集中的および局所的差分プライバシ)制約下で検討する。 無線チャネルの重畳特性は、ユーザに対する強力なDP保証とともに、帯域幅効率のよい勾配アグリゲーションの2つの利点をもたらすことが示されている。 具体的には、中央DPプライバシーリークは$\mathcal{O}(1/K^{1/2})$としてスケールすることが示されています。 また, 直交送信と併用したユーザサンプリングにより, 同じスケーリング動作でDPプライバシリークの中央化が図られている。 本研究では,ワイヤレスアグリゲーションとユーザサンプリングの両方を組み込むことで,より強力なプライバシー保証を得ることができることを示す。 本稿では,各ユーザによる個別のランダム参加決定に依拠する個人無線勾配集約方式を提案する。 提案手法の中心となるDPリークは$\mathcal{O}(1/K^{3/4})$である。 さらに,LDPもユーザサンプリングによって向上していることを示した。 また,提案手法の収束率の解析を行い,パラメータサーバにおけるサンプル参加者数$(a)$known,$(b)$ unknownの2つのシナリオに対して,無線リソース,収束,プライバシ間のトレードオフを理論的および実証的に検討する。

In this paper, we study the problem of federated learning over a wireless channel with user sampling, modeled by a Gaussian multiple access channel, subject to central and local differential privacy (DP/LDP) constraints. It has been shown that the superposition nature of the wireless channel provides a dual benefit of bandwidth efficient gradient aggregation, in conjunction with strong DP guarantees for the users. Specifically, the central DP privacy leakage has been shown to scale as $\mathcal{O}(1/K^{1/2})$, where $K$ is the number of users. It has also been shown that user sampling coupled with orthogonal transmission can enhance the central DP privacy leakage with the same scaling behavior. In this work, we show that, by join incorporating both wireless aggregation and user sampling, one can obtain even stronger privacy guarantees. We propose a private wireless gradient aggregation scheme, which relies on independently randomized participation decisions by each user. The central DP leakage of our proposed scheme scales as $\mathcal{O}(1/K^{3/4})$. In addition, we show that LDP is also boosted by user sampling. We also present analysis for the convergence rate of the proposed scheme and study the tradeoffs between wireless resources, convergence, and privacy theoretically and empirically for two scenarios when the number of sampled participants are $(a)$ known, or $(b)$ unknown at the parameter server.
翻訳日:2021-03-03 15:38:55 公開日:2021-03-02
# 自然言語ビデオのローカライゼーション: Span-based Question Answering Frameworkの再考

Natural Language Video Localization: A Revisit in Span-based Question Answering Framework ( http://arxiv.org/abs/2102.13558v3 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。 既存のアプローチは主にコンピュータビジョンの観点からNLVL問題をランク付け、アンカー、回帰タスクとして定式化することで解決している。 これらの手法は、長いビデオのローカライズ時に大きな性能劣化に悩まされる。 本研究では,入力映像をテキストパスとして扱うことにより,スパンベースの質問応答 (QA) という新たな視点からNLVLに対処する。 NLVLに対処するために、標準のスパンベースのQAフレームワーク(VSLBaseという名前)上にビデオスパンローカライズネットワーク(VSLNet)を提案します。 VSLNetは、シンプルで効果的なクエリガイドハイライト(QGH)戦略を通じて、NLVLとスパンベースのQAの違いに取り組みます。 QGHはVSLNetをガイドして、ハイライトされた領域内のマッチングビデオスパンを検索する。 長編ビデオのパフォーマンス劣化に対処するため,マルチスケールスプリット・アンド・コンカネーション戦略を適用し,VSLNetをVSLNet-Lに拡張する。 VSLNet-Lはまず、トリミングされていないビデオを短いクリップセグメントに分割し、ターゲットモーメントを含むクリップセグメントを予測し、他のセグメントの重要性を抑制します。 最後に、クリップセグメントを異なる信頼度で結合して、ターゲットモーメントを正確に特定する。 3つのベンチマークデータセットに関する広範な実験では、提案された VSLNet と VSLNet-L が最新手法を上回っていることが示された。 本研究は,NLVL問題の解決に有効な手法として,スパンベースQAフレームワークが重要であることを示唆する。

Natural Language Video Localization (NLVL) aims to locate a target moment from an untrimmed video that semantically corresponds to a text query. Existing approaches mainly solve the NLVL problem from the perspective of computer vision by formulating it as ranking, anchor, or regression tasks. These methods suffer from large performance degradation when localizing on long videos. In this work, we address the NLVL from a new perspective, i.e., span-based question answering (QA), by treating the input video as a text passage. We propose a video span localizing network (VSLNet), on top of the standard span-based QA framework (named VSLBase), to address NLVL. VSLNet tackles the differences between NLVL and span-based QA through a simple yet effective query-guided highlighting (QGH) strategy. QGH guides VSLNet to search for the matching video span within a highlighted region. To address the performance degradation on long videos, we further extend VSLNet to VSLNet-L by applying a multi-scale split-and-concatenation strategy. VSLNet-L first splits the untrimmed video into short clip segments; then, it predicts which clip segment contains the target moment and suppresses the importance of other segments. Finally, the clip segments are concatenated, with different confidences, to locate the target moment accurately. Extensive experiments on three benchmark datasets show that the proposed VSLNet and VSLNet-L outperform the state-of-the-art methods; VSLNet-L addresses the issue of performance degradation on long videos. Our study suggests that the span-based QA framework is an effective strategy to solve the NLVL problem.
翻訳日:2021-03-03 11:58:53 公開日:2021-03-02