このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210211となっている論文です。

PDF登録状況(公開日: 20210211)

TitleAuthorsAbstract論文公表日・翻訳日
# 均一MPSのタンジェント空間法

Tangent-space methods for truncating uniform MPS ( http://arxiv.org/abs/2001.11882v3 )

ライセンス: Link先を確認
Bram Vanhecke, Maarten Van Damme, Jutho Haegeman, Laurens Vanderstraeten, Frank Verstraete(参考訳) 量子テンソルネットワークシミュレーションにおける中心的プリミティブは、低い結合次元の1つで行列積状態を近似する問題である。 この問題は、時間発展と縮約された絡み合った対状態のアルゴリズムにおける中心的なボトルネックを形成する。 我々は,一様(無限)行列積状態に対して,接空間に基づく変分アルゴリズムを定式化する。 このアルゴリズムは計算コストの好適なスケーリングを示し、行列積状態と行列積演算子の乗算を含むいくつかの例によってその有用性を示す。

A central primitive in quantum tensor network simulations is the problem of approximating a matrix product state with one of a lower bond dimension. This problem forms the central bottleneck in algorithms for time evolution and for contracting projected entangled pair states. We formulate a tangent-space based variational algorithm to achieve this for uniform (infinite) matrix product states. The algorithm exhibits a favourable scaling of the computational cost, and we demonstrate its usefulness by several examples involving the multiplication of a matrix product state with a matrix product operator.
翻訳日:2023-06-05 02:39:18 公開日:2021-02-11
# マルチレベル量子ノイズ分光

Multi-level Quantum Noise Spectroscopy ( http://arxiv.org/abs/2003.02782v2 )

ライセンス: Link先を確認
Youngkyu Sung, Antti Veps\"al\"ainen, Jochen Braum\"uller, Fei Yan, Joel I-Jan Wang, Morten Kjaergaard, Roni Winik, Philip Krantz, Andreas Bengtsson, Alexander J. Melville, Bethany M. Niedzielski, Mollie E. Schwartz, David K. Kim, Jonilyn L. Yoder, Terry P. Orlando, Simon Gustavsson, William D. Oliver(参考訳) システムの雑音同定はロバスト量子システムの設計に不可欠である。 既存の量子ノイズスペクトロスコピー(QNS)プロトコルは、量子システムに影響を及ぼすノイズの総量を測定するが、それらに寄与する基礎的な過程を区別することはできない。 本稿では,超伝導量子ビットのマルチレベルエネルギー構造を利用して,スピンロックに基づくQNSプロトコルを提案し,実験的に検証する。 まず, このプロトコルは, 弱い無調和量子ビット分光計のスペクトル範囲を, 強い無調和性の欠如による現在の限界を超えて拡張する。 第2に、高興奮レベルの探索から得られる追加情報により、様々なノイズメカニズムからの寄与を識別し、識別することができる。

System noise identification is crucial to the engineering of robust quantum systems. Although existing quantum noise spectroscopy (QNS) protocols measure an aggregate amount of noise affecting a quantum system, they generally cannot distinguish between the underlying processes that contribute to it. Here, we propose and experimentally validate a spin-locking-based QNS protocol that exploits the multi-level energy structure of a superconducting qubit to achieve two notable advances. First, our protocol extends the spectral range of weakly anharmonic qubit spectrometers beyond the present limitations set by their lack of strong anharmonicity. Second, the additional information gained from probing the higher-excited levels enables us to identify and distinguish contributions from different underlying noise mechanisms.
翻訳日:2023-05-30 11:36:17 公開日:2021-02-11
# 弱摂動ボースガス中の音波の形状

Shape of a sound wave in a weakly-perturbed Bose gas ( http://arxiv.org/abs/2004.08075v4 )

ライセンス: Link先を確認
Oleksandr V. Marchukov and Artem G. Volosniev(参考訳) 我々はGross-Pitaevskii方程式を用いて、均一なボース気体中で発生する音響放射を静的不純物により研究する。 不純物は、ガスを通して伝播する音波パケットを励起する。 長い波の長さの限界におけるこの波束の形状を計算し、この形状を観察することで不純物の性質を抽出することが可能であると主張する。 ここでは、閉じ込められた不純物原子を持つボースガスのこの可能性について説明する。 非線形schr\"odinger方程式によって記述された全ての一次元系において、この結果は一般的なものであり、非原子系、例えば非線形光学媒質中の光伝播の解析にも利用できる。 最後に,球対称摂動を考慮した3次元ボースガスの音波パケット形状を計算した。

We employ the Gross-Pitaevskii equation to study acoustic emission generated in a uniform Bose gas by a static impurity. The impurity excites a sound-wave packet, which propagates through the gas. We calculate the shape of this wave packet in the limit of long wave lengths, and argue that it is possible to extract properties of the impurity by observing this shape. We illustrate here this possibility for a Bose gas with a trapped impurity atom -- an example of a relevant experimental setup. Presented results are general for all one-dimensional systems described by the nonlinear Schr\"odinger equation and can also be used in nonatomic systems, e.g., to analyze light propagation in nonlinear optical media. Finally, we calculate the shape of the sound-wave packet for a three-dimensional Bose gas assuming a spherically symmetric perturbation.
翻訳日:2023-05-23 04:44:35 公開日:2021-02-11
# 数個のマター量子ビットから生成される全フォトニックグラフ状態を用いた効率的な量子通信のための資源要件

Resource requirements for efficient quantum communication using all-photonic graph states generated from a few matter qubits ( http://arxiv.org/abs/2005.07198v4 )

ライセンス: Link先を確認
Paul Hilaire, Edwin Barnes, and Sophia E. Economou(参考訳) 量子通信技術は、秘密メッセージの安全な送信から分散量子コンピューティングまで、アプリケーションにとって大きな可能性を秘めています。 ファイバー損失のため、長距離量子通信には量子リピータが必須であり、量子メモリベースのスキームと全フォトニックスキームが存在する。 線形光学から生成されるグラフ状態に基づく全フォトニックアプローチは、記憶に関連するコヒーレンス時間の問題を回避するが、リソースの膨大なオーバーヘッドを犠牲にして、リピータレスプロトコルよりも優れている。 本稿では,物質量子ビットを用いてフォトニックグラフ状態を生成し,物質量子ビット当たりの秘密鍵レートを特徴とする資源と性能のトレードオフを詳細に解析する。 物質量子ビット間の高速な2量子ゲートと高光子収集と検出効率が、リピータレスおよびメモリベースのスキームよりも優れた全フォトニックプロトコルに必要な主要な要素であることを示す。

Quantum communication technologies show great promise for applications ranging from the secure transmission of secret messages to distributed quantum computing. Due to fiber losses, long-distance quantum communication requires the use of quantum repeaters, for which there exist quantum memory-based schemes and all-photonic schemes. While all-photonic approaches based on graph states generated from linear optics avoid coherence time issues associated with memories, they outperform repeater-less protocols only at the expense of a prohibitively large overhead in resources. Here, we consider using matter qubits to produce the photonic graph states and analyze in detail the trade-off between resources and performance, as characterized by the achievable secret key rate per matter qubit. We show that fast two-qubit entangling gates between matter qubits and high photon collection and detection efficiencies are the main ingredients needed for the all-photonic protocol to outperform both repeater-less and memory-based schemes.
翻訳日:2023-05-20 05:22:54 公開日:2021-02-11
# ランダム化測定の統計相関による多体チャーン数

Many-body Chern number from statistical correlations of randomized measurements ( http://arxiv.org/abs/2005.13543v2 )

ライセンス: Link先を確認
Ze-Pei Cian, Hossein Dehghani, Andreas Elben, Beno\^it Vermersch, Guanyu Zhu, Maissam Barkeshli, Peter Zoller, Mohammad Hafezi(参考訳) いくつかの位相的に順序付けられた位相を特徴づける主な位相不変量の1つは、多体チャーン数(MBCN)である。 パラダイマティックな例としては、いくつかの分数量子ホール相があり、これは近い将来、異なる原子およびフォトニック量子プラットフォームで実現されることが期待されている。 この不変量の実験的測定と数値計算は、従来、多くの量子シミュレータには適さない外部パラメータの関数として、状態の族へのアクセスを必要とする線形応答技術に基づいている。 本稿では、ハミルトニアンに関する知識を必要とせず、この不変量の測定のためのアンシラフリーな実験スキームを提案する。 具体的には、ランダム化測定の統計的相関を用いて、波動関数のMBCNを推定する。 驚くべきことに、この結果は現在の量子シミュレータアーキテクチャよりも快適なディスク状ジオメトリに適用できる。

One of the main topological invariants that characterizes several topologically-ordered phases is the many-body Chern number (MBCN). Paradigmatic examples include several fractional quantum Hall phases, which are expected to be realized in different atomic and photonic quantum platforms in the near future. Experimental measurement and numerical computation of this invariant is conventionally based on the linear-response techniques which require having access to a family of states, as a function of an external parameter, which is not suitable for many quantum simulators. Here, we propose an ancilla-free experimental scheme for the measurement of this invariant, without requiring any knowledge of the Hamiltonian. Specifically, we use the statistical correlations of randomized measurements to infer the MBCN of a wavefunction. Remarkably, our results apply to disk-like geometries that are more amenable to current quantum simulator architectures.
翻訳日:2023-05-18 05:03:26 公開日:2021-02-11
# 量子変分固有解法による状態生成効率の定量化

Quantifying the efficiency of state preparation via quantum variational eigensolvers ( http://arxiv.org/abs/2007.14338v2 )

ライセンス: Link先を確認
Gabriel Matos, Sonika Johri, Zlatko Papi\'c(参考訳) 近年,量子近似最適化アルゴリズム (QAOA) などの低深度量子回路を用いた複雑な量子状態の効率的な調製に多くの関心が寄せられている。 このようなアルゴリズムが驚くべき精度で量子スピンの特定の相関状態を作成することが数値的に示されているが、一般的なモデルのクラスにおけるQAOAの効率を定量化する体系的な方法が欠けている。 ここでは, 順序状態の生成におけるQAOAの成功は, 対象状態の相互作用距離に関係しており, 単一粒子モードの任意の基底において, ガウス状態の多様体にその状態がどの程度近いかを測定する。 二スピンおよび三スピン相互作用を持つイジングモデルや外部場におけるクラスターモデルなど、非可積分量子モデルのいくつかの例について数値的に検証する。 この結果から,相互作用距離によって観測される絡み合いスペクトルの構造はQAOA状態生成の成功と相関し,この相関関係はモデルに存在する異なる位相に関する情報も含んでいることが示唆された。 結論として、QAOAは通常、最も近い自由フェルミオン状態に摂動する解を見つける。

Recently, there has been much interest in the efficient preparation of complex quantum states using low-depth quantum circuits, such as Quantum Approximate Optimization Algorithm (QAOA). While it has been numerically shown that such algorithms prepare certain correlated states of quantum spins with surprising accuracy, a systematic way of quantifying the efficiency of QAOA in general classes of models has been lacking. Here, we propose that the success of QAOA in preparing ordered states is related to the interaction distance of the target state, which measures how close that state is to the manifold of all Gaussian states in an arbitrary basis of single-particle modes. We numerically verify this for several examples of non-integrable quantum models, including Ising models with two- and three-spin interactions and the cluster model in an external field. Our results suggest that the structure of the entanglement spectrum, as witnessed by the interaction distance, correlates with the success of QAOA state preparation, and that this correlation also contains information about different phases present in the model. We conclude that QAOA typically finds a solution that perturbs around the closest free-fermion state.
翻訳日:2023-05-07 23:08:12 公開日:2021-02-11
# 混乱・拡散・動作モードを特徴とする量子暗号設計

A quantum encryption design featuring confusion, diffusion, and mode of operation ( http://arxiv.org/abs/2010.03062v2 )

ライセンス: Link先を確認
Zixuan Hu and Sabre Kais(参考訳) 量子暗号 -- 量子コンピューティング技術の暗号への応用が広く研究されている。 量子暗号の主な方向は量子鍵分布 (qkd) と量子暗号であり、前者は安全な鍵分布に焦点を当て、後者は量子アルゴリズムを用いた暗号に焦点を当てている。 QKDの成功とは対照的に、量子暗号化アルゴリズムの開発は、ほとんどの通信ニーズに適さない、ほとんどのワンタイムパッド(OTP)の設計に限られている。 本研究では,メッセージの暗号化に量子状態生成プロセスを利用する非otp量子暗号方式を提案する。 本質的には非OTP量子ブロック暗号であり、この手法は以下の特徴を持つ既存の手法に対して際立っている。 1.複雑な鍵暗号文関係(すなわち混乱)と複雑な平文暗号文関係(すなわち拡散) 2.複数のブロック上での実用的な暗号化のための動作設計方法 これらの機能は、盗聴や標準的な暗号解析攻撃に対する重要な再利用性と保護を提供する。

Quantum cryptography -- the application of quantum computing techniques to cryptography has been extensively investigated. Two major directions of quantum cryptography are quantum key distribution (QKD) and quantum encryption, with the former focusing on secure key distribution and the latter focusing on encryption using quantum algorithms. In contrast to the success of the QKD, the development of quantum encryption algorithms is limited to designs of mostly one-time pads (OTP) that are unsuitable for most communication needs. In this work we propose a non-OTP quantum encryption scheme utilizing a quantum state creation process to encrypt messages. As essentially a non-OTP quantum block cipher the method stands out against existing methods with the following features: 1. complex key-ciphertext relation (i.e. confusion) and complex plaintext-ciphertext relation (i.e. diffusion); 2. mode of operation design for practical encryption on multiple blocks. These features provide key reusability and protection against eavesdropping and standard cryptanalytic attacks.
翻訳日:2023-04-29 20:05:11 公開日:2021-02-11
# 振動ミラー近傍における2つの絡み合った原子の集団自然放出

Collective spontaneous emission of two entangled atoms near an oscillating mirror ( http://arxiv.org/abs/2010.03215v2 )

ライセンス: Link先を確認
Marta Reina, Michelangelo Domina, Alessandro Ferreri, Giuseppe Fiscelli, Antonio Noto, Roberto Passante, and Lucia Rizzuto(参考訳) 真空状態と振動ミラーの存在下での電磁界と相互作用する2つの同一原子の系の協調自発放出について考察する。 基底状態の2つの原子と励起状態の2つの原子は、相関状態(対称状態または反対称状態)で準備されていると仮定する。 また、完全反射板は、任意の瞬間におけるミラー面の境界条件を満たす場モードにより、非接触的に振動し、相互作用ハミルトニアンの時間依存性が瞬時原子壁距離で完全に閉じられると仮定する。 時間依存摂動理論を用いて、2つの原子系によって放射される放射のスペクトルを解析し、境界の振動が放射されるスペクトルの特徴をどう変えるかを示す。 また,超ラジアント(対称)状態と亜ラジアント(反対称)状態の両方において,二原子系の集合基底状態への遷移速度を評価する。 また,振動ミラーの存在は,真空空間内や静的境界付近の原子の場合と比較して減衰速度を増大または抑制できることを示した。 以上の結果から,動的環境(すなわち時間変調環境)は,近傍の原子や分子の放射過程(協調崩壊など)を制御・操作する新たな可能性を示唆し,共鳴相互作用や原子や分子間のエネルギー移動など,他の放射過程にも同様の可能性が強く示唆された。

We consider the cooperative spontaneous emission of a system of two identical atoms, interacting with the electromagnetic field in the vacuum state and in the presence of an oscillating mirror. We assume that the two atoms, one in the ground state and the other in the excited state, are prepared in a correlated (symmetric or antisymmetric) {\em Bell}-type state. We also suppose that the perfectly reflecting plate oscillates adiabatically, with the field modes satisfying the boundary conditions at the mirror surface at any given instant, so that the time-dependence of the interaction Hamiltonian is entirely enclosed in the instantaneous atoms-wall distance. Using time-dependent perturbation theory, we investigate the spectrum of the radiation emitted by the two-atom system, showing how the oscillation of the boundary modifies the features of the emitted spectrum, which exhibits two lateral peaks not present in the case of a static boundary. We also evaluate the transition rate to the collective ground state of the two-atom system in both cases of the superradiant (symmetric) and subradiant (antisymmetric) state. We show that it is modulated in time, and that the presence of the oscillating mirror can enhance or inhibit the decay rate compared to the case of atoms in vacuum space or near a static boundary. Our results thus suggest that a dynamical (i.e. time-modulated) environment can give new possibilities to control and manipulate radiative processes of atoms or molecules nearby, such as the cooperative decay, and strongly indicate a similar possibility for other radiative processes, for example the resonance interaction and the energy transfer between atoms or molecules.
翻訳日:2023-04-29 18:06:49 公開日:2021-02-11
# 単一光子を用いた決定論的量子トッフォリゲートの実現

Realization of a deterministic quantum Toffoli gate with a single photon ( http://arxiv.org/abs/2010.14776v3 )

ライセンス: Link先を確認
Shihao Ru, Yunlong Wang, Min An, Feiran Wang, Pei Zhang, and Fuli Li(参考訳) NOTゲートやトフォリゲートを含む量子制御論理ゲートは、多くの量子情報処理スキームにおいて重要な役割を果たす。 我々は、軌道角運動量と1光子の偏光度を利用して決定論的トフォリゲートを設計、実験的に実証する。 さらに,制御notゲートを用いてベル状態を生成する。 実験におけるトフォリゲートの有効変換率は$(95.1\pm3.2)\%$である。 さらに、我々の実験装置は補助光子や確率的ポストセレクションを必要としない。

Quantum controlled-logic gates, including controlled NOT gate and Toffoli gate, play critical roles in lots of quantum information processing schemes. We design and experimentally demonstrate deterministic Toffoli gate by utilizing orbital-angular-momentum and polarization degrees of freedom of a single photon. In addition, we generate Bell states by using the controlled NOT gate. The effective conversion rate of the Toffoli gate in our experiment is $(95.1\pm3.2)\%$. Furthermore, our experimental setup does not require any auxiliary photons and probabilistic post selections.
翻訳日:2023-04-27 06:32:23 公開日:2021-02-11
# 励起状態量子相転移

Excited-state quantum phase transitions ( http://arxiv.org/abs/2011.01662v3 )

ライセンス: Link先を確認
Pavel Cejnar, Pavel Str\'ansk\'y, Michal Macek, Michal Kloc(参考訳) 有限個の自由度を持つ多体相互作用系における励起状態量子相転移(ESQPT)の効果を概観する。 エネルギー固有状態のスペクトルにおける典型的なESQPTシグネチャを、基礎となる古典力学に関して分類し、それらが起こる様々な量子系を概説する。 マイクロカノニカル熱力学や量子クエンチ力学のようなESQPTの熱力学的および動的結果、およびほぼ断熱的または周期的駆動に対する応答について述べる。 周期格子や共鳴トンネル系におけるESQPTの概念の一般化を示唆する。

We review the effects of excited-state quantum phase transitions (ESQPTs) in interacting many-body systems with finite numbers of collective degrees of freedom. We classify typical ESQPT signatures in the spectra of energy eigenstates with respect to the underlying classical dynamics and outline a variety of quantum systems in which they occur. We describe thermodynamic and dynamic consequences of ESQPTs, like those in microcanonical thermodynamics, quantum quench dynamics, and in the response to nearly adiabatic or periodic driving. We hint at some generalizations of the ESQPT concept in periodic lattices and in resonant tunneling systems.
翻訳日:2023-04-25 11:47:14 公開日:2021-02-11
# フェルミオンおよびボソニック熱浴に完全結合した量子系における平衡の欠如の適用性

Applicability of the absence of equilibrium in quantum system fully coupled to several fermionic and bosonic heat baths ( http://arxiv.org/abs/2012.08123v3 )

ライセンス: Link先を確認
V. V. Sargsyan, A. A. Hovhannisyan, G. G. Adamian, N. V. Antonenko, and D. Lacroix(参考訳) 占有数の時間発展は、複数のフェルミオン熱浴とボソニック熱浴に線形に結合したフェルミオンまたはボソニック振動子に対して研究されている。 統計値の異なる温熱貯水池の特性が非定常人口確率に及ぼす影響を大規模に解析した。 動的(非定常)メモリストレージを作成するシステムにおける平衡の欠如の応用について述べる。

The time evolution of occupation number is studied for fermionic or bosonic oscillator linearly fully coupled to several fermionic and bosonic heat baths. The influence of characteristics of thermal reservoirs of different statistics on the non-stationary population probability is analyzed at large times. Applications of the absence of equilibrium in such systems for creating a dynamic (nonstationary) memory storage are discussed.
翻訳日:2023-04-20 19:14:36 公開日:2021-02-11
# Shor と Steane の間: エラー症候群を計測するための統一構成

Between Shor and Steane: A unifying construction for measuring error syndromes ( http://arxiv.org/abs/2012.15403v2 )

ライセンス: Link先を確認
Shilin Huang and Kenneth R. Brown(参考訳) フォールトトレラント量子誤差補正は、量子データ上の相関誤差を最小化する方法でエラーシンドロームを測定する必要がある。 steaneとshor ancillaは、フォールトトレラントシンドロームの抽出法としてよく知られている。 本稿では,shor と steane の間を補間するアンシラブロック群を生成する統一構造を見いだす。 このファミリーは、エラーを耐障害的に測定するために必要な測定ラウンドを減らすために、アンシラ構築の複雑さを増大させる。 次に、この構成を$L\times L$のトーリックコードに適用し、$m\times m$のブロックを使って、$O(L/m)$の計測ラウンドでエラーを復号できることを示す。 この手法は任意のCalderbank-Shor-Steane符号に適用でき、フォールトトレラント量子計算を最適化するための新しい方向を示す。

Fault-tolerant quantum error correction requires the measurement of error syndromes in a way that minimizes correlated errors on the quantum data. Steane and Shor ancilla are two well-known methods for fault-tolerant syndrome extraction. In this paper, we find a unifying construction that generates a family of ancilla blocks that interpolate between Shor and Steane. This family increases the complexity of ancilla construction in exchange for reducing the rounds of measurement required to fault-tolerantly measure the error. We then apply this construction to the toric code of size $L\times L$ and find that blocks of size $m\times m$ can be used to decode errors in $O(L/m)$ rounds of measurements. Our method can be applied to any Calderbank-Shor-Steane codes and presents a new direction for optimizing fault-tolerant quantum computation.
翻訳日:2023-04-18 05:54:24 公開日:2021-02-11
# 非マルコフ開量子系における期待同期合成

Expectation Synchronization Synthesis in Non-Markovian Open Quantum Systems ( http://arxiv.org/abs/2101.00833v2 )

ライセンス: Link先を確認
Shikun Zhang, Kun Liu, Daoyi Dong, Xiaoxue Feng, Feng Pan(参考訳) 本稿では,非マルコフ量子系における工学的同期問題について検討する。 まず,多重色雑音入力によって駆動される局所量子系のハイゼンベルク発展を記述する,線形量子確率微分方程式を導出する。 次に、2つのサブシステムからなる拡張システムにおいて量子期待同期を定義する。 2つのホモ固有サブシステムに対して、非マルコフ性が一定のしきい値以下であることから、直接ハミルトニアンカップリングを設計することなく、同期は常に合成可能であることが証明される。 システムパラメータは量子同期を達成するために明示的に設計されている。 また,結果を説明するために数値的な例を示す。

In this article, we investigate the problem of engineering synchronization in non-Markovian quantum systems. First, a time-convoluted linear quantum stochastic differential equation is derived which describes the Heisenberg evolution of a localized quantum system driven by multiple colored noise inputs. Then, we define quantum expectation synchronization in an augmented system consisting of two subsystems. We prove that, for two homogenous subsystems, synchronization can always be synthesized without designing direct Hamiltonian coupling given that the degree of non-Markovianity is below a certain threshold. System parameters are explicitly designed to achieve quantum synchronization. Also, a numerical example is presented to illustrate our results.
翻訳日:2023-04-17 22:25:47 公開日:2021-02-11
# ホモダイン検出制御のための新しい変調方式

A Novel Modulation Scheme for Homodyne Detection Control ( http://arxiv.org/abs/2101.01741v2 )

ライセンス: Link先を確認
Danial Shadmany, Benjamin Lane, Vivishek Sudhir, Nergis Mavalvala(参考訳) ホモダイン検出器によって測定される二次数を制御することは、連続変数量子光学における普遍的なタスクである。 しかし、二次角の極域を越えて線形な誤差信号の導出は、まだ実験的な問題である。 本稿では,一般化可能な変調器を用いて,そのような誤り信号を生成する手法を提案する。

Controlling the quadrature measured by a homodyne detector is a universal task in continuous-variable quantum optics. However, deriving an error signal that is linear across theentire range of quadrature angles remains an open experimental problem. Here we propose a scheme to produce such an error signal through the use of a universally tunable modulator.
翻訳日:2023-04-17 19:49:08 公開日:2021-02-11
# 強射影2-設計に関する一考察

A note on tight projective 2-designs ( http://arxiv.org/abs/2101.11756v2 )

ライセンス: Link先を確認
Joseph W. Iverson, Emily J. King, Dustin G. Mixon(参考訳) 厳密な2-設計を3つの異なる設定で検討する。 複素集合において、ザウナーの予想はすべての次元において密接な射影 2-設計の存在を予測する。 Pandey, Paulsen, Prakash, Rahaman らは最近、ある量子チャネルの絡み合うランクの点で、この予想を定量的に前進させるアプローチを提案した。 この量は最小の重み付き射影2-設計の大きさに等しいことを示す。 次に、有限体設定において、射影2-デザインの概念を導入し、そのような射影2-デザインがタイトな場合に特徴付けし、そのようなオブジェクトの構成を提供する。 最後に、四元数的設定において、H^d のすべての強射影 2-設計が、次元 3 の R^d(2d+1) の d(2d-1) 部分空間の等アイソクリニックな強融合フレームを決定することを示す。

We study tight projective 2-designs in three different settings. In the complex setting, Zauner's conjecture predicts the existence of a tight projective 2-design in every dimension. Pandey, Paulsen, Prakash, and Rahaman recently proposed an approach to make quantitative progress on this conjecture in terms of the entanglement breaking rank of a certain quantum channel. We show that this quantity is equal to the size of the smallest weighted projective 2-design. Next, in the finite field setting, we introduce a notion of projective 2-designs, we characterize when such projective 2-designs are tight, and we provide a construction of such objects. Finally, in the quaternionic setting, we show that every tight projective 2-design for H^d determines an equi-isoclinic tight fusion frame of d(2d-1) subspaces of R^d(2d+1) of dimension 3.
翻訳日:2023-04-13 12:05:55 公開日:2021-02-11
# 量子情報に関する修正講座:チャネルの紹介とブラックホールとAdS/CFTへの応用

Modave Lectures on Quantum Information: An Introduction to Channels and Applications to Black Holes and AdS/CFT ( http://arxiv.org/abs/2102.02066v2 )

ライセンス: Link先を確認
Aidan Chatwin-Davies(参考訳) これらのノートは、量子重力に関する現代の研究で顕著に見られる量子情報科学のコアアイデアをいくつか紹介している。 これらの音符の基礎となる中心的な概念は、量子チャネル、つまり量子状態とヒルベルト空間上の作用素の間の最も一般的な物理的に理性的な写像である。 いくつかの基本を精査した後、チャネルとその特性を研究し、量子チャネルの観点から量子誤差補正を定式化する。 その過程では、ブラックホール情報問題やAdS/CFTのバルク再構成など、高エネルギー物理学におけるいくつかの問題が、設定中の情報理論言語にどのようにキャストできるかを確認する。

These notes introduce a handful of core ideas from quantum information science that figure prominently in modern research on quantum gravity. The central concept that forms the base of these notes is that of a quantum channel; that is, the most general physically-reasonable map between quantum states and between operators on Hilbert space. After reviewing some fundamentals, we will study channels and their properties, and then go on to formulate quantum error correction in terms of quantum channels. Along the way, we will see how a handful of problems in high energy physics, such as the black hole information problem and bulk reconstruction in AdS/CFT, can be cast in the information-theoretic language being set up.
翻訳日:2023-04-12 22:24:43 公開日:2021-02-11
# シュロディンガー波自己回帰移動平均モデルによる普遍的消音ノイズインジェクション

Universal Dephasing Noise Injection via Schrodinger Wave Autoregressive Moving Average Models ( http://arxiv.org/abs/2102.03370v2 )

ライセンス: Link先を確認
Andrew Murphy, Jacob Epstein, Gregory Quiroz, Kevin Schultz, Lina Tewala, Kyle McElroy, Colin Trout, Brian Tien-Street, Joan A. Hoffmann, B. D. Clader, Junling Long, David P. Pappas, Timothy M. Sweeney(参考訳) クラウドベースの量子プロセッサを含む任意の単一量子ビット回転が可能なシステムに適用可能な量子回路における任意のスペクトルのノイズ注入法を提案し,検証する。 時間的相関ノイズが量子アルゴリズムの性能に与える影響はよく理解されていないため、そのようなノイズを量子システムで設計し注入する能力は最重要である。 これまで、ノイズ注入機能は制限され、プラットフォーム固有のもので、制御ハードウェアへの低レベルアクセスが必要だった。 我々は,量子ノイズ分光法と古典的信号解析を組み合わせた直接ハードウェアベースノイズ注入法との比較により,我々の普遍的手法を実験的に検証し,両手法が一致することを示す。 これらの結果は、理論と実験の研究者が量子特性評価プロトコルや量子アルゴリズムの検証、評価、改善に利用できる、ノイズ注入の非常に多用途な方法を示している。

We present and validate a novel method for noise injection of arbitrary spectra in quantum circuits that can be applied to any system capable of executing arbitrary single qubit rotations, including cloud-based quantum processors. As the consequences of temporally-correlated noise on the performance of quantum algorithms are not well understood, the capability to engineer and inject such noise in quantum systems is paramount. To date, noise injection capabilities have been limited and highly platform specific, requiring low-level access to control hardware. We experimentally validate our universal method by comparing to a direct hardware-based noise-injection scheme, using a combination of quantum noise spectroscopy and classical signal analysis to show that the two approaches agree. These results showcase a highly versatile method for noise injection that can be utilized by theoretical and experimental researchers to verify, evaluate, and improve quantum characterization protocols and quantum algorithms for sensing and computing.
翻訳日:2023-04-12 11:41:28 公開日:2021-02-11
# 機械学習と適応アルゴリズムを用いたイオントラップ内の成層電界の動的補償

Dynamic compensation of stray electric fields in an ion trap using machine learning and adaptive algorithm ( http://arxiv.org/abs/2102.05830v1 )

ライセンス: Link先を確認
Moji Ghadimi, Alexander Zappacosta, Jordan Scarabel, Kenji Shimizu, Erik W Streed and Mirko Lobino(参考訳) 表面イオントラップは、量子コンピューティングマシンをスケールアップするための最も有望な技術であるが、その複雑な多電極形状は、野良電場に対する補償、モデリングのレベルと実用的な実装の両方に挑戦するなど、いくつかのタスクをこなすことができる。 本稿では,深層学習ネットワークを訓練した勾配降下アルゴリズムと機械学習手法を用いて,成層電界の補償を示す。 チップトラップ面に照射された紫外レーザー光による誘導帯電に対して自動動的補償試験を行った。 その結果,手作業による補償よりも勾配降下と機械学習による補償が向上した。 この改善は、369.5nmでの^2$s$_{1/2}\leftrightarrow^2$p$_{1/2}$ドップラー冷却遷移の7.8mhzに調整されたレーザーによって駆動される捕獲された$^{171}$yb$^+$イオンに対して、それぞれ78%と96%の蛍光率の増加から推測される。

Surface ion traps are among the most promising technologies for scaling up quantum computing machines, but their complicated multi-electrode geometry can make some tasks, including compensation for stray electric fields, challenging both at the level of modeling and of practical implementation. Here we demonstrate the compensation of stray electric fields using a gradient descent algorithm and a machine learning technique, which trained a deep learning network. We show automated dynamical compensation tested against induced electric charging from UV laser light hitting the chip trap surface. The results show improvement in compensation using gradient descent and the machine learner over manual compensation. This improvement is inferred from an increase of the fluorescence rate of 78% and 96% respectively, for a trapped $^{171}$Yb$^+$ ion driven by a laser tuned to -7.8 MHz of the $^2$S$_{1/2}\leftrightarrow^2$P$_{1/2}$ Doppler cooling transition at 369.5 nm.
翻訳日:2023-04-11 12:17:29 公開日:2021-02-11
# 多レベル原子における双極子-双極子周波数シフト

Dipole-dipole frequency shifts in multilevel atoms ( http://arxiv.org/abs/2102.05786v1 )

ライセンス: Link先を確認
A. Cidrim, A. Pi\~neiro Orioli, C. Sanner, R. B. Hutson, J. Ye, R. Bachelard, A. M. Rey(参考訳) 双極子-双極子相互作用は、次世代原子時計の性能を制限する周波数シフトをもたらす。 本研究では,標準ラムゼー分光法における固有原子多レベル構造を考慮した双極子周波数シフトを計算する。 最小のクレプシュ・ゴルダン係数を特徴とする遷移を問うとき、単純化された2段階の処理は、大きなゼーマンシフトが存在する場合でも不適切になる。 このような場合、双極子周波数シフトの抑制と、実験的なパラメータに対する支配的な非古典的効果の出現を示す。 我々の発見は、現在の光学格子と光ツイーザークロックの世代に関係しており、その現在の精度をさらに高める方法が開かれ、それによって基礎的および多体物理学の探究が可能となる。

Dipole-dipole interactions lead to frequency shifts that are expected to limit the performance of next-generation atomic clocks. In this work, we compute dipolar frequency shifts accounting for the intrinsic atomic multilevel structure in standard Ramsey spectroscopy. When interrogating the transitions featuring the smallest Clebsch-Gordan coefficients, we find that a simplified two-level treatment becomes inappropriate, even in the presence of large Zeeman shifts. For these cases, we show a net suppression of dipolar frequency shifts and the emergence of dominant non-classical effects for experimentally relevant parameters. Our findings are pertinent to current generations of optical lattice and optical tweezer clocks, opening a way to further increase their current accuracy, and thus their potential to probe fundamental and many-body physics.
翻訳日:2023-04-11 12:16:58 公開日:2021-02-11
# QAOAグラフ構造がMaxCutに及ぼす影響

Impact of Graph Structures for QAOA on MaxCut ( http://arxiv.org/abs/2102.05997v1 )

ライセンス: Link先を確認
Rebekah Herrman, Lorna Treffert, James Ostrowski, Phillip C. Lotshaw, Travis S. Humble and George Siopsis(参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子コンピューティングを用いて組合せ最適化問題を解決するための有望な方法である。 MaxCut問題に関するQAOAは、グラフの特定の族について広く研究されているが、任意のグラフ上のアルゴリズムについてはほとんど知られていない。 我々は,最大8頂点の連結非同型グラフに対して,最大3の深さでのQAOAの性能を評価し,グラフ構造がQAOAのパフォーマンスに与える影響を分析する。 QAOAの成功の最も強い予測要因は、奇環の存在とグラフ内の対称性の量である。 これらの研究から得られたデータは、公開アクセス可能なデータベースで共有され、QAOA計算と実験のベンチマークとして機能する。 構造と性能の関係を知ることで、量子的な優位性を示す可能性のある組合せ問題のクラスを識別することができる。

The quantum approximate optimization algorithm (QAOA) is a promising method of solving combinatorial optimization problems using quantum computing. QAOA on the MaxCut problem has been studied extensively on specific families of graphs, however, little is known about the algorithm on arbitrary graphs. We evaluate the performance of QAOA at depths at most three on the MaxCut problem for all connected non-isomorphic graphs with at most eight vertices and analyze how graph structure affects QAOA performance. Some of the strongest predictors of QAOA success are the existence of odd-cycles and the amount of symmetry in the graph. The data generated from these studies are shared in a publicly-accessible database to serve as a benchmark for QAOA calculations and experiments. Knowing the relationship between structure and performance can allow us to identify classes of combinatorial problems that are likely to exhibit a quantum advantage.
翻訳日:2023-04-11 12:12:20 公開日:2021-02-11
# 行列積状態を持つ超高速量子非線形光学の効率的なシミュレーション

Efficient simulation of ultrafast quantum nonlinear optics with matrix product states ( http://arxiv.org/abs/2102.05902v1 )

ライセンス: Link先を確認
Ryotatsu Yanagimoto, Edwin Ng, Logan G. Wright, Tatsuhiro Onodera, Hideo Mabuchi(参考訳) 非線形ナノフォトニック導波路で伝播する超短パルスは、時間的および空間的磁場閉じ込めの両方を同時に利用でき、全フォトニックプラットフォームにおける単光子非線形性への道のりを約束する。 しかし、このマルチモード量子状態において、パルスダイナミクスの忠実な数値シミュレーションは指数関数的に大きいヒルベルト空間における状態の表現を必要とする。 ここでは,時間領域行列積状態(mps)表現を用いて,システムの絡み合い構造を利用して効率的なシミュレーションを行う。 これらのシミュレーションから物理的洞察を抽出するために、mps量子状態を構成時相スーパーモードに解き放ち、例えば任意のパルス波形の位相空間ポートレートへのアクセスを可能にするアルゴリズムを開発した。 実演として、量子状態におけるケーラーソリトンの正確な数値シミュレーションを行う。 我々は、ソリトニックモードにおける非古典的ウィグナー関数ネガティビティの発達とパルスの半古典的ダイナミクスに対する量子補正を観察する。 同様の解析により、$\chi^{(2)}$ simultons は基本と第二高調の間の一意な絡み合い構造を示す。 このアプローチは量子軌道理論とも容易に対応でき、伝播損失とデコヒーレンスを完全に量子的に扱うことができる。 本研究は,広帯域量子フォトニクスの新興分野のための統一エンジニアリングフレームワークの一部として,MPS技術を確立することを期待する。

Ultra-short pulses propagating in nonlinear nanophotonic waveguides can simultaneously leverage both temporal and spatial field confinement, promising a route towards single-photon nonlinearities in an all-photonic platform. In this multimode quantum regime, however, faithful numerical simulations of pulse dynamics na\"ively require a representation of the state in an exponentially large Hilbert space. Here, we employ a time-domain, matrix product state (MPS) representation to enable efficient simulations by exploiting the entanglement structure of the system. In order to extract physical insight from these simulations, we develop an algorithm to unravel the MPS quantum state into constituent temporal supermodes, enabling, e.g., access to the phase-space portraits of arbitrary pulse waveforms. As a demonstration, we perform exact numerical simulations of a Kerr soliton in the quantum regime. We observe the development of non-classical Wigner-function negativity in the solitonic mode as well as quantum corrections to the semiclassical dynamics of the pulse. A similar analysis of $\chi^{(2)}$ simultons reveals a unique entanglement structure between the fundamental and second harmonic. Our approach is also readily compatible with quantum trajectory theory, allowing full quantum treatment of propagation loss and decoherence. We expect this work to establish the MPS technique as part of a unified engineering framework for the emerging field of broadband quantum photonics.
翻訳日:2023-04-11 12:11:00 公開日:2021-02-11
# マルチストリームプラズマにおける量子干渉と位相混合

Quantum Interference and Phase Mixing in Multistream Plasmas ( http://arxiv.org/abs/2102.05880v1 )

ライセンス: Link先を確認
M. Akbari-Moghanjoughi(参考訳) 本稿では, 種々の電子ビーム-プラズモン相互作用効果を研究するために, 運動補正Schr\"{o}dinger-Poissonモデルを用いて擬力系を求める。 非相互作用ストリームモデルは、量子電子ビーム干渉と電子流体のアハロノフ・ボーム効果を調べるために用いられる。 このモデルは、軌道準粒子速度、加速、およびストリーミングパワーを調べるために、2ストリームの量子流体モデルにさらに拡張される。 2流モデルにおける量子相の混合は、ドップラーシフトによる2流プラズマ不安定の原因として知られるドップラー電子デブロリー波数による準粒子伝導帯の重なりによるものであることが示されている。 しかし、この場合、相混合はストリームマージや後方散乱のような新しい現象を引き起こす。 モデルの有効性を示すために、異なるビーム、イオン、格子パラメトリック配置における電子線-フォノンおよび電子線-格子相互作用を調べるために用いられる。 ビームの電流密度は、異なる対称および非対称運動量密度配置のための空間安定で減衰する準粒子軌道で研究される。 これらの基本モデルは量子相混合と量子レベルでの散乱の理解を深め、複雑な量子プラズマにおける電磁電子ビーム-プラズモン相互作用を研究するのに役立てることができる。

In this paper the kinetic corrected Schr\"{o}dinger-Poisson model is used to obtain the pseudoforce system in order to study variety of streaming electron beam-plasmon interaction effects. The noninteracting stream model is used to investigate the quantum electron beam interference and electron fluid Aharonov-Bohm effects. The model is further extended to interacting two-stream quantum fluid model in order to investigate the orbital quasiparticle velocity, acceleration and streaming power. It is shown that quantum phase mixing in the two-stream model is due to quasiparticle conduction band overlap caused by the Doppler shift in streaming electron de Broglie wavenumbers, a phenomenon which is also known to be a cause for two-stream plasma instability. However, in this case the phase mixing leads to some novel phenomena like stream merging and backscattering. To show the effectiveness of model, it is used to investigate the electron beam-phonon and electron beam-lattice interactions in different beam, ion and lattice parametric configurations. Current density of beam is studied in spatially stable and damping quasiparticle orbital for different symmetric and asymmetric momentum-density arrangements. These basic models may be helpful in better understanding of quantum phase mixing and scattering at quantum level and can be elaborated to study electromagnetic electron beam-plasmon interactions in complex quantum plasmas.
翻訳日:2023-04-11 12:10:14 公開日:2021-02-11
# 中間設計の探索

Searching for Designs in-between ( http://arxiv.org/abs/2102.05864v1 )

ライセンス: Link先を確認
Camilo Cruz Gambardella and Jon McCormack(参考訳) デザインとアートにおける進化的手法の使用は多様性と人気が高まっている。 これらの手法を創造的生産に利用するアプローチは、一般的に最適化または探索に焦点を当てる。 本稿では,この2つのアプローチを組み合わせて,デザイン指向の適合度尺度と独自の美的嗜好を用いて,デザイン代替案の景観を探索するデザイン進化システムを提案する。 本手法は,3Dプリンティングツールパス命令として直接エクスポート可能な3Dオブジェクトを生成可能な,生物学的にインスパイアされた生成システムを用いて試験する。 システムの探索段階では,CMA-ESアルゴリズムを用いて生成したオブジェクト間の線形補間を最適化し,特徴探索を行う。 我々は,高度に適合したアーティファクトを進化させ,それらを審美的に興味深いものと組み合わせることで,システムの能力を調べる。

The use of evolutionary methods in design and art is increasing in diversity and popularity. Approaches to using these methods for creative production typically focus either on optimisation or exploration. In this paper we introduce an evolutionary system for design that combines these two approaches, enabling users to explore landscapes of design alternatives using design-oriented measures of fitness, along with their own aesthetic preferences. We test our methods using a biologically-inspired generative system capable of producing 3D objects that can be exported directly as 3D printing toolpath instructions. For the search stage of our system we combine the use of the CMA-ES algorithm for optimisation and linear interpolation between generated objects for feature exploration. We investigate the system`s capabilities by evolving highly fit artefacts and then combining them with aesthetically interesting ones.
翻訳日:2023-04-11 12:09:52 公開日:2021-02-11
# 繰り返し誤差補正によるビット・位相反転誤差の指数的抑制

Exponential suppression of bit or phase flip errors with repetitive error correction ( http://arxiv.org/abs/2102.06132v1 )

ライセンス: Link先を確認
Zijun Chen, Kevin J. Satzinger, Juan Atalaya, Alexander N. Korotkov, Andrew Dunsworth, Daniel Sank, Chris Quintana, Matt McEwen, Rami Barends, Paul V. Klimov, Sabrina Hong, Cody Jones, Andre Petukhov, Dvir Kafri, Sean Demura, Brian Burkett, Craig Gidney, Austin G. Fowler, Harald Putterman, Igor Aleiner, Frank Arute, Kunal Arya, Ryan Babbush, Joseph C. Bardin, Andreas Bengtsson, Alexandre Bourassa, Michael Broughton, Bob B. Buckley, David A. Buell, Nicholas Bushnell, Benjamin Chiaro, Roberto Collins, William Courtney, Alan R. Derk, Daniel Eppens, Catherine Erickson, Edward Farhi, Brooks Foxen, Marissa Giustina, Jonathan A. Gross, Matthew P. Harrigan, Sean D. Harrington, Jeremy Hilton, Alan Ho, Trent Huang, William J. Huggins, L. B. Ioffe, Sergei V. Isakov, Evan Jeffrey, Zhang Jiang, Kostyantyn Kechedzhi, Seon Kim, Fedor Kostritsa, David Landhuis, Pavel Laptev, Erik Lucero, Orion Martin, Jarrod R. McClean, Trevor McCourt, Xiao Mi, Kevin C. Miao, Masoud Mohseni, Wojciech Mruczkiewicz, Josh Mutus, Ofer Naaman, Matthew Neeley, Charles Neill, Michael Newman, Murphy Yuezhen Niu, Thomas E. O'Brien, Alex Opremcak, Eric Ostby, B\'alint Pat\'o, Nicholas Redd, Pedram Roushan, Nicholas C. Rubin, Vladimir Shvarts, Doug Strain, Marco Szalay, Matthew D. Trevithick, Benjamin Villalonga, Theodore White, Z. Jamie Yao, Ping Yeh, Adam Zalcman, Hartmut Neven, Sergio Boixo, Vadim Smelyanskiy, Yu Chen, Anthony Megrant, Julian Kelly(参考訳) 量子コンピューティングの可能性を実現するには、十分に低い論理エラー率を達成する必要がある。 多くのアプリケーションが10^{-15}$でエラー率を求めるが、最先端の量子プラットフォームは一般的に10^{-3}$に近い物理エラー率を持つ。 量子誤り訂正(QEC)は、多くの物理量子ビットに量子論理情報を分散することにより、誤りを検出し、修正することを約束する。 論理エラーは、物理エラー率が一定のしきい値以下であれば、物理キュービット数が増えるにつれて指数関数的に抑制される。 QECはまた、エラーは局所的であり、多くの誤り訂正ラウンドで性能が維持されていることを要求している。 ここでは、超伝導量子ビットの2次元グリッドに埋め込まれた1次元反復符号を実装し、ビット数を5から21に増やす場合、1ラウンドあたりの論理誤差を100\times$以上減少させる。 重要な点として、このエラー抑制は50回のエラー訂正で安定している。 また,誤差相関を高精度に解析し,初めてQECを行う装置における誤差の局所性を特徴付ける手法を提案する。 最後に、同一デバイス上で小さな2次元曲面符号論理量子ビットを用いて誤差検出を行い、1D符号と2D符号の両方の結果が単純な非偏極誤差モデルを用いて数値シミュレーションと一致することを示す。 これらの結果は、超伝導量子ビットがフォールトトレラント量子コンピューティングへの道筋上にあることを示している。

Realizing the potential of quantum computing will require achieving sufficiently low logical error rates. Many applications call for error rates in the $10^{-15}$ regime, but state-of-the-art quantum platforms typically have physical error rates near $10^{-3}$. Quantum error correction (QEC) promises to bridge this divide by distributing quantum logical information across many physical qubits so that errors can be detected and corrected. Logical errors are then exponentially suppressed as the number of physical qubits grows, provided that the physical error rates are below a certain threshold. QEC also requires that the errors are local and that performance is maintained over many rounds of error correction, two major outstanding experimental challenges. Here, we implement 1D repetition codes embedded in a 2D grid of superconducting qubits which demonstrate exponential suppression of bit or phase-flip errors, reducing logical error per round by more than $100\times$ when increasing the number of qubits from 5 to 21. Crucially, this error suppression is stable over 50 rounds of error correction. We also introduce a method for analyzing error correlations with high precision, and characterize the locality of errors in a device performing QEC for the first time. Finally, we perform error detection using a small 2D surface code logical qubit on the same device, and show that the results from both 1D and 2D codes agree with numerical simulations using a simple depolarizing error model. These findings demonstrate that superconducting qubits are on a viable path towards fault tolerant quantum computing.
翻訳日:2023-04-11 12:03:28 公開日:2021-02-11
# 超伝導量子誤差補正における漏洩誘起相関誤差の除去

Removing leakage-induced correlated errors in superconducting quantum error correction ( http://arxiv.org/abs/2102.06131v1 )

ライセンス: Link先を確認
M. McEwen, D. Kafri, Z. Chen, J. Atalaya, K. J. Satzinger, C. Quintana, P. V. Klimov, D. Sank, C. Gidney, A. G. Fowler, F. Arute, K. Arya, B. Buckley, B. Burkett, N. Bushnell, B. Chiaro, R. Collins, S.Demura, A. Dunsworth, C. Erickson, B. Foxen, M. Giustina, T. Huang, S. Hong, E. Jeffrey, S. Kim, K.Kechedzhi, F. Kostritsa, P. Laptev, A. Megrant, X. Mi, J. Mutus, O. Naaman, M. Neeley, C. Neill, M.Niu, A. Paler, N. Redd, P. Roushan, T. C. White, J. Yao, P. Yeh, A. Zalcman, Yu Chen, V. N.Smelyanskiy, John M. Martinis, H. Neven, J. Kelly, A. N. Korotkov, A. G. Petukhov and R. Barends(参考訳) 量子コンピューティングは誤り訂正によってスケーラブルになるが、物理誤差が十分に相関しない場合にのみ論理誤差率が減少する。 計算中、量子ビットの未使用高エネルギーレベルは興奮し、長期間持続し、移動可能な漏れ状態を生成する。 特に超伝導トランスモン量子ビットの場合、この漏洩は空間と時間で相関する誤差への道を開く。 ここでは、関連するすべての高レベル状態から基底状態に量子ビットを返すリセットプロトコルを報告する。 量子誤差補正のための表面符号の簡易版であるbit-flip stabilizer codeを用いてその性能をテストする。 誤差補正における漏洩の蓄積とダイナミクスについて検討する。 このプロトコルを用いることで、論理エラーの頻度が低くなり、量子ビット数の増加によるスケーリングとエラー抑制の安定性が向上する。 このデモは、スケーラブルな量子コンピューティングへの道のりの重要なステップを提供する。

Quantum computing can become scalable through error correction, but logical error rates only decrease with system size when physical errors are sufficiently uncorrelated. During computation, unused high energy levels of the qubits can become excited, creating leakage states that are long-lived and mobile. Particularly for superconducting transmon qubits, this leakage opens a path to errors that are correlated in space and time. Here, we report a reset protocol that returns a qubit to the ground state from all relevant higher level states. We test its performance with the bit-flip stabilizer code, a simplified version of the surface code for quantum error correction. We investigate the accumulation and dynamics of leakage during error correction. Using this protocol, we find lower rates of logical errors and an improved scaling and stability of error suppression with increasing qubit number. This demonstration provides a key step on the path towards scalable quantum computing.
翻訳日:2023-04-11 12:03:00 公開日:2021-02-11
# キラル分子の物質波干渉によるエナンチオマーの重ね合わせ

Enantiomer superpositions from matter-wave interference of chiral molecules ( http://arxiv.org/abs/2102.06124v1 )

ライセンス: Link先を確認
Benjamin A. Stickler, Mira Diekmann, Robert Berger, Daqing Wang(参考訳) 分子物質波干渉計は、複雑な分子の内部力学運動を操作するための新しい戦略を可能にする。 ここでは, 2つのエナンチオマーの量子重ね合わせにおいて, 遠方界物質波回折によってキラル分子がどのように生成するか, トンネル力学がどのように観測されるかを示す。 Hundのパラドックスを解くために,エナンチオマー依存力,パリティを侵害する弱い相互作用,環境が引き起こす利き手の超選択を検知するためのセットアップを提案する。 その結果, [4]-ヘリセン誘導体を最先端の手法で提案手法を実装できる候補として同定した。 この研究は、キラル分子による量子センシングとメトロロジーの扉を開く。

Molecular matter-wave interferometry enables novel strategies for manipulating the internal mechanical motion of complex molecules. Here, we show how chiral molecules can be prepared in a quantum superposition of two enantiomers by far-field matter-wave diffraction and how the resulting tunnelling dynamics can be observed. We determine the impact of ro-vibrational phase averaging and propose a setup for sensing enantiomer-dependent forces, parity-violating weak interactions, and environment-induced superselection of handedness, as suggested to resolve Hund's paradox. Using ab-initio tunnelling calculations, we identify [4]-helicene derivatives as promising candidates to implement the proposal with state-of-the-art techniques. This work opens the door for quantum sensing and metrology with chiral molecules.
翻訳日:2023-04-11 12:02:37 公開日:2021-02-11
# ゲートGaAsナノフォトニック導波路の電気吸収

Electroabsorption in gated GaAs nanophotonic waveguides ( http://arxiv.org/abs/2102.06119v1 )

ライセンス: Link先を確認
Ying Wang, Ravitej Uppu, Xiaoyan Zhou, Camille Papon, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Peter Lodahl, Leonardo Midolo(参考訳) 極薄GaAs/Al$_{0.3}$Ga$_{0.7}$Asナノフォトニック導波路の電気吸収の解析について報告する。 異なる長さの導波路による伝送を計測することにより、電界、波長、温度の関数として伝搬損失を導出する。 この結果は、gaasバンドギャップの200mev以下、すなわち910--970nmの波長範囲に広がるフランツ・ケルディッシュの電気吸収モデルとよく一致している。 その結果,導波路表面のフェルミレベルピンニングにより,室温で20db/mm以上の損失が生じた。 これらの結果は、スケーラブルな量子フォトニック集積回路の実現に向けて、自己組立InAs半導体量子ドットの放出範囲で動作するナノフォトニックデバイスにおける損失の起源を理解するために不可欠である。

We report on the analysis of electroabsorption in thin GaAs/Al$_{0.3}$Ga$_{0.7}$As nanophotonic waveguides with an embedded $p$-$i$-$n$ junction. By measuring the transmission through waveguides of different lengths, we derive the propagation loss as a function of electric field, wavelength, and temperature. The results are in good agreement with the Franz-Keldysh model of electroabsorption extending over 200 meV below the GaAs bandgap, i.e. in the 910--970 nm wavelength range. We find a pronounced residual absorption in forward bias, which we attribute to Fermi-level pinning at the waveguide surface, producing over 20 dB/mm loss at room temperature. These results are essential for understanding the origin of loss in nanophotonic devices operating in the emission range of self-assembled InAs semiconductor quantum dots, towards the realization of scalable quantum photonic integrated circuits.
翻訳日:2023-04-11 12:01:53 公開日:2021-02-11
# 指数ポテンシャルの散乱状態と有界状態

Scattering states and bound states of exponential potentials ( http://arxiv.org/abs/2102.06095v1 )

ライセンス: Link先を確認
Zafar Ahmed and H F Jones(参考訳) 我々は、指数ポテンシャルの異なる非解析セグメント(|x|$)の散乱状態と有界状態の関係を探求し、Ahmedらによる以前の論文で見つかった特別な散乱状態の状態を解明する。 同様の解析は、x^3$のような非解析的なパワーポテンシャルのセグメントからできる。

We explore the relationships between scattering states and bound states of different non-analytic segments (depending on $|x|$) of the exponential potential, and elucidate the status of the special scattering states found in an earlier publication by Ahmed et al. A similar analysis can be made of non-analytic segments of power potentials such as $x^3$.
翻訳日:2023-04-11 12:00:56 公開日:2021-02-11
# 1次元低エネルギー散乱の動的定式化

Dynamical formulation of low-energy scattering in one dimension ( http://arxiv.org/abs/2102.06084v1 )

ライセンス: Link先を確認
Farhang Loran and Ali Mostafazadeh(参考訳) 短距離ポテンシャルの移動行列 ${\mathbf{m}}$ は、時間に依存しない非エルミート的ハミルトニアンを持つ有効な2段階量子系に対する時間発展作用素の項で表現できる。 これは定常散乱の動的定式化につながる。 散乱データの低エネルギー挙動の研究において, この定式化の有用性を検討する。 特に指数関数的に崩壊するポテンシャルに対して、波動数で${\mathbf{M}}$の級数展開において任意の順序の項を計算するための単純な反復スキームを考案する。 この級数の係数は、ゼロエネルギー定常Schr\"odinger方程式の解の対で決定される。 後者の方程式に対する遷移行列を導入し、有効二段階量子系に対する時間進化作用素の項で表現し、それを用いてゼロエネルギー定常Schr\odinger方程式の解に対する摂動級数展開を得る。 提案手法では,全線および半線の散乱ポテンシャルに対するゼロエネルギー共鳴を,ポテンシャルのゼロエネルギー移動行列の成分の零点,あるいはその自明な全線への拡張で同定することができる。

The transfer matrix ${\mathbf{M}}$ of a short-range potential may be expressed in terms of the time-evolution operator for an effective two-level quantum system with a time-dependent non-Hermitian Hamiltonian. This leads to a dynamical formulation of stationary scattering. We explore the utility of this formulation in the study of the low-energy behavior of the scattering data. In particular, for the exponentially decaying potentials, we devise a simple iterative scheme for computing terms of arbitrary order in the series expansion of ${\mathbf{M}}$ in powers of the wavenumber. The coefficients of this series are determined in terms of a pair of solutions of the zero-energy stationary Schr\"odinger equation. We introduce a transfer matrix for the latter equation, express it in terms of the time-evolution operator for an effective two-level quantum system, and use it to obtain a perturbative series expansion for the solutions of the zero-energy stationary Schr\"odinger equation. Our approach allows for identifying the zero-energy resonances for scattering potentials in both full line and half-line with zeros of the entries of the zero-energy transfer matrix of the potential or its trivial extension to the full line.
翻訳日:2023-04-11 12:00:49 公開日:2021-02-11
# ソフトウェアスタートアップの教育:グロースハックのゲーム化

Software startup education: gamifying growth hacking ( http://arxiv.org/abs/2102.09366v1 )

ライセンス: Link先を確認
Kai-Kristian Kemell, Polina Feshchenko, Joonas Himmanen, Abrar Hossain, Furqan Jameel, Raffaele Luigi Puca, Teemu Vitikainen, Joni Kultanen, Juhani Risku, Johannes Impi\"o, Anssi Sorvisto, Pekka Abrahamsson(参考訳) スタートアップは高度にスケーラブルなビジネスモデルを作ろうとしている。 スタートアップにとって成長は不可欠だ。 グロースハッキング(英: growth hacking)は、様々なスタートアップ実践者が提唱するマーケティング戦略である。 既存のプラットフォームをクリエイティブな方法で活用して、より多くのユーザを獲得しながら、低コストなプラクティスの利用に重点を置いている。 一般レベルでのマーケティングのようなグロースハックに関連するトピックは過去に広く研究されてきたが、実践者によるトピックとしてのグロースハックは学界ではあまり注目されていない。 グロースハッキングへの関心を喚起し,アカデミアにおけるグロースハッキングの指導を容易にするため,学生へのグロースハッキングの誘引的導入を意図した2つのボードゲームを提案する。

Startups seek to create highly scalable business models. For startups, growth is thus vital. Growth hacking is a marketing strategy advocated by various startup practitioner experts. It focuses on using low cost practices while utilizing existing platforms in creative ways to gain more users for the service. Though topics related to growth hacking such as marketing on a general level have been extensively studied in the past, growth hacking as a practitioner-born topic has not seen much interesting among the academia. To both spark interest in growth hacking, and to facilitate teaching growth hacking in the academia, we present two board games intended to serve as an engaging introduction to growth hacking for students.
翻訳日:2023-04-11 11:53:45 公開日:2021-02-11
# 教育における人工知能技術 : 実施のメリット,課題,戦略

Artificial Intelligence Technologies in Education: Benefits, Challenges and Strategies of Implementation ( http://arxiv.org/abs/2102.09365v1 )

ライセンス: Link先を確認
Mieczys{\l}aw L. Owoc, Agnieszka Sawicka, Pawe{\l} Weichbroth(参考訳) 教育部門は情報システムによって制御・維持される高度にダイナミックなビジネス環境に関連付けられているため、近年の技術進歩と人工知能(AI)技術の導入ペースは、教育部門におけるその実施に関する問題を識別・分析する必要がある。 しかし、現代文学の研究により、この地域での研究はほとんど行われていないことが判明した。 この空白を埋めるために、私たちは、AIの概念とその進化に関する短い議論に先立って、教育部門で人工知能を実装することの利点と課題を特定しました。 さらに,現在ソフトウェアマーケットで利用可能である学習者や教育者のための最新のai技術をレビューし,その有用性を評価した。 最後に、我々は、対応する構成ガイドとともに、5段階の汎用プロセスによって記述された戦略実装モデルを開発した。 本研究は,3つの高等教育機関を対象とした3つの実践戦略を別々に開発した。 得られた結果は、AIシステム、サービス、ツールの特異性をよりよく理解し、その後、その実装において円滑な道を歩むのに役立つと信じています。

Since the education sector is associated with highly dynamic business environments which are controlled and maintained by information systems, recent technological advancements and the increasing pace of adopting artificial intelligence (AI) technologies constitute a need to identify and analyze the issues regarding their implementation in education sector. However, a study of the contemporary literature reveled that relatively little research has been undertaken in this area. To fill this void, we have identified the benefits and challenges of implementing artificial intelligence in the education sector, preceded by a short discussion on the concepts of AI and its evolution over time. Moreover, we have also reviewed modern AI technologies for learners and educators, currently available on the software market, evaluating their usefulness. Last but not least, we have developed a strategy implementation model, described by a five-stage, generic process, along with the corresponding configuration guide. To verify and validate their design, we separately developed three implementation strategies for three different higher education organizations. We believe that the obtained results will contribute to better understanding the specificities of AI systems, services and tools, and afterwards pave a smooth way in their implementation.
翻訳日:2023-04-11 11:53:35 公開日:2021-02-11
# サービスとしての倫理:AI倫理の実践的運用

Ethics as a service: a pragmatic operationalisation of AI Ethics ( http://arxiv.org/abs/2102.09364v1 )

ライセンス: Link先を確認
Jessica Morley, Anat Elhalal, Francesca Garcia, Libby Kinsey, Jakob Mokander, Luciano Floridi(参考訳) 人工知能(AI)の潜在的な使用範囲が増加するにつれて、特に機械学習(ML)が増加し、関連する倫理的問題が認識されるようになった。 この認識の高まりは、既存の法律や規制が個人、グループ、社会、およびaiの有害な環境に対して不十分な保護を提供するという認識につながった。 この実現に対応して、原則に基づく倫理規定、ガイドライン、およびフレームワークが急増した。 しかし、AI倫理原則の理論とAIシステムの実践的設計との間には、大きなギャップがあることがますます明らかになっている。 これまでの研究で、AI開発者、エンジニア、デザイナが原則を実践に翻訳するのを助けるために設計されたツールとメソッドを使用することによって、AI倫理の何とどのようにしてこのギャップを埋めることができるのかを分析しました。 既存の翻訳ツールや手法のほとんどすべてが柔軟すぎる(従って倫理的な洗浄に弱い)か、厳格すぎる(文脈に反応しない)ため、この方法は現在効果がないと結論づけた。 技術的ガイダンスがあっても、AI倫理がアルゴリズム設計のプロセスに組み込むのが難しいとしたら、倫理的デザインの取り組み全体が無駄になるのだろうか? そうでなければ、AI実践者にとってどのようにAI倫理が役立つのか? これは我々がここで取り組もうとしている問題であり、原則や技術翻訳ツールが制限されたとしてもまだ必要である理由、そしてこれらの制限が、サービスとしての倫理と呼ばれる概念の理論的根拠を提供することによってどのように克服できるのかを探求することで解決しようとしている。

As the range of potential uses for Artificial Intelligence (AI), in particular machine learning (ML), has increased, so has awareness of the associated ethical issues. This increased awareness has led to the realisation that existing legislation and regulation provides insufficient protection to individuals, groups, society, and the environment from AI harms. In response to this realisation, there has been a proliferation of principle-based ethics codes, guidelines and frameworks. However, it has become increasingly clear that a significant gap exists between the theory of AI ethics principles and the practical design of AI systems. In previous work, we analysed whether it is possible to close this gap between the what and the how of AI ethics through the use of tools and methods designed to help AI developers, engineers, and designers translate principles into practice. We concluded that this method of closure is currently ineffective as almost all existing translational tools and methods are either too flexible (and thus vulnerable to ethics washing) or too strict (unresponsive to context). This raised the question: if, even with technical guidance, AI ethics is challenging to embed in the process of algorithmic design, is the entire pro-ethical design endeavour rendered futile? And, if no, then how can AI ethics be made useful for AI practitioners? This is the question we seek to address here by exploring why principles and technical translational tools are still needed even if they are limited, and how these limitations can be potentially overcome by providing theoretical grounding of a concept that has been termed Ethics as a Service.
翻訳日:2023-04-11 11:53:15 公開日:2021-02-11
# オンチップ実時間乱数抽出を用いた高速集積量子乱数生成法

A High Speed Integrated Quantum Random Number Generator with on-Chip Real-Time Randomness Extraction ( http://arxiv.org/abs/2102.06238v1 )

ライセンス: Link先を確認
Francesco Regazzoni, Emna Amri, Samuel Burri, Davide Rusca, Hugo Zbinden, Edoardo Charbon(参考訳) 電子機器のセキュリティは、急速に広がる普及とハイパーコネクテッドワールドにとって重要な要件となっている。 セキュアな通信を保証する堅牢なセキュリティプロトコル、攻撃に対するデバイスのレジリエンス、認証コントロール、ユーザのプライバシを実装する必要がある。 乱数生成器(rng)は、最も安全なプロトコルでは基本的なプリミティブであるが、しばしば最も弱いプロトコルでもある。 数十億のデバイスにセキュリティを確立するには、十分なスループットで高品質なランダムデータを生成する必要がある。 一方、RNGはオンチップ抽出による高い統合レベルを示し、リアルタイムに潜在的な欠陥を取り除く必要がある。 標準CMOS技術ノードに最初の集積量子RNG(QRNG)を提示する。 qrngは独立な単光子アバランシェダイオード(spad)の並列配列に基づいており、直流偏光ledで均一に照らされ、後処理のための共集積論理回路である。 我々はランダム性生成過程を記述し、エントロピーの量子起源を証明する。 組み合わせ論理の共統合は,高い複雑性であっても,ランダム性の品質に影響を与えないことを示す。 私たちのCMOS QRNGは、低消費電力で400Mbit/sのスループットに到達できます。 標準のCMOS技術とモジュールアーキテクチャのおかげで、QRNGは高度にスケーラブルなソリューションに適している。

The security of electronic devices has become a key requisite for the rapidly-expanding pervasive and hyper-connected world. Robust security protocols ensuring secure communication, device's resilience to attacks, authentication control and users privacy need to be implemented. Random Number Generators (RNGs) are the fundamental primitive in most secure protocols but, often, also the weakest one. Establishing security in billions of devices requires high quality random data generated at a sufficiently high throughput. On the other hand, the RNG should exhibit a high integration level with on-chip extraction to remove, in real time, potential imperfections. We present the first integrated Quantum RNG (QRNG) in a standard CMOS technology node. The QRNG is based on a parallel array of independent Single-Photon Avalanche Diodes (SPADs), homogeneously illuminated by a DC-biased LED, and co-integrated logic circuits for postprocessing. We describe the randomness generation process and we prove the quantum origin of entropy. We show that co-integration of combinational logic, even of high complexity, does not affect the quality of randomness. Our CMOS QRNG can reach up to 400 Mbit/s throughput with low power consumption. Thanks to the use of standard CMOS technology and a modular architecture, our QRNG is suitable for a highly scalable solution.
翻訳日:2023-04-11 11:52:23 公開日:2021-02-11
# 相対論的Schr{\'o}dinger-Newtonモデルにおける重力による波動関数の崩壊

Wavefunction collapse induced by gravity in a relativistic Schr{\''o}dinger-Newton model ( http://arxiv.org/abs/2102.06218v1 )

ライセンス: Link先を確認
Luis A. Poveda, Luis Grave de Peralta, Arquimedes Ruiz-Columbi\'e(参考訳) schr{\"o}dinger-newton方程式の相対論的バージョンは、最近提案されたgrave de peraltaアプローチで解析された [l]。 Grave de Peralta, {\em results Phys. } {\bf 18} (2020) 103318] は、非相対論的ハミルトニアンのパラメトリゼーションによる相対論的効果を含み、系の平均運動エネルギーが相対論的運動エネルギーと一致することを強制する。 この方法の信頼性は、箱内の粒子に対して試験される。 この方法をSchr{\"o}dinger-Newton方程式に適用することにより、モデル [L] の特徴的長さが示される。 Di{\'o}si, {\displaystyle Phys} の略。 Lett}。 bf 105A} (1984) 199] はプランク質量のオーダーの質量に対してゼロとなり、重力によって誘起される波香の崩壊を示唆している。

A relativistic version of the Schr{\"o}dinger-Newton equation is analyzed within the recently proposed Grave de Peralta approach [L. Grave de Peralta, {\em Results Phys.} {\bf 18} (2020) 103318], which include relativistic effects by a parametrization of the non-relativistic hamiltonian, so as to impose that the average kinetic energy of the system coincide with its relativistic kinetic energy. The reliability of this method is tested for the particle in a box. By applying this method to the Schr{\"o}dinger-Newton equation we shows that the characteristic length of the model [L. Di{\'o}si, {\em Phys. Lett}. {\bf 105A} (1984) 199] goes to zero for a mass of the order of the Planck mass, suggesting a collapse of the wavefuncton, induced by gravity.
翻訳日:2023-04-11 11:52:03 公開日:2021-02-11
# wigner 3jm記号の新しい和則:水素イオンの期待値への応用

New sum rules for Wigner 3jm symbols: application to expectation values of hydrogenic ions ( http://arxiv.org/abs/2102.06133v1 )

ライセンス: Link先を確認
Jean-Christophe Pain and Franck Gilleron(参考訳) これは通常の重み付け係数$(2j + 1)$であり、ここで$j$は角運動量であり、$[j(j + 1)]^k$は$k \ge 1$である。 和規則は例えばモーメントの理論における回転スペクトルの統計的モデリングに現れ、球面座標における$r^k$の期待値から放物線座標における$r^k$(水素イオンに対するスターク効果の理論で使用される)の期待値を推定することができる。

We present new sum rules for $3jm$ coefficients, which involve, in addition to the usual weighting factor $(2j + 1)$ where $j$ is an angular momentum, the quantity $[j(j + 1)]^k$ with $k \ge 1$. The sum rules appear for instance in the statistical modeling of rotational spectra within the theory of moments, and enable one to deduce the expectation values of $r^k$ (used in the theory of Stark effect for hydrogenic ions) in parabolic coordinates from the expectation values of $r^k$ in spherical coordinates.
翻訳日:2023-04-11 11:50:46 公開日:2021-02-11
# 実効訓練可能な半量子制限ボルツマンマシン

Effectively Trainable Semi-Quantum Restricted Boltzmann Machine ( http://arxiv.org/abs/2001.08997v4 )

ライセンス: Link先を確認
Ya. S. Lyakhova, E. A. Polyakov, A. N. Rubtsov(参考訳) 本研究では,非干渉フェルミオンとして隠れた単位が量子化されるのに対し,可視単位は古典的のままである制限ボルツマン機械(rbm)のための新しい量子モデルを提案する。 フェルミオンの自由運動は、可視単位の古典的な信号とパラメトリックに結合される。 このモデルは隠れた単位間のコヒーレンスのような量子的挙動を持つ。 数値実験により、この事実は隠蔽ユニット数の同じ古典的RBMよりも強力であることが示されている。 同時に、量子ボルツマンマシン(qbm)に対する他のアプローチよりも提案されているモデルの大きな利点は、古典的なコンピュータ上で正確に解くことができ、効率的に訓練可能であることである。 この事実は、仮説量子シミュレータのモデルとしてだけでなく、量子に着想を得た古典的機械学習アルゴリズムとしても興味深い。

We propose a novel quantum model for the restricted Boltzmann machine (RBM), in which the visible units remain classical whereas the hidden units are quantized as noninteracting fermions. The free motion of the fermions is parametrically coupled to the classical signal of the visible units. This model possesses a quantum behaviour such as coherences between the hidden units. Numerical experiments show that this fact makes it more powerful than the classical RBM with the same number of hidden units. At the same time, a significant advantage of the proposed model over the other approaches to the Quantum Boltzmann Machine (QBM) is that it is exactly solvable and efficiently trainable on a classical computer: there is a closed expression for the log-likelihood gradient with respect to its parameters. This fact makes it interesting not only as a model of a hypothetical quantum simulator, but also as a quantum-inspired classical machine-learning algorithm.
翻訳日:2023-01-07 05:07:44 公開日:2021-02-11
# 適応近似ポリシー反復

Adaptive Approximate Policy Iteration ( http://arxiv.org/abs/2002.03069v4 )

ライセンス: Link先を確認
Botao Hao, Nevena Lazic, Yasin Abbasi-Yadkori, Pooria Joulani, Csaba Szepesvari(参考訳) 値関数近似と組み合わされたモデルフリー強化学習アルゴリズムは、最近様々なアプリケーションドメインで印象的なパフォーマンスを達成している。 しかし、そのようなアルゴリズムの理論的理解は限られており、既存の結果は主にエピソードまたは割引マルコフ決定過程(MDP)に焦点を当てている。 本研究では,一様エルゴード MDP における学習を継続し,未報告で $\tilde{O}(T^{2/3})$ regret bound を楽しむ学習スキームである適応近似ポリシー反復 (AAPI) を提案する。 これは、関数近似を持つ平均後退の場合に対して、最良限の$\tilde{o}(t^{3/4})$に対する改善である。 我々のアルゴリズムと分析は、価値関数を損失として扱うオンライン学習技術に依存している。 主な技術的特徴は、データ依存型適応学習率と、今後の損失の楽観的予測の組み合わせである。 理論的保証に加えて,いくつかの環境におけるアプローチの利点を実証的に示す。

Model-free reinforcement learning algorithms combined with value function approximation have recently achieved impressive performance in a variety of application domains. However, the theoretical understanding of such algorithms is limited, and existing results are largely focused on episodic or discounted Markov decision processes (MDPs). In this work, we present adaptive approximate policy iteration (AAPI), a learning scheme which enjoys a $\tilde{O}(T^{2/3})$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPs. This is an improvement over the best existing bound of $\tilde{O}(T^{3/4})$ for the average-reward case with function approximation. Our algorithm and analysis rely on online learning techniques, where value functions are treated as losses. The main technical novelty is the use of a data-dependent adaptive learning rate coupled with a so-called optimistic prediction of upcoming losses. In addition to theoretical guarantees, we demonstrate the advantages of our approach empirically on several environments.
翻訳日:2023-01-02 22:21:08 公開日:2021-02-11
# 非スムース非凸最適化のための運動量付き確率勾配法の収束

Convergence of a Stochastic Gradient Method with Momentum for Non-Smooth Non-Convex Optimization ( http://arxiv.org/abs/2002.05466v2 )

ライセンス: Link先を確認
Vien V. Mai and Mikael Johansson(参考訳) モーメントを持つ確率勾配法は、多くの一般的な機械学習ライブラリのアプリケーションや最適化サブルーチンのコアで広く使われている。 しかし、それらのサンプルの複雑さは凸や滑らかな問題以外には得られていない。 本稿では,非滑らか,非凸,制約付き最適化問題の幅広いクラスに対して,Polyak型のモーメント項を持つ確率的次数分解法の収束率を確立する。 我々の重要な革新は、運動量パラメータのチューニングなしに証明された複雑性を達成できる特別なリャプノフ函数の構築である。 スムーズな問題に対しては、制約されたケースに縛られた既知の複雑性を拡張し、制約のないケースが最先端技術よりも弱い仮定の下でどのように分析できるかを示す。 数値的な結果は我々の理論的発展を裏付ける。

Stochastic gradient methods with momentum are widely used in applications and at the core of optimization subroutines in many popular machine learning libraries. However, their sample complexities have not been obtained for problems beyond those that are convex or smooth. This paper establishes the convergence rate of a stochastic subgradient method with a momentum term of Polyak type for a broad class of non-smooth, non-convex, and constrained optimization problems. Our key innovation is the construction of a special Lyapunov function for which the proven complexity can be achieved without any tuning of the momentum parameter. For smooth problems, we extend the known complexity bound to the constrained case and demonstrate how the unconstrained case can be analyzed under weaker assumptions than the state-of-the-art. Numerical results confirm our theoretical developments.
翻訳日:2023-01-01 13:49:10 公開日:2021-02-11
# 自己回帰構造予測における不確かさ推定

Uncertainty Estimation in Autoregressive Structured Prediction ( http://arxiv.org/abs/2002.07650v5 )

ライセンス: Link先を確認
Andrey Malinin, Mark Gales(参考訳) 不確実性推定は、AIシステムの安全性と堅牢性を保証するために重要である。 この領域のほとんどの研究は非構造化予測タスクに焦点を当てているが、限定的な研究は構造化予測に対する一般的な不確実性推定アプローチを調査している。 そこで本研究では,統一的かつ解釈可能な確率的アンサンブルに基づくフレームワークにおける自己回帰的構造化予測タスクの不確実性推定について検討する。 トークンレベルおよび完全シーケンスレベルにおけるシーケンスデータの不確実性推定、不確実性のさまざまな尺度の解釈と適用、およびそれらの取得に関する理論的および実践的課題について考察する。 また、トークンレベルおよびシーケンスレベルエラー検出のベースラインと、wmt'14英語フランス語およびwmt'17英語ドイツ語翻訳およびlibrispeech音声認識データセットのシーケンスレベルのドメイン外入力検出を提供する。

Uncertainty estimation is important for ensuring safety and robustness of AI systems. While most research in the area has focused on un-structured prediction tasks, limited work has investigated general uncertainty estimation approaches for structured prediction. Thus, this work aims to investigate uncertainty estimation for autoregressive structured prediction tasks within a single unified and interpretable probabilistic ensemble-based framework. We consider: uncertainty estimation for sequence data at the token-level and complete sequence-level; interpretations for, and applications of, various measures of uncertainty; and discuss both the theoretical and practical challenges associated with obtaining them. This work also provides baselines for token-level and sequence-level error detection, and sequence-level out-of-domain input detection on the WMT'14 English-French and WMT'17 English-German translation and LibriSpeech speech recognition datasets.
翻訳日:2022-12-30 18:57:34 公開日:2021-02-11
# SURF: シンプルで普遍的でロバストで高速な分布学習アルゴリズム

SURF: A Simple, Universal, Robust, Fast Distribution Learning Algorithm ( http://arxiv.org/abs/2002.09589v2 )

ライセンス: Link先を確認
Yi Hao, Ayush Jain, Alon Orlitsky, Vaishakh Ravindrakumar(参考訳) サンプルおよび計算効率の分布推定は統計学と機械学習の基本的な要素である。 分割多項式による分布の近似アルゴリズム SURF を提案する。 SURF is: simple, replacing prior complex optimization techniques by straight-forward {empirical probability} approximation of each potential polynomial piece {through simple empirical-probability interpolation}, and using plain divide-and-conquer to merge the pieces; universal, as well-known polynomial-approximation results imply that it accurately approximates a large class of common distributions; robust to distribution mis-specification as for any degree $d \le 8$, it estimates any distribution to an $\ell_1$ distance $< 3$ times that of the nearest degree-$d$ piecewise polynomial, improving known factor upper bounds of 3 for single polynomials and 15 for polynomials with arbitrarily many pieces; fast, using optimal sample complexity, running in near sample-linear time, and if given sorted samples it may be parallelized to run in sub-linear time. 実験では、SURFは最先端のアルゴリズムより優れている。

Sample- and computationally-efficient distribution estimation is a fundamental tenet in statistics and machine learning. We present SURF, an algorithm for approximating distributions by piecewise polynomials. SURF is: simple, replacing prior complex optimization techniques by straight-forward {empirical probability} approximation of each potential polynomial piece {through simple empirical-probability interpolation}, and using plain divide-and-conquer to merge the pieces; universal, as well-known polynomial-approximation results imply that it accurately approximates a large class of common distributions; robust to distribution mis-specification as for any degree $d \le 8$, it estimates any distribution to an $\ell_1$ distance $< 3$ times that of the nearest degree-$d$ piecewise polynomial, improving known factor upper bounds of 3 for single polynomials and 15 for polynomials with arbitrarily many pieces; fast, using optimal sample complexity, running in near sample-linear time, and if given sorted samples it may be parallelized to run in sub-linear time. In experiments, SURF outperforms state-of-the art algorithms.
翻訳日:2022-12-29 19:18:32 公開日:2021-02-11
# 幅広いベースラインにわたる画像マッチング:紙から実践へ

Image Matching across Wide Baselines: From Paper to Practice ( http://arxiv.org/abs/2003.01587v5 )

ライセンス: Link先を確認
Yuhe Jin and Dmytro Mishkin and Anastasiia Mishchuk and Jiri Matas and Pascal Fua and Kwang Moo Yi and Eduard Trulls(参考訳) 我々は,局所的特徴量とロバスト推定アルゴリズムの包括的なベンチマークを導入し,下方課題 -- 再構成されたカメラポーズの精度 -- を主要な指標とした。 私たちのパイプラインのモジュール構造は、さまざまなメソッドとヒューリスティックの統合、構成、組み合わせを容易にします。 これは、数十の一般的なアルゴリズムを組み込んで、セレントな作品から機械学習研究の最先端まで、それらを評価することで実証される。 適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。 実験では、実際の技術の確立に加えて、アルゴリズムと学習方法の両方において、パフォーマンス向上に役立つStructure from Motion(SfM)パイプラインの予期せぬ特性を明らかにした。 データとコードはオンラインhttps://github.com/vcg-uvic/image-matching-benchmarkで、ローカル機能と堅牢な推定メソッドをベンチマークするための、使いやすい柔軟なフレームワークを提供する。 この作品は、画像マッチングチャレンジ https://vision.uvic.ca/image-matching-challengeの基礎を提供する。

We introduce a comprehensive benchmark for local features and robust estimation algorithms, focusing on the downstream task -- the accuracy of the reconstructed camera pose -- as our primary metric. Our pipeline's modular structure allows easy integration, configuration, and combination of different methods and heuristics. This is demonstrated by embedding dozens of popular algorithms and evaluating them, from seminal works to the cutting edge of machine learning research. We show that with proper settings, classical solutions may still outperform the perceived state of the art. Besides establishing the actual state of the art, the conducted experiments reveal unexpected properties of Structure from Motion (SfM) pipelines that can help improve their performance, for both algorithmic and learned methods. Data and code are online https://github.com/vcg-uvic/image-matching-benchmark, providing an easy-to-use and flexible framework for the benchmarking of local features and robust estimation methods, both alongside and against top-performing methods. This work provides a basis for the Image Matching Challenge https://vision.uvic.ca/image-matching-challenge.
翻訳日:2022-12-26 23:03:13 公開日:2021-02-11
# ヨーロッパ物質とモデリングオントロジーに基づく意味的相互運用とその存在論的パラダイム:メレオセミオティックス

Semantic interoperability based on the European Materials and Modelling Ontology and its ontological paradigm: Mereosemiotics ( http://arxiv.org/abs/2003.11370v4 )

ライセンス: Link先を確認
Martin Thomas Horsch and Silvia Chiacchiera and Bj\"orn Schembera and Michael A. Seaton and Ilian T. Todorov(参考訳) European Materials and Modelling Ontology (EMMO)は、近年、研究データ基盤のためのセマンティック相互運用性とデータ統合ソリューションをサポートすることを目的とした、トップレベルのオントロジーとして、計算分子工学とマルチスケールモデリングコミュニティにおいて進歩している。 本研究は,EMMOが物理系のモデルに適用可能であり,計算工学の実践で使用されるのと同じパラダイム(基本仮定のセット)に基づくトップレベルのオントロジーについて考察する。 このパラダイムはメレオトポロジー(メレオトポロジーとして拡張された)とセミオティックス(ピアースのアプローチに従う)を組み合わせたもので、メレオトポロジーと呼ばれる。 メレオセミズムを実装する複数の方法を比較し、このパラダイムに従うトップレベルのオントロジの可能なタイプからなる設計空間を特徴付ける。

The European Materials and Modelling Ontology (EMMO) has recently been advanced in the computational molecular engineering and multiscale modelling communities as a top-level ontology, aiming to support semantic interoperability and data integration solutions, e.g., for research data infrastructures. The present work explores how top-level ontologies that are based on the same paradigm - the same set of fundamental postulates - as the EMMO can be applied to models of physical systems and their use in computational engineering practice. This paradigm, which combines mereology (in its extension as mereotopology) and semiotics (following Peirce's approach), is here referred to as mereosemiotics. Multiple conceivable ways of implementing mereosemiotics are compared, and the design space consisting of the possible types of top-level ontologies following this paradigm is characterized.
翻訳日:2022-12-21 05:32:05 公開日:2021-02-11
# 機械学習における過小評価バイアスと過小評価

Underestimation Bias and Underfitting in Machine Learning ( http://arxiv.org/abs/2005.09052v3 )

ライセンス: Link先を確認
Padraig Cunningham, Sarah Jane Delany(参考訳) 機械学習におけるアルゴリズムバイアスと呼ばれるものは、トレーニングデータの歴史的なバイアスに起因することが多い。 しかし、時にはアルゴリズム自体によってバイアスがもたらされる(あるいは少なくとも悪化する)こともある。 アルゴリズムがバイアスを実際に強調する方法は、ソースが何であれバイアスを取り除く方法に直接焦点を当てる研究者からは、あまり注目されていない。 本稿では,分類アルゴリズムのバイアスに寄与する要因を理解するための初期研究について報告する。 私たちは、過大評価バイアスが不必要に正規化と結びついているため、これは重要であると信じています。

Often, what is termed algorithmic bias in machine learning will be due to historic bias in the training data. But sometimes the bias may be introduced (or at least exacerbated) by the algorithm itself. The ways in which algorithms can actually accentuate bias has not received a lot of attention with researchers focusing directly on methods to eliminate bias - no matter the source. In this paper we report on initial research to understand the factors that contribute to bias in classification algorithms. We believe this is important because underestimation bias is inextricably tied to regularization, i.e. measures to address overfitting can accentuate bias.
翻訳日:2022-12-01 23:03:24 公開日:2021-02-11
# 極端環境における予測サイバーリスク分析のための人工知能、機械学習、リアルタイムインテリジェンスをサポートした動的・自己適応システムの設計、火星植民地におけるサイバーリスク

Design of a dynamic and self adapting system, supported with artificial intelligence, machine learning and real time intelligence for predictive cyber risk analytics in extreme environments, cyber risk in the colonisation of Mars ( http://arxiv.org/abs/2005.12150v2 )

ライセンス: Link先を確認
Petar Radanliev, David De Roure, Kevin Page, Max Van Kleek, Omar Santos, La Treall Maddox, Pete Burnap, Eirini Anthi, Carsten Maple(参考訳) 複数の政府機関や民間組織が火星の植民地化を約束している。 このような植民地化には複雑なシステムとインフラが必要であり、サイバー攻撃の修復や置き換えには非常に費用がかかる。 本稿では、ディープラーニングアルゴリズム、iotサイバーセキュリティおよびリスクモデル、および、エッジコンピューティングにおける人工知能と機械学習とリアルタイムインテリジェンスをサポートする予測サイバーリスク分析のための動的かつ自己適応システムを開発するための最善のアプローチを特定するための数学式を確立した。 本稿では,認識エンジン設計,エッジコンピューティング,人工知能,機械学習の概念を統合し,異常検出を自動化するための数学的アプローチを提案する。 このエンジンは、iotネットワークの端に埋め込まれた人工知能と機械学習を適用し、予測サイバーリスク分析に安全で機能的なリアルタイムインテリジェンスを提供することで、ステップチェンジを起こす。 これにより、リスク分析の能力が向上し、エッジコンピューティングノードがデプロイされたり、人工知能と機械学習技術がインターネットの周辺やローカルIoTネットワークに移行した場合に発生する機会と脅威を包括的かつ体系的に理解するのに役立つ。

Multiple governmental agencies and private organisations have made commitments for the colonisation of Mars. Such colonisation requires complex systems and infrastructure that could be very costly to repair or replace in cases of cyber attacks. This paper surveys deep learning algorithms, IoT cyber security and risk models, and established mathematical formulas to identify the best approach for developing a dynamic and self adapting system for predictive cyber risk analytics supported with Artificial Intelligence and Machine Learning and real time intelligence in edge computing. The paper presents a new mathematical approach for integrating concepts for cognition engine design, edge computing and Artificial Intelligence and Machine Learning to automate anomaly detection. This engine instigates a step change by applying Artificial Intelligence and Machine Learning embedded at the edge of IoT networks, to deliver safe and functional real time intelligence for predictive cyber risk analytics. This will enhance capacities for risk analytics and assists in the creation of a comprehensive and systematic understanding of the opportunities and threats that arise when edge computing nodes are deployed, and when Artificial Intelligence and Machine Learning technologies are migrated to the periphery of the internet and into local IoT networks.
翻訳日:2022-12-01 13:40:49 公開日:2021-02-11
# ニューラルネットワークとリッジスプラインのためのバナッハ空間表現理論

Banach Space Representer Theorems for Neural Networks and Ridge Splines ( http://arxiv.org/abs/2006.05626v3 )

ライセンス: Link先を確認
Rahul Parhi and Robert D. Nowak(参考訳) データに適合するニューラルネットワークで学習した関数の性質を理解するための変分フレームワークを開発する。 データ適合制約を受けるラドン領域における全変分のような正則化を伴う連続領域線形逆問題群を提案し,研究する。 有限幅単層ニューラルネットワークがこれらの逆問題に対する解であることを示す代表者定理を導出する。 変動スプライン理論から多くの手法を導いており、活性化関数として停電電力関数を持つ単層ニューラルネットワークに対応する多項式リッジスプラインの概念を提案する。 表現型定理は古典的再現核ヒルベルト空間表現型定理を想起させるが、ニューラルネットワーク問題は非ヒルベルト的バナッハ空間上で生じることを示した。 学習問題は、カーネル法と同様に、連続領域で生じるが、問題は有限次元ニューラルネットワークトレーニング問題として再キャストすることができる。 これらのニューラルネットワークのトレーニング問題は、既知の重みの減衰とパスノルム正則化に関連する正則化子を持つ。 そこで,本研究では,学習ニューラルネットワークの機能的特徴や,設計ニューラルネットワークのレギュラライザについて考察する。 また、これらの正規化器は、望ましい一般化特性を持つニューラルネットワークソリューションを促進する。

We develop a variational framework to understand the properties of the functions learned by neural networks fit to data. We propose and study a family of continuous-domain linear inverse problems with total variation-like regularization in the Radon domain subject to data fitting constraints. We derive a representer theorem showing that finite-width, single-hidden layer neural networks are solutions to these inverse problems. We draw on many techniques from variational spline theory and so we propose the notion of polynomial ridge splines, which correspond to single-hidden layer neural networks with truncated power functions as the activation function. The representer theorem is reminiscent of the classical reproducing kernel Hilbert space representer theorem, but we show that the neural network problem is posed over a non-Hilbertian Banach space. While the learning problems are posed in the continuous-domain, similar to kernel methods, the problems can be recast as finite-dimensional neural network training problems. These neural network training problems have regularizers which are related to the well-known weight decay and path-norm regularizers. Thus, our result gives insight into functional characteristics of trained neural networks and also into the design neural network regularizers. We also show that these regularizers promote neural network solutions with desirable generalization properties.
翻訳日:2022-11-23 04:31:41 公開日:2021-02-11
# 健康ニュース記事の機械読解のための新しいベトナム語コーパス

New Vietnamese Corpus for Machine Reading Comprehension of Health News Articles ( http://arxiv.org/abs/2006.11138v2 )

ライセンス: Link先を確認
Kiet Van Nguyen, Tin Van Huynh, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen(参考訳) ベトナム語のような低リソース言語で機械読解モデルを評価するためには,大規模で高品質なコーパスが必要である。 さらに、医療分野の機械読影理解(MRC)は、実際的な応用には大きな可能性を秘めているが、この領域でのMRC研究はほとんどない。 本稿では,ベトナム語の読解モデルを評価する新しいコーパスとして,vinewsqaを提案する。 コーパスは22,057個の人間生成質問応答対からなる。 群衆労働者は、回答が対応する記事から抽出される4,416件以上のベトナムの医療ニュース記事のコレクションに基づいて、質問と回答を作成する。 特にベトナム語機械読解のためのコーパスを作成するプロセスを開発する。 包括的評価は、単語マッチングや難解推論といった単純な推論以上の能力を必要とすることを示す。 各種の機械読解法を用いて実験を行い、モデルの性能と比較して、最初のベースライン性能を実現する。 また、コーパス上での人間のパフォーマンスを測定し、強力なニューラルネットワークベースおよびトランスファー学習ベースモデルと比較する。 私たちの実験では、最高のマシンモデルはalbertで、65.26%の正確な一致スコアと84.89%のf1スコアを達成しています。 我々のコーパスのテストセットにおけるヒトとベストパフォーマンスモデル(EMの14.53%、F1スコアの10.90%)の有意差は、今後の研究でViNewsQAの改善が期待できることを示している。 我々のコーパスは、これらの改善を研究コミュニティに奨励する研究目的のために、我々のウェブサイトで公開されています。

Large-scale and high-quality corpora are necessary for evaluating machine reading comprehension models on a low-resource language like Vietnamese. Besides, machine reading comprehension (MRC) for the health domain offers great potential for practical applications; however, there is still very little MRC research in this domain. This paper presents ViNewsQA as a new corpus for the Vietnamese language to evaluate healthcare reading comprehension models. The corpus comprises 22,057 human-generated question-answer pairs. Crowd-workers create the questions and their answers based on a collection of over 4,416 online Vietnamese healthcare news articles, where the answers comprise spans extracted from the corresponding articles. In particular, we develop a process of creating a corpus for the Vietnamese machine reading comprehension. Comprehensive evaluations demonstrate that our corpus requires abilities beyond simple reasoning, such as word matching and demanding difficult reasoning based on single-or-multiple-sentence information. We conduct experiments using different types of machine reading comprehension methods to achieve the first baseline performances, compared with further models' performances. We also measure human performance on the corpus and compared it with several powerful neural network-based and transfer learning-based models. Our experiments show that the best machine model is ALBERT, which achieves an exact match score of 65.26% and an F1-score of 84.89% on our corpus. The significant differences between humans and the best-performance model (14.53% of EM and 10.90% of F1-score) on the test set of our corpus indicate that improvements in ViNewsQA could be explored in the future study. Our corpus is publicly available on our website for the research purpose to encourage the research community to make these improvements.
翻訳日:2022-11-19 04:52:17 公開日:2021-02-11
# 確率的性能保証を伴う最小二乗政策反復を用いたロバスト強化学習

Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees ( http://arxiv.org/abs/2006.11608v4 )

ライセンス: Link先を確認
Kishan Panaganti and Dileep Kalathil(参考訳) 本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。 RMDPフレームワークの目標は,シミュレータモデルと実世界の設定のミスマッチによるパラメータの不確実性に対して堅牢なポリシーを見つけることである。 まず,ポリシ評価のための多段階オンラインモデルフリー学習アルゴリズムであるロバスト最小二乗政策評価アルゴリズムを提案する。 確率近似手法を用いてこのアルゴリズムの収束を証明する。 次に,最適ロバストポリシを学習するためのロバスト最小二乗政策反復(rlspi)アルゴリズムを提案する。 また、結果のポリシーの誤差(最適性に近い)に束縛された一般の重み付きユークリッドノルムを与える。 最後に、いくつかの標準ベンチマーク問題に対して、RSPIアルゴリズムの性能を示す。

This paper addresses the problem of model-free reinforcement learning for Robust Markov Decision Process (RMDP) with large state spaces. The goal of the RMDP framework is to find a policy that is robust against the parameter uncertainties due to the mismatch between the simulator model and real-world settings. We first propose the Robust Least Squares Policy Evaluation algorithm, which is a multi-step online model-free learning algorithm for policy evaluation. We prove the convergence of this algorithm using stochastic approximation techniques. We then propose Robust Least Squares Policy Iteration (RLSPI) algorithm for learning the optimal robust policy. We also give a general weighted Euclidean norm bound on the error (closeness to optimality) of the resulting policy. Finally, we demonstrate the performance of our RLSPI algorithm on some standard benchmark problems.
翻訳日:2022-11-18 22:39:43 公開日:2021-02-11
# ミニマックス最適化のためのニュートン型手法

Newton-type Methods for Minimax Optimization ( http://arxiv.org/abs/2006.14592v2 )

ライセンス: Link先を確認
Guojun Zhang, Kaiwen Wu, Pascal Poupart and Yaoliang Yu(参考訳) 微分ゲーム、特に2プレイヤー連続ゼロサムゲーム(ミニマックス最適化)は応用科学において重要なモデリングツールであり、敵の訓練、生成モデル、強化学習など多くの最近の応用により機械学習に新たな関心が寄せられている。 しかし、既存の理論は、ほとんど例外なく凸凸函数に焦点を当てている。 本研究では,非凸非凸ミニマックス最適化のための2つのニュートン型アルゴリズムを提案する。 我々は、その局所収束を、大域解の代理である厳密な局所極小点で証明する。 私たちはニュートン型アルゴリズムが既存のアルゴリズムをうまく補完すると主張している。 (a) 厳密な局所極小点へより早く収束する。 (b)問題が不調な場合には、より効果的である。 (c)計算複雑性は相変わらず類似している。 我々はニュートン型アルゴリズムの有効性を、本質的に非凸かつ不条件であるGANの訓練実験を通じて検証する。

Differential games, in particular two-player sequential zero-sum games (a.k.a. minimax optimization), have been an important modeling tool in applied science and received renewed interest in machine learning due to many recent applications, such as adversarial training, generative models and reinforcement learning. However, existing theory mostly focuses on convex-concave functions with few exceptions. In this work, we propose two novel Newton-type algorithms for nonconvex-nonconcave minimax optimization. We prove their local convergence at strict local minimax points, which are surrogates of global solutions. We argue that our Newton-type algorithms nicely complement existing ones in that (a) they converge faster to strict local minimax points; (b) they are much more effective when the problem is ill-conditioned; (c) their computational complexity remains similar. We verify the effectiveness of our Newton-type algorithms through experiments on training GANs which are intrinsically nonconvex and ill-conditioned.
翻訳日:2022-11-17 03:38:34 公開日:2021-02-11
# トンプソンサンプリングによる変数選択

Variable Selection via Thompson Sampling ( http://arxiv.org/abs/2007.00187v2 )

ライセンス: Link先を確認
Yi Liu and Veronika Rockova(参考訳) トンプソンサンプリング(Thompson sample)は、機械学習において長い伝統を持つ多腕バンディット問題のヒューリスティックアルゴリズムである。 このアルゴリズムは、各腕の報酬確率の後方サンプルに基づいて腕を選択するという意味でベイズ精神を持つ。 そこで,組合わせバイナリバンディットとスパイク・アンド・スラブ変数選択の関連を鍛造することにより,集合選択に対する確率的最適化手法であるトンプソン変数選択 (tvs) を提案する。 TVSは、線形となるための基盤モデルに依存しない、解釈可能な機械学習のためのフレームワークである。 TVSはベイズ的強化と機械学習を融合させ、ベイズ的部分集合選択の到達範囲を非パラメトリックモデルや、非常に多くの予測子や観測値を持つ大規模なデータセットにまで拡張する。 報酬の選択によっては、TVSはオフラインでも、ストリーミングデータバッチを備えたオンラインセットアップでもデプロイできる。 可変選択にマルチプレイ・バンディットを配置することで、腕の平均報酬が無関係であると仮定することなく、後悔の限界を提供する。 シミュレーションデータと実データの両方に非常に強い経験的性能を示す。 スパイク・アンド・スラブ変数選択の決定論的最適化法とは異なり、確率的性質によりTVSは局所収束の傾向が小さくなり、より堅牢になる。

Thompson sampling is a heuristic algorithm for the multi-armed bandit problem which has a long tradition in machine learning. The algorithm has a Bayesian spirit in the sense that it selects arms based on posterior samples of reward probabilities of each arm. By forging a connection between combinatorial binary bandits and spike-and-slab variable selection, we propose a stochastic optimization approach to subset selection called Thompson Variable Selection (TVS). TVS is a framework for interpretable machine learning which does not rely on the underlying model to be linear. TVS brings together Bayesian reinforcement and machine learning in order to extend the reach of Bayesian subset selection to non-parametric models and large datasets with very many predictors and/or very many observations. Depending on the choice of a reward, TVS can be deployed in offline as well as online setups with streaming data batches. Tailoring multiplay bandits to variable selection, we provide regret bounds without necessarily assuming that the arm mean rewards be unrelated. We show a very strong empirical performance on both simulated and real data. Unlike deterministic optimization methods for spike-and-slab variable selection, the stochastic nature makes TVS less prone to local convergence and thereby more robust.
翻訳日:2022-11-14 23:55:11 公開日:2021-02-11
# メタラーニングによるマイトショットワンクラス分類

Few-Shot One-Class Classification via Meta-Learning ( http://arxiv.org/abs/2007.04146v2 )

ライセンス: Link先を確認
Ahmed Frikha, Denis Krompa{\ss}, Hans-Georg K\"opken and Volker Tresp(参考訳) 少数ショット学習と一クラス分類(OCC)、すなわち1つのクラスからのデータでバイナリ分類器を学ぶことは、別々に研究されているが、それらの交点はいまだに未解明のままである。 本研究は,数発のOCC問題に対処し,モデル非依存メタラーニング(MAML)アルゴリズムのエピソードデータサンプリング戦略を改良し,特に数発OCCタスクの学習に適したモデル初期化を学習する手法を提案する。 これは、クラスバランスのテストデータのパフォーマンスを向上するために、1クラスのミニバッチでグラデーションステップをほとんど必要としない初期化を明示的に最適化することで実現される。 我々は、我々のアプローチが数ショットのOCCシナリオで機能する理由を説明する理論分析を提供する一方で、修正されていないMAMLを含む他のメタ学習アルゴリズムは失敗する。 画像領域と時系列領域から得られた8つのデータセットを用いた実験により,従来のoccやマイナショット分類手法よりも優れた結果が得られ,ごく少数の正規クラスサンプルから未知のタスクを学習できることを示した。 さらに,CNCミリングマシンによる加工品製造中に記録されたセンサ読み取りを実世界の応用に応用するための異常検知器の訓練に成功し,通常の例は少ない。 最後に,提案手法により,最近のOCCにおけるメタ学習アルゴリズムの性能が向上し,この問題設定における最先端結果が得られることを示す。

Although few-shot learning and one-class classification (OCC), i.e., learning a binary classifier with data from only one class, have been separately well studied, their intersection remains rather unexplored. Our work addresses the few-shot OCC problem and presents a method to modify the episodic data sampling strategy of the model-agnostic meta-learning (MAML) algorithm to learn a model initialization particularly suited for learning few-shot OCC tasks. This is done by explicitly optimizing for an initialization which only requires few gradient steps with one-class minibatches to yield a performance increase on class-balanced test data. We provide a theoretical analysis that explains why our approach works in the few-shot OCC scenario, while other meta-learning algorithms fail, including the unmodified MAML. Our experiments on eight datasets from the image and time-series domains show that our method leads to better results than classical OCC and few-shot classification approaches, and demonstrate the ability to learn unseen tasks from only few normal class samples. Moreover, we successfully train anomaly detectors for a real-world application on sensor readings recorded during industrial manufacturing of workpieces with a CNC milling machine, by using few normal examples. Finally, we empirically demonstrate that the proposed data sampling technique increases the performance of more recent meta-learning algorithms in few-shot OCC and yields state-of-the-art results in this problem setting.
翻訳日:2022-11-12 10:10:34 公開日:2021-02-11
# 誰が犬を置き去りにしたの? ループ内最大化を期待する3次元動物再構成

Who Left the Dogs Out? 3D Animal Reconstruction with Expectation Maximization in the Loop ( http://arxiv.org/abs/2007.11110v2 )

ライセンス: Link先を確認
Benjamin Biggs, Oliver Boyne, James Charles, Andrew Fitzgibbon and Roberto Cipolla(参考訳) モノクラーインターネット画像から犬の3Dポーズと形状を復元する,エンドツーエンドの自動手法を提案する。 犬種間の形状の大きな変化、重要な排除、低品質のインターネット画像は、この問題を困難な問題にしている。 パラメータ推定を正則化するのに役立つ従来の作業よりも、よりリッチな形状の事前学習を行う。 2dジョイントとシルエットのアノテーションを収集した20,580個の犬画像のデータセットであるstanford dog datasetについて,トレーニングと評価のために分割した結果を示す。 犬の大きな形状を捉えるため、2dデータセットの自然な変化は期待最大化(em)によって詳細な3dを学習するのに十分であることを示す。 トレーニングの副産物として、新しいアノテーションデータセットであるStanfordExtraとともにリリースした新しいパラメータ化モデル(手足スケーリングを含む)を研究コミュニティに提供します。

We introduce an automatic, end-to-end method for recovering the 3D pose and shape of dogs from monocular internet images. The large variation in shape between dog breeds, significant occlusion and low quality of internet images makes this a challenging problem. We learn a richer prior over shapes than previous work, which helps regularize parameter estimation. We demonstrate results on the Stanford Dog dataset, an 'in the wild' dataset of 20,580 dog images for which we have collected 2D joint and silhouette annotations to split for training and evaluation. In order to capture the large shape variety of dogs, we show that the natural variation in the 2D dataset is enough to learn a detailed 3D prior through expectation maximization (EM). As a by-product of training, we generate a new parameterized model (including limb scaling) SMBLD which we release alongside our new annotation dataset StanfordExtra to the research community.
翻訳日:2022-11-08 05:13:26 公開日:2021-02-11
# 喜び:深くて軽い変圧器

DeLighT: Deep and Light-weight Transformer ( http://arxiv.org/abs/2008.00623v2 )

ライセンス: Link先を確認
Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, Hannaneh Hajishirzi(参考訳) 我々は,標準のトランスフォーマーモデルと非常に少ないパラメータで同等あるいは優れた性能を提供する,深層で軽量なトランスフォーマー,delightを導入する。 delight は (1) それぞれのトランスフォーマーブロック内で、delight 変換、深層および軽量変換、 (2) ブロックをまたいだblock-wise scaling を使ってパラメータを割り当て、入力付近で浅く、狭く、出力付近でより広く、より深いdelightブロックを割り当てる。 概して、喜びのネットワークは標準のトランスフォーマーモデルより2.5倍から4倍深く、パラメータや操作は少ない。 ベンチマーク機械翻訳と言語モデリングタスクの実験は、DeLighTが平均2~3倍のパラメータでベースライントランスフォーマーのパフォーマンスを一致または改善していることを示している。 ソースコードは \url{https://github.com/sacmehta/delight} で利用可能です。

We introduce a deep and light-weight transformer, DeLighT, that delivers similar or better performance than standard transformer-based models with significantly fewer parameters. DeLighT more efficiently allocates parameters both (1) within each Transformer block using the DeLighT transformation, a deep and light-weight transformation, and (2) across blocks using block-wise scaling, which allows for shallower and narrower DeLighT blocks near the input and wider and deeper DeLighT blocks near the output. Overall, DeLighT networks are 2.5 to 4 times deeper than standard transformer models and yet have fewer parameters and operations. Experiments on benchmark machine translation and language modeling tasks show that DeLighT matches or improves the performance of baseline Transformers with 2 to 3 times fewer parameters on average. Our source code is available at: \url{https://github.com/sacmehta/delight}
翻訳日:2022-11-03 05:48:38 公開日:2021-02-11
# トランスフォーマーasrの適応型マルチドメイン言語モデル

Adaptable Multi-Domain Language Model for Transformer ASR ( http://arxiv.org/abs/2008.06208v2 )

ライセンス: Link先を確認
Taewoo Lee, Min-Joong Lee, Tae Gyoon Kang, Seokyeoung Jung, Minseok Kwon, Yeona Hong, Jungin Lee, Kyoung-Gu Woo, Ho-Gyeong Kim, Jiseung Jeong, Jihyun Lee, Hosik Lee, Young Sang Choi(参考訳) 本稿では,Transformer ASRのためのアダプタベースマルチドメイントランスフォーマーベース言語モデル(LM)を提案する。 モデルは大型の共通LMと小型アダプタで構成されている。 このモデルは、小型アダプタとその関連レイヤのみを用いてマルチドメイン適応を行うことができる。 提案モデルでは,原モデルのすべての層を用いて微調整された完全微調整LMを再利用することができる。 提案されたlmは、第1ドメインのパラメータの約2%と第2ドメインの後のパラメータの13%を追加することで、新しいドメインに拡張できる。 提案モデルはまた,コストと時間を要する共通LM事前学習プロセスを省くことができるため,メンテナンスコストの削減にも有効である。 提案するアダプタベースアプローチを用いて,一般の lm with adapter がワードエラー率 (wer) の点で音楽領域 lm を上回ることを発見した。

We propose an adapter based multi-domain Transformer based language model (LM) for Transformer ASR. The model consists of a big size common LM and small size adapters. The model can perform multi-domain adaptation with only the small size adapters and its related layers. The proposed model can reuse the full fine-tuned LM which is fine-tuned using all layers of an original model. The proposed LM can be expanded to new domains by adding about 2% of parameters for a first domain and 13% parameters for after second domain. The proposed model is also effective in reducing the model maintenance cost because it is possible to omit the costly and time-consuming common LM pre-training process. Using proposed adapter based approach, we observed that a general LM with adapter can outperform a dedicated music domain LM in terms of word error rate (WER).
翻訳日:2022-10-30 17:47:06 公開日:2021-02-11
# 人工ニューラルネットワークとフォールトインジェクション攻撃

Artificial Neural Networks and Fault Injection Attacks ( http://arxiv.org/abs/2008.07072v2 )

ライセンス: Link先を確認
Shahin Tajik and Fatemeh Ganji(参考訳) この章は、障害注入攻撃に直面した人工知能(AI)とニューラルネットワーク(NN)アクセラレータのセキュリティアセスメントに関するものだ。 具体的には、これらのプラットフォーム上の資産について論じ、暗号システムの分野でよく研究されているものと比較する。 脅威モデルを正確に定義するためには、これは重要なステップです。 それに関して、NNやAIアクセラレーターに搭載された障害攻撃が調査されている。

This chapter is on the security assessment of artificial intelligence (AI) and neural network (NN) accelerators in the face of fault injection attacks. More specifically, it discusses the assets on these platforms and compares them with ones known and well-studied in the field of cryptographic systems. This is a crucial step that must be taken in order to define the threat models precisely. With respect to that, fault attacks mounted on NNs and AI accelerators are explored.
翻訳日:2022-10-28 04:18:03 公開日:2021-02-11
# 聴覚ナビゲーションのためのウェイポイント設定学習

Learning to Set Waypoints for Audio-Visual Navigation ( http://arxiv.org/abs/2008.09622v3 )

ライセンス: Link先を確認
Changan Chen, Sagnik Majumder, Ziad Al-Halah, Ruohan Gao, Santhosh Kumar Ramakrishnan, Kristen Grauman(参考訳) 音声視覚ナビゲーションにおいて、エージェントは視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源(例えば、別の部屋で電話が鳴っている)を見つける。 既存のモデルはエージェントの動きの一定の粒度で振る舞うことを学び、オーディオ観測の単純な再帰的な集約に依存する。 音声視覚ナビゲーションにおける2つの新しい要素を用いた強化学習手法を提案する。 1)ナビゲーションポリシー内で動的に設定され、学習されたウェイポイント、 2) エージェントが移動するときに聞いたことを空間的に構造化した記録を提供する音響記憶装置。 どちらの新しいアイデアも、未熟な空間の形状を明らかにするために、オーディオとビジュアルデータのシナジーを生かしている。 我々はReplicaとMatterport3Dという,現実世界の3Dシーンの2つの挑戦的なデータセットに対するアプローチを実証する。 私たちのモデルは芸術の状態をかなり改善し、視覚、音、空間のリンクを学習することがオーディオと視覚のナビゲーションに不可欠であることを実験で明らかにしています。 プロジェクト: http://vision.cs.utexas.edu/projects/audio_visual_waypoints

In audio-visual navigation, an agent intelligently travels through a complex, unmapped 3D environment using both sights and sounds to find a sound source (e.g., a phone ringing in another room). Existing models learn to act at a fixed granularity of agent motion and rely on simple recurrent aggregations of the audio observations. We introduce a reinforcement learning approach to audio-visual navigation with two key novel elements: 1) waypoints that are dynamically set and learned end-to-end within the navigation policy, and 2) an acoustic memory that provides a structured, spatially grounded record of what the agent has heard as it moves. Both new ideas capitalize on the synergy of audio and visual data for revealing the geometry of an unmapped space. We demonstrate our approach on two challenging datasets of real-world 3D scenes, Replica and Matterport3D. Our model improves the state of the art by a substantial margin, and our experiments reveal that learning the links between sights, sounds, and space is essential for audio-visual navigation. Project: http://vision.cs.utexas.edu/projects/audio_visual_waypoints.
翻訳日:2022-10-26 20:53:13 公開日:2021-02-11
# 物理的に不可解な機能とai: 結婚20年

Physically Unclonable Functions and AI: Two Decades of Marriage ( http://arxiv.org/abs/2008.11355v2 )

ライセンス: Link先を確認
Fatemeh Ganji and Shahin Tajik(参考訳) 現在の章は、人工知能(AI)とハードウェアセキュリティの関係を確立することを目的としている。 このようなaiとソフトウェアセキュリティの関連が確認され、関連する文献でよく検討されている。 ここでの重点は、aiから借用された、ハードウェアプリミティブのセキュリティを評価するための方法、すなわち、認証や鍵生成といった暗号プロトコルの応用を見出した物理的非clonable function(pufs)を探求することにある。 このために考案されたメトリクスと手順についてさらに論じる。 さらに、AI技術を適用したPUFの見直しにより、この分野における今後の研究方向性について考察する。

The current chapter aims at establishing a relationship between artificial intelligence (AI) and hardware security. Such a connection between AI and software security has been confirmed and well-reviewed in the relevant literature. The main focus here is to explore the methods borrowed from AI to assess the security of a hardware primitive, namely physically unclonable functions (PUFs), which has found applications in cryptographic protocols, e.g., authentication and key generation. Metrics and procedures devised for this are further discussed. Moreover, By reviewing PUFs designed by applying AI techniques, we give insight into future research directions in this area.
翻訳日:2022-10-24 21:21:10 公開日:2021-02-11
# FedCM:フェデレーション学習における参加者のリアルタイム貢献度測定手法

FedCM: A Real-time Contribution Measurement Method for Participants in Federated Learning ( http://arxiv.org/abs/2009.03510v2 )

ライセンス: Link先を確認
Boyi Liu, Bingjie Yan, Yize Zhou, Zhixuan Liang, Cheng-Zhong Xu(参考訳) Federated Learning (FL)は、複数のエージェントがデータプライバシを考慮したモデル構築に協力するためのエコシステムを作成する。 flシステムにおける各エージェントの貢献度測定手法は、公正なクレジット割り当てに重要であるが、提案は少ない。 本稿では,単純かつ強力なリアルタイム貢献度測定手法であるfeedcmを開発した。 この方法は各エージェントの影響を定義し、現在ラウンドと前ラウンドを包括的に考慮し、注目集約された各エージェントの貢献率を得る。 さらに、FedCMは各ラウンドのコントリビューションを更新し、リアルタイムで実行できるようにする。 リアルタイムは既存のアプローチでは考慮されていないが、FLシステムが計算能力や通信資源などを割り当てることは重要である。 実験結果から,FedCMはリアルタイムの前提条件下でのデータ量やデータ品質に敏感であることがわかった。 さらに,FedCMに基づくフェデレーション学習オープンソースソフトウェアを開発した。 このソフトウェアは、医療画像に基づいて新型コロナウイルスを識別するために応用されている。

Federated Learning (FL) creates an ecosystem for multiple agents to collaborate on building models with data privacy consideration. The method for contribution measurement of each agent in the FL system is critical for fair credits allocation but few are proposed. In this paper, we develop a real-time contribution measurement method FedCM that is simple but powerful. The method defines the impact of each agent, comprehensively considers the current round and the previous round to obtain the contribution rate of each agent with attention aggregation. Moreover, FedCM updates contribution every round, which enable it to perform in real-time. Real-time is not considered by the existing approaches, but it is critical for FL systems to allocate computing power, communication resources, etc. Compared to the state-of-the-art method, the experimental results show that FedCM is more sensitive to data quantity and data quality under the premise of real-time. Furthermore, we developed federated learning open-source software based on FedCM. The software has been applied to identify COVID-19 based on medical images.
翻訳日:2022-10-20 20:53:54 公開日:2021-02-11
# ソーシャルロボティクスにおける強化学習アプローチ

Reinforcement Learning Approaches in Social Robotics ( http://arxiv.org/abs/2009.09689v4 )

ライセンス: Link先を確認
Neziha Akalin and Amy Loutfi(参考訳) 本稿では,ソーシャルロボティクスにおける強化学習のアプローチについて調査する。 強化学習は、エージェントがその環境と試行錯誤によって最適な行動を発見するために相互作用する意思決定問題のためのフレームワークである。 インタラクションは強化学習とソーシャルロボティクスの両方において重要な要素であるため、物理的に具体化されたソーシャルロボットとの現実世界のインタラクションに適したアプローチとなる可能性がある。 論文のスコープは特に、ソーシャルな物理的ロボットや現実世界の人間とロボットの対話などの研究に焦点を当てている。 本稿では,ソーシャルロボティクスにおける強化学習のアプローチを徹底的に分析する。 そこで,本研究では,使用方法と報酬機構の設計に基づいて,既存の強化学習アプローチを分類する。 さらに,コミュニケーション能力は社会ロボットの特長であるため,報酬の定式化に使用されるコミュニケーション媒体に基づいて論文を論じ,グループ化する。 また,報奨機能の設計の重要性を考慮し,報奨機能の性質に基づく論文の分類も提供する。 この分類には、インタラクティブな強化学習、本質的な動機付け手法、タスクパフォーマンス駆動手法の3つの主要なテーマが含まれる。 社会ロボット工学における強化学習の利点と課題、彼らが主観的およびアルゴリズム的手法を使うかどうかに関する論文の評価方法、現実世界の強化学習課題と提案する解決策の観点からの議論、これまでにあまり注目されていないアプローチを含む、まだ検討中のポイントも論文で示されている。 そこで本研究では,本研究分野における強化学習手法の活用と応用に関心を持つ研究者の出発点となることを目的とする。

This article surveys reinforcement learning approaches in social robotics. Reinforcement learning is a framework for decision-making problems in which an agent interacts through trial-and-error with its environment to discover an optimal behavior. Since interaction is a key component in both reinforcement learning and social robotics, it can be a well-suited approach for real-world interactions with physically embodied social robots. The scope of the paper is focused particularly on studies that include social physical robots and real-world human-robot interactions with users. We present a thorough analysis of reinforcement learning approaches in social robotics. In addition to a survey, we categorize existent reinforcement learning approaches based on the used method and the design of the reward mechanisms. Moreover, since communication capability is a prominent feature of social robots, we discuss and group the papers based on the communication medium used for reward formulation. Considering the importance of designing the reward function, we also provide a categorization of the papers based on the nature of the reward. This categorization includes three major themes: interactive reinforcement learning, intrinsically motivated methods, and task performance-driven methods. The benefits and challenges of reinforcement learning in social robotics, evaluation methods of the papers regarding whether or not they use subjective and algorithmic measures, a discussion in the view of real-world reinforcement learning challenges and proposed solutions, the points that remain to be explored, including the approaches that have thus far received less attention is also given in the paper. Thus, this paper aims to become a starting point for researchers interested in using and applying reinforcement learning methods in this particular research field.
翻訳日:2022-10-16 05:25:51 公開日:2021-02-11
# データフロー合成としてのタスク指向対話

Task-Oriented Dialogue as Dataflow Synthesis ( http://arxiv.org/abs/2009.11423v3 )

ライセンス: Link先を確認
Semantic Machines, Jacob Andreas, John Bufe, David Burkett, Charles Chen, Josh Clausman, Jean Crawford, Kate Crim, Jordan DeLoach, Leah Dorner, Jason Eisner, Hao Fang, Alan Guo, David Hall, Kristin Hayes, Kellie Hill, Diana Ho, Wendy Iwaszuk, Smriti Jha, Dan Klein, Jayant Krishnamurthy, Theo Lanman, Percy Liang, Christopher H Lin, Ilya Lintsbakh, Andy McGovern, Aleksandr Nisnevich, Adam Pauls, Dmitrij Petters, Brent Read, Dan Roth, Subhro Roy, Jesse Rusak, Beth Short, Div Slomin, Ben Snyder, Stephon Striplin, Yu Su, Zachary Tellman, Sam Thomson, Andrei Vorobev, Izabela Witoszko, Jason Wolfe, Abby Wray, Yuchen Zhang, Alexander Zotov(参考訳) 本稿では,対話状態をデータフローグラフとして表現するタスク指向対話のアプローチについて述べる。 対話エージェントは、各ユーザの発話を、このグラフを拡張するプログラムにマップする。 プログラムには参照のためのメタ計算演算子と、以前のターンからデータフローフラグメントを再利用するリビジョンが含まれる。 グラフベースの状態は複雑なユーザインテントの表現と操作を可能にし、明示的なメタ計算によって学習モデルの予測が容易になります。 新しいデータセットであるsmcalflowを導入し、イベント、天気、場所、人々に関する複雑な対話を特徴付ける。 データフローグラフとメタ計算は、これらの自然な対話における表現可能性と予測可能性を大幅に改善することを示す。 MultiWOZデータセットのさらなる実験により、我々のデータフロー表現は、既存のタスク固有状態追跡モデルに適合するように、オフザシェルのシーケンス・ツー・シーケンスモデルを可能にする。 smcalflowデータセットと複製実験用のコードは、https://www.microsoft.com/en-us/research/project/dataflow-based-dialogue-semantic-machinesで入手できる。

We describe an approach to task-oriented dialogue in which dialogue state is represented as a dataflow graph. A dialogue agent maps each user utterance to a program that extends this graph. Programs include metacomputation operators for reference and revision that reuse dataflow fragments from previous turns. Our graph-based state enables the expression and manipulation of complex user intents, and explicit metacomputation makes these intents easier for learned models to predict. We introduce a new dataset, SMCalFlow, featuring complex dialogues about events, weather, places, and people. Experiments show that dataflow graphs and metacomputation substantially improve representability and predictability in these natural dialogues. Additional experiments on the MultiWOZ dataset show that our dataflow representation enables an otherwise off-the-shelf sequence-to-sequence model to match the best existing task-specific state tracking model. The SMCalFlow dataset and code for replicating experiments are available at https://www.microsoft.com/en-us/research/project/dataflow-based-dialogue-semantic-machines.
翻訳日:2022-10-15 04:51:09 公開日:2021-02-11
# 善意の維持と悪口因果効果の除去による長期的分類

Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect ( http://arxiv.org/abs/2009.12991v4 )

ライセンス: Link先を確認
Kaihua Tang, Jianqiang Huang, Hanwang Zhang(参考訳) クラスのサイズが大きくなるにつれて、多くのクラスでバランスのとれたデータセットを維持することは、データが本質的に長い尾を持つため困難である。 したがって、ロングテール分類は、大規模でディープラーニングの鍵となる。 しかし、既存の手法は主に基本理論を欠いた再重み付け/再サンプリングヒューリスティックに基づいている。 本稿では,従来の手法の理由を解明するだけでなく,新たな原理的解を導出する因果推論の枠組みを確立する。 特に我々の理論は、sgd運動量は本質的にロングテール分類の共起体であることを示している。 一方、尾部予測を頭部に偏った形で誤解させるような有害な因果効果がある。 一方,その誘導的調停は表現学習や頭部予測にも有用である。 本フレームワークは,入力サンプルによる直接因果効果を追求することで,運動量のパラドックス効果をエレガントに解消する。 特に,トレーニングにおける因果介入や推論における反ファクト推論を用いて,「良い」を維持しながら「悪い」を除去する。 長い尾のCIFAR-10/-100、画像分類のためのImageNet-LT、例分割のためのLVISの3つの長尾の視覚認識ベンチマークにおいて、新しい最先端技術を実現する。

As the class size grows, maintaining a balanced dataset across many classes is challenging because the data are long-tailed in nature; it is even impossible when the sample-of-interest co-exists with each other in one collectable unit, e.g., multiple visual instances in one image. Therefore, long-tailed classification is the key to deep learning at scale. However, existing methods are mainly based on re-weighting/re-sampling heuristics that lack a fundamental theory. In this paper, we establish a causal inference framework, which not only unravels the whys of previous methods, but also derives a new principled solution. Specifically, our theory shows that the SGD momentum is essentially a confounder in long-tailed classification. On one hand, it has a harmful causal effect that misleads the tail prediction biased towards the head. On the other hand, its induced mediation also benefits the representation learning and head prediction. Our framework elegantly disentangles the paradoxical effects of the momentum, by pursuing the direct causal effect caused by an input sample. In particular, we use causal intervention in training, and counterfactual reasoning in inference, to remove the "bad" while keep the "good". We achieve new state-of-the-arts on three long-tailed visual recognition benchmarks: Long-tailed CIFAR-10/-100, ImageNet-LT for image classification and LVIS for instance segmentation.
翻訳日:2022-10-13 20:38:14 公開日:2021-02-11
# グラフ散乱変分オートエンコーダを用いた物理制約付き予測分子潜時空間探索

Physics-Constrained Predictive Molecular Latent Space Discovery with Graph Scattering Variational Autoencoder ( http://arxiv.org/abs/2009.13878v2 )

ライセンス: Link先を確認
Navid Shervani-Tabar, Nicholas Zabaras(参考訳) 最近の人工知能の進歩は、革新的な計算材料モデリングと設計技術の発展を促している。 生成的ディープラーニングモデルは、分子の表現、発見、設計に使われている。 本研究では,小データ領域における変動推論とグラフ理論に基づく分子生成モデルの予測能力を評価する。 エネルギー的に安定な分子を促進する物理的制約が提案されている。 符号化ネットワークは、適応スペクトルフィルタを用いた散乱変換に基づいており、モデルをより一般化することができる。 デコードネットワークは1ショットグラフ生成モデルであり、分子トポロジー上で原子タイプを条件付ける。 ベイズ形式論は分子特性の予測的推定における不確かさを捉えていると考えられている。 モデルの性能は、所望のターゲット特性を持つ分子を生成することによって評価される。

Recent advances in artificial intelligence have propelled the development of innovative computational materials modeling and design techniques. Generative deep learning models have been used for molecular representation, discovery, and design. In this work, we assess the predictive capabilities of a molecular generative model developed based on variational inference and graph theory in the small data regime. Physical constraints that encourage energetically stable molecules are proposed. The encoding network is based on the scattering transform with adaptive spectral filters to allow for better generalization of the model. The decoding network is a one-shot graph generative model that conditions atom types on molecular topology. A Bayesian formalism is considered to capture uncertainties in the predictive estimates of molecular properties. The model's performance is evaluated by generating molecules with desired target properties.
翻訳日:2022-10-13 06:56:21 公開日:2021-02-11
# 生成的サロゲートモデルによるアクティブな特徴獲得

Active Feature Acquisition with Generative Surrogate Models ( http://arxiv.org/abs/2010.02433v2 )

ライセンス: Link先を確認
Yang Li, Junier B. Oliva(参考訳) 多くの実世界の状況では、限定的または不確実なデータで評価を行う際に追加の関連情報を取得することができる。 しかし、従来のMLアプローチでは、事前に取得するすべての機能を必要とするか、あるいは取得できないデータの欠如と見なすかのどちらかである。 本研究では,能動的特徴獲得(AFA)を行うモデルについて検討し,未観測機能に対する環境問合せを行い,評価時の予測評価を改善する。 我々の研究は、AFA問題を生成的モデリングタスクとして根底にあるマルコフ決定プロセス(MDP)を再構築し、新しいモデルベースアプローチによるポリシーを最適化する。 本稿では,入力特徴間の依存関係を捉え,獲得から得られる潜在的な情報を評価するジェネレーティブサロゲートモデル(gsm)の学習を提案する。 GSMは中間報酬と補助情報を提供し、エージェントが複雑な高次元のアクション空間とスパース報酬をナビゲートするのを助ける。 さらに、対象変数が観測されていない機能自身であり、その目的がコスト効率のよい方法で特定のインスタンスの情報を集めることにある、教師なしのケースに対して、アクティブなインスタンス認識(AIR)を作成するタスクでAFAを拡張する。 実験の結果,提案手法は教師なしタスクと教師なしタスクの両方において,従来の技術手法よりもかなり優れた性能が得られることがわかった。

Many real-world situations allow for the acquisition of additional relevant information when making an assessment with limited or uncertain data. However, traditional ML approaches either require all features to be acquired beforehand or regard part of them as missing data that cannot be acquired. In this work, we consider models that perform active feature acquisition (AFA) and query the environment for unobserved features to improve the prediction assessments at evaluation time. Our work reformulates the Markov decision process (MDP) that underlies the AFA problem as a generative modeling task and optimizes a policy via a novel model-based approach. We propose learning a generative surrogate model (GSM) that captures the dependencies among input features to assess potential information gain from acquisitions. The GSM is leveraged to provide intermediate rewards and auxiliary information to aid the agent navigate a complicated high-dimensional action space and sparse rewards. Furthermore, we extend AFA in a task we coin active instance recognition (AIR) for the unsupervised case where the target variables are the unobserved features themselves and the goal is to collect information for a particular instance in a cost-efficient way. Empirical results demonstrate that our approach achieves considerably better performance than previous state of the art methods on both supervised and unsupervised tasks.
翻訳日:2022-10-10 05:37:01 公開日:2021-02-11
# ベクトル化のない機能接続行列を用いた被験者クラスタと脳サブネットワークのマルチビュークラスタリング

Multiple-view clustering for identifying subject clusters and brain sub-networks using functional connectivity matrices without vectorization ( http://arxiv.org/abs/2010.09941v2 )

ライセンス: Link先を確認
Tomoki Tokuda, Okito Yamashita, Junichiro Yoshimoto(参考訳) 神経科学において、fMRIは脳活動に非侵襲的にアクセスするための重要なツールである。 fMRIを用いて脳領域間の機能的接続(FC)を推定することができ、脳の基本的な性質の多くの発見に寄与している。 FCの重要臨床応用として、最近、FCに基づく被験者のクラスタリングが注目されており、精神疾患のサブタイプのような被験者にとって重要な異種性を明らかにする可能性がある。 特に、マルチビュークラスタリング法は強力な分析ツールであり、特定の脳領域におけるFCに依存する被験者のクラスタリングパターンを特定する。 しかし、既存のマルチビュークラスタリング手法をfmriデータに適用する場合、fcマトリックスの要素、すなわち相関行列のベクトル化とは独立に、データ構造を単純化する必要がある。 このような単純化はクラスタリング結果を歪める可能性がある。 そこで本研究では,ウィッシュアート混合モデルに基づく,ベクトル化を伴わずに相関行列構造を保存するマルチビュークラスタリング手法を提案する。 この手法の特徴は、被験者の複数ビュークラスタリングが、データ駆動方式で最適化された特定のノード(または関心領域、ROI)のネットワークに基づいていることである。 したがって、対象クラスタソリューションとroiサブネットワークの間の複数の関連の組み合わせを識別することができる。 この手法の鍵となる仮定はサブネットワーク間の独立性であり、ホワイトニング相関行列によって効果的に対処される。 提案手法を合成およびfMRIデータに適用し,提案手法の有用性とパワーを実証した。

In neuroscience, the functional magnetic resonance imaging (fMRI) is a vital tool to non-invasively access brain activity. Using fMRI, the functional connectivity (FC) between brain regions can be inferred, which has contributed to a number of findings of the fundamental properties of the brain. As an important clinical application of FC, clustering of subjects based on FC recently draws much attention, which can potentially reveal important heterogeneity in subjects such as subtypes of psychiatric disorders. In particular, a multiple-view clustering method is a powerful analytical tool, which identifies clustering patterns of subjects depending on their FC in specific brain areas. However, when one applies an existing multiple-view clustering method to fMRI data, there is a need to simplify the data structure, independently dealing with elements in a FC matrix, i.e., vectorizing a correlation matrix. Such a simplification may distort the clustering results. To overcome this problem, we propose a novel multiple-view clustering method based on Wishart mixture models, which preserves the correlation matrix structure without vectorization. The uniqueness of this method is that the multiple-view clustering of subjects is based on particular networks of nodes (or regions of interest, ROIs), optimized in a data-driven manner. Hence, it can identify multiple underlying pairs of associations between a subject cluster solution and a ROI sub-network. The key assumption of the method is independence among sub-networks, which is effectively addressed by whitening correlation matrices. We applied the proposed method to synthetic and fMRI data, demonstrating the usefulness and power of the proposed method.
翻訳日:2022-10-05 06:20:59 公開日:2021-02-11
# 大規模クラウドプラットフォームにおける異常検出

Anomaly Detection in a Large-scale Cloud Platform ( http://arxiv.org/abs/2010.10966v2 )

ライセンス: Link先を確認
Mohammad Saiful Islam, William Pourmajidi, Lei Zhang, John Steinbacher, Tony Erwin, Andriy Miranskyy(参考訳) クラウドコンピューティングはユビキタスで、ますます多くの企業がワークロードをクラウドに移行している。 しかし、この人気が高まるとクラウドサービスプロバイダは、成長を続ける彼らの製品の品質を効果的に監視する必要がある。 この課題に対処するため、IBM Cloud Platform用の自動監視システムを設計、実装しました。 この監視システムは、ディープラーニングニューラルネットワークを用いて、複数のプラットフォームコンポーネントのほぼリアルタイムで異常を検出する。 1年間システムを実行した後、提案されたソリューションによって、DevOpsチームの時間と人的リソースが、数千のクラウドコンポーネントを手動で監視できないことが分かりました。 さらに、クラウド停止のリスクを低減することで顧客満足度を高める。 本稿では,モニタリングシステムの発展中に現れたソリューションのアーキテクチャ,実装ノート,ベストプラクティスについて述べる。 他の研究者や実践者が複雑なシステムのための異常検知器を構築するために利用することができる。

Cloud computing is ubiquitous: more and more companies are moving the workloads into the Cloud. However, this rise in popularity challenges Cloud service providers, as they need to monitor the quality of their ever-growing offerings effectively. To address the challenge, we designed and implemented an automated monitoring system for the IBM Cloud Platform. This monitoring system utilizes deep learning neural networks to detect anomalies in near-real-time in multiple Platform components simultaneously. After running the system for a year, we observed that the proposed solution frees the DevOps team's time and human resources from manually monitoring thousands of Cloud components. Moreover, it increases customer satisfaction by reducing the risk of Cloud outages. In this paper, we share our solutions' architecture, implementation notes, and best practices that emerged while evolving the monitoring system. They can be leveraged by other researchers and practitioners to build anomaly detectors for complex systems.
翻訳日:2022-10-05 01:10:44 公開日:2021-02-11
# 音声とテキストタスクのためのテキストデータを活用した汎用マルチタスク学習フレームワーク

A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks ( http://arxiv.org/abs/2010.11338v2 )

ライセンス: Link先を確認
Yun Tang, Juan Pino, Changhan Wang, Xutai Ma, Dmitriy Genzel(参考訳) 注意に基づくシーケンスからシーケンスへのモデリングは、あるシーケンスを別のシーケンスにマップする必要があるアプリケーションに対して強力でエレガントなソリューションを提供します。 その成功は、大量のトレーニングデータの可用性に大きく依存している。 本稿では,音声認識(ASR)や音声翻訳(ST)など,ラベル付き音声データを得るのに非常にコストがかかる音声アプリケーションに課題を提起する。 本研究では,ASRタスクとSTタスクのテキストデータを活用する汎用マルチタスク学習フレームワークを提案する。 自動エンコーダタスクと機械翻訳タスクの2つの補助タスクは、それぞれASRとSTタスクとの共同訓練を行うことが提案されている。 テキスト入力を音素シーケンスとして表現することで、音声とテキスト入力の差を減らし、テキストコーパスからテキストタスクへの知識伝達を促進できることを示す。 実験の結果,提案手法は英語のLibrispeechタスクの単語誤り率の相対10~15%削減を実現し,MST-Cタスクの音声翻訳品質を3.6~9.2BLEU向上させることがわかった。

Attention-based sequence-to-sequence modeling provides a powerful and elegant solution for applications that need to map one sequence to a different sequence. Its success heavily relies on the availability of large amounts of training data. This presents a challenge for speech applications where labelled speech data is very expensive to obtain, such as automatic speech recognition (ASR) and speech translation (ST). In this study, we propose a general multi-task learning framework to leverage text data for ASR and ST tasks. Two auxiliary tasks, a denoising autoencoder task and machine translation task, are proposed to be co-trained with ASR and ST tasks respectively. We demonstrate that representing text input as phoneme sequences can reduce the difference between speech and text inputs, and enhance the knowledge transfer from text corpora to the speech to text tasks. Our experiments show that the proposed method achieves a relative 10~15% word error rate reduction on the English Librispeech task compared with our baseline, and improves the speech translation quality on the MuST-C tasks by 3.6~9.2 BLEU.
翻訳日:2022-10-05 00:08:42 公開日:2021-02-11
# 直接音声翻訳のための周期的フィードバックを持つカスケードモデル

Cascaded Models With Cyclic Feedback For Direct Speech Translation ( http://arxiv.org/abs/2010.11153v2 )

ライセンス: Link先を確認
Tsz Kin Lam, Shigehiko Schamoni, Stefan Riezler(参考訳) 直接音声翻訳は、音声入力と対応する翻訳のみが利用できるシナリオを記述する。 このようなデータは、非常に限られている。 本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードで,ドメイン外MTとASRデータに加えて,ドメイン内直接音声翻訳データを利用する手法を提案する。 mtとasrを事前トレーニングした後、mtシステムの下流性能を信号として、自己学習によるasrシステムを改善するためのフィードバックサイクルを使用し、複数のasr出力に対してmtコンポーネントを微調整し、綴りのバリエーションに耐性を持たせる。 同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、CoVoSTでは最大5.1 BLEU点が得られた。

Direct speech translation describes a scenario where only speech inputs and corresponding translations are available. Such data are notoriously limited. We present a technique that allows cascades of automatic speech recognition (ASR) and machine translation (MT) to exploit in-domain direct speech translation data in addition to out-of-domain MT and ASR data. After pre-training MT and ASR, we use a feedback cycle where the downstream performance of the MT system is used as a signal to improve the ASR system by self-training, and the MT component is fine-tuned on multiple ASR outputs, making it more tolerant towards spelling variations. A comparison to end-to-end speech translation using components of identical architecture and the same data shows gains of up to 3.8 BLEU points on LibriVoxDeEn and up to 5.1 BLEU points on CoVoST for German-to-English speech translation.
翻訳日:2022-10-04 23:58:44 公開日:2021-02-11
# 無線電力制御のためのコントラスト自己監督学習

Contrastive Self-Supervised Learning for Wireless Power Control ( http://arxiv.org/abs/2010.11909v2 )

ライセンス: Link先を確認
Navid Naderializadeh(参考訳) 自己教師付き学習を用いた無線ネットワークにおける電力制御の新しい手法を提案する。 我々は、チャネル行列を入力として、電力制御決定をバックボーンとヘッドに出力する多層パーセプトロンを分割し、コントラスト学習を用いて、類似したチャネル行列に対して出力に類似した埋め込みを発生させることができることを示す。 バックボーンとヘッドは限られた数のラベル付きサンプルを使用して微調整される。 シミュレーションの結果,提案手法の有効性が示され,要約処理とサンプル効率の両方において,純粋教師付き学習法よりも有意な効果が示された。

We propose a new approach for power control in wireless networks using self-supervised learning. We partition a multi-layer perceptron that takes as input the channel matrix and outputs the power control decisions into a backbone and a head, and we show how we can use contrastive learning to pre-train the backbone so that it produces similar embeddings at its output for similar channel matrices and vice versa, where similarity is defined in an information-theoretic sense by identifying the interference links that can be optimally treated as noise. The backbone and the head are then fine-tuned using a limited number of labeled samples. Simulation results show the effectiveness of the proposed approach, demonstrating significant gains over pure supervised learning methods in both sum-throughput and sample efficiency.
翻訳日:2022-10-04 06:22:54 公開日:2021-02-11
# CopyPaste:音声感情認識のための拡張手法

CopyPaste: An Augmentation Method for Speech Emotion Recognition ( http://arxiv.org/abs/2010.14602v2 )

ライセンス: Link先を確認
Raghavendra Pappagari, Jes\'us Villalba, Piotr \.Zelasko, Laureano Moro-Velazquez, Najim Dehak(参考訳) データ拡張は、堅牢な機械学習モデルのトレーニングに広く使われている戦略である。 音声感情認識(SER)のようなタスクにおいて、データの収集が高価で困難であるような、限られたデータの問題を部分的に緩和する。 本研究は,認知に動機づけられたSERの新規増強手順であるCopyPasteを提案する。 ニュートラル以外の感情の存在が、録音における話者の全体的な知覚的感情を規定していると仮定すると、感情(感情E)と中立的発話の連結は、なおも感情Eとラベル付けできる。 これを検証するために、3つのコピーペーストスキームが2つのディープラーニングモデルでテストされている。 MSP-Podcast, Crema-D, IEMOCAPの3つのデータセットにおいて, 3つのCopyPasteスキームがSER性能を改善した。 さらに、CopyPasteはノイズ増強よりもパフォーマンスが良く、それらを併用することでSERのパフォーマンスをさらに向上する。 ノイズテストセットに関する実験から, 騒音テスト条件においてもコピーペーストが有効であることが示唆された。

Data augmentation is a widely used strategy for training robust machine learning models. It partially alleviates the problem of limited data for tasks like speech emotion recognition (SER), where collecting data is expensive and challenging. This study proposes CopyPaste, a perceptually motivated novel augmentation procedure for SER. Assuming that the presence of emotions other than neutral dictates a speaker's overall perceived emotion in a recording, concatenation of an emotional (emotion E) and a neutral utterance can still be labeled with emotion E. We hypothesize that SER performance can be improved using these concatenated utterances in model training. To verify this, three CopyPaste schemes are tested on two deep learning models: one trained independently and another using transfer learning from an x-vector model, a speaker recognition model. We observed that all three CopyPaste schemes improve SER performance on all the three datasets considered: MSP-Podcast, Crema-D, and IEMOCAP. Additionally, CopyPaste performs better than noise augmentation and, using them together improves the SER performance further. Our experiments on noisy test sets suggested that CopyPaste is effective even in noisy test conditions.
翻訳日:2022-10-02 13:26:03 公開日:2021-02-11
# グラフ畳み込みニューラルネットワークの非線形状態空間一般化

Nonlinear State-Space Generalizations of Graph Convolutional Neural Networks ( http://arxiv.org/abs/2010.14585v2 )

ライセンス: Link先を確認
Luana Ruiz, Fernando Gama, Alejandro Ribeiro, Elvin Isufi(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は、線形グラフ畳み込みを非線形にネストすることで、ネットワークデータから構成表現を学習する。 本稿では,GCNNを状態空間の観点からアプローチし,グラフ畳み込みモジュールが最小値線形状態空間モデルであり,状態更新行列がグラフシフト演算子であることを示す。 この状態更新は非パラメトリックであり、グラフのスペクトルによって爆発または消滅する可能性があるため、問題となる可能性がある。 したがって、gcnnは、データから特徴を抽出することとこれらの不安定性を処理することの間の自由度をトレードオフしなければならない。 このようなトレードオフを改善するために,非線形な状態空間パラメトリック方式で層内のノード特徴を集約し,より優れたトレードオフを実現する,新たな結節集約規則を提案する。 結節機構を伴わずに再発に触発された,本科の2つのアーキテクチャを発達させた。 提案したソリューションはGCNNを一般化し、状態の更新を管理してデータから学ぶための追加のハンドラを提供する。 ソースローカライゼーションとオーサシップ属性の数値結果は,ベースラインGCNNよりも非線形状態空間一般化モデルの優位性を示している。

Graph convolutional neural networks (GCNNs) learn compositional representations from network data by nesting linear graph convolutions into nonlinearities. In this work, we approach GCNNs from a state-space perspective revealing that the graph convolutional module is a minimalistic linear state-space model, in which the state update matrix is the graph shift operator. We show that this state update may be problematic because it is nonparametric, and depending on the graph spectrum it may explode or vanish. Therefore, the GCNN has to trade its degrees of freedom between extracting features from data and handling these instabilities. To improve such trade-off, we propose a novel family of nodal aggregation rules that aggregate node features within a layer in a nonlinear state-space parametric fashion allowing for a better trade-off. We develop two architectures within this family inspired by the recurrence with and without nodal gating mechanisms. The proposed solutions generalize the GCNN and provide an additional handle to control the state update and learn from the data. Numerical results on source localization and authorship attribution show the superiority of the nonlinear state-space generalization models over the baseline GCNN.
翻訳日:2022-10-02 13:09:04 公開日:2021-02-11
# CASS-NAT:CTCアライメントに基づく音声認識用シングルステップ非回帰変換器

CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer for Speech Recognition ( http://arxiv.org/abs/2010.14725v2 )

ライセンス: Link先を確認
Ruchao Fan, Wei Chu, Peng Chang, Jing Xiao(参考訳) 音声認識のためのCTCアライメントに基づく単段非自己回帰変換器(CASS-NAT)を提案する。 具体的には、CTCアライメントは、情報を含む。 (a)デコーダ入力用のトークンの数、及び (b)各トークンの音響の時間帯 これらの情報は, 自動回帰変換器(AT)に埋め込まれた単語を代用して, デコーダの並列生成を実現するトークンレベル音響埋め込みと呼ばれる, トークン毎の音響表現を並列に抽出するために用いられる。 推論中, 誤差に基づくアライメントサンプリング法がCTC出力空間に適用され, WERを低減し, 並列性も維持される。 実験の結果,外部LMを使わずにLibrispeechテストクリーン/その他のデータセットでWERが3.8%/9.1%,Aishell1 Mandarin corpusで5.8%,CERが1。 ATベースラインと比較して、CASS-NATはWERの性能は低下するが、RTFでは51.2倍高速である。 オラクルCTCアライメントでデコードする場合、LMのないWERの下位境界はテストクリーンセットで2.3%に達し、提案手法の可能性を示している。

We propose a CTC alignment-based single step non-autoregressive transformer (CASS-NAT) for speech recognition. Specifically, the CTC alignment contains the information of (a) the number of tokens for decoder input, and (b) the time span of acoustics for each token. The information are used to extract acoustic representation for each token in parallel, referred to as token-level acoustic embedding which substitutes the word embedding in autoregressive transformer (AT) to achieve parallel generation in decoder. During inference, an error-based alignment sampling method is proposed to be applied to the CTC output space, reducing the WER and retaining the parallelism as well. Experimental results show that the proposed method achieves WERs of 3.8%/9.1% on Librispeech test clean/other dataset without an external LM, and a CER of 5.8% on Aishell1 Mandarin corpus, respectively1. Compared to the AT baseline, the CASS-NAT has a performance reduction on WER, but is 51.2x faster in terms of RTF. When decoding with an oracle CTC alignment, the lower bound of WER without LM reaches 2.3% on the test-clean set, indicating the potential of the proposed method.
翻訳日:2022-10-02 05:55:36 公開日:2021-02-11
# 新しい感情音声データを用いた音声変換のための見掛けと見当たらない感情伝達

Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset ( http://arxiv.org/abs/2010.14794v2 )

ライセンス: Link先を確認
Kun Zhou, Berrak Sisman, Rui Liu and Haizhou Li(参考訳) 感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。 先行研究は、ワンホット感情ラベルなどの個別表現を条件としたエンコーダ・デコーダネットワークを用いて、感情の韻律をアンタングルできることを示した。 このようなネットワークは、一定の感情的なスタイルを覚えることを学ぶ。 本稿では,事前学習された音声感情認識(SER)モデルを用いて,学習中の感情の伝達と実行時の推論を行う,変分自動符号化ワッサースタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。 このようにして、ネットワークは、見えない感情スタイルと見えない感情スタイルの両方を、新しい発話に転送することができる。 提案フレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。 本稿では,複数の話者と言語を持つ音声変換のための感情音声データセット(ESD)のリリースについても述べる。

Emotional voice conversion aims to transform emotional prosody in speech while preserving the linguistic content and speaker identity. Prior studies show that it is possible to disentangle emotional prosody using an encoder-decoder network conditioned on discrete representation, such as one-hot emotion labels. Such networks learn to remember a fixed set of emotional styles. In this paper, we propose a novel framework based on variational auto-encoding Wasserstein generative adversarial network (VAW-GAN), which makes use of a pre-trained speech emotion recognition (SER) model to transfer emotional style during training and at run-time inference. In this way, the network is able to transfer both seen and unseen emotional style to a new utterance. We show that the proposed framework achieves remarkable performance by consistently outperforming the baseline framework. This paper also marks the release of an emotional speech dataset (ESD) for voice conversion, which has multiple speakers and languages.
翻訳日:2022-10-02 05:55:12 公開日:2021-02-11
# ユーザインタラクションによるサイバーバブル検出の改善

Improving Cyberbully Detection with User Interaction ( http://arxiv.org/abs/2011.00449v2 )

ライセンス: Link先を確認
Suyu Ge, Lu Cheng, Huan Liu(参考訳) ネットいじめの意図的かつ繰り返し行為として認識されるサイバーいじめは、ここ数十年でますます広まっている。 これまでの大きな進歩にもかかわらず、サイバーいじめ検出に関する既存の研究の焦点は、ソーシャルメディアセッション内のさまざまなコメントの独立したコンテンツ分析にある。 異なるコメント間の時間的相関を見落とし、コメント間のトピックコヒーレンスではなく1つのコメント内のコンテンツのみを考慮し、ソーシャルメディアユーザ間のインタラクションを制限したままで、汎用的であり続ける、という3つの制限がある。 本研究では,同一セッションにおけるユーザコメントが,例えば類似トピックについて議論するなど,本質的に関連している可能性があること,そのインタラクションが時間とともに進化する可能性があることを観察する。 また,このような話題のコヒーレンスや時間的相互作用のモデル化がいじめ行動の反復特性を捉える上で重要であることも示し,予測性能の向上につながった。 この目的を達成するために,まずソーシャルメディアセッション毎に統一された時間グラフを構築する。 グラフニューラルネットワークの最近の進歩に基づき,ユーザインタラクションの時間的ダイナミクスとトピックコヒーレンスをモデル化するためのグラフベース手法を提案する。 我々は,セッションレベルのいじめ検出とコメントレベルのケーススタディのタスクを用いて,このアプローチの有効性を実証的に評価した。 私たちのコードは公開されています。

Cyberbullying, identified as intended and repeated online bullying behavior, has become increasingly prevalent in the past few decades. Despite the significant progress made thus far, the focus of most existing work on cyberbullying detection lies in the independent content analysis of different comments within a social media session. We argue that such leading notions of analysis suffer from three key limitations: they overlook the temporal correlations among different comments; they only consider the content within a single comment rather than the topic coherence across comments; they remain generic and exploit limited interactions between social media users. In this work, we observe that user comments in the same session may be inherently related, e.g., discussing similar topics, and their interaction may evolve over time. We also show that modeling such topic coherence and temporal interaction are critical to capture the repetitive characteristics of bullying behavior, thus leading to better predicting performance. To achieve the goal, we first construct a unified temporal graph for each social media session. Drawing on recent advances in graph neural network, we then propose a principled graph-based approach for modeling the temporal dynamics and topic coherence throughout user interactions. We empirically evaluate the effectiveness of our approach with the tasks of session-level bullying detection and comment-level case study. Our code is released to public.
翻訳日:2022-09-30 22:52:53 公開日:2021-02-11
# 多変量時系列モデリングのためのタブラル変換器

Tabular Transformers for Modeling Multivariate Time Series ( http://arxiv.org/abs/2011.01843v2 )

ライセンス: Link先を確認
Inkit Padhi, Yair Schiff, Igor Melnyk, Mattia Rigotti, Youssef Mroueh, Pierre Dognin, Jerret Ross, Ravi Nair, Erik Altman(参考訳) タブラルデータセットはデータサイエンスの応用においてユビキタスである。 その重要性を考えれば、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なことだ。 本稿では,その階層構造を任意に活用できる時系列表を表現するニューラルネットワークモデルを提案する。 これは、BERTに類似し、下流タスクで事前訓練して使用できる表現を学習するための2つのアーキテクチャと、GPTに類似し、リアルな合成表配列を生成するために使用できる1つのアーキテクチャである。 我々は,学習表現を不正検出や合成データ生成に使用する合成クレジットカードトランザクションデータセットと,学習したエンコーディングを大気汚染物質濃度の予測に使用する実汚染データセットという,2つのデータセットでモデルを実証した。 コードとデータはhttps://github.com/IBM/TabFormer.comで入手できる。

Tabular datasets are ubiquitous in data science applications. Given their importance, it seems natural to apply state-of-the-art deep learning algorithms in order to fully unlock their potential. Here we propose neural network models that represent tabular time series that can optionally leverage their hierarchical structure. This results in two architectures for tabular time series: one for learning representations that is analogous to BERT and can be pre-trained end-to-end and used in downstream tasks, and one that is akin to GPT and can be used for generation of realistic synthetic tabular sequences. We demonstrate our models on two datasets: a synthetic credit card transaction dataset, where the learned representations are used for fraud detection and synthetic data generation, and on a real pollution dataset, where the learned encodings are used to predict atmospheric pollutant concentrations. Code and data are available at https://github.com/IBM/TabFormer.
翻訳日:2022-09-30 03:58:19 公開日:2021-02-11
# Conformer-Kernel - TREC 2020 Deep Learning Trackでのクエリ項独立性

Conformer-Kernel with Query Term Independence at TREC 2020 Deep Learning Track ( http://arxiv.org/abs/2011.07368v2 )

ライセンス: Link先を確認
Bhaskar Mitra, Sebastian Hofstatter, Hamed Zamani and Nick Craswell(参考訳) 我々は,trac 2020ディープラーニングトラックの厳密なブラインド評価設定の下で,コンフォーメータカーネルモデルをベンチマークする。 特に私たちは インクルージョンが与える影響について研究しています (i)学習表現(すなわち「実行原理」)に基づくマッチングを補完する明示的な項マッチング (ii)問い合わせ項の独立性(すなわち「qti仮定」という。) モデルを完全に検索設定にスケールすること、及び 三 ORCAS は、追加の文書記述フィールドとしてデータをクリックする。 上記の3つの戦略がすべて,検索品質の向上につながる証拠を見出した。

We benchmark Conformer-Kernel models under the strict blind evaluation setting of the TREC 2020 Deep Learning track. In particular, we study the impact of incorporating: (i) Explicit term matching to complement matching based on learned representations (i.e., the "Duet principle"), (ii) query term independence (i.e., the "QTI assumption") to scale the model to the full retrieval setting, and (iii) the ORCAS click data as an additional document description field. We find evidence which supports that all three aforementioned strategies can lead to improved retrieval quality.
翻訳日:2022-09-25 13:28:51 公開日:2021-02-11
# ニューラルネットワークを用いたマルチスケール計算力学における統計的逆問題のロバスト解

A robust solution of a statistical inverse problem in multiscale computational mechanics using an artificial neural network ( http://arxiv.org/abs/2011.11761v2 )

ライセンス: Link先を確認
Florent Pled (MSME), Christophe Desceliers (MSME), Tianyu Zhang (MSME)(参考訳) 本研究は、ニューラルネットワークに基づく機械学習を用いて、ランダム不均質材料の見かけの弾性特性を逆同定する。 提案手法では, ランダムコンプライアンスフィールドの事前確率的モデルのハイパーパラメータと, アドホックマルチスケール計算モデルのいくつかの関連量との間の非線形関係を学習するために, 人工ニューラルネットワークを訓練可能なデータベースを構築する必要がある。 入力データと対象データからなる初期データベースをまず計算モデルから生成し、非パラメトリック統計を用いて、対象データに対して入力データを条件付けして処理されたデータベースを推定する。 次に、2層および3層フィードフォワード人工ニューラルネットワークを初期および処理されたデータベースからトレーニングし、ハイパーパラメータ(ネットワーク出力)と関心量(ネットワーク入力)の間の非線形マッピングの代数的表現を構築する。 トレーニングされたニューラルネットワークの性能は、平均二乗誤差、線形回帰適合、ネットワーク出力間の確率分布および両方のデータベースのターゲットの観点から分析する。 入力ランダムベクトルのアドホック確率モデルが最終的に提案され、ネットワーク入力の不確実性を考慮して入力不確実性レベルに関するネットワーク出力のロバスト性解析を行う。 The capability of the proposed neural network-based identification method to efficiently solve the underlying statistical inverse problem is illustrated through two numerical examples developed within the framework of 2D plane stress linear elasticity, namely a first validation example on synthetic data obtained through computational simulations and a second application example on real experimental data obtained through a physical experiment monitored by digital image correlation on a real heterogeneous biological material (beef cortical bone).

This work addresses the inverse identification of apparent elastic properties of random heterogeneous materials using machine learning based on artificial neural networks. The proposed neural network-based identification method requires the construction of a database from which an artificial neural network can be trained to learn the nonlinear relationship between the hyperparameters of a prior stochastic model of the random compliance field and some relevant quantities of interest of an ad hoc multiscale computational model. An initial database made up with input and target data is first generated from the computational model, from which a processed database is deduced by conditioning the input data with respect to the target data using the nonparametric statistics. Two-and three-layer feedforward artificial neural networks are then trained from each of the initial and processed databases to construct an algebraic representation of the nonlinear mapping between the hyperparameters (network outputs) and the quantities of interest (network inputs). The performances of the trained artificial neural networks are analyzed in terms of mean squared error, linear regression fit and probability distribution between network outputs and targets for both databases. An ad hoc probabilistic model of the input random vector is finally proposed in order to take into account uncertainties on the network input and to perform a robustness analysis of the network output with respect to the input uncertainties level. The capability of the proposed neural network-based identification method to efficiently solve the underlying statistical inverse problem is illustrated through two numerical examples developed within the framework of 2D plane stress linear elasticity, namely a first validation example on synthetic data obtained through computational simulations and a second application example on real experimental data obtained through a physical experiment monitored by digital image correlation on a real heterogeneous biological material (beef cortical bone).
翻訳日:2022-09-25 00:06:02 公開日:2021-02-11
# 医療活動認識におけるコントラスト学習の探索

Exploring Contrastive Learning in Human Activity Recognition for Healthcare ( http://arxiv.org/abs/2011.11542v3 )

ライセンス: Link先を確認
Chi Ian Tang, Ignacio Perez-Pozuelo, Dimitris Spathis, Cecilia Mascolo(参考訳) HAR(Human Activity Recognition)は、人間の健康と健康モニタリングに影響を及ぼすため、ウェアラブルおよびモバイルセンシングにおいて最も重要なタスクの1つである。 HARのラベル付きデータセットの制限、特に医療関連アプリケーションで使用される場合、この研究は、視覚表現の対照的な学習技術であるSimCLRをHARに適用し、適応させることを探求する。 対照的な学習目標を用いることで、対応するビューの表現はより類似し、非対応ビューの表現はより異なるものになる。 データを拡張するための64種類の信号変換の組み合わせを広範囲に検討した結果,その順序や機能によって大きな性能差が見られた。 特に,教師なし,教師なしの学習法を改良し,強化のための微調整とランダム回転を用いた場合の予備的改善が示されたが,将来的にはsimclrがharシステムや他の医療関連アプリケーションにとって有益となる条件を検討する必要がある。

Human Activity Recognition (HAR) constitutes one of the most important tasks for wearable and mobile sensing given its implications in human well-being and health monitoring. Motivated by the limitations of labeled datasets in HAR, particularly when employed in healthcare-related applications, this work explores the adoption and adaptation of SimCLR, a contrastive learning technique for visual representations, to HAR. The use of contrastive learning objectives causes the representations of corresponding views to be more similar, and those of non-corresponding views to be more different. After an extensive evaluation exploring 64 combinations of different signal transformations for augmenting the data, we observed significant performance differences owing to the order and the function thereof. In particular, preliminary results indicated an improvement over supervised and unsupervised learning methods when using fine-tuning and random rotation for augmentation, however, future work should explore under which conditions SimCLR is beneficial for HAR systems and other healthcare-related applications.
翻訳日:2022-09-22 03:13:08 公開日:2021-02-11
# (参考訳) 対応のないロバスト回帰への過度アプローチ

A Hypergradient Approach to Robust Regression without Correspondence ( http://arxiv.org/abs/2012.00123v2 )

ライセンス: CC BY 4.0
Yujia Xie, Yixiu Mao, Simiao Zuo, Hongteng Xu, Xiaojing Ye, Tuo Zhao, Hongyuan Zha(参考訳) 我々は,入力データと出力データの対応が得られない回帰問題の一変型を考える。 このようなシャッフルデータは多くの実世界の問題でよく見られる。 フローサイトメトリーを例として、測定器はサンプルと測定値との対応を維持することができないかもしれない。 問題の組合せ的性質から、既存の手法のほとんどはサンプルサイズが小さく、線形回帰モデルに制限された場合にのみ適用できる。 このようなボトルネックを克服するために,大規模データや複雑な非線形モデルに適用可能なシャッフル回帰問題に対して,新たな計算フレームワークであるロボットを提案する。 具体的には、連続最適化問題として対応のない回帰を再構成する。 次に、回帰モデルとデータ対応の相互作用を利用して、微分可能プログラミング手法に基づく超勾配アプローチを開発する。 このような過次的アプローチは、データ対応を回帰の演算子と見なすので、データ対応を微分することで、モデルパラメータのより良い降下方向を見つけることができる。 ROBOTは、入力データと出力データの間に正確なアライメントがないような不正確な対応設定にさらに拡張することができる。 より詳細な数値実験により,フローサイトメトリーやマルチオブジェクトトラッキングといった実世界の応用を含む線形回帰タスクと非線形回帰タスクの両方において,ROBOTは既存の手法よりも優れた性能を発揮することが示された。

We consider a variant of regression problem, where the correspondence between input and output data is not available. Such shuffled data is commonly observed in many real world problems. Taking flow cytometry as an example, the measuring instruments may not be able to maintain the correspondence between the samples and the measurements. Due to the combinatorial nature of the problem, most existing methods are only applicable when the sample size is small, and limited to linear regression models. To overcome such bottlenecks, we propose a new computational framework -- ROBOT -- for the shuffled regression problem, which is applicable to large data and complex nonlinear models. Specifically, we reformulate the regression without correspondence as a continuous optimization problem. Then by exploiting the interaction between the regression model and the data correspondence, we develop a hypergradient approach based on differentiable programming techniques. Such a hypergradient approach essentially views the data correspondence as an operator of the regression, and therefore allows us to find a better descent direction for the model parameter by differentiating through the data correspondence. ROBOT can be further extended to the inexact correspondence setting, where there may not be an exact alignment between the input and output data. Thorough numerical experiments show that ROBOT achieves better performance than existing methods in both linear and nonlinear regression tasks, including real-world applications such as flow cytometry and multi-object tracking.
翻訳日:2021-06-06 17:37:52 公開日:2021-02-11
# 大腸内視鏡ビデオにおけるモーションベースカメラ定位システム

Motion-based Camera Localization System in Colonoscopy Videos ( http://arxiv.org/abs/2012.01690v3 )

ライセンス: Link先を確認
Heming Yao, Ryan W. Stidham, Zijun Gao, Jonathan Gryak, Kayvan Najarian(参考訳) 大腸内視鏡検査は,胃癌検診やステージング,小腸出血,下血,腹部症状評価,炎症性腸疾患評価など,多くの消化管疾患の診断・予後診断に必須のツールである。 大腸内視鏡所見の質的ヒト解釈における主観性を考慮した大腸内視鏡自動評価が重要である。 大腸内視鏡検査で診断された疾患の所見の意味と文脈を理解するにはカメラの局在が不可欠である。 本研究では,カメラの相対的な位置を推定し,大腸を解剖学的セグメントに分類するカメラローカライズシステムを提案する。 カメラのローカライゼーションシステムは、非形式的フレーム検出と除去から始まる。 次に、カメラの動きを推定するために、自己学習されたエンドツーエンド畳み込みニューラルネットワークを構築し、そのロバスト性と内視鏡ビデオの一般化を改善するためのいくつかの戦略を提案する。 推定カメラモーションを用いて、カメラ軌跡を導出し、相対的な位置指数を算出する。 推定位置指数に基づいて、大腸テンプレートを構築して解剖学的大腸セグメント分類を行う。 提案する動き推定アルゴリズムは,カメラポーズの基底真理を含む外部データセット上で評価した。 実験の結果,提案手法の性能は他の手法よりも優れていることがわかった。 臨床検査から採取した大腸内視鏡画像を用いて, 相対的位置指数推定と解剖学的領域分類を更に検証した。 この検証により、0.754の分類における平均精度が得られ、これは他の方法で構築された位置指標を用いた性能よりもかなり高い。

Optical colonoscopy is an essential diagnostic and prognostic tool for many gastrointestinal diseases, including cancer screening and staging, intestinal bleeding, diarrhea, abdominal symptom evaluation, and inflammatory bowel disease assessment. Automated assessment of colonoscopy is of interest considering the subjectivity present in qualitative human interpretations of colonoscopy findings. Localization of the camera is essential to interpreting the meaning and context of findings for diseases evaluated by colonoscopy. In this study, we propose a camera localization system to estimate the relative location of the camera and classify the colon into anatomical segments. The camera localization system begins with non-informative frame detection and removal. Then a self-training end-to-end convolutional neural network is built to estimate the camera motion, where several strategies are proposed to improve its robustness and generalization on endoscopic videos. Using the estimated camera motion a camera trajectory can be derived and a relative location index calculated. Based on the estimated location index, anatomical colon segment classification is performed by constructing a colon template. The proposed motion estimation algorithm was evaluated on an external dataset containing the ground truth for camera pose. The experimental results show that the performance of the proposed method is superior to other published methods. The relative location index estimation and anatomical region classification were further validated using colonoscopy videos collected from routine clinical practice. This validation yielded an average accuracy in classification of 0.754, which is substantially higher than the performances obtained using location indices built from other methods.
翻訳日:2021-05-23 15:12:28 公開日:2021-02-11
# (参考訳) グラフネットワークを用いたルンド平面におけるジェットタギング

Jet tagging in the Lund plane with graph networks ( http://arxiv.org/abs/2012.08526v2 )

ライセンス: CC BY 4.0
Fr\'ed\'eric A. Dreyer and Huilin Qu(参考訳) トップクォークやベクターボソンのような高密度粒子の同定は、大型ハドロン衝突型加速器の実験で生じる重要な問題の一つである。 本稿では,グラフニューラルネットワークに基づく新しいジェットタグ付け手法であるlundnetと,ジェット内の放射パターンの効率的な記述により,ブースト対象物のシグネチャを背景イベントから最適に切り離す方法を提案する。 我々はこのフレームワークを多数の異なるベンチマークに適用し、既存の最先端アルゴリズムと比較して、トップタグのパフォーマンスを著しく改善した。 本研究では,非摂動および検出器効果に対する lundnet tagger のロバスト性について検討し,lund 平面の運動的切断がモデル依存的貢献に対するニューラルネットワークの過剰フィットをいかに緩和するかを示す。 最後に, この手法の計算複雑性とスケーリングを, 従来のグラフベースタグよりも高速な速度向上を図った, 運動論的Lund平面切断の関数として考える。

The identification of boosted heavy particles such as top quarks or vector bosons is one of the key problems arising in experimental studies at the Large Hadron Collider. In this article, we introduce LundNet, a novel jet tagging method which relies on graph neural networks and an efficient description of the radiation patterns within a jet to optimally disentangle signatures of boosted objects from background events. We apply this framework to a number of different benchmarks, showing significantly improved performance for top tagging compared to existing state-of-the-art algorithms. We study the robustness of the LundNet taggers to non-perturbative and detector effects, and show how kinematic cuts in the Lund plane can mitigate overfitting of the neural network to model-dependent contributions. Finally, we consider the computational complexity of this method and its scaling as a function of kinematic Lund plane cuts, showing an order of magnitude improvement in speed over previous graph-based taggers.
翻訳日:2021-05-07 09:31:19 公開日:2021-02-11
# 分布シフトによる学習のための変分ビーム探索

Variational Beam Search for Learning with Distribution Shifts ( http://arxiv.org/abs/2012.08101v2 )

ライセンス: Link先を確認
Aodong Li, Alex Boyd, Padhraic Smyth, Stephan Mandt(参考訳) 本稿では,自律ナビゲーションなどのアプリケーションにおいて,突発的な配電シフトが存在する場合のオンライン学習の問題点をよく見かける。 分散シフトは、一定のパフォーマンス監視と再トレーニングを必要とする。 また、検出も困難で、モデルパフォーマンスの遅いが安定した劣化につながる可能性がある。 この問題に対処するために,我々は, (i) 最小の逐次観測に基づいて微妙な分布シフトを推測し, (ii) オンラインの手法でモデルに適応できる新しいベイズメタアルゴリズムを提案する。 このアプローチでは、複数の変更点仮説をビームサーチして、階層的な逐次潜在変数モデリングフレームワーク上で推論を行う。 提案手法はモデル非依存であり,教師付き学習と教師なし学習の両方に適用可能である。

We consider the problem of online learning in the presence of sudden distribution shifts as frequently encountered in applications such as autonomous navigation. Distribution shifts require constant performance monitoring and re-training. They may also be hard to detect and can lead to a slow but steady degradation in model performance. To address this problem we propose a new Bayesian meta-algorithm that can both (i) make inferences about subtle distribution shifts based on minimal sequential observations and (ii) accordingly adapt a model in an online fashion. The approach uses beam search over multiple change point hypotheses to perform inference on a hierarchical sequential latent variable modeling framework. Our proposed approach is model-agnostic, applicable to both supervised and unsupervised learning, and yields significant improvements over state-of-the-art Bayesian online learning approaches.
翻訳日:2021-05-07 05:35:06 公開日:2021-02-11
# 高分解能画像合成のためのタンピングトランス

Taming Transformers for High-Resolution Image Synthesis ( http://arxiv.org/abs/2012.09841v2 )

ライセンス: Link先を確認
Patrick Esser and Robin Rombach and Bj\"orn Ommer(参考訳) シーケンシャルデータで長距離インタラクションを学習するために設計されたトランスフォーマーは、さまざまなタスクで最先端の結果を示し続けている。 CNNとは対照的に、局所的な相互作用を優先する誘導バイアスは存在しない。 これは表現力があるが、高解像度画像のような長いシーケンスでは計算不可能である。 本稿では,CNNの帰納バイアスとトランスフォーマーの表現性を組み合わせることで,高分解能画像のモデル化と合成を実現する方法について述べる。 画像成分の文脈に富んだ語彙を学習するために(i)CNNを使う方法を示し、(ii)変換器を用いて高解像度画像中の合成を効率的にモデル化する。 本手法は,オブジェクトクラスなどの非空間情報とセグメンテーションなどの空間情報の両方が生成画像を制御することができる条件合成タスクに容易に適用できる。 特に,トランスフォーマーを用いたメガピクセル画像のセマンティック誘導合成の最初の結果を示す。 プロジェクトページ: https://compvis.github.io/taming-transformers/

Designed to learn long-range interactions on sequential data, transformers continue to show state-of-the-art results on a wide variety of tasks. In contrast to CNNs, they contain no inductive bias that prioritizes local interactions. This makes them expressive, but also computationally infeasible for long sequences, such as high-resolution images. We demonstrate how combining the effectiveness of the inductive bias of CNNs with the expressivity of transformers enables them to model and thereby synthesize high-resolution images. We show how to (i) use CNNs to learn a context-rich vocabulary of image constituents, and in turn (ii) utilize transformers to efficiently model their composition within high-resolution images. Our approach is readily applied to conditional synthesis tasks, where both non-spatial information, such as object classes, and spatial information, such as segmentations, can control the generated image. In particular, we present the first results on semantically-guided synthesis of megapixel images with transformers. Project page at https://compvis.github.io/taming-transformers/ .
翻訳日:2021-05-02 07:23:04 公開日:2021-02-11
# I-BERT:整数のみのBERT量子化

I-BERT: Integer-only BERT Quantization ( http://arxiv.org/abs/2101.01321v2 )

ライセンス: Link先を確認
Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer(参考訳) BERTやRoBERTaのようなトランスフォーマーベースのモデルは、多くの自然言語処理タスクで最先端の結果を得た。 しかし、そのメモリフットプリント、推論レイテンシ、電力消費は、エッジやデータセンターでも効率的な推論が禁じられている。 量子化は実現可能な解決策であるが、前回のトランスフォーマーモデルの量子化では、推論中に浮動小数点演算が用いられており、最近のチューリングテンソルコアや従来の整数のみのarmプロセッサのような整数のみの論理単位を効率的に利用できない。 本研究では,整数のみの算術で推論全体を量子化するトランスフォーマーモデルのための新しい量子化スキームI-BERTを提案する。 I-BERTは、GELU、Softmax、Layer Normalizationなどの非線形演算のための軽量整数専用近似法に基づいて、浮動小数点演算なしでエンドツーエンドの整数専用BERT推論を実行する。 我々は,RoBERTa-Base/Largeを用いて,GLUE下流タスクに対するアプローチを評価する。 いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。 さらに,我々は,T4 GPUシステム上でのINT8推論において,FP32推論と比較して2.4-4.0xの高速化を示した。 このフレームワークはPyTorchで開発され、オープンソース化されている。

Transformer based models, like BERT and RoBERTa, have achieved state-of-the-art results in many Natural Language Processing tasks. However, their memory footprint, inference latency, and power consumption are prohibitive for efficient inference at the edge, and even at the data center. While quantization can be a viable solution for this, previous work on quantizing Transformer based models use floating-point arithmetic during inference, which cannot efficiently utilize integer-only logical units such as the recent Turing Tensor Cores, or traditional integer-only ARM processors. In this work, we propose I-BERT, a novel quantization scheme for Transformer based models that quantizes the entire inference with integer-only arithmetic. Based on lightweight integer-only approximation methods for nonlinear operations, e.g., GELU, Softmax, and Layer Normalization, I-BERT performs an end-to-end integer-only BERT inference without any floating point calculation. We evaluate our approach on GLUE downstream tasks using RoBERTa-Base/Large. We show that for both cases, I-BERT achieves similar (and slightly higher) accuracy as compared to the full-precision baseline. Furthermore, our preliminary implementation of I-BERT shows a speedup of 2.4 - 4.0x for INT8 inference on a T4 GPU system as compared to FP32 inference. The framework has been developed in PyTorch and has been open-sourced.
翻訳日:2021-04-11 11:38:42 公開日:2021-02-11
# (参考訳) 自己監督型トランスフォーマーによる有害テキストの民話

Civil Rephrases Of Toxic Texts With Self-Supervised Transformers ( http://arxiv.org/abs/2102.05456v2 )

ライセンス: CC BY 4.0
Leo Laugier, John Pavlopoulos, Jeffrey Sorensen, Lucas Dixon(参考訳) ソーシャルネットワークからニュースサイトまで、オンラインコメントをサポートするプラットフォームは、機械学習を活用してモデレーションを支援している。 しかし、このプロセスは通常、コミュニティガイドラインに従って貢献してくれる著者へのフィードバックを提供しません。 これは人間のモデレーターが行うのに極めて時間がかかり、計算アプローチはまだ初期段階にある。 この研究は、より市民的な方法で有毒なコメントを言い換えるのに役立つモデルに焦点を当てている。 近年のシーケンス・ツー・シーケンス・タスクの進歩に触発されて,CAE-T5と呼ばれる自己教師型学習モデルが導入された。 cae-t5は事前学習されたテキストからテキストへの変換器を採用しており、ノイズとサイクリックなオートエンコーダの損失を微調整している。 これまでで最大の毒性検出データセット(Civil Comments)を用いて実験を行った結果,本モデルでは,複数のスコアリングシステムと人的評価を用いて比較したテキストスタイルの転送システムと比較して,初期コンテンツ保存の精度が向上した文を生成する。

Platforms that support online commentary, from social networks to news sites, are increasingly leveraging machine learning to assist their moderation efforts. But this process does not typically provide feedback to the author that would help them contribute according to the community guidelines. This is prohibitively time-consuming for human moderators to do, and computational approaches are still nascent. This work focuses on models that can help suggest rephrasings of toxic comments in a more civil manner. Inspired by recent progress in unpaired sequence-to-sequence tasks, a self-supervised learning model is introduced, called CAE-T5. CAE-T5 employs a pre-trained text-to-text transformer, which is fine tuned with a denoising and cyclic auto-encoder loss. Experimenting with the largest toxicity detection dataset to date (Civil Comments) our model generates sentences that are more fluent and better at preserving the initial content compared to earlier text style transfer systems which we compare with using several scoring systems and human evaluation.
翻訳日:2021-04-06 08:29:28 公開日:2021-02-11
# (参考訳) Lie-Sensor:感情知を利用したチャットアプリケーションのためのライブ感情検証装置

Lie-Sensor: A Live Emotion Verifier or a Licensor for Chat Applications using Emotional Intelligence ( http://arxiv.org/abs/2102.11318v1 )

ライセンス: CC BY-SA 4.0
Falguni Patel, NirmalKumar Patel, Santosh Kumar Bharti(参考訳) veracityは、革新的な製品の研究と開発における重要な鍵である。 ライブ感情分析と検証は、ライブチャットの不満を解消し、メッセージングアプリの両端のメッセージをコラボレートし、ユーザー間の正直な会話を促進する。 この感情の背後にある主要な概念は、表情とテキストの予測によって認識されるチャットアプリのさまざまな感情を比較することによって、メッセージ説明責任をライセンスまたは低下させることである。 本稿では,提案する感情知性ライブ検出器が,幸福,悲しみ,驚き,憎しみというラベルに表情の感情を分配する正直なアービターとして機能する。 さらに、テキスト分類によってメッセージのラベルを別々に予測する。 最後に、両方のラベルを比較し、メッセージを詐欺またはボナフィドとして宣言する。 感情検出には,最小知覚モデルを用いて畳み込みニューラルネットワーク(cnn)を展開し,テキスト予測のためにサポートベクターマシン(svm)の自然言語処理確率分類器を,サポートベクターマシン(svm),ランダムフォレスト分類器(random forest classifier),ナイーブベイズ分類器(naive bayes classifier),ロジスティック回帰(logistic regression)を適用した。

Veracity is an essential key in research and development of innovative products. Live Emotion analysis and verification nullify deceit made to complainers on live chat, corroborate messages of both ends in messaging apps and promote an honest conversation between users. The main concept behind this emotion artificial intelligent verifier is to license or decline message accountability by comparing variegated emotions of chat app users recognized through facial expressions and text prediction. In this paper, a proposed emotion intelligent live detector acts as an honest arbiter who distributes facial emotions into labels namely, Happiness, Sadness, Surprise, and Hate. Further, it separately predicts a label of messages through text classification. Finally, it compares both labels and declares the message as a fraud or a bonafide. For emotion detection, we deployed Convolutional Neural Network (CNN) using a miniXception model and for text prediction, we selected Support Vector Machine (SVM) natural language processing probability classifier due to receiving the best accuracy on training dataset after applying Support Vector Machine (SVM), Random Forest Classifier, Naive Bayes Classifier, and Logistic regression.
翻訳日:2021-04-06 05:53:31 公開日:2021-02-11
# (参考訳) 眼球運動の特徴からみた外科医の鑑別

Differentiating Surgeon Expertise Solely by Eye Movement Features ( http://arxiv.org/abs/2102.08155v1 )

ライセンス: CC BY-SA 4.0
Benedikt Hosp, Myat Su Yin, Peter Haddawy, Paphon Sa-Ngasoongsong, and Enkelejda Kasneci(参考訳) 近年のコンピュータ科学の発展は病院に移行しつつある。 外科医は新しい技術的課題に直面しています。 視覚知覚はこれらのほとんどにおいて重要な役割を担っている。 若い外科医の訓練を最適化するために診断と訓練モデルが必要である。 本研究では,眼球運動のみを用いた専門家,4歳住民,3歳住民の分類モデルを提案する。 眼球運動を正しいクラスに分類するために、最小限の機能セットを使用しながら76.46パーセントのロバストな精度を達成しているモデルを示す。 同様に,本研究では,3つの専門知識クラス間の視覚知覚の進化的ステップを扱い,専門知識の診断モデルへの第一歩となる。

Developments in computer science in recent years are moving into hospitals. Surgeons are faced with ever new technical challenges. Visual perception plays a key role in most of these. Diagnostic and training models are needed to optimize the training of young surgeons. In this study, we present a model for classifying experts, 4th-year residents and 3rd-year residents, using only eye movements. We show a model that uses a minimal set of features and still achieve a robust accuracy of 76.46 % to classify eye movements into the correct class. Likewise, in this study, we address the evolutionary steps of visual perception between three expertise classes, forming a first step towards a diagnostic model for expertise.
翻訳日:2021-04-06 05:45:10 公開日:2021-02-11
# (参考訳) 制御理論の発展の4世代?

Four Generations of Control Theory Development ? ( http://arxiv.org/abs/2102.08190v1 )

ライセンス: CC BY 4.0
Tai Cheng Yang(参考訳) この記事では、制御システムの研究を4世代、すなわち、1つの転送関数ベース、2つの状態空間ベース、3つのネットワーク制御システム、そして新しいAI時代の4つの制御に分けることができるという意見を示す。

This short article presents an opinion that control system study up to date can be divided into four generations; namely, 1 transfer function based; 2 state-space based; 3 networked control systems; and 4 control in the new AI era.
翻訳日:2021-04-06 05:36:40 公開日:2021-02-11
# (参考訳) 深層学習を用いた業務プロセスにおけるイベントタイプとイベント時間予測

Quartile-based Prediction of Event Types and Event Time in Business Processes using Deep Learning ( http://arxiv.org/abs/2102.07838v1 )

ライセンス: CC BY-SA 4.0
Ishwar Venugopal(参考訳) ディープラーニングモデルは、ビジネスプロセスにおける予測プロセスマイニングタスクにますます使われています。 現代のアプローチは、従来のアプローチと比較して、さまざまな予測タスクのパフォーマンス向上に成功しています。 この研究では、グラフ畳み込み層と線形層を含むモデルの5つの異なるバリエーションが、与えられたプロセスインスタンスにおける次のアクティビティの性質とタイムスタンプを予測するタスクのためにテストされている。 我々は,各プロセスのインスタンスにおける個々のイベントの特徴ベクトルを表現する新しい手法を提案し,対応するデータセットから生成した直接フォロープロセスグラフの構造を考慮に入れた。 生成されたプロセスグラフの隣接行列は、グラフ畳み込みネットワーク(gcn)への入力として使用される。 異なるモデル変種は、隣接行列の表現のバリエーションを利用する。 全てのモデル変種の性能はプロセスの異なる段階でテストされ、事象の数とケース期間に基づいて推定される四量体によって決定されている。 実験の結果は、個々のタスクのほとんどについて、以前報告した結果よりも大幅に改善された。 興味深いことに、ドロップアウトを持つ線形多層パーセプトロン(MLP)は、両方の予測タスクにおいてGCN変異よりも優れていた。 四分位数に基づく分析により、他の変種は、mlpが全体的な性能で最高のタスクの一部において、個々の四分数においてmlpよりも優れた性能を発揮できることがさらに観察された。

Deep learning models are now being increasingly used for predictive process mining tasks in business processes. Modern approaches have been successful in achieving better performance for different predictive tasks, as compared to traditional approaches. In this work, five different variants of a model involving a Graph Convolutional Layer and linear layers have been tested for the task of predicting the nature and timestamp of the next activity in a given process instance. We have introduced a new method for representing feature vectors for any individual event in a given process instance, taking into consideration the structure of Directly-follows process graphs generated from the corresponding datasets. The adjacency matrix of the process graphs generated has been used as input to a Graph Convolutional Network (GCN). Different model variants make use of variations in the representation of the adjacency matrix. The performance of all the model variants have been tested at different stages of a process, determined by quartiles estimated based on the number of events and the case duration. The results obtained from the experiments, significantly improves over the previously reported results for most of the individual tasks. Interestingly, it was observed that a linear Multi-Layer Perceptron (MLP) with dropout was able to outperform the GCN variants in both the prediction tasks. Using a quartile-based analysis, it was further observed that the other variants were able to perform better than MLP at individual quartiles in some of the tasks where the MLP had the best overall performance.
翻訳日:2021-04-06 05:34:05 公開日:2021-02-11
# 健康保険における不正検出のための機械学習統合型マルコフモデル

Markov model with machine learning integration for fraud detection in health insurance ( http://arxiv.org/abs/2102.10978v1 )

ライセンス: Link先を確認
Rohan Yashraj Gupta, Satya Sai Mudigonda, Pallav Kumar Baruah and Phani Krishna Kandala(参考訳) インドでは、医療保険部門の経費が大幅に増加した。 この研究は、健康保険詐欺の検出に適用される方法を提供することを目的としている。 この研究は、健康保険請求書における勾配押し上げ手法を用いたマルコフモデルと改良マルコフモデルという2つのアプローチを提示した。 データセット382,587の主張のうち38,082は不正である。 マルコフベースのモデルは94.07%の精度でF1スコアは0.6683である。 しかし、改良されたマルコフモデルは、97.10%の精度と0.8546のf1-scoreと比較してはるかに優れた性能を示した。 改良されたマルコフモデルがマルコフモデルよりもはるかに低い偽陽性率を示した。

Fraud has led to a huge addition of expenses in health insurance sector in India. The work is aimed to provide methods applied to health insurance fraud detection. The work presents two approaches - a markov model and an improved markov model using gradient boosting method in health insurance claims. The dataset 382,587 claims of which 38,082 claims are fraudulent. The markov based model gave the accuracy of 94.07% with F1-score at 0.6683. However, the improved markov model performed much better in comparison with the accuracy of 97.10% and F1-score of 0.8546. It was observed that the improved markov model gave much lower false positives compared to markov model.
翻訳日:2021-04-05 00:38:32 公開日:2021-02-11
# 対話のパーソナライズと文書レベルの機械翻訳に向けて

Towards Personalised and Document-level Machine Translation of Dialogue ( http://arxiv.org/abs/2102.10979v1 )

ライセンス: Link先を確認
Sebastian T. Vincent(参考訳) State-of-the-art(SOTA)ニューラルマシン翻訳(NMT)システムは、テキストを文レベルで翻訳し、文脈を無視する:前文のようなテキスト内情報、話者の性別のようなテキスト外情報である。 そのため、いくつかの文は誤って翻訳される。 パーソナライズされたNMT(PersNMT)とドキュメントレベルのNMT(DocNMT)は、この情報を翻訳プロセスに組み込む。 どちらの分野も比較的新しいもので、それ以前の作業は限られている。 さらに、簡単に利用できるロバストな評価指標は存在せず、より良いシステムを開発することや、グローバルな進捗を追跡し、異なる方法を比較することが困難になる。 この論文は、英語、ブラジルポルトガル語、ドイツ語、フランス語、ポーランド語のテレビ字幕から抽出された対話領域のPersNMTとDocNMTに焦点を当てている。 1)NMTシステムに直接テキスト情報を導入すること,(2)凝集装置の機械翻訳を改善すること,(3)PersNMTとDocNMTの信頼性を評価すること,の3つの課題に対処する。

State-of-the-art (SOTA) neural machine translation (NMT) systems translate texts at sentence level, ignoring context: intra-textual information, like the previous sentence, and extra-textual information, like the gender of the speaker. Because of that, some sentences are translated incorrectly. Personalised NMT (PersNMT) and document-level NMT (DocNMT) incorporate this information into the translation process. Both fields are relatively new and previous work within them is limited. Moreover, there are no readily available robust evaluation metrics for them, which makes it difficult to develop better systems, as well as track global progress and compare different methods. This thesis proposal focuses on PersNMT and DocNMT for the domain of dialogue extracted from TV subtitles in five languages: English, Brazilian Portuguese, German, French and Polish. Three main challenges are addressed: (1) incorporating extra-textual information directly into NMT systems; (2) improving the machine translation of cohesion devices; (3) reliable evaluation for PersNMT and DocNMT.
翻訳日:2021-04-05 00:37:45 公開日:2021-02-11
# 機械的換気によるCOVID-19患者の位置決めの際の医療スタッフ支援にエキソスケトンを用いた実験的検討

Using exoskeletons to assist medical staff during prone positioning of mechanically ventilated COVID-19 patients: a pilot study ( http://arxiv.org/abs/2102.08760v1 )

ライセンス: Link先を確認
Serena Ivaldi (LARSEN), Pauline Maurice (LORIA), Waldez Gomes (LORIA), Jean Theurel (INRS (Vandoeuvre l\`es Nancy)), Li\^en Wioland (INRS (Vandoeuvre l\`es Nancy)), Jean-Jacques Atain-Kouadio (INRS (Vandoeuvre l\`es Nancy)), Laurent Claudon (INRS (Vandoeuvre l\`es Nancy)), Hind Hani (CUESim), Antoine Kimmoun (CHRU Nancy), Jean-Marc Sellal (CHRU Nancy), Bruno Levy (CHRU Nancy), Jean Paysant (CHRU Nancy), Sergue\"i Malikov (CHRU Nancy), Bruno Chenuel (CHRU Nancy), Nicla Settembre (CHRU Nancy)(参考訳) ナンシー大学病院(フランス)の集中治療室(icu)の介護者に対して,重症急性呼吸窮迫症候群患者に対するプロイン・ポジショニング(pp)操作を行うための支援型外骨格の可能性と実現可能性を評価するためのパイロット研究を行った。 4つの商業用外骨格を比較すると、ラエボ受動外骨格は2020年4月にicuで選定され使用された。 Laevoを使用した最初のボランティアは、非常に肯定的なフィードバックと労力の削減を報告し、EMGとECG分析によって確認された。 laevoはその後、新型コロナウイルス(covid-19)の再検査の後、ナンシー病院のicuでppの身体的支援に使用され、全体的なポジティブなフィードバックが得られた。

We conducted a pilot study to evaluate the potential and feasibility of back-support exoskeletons to help the caregivers in the Intensive Care Unit (ICU) of the University Hospital of Nancy (France) executing Prone Positioning (PP) maneuvers on patients suffering from severe COVID-19-related Acute Respiratory Distress Syndrome. After comparing four commercial exoskeletons, the Laevo passive exoskeleton was selected and used in the ICU in April 2020. The first volunteers using the Laevo reported very positive feedback and reduction of effort, confirmed by EMG and ECG analysis. Laevo has been since used to physically assist during PP in the ICU of the Hospital of Nancy, following the recrudescence of COVID-19, with an overall positive feedback.
翻訳日:2021-04-05 00:37:05 公開日:2021-02-11
# データセンターテレメトリにおける時系列予測の課題とアプローチ:サーベイ

Challenges and approaches to time-series forecasting in data center telemetry: A Survey ( http://arxiv.org/abs/2101.04224v2 )

ライセンス: Link先を確認
Shruti Jadon, Jan Kanty Milczek, Ajit Patankar(参考訳) 時系列予測は長年にわたって重要な研究領域であった。 そのアプリケーションには、ecgの予測、売上予測、気象条件、新型コロナウイルスの拡散予測などが含まれる。 これらの応用は、多くの研究者が最適な予測手法を見つける動機となったが、アプリケーションドメインが変化するにつれてモデリングアプローチも変化している。 この研究は、データセンターで収集されたテレメトリデータ予測のための様々な予測アプローチのレビューに重点を置いている。 テレメトリデータの予測は、ネットワークおよびデータセンター管理製品の重要な特徴である。 しかし、単純な線形統計モデルから高容量ディープラーニングアーキテクチャに至るまで、予測アプローチには複数の選択肢がある。 本稿では,よく知られた時系列予測手法の性能を要約し,評価することを試みた。 この評価がテレメトリデータの予測手法を革新する包括的な概要を提供することを期待している。

Time-series forecasting has been an important research domain for so many years. Its applications include ECG predictions, sales forecasting, weather conditions, even COVID-19 spread predictions. These applications have motivated many researchers to figure out an optimal forecasting approach, but the modeling approach also changes as the application domain changes. This work has focused on reviewing different forecasting approaches for telemetry data predictions collected at data centers. Forecasting of telemetry data is a critical feature of network and data center management products. However, there are multiple options of forecasting approaches that range from a simple linear statistical model to high capacity deep learning architectures. In this paper, we attempted to summarize and evaluate the performance of well known time series forecasting techniques. We hope that this evaluation provides a comprehensive summary to innovate in forecasting approaches for telemetry data.
翻訳日:2021-04-04 14:45:48 公開日:2021-02-11
# (参考訳) APEX-Net: 自動スロットエクストラクタネットワーク

APEX-Net: Automatic Plot Extractor Network ( http://arxiv.org/abs/2101.06217v3 )

ライセンス: CC BY 4.0
Aalok Gangopadhyay, Prajwal Singh, Shanmuganathan Raman(参考訳) 2次元線プロット画像からの生データの自動抽出は、多くの実世界のアプリケーションを持つ重要な問題である。 この問題を解決するためにいくつかのアルゴリズムが提案されている。 しかし、これらのアルゴリズムには大量の人間の介入が含まれる。 この介入を最小限に抑えるために,プロット抽出問題を解決するための新しい損失関数を持つディープラーニングフレームワークapex-netを提案する。 本稿ではプロット画像と生データの両方を含む新しい大規模データセットであるAPEX-1Mを紹介する。 本稿では,APEX-1MテストセットにおけるAPEX-Netの性能を実演し,精度が向上したことを示す。 また,プロット画像に対するネットワークの視覚的な結果を示し,プロットの形状をある程度抽出できることを実証した。 最後に,プロット抽出のためのguiベースのソフトウェアを開発し,コミュニティ全体のメリットを享受する。 詳細はhttps://sites.google.com/view/apexnetpaper/を参照。

Automatic extraction of raw data from 2D line plot images is a problem of great importance having many real-world applications. Several algorithms have been proposed for solving this problem. However, these algorithms involve a significant amount of human intervention. To minimize this intervention, we propose APEX-Net, a deep learning based framework with novel loss functions for solving the plot extraction problem. We introduce APEX-1M, a new large scale dataset which contains both the plot images and the raw data. We demonstrate the performance of APEX-Net on the APEX-1M test set and show that it obtains impressive accuracy. We also show visual results of our network on unseen plot images and demonstrate that it extracts the shape of the plots to a great extent. Finally, we develop a GUI based software for plot extraction that can benefit the community at large. For dataset and more information visit https://sites.google.com/view/apexnetpaper/.
翻訳日:2021-03-28 14:13:11 公開日:2021-02-11
# (参考訳) 行動変化アプリにおけるパーソナライゼーションパラドックス:身体活動のためのソーシャル比較ベースのパーソナライゼーションアプリからの教訓

Personalization Paradox in Behavior Change Apps: Lessons from a Social Comparison-Based Personalized App for Physical Activity ( http://arxiv.org/abs/2101.10020v2 )

ライセンス: CC BY 4.0
Jichen Zhu, Diane H. Dallal, Robert C. Gray, Jennifer Villareale, Santiago Onta\~n\'on, Evan M. Forman, Danielle Arigo(参考訳) ソーシャル比較ベースの機能は、ソーシャルコンピューティングアプリケーションで広く使われている。 しかし、ほとんどの既存のアプリは社会的比較理論に基づきておらず、社会的比較の好みや反応の個人差を考慮していない。 本論文は、社会比較対象を自動的にパーソナライズする最初の論文である。 m-health app for physical activityのコンテキストでは、多腕バンディットの人工知能(AI)技術を使用します。 ユーザ調査 (n=53) の結果, 社会比較のAIによるパーソナライゼーションにより動機付けが向上する証拠がいくつかある。 検出された効果は、モチベーションと身体活動の促進のための介入の現実世界の意義を表わし、小さくてモデレートな効果サイズを達成した。 本論文では,ソーシャルアプリにおけるソーシャル比較機能に対するデザインの影響に加えて,個人化のパラドックス,ユーザモデリングと適応の衝突を,行動変化のための個人化アプリケーションの重要な設計課題として特定した。 さらに,このパーソナライゼーションパラドックスを緩和する研究の方向性を提案する。

Social comparison-based features are widely used in social computing apps. However, most existing apps are not grounded in social comparison theories and do not consider individual differences in social comparison preferences and reactions. This paper is among the first to automatically personalize social comparison targets. In the context of an m-health app for physical activity, we use artificial intelligence (AI) techniques of multi-armed bandits. Results from our user study (n=53) indicate that there is some evidence that motivation can be increased using the AI-based personalization of social comparison. The detected effects achieved small-to-moderate effect sizes, illustrating the real-world implications of the intervention for enhancing motivation and physical activity. In addition to design implications for social comparison features in social apps, this paper identified the personalization paradox, the conflict between user modeling and adaptation, as a key design challenge of personalized applications for behavior change. Additionally, we propose research directions to mitigate this Personalization Paradox.
翻訳日:2021-03-16 04:19:06 公開日:2021-02-11
# (参考訳) がん遺伝子プロファイリングの発見

Cancer Gene Profiling through Unsupervised Discovery ( http://arxiv.org/abs/2102.07713v1 )

ライセンス: CC0 1.0
Enzo Battistella, Maria Vakalopoulou, Roger Sun, Th\'eo Estienne, Marvin Lerousseau, Sergey Nikolaev, Emilie Alvarez Andres, Alexandre Carr\'e, St\'ephane Niyoteka, Charlotte Robert, Nikos Paragios, Eric Deutsch(参考訳) 精密医療は、ゲノムデータに大きく依存する医療のパラダイムシフトである。 しかし, 生物学的相互作用の複雑さ, 遺伝子の多さ, データ解析における比較の欠如は, 臨床応用において大きなボトルネックとなっている。 本論文では、低次元遺伝子バイオマーカーを発見するための新しい自動および非監視フレームワークについて紹介する。 本手法は,高次元中心ベースの非監視クラスタリングアルゴリズムであるLP-Stabilityアルゴリズムに基づいており,最適なクラスタ数を自動的に決定しながら,メトリクス関数とスケーラビリティを懸念するモジュラリティを提供する。 我々の評価には数学的基準と生物学的基準の両方が含まれる。 回収されたシグネチャは、生物学的経路および機能のスクリーニング、腫瘍タイプおよびサブタイプの特性関連性など、さまざまな生物学的タスクに適用されます。 文献で使用されるクラスタリング法や参照遺伝子シグネチャなど,異なる距離の計測値の定量的比較により,本手法の有効性を確認した。 特に27の遺伝子に基づくシグネチャは、他の参照クラスタリング法よりも少なくとも30ドル以上の数学的意義(平均ダン指数)と25%の生物学的意義(タンパク質とタンパク質の相互作用における平均的な富化)が報告されている。 最後に, 免疫炎症性腫瘍と免疫砂漠性腫瘍を区別する有望な結果が報告され, 腫瘍型分類では92%, 腫瘍サブタイプ分類では平均68%と高いバランスの取れた精度が報告された。

Precision medicine is a paradigm shift in healthcare relying heavily on genomics data. However, the complexity of biological interactions, the large number of genes as well as the lack of comparisons on the analysis of data, remain a tremendous bottleneck regarding clinical adoption. In this paper, we introduce a novel, automatic and unsupervised framework to discover low-dimensional gene biomarkers. Our method is based on the LP-Stability algorithm, a high dimensional center-based unsupervised clustering algorithm, that offers modularity as concerns metric functions and scalability, while being able to automatically determine the best number of clusters. Our evaluation includes both mathematical and biological criteria. The recovered signature is applied to a variety of biological tasks, including screening of biological pathways and functions, and characterization relevance on tumor types and subtypes. Quantitative comparisons among different distance metrics, commonly used clustering methods and a referential gene signature used in the literature, confirm state of the art performance of our approach. In particular, our signature, that is based on 27 genes, reports at least $30$ times better mathematical significance (average Dunn's Index) and 25% better biological significance (average Enrichment in Protein-Protein Interaction) than those produced by other referential clustering methods. Finally, our signature reports promising results on distinguishing immune inflammatory and immune desert tumors, while reporting a high balanced accuracy of 92% on tumor types classification and averaged balanced accuracy of 68% on tumor subtypes classification, which represents, respectively 7% and 9% higher performance compared to the referential signature.
翻訳日:2021-02-16 18:02:26 公開日:2021-02-11
# 深層伝達学習による3次元のリアルタイムトポロジー最適化

Real-Time Topology Optimization in 3D via Deep Transfer Learning ( http://arxiv.org/abs/2102.07657v1 )

ライセンス: Link先を確認
MohammadMahdi Behzadi, Horea T. Ilies(参考訳) トポロジー最適化に関する論文は過去20年で爆発的に発展し、形状や位相微分や様々な幾何学表現やパラメトリゼーションに基づいて定式化された進化的アルゴリズムを使う方法を含んでいる。 これらの手法の鍵となる課題の1つは、3次元トポロジー最適化問題に関連する膨大な計算コストである。 We introduce a transfer learning method based on a convolutional neural network that (1) can handle high-resolution 3D design domains of various shapes and topologies; (2) supports real-time design space explorations as the domain and boundary conditions change; (3) requires a much smaller set of high-resolution examples for the improvement of learning in a new task compared to traditional deep learning networks; (4) is multiple orders of magnitude more efficient than the established gradient-based methods, such as SIMP. ソースネットワークには見られない設計領域や、トランスファーラーニングに基づくアプローチの一般化機能など、提案手法の有効性と精度を示すために、多数の2Dおよび3Dサンプルを提供しています。 実験では,平均二進法精度を95%程度,実時間予測速度で達成した。 これらの特性から,提案手法がトポロジ最適化に基づくリアルタイム3次元デザイン探索のための最初の実践的基盤となる可能性が示唆された。

The published literature on topology optimization has exploded over the last two decades to include methods that use shape and topological derivatives or evolutionary algorithms formulated on various geometric representations and parametrizations. One of the key challenges of all these methods is the massive computational cost associated with 3D topology optimization problems. We introduce a transfer learning method based on a convolutional neural network that (1) can handle high-resolution 3D design domains of various shapes and topologies; (2) supports real-time design space explorations as the domain and boundary conditions change; (3) requires a much smaller set of high-resolution examples for the improvement of learning in a new task compared to traditional deep learning networks; (4) is multiple orders of magnitude more efficient than the established gradient-based methods, such as SIMP. We provide numerous 2D and 3D examples to showcase the effectiveness and accuracy of our proposed approach, including for design domains that are unseen to our source network, as well as the generalization capabilities of the transfer learning-based approach. Our experiments achieved an average binary accuracy of around 95% at real-time prediction rates. These properties, in turn, suggest that the proposed transfer-learning method may serve as the first practical underlying framework for real-time 3D design exploration based on topology optimization
翻訳日:2021-02-16 16:07:14 公開日:2021-02-11
# Freudian and Newtonian Recurrent Cell for Sequential Recommendation

Freudian and Newtonian Recurrent Cell for Sequential Recommendation ( http://arxiv.org/abs/2102.07645v1 )

ライセンス: Link先を確認
Hoyeop Lee, Jinbae Im, Chang Ouk Kim, Sehee Chung(参考訳) シーケンシャルレコメンデータシステムは、行動パターンに基づいた魅力的なアイテムをユーザに推奨することを目的としている。 主要なレコメンデーションモデルは、ある定義された空間にアイテムを埋め込んで、アイテムの埋め込みに基づいてユーザの長期的および短期的嗜好を把握するゲートリカレントユニットのような自然言語処理モデルに基づいている。 しかしながら、これらのアプローチは、そのようなモデルがユーザの固有の意思決定プロセスとどのように関係しているかに関する根本的な洞察を欠いている。 そこで本研究では,FreudianとNewtonianの視点から,新たな繰り返しセルであるFaNCを提案する。 FaNCはユーザの状態を意識的かつ無意識な状態に分割し、ユーザの決定プロセスはFreud氏の2つの原則、すなわち快楽原則と現実原則によってモデル化される。 快楽原理、すなわち自由浮揚ユーザの本能をモデル化するために、私たちはユーザの無意識状態とアイテム埋め込みを同じ潜在空間に配置し、ニュートンの重力の法則に従わせる。 さらに,ユーザに対してアイテムを推奨するために,ゲーティング機能を通じて,意識状態と無意識状態のバランスをとる現実原理をモデル化する。 本稿では,各種ベンチマークデータセットに関する広範な実験を基に,提案モデルの特徴について考察する。 FaNCは、精神分析とレコメンダーシステムの収束で、シーケンシャルレコメンデーションの新しい方向を開始します。

A sequential recommender system aims to recommend attractive items to users based on behaviour patterns. The predominant sequential recommendation models are based on natural language processing models, such as the gated recurrent unit, that embed items in some defined space and grasp the user's long-term and short-term preferences based on the item embeddings. However, these approaches lack fundamental insight into how such models are related to the user's inherent decision-making process. To provide this insight, we propose a novel recurrent cell, namely FaNC, from Freudian and Newtonian perspectives. FaNC divides the user's state into conscious and unconscious states, and the user's decision process is modelled by Freud's two principles: the pleasure principle and reality principle. To model the pleasure principle, i.e., free-floating user's instinct, we place the user's unconscious state and item embeddings in the same latent space and subject them to Newton's law of gravitation. Moreover, to recommend items to users, we model the reality principle, i.e., balancing the conscious and unconscious states, via a gating function. Based on extensive experiments on various benchmark datasets, this paper provides insight into the characteristics of the proposed model. FaNC initiates a new direction of sequential recommendations at the convergence of psychoanalysis and recommender systems.
翻訳日:2021-02-16 15:59:42 公開日:2021-02-11
# 共生自律システム(SAS)の哲学的・認知的・数学的基礎について

On the Philosophical, Cognitive and Mathematical Foundations of Symbiotic Autonomous Systems (SAS) ( http://arxiv.org/abs/2102.07617v1 )

ライセンス: Link先を確認
Yingxu Wang, Fakhri Karray, Sam Kwong, Konstantinos N. Plataniotis, Henry Leung, Ming Hou, Edward Tunstel, Imre J. Rudas, Ljiljana Trajkovic, Okyay Kaynak, Janusz Kacprzyk, Mengchu Zhou, Michael H. Smith, Philip Chen and Shushma Patel(参考訳) 共生自律システム(SAS)は、ハイブリッド社会における人間と機械の相互作用の一貫した共生によって可能になる自律的集団知能を示す高度なインテリジェントおよび認知システムです。 SASの新興分野における基礎研究は、人間の介入なしに機能する高度な汎用AI技術や、人間とインテリジェントマシンをコヒーレントな認知システムに統合するハイブリッド共生システムを引き起こしました。 この研究は、知性、認知、コンピュータ、システム科学の最新の進歩に根ざしたSASの理論的枠組みを示す。 SASは、生物脳にインスパイアされ、異質に相乗的な構造と自律的な行動を採用する自律的および共生的なシステムの構成によって特徴付けられる。 本稿では,その認知的基礎と数学的基礎について考察する。 ハイブリッド環境における人間と機械のシームレスな相互作用の課題に対処する。 SASベースの集団知能は、次世代の汎用AI、自律コンピュータ、信頼できるミッションクリティカルなインテリジェントシステムに向けて、自律的なマシン知能によって人間の能力を増強するために研究されている。 SASの進化するパラダイムとエンジニアリングアプリケーションは、人間と認知ロボットの間で共生的に機能する自律的な知識学習システムを介して詳細化される。

Symbiotic Autonomous Systems (SAS) are advanced intelligent and cognitive systems exhibiting autonomous collective intelligence enabled by coherent symbiosis of human-machine interactions in hybrid societies. Basic research in the emerging field of SAS has triggered advanced general AI technologies functioning without human intervention or hybrid symbiotic systems synergizing humans and intelligent machines into coherent cognitive systems. This work presents a theoretical framework of SAS underpinned by the latest advances in intelligence, cognition, computer, and system sciences. SAS are characterized by the composition of autonomous and symbiotic systems that adopt bio-brain-social-inspired and heterogeneously synergized structures and autonomous behaviors. This paper explores their cognitive and mathematical foundations. The challenge to seamless human-machine interactions in a hybrid environment is addressed. SAS-based collective intelligence is explored in order to augment human capability by autonomous machine intelligence towards the next generation of general AI, autonomous computers, and trustworthy mission-critical intelligent systems. Emerging paradigms and engineering applications of SAS are elaborated via an autonomous knowledge learning system that symbiotically works between humans and cognitive robots.
翻訳日:2021-02-16 15:47:47 公開日:2021-02-11
# 狭窄検出への機械学習応用のための概念研究の実証

A proof of concept study for machine learning application to stenosis detection ( http://arxiv.org/abs/2102.07614v1 )

ライセンス: Link先を確認
Gareth Jones, Jim Parr, Perumal Nithiarasu, Sanjay Pant(参考訳) この概念実証(PoC)は、2つの共通の腸に分岐する腹部大動脈からなる3つの血管動脈系におけるステンドーシスの存在を予測する機械学習(ML)分類器の能力を評価する。 haemodynamicsの1次元パルス波伝播モデルを用いて仮想患者データベース(vpd)を作成する。 4つの異なる機械学習(ML)メソッドを使用して、一連の分類器(バイナリとマルチクラスの両方)を訓練およびテストし、圧力と流量の測定の異なる組み合わせを使用して、健康な仮想患者と不健康な仮想患者(VP)を区別します。 ml分類器は, 80%以上の特異性と, 50~75%の感度を達成した。 また、最もバランスの取れた分類器は、受信者の操作特性曲線0.75以下の領域も達成し、臨床で用いられる約20の手法より優れており、適度に正確である。 i)より多くの/すべての測定が使用される場合と比較して、いくつかの測定が類似した分類精度を提供することができること、(ii)いくつかの測定が分類のために他の測定よりも有益であること、および(iii)標準的な方法の修正が狭狭症の存在だけでなく、ステンソス容器の検出につながる可能性があること。

This proof of concept (PoC) assesses the ability of machine learning (ML) classifiers to predict the presence of a stenosis in a three vessel arterial system consisting of the abdominal aorta bifurcating into the two common iliacs. A virtual patient database (VPD) is created using one-dimensional pulse wave propagation model of haemodynamics. Four different machine learning (ML) methods are used to train and test a series of classifiers -- both binary and multiclass -- to distinguish between healthy and unhealthy virtual patients (VPs) using different combinations of pressure and flow-rate measurements. It is found that the ML classifiers achieve specificities larger than 80% and sensitivities ranging from 50-75%. The most balanced classifier also achieves an area under the receiver operative characteristic curve of 0.75, outperforming approximately 20 methods used in clinical practice, and thus placing the method as moderately accurate. Other important observations from this study are that: i) few measurements can provide similar classification accuracies compared to the case when more/all the measurements are used; ii) some measurements are more informative than others for classification; and iii) a modification of standard methods can result in detection of not only the presence of stenosis, but also the stenosed vessel.
翻訳日:2021-02-16 15:34:45 公開日:2021-02-11
# (参考訳) 適応型パンデミック制御のための知識注入型ポリシー勾配

Knowledge Infused Policy Gradients for Adaptive Pandemic Control ( http://arxiv.org/abs/2102.06245v1 )

ライセンス: CC BY 4.0
Kaushik Roy, Qi Zhang, Manas Gaur, and Amit Sheth(参考訳) 新型コロナウイルス(COVID-19)は、その政策実装に基づいて異なる国に影響を与えている。 効果的な政策には、公開情報と新しい知識への適応性を考慮する必要がある。 新型コロナウイルスを理解するために構築された疫学モデルはほとんど政策立案者に適応性パンデミックコントロール(APC)の機能を提供します。 克服すべき課題の1つは、(a)パンデミックのタイムラインにまたがる様々なコントリビューション機能において高い非均一性を扱うことができないこと、(b)公衆衛生専門家の知識を適応的に取り入れられるアプローチがないこと、(c)政策提案における意思決定プロセスの理解を可能にする透明なモデルである。 本研究では,Knowledge Infused Policy Gradient (KIPG) 手法を用いて,これらの課題を早期に解決する。 知識注入に関する先行研究は、疾患情報やガイドラインに関するさまざまな知識のソフトでハードな差し込みを扱うものではありません。 さらに、モデルは特徴数における非均一性に従わず、ポリシーを通知する部分的可観測性として表される。 さらに、APCに必要な解釈可能なモデルを学ぶ代わりに、解釈可能な構造をポストラーニングで抽出する。 そこで本研究では, (a) 世界のマルチリレーショナルな特徴に対して関連する特徴数を誘導し, (b) 核化集約の線形結合である隠れ変数として潜在非均質数を扱い, (b) 知識を関数的制約として原理的に組み込む, KIPG法の数学的枠組みを提案する。 この研究は硬く柔らかい制約を課す理論を確立し、実験を通じてそれをシミュレートする。 知識集約型ベースラインと比較すると,新しい知識への迅速な適応と,特にパンデミック状況における学習方針における解釈可能性を示す。

COVID-19 has impacted nations differently based on their policy implementations. The effective policy requires taking into account public information and adaptability to new knowledge. Epidemiological models built to understand COVID-19 seldom provide the policymaker with the capability for adaptive pandemic control (APC). Among the core challenges to be overcome include (a) inability to handle a high degree of non-homogeneity in different contributing features across the pandemic timeline, (b) lack of an approach that enables adaptive incorporation of public health expert knowledge, and (c) transparent models that enable understanding of the decision-making process in suggesting policy. In this work, we take the early steps to address these challenges using Knowledge Infused Policy Gradient (KIPG) methods. Prior work on knowledge infusion does not handle soft and hard imposition of varying forms of knowledge in disease information and guidelines to necessarily comply with. Furthermore, the models do not attend to non-homogeneity in feature counts, manifesting as partial observability in informing the policy. Additionally, interpretable structures are extracted post-learning instead of learning an interpretable model required for APC. To this end, we introduce a mathematical framework for KIPG methods that can (a) induce relevant feature counts over multi-relational features of the world, (b) handle latent non-homogeneous counts as hidden variables that are linear combinations of kernelized aggregates over the features, and (b) infuse knowledge as functional constraints in a principled manner. The study establishes a theory for imposing hard and soft constraints and simulates it through experiments. In comparison with knowledge-intensive baselines, we show quick sample efficient adaptation to new knowledge and interpretability in the learned policy, especially in a pandemic context.
翻訳日:2021-02-15 23:23:34 公開日:2021-02-11
# (参考訳) ランゲビン拡散の第一次離散に対する高次一般化誤差

Higher Order Generalization Error for First Order Discretization of Langevin Diffusion ( http://arxiv.org/abs/2102.06229v1 )

ライセンス: CC BY 4.0
Mufan Bill Li, Maxime Gazeau(参考訳) 本稿では,確率勾配ランゲヴィンダイナミクス (SGLD) など,ランゲヴィン拡散の離散化に対する一般化誤差の解析手法を提案する。 予想される一般化誤差の $\epsilon$ 許容値に対して、$\Omega(\epsilon^{-1} \log (\epsilon^{-1}) )$ の反復を $\Omega(\epsilon^{-1})$ サンプルで実行すると、第一次離散がこのターゲットに達することが知られている。 本稿では,さらにスムーズな仮定を加えることで,一階法でも任意の実行時複雑性を実現することができることを示す。 より正確には、各$N>0$に対して、第1次離散化が$\epsilon$期待一般化誤差に$\Omega( \epsilon^{-1/N} \log (\epsilon^{-1}) )$反復が$\Omega(\epsilon^{-1})$サンプルを満たすような損失関数上の十分滑らかな条件を提供する。

We propose a novel approach to analyze generalization error for discretizations of Langevin diffusion, such as the stochastic gradient Langevin dynamics (SGLD). For an $\epsilon$ tolerance of expected generalization error, it is known that a first order discretization can reach this target if we run $\Omega(\epsilon^{-1} \log (\epsilon^{-1}) )$ iterations with $\Omega(\epsilon^{-1})$ samples. In this article, we show that with additional smoothness assumptions, even first order methods can achieve arbitrarily runtime complexity. More precisely, for each $N>0$, we provide a sufficient smoothness condition on the loss function such that a first order discretization can reach $\epsilon$ expected generalization error given $\Omega( \epsilon^{-1/N} \log (\epsilon^{-1}) )$ iterations with $\Omega(\epsilon^{-1})$ samples.
翻訳日:2021-02-15 22:38:33 公開日:2021-02-11
# (参考訳) Wasserstein Eigenvectorを用いた教師なし地上測定学習

Unsupervised Ground Metric Learning using Wasserstein Eigenvectors ( http://arxiv.org/abs/2102.06278v1 )

ライセンス: CC BY 4.0
Geert-Jan Huizing, Laura Cantini, Gabriel Peyr\'e(参考訳) 最適輸送(OT)は、確率分布を比較するために機械学習アプリケーションで使用される幾何学的に意味のある「ワッサースタイン」距離を定義する。 しかし、重要なボトルネックは、研究対象のタスクに適合すべき「基礎」コストの設計である。 ほとんどの場合、教師付きメトリクス学習はアクセスできず、通常はアドホックなアプローチに頼っています。 したがって、教師なしメトリック学習は、最適輸送のデータ駆動型アプリケーションを実現するための根本的な問題である。 本論文では,コストを入力間のペアワイズOT距離にマッピングする関数の正の固有ベクトルとして,接地コストを計算することで,正の正の答えを初めて提案する。 この写像は均質で単調であり、非線型ペロン・フロベニウス問題として教師なしの計量学習を組み立てる。 この固有ベクトルの存在と特異性を保証するための基準を提供する。 さらに、エントロピー正規化を用いたスケーラブルな計算手法を導入し、大きな正規化限度において主成分分析次元の低減を行います。 この手法を合成例とデータセットで紹介する。 最後に,高スループット単一細胞RNAシークエンシング(scRNAseq)データセットの解析に生物学の文脈で適用し,細胞クラスタリングを改善し,遺伝子間の関係を教師なしの方法で推測する。

Optimal Transport (OT) defines geometrically meaningful "Wasserstein" distances, used in machine learning applications to compare probability distributions. However, a key bottleneck is the design of a "ground" cost which should be adapted to the task under study. In most cases, supervised metric learning is not accessible, and one usually resorts to some ad-hoc approach. Unsupervised metric learning is thus a fundamental problem to enable data-driven applications of Optimal Transport. In this paper, we propose for the first time a canonical answer by computing the ground cost as a positive eigenvector of the function mapping a cost to the pairwise OT distances between the inputs. This map is homogeneous and monotone, thus framing unsupervised metric learning as a non-linear Perron-Frobenius problem. We provide criteria to ensure the existence and uniqueness of this eigenvector. In addition, we introduce a scalable computational method using entropic regularization, which - in the large regularization limit - operates a principal component analysis dimensionality reduction. We showcase this method on synthetic examples and datasets. Finally, we apply it in the context of biology to the analysis of a high-throughput single-cell RNA sequencing (scRNAseq) dataset, to improve cell clustering and infer the relationships between genes in an unsupervised way.
翻訳日:2021-02-15 22:37:25 公開日:2021-02-11
# (参考訳) バンディット学習者との市場におけるレグレト、安定性、公正性

Regret, stability, and fairness in matching markets with bandit learners ( http://arxiv.org/abs/2102.06246v1 )

ライセンス: CC BY 4.0
Sarah H. Cen and Devavrat Shah(参考訳) 我々は,バンディット学習者との対面マッチング市場を考える。 標準マッチング問題では、ユーザとプロバイダは、安定性の概念を通じてインセンティブ互換性を確保するために一致します。 しかし、マッチング問題の根本的な仮定に反して、ユーザーとプロバイダーは彼らの真の好みを優先順位を知らないし、それらを学ばなければなりません。 この仮定に対処するため、近年の研究では、マッチングとマルチアームバンディットの問題をブレンドすることを提案する。 彼らは、エージェントの真の好みの下で安定しているマッチングにシステムが収束するように、エージェントが十分に学習できるように、各時間ステップで安定したマッチング(インセンティブ互換)を割り当てることができることを確立している。 しかし、これらのマッチングの下では低い後悔を被るエージェントもあるが、特に$T$が時空である場合、$\Omega(T)$最適な後悔を被るエージェントもいる。 本研究では,エージェント間の競争を忠実にモデル化するために,両面のマッチング市場におけるコストと移動を帯域学習者と組み合わせた。 我々は,(1)インセンティブ相反性,すなわち安定性,(2)低い後悔,すなわち$o(\log(t))$の最適後悔,(3)エージェント間の後悔の分配の公平性,(4)高い社会福祉の4つのデシデラタを同時に保証できることを証明する。

We consider the two-sided matching market with bandit learners. In the standard matching problem, users and providers are matched to ensure incentive compatibility via the notion of stability. However, contrary to the core assumption of the matching problem, users and providers do not know their true preferences a priori and must learn them. To address this assumption, recent works propose to blend the matching and multi-armed bandit problems. They establish that it is possible to assign matchings that are stable (i.e., incentive-compatible) at every time step while also allowing agents to learn enough so that the system converges to matchings that are stable under the agents' true preferences. However, while some agents may incur low regret under these matchings, others can incur high regret -- specifically, $\Omega(T)$ optimal regret where $T$ is the time horizon. In this work, we incorporate costs and transfers in the two-sided matching market with bandit learners in order to faithfully model competition between agents. We prove that, under our framework, it is possible to simultaneously guarantee four desiderata: (1) incentive compatibility, i.e., stability, (2) low regret, i.e., $O(\log(T))$ optimal regret, (3) fairness in the distribution of regret among agents, and (4) high social welfare.
翻訳日:2021-02-15 21:48:33 公開日:2021-02-11
# (参考訳) 悪騒音を有する半空間のサンプル最適PAC学習

Sample-Optimal PAC Learning of Halfspaces with Malicious Noise ( http://arxiv.org/abs/2102.06247v1 )

ライセンス: CC BY 4.0
Jie Shen(参考訳) Valiant~(1985)の悪意のあるノイズの存在下で、$\mathbb{R}^d$における均質な半空間の効率的なPAC学習について研究する。 これは困難なノイズモデルであり、最近まで、ラベルのないデータ分布が等方性ログ凹であるという穏やかな条件下で、ほぼ最適のノイズ耐性が確立された。 しかし、最適なサンプルの複雑さを同時に得る方法はまだ未定である。 本稿では, awasthi et al.~(2017) のアルゴリズムの新しい解析を行い,$\tilde{o}(d)$ という最適に近いサンプル複雑性を本質的に達成できることを示し,$\tilde{o}(d^2)$ の最もよく知られた結果を改善する。 我々の主成分は, awasthi et al.~(2017)の局所化スキームを注意深く探究すると共に, 経験的共分散行列のスペクトルに束縛する行列チャーノフ型不等式を新規に組み込んだものである。 さらにアルゴリズムと解析をBshouty~et~alのより汎用的で強力なノイズモデルに拡張する。 (2002年)、多項式時間でほぼ最適のノイズ公差とサンプル複雑性を達成できることを示した。

We study efficient PAC learning of homogeneous halfspaces in $\mathbb{R}^d$ in the presence of malicious noise of Valiant~(1985). This is a challenging noise model and only until recently has near-optimal noise tolerance bound been established under the mild condition that the unlabeled data distribution is isotropic log-concave. However, it remains unsettled how to obtain the optimal sample complexity simultaneously. In this work, we present a new analysis for the algorithm of Awasthi et al.~(2017) and show that it essentially achieves the near-optimal sample complexity bound of $\tilde{O}(d)$, improving the best known result of $\tilde{O}(d^2)$. Our main ingredient is a novel incorporation of a Matrix Chernoff-type inequality to bound the spectrum of an empirical covariance matrix for well-behaved distributions, in conjunction with a careful exploration of the localization schemes of Awasthi et al.~(2017). We further extend the algorithm and analysis to the more general and stronger nasty noise model of Bshouty~et~al. (2002), showing that it is still possible to achieve near-optimal noise tolerance and sample complexity in polynomial time.
翻訳日:2021-02-15 21:47:23 公開日:2021-02-11
# (参考訳) DeepSentinelに向けて:ラベル付き Sentinel-1 と -2 イメージの拡張可能なコーパスと汎用センサ融合セマンティック埋め込みモデル

Towards DeepSentinel: An extensible corpus of labelled Sentinel-1 and -2 imagery and a general-purpose sensor-fusion semantic embedding model ( http://arxiv.org/abs/2102.06260v1 )

ライセンス: CC BY 4.0
Lucas Kruitwagen(参考訳) 地球観測は、自然に対する人類学的変化と、これらの変化が構築された環境と実際の経済に与える影響(および影響)について、新たな洞察を与える。 中分解能(10-30m)合成開口レーダ(SAR)Sentinel-1とマルチスペクトルSentinel-2画像のグローバル利用により、機械学習は企業や国の報告に偏らず、これらの洞察を大規模に提供することができる。 本稿では,sentinelとsentinel-2画像の汎用的な意味埋め込みを実現するためのデータパイプラインおよび実験フレームワークであるdeepsentinelを提案する。 センサ融合研究のために、ラベル付きおよび非ラベル付き画像の拡張可能なコーパスの開発を文書化します。 この新しいデータセットでは、土地被覆分類問題に一般的な自己監督方法とエンコーダアーキテクチャを適用する一連の実験を開発している。 自己保持可能なTile2vec空間エンコーディングにより、ResNetモデルはResNetのより深いバリアントを上回り、バリエーションのオートエンコーディングとコントラスト損失を伴うプリトレーニングを上回ります。 すべてのサポートおよび派生データおよびコードは一般に公開されます。

Earth observation offers new insight into anthropogenic changes to nature, and how these changes are effecting (and are effected by) the built environment and the real economy. With the global availability of medium-resolution (10-30m) synthetic aperture radar (SAR) Sentinel-1 and multispectral Sentinel-2 imagery, machine learning can be employed to offer these insights at scale, unbiased to the reporting of companies and countries. In this paper, I introduce DeepSentinel, a data pipeline and experimentation framework for producing general-purpose semantic embeddings of paired Sentinel-1 and Sentinel-2 imagery. I document the development of an extensible corpus of labelled and unlabelled imagery for the purposes of sensor fusion research. With this new dataset I develop a set of experiments applying popular self-supervision methods and encoder architectures to a land cover classification problem. Tile2vec spatial encoding with a self-attention enabled ResNet model outperforms deeper ResNet variants as well as pretraining with variational autoencoding and contrastive loss. All supporting and derived data and code are made publicly available.
翻訳日:2021-02-15 20:29:54 公開日:2021-02-11
# (参考訳) 深層学習を用いた胸部X線画像からのCOVID-19検出

COVID-19 detection from scarce chest x-ray image data using deep learning ( http://arxiv.org/abs/2102.06285v1 )

ライセンス: CC BY 4.0
Shruti Jadon(参考訳) 現在の新型コロナウイルスのパンデミックでは、感染した患者を迅速かつ正確に検査する必要がある。 胸部x線画像で訓練されたディープラーニングモデルを使うことは、これらの状況で新型コロナウイルス患者をスクリーニングする効率的な方法になり得る。 深層学習のアプローチは、すでに医療コミュニティで広く使われている。 しかし、正確であるためには大量のデータが必要である。 オープンソースコミュニティは総合的にデータの収集と注釈付けに取り組んでいるが、正確なディープラーニングモデルをトレーニングするには不十分だ。 少数の学習は、少ないデータ量で目的を学ぶことを目的とした機械学習のサブフィールドです。 本研究では、深層学習におけるデータ不足に対するよく知られた解決策を実験し、COVID-19を検出する。 これには、データ拡張、転送学習、少数ショット学習、教師なし学習が含まれる。 我々はまた、シアムネットワークを用いて新型コロナウイルスを検出するためのカスタムな数発の学習手法も提案した。 実験結果から,少ないデータ量でも少数の学習アプローチを取り入れることで,covid-19検出のための効率的かつ高精度なディープラーニングモデルを実現することができた。 提案手法では,ベースラインモデルを用いて83%から96.4%の精度向上を達成できた。

In the current COVID-19 pandemic situation, there is an urgent need to screen infected patients quickly and accurately. Using deep learning models trained on chest X-ray images can become an efficient method for screening COVID-19 patients in these situations. Deep learning approaches are already widely used in the medical community. However, they require a large amount of data to be accurate. The open-source community collectively has made efforts to collect and annotate the data, but it is not enough to train an accurate deep learning model. Few-shot learning is a sub-field of machine learning that aims to learn the objective with less amount of data. In this work, we have experimented with well-known solutions for data scarcity in deep learning to detect COVID-19. These include data augmentation, transfer learning, and few-shot learning, and unsupervised learning. We have also proposed a custom few-shot learning approach to detect COVID-19 using siamese networks. Our experimental results showcased that we can implement an efficient and accurate deep learning model for COVID-19 detection by adopting the few-shot learning approaches even with less amount of data. Using our proposed approach we were able to achieve 96.4% accuracy an improvement from 83% using baseline models.
翻訳日:2021-02-15 20:17:59 公開日:2021-02-11
# (参考訳) 凸関数の最適化によるガウス-ベルヌーリRBMの学習

Learning Gaussian-Bernoulli RBMs using Difference of Convex Functions Optimization ( http://arxiv.org/abs/2102.06228v1 )

ライセンス: CC BY 4.0
Vidyadhar Upadhya and P S Sastry(参考訳) gaussian-bernoulli restricted boltzmann machine (gb-rbm)は、与えられたn$-次元連続データから有意義な特徴をキャプチャする有用な生成モデルである。 GB-RBMの学習に伴う困難は、初期の研究で広く報告されている。 現在の標準アルゴリズムであるコントラスト発散(cd)と永続的コントラスト発散(pcd)を用いたgb-rbmのトレーニングでは、発散を避けるために慎重に選択された小さな学習率が必要であることが示されている。 本研究では,可視単位(隠れ単位状態)の条件分布の分散と可視単位のバイアスを一定に保つことで,gb-rbm の負の対数様相を凸関数の差として表現できることを示すことで,このような困難を解消する。 これを用いて, gb-rbm を学習するための convex functions} (dc) programming (s-dcp) アルゴリズムを提案する。 本稿では,このs-dcpアルゴリズムの性能を検証するために,いくつかのベンチマークデータセットに関する広範な実証研究を行う。 S-DCPは学習速度および学習した生成モデルの品質の点でCDおよびPCDアルゴリズムよりも優れていることが観察されている。

The Gaussian-Bernoulli restricted Boltzmann machine (GB-RBM) is a useful generative model that captures meaningful features from the given $n$-dimensional continuous data. The difficulties associated with learning GB-RBM are reported extensively in earlier studies. They indicate that the training of the GB-RBM using the current standard algorithms, namely, contrastive divergence (CD) and persistent contrastive divergence (PCD), needs a carefully chosen small learning rate to avoid divergence which, in turn, results in slow learning. In this work, we alleviate such difficulties by showing that the negative log-likelihood for a GB-RBM can be expressed as a difference of convex functions if we keep the variance of the conditional distribution of visible units (given hidden unit states) and the biases of the visible units, constant. Using this, we propose a stochastic {\em difference of convex functions} (DC) programming (S-DCP) algorithm for learning the GB-RBM. We present extensive empirical studies on several benchmark datasets to validate the performance of this S-DCP algorithm. It is seen that S-DCP is better than the CD and PCD algorithms in terms of speed of learning and the quality of the generative model learnt.
翻訳日:2021-02-15 18:48:21 公開日:2021-02-11
# (参考訳) 継続性: 複雑連続学習シナリオの簡易管理

Continuum: Simple Management of Complex Continual Learning Scenarios ( http://arxiv.org/abs/2102.06253v1 )

ライセンス: CC BY 4.0
Arthur Douillard and Timoth\'ee Lesort(参考訳) 連続学習は、非IDデータの設定に特化した機械学習サブフィールドである。 したがって、トレーニングデータ分布は静的ではなく、時間を通じてドリフトする。 これらのドリフトはトレーニングされたモデルに干渉を引き起こす可能性があり、データ分布の以前の状態について学んだ知識は忘れられる可能性があります。 継続的な学習の課題は、データ分散ドリフトに対処しながら、増え続ける知識を学習できるアルゴリズムを作ることである。 これらの分野における1つの実装難しさは、非iidシナリオをシミュレートするデータローダを作成することである。 実際、データローダは継続的なアルゴリズムの重要なコンポーネントです。 慎重に設計し再現しなければなりません。 データローダの小さなエラーは、例えばアルゴリズムの結果に重大な影響を与える。 悪い前処理、間違ったデータの順序、悪いテストセットで。 Continuumは、データローダを多数備えたシンプルで効率的なフレームワークで、研究者がデータローダの設計に時間を費やすことを避け、時間を要するエラーを取り除く。 提案フレームワークでは,複数のシナリオと実装された評価メトリクスを用いて,モデル設計に直接注目することが可能である。 さらにフレームワークは簡単に拡張でき、特定のニーズに新しい設定を追加できる。

Continual learning is a machine learning sub-field specialized in settings with non-iid data. Hence, the training data distribution is not static and drifts through time. Those drifts might cause interferences in the trained model and knowledge learned on previous states of the data distribution might be forgotten. Continual learning's challenge is to create algorithms able to learn an ever-growing amount of knowledge while dealing with data distribution drifts. One implementation difficulty in these field is to create data loaders that simulate non-iid scenarios. Indeed, data loaders are a key component for continual algorithms. They should be carefully designed and reproducible. Small errors in data loaders have a critical impact on algorithm results, e.g. with bad preprocessing, wrong order of data or bad test set. Continuum is a simple and efficient framework with numerous data loaders that avoid researcher to spend time on designing data loader and eliminate time-consuming errors. Using our proposed framework, it is possible to directly focus on the model design by using the multiple scenarios and evaluation metrics implemented. Furthermore the framework is easily extendable to add novel settings for specific needs.
翻訳日:2021-02-15 18:29:24 公開日:2021-02-11
# (参考訳) 時間変動ベイズ最適化のためのノレグレットアルゴリズム

No-Regret Algorithms for Time-Varying Bayesian Optimization ( http://arxiv.org/abs/2102.06296v1 )

ライセンス: CC BY 4.0
Xingyu Zhou and Ness Shroff(参考訳) 本稿では,時変ベイズ最適化問題を考察する。 各時点の未知の関数は、有界ノルムを持つ RKHS (再生核ヒルベルト空間) にあると仮定される。 時変環境を捉えるために,一般変動予算モデルを採用し,その変動はRKHS基準の変更によって特徴づけられる。 R-GP-UCBとSW-GP-UCBの2種類のGP-UCB型アルゴリズムを導入した。 両アルゴリズムの動的後悔に対する最初の(頻繁な)後悔の保証を導き出す。 この結果は,線形カーネルを用いた場合の先行線形バンディット結果を復元するだけでなく,ベイズ型正規性仮定の下での時間変動ガウス過程バンディットの先行後悔解析,すなわち各関数はガウス過程からのサンプルである。

In this paper, we consider the time-varying Bayesian optimization problem. The unknown function at each time is assumed to lie in an RKHS (reproducing kernel Hilbert space) with a bounded norm. We adopt the general variation budget model to capture the time-varying environment, and the variation is characterized by the change of the RKHS norm. We adapt the restart and sliding window mechanism to introduce two GP-UCB type algorithms: R-GP-UCB and SW-GP-UCB, respectively. We derive the first (frequentist) regret guarantee on the dynamic regret for both algorithms. Our results not only recover previous linear bandit results when a linear kernel is used, but complement the previous regret analysis of time-varying Gaussian process bandit under a Bayesian-type regularity assumption, i.e., each function is a sample from a Gaussian process.
翻訳日:2021-02-15 18:15:52 公開日:2021-02-11
# (参考訳) 強化学習のためのエコー状態ネットワーク

Echo State Networks for Reinforcement Learning ( http://arxiv.org/abs/2102.06258v1 )

ライセンス: CC BY 4.0
Allen G. Hart, Kevin R. Olding, A. M. G. Cox, Olga Isupova, J. H. P. Dawes(参考訳) Echo State Networks (ESN) は、ランダムな内部重み付けとトレーニング可能な出力層を備えた単層リカレントニューラルネットワークの一種である。 十分に大きなEcho State Network (ESN) が、幅広い確率的および決定論的制御問題の値関数を近似できることを、穏やかな条件下で証明する。 このような制御問題は一般にマルコフでない。 本稿では,ESNが非マルコフフレームワークにおける新規(かつ計算効率のよい)強化学習アルゴリズムの基礎をいかに形成できるかについて述べる。 この理論を2つの例で示す。 第一に、ESNを用いて決定論的、部分的に観察された制御問題を解き、これは'Bee World'と呼ばれる単純なゲームである。 第2の例では、数学金融における市場形成問題から着想を得た確率的制御問題を考える。 いずれの場合も、アルゴリズムのダイナミクスと分析的なソリューションを比較して、たった1回の強化ポリシーイテレーションの後でも、アルゴリズムが合理的なスキルで実行することを示すことができる。

Echo State Networks (ESNs) are a type of single-layer recurrent neural network with randomly-chosen internal weights and a trainable output layer. We prove under mild conditions that a sufficiently large Echo State Network (ESN) can approximate the value function of a broad class of stochastic and deterministic control problems. Such control problems are generally non-Markovian. We describe how the ESN can form the basis for novel (and computationally efficient) reinforcement learning algorithms in a non-Markovian framework. We demonstrate this theory with two examples. In the first, we use an ESN to solve a deterministic, partially observed, control problem which is a simple game we call `Bee World'. In the second example, we consider a stochastic control problem inspired by a market making problem in mathematical finance. In both cases we can compare the dynamics of the algorithms with analytic solutions to show that even after only a single reinforcement policy iteration the algorithms perform with reasonable skill.
翻訳日:2021-02-15 16:14:15 公開日:2021-02-11
# (参考訳) グラフポリシー勾配を用いた大規模分散協調型無ラベル運動計画

Large Scale Distributed Collaborative Unlabeled Motion Planning with Graph Policy Gradients ( http://arxiv.org/abs/2102.06284v1 )

ライセンス: CC BY 4.0
Arbaaz Khan, Vijay Kumar, Alejandro Ribeiro(参考訳) 本稿では,多数のロボットの2次元空間における運動制約と空間制約を用いて,不規則な動作問題を解決する学習手法を提案する。 任意の力学と制約の問題を解くため,マルチエージェント問題として定式化することを提案する。 我々は、グラフニューラルネットワーク(GNN)を用いて、ロボットのポリシーをパラメータ化することで、多数のロボットに対するメソッドのスケーラビリティを実証することができる。 GNNは、畳み込みニューラルネットワークが画像内の局所的な特徴を学習する方法と同様に、ロボット間で情報を集約するフィルタを学習することにより、問題の寸法性を低減します。 さらに、GNNを使用することで、少数のロボットに対してグラフフィルタをトレーニングし、さらに多数のロボットにゼロショットポリシーを転送することで、多数のロボットに対するトレーニングポリシーの計算オーバーヘッドを克服することができる。 様々なシミュレーションによる枠組みの有効性を実証する。

In this paper, we present a learning method to solve the unlabelled motion problem with motion constraints and space constraints in 2D space for a large number of robots. To solve the problem of arbitrary dynamics and constraints we propose formulating the problem as a multi-agent problem. We are able to demonstrate the scalability of our methods for a large number of robots by employing a graph neural network (GNN) to parameterize policies for the robots. The GNN reduces the dimensionality of the problem by learning filters that aggregate information among robots locally, similar to how a convolutional neural network is able to learn local features in an image. Additionally, by employing a GNN we are also able to overcome the computational overhead of training policies for a large number of robots by first training graph filters for a small number of robots followed by zero-shot policy transfer to a larger number of robots. We demonstrate the effectiveness of our framework through various simulations.
翻訳日:2021-02-15 15:42:16 公開日:2021-02-11
# (参考訳) ロバスト音声認識のためのエンドツーエンドモデルの検討

An Investigation of End-to-End Models for Robust Speech Recognition ( http://arxiv.org/abs/2102.06237v1 )

ライセンス: CC BY 4.0
Archiki Prasad, Preethi Jyothi, Rajbabu Velmurugan(参考訳) 堅牢な自動音声認識(ASR)のためのエンドツーエンドモデルは、以前の作業で十分に十分に検討されていませんでした。 エンドツーエンドモデルでは、音声強調技術を用いて入力音声の前処理を選択でき、拡張音声を用いてモデルを訓練することができる。 もう1つの選択肢は、ノイズ音声を入力として渡し、モデルアーキテクチャを変更して雑音音声に適応させることである。 エンドツーエンドのロバストなasrに対するこれら2つのアプローチの体系的な比較は、これまで試みられていない。 このギャップに対処し、ロバストASRのためのデータ強化、マルチタスク学習、対角学習を含む、音声強調に基づく手法と3つの異なるモデルベース適応手法の詳細な比較を示す。 対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。 他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。 このことは,基礎となる雑音タイプの知識が適応手法の選択に有意義な影響を与えることを示唆する。

End-to-end models for robust automatic speech recognition (ASR) have not been sufficiently well-explored in prior work. With end-to-end models, one could choose to preprocess the input speech using speech enhancement techniques and train the model using enhanced speech. Another alternative is to pass the noisy speech as input and modify the model architecture to adapt to noisy speech. A systematic comparison of these two approaches for end-to-end robust ASR has not been attempted before. We address this gap and present a detailed comparison of speech enhancement-based techniques and three different model-based adaptation techniques covering data augmentation, multi-task learning, and adversarial learning for robust ASR. While adversarial learning is the best-performing technique on certain noise types, it comes at the cost of degrading clean speech WER. On other relatively stationary noise types, a new speech enhancement technique outperformed all the model-based adaptation techniques. This suggests that knowledge of the underlying noise type can meaningfully inform the choice of adaptation technique.
翻訳日:2021-02-15 14:34:11 公開日:2021-02-11
# 点的相互情報を用いた教師なし抽出要約

Unsupervised Extractive Summarization using Pointwise Mutual Information ( http://arxiv.org/abs/2102.06272v1 )

ライセンス: Link先を確認
Vishakh Padmakumar, He He(参考訳) 抽出要約に対する教師なしのアプローチは、通常、文と文書の間の意味的類似性によって定義される文の重要性の概念に依存する。 予め訓練された言語モデルによって容易に計算できる文間のポイントワイズ相互情報 (PMI) を用いて, 関連性および冗長性の新たな指標を提案する。 直感的には、関連文は、読者が文書の内容(文書の高PMI)を推測することができ、余分な文を要約(要約の高PMI)から推測することができる。 次に, 抽出文の冗長性を最小限に抑えるグリーディ文選択アルゴリズムを開発した。 本手法は, ニュース, 医療雑誌記事, 個人逸話など, さまざまな領域のデータセットにおける類似性に基づく手法を上回っていることを示した。

Unsupervised approaches to extractive summarization usually rely on a notion of sentence importance defined by the semantic similarity between a sentence and the document. We propose new metrics of relevance and redundancy using pointwise mutual information (PMI) between sentences, which can be easily computed by a pre-trained language model. Intuitively, a relevant sentence allows readers to infer the document content (high PMI with the document), and a redundant sentence can be inferred from the summary (high PMI with the summary). We then develop a greedy sentence selection algorithm to maximize relevance and minimize redundancy of extracted sentences. We show that our method outperforms similarity-based methods on datasets in a range of domains including news, medical journal articles, and personal anecdotes.
翻訳日:2021-02-15 13:23:55 公開日:2021-02-11
# 短い文字列における言語識別のためのAppleの双方向LSTMモデルの再現

A reproduction of Apple's bi-directional LSTM models for language identification in short strings ( http://arxiv.org/abs/2102.06282v1 )

ライセンス: Link先を確認
Mads Toftrup, S{\o}ren Asger S{\o}rensen, Manuel R. Ciosici, Ira Assent(参考訳) 言語識別は、文書の言語を特定するタスクである。 自動スペルチェッカー選択のようなアプリケーションでは、言語識別はテキストメッセージフラグメントのような非常に短い文字列を使用する必要がある。 本稿では、Appleが簡単にスケッチした言語識別アーキテクチャをブログ記事で再現する。 バイLSTMモデルの性能を確認し,現在のオープンソース言語識別子よりも優れていることを確認した。 さらに、その言語識別ミスは、関連する言語間の混乱によるものです。

Language Identification is the task of identifying a document's language. For applications like automatic spell checker selection, language identification must use very short strings such as text message fragments. In this work, we reproduce a language identification architecture that Apple briefly sketched in a blog post. We confirm the bi-LSTM model's performance and find that it outperforms current open-source language identifiers. We further find that its language identification mistakes are due to confusion between related languages.
翻訳日:2021-02-15 13:23:44 公開日:2021-02-11
# ポリークラッパート平均ゼロ階確率勾配アルゴリズムの統計的推測

Statistical Inference for Polyak-Ruppert Averaged Zeroth-order Stochastic Gradient Algorithm ( http://arxiv.org/abs/2102.05198v2 )

ライセンス: Link先を確認
Yanhao Jin, Tesi Xiao, Krishnakumar Balasubramanian(参考訳) 機械学習モデルがクリティカルなアプリケーションにデプロイされるにつれて、モデルパラメータのポイント推定子(あるいはその後の予測)を提供するだけでなく、信頼セットを通じてモデルパラメータを推定する不確実性も定量化することが重要になる。 過去10年間で、いくつかの機械学習モデルにおける推定またはトレーニングは、確率勾配アルゴリズムの実行と同義語になっている。 しかし、いくつかの設定での確率勾配の計算は非常に高価か、時には不可能である。 これまで統計的機械学習文献で十分に対処されていない重要な質問は、ゼロ次確率勾配アルゴリズムを実用的だが厳格な推論能力を装備することである。 そこで本研究では、まず、ゼロ階設定におけるPolyak-Ruppert平均確率勾配アルゴリズムの中央極限定理を確立する。 次に、中心極限定理に現れる漸近共分散行列のオンライン推定を行い、ゼロ階の設定においてパラメータ推定(または予測)のための漸近的に有効な信頼集合(または区間)を構築するための実践的な手順を提供する。

As machine learning models are deployed in critical applications, it becomes important to not just provide point estimators of the model parameters (or subsequent predictions), but also quantify the uncertainty associated with estimating the model parameters via confidence sets. In the last decade, estimating or training in several machine learning models has become synonymous with running stochastic gradient algorithms. However, computing the stochastic gradients in several settings is highly expensive or even impossible at times. An important question which has thus far not been addressed sufficiently in the statistical machine learning literature is that of equipping zeroth-order stochastic gradient algorithms with practical yet rigorous inferential capabilities. Towards this, in this work, we first establish a central limit theorem for Polyak-Ruppert averaged stochastic gradient algorithm in the zeroth-order setting. We then provide online estimators of the asymptotic covariance matrix appearing in the central limit theorem, thereby providing a practical procedure for constructing asymptotically valid confidence sets (or intervals) for parameter estimation (or prediction) in the zeroth-order setting.
翻訳日:2021-02-15 13:21:57 公開日:2021-02-11
# KL制約近似政策イテレーションにおける最適化問題

Optimization Issues in KL-Constrained Approximate Policy Iteration ( http://arxiv.org/abs/2102.06234v1 )

ライセンス: Link先を確認
Nevena Lazi\'c, Botao Hao, Yasin Abbasi-Yadkori, Dale Schuurmans, Csaba Szepesv\'ari(参考訳) 多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。 標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。 TRPO、MPO、VMPOといった一般的な実践的アルゴリズムは、連続的なポリシーのKL分割の制約によって正規化を置き換える。 本研究では,この実装選択をより詳細に検討する。 制約としてklダイバージェンスの使用と正規化としての使用を比較し、広く使われている制約付きアプローチの最適化問題をいくつか指摘する。 制約付きアルゴリズムは、制約付き問題を正確に解くことができる単純な問題例でも収束することが保証されておらず、実際には線形期待の後悔をもたらす。 Softmaxポリシーを使用した近似実装により、正規化は元の目的の最適化のランドスケープを改善できることを示しています。 これらの問題をいくつかのバンディットおよびRL環境で実証する。

Many reinforcement learning algorithms can be seen as versions of approximate policy iteration (API). While standard API often performs poorly, it has been shown that learning can be stabilized by regularizing each policy update by the KL-divergence to the previous policy. Popular practical algorithms such as TRPO, MPO, and VMPO replace regularization by a constraint on KL-divergence of consecutive policies, arguing that this is easier to implement and tune. In this work, we study this implementation choice in more detail. We compare the use of KL divergence as a constraint vs. as a regularizer, and point out several optimization issues with the widely-used constrained approach. We show that the constrained algorithm is not guaranteed to converge even on simple problem instances where the constrained problem can be solved exactly, and in fact incurs linear expected regret. With approximate implementation using softmax policies, we show that regularization can improve the optimization landscape of the original objective. We demonstrate these issues empirically on several bandit and RL environments.
翻訳日:2021-02-15 13:21:38 公開日:2021-02-11
# LIMEは画像に何が見えるのか?

What does LIME really see in images? ( http://arxiv.org/abs/2102.06307v1 )

ライセンス: Link先を確認
Damien Garreau, Dina Mardaoui(参考訳) オブジェクト認識のような特定のコンピュータビジョンタスクにおける現代のアルゴリズムのパフォーマンスは、今や人間のそれに近い。 この成功は、数百万のパラメータに応じて複雑なアーキテクチャのコストで達成され、特定の予測がどのように行われるかを理解することが非常に困難になっています。 解釈可能性法は、この理解を与える。 この論文では、LIME、おそらく最も人気のあるものの1つを研究します。 理論的には、生成された例の数が多い場合、LIMEの説明は明示的な表現を与える制限説明の周りに集中されることを示しています。 本研究は,基本形状検出器と線形モデルについてさらに述べる。 この分析の結果、LIMEと積分勾配の関連性、すなわち別の説明法が明らかになった。 より正確には、LIMEの説明は、LIMEの前処理ステップで使用されるスーパーピクセル上の積分勾配の和に類似している。

The performance of modern algorithms on certain computer vision tasks such as object recognition is now close to that of humans. This success was achieved at the price of complicated architectures depending on millions of parameters and it has become quite challenging to understand how particular predictions are made. Interpretability methods propose to give us this understanding. In this paper, we study LIME, perhaps one of the most popular. On the theoretical side, we show that when the number of generated examples is large, LIME explanations are concentrated around a limit explanation for which we give an explicit expression. We further this study for elementary shape detectors and linear models. As a consequence of this analysis, we uncover a connection between LIME and integrated gradients, another explanation method. More precisely, the LIME explanations are similar to the sum of integrated gradients over the superpixels used in the preprocessing step of LIME.
翻訳日:2021-02-15 13:19:23 公開日:2021-02-11
# フェイクニュースにおけるドメイン差を受け入れる:マルチモーダルデータを用いたクロスドメインフェイクニュース検出

Embracing Domain Differences in Fake News: Cross-domain Fake News Detection using Multi-modal Data ( http://arxiv.org/abs/2102.06314v1 )

ライセンス: Link先を確認
Amila Silva, Ling Luo, Shanika Karunasekera, Christopher Leckie(参考訳) ソーシャルメディアの急速な進化に伴い、フェイクニュースは重要な社会問題となり、手動調査を使用してタイムリーに対処することはできません。 これは偽ニュース検出の自動化に関する多くの研究を動機づけている。 ほとんどの研究は、フェイクニュースを特定するために、ニュースレコードの様々なモーダル(テキスト、画像、伝播ネットワークなど)を持つ教師付きトレーニングモデルを検討する。 しかし、特に訓練中に見当たらない、またはほとんど見当たらないドメインに対して、ニュース記録が異なるドメイン(例えば、政治、娯楽)から来れば、その技術のパフォーマンスは低下する。 モチベーションとして、異なるドメインのニュースレコードは、単語使用量や伝播パターンが著しく異なることを実証的に示す。 さらに、ラベルなしのニュースレコードの量が多いため、ラベル付きデータセットのドメイン被覆を最大化するため、手動ラベリング用のニュースレコードを選択することが困難である。 そこで本研究では,(1)異なるドメインからの偽ニュースを検出するために,ニュースレコードにおけるドメイン固有の知識とクロスドメインの知識を共同で保持する新たな枠組みを提案し,(2)手動ラベリングのためのラベルなし情報付きニュースレコードのセットを選択するための教師なし手法を導入し,最終的には多くのドメインで有効な偽ニュース検出モデルを訓練し,ラベルコストを最小化することができる。 提案する偽ニュースモデルと選択的アノテーションアプローチの統合により,クロスドメインニュースデータセットの最先端性能を実現するとともに,ニュースデータセットにおける稀に現れるドメインに対して顕著な改善が得られた。

With the rapid evolution of social media, fake news has become a significant social problem, which cannot be addressed in a timely manner using manual investigation. This has motivated numerous studies on automating fake news detection. Most studies explore supervised training models with different modalities (e.g., text, images, and propagation networks) of news records to identify fake news. However, the performance of such techniques generally drops if news records are coming from different domains (e.g., politics, entertainment), especially for domains that are unseen or rarely-seen during training. As motivation, we empirically show that news records from different domains have significantly different word usage and propagation patterns. Furthermore, due to the sheer volume of unlabelled news records, it is challenging to select news records for manual labelling so that the domain-coverage of the labelled dataset is maximized. Hence, this work: (1) proposes a novel framework that jointly preserves domain-specific and cross-domain knowledge in news records to detect fake news from different domains; and (2) introduces an unsupervised technique to select a set of unlabelled informative news records for manual labelling, which can be ultimately used to train a fake news detection model that performs well for many domains while minimizing the labelling cost. Our experiments show that the integration of the proposed fake news model and the selective annotation approach achieves state-of-the-art performance for cross-domain news datasets, while yielding notable improvements for rarely-appearing domains in news datasets.
翻訳日:2021-02-15 13:16:23 公開日:2021-02-11
# HPCのスケジューリングのための深部強化剤

Deep Reinforcement Agent for Scheduling in HPC ( http://arxiv.org/abs/2102.06243v1 )

ライセンス: Link先を確認
Yuping Fan, Zhiling Lan, Taylor Childers, Paul Rich, William Allcock and Michael E. Papka(参考訳) クラスタスケジューラは高性能コンピューティング(HPC)において重要である。 利用可能なシステムリソースにどのユーザジョブを割り当てるべきかを決定する。 既存のクラスタスケジューリングヒューリスティックは、特定のHPCシステムとワークロードの経験に基づいて、人間の専門家によって開発されます。 しかし、コンピューティングシステムの複雑さが増し、アプリケーションワークロードの非常にダイナミックな性質が、手動で設計され、調整されたスケジューリングヒューリスティックに多大な負担をかけた。 HPCのクラスタスケジューリングには、より積極的な最適化と自動化が必要です。 本研究では,深層強化学習を活用したDRAS(Deep Reinforcement Agent for Scheduling)と呼ばれる自動HPCスケジューリングエージェントを提案する。 DRASは、リソース予約やバックフィルなどの特別なHPCスケジューリング機能を組み込んだ、新しい階層型ニューラルネットワーク上に構築されています。 DRASがターゲット環境を迅速に学習できるように、ユニークなトレーニング戦略が提示されている。 システムマネージャが特定のスケジューリング目標を提供すると、DRASは自動的にスケジューリング環境との相互作用を通じてポリシーを改善することを学び、ワークロードの変更に応じてポリシーを動的に調整します。 異なった生産の負荷の実験はDRASが既存のヒューリスティックおよび最適化のアプローチを45%まで上回ることを示します。

Cluster scheduler is crucial in high-performance computing (HPC). It determines when and which user jobs should be allocated to available system resources. Existing cluster scheduling heuristics are developed by human experts based on their experience with specific HPC systems and workloads. However, the increasing complexity of computing systems and the highly dynamic nature of application workloads have placed tremendous burden on manually designed and tuned scheduling heuristics. More aggressive optimization and automation are needed for cluster scheduling in HPC. In this work, we present an automated HPC scheduling agent named DRAS (Deep Reinforcement Agent for Scheduling) by leveraging deep reinforcement learning. DRAS is built on a novel, hierarchical neural network incorporating special HPC scheduling features such as resource reservation and backfilling. A unique training strategy is presented to enable DRAS to rapidly learn the target environment. Once being provided a specific scheduling objective given by system manager, DRAS automatically learns to improve its policy through interaction with the scheduling environment and dynamically adjusts its policy as workload changes. The experiments with different production workloads demonstrate that DRAS outperforms the existing heuristic and optimization approaches by up to 45%.
翻訳日:2021-02-15 13:15:42 公開日:2021-02-11
# モンテカルロツリー探索による金融デリバティブ契約のヘッジ

Hedging of Financial Derivative Contracts via Monte Carlo Tree Search ( http://arxiv.org/abs/2102.06274v1 )

ライセンス: Link先を確認
Oleg Szehr(参考訳) 不完全市場におけるデリバティブ契約の近似レプリケーション戦略の構築は金融工学の重要な問題である。 近年、リアルな市場条件下での価格設定とヘッジのための強化学習アルゴリズムが注目されている。 金融研究は主に$ Q$-ラーニングのバリエーションに焦点を当てていますが、人工知能のモンテカルロツリー検索では、ヘックス、チェス、Goなどのさまざまな計画問題のための最先端の方法が認識されています。 本稿では,現実市場における金融デリバティブのヘッジに対するモンテカルロ木探索について紹介し,他の強化学習法よりもモンテカルロ木探索の方が理論的・実践的に有利であることを示す。

The construction of approximate replication strategies for derivative contracts in incomplete markets is a key problem of financial engineering. Recently Reinforcement Learning algorithms for pricing and hedging under realistic market conditions have attracted significant interest. While financial research mostly focused on variations of $Q$-learning, in Artificial Intelligence Monte Carlo Tree Search is the recognized state-of-the-art method for various planning problems, such as the games of Hex, Chess, Go,... This article introduces Monte Carlo Tree Search for the hedging of financial derivatives in realistic markets and shows that there are good reasons, both on the theoretical and practical side, to favor it over other Reinforcement Learning methods.
翻訳日:2021-02-15 13:15:25 公開日:2021-02-11
# DEEPF0:音楽信号と音声信号の基本周波数推定

DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech Signals ( http://arxiv.org/abs/2102.06306v1 )

ライセンス: Link先を確認
Satwinder Singh, Ruili Wang, Yuanhang Qiu(参考訳) 我々は、利用可能な注釈付きデータを利用して、生音声から直接データ駆動で学習する、DeepF0と呼ばれる新しいピッチ推定手法を提案する。 f0推定は様々な音声処理や音楽情報検索において重要である。 ピッチ推定のための既存のディープラーニングモデルは、浅い受容領域のために比較的限られた学習能力を有する。 提案モデルは,拡張畳み込みブロックをネットワークに導入することにより,ネットワークの受容領域を拡張することでこの問題に対処する。 拡張係数は、モデルパラメータを指数関数的に増加させることなく、ネットワーク受容場を指数関数的に増加させる。 トレーニングプロセスをより効率的かつ高速にするために、deepf0は、残留接続を持つ残留ブロックで拡張される。 本実験では,77.4%少ないネットワークパラメータを用いても,生ピッチ精度と生クロマ精度でベースラインを上回っていることを実証した。 また, 種々の伴奏雑音の下でも, 適切なピッチ推定が可能であることを示す。

We propose a novel pitch estimation technique called DeepF0, which leverages the available annotated data to directly learns from the raw audio in a data-driven manner. F0 estimation is important in various speech processing and music information retrieval applications. Existing deep learning models for pitch estimations have relatively limited learning capabilities due to their shallow receptive field. The proposed model addresses this issue by extending the receptive field of a network by introducing the dilated convolutional blocks into the network. The dilation factor increases the network receptive field exponentially without increasing the parameters of the model exponentially. To make the training process more efficient and faster, DeepF0 is augmented with residual blocks with residual connections. Our empirical evaluation demonstrates that the proposed model outperforms the baselines in terms of raw pitch accuracy and raw chroma accuracy even using 77.4% fewer network parameters. We also show that our model can capture reasonably well pitch estimation even under the various levels of accompaniment noise.
翻訳日:2021-02-15 13:15:12 公開日:2021-02-11
# 動的バックアップワーカーによるストラグラー・レジリエンスな分散機械学習

Straggler-Resilient Distributed Machine Learning with Dynamic Backup Workers ( http://arxiv.org/abs/2102.06280v1 )

ライセンス: Link先を確認
Guojun Xiong, Gang Yan, Rahul Singh, Jian Li(参考訳) 機械学習モデルの大規模トレーニングの需要が高まる中、コンセンサスベースの分散最適化メソッドは最近、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。 このパラダイムでは、各作業員が最適なパラメータベクトルの局所推定を維持し、隣人から得られたすべての推定を待ち、平均して反復的に更新し、そのローカルデータセットに基づいて修正します。 しかし、同期フェーズは \textit{stragglers}、すなわち遅いワーカを待つ必要があるため、時間がかかる可能性がある。 この効果を緩和するための効率的な方法は、各ワーカーがローカルパラメータを更新する前に、最速の隣人からの更新だけを待たせることです。 残りの隣人は \textit{backup workers} と呼ばれる。 ネットワーク上でのトレーニング時間を最小化するために,作業者毎のバックアップ作業員数を動的に決定する完全分散アルゴリズムを提案する。 本アルゴリズムは,収束の線形速度アップ(つまり,作業者数に対して収束性能が線形に増加する)を達成することを示す。 我々は、MNISTとCIFAR-10の広範な実験を行い、理論結果を検証する。

With the increasing demand for large-scale training of machine learning models, consensus-based distributed optimization methods have recently been advocated as alternatives to the popular parameter server framework. In this paradigm, each worker maintains a local estimate of the optimal parameter vector, and iteratively updates it by waiting and averaging all estimates obtained from its neighbors, and then corrects it on the basis of its local dataset. However, the synchronization phase can be time consuming due to the need to wait for \textit{stragglers}, i.e., slower workers. An efficient way to mitigate this effect is to let each worker wait only for updates from the fastest neighbors before updating its local parameter. The remaining neighbors are called \textit{backup workers.} To minimize the globally training time over the network, we propose a fully distributed algorithm to dynamically determine the number of backup workers for each worker. We show that our algorithm achieves a linear speedup for convergence (i.e., convergence performance increases linearly with respect to the number of workers). We conduct extensive experiments on MNIST and CIFAR-10 to verify our theoretical results.
翻訳日:2021-02-15 13:14:58 公開日:2021-02-11
# ホーフディングおよびバーンスタイン型濃度不等式

Some Hoeffding- and Bernstein-type Concentration Inequalities ( http://arxiv.org/abs/2102.06304v1 )

ライセンス: Link先を確認
Andreas Maurer and Massimiliano Pontil(参考訳) 独立確率変数 {under} 部分ガウス条件および部分指数条件の関数に対する濃度不等式を証明した。 不等式の実用性は、リプシッツ函数クラスと非有界部分指数分布へのラデマチャー複素数の現在の古典的方法の拡張によって証明される。

We prove concentration inequalities for functions of independent random variables {under} sub-gaussian and sub-exponential conditions. The utility of the inequalities is demonstrated by an extension of the now classical method of Rademacher complexities to Lipschitz function classes and unbounded sub-exponential distribution.
翻訳日:2021-02-15 13:14:40 公開日:2021-02-11
# 動的ネットワークモデリングのための相互励起点プロセスグラフ

Mutually exciting point process graphs for modelling dynamic networks ( http://arxiv.org/abs/2102.06527v1 )

ライセンス: Link先を確認
Francesco Sanna Passino, Nicholas A. Heard(参考訳) 動的ネットワークのための新しいクラスのモデルが提案され、コンピュータネットワークのセキュリティにおける実用的なアプリケーションによって動機づけられた相互刺激ポイントプロセスグラフ(MEG)と呼ばれる。 MEGは拡張可能なネットワークワイド統計モデルであり、以前は観測されていなかった接続の重要性を評価する際に異常検出に使用することができる。 このモデルは相互にエキサイティングなポイントプロセスを組み合わせて、イベント間の依存性を推定し、ノード間の関係を推測する。 各ネットワークエッジの強度関数はノード固有のパラメータによってのみパラメータ化され、ネットワーク間で情報を共有できる。 現代の勾配昇降アルゴリズムを用いた高速推論手順が利用されている。 このモデルはシミュレーショングラフと実世界のコンピュータネットワークデータセット上でテストされ、優れた性能を示す。

A new class of models for dynamic networks is proposed, called mutually exciting point process graphs (MEG), motivated by a practical application in computer network security. MEG is a scalable network-wide statistical model for point processes with dyadic marks, which can be used for anomaly detection when assessing the significance of previously unobserved connections. The model combines mutually exciting point processes to estimate dependencies between events and latent space models to infer relationships between the nodes. The intensity functions for each network edge are parameterised exclusively by node-specific parameters, which allows information to be shared across the network. Fast inferential procedures using modern gradient ascent algorithms are exploited. The model is tested on simulated graphs and real world computer network datasets, demonstrating excellent performance.
翻訳日:2021-02-15 13:13:46 公開日:2021-02-11
# 3次元畳み込みニューラルネットワークアンサンブルと解剖学的前駆体を用いた縦隔リンパ節分節

Mediastinal lymph nodes segmentation using 3D convolutional neural network ensembles and anatomical priors guiding ( http://arxiv.org/abs/2102.06515v1 )

ライセンス: Link先を確認
David Bouget, Andr\'e Pedersen, Johanna Vanel, Haakon O. Leira, Thomas Lang{\o}(参考訳) 肺癌が進展するにつれて,腫瘍の進展を適切に推定し,最善の治療法を選択するために,拡大し,潜在的に悪性リンパ節の存在を評価する必要がある。 臨床ガイドラインに従って、正確な診断には短軸径と縦隔局の推定が不可欠です。 したがって、リンパ節を定量的に記述するための正確かつ自動分割方法が決定的である。 本研究では,3次元畳み込みニューラルネットワークを用いて,スラブ方式や全ボリュームのダウンサンプリングを利用する方法を検討した。 さらに,単純なアンサンブル戦略の影響も検討した。 リンパ節は近くの解剖学的構造と類似した減衰値を持つため,他の臓器の知識を先行情報として利用して分節作業の指導を行う。 セグメンテーションとインスタンス検出性能を評価するため、5倍のクロスバリデーション戦略を120個の造影CTボリュームのデータセット上で追従した。 短軸径$\geq10$ mmの1178リンパ節では、私たちの最高のパフォーマンスアプローチは、患者の賢明なリコール92%、患者1人当たりの偽陽性比5、セグメント化重複80.5%に達しました。 この方法も同様に全ての駅でよく機能する。 スラブワイドとフルボリュームのアプローチをアンサンブルスキームに組み込むことで、最高のパフォーマンスを実現した。 anatomical priors guideing strategyは有望だが、最適な利益を生み出すには4つ以上の臓器が必要と思われる。 リンパ節が示すことができる表現の広い範囲(すなわち、形状、位置、減衰)とコントラストの取り込みの変動を考えると、より大きなデータセットも必須である。

As lung cancer evolves, the presence of enlarged and potentially malignant lymph nodes must be assessed to properly estimate disease progression and select the best treatment strategy. Following the clinical guidelines, estimation of short-axis diameter and mediastinum station are paramount for correct diagnosis. A method for accurate and automatic segmentation is hence decisive for quantitatively describing lymph nodes. In this study, the use of 3D convolutional neural networks, either through slab-wise schemes or the leveraging of downsampled entire volumes, is investigated. Furthermore, the potential impact from simple ensemble strategies is considered. As lymph nodes have similar attenuation values to nearby anatomical structures, we suggest using the knowledge of other organs as prior information to guide the segmentation task. To assess the segmentation and instance detection performances, a 5-fold cross-validation strategy was followed over a dataset of 120 contrast-enhanced CT volumes. For the 1178 lymph nodes with a short-axis diameter $\geq10$ mm, our best performing approach reached a patient-wise recall of 92%, a false positive per patient ratio of 5, and a segmentation overlap of 80.5%. The method performs similarly well across all stations. Fusing a slab-wise and a full volume approach within an ensemble scheme generated the best performances. The anatomical priors guiding strategy is promising, yet a larger set than four organs appears needed to generate an optimal benefit. A larger dataset is also mandatory, given the wide range of expressions a lymph node can exhibit (i.e., shape, location, and attenuation), and contrast uptake variations.
翻訳日:2021-02-15 13:12:25 公開日:2021-02-11
# kヘアスタイル:仮想毛髪編集と髪型分類のための大規模韓国髪型データセット

K-Hairstyle: A Large-scale Korean hairstyle dataset for virtual hair editing and hairstyle classification ( http://arxiv.org/abs/2102.06288v1 )

ライセンス: Link先を確認
Taewoo Kim, Chaeyeon Chung, Sunghyun Park, Gyojung Gu, Keonmin Nam, Wonzo Choe, Jaesung Lee, Jaegul Choo(参考訳) 毛髪と美容産業は急速に成長している産業の1つである。 これは、顧客のニーズを満たすために、仮想的な髪染めやヘアスタイルの翻訳といった様々なアプリケーションの開発につながった。 これらのアプリケーションにはいくつかのパブリックヘアデータセットがありますが、解像度の低い画像の数が少ないため、高品質のヘア編集のパフォーマンスが制限されます。 そこで,高精細画像を用いた大規模韓国髪型データセットk-hairstyle 256,679について紹介する。 また、K髪型には、韓国のヘアスタイリストやヘアセグメンテーションマスクによって注釈付けされた様々なヘア属性が含まれている。 我々は,髪型翻訳,髪型分類,髪型検索などのいくつかの応用を利用して,データセットの有効性を検証する。 さらに、近々Kヘアスタイルをリリースします。

The hair and beauty industry is one of the fastest growing industries. This led to the development of various applications, such as virtual hair dyeing or hairstyle translations, to satisfy the need of the customers. Although there are several public hair datasets available for these applications, they consist of limited number of images with low resolution, which restrict their performance on high-quality hair editing. Therefore, we introduce a novel large-scale Korean hairstyle dataset, K-hairstyle, 256,679 with high-resolution images. In addition, K-hairstyle contains various hair attributes annotated by Korean expert hair stylists and hair segmentation masks. We validate the effectiveness of our dataset by leveraging several applications, such as hairstyle translation, and hair classification and hair retrieval. Furthermore, we will release K-hairstyle soon.
翻訳日:2021-02-15 13:10:05 公開日:2021-02-11
# セマンティクスを活用した学習深度:暗黙的および暗黙的セマンティックガイダンスによる自己監督単眼深度推定

Learning Depth via Leveraging Semantics: Self-supervised Monocular Depth Estimation with Both Implicit and Explicit Semantic Guidance ( http://arxiv.org/abs/2102.06685v1 )

ライセンス: Link先を確認
Rui Li, Xiantuo He, Danna Xue, Shaolin Su, Qing Mao, Yu Zhu, Jinqiu Sun, Yanning Zhang(参考訳) 自己教師付き深度推定は、ラベルなし画像列からの深度学習において大きな成功を収めた。 画像深度と画素深度とのマッピングは、現在の方法ではよく研究されているが、画像、深度、シーンセマンティクスの相関は考慮されていない。 これはネットワークがシーンの実際の形状をよりよく理解することを妨げる、なぜならコンテキストの手がかりは、シーンの奥行きの潜在表現だけでなく、深度マップに対するストレートな制約にも寄与するからである。 本論文では, 暗黙的, 明示的な意味的ガイダンスを提案することにより, 精度の高い自己監督深度推定を行う。 シーン認識深度推定のための深度特徴と暗黙的な意味的特徴を効果的に整合するセマンティック・アウェア・空間特徴アライメント(SSFA)スキームを提案する。 また,推定深度マップを実シーンの文脈特性と整合性に明示的に制約する意味誘導型ランキング損失を提案する。 セマンティックラベルノイズと予測の不確実性の両方が信頼性の高い深度監視をもたらすと考えられる。 その結果,本手法は複雑なシーンや多種多様なセマンティックなカテゴリで一貫した高品質な深度マップを作成でき,最先端の手法よりも顕著に優れていることがわかった。

Self-supervised depth estimation has made a great success in learning depth from unlabeled image sequences. While the mappings between image and pixel-wise depth are well-studied in current methods, the correlation between image, depth and scene semantics, however, is less considered. This hinders the network to better understand the real geometry of the scene, since the contextual clues, contribute not only the latent representations of scene depth, but also the straight constraints for depth map. In this paper, we leverage the two benefits by proposing the implicit and explicit semantic guidance for accurate self-supervised depth estimation. We propose a Semantic-aware Spatial Feature Alignment (SSFA) scheme to effectively align implicit semantic features with depth features for scene-aware depth estimation. We also propose a semantic-guided ranking loss to explicitly constrain the estimated depth maps to be consistent with real scene contextual properties. Both semantic label noise and prediction uncertainty is considered to yield reliable depth supervisions. Extensive experimental results show that our method produces high quality depth maps which are consistently superior either on complex scenes or diverse semantic categories, and outperforms the state-of-the-art methods by a significant margin.
翻訳日:2021-02-15 13:08:38 公開日:2021-02-11
# 因果知識を用いたドメイン適応のための治療効果モデルの選択

Selecting Treatment Effects Models for Domain Adaptation Using Causal Knowledge ( http://arxiv.org/abs/2102.06271v1 )

ライセンス: Link先を確認
Trent Kyono, Ioana Bica, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 個別化処理効果 (ITE) を観測データから推定するための因果推論モデルの選択は, 反現実的な結果が観測されないため, 独特な課題である。 この問題はunsupervised domain adaptation(uda)設定においてさらに問題となり、ソースドメイン内のラベル付きサンプルのみにアクセスできるが、ラベルなしのサンプルのみが使用可能なターゲットドメインで優れたパフォーマンスを実現するモデルを選択する必要がある。 UDAモデル選択のための既存の技術は予測設定のために設計されています。 これらの手法は,入力共変量と対象領域との識別密度比を解析し,対象領域におけるモデルの予測に影響を及ぼさない。 このため、ソースドメインで同一のパフォーマンスを持つ2つのモデルは、既存のメソッドで同じリスクスコアを受け取るが、実際にはテストドメインではかなり異なるパフォーマンスを持つ。 UDA設定下でのITE法用に特別に設計された新しいモデル選択メトリックを提案するために、ドメイン間の因果構造の不変性を利用します。 特に,介入効果の予測が対象領域の既知の因果構造を満たすモデルを選択することを提案する。 実験では,いくつかの医療データセットにおけるコバリアントシフトにロバストなiteモデルを選択し,異なる地域からのcovid-19患者の換気効果を推定する。

Selecting causal inference models for estimating individualized treatment effects (ITE) from observational data presents a unique challenge since the counterfactual outcomes are never observed. The problem is challenged further in the unsupervised domain adaptation (UDA) setting where we only have access to labeled samples in the source domain, but desire selecting a model that achieves good performance on a target domain for which only unlabeled samples are available. Existing techniques for UDA model selection are designed for the predictive setting. These methods examine discriminative density ratios between the input covariates in the source and target domain and do not factor in the model's predictions in the target domain. Because of this, two models with identical performance on the source domain would receive the same risk score by existing methods, but in reality, have significantly different performance in the test domain. We leverage the invariance of causal structures across domains to propose a novel model selection metric specifically designed for ITE methods under the UDA setting. In particular, we propose selecting models whose predictions of interventions' effects satisfy known causal structures in the target domain. Experimentally, our method selects ITE models that are more robust to covariate shifts on several healthcare datasets, including estimating the effect of ventilation in COVID-19 patients from different geographic locations.
翻訳日:2021-02-15 13:07:54 公開日:2021-02-11
# mixupがキャリブレーションを改善する時期と方法

When and How Mixup Improves Calibration ( http://arxiv.org/abs/2102.06289v1 )

ライセンス: Link先を確認
Linjun Zhang, Zhun Deng, Kenji Kawaguchi, James Zou(参考訳) 多くの機械学習アプリケーションでは、モデルが予測の不確実性を正確に把握する信頼スコアを提供することが重要である。 現代の学習方法は予測精度で大きな成功を収めているが、校正された信頼度スコアの生成は依然として大きな課題である。 Mixupは、一連のトレーニング例の凸組み合わせをベースとした、人気があるが単純なデータ拡張技術であり、様々なアプリケーションにおける信頼性校正を大幅に改善することが実証されている。 しかし、いつどのようにMixupがキャリブレーションを助けるかはまだ神秘的です。 本論文では,Mixupが分類と回帰に関する2つの自然データモデルを調べることにより,<textit{high-dimensional} 設定のキャリブレーションを改善することを理論的に証明する。 興味深いことに、Mixupのキャリブレーションの利点はモデルキャパシティの増加とともに増加する。 私たちは、共通アーキテクチャとデータセットの実験で理論を支持します。 さらに,半教師付き学習におけるmixupのキャリブレーション改善効果について検討した。 ラベルのないデータを組み込むことで、モデルのキャリブレーションが低下することがあるが、Mixupトレーニングを追加することでこの問題が軽減され、キャリブレーションが向上する。 私たちの分析は、Mixupとキャリブレーションを理解するための新しい洞察とフレームワークを提供します。

In many machine learning applications, it is important for the model to provide confidence scores that accurately captures its prediction uncertainty. Although modern learning methods have achieved great success in predictive accuracy, generating calibrated confidence scores remains a major challenge. Mixup, a popular yet simple data augmentation technique based on taking convex combinations of pairs of training examples, has been empirically found to significantly improve confidence calibration across diverse applications. However, when and how Mixup helps calibration is still mysterious. In this paper, we theoretically prove that Mixup improves calibration in \textit{high-dimensional} settings by investigating two natural data models on classification and regression. Interestingly, the calibration benefit of Mixup increases as the model capacity increases. We support our theories with experiments on common architectures and data sets. In addition, we study how Mixup improves calibration in semi-supervised learning. While incorporating unlabeled data can sometimes make the model less calibrated, adding Mixup training mitigates this issue and provably improves calibration. Our analysis provides new insights and a framework to understand Mixup and calibration.
翻訳日:2021-02-15 13:07:33 公開日:2021-02-11
# エンドツーエンド音声理解のための音声言語事前学習

Speech-language Pre-training for End-to-end Spoken Language Understanding ( http://arxiv.org/abs/2102.06283v1 )

ライセンス: Link先を確認
Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao and Michael Zeng(参考訳) エンドツーエンド(E2E)音声言語理解(SLU)は、自然言語理解(NLU)モジュールで自動音声認識(ASR)をカスケードすることなく、音声信号から直接意味を推測することができる。 しかし、ペア音声記録とそれに対応する意味論は、実運用環境でE2E SLUモデルをトレーニングするのに必ずしも十分なものではない。 本稿では,最適化されたe2e asrエンコーダ (speech) と事前学習された言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。 条件付きマスキング言語モデル(mlm)の目的を用いて、対象領域から限定されたラベル付きデータに対してslp(unified speech-language pre-trained model)を継続的に強化し、推論において所定の入力音声に対する意図、スロットタイプ、スロット値のシーケンスを効果的に生成することができる。 2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。 また、E2E SLUに対する現在の最先端のアプローチよりもはるかに少ないペアデータで優れている。

End-to-end (E2E) spoken language understanding (SLU) can infer semantics directly from speech signal without cascading an automatic speech recognizer (ASR) with a natural language understanding (NLU) module. However, paired utterance recordings and corresponding semantics may not always be available or sufficient to train an E2E SLU model in a real production environment. In this paper, we propose to unify a well-optimized E2E ASR encoder (speech) and a pre-trained language model encoder (language) into a transformer decoder. The unified speech-language pre-trained model (SLP) is continually enhanced on limited labeled data from a target domain by using a conditional masked language model (MLM) objective, and thus can effectively generate a sequence of intent, slot type, and slot value for given input speech in the inference. The experimental results on two public corpora show that our approach to E2E SLU is superior to the conventional cascaded method. It also outperforms the present state-of-the-art approaches to E2E SLU with much less paired data.
翻訳日:2021-02-15 13:04:24 公開日:2021-02-11
# 不対画像調和のためのセグメンテーション再正規化深部特徴変調

Segmentation-Renormalized Deep Feature Modulation for Unpaired Image Harmonization ( http://arxiv.org/abs/2102.06315v1 )

ライセンス: Link先を確認
Mengwei Ren, Neel Dey, James Fishbaugh, Guido Gerig(参考訳) 現在、ディープネットワークは大規模マルチセンターイメージング研究においてユビキタスである。 しかし、サイト全体にわたる画像の直接集約は、矛盾するコントラスト、解像度、ノイズによる下流統計および深層学習に基づく画像解析には反対である。 この目的のために、ペアデータがない場合には、ソースとターゲットドメインの間のイメージセットを調和させるために、サイクル一貫性のある生成共役ネットワークのバリエーションが使用されている。 重要なことは、これらの手法は、不安定性、コントラストインバージョン、難治性病理の操作、および実際の医用画像における信頼性を制限したステガノグラフィーマッピングの傾向にある。 本研究では,撮像部位間で形態的形状が整合していることを前提として,スキャン間の異種性を低減しながら解剖学的レイアウトを維持するセグメンテーション正規化画像翻訳フレームワークを提案する。 生成ネットワーク内の正規化層で使用されるアフィン変換を学習可能なスケールとシフトパラメータに置き換え,共学習した解剖学的セグメンテーションを条件として各レベルの特徴を変調する。 我々は, 病変のないデータセットを用いて, 画像モダリティ(T1w MRI, FLAIR MRI, OCT)の最近のベースラインに対する方法論を評価した。 Segmentation-renormalization for Translation GANsは、受信距離によって定量化された優れた画像調和を実現し、ポストホックセグメンテーション精度による下流ユーティリティの改善と、翻訳の摂動と自己反逆攻撃に対する堅牢性の向上を示します。

Deep networks are now ubiquitous in large-scale multi-center imaging studies. However, the direct aggregation of images across sites is contraindicated for downstream statistical and deep learning-based image analysis due to inconsistent contrast, resolution, and noise. To this end, in the absence of paired data, variations of Cycle-consistent Generative Adversarial Networks have been used to harmonize image sets between a source and target domain. Importantly, these methods are prone to instability, contrast inversion, intractable manipulation of pathology, and steganographic mappings which limit their reliable adoption in real-world medical imaging. In this work, based on an underlying assumption that morphological shape is consistent across imaging sites, we propose a segmentation-renormalized image translation framework to reduce inter-scanner heterogeneity while preserving anatomical layout. We replace the affine transformations used in the normalization layers within generative networks with trainable scale and shift parameters conditioned on jointly learned anatomical segmentation embeddings to modulate features at every level of translation. We evaluate our methodologies against recent baselines across several imaging modalities (T1w MRI, FLAIR MRI, and OCT) on datasets with and without lesions. Segmentation-renormalization for translation GANs yields superior image harmonization as quantified by Inception distances, demonstrates improved downstream utility via post-hoc segmentation accuracy, and improved robustness to translation perturbation and self-adversarial attacks.
翻訳日:2021-02-15 13:02:42 公開日:2021-02-11
# $\mathcal{L}_2$-polynomial Regression とフーリエに基づくアルゴリズムを用いたAgnostic PAC学習について

On Agnostic PAC Learning using $\mathcal{L}_2$-polynomial Regression and Fourier-based Algorithms ( http://arxiv.org/abs/2102.06277v1 )

ライセンス: Link先を確認
Mohsen Heidari and Wojciech Szpankowski(参考訳) 構造的性質を持つPAC学習問題を解析するためのプロキシとしてヒルベルト空間を用いたフレームワークを開発する。 共同分布 $D$ の下で、真のラベルと予測値の関係を組み込んだヒルベルト空間を考える。 0-1 の損失を持つ無依存pac学習はヒルベルト空間領域の最適化と同値である。 本モデルでは,$\mathcal{l}_2$多項式回帰やlinialの低次アルゴリズムなどの最小二乗法に基づく手法を用いてpac学習問題を再検討する。 半空間や多項式近似クラス(すなわち、定次多項式で近似された関数)などのいくつかの仮説クラスに関する学習について研究する。 そのような手法が(いくつかの分布仮定の下で)クラス最適誤差である$opt$と最大2opt$の一般化誤差を得ることを示す。 したがって、$opt\leq 0.2$ のとき、最も厳しい一般化誤差を示す。

We develop a framework using Hilbert spaces as a proxy to analyze PAC learning problems with structural properties. We consider a joint Hilbert space incorporating the relation between the true label and the predictor under a joint distribution $D$. We demonstrate that agnostic PAC learning with 0-1 loss is equivalent to an optimization in the Hilbert space domain. With our model, we revisit the PAC learning problem using methods based on least-squares such as $\mathcal{L}_2$ polynomial regression and Linial's low-degree algorithm. We study learning with respect to several hypothesis classes such as half-spaces and polynomial-approximated classes (i.e., functions approximated by a fixed-degree polynomial). We prove that (under some distributional assumptions) such methods obtain generalization error up to $2opt$ with $opt$ being the optimal error of the class. Hence, we show the tightest bound on generalization error when $opt\leq 0.2$.
翻訳日:2021-02-15 13:00:40 公開日:2021-02-11
# マルチビューによる音声・視覚話者照合

A Multi-View Approach To Audio-Visual Speaker Verification ( http://arxiv.org/abs/2102.06291v1 )

ライセンス: Link先を確認
Leda Sar{\i}, Kritika Singh, Jiatong Zhou, Lorenzo Torresani, Nayan Singhal, Yatharth Saraf(参考訳) 話者検証は従来は音声のみのタスクであったが、いくつかの実用的な応用は音声と視覚の両方の入力ストリームを提供する。 このような場合、視覚ストリームは相補的な情報を提供し、しばしば音声の音響と連動して、検証性能を向上させることができる。 本研究では, 標準核融合技術を用いて音声ビジュアル(AV)埋め込みを学習し, 音声ビジュアル(AV)による音声検証手法を検討し, テスト時にクロスモーダル検証を処理する新しい手法を提案する。 具体的には、VoxCeleb1データセットにおいて、統一および連結に基づくAV融合を調査し、最低のAV等誤差率(EER)0.7%を最良システムを用いて報告します。 これらの手法ではクロスモーダル検証ができないため,共有分類器を用いて音声と映像を同一空間にマップするマルチビューモデルを導入する。 この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。

Although speaker verification has conventionally been an audio-only task, some practical applications provide both audio and visual streams of input. In these cases, the visual stream provides complementary information and can often be leveraged in conjunction with the acoustics of speech to improve verification performance. In this study, we explore audio-visual approaches to speaker verification, starting with standard fusion techniques to learn joint audio-visual (AV) embeddings, and then propose a novel approach to handle cross-modal verification at test time. Specifically, we investigate unimodal and concatenation based AV fusion and report the lowest AV equal error rate (EER) of 0.7% on the VoxCeleb1 dataset using our best system. As these methods lack the ability to do cross-modal verification, we introduce a multi-view model which uses a shared classifier to map audio and video into the same space. This new approach achieves 28% EER on VoxCeleb1 in the challenging testing condition of cross-modal verification.
翻訳日:2021-02-15 12:57:28 公開日:2021-02-11
# (参考訳) 表象事項:順序決定のためのオフライン事前訓練

Representation Matters: Offline Pretraining for Sequential Decision Making ( http://arxiv.org/abs/2102.05815v1 )

ライセンス: CC BY 4.0
Mengjiao Yang, Ofir Nachum(参考訳) より大きなオフラインデータセット上での教師あり学習手法の成功は、同じパラダイムをrlアルゴリズムに変換できるかどうかを調べるために強化学習(rl)分野への関心を喚起した。 オフラインRLと呼ばれるこの研究領域は、オフラインポリシーの最適化に重点を置いており、オフラインデータのみからリターン最大化ポリシーを見つけることを目指しています。 本稿では,オフラインデータを逐次意思決定に組み込むアプローチについて検討する。 私たちは、オフラインデータセットに適用される監視されていない目的が、ダウンストリームタスクのパフォーマンスを高める状態表現を学ぶことができるか、ダウンストリームタスクがオンラインRLであるかどうか、専門家のデモンストレーションからの模倣学習、または同じオフラインデータセットに基づくオフラインポリシーの最適化? 標準オフラインRLデータセットを用いたさまざまな実験を通じて、教師なしの学習目標で事前トレーニングを使用することで、ポリシー学習アルゴリズムのパフォーマンスが劇的に改善されることが判明しました。 広範囲にわたるアブレーションは、例えば報酬予測、連続的または離散的な表現、事前訓練または微調整など、これらの教師なしの目的のどのコンポーネントが最も重要でどの設定が重要かを洞察する。

The recent success of supervised learning methods on ever larger offline datasets has spurred interest in the reinforcement learning (RL) field to investigate whether the same paradigms can be translated to RL algorithms. This research area, known as offline RL, has largely focused on offline policy optimization, aiming to find a return-maximizing policy exclusively from offline data. In this paper, we consider a slightly different approach to incorporating offline data into sequential decision-making. We aim to answer the question, what unsupervised objectives applied to offline datasets are able to learn state representations which elevate performance on downstream tasks, whether those downstream tasks be online RL, imitation learning from expert demonstrations, or even offline policy optimization based on the same offline dataset? Through a variety of experiments utilizing standard offline RL datasets, we find that the use of pretraining with unsupervised learning objectives can dramatically improve the performance of policy learning algorithms that otherwise yield mediocre performance on their own. Extensive ablations further provide insights into what components of these unsupervised objectives -- e.g., reward prediction, continuous or discrete representations, pretraining or finetuning -- are most important and in which settings.
翻訳日:2021-02-13 03:54:06 公開日:2021-02-11
# (参考訳) 再現性レポート: La-MAML: 継続的学習のためのルックアヘッドメタラーニング

Reproducibility Report: La-MAML: Look-ahead Meta Learning for Continual Learning ( http://arxiv.org/abs/2102.05824v1 )

ライセンス: CC BY 4.0
Joel Joseph and Alex Gu(参考訳) 継続的学習(CL)問題には、限られた計算の下でタスクのシーケンスでうまく機能することが含まれる。 ドメインの現在のアルゴリズムは、遅い、オフライン、またはハイパーパラメータに敏感です。 最適化ベースのメタ学習アルゴリズムであるLa-MAMLは、他のリプレイベース、事前ベース、メタ学習ベースのアプローチよりも優れていると主張している。 MERの論文[1]によると、連続学習領域のパフォーマンスを測定する指標は、保持精度(RA)と後方伝達干渉(BTI)である。 La-MAMLは、ドメイン内のSOTAと比較して、これらの値のパフォーマンスが向上すると主張している。 これが本報告書の主主張であり、本報告書で検証する。

The Continual Learning (CL) problem involves performing well on a sequence of tasks under limited compute. Current algorithms in the domain are either slow, offline or sensitive to hyper-parameters. La-MAML, an optimization-based meta-learning algorithm claims to be better than other replay-based, prior-based and meta-learning based approaches. According to the MER paper [1], metrics to measure performance in the continual learning arena are Retained Accuracy (RA) and Backward Transfer-Interference (BTI). La-MAML claims to perform better in these values when compared to the SOTA in the domain. This is the main claim of the paper, which we shall be verifying in this report.
翻訳日:2021-02-13 03:33:18 公開日:2021-02-11
# (参考訳) ニューラルネットワークにおけるユーティリティ、フェアネス、ディファレンシャルプライバシのトレードオフの調査

Investigating Trade-offs in Utility, Fairness and Differential Privacy in Neural Networks ( http://arxiv.org/abs/2102.05975v1 )

ライセンス: CC BY 4.0
Marlotte Pannekoek, Giacomo Spigler(参考訳) 機械学習アルゴリズムの倫理的かつ合法的な使用を可能にするためには、データを使用中の人々のプライバシーを公平に保護する必要がある。 しかし、プライバシーと公正性の制約を実装するには、ユーティリティのコストがかかる可能性がある(Jayaraman & Evans, 2019; Gong et al., 2020)。 本稿では,Simple (S-NN), a Fair (F-NN), a Differentially Private (DP-NN), a Differentially Private and Fair Neural Network (DPF-NN) を比較し,プライバシ(epsilon, delta), Fairness (risk difference), and utility (curacy)のパフォーマンスの違いを評価することにより,ニューラルネットワークにおけるプライバシ-ユーティリティ-フェア性トレードオフを検討する。 最高のプライバシー保証(epsilon = 0.1, delta = 0.00001)を持つシナリオでは、DPF-NNはS-NNおよびDP-NNよりもわずかに低い精度で他のすべてのニューラルネットワークよりも優れたリスク差を達成することが判明しました。 このモデルは、厳密(0.05)と寛容(0.1)のしきい値よりも低いリスク差を達成したため、公平とみなされる。 しかし、提案されたモデルの精度は、Xu、Yuan、Wu(2019)の以前の作業で改善されたが、リスク差は悪化していた。

To enable an ethical and legal use of machine learning algorithms, they must both be fair and protect the privacy of those whose data are being used. However, implementing privacy and fairness constraints might come at the cost of utility (Jayaraman & Evans, 2019; Gong et al., 2020). This paper investigates the privacy-utility-fairness trade-off in neural networks by comparing a Simple (S-NN), a Fair (F-NN), a Differentially Private (DP-NN), and a Differentially Private and Fair Neural Network (DPF-NN) to evaluate differences in performance on metrics for privacy (epsilon, delta), fairness (risk difference), and utility (accuracy). In the scenario with the highest considered privacy guarantees (epsilon = 0.1, delta = 0.00001), the DPF-NN was found to achieve better risk difference than all the other neural networks with only a marginally lower accuracy than the S-NN and DP-NN. This model is considered fair as it achieved a risk difference below the strict (0.05) and lenient (0.1) thresholds. However, while the accuracy of the proposed model improved on previous work from Xu, Yuan and Wu (2019), the risk difference was found to be worse.
翻訳日:2021-02-13 03:28:48 公開日:2021-02-11
# (参考訳) ネットワークPruningによる多変量時系列の機能選択

Feature Selection for Multivariate Time Series via Network Pruning ( http://arxiv.org/abs/2102.06024v1 )

ライセンス: CC BY 4.0
Kang Gu, Soroush Vosoughi, Temiloluwa Prioleau(参考訳) 近年、様々な領域でMTS(多変量時系列)データが増加しており、通常はウェアラブルデバイスのような多くのセンサーが生成している。 これにより、MTSデータに関する新しい学習方法が開発され、ディープラーニングモデルが最新の進歩を支配しています。 以前の文献は主に、MSS内の時間的依存関係をモデル化するための新しいネットワークアーキテクチャの設計に重点を置いてきた。 しかし、あまり研究されていない課題は、MTSデータの高次元性に関連している。 本稿では,MTSデータの特徴選択のためのエンドツーエンドソリューションとして,ニューラル特徴セレクタ(NFS)という新しいニューラルネットワークコンポーネントを提案する。 具体的には、NFSは分解された畳み込み設計に基づいており、2つのモジュールを含む。まず、MTS内の各フィーチャーストリームは一時的なCNNによって独立して処理される。 提案するnfsモデルを4つの実世界のmtsデータセット上で評価し,最先端の手法と同等の結果が得られることを確認した。 また,最近のオートエンコーダ方式と比較して,NFSによる特徴選択の堅牢性と有効性を強調した。

In recent years, there has been an ever increasing amount of multivariate time series (MTS) data in various domains, typically generated by a large family of sensors such as wearable devices. This has led to the development of novel learning methods on MTS data, with deep learning models dominating the most recent advancements. Prior literature has primarily focused on designing new network architectures for modeling temporal dependencies within MTS. However, a less studied challenge is associated with high dimensionality of MTS data. In this paper, we propose a novel neural component, namely Neural Feature Se-lector (NFS), as an end-2-end solution for feature selection in MTS data. Specifically, NFS is based on decomposed convolution design and includes two modules: firstly each feature stream within MTS is processed by a temporal CNN independently; then an aggregating CNN combines the processed streams to produce input for other downstream networks. We evaluated the proposed NFS model on four real-world MTS datasets and found that it achieves comparable results with state-of-the-art methods while providing the benefit of feature selection. Our paper also highlights the robustness and effectiveness of feature selection with NFS compared to using recent autoencoder-based methods.
翻訳日:2021-02-13 02:57:20 公開日:2021-02-11
# (参考訳) メモリ効率の良い手話翻訳のための変分ベイズ系列列列ネットワーク

Variational Bayesian Sequence-to-Sequence Networks for Memory-Efficient Sign Language Translation ( http://arxiv.org/abs/2102.06143v1 )

ライセンス: CC BY 4.0
Harris Partaourides, Andreas Voskou, Dimitrios Kosmopoulos, Sotirios Chatzis, and Dimitris N. Metaxas(参考訳) 記憶効率のよい連続手話翻訳は、聴覚障害者にリアルタイム適用可能な支援技術を開発する上で重要な課題である。 本稿では,非パラメトリック統計学からの適切な議論から再帰層の出力を導出する,再帰的な深層ネットワークを設計するパラダイムを提案する。 a) データ駆動メモリ圧縮のための完全なガウス後方分布と、b)ゲートリカレント単位非ゲート重みに適用される正則化前の非パラメトリックインドビュッフェプロセスからなる、新しい変分ベイズ列対シーケンスネットワークアーキテクチャを提案する。 我々は,Stick-Breaking Recurrent Network のアプローチをダブし,モデリング性能を低下させることなく,相当量の重み圧縮を実現できることを示す。

Memory-efficient continuous Sign Language Translation is a significant challenge for the development of assisted technologies with real-time applicability for the deaf. In this work, we introduce a paradigm of designing recurrent deep networks whereby the output of the recurrent layer is derived from appropriate arguments from nonparametric statistics. A novel variational Bayesian sequence-to-sequence network architecture is proposed that consists of a) a full Gaussian posterior distribution for data-driven memory compression and b) a nonparametric Indian Buffet Process prior for regularization applied on the Gated Recurrent Unit non-gate weights. We dub our approach Stick-Breaking Recurrent network and show that it can achieve a substantial weight compression without diminishing modeling performance.
翻訳日:2021-02-13 02:48:09 公開日:2021-02-11
# (参考訳) ABOShips -- 高精度なアノテーションを用いた沿岸・沖合船舶検知データセット

ABOShips -- An Inshore and Offshore Maritime Vessel Detection Dataset with Precise Annotations ( http://arxiv.org/abs/2102.05869v1 )

ライセンス: CC BY 4.0
Bogdan Iancu, Valentin Soloviev, Luca Zelioli, Johan Lilius(参考訳) ドメイン固有のデータセットの可用性は、オブジェクト検出において重要な問題である。 沿岸および沖合のデータセットの海洋容器検出は例外ではなく、このニーズに対処する研究は限られている。 そのため, 背景変動, 大気条件, 照明, 視認率, 閉塞率, スケール変動など, 異なる要因を考慮に入れた海洋船舶画像のデータセットを収集した。 船体インスタンス (9種類の船体を含む) , シーマーク, 各種フローターを正確にアノテートし, 第1ラウンドのラベル付けを行い, CSRT [1]トラッカーを用いて不整合の追跡を行い, 不整合とレラベルの不整合性について検討した。 さらに,4つの代表的な物体検出アルゴリズム(Faster R-CNN [2], R-FCN [3], SSD [4], EfficientDet [5])の性能評価を行った。 アルゴリズムは以前、Microsoft COCOデータセットで訓練されていた。 その精度を特徴抽出器とオブジェクトサイズで比較する。 実験の結果,inception-resnet v2を用いたr-cnnの高速化は他のアルゴリズムよりも優れていることがわかった。

Availability of domain-specific datasets is an essential problem in object detection. Maritime vessel detection of inshore and offshore datasets is no exception, there is a limited number of studies addressing this need. For that reason, we collected a dataset of images of maritime vessels taking into account different factors: background variation, atmospheric conditions, illumination, visible proportion, occlusion and scale variation. Vessel instances (including 9 types of vessels), seamarks and miscellaneous floaters were precisely annotated: we employed a first round of labelling and subsequently, we used the CSRT [1] tracker to trace inconsistencies and relabel inadequate label instances. Moreover, we evaluated the the out-of-the-box performance of four prevalent object detection algorithms (Faster R-CNN [2], R-FCN [3], SSD [4] and EfficientDet [5]). The algorithms were previously trained on the Microsoft COCO dataset. We compare their accuracy based on feature extractor and object size. Our experiments show that Faster R-CNN with Inception-Resnet v2 outperforms the other algorithms, except in the large object category where EfficientDet surpasses the latter.
翻訳日:2021-02-13 02:37:53 公開日:2021-02-11
# (参考訳) 考古学データ科学における意味の障壁

The Barrier of meaning in archaeological data science ( http://arxiv.org/abs/2102.06022v1 )

ライセンス: CC BY 4.0
Luca Casini, Marco Roccetti, Giovanni Delnevo, Nicolo' Marchetti, Valentina Orru'(参考訳) 考古学者は、他の科学者と同様に、さまざまなソースからリモートで感知された画像など、ますます複雑(かつ大規模な)データの作成、収集、保管、転送を可能にするコンピューティングパワーとデバイスの急増によって、彼らの分野でデータ流出を経験しています。 本論文では,この情報利用の増大が,新たなコンピュータ化技術や人工知能による考古学的問題への理解を深める必要があるのか,予備的な疑問を提示する。 簡単に言うと、深層学習(deep learning, dl)は、人間が学習する方法に触発された機械学習設計の一種として広く普及し、人々がインテリジェントと表現する可能性のある自動アクションの実行に利用されているという事実であるが、ここでは、この手順に従って訓練された機械が、考古学的データ、概念、意味を人間と同じように外挿できるかどうか、という議論を予測したい。 技術的な結果を得る前にも、我々は非常に基本的なコンセプトでリフレクションを開始します:重要な考古学的な場所を持つ衛星画像のコレクションは、DLマシンに新しい考古学的な場所だけでなく、関心のある他の潜在的な場所を発見するように指示するのに十分有益ですか? さらに、人々が手動でルールでプログラムすることで学習するインテリジェントなマシンで、同様の結果に到達できたらどうでしょう? 最後に、もし意味の障壁があれば、機械によって人間のような理解が達成できる範囲を指すならば、考古学データ科学におけるその障壁はどこにあるべきか?

Archaeologists, like other scientists, are experiencing a data-flood in their discipline, fueled by a surge in computing power and devices that enable the creation, collection, storage and transfer of an increasingly complex (and large) amount of data, such as remotely sensed imagery from a multitude of sources. In this paper, we pose the preliminary question if this increasing availability of information actually needs new computerized techniques, and Artificial Intelligence methods, to make new and deeper understanding into archaeological problems. Simply said, while it is a fact that Deep Learning (DL) has become prevalent as a type of machine learning design inspired by the way humans learn, and utilized to perform automatic actions people might describe as intelligent, we want to anticipate, here, a discussion around the subject whether machines, trained following this procedure, can extrapolate, from archaeological data, concepts and meaning in the same way that humans would do. Even prior to getting to technical results, we will start our reflection with a very basic concept: Is a collection of satellite images with notable archaeological sites informative enough to instruct a DL machine to discover new archaeological sites, as well as other potential locations of interest? Further, what if similar results could be reached with less intelligent machines that learn by having people manually program them with rules? Finally: If with barrier of meaning we refer to the extent to which human-like understanding can be achieved by a machine, where should be posed that barrier in the archaeological data science?
翻訳日:2021-02-13 02:24:14 公開日:2021-02-11
# (参考訳) 確率ラベルを用いた画像ベース診断分類器のサンプル学習

Sample Efficient Learning of Image-Based Diagnostic Classifiers Using Probabilistic Labels ( http://arxiv.org/abs/2102.06164v1 )

ライセンス: CC BY 4.0
Roberto Vega, Pouneh Gorji, Zichen Zhang, Xuebin Qin, Abhilash Rakkunedeth Hareendranathan, Jeevesh Kapur, Jacob L. Jaremko, Russell Greiner(参考訳) ディープラーニングのアプローチは、しばしば優れた一般化を達成するために巨大なデータセットを必要とする。 これは、画像ベースの医療診断などのタスクでの使用を複雑にします。小さなトレーニングデータセットは通常、適切なデータ表現を学ぶには不十分です。 このような敏感なタスクでは、予測に自信を提供することも重要です。 本稿では,確率ラベルの学習と利用により,比較的小さなデータセットから高精度で校正されたディープネットワークを学習する手法を提案する。 従来のアプローチと比較すると, ヒップ異形成, 脂肪肝, 緑内障の3つの分類課題において, これらのラベルで訓練したモデルの精度は最大22%向上した。 確率ラベルで訓練されたモデルの出力は校正され、その予測を適切な確率として解釈することができる。 このアプローチは、トレーニングインスタンスが少なく、専門家の知識を確率としてエンコードできる他のタスクにも適用できると予想しています。

Deep learning approaches often require huge datasets to achieve good generalization. This complicates its use in tasks like image-based medical diagnosis, where the small training datasets are usually insufficient to learn appropriate data representations. For such sensitive tasks it is also important to provide the confidence in the predictions. Here, we propose a way to learn and use probabilistic labels to train accurate and calibrated deep networks from relatively small datasets. We observe gains of up to 22% in the accuracy of models trained with these labels, as compared with traditional approaches, in three classification tasks: diagnosis of hip dysplasia, fatty liver, and glaucoma. The outputs of models trained with probabilistic labels are calibrated, allowing the interpretation of its predictions as proper probabilities. We anticipate this approach will apply to other tasks where few training instances are available and expert knowledge can be encoded as probabilities.
翻訳日:2021-02-13 02:14:43 公開日:2021-02-11
# (参考訳) クロスドメインマルチタスク学習を用いた研究論文の逐次文分類

Sequential Sentence Classification in Research Papers using Cross-Domain Multi-Task Learning ( http://arxiv.org/abs/2102.06008v1 )

ライセンス: CC BY 4.0
Arthur Brack and Anett Hoppe and Pascal Buscherm\"ohle and Ralph Ewerth(参考訳) 逐次文分類のタスクは、研究論文のセマンティック構造を可能にする。 これにより学術検索エンジンが強化され、研究者が研究文献の検索と探索をより効果的に行えるようになる。 しかし、以前の研究では、このタスクのために異なる科学領域のデータセットで学習を転送する可能性をまだ検討していません。 本稿では,複数の領域の学習データを活用し,各領域にまたがる科学文章の逐次文分類を改善するための,一様ディープラーニングアーキテクチャとマルチタスク学習を提案する。 Our contributions can be summarised as follows: (1) We tailor two common transfer learning methods, sequential transfer learning and multi-task learning, and evaluate their performance for sequential sentence classification; (2) The presented multi-task model is able to recognise semantically related classes from different datasets and thus supports manual comparison and assessment of different annotation schemes; (3) The unified approach is capable of handling datasets that contain either only abstracts or full papers without further feature engineering. 提案するマルチタスク学習アーキテクチャを用いて,異なる科学的領域のデータセット上で学習されるモデルが相互に利益をもたらすことを実証する。 私たちのアプローチは、3つのベンチマークデータセットの最先端を上回ります。

The task of sequential sentence classification enables the semantic structuring of research papers. This can enhance academic search engines to support researchers in finding and exploring research literature more effectively. However, previous work has not investigated the potential of transfer learning with datasets from different scientific domains for this task yet. We propose a uniform deep learning architecture and multi-task learning to improve sequential sentence classification in scientific texts across domains by exploiting training data from multiple domains. Our contributions can be summarised as follows: (1) We tailor two common transfer learning methods, sequential transfer learning and multi-task learning, and evaluate their performance for sequential sentence classification; (2) The presented multi-task model is able to recognise semantically related classes from different datasets and thus supports manual comparison and assessment of different annotation schemes; (3) The unified approach is capable of handling datasets that contain either only abstracts or full papers without further feature engineering. We demonstrate that models, which are trained on datasets from different scientific domains, benefit from one another when using the proposed multi-task learning architecture. Our approach outperforms the state of the art on three benchmark datasets.
翻訳日:2021-02-13 02:01:41 公開日:2021-02-11
# (参考訳) 言語モデルを用いた理論証明のためのArtifact Co-trainingの証明

Proof Artifact Co-training for Theorem Proving with Language Models ( http://arxiv.org/abs/2102.06203v1 )

ライセンス: CC BY-SA 4.0
Jesse Michael Han, Jason Rute, Yuhuai Wu, Edward W. Ayers, Stanislas Polu(参考訳) 形式化された数学の大きなライブラリーで証明される定理の模倣学習のためのラベル付きデータはほとんどなく、そのようなライブラリーは人間の専門家による長年の集中的な努力を必要とする。 これは、大規模なトランスフォーマー言語モデルを戦術予測に適用する場合に特に困難です。なぜなら、モデルサイズに関するパフォーマンスのスケーリングは、データスカースで容易にオーバーフィットした体制で急速に破壊されるからです。 通常の戦術予測目標と並行して、カーネルレベルの証明語から豊富な自己教師ありデータを抽出する一般的な手法であるpact ({\bf p}roof {\bf a}rtifact {\bf c}o-{\bf t}raining)を提案する。 私たちはこの方法論を、これまでで最も洗練された形式化された数学をホストするインタラクティブな証明アシスタントであるLeanに適用します。 トランスフォーマー言語モデルによって駆動される神経定理証明器を用いてリーンを計測し,pact がテスト定理の保留組における定理証明成功率を 32\% から 48\% に向上させることを示した。

Labeled data for imitation learning of theorem proving in large libraries of formalized mathematics is scarce as such libraries require years of concentrated effort by human specialists to be built. This is particularly challenging when applying large Transformer language models to tactic prediction, because the scaling of performance with respect to model size is quickly disrupted in the data-scarce, easily-overfitted regime. We propose PACT ({\bf P}roof {\bf A}rtifact {\bf C}o-{\bf T}raining), a general methodology for extracting abundant self-supervised data from kernel-level proof terms for co-training alongside the usual tactic prediction objective. We apply this methodology to Lean, an interactive proof assistant which hosts some of the most sophisticated formalized mathematics to date. We instrument Lean with a neural theorem prover driven by a Transformer language model and show that PACT improves theorem proving success rate on a held-out suite of test theorems from 32\% to 48\%.
翻訳日:2021-02-13 01:41:58 公開日:2021-02-11
# (参考訳) ディープフェイク検出ジレンマ:合成メディアにおける対比ダイナミクスのマルチステークホルダ探索

The Deepfake Detection Dilemma: A Multistakeholder Exploration of Adversarial Dynamics in Synthetic Media ( http://arxiv.org/abs/2102.06109v1 )

ライセンス: CC BY-SA 4.0
Claire Leibowicz, Sean McGregor, Aviv Ovadya(参考訳) 合成メディア検出技術は、メディアを合成または非合成とラベル付けし、ジャーナリスト、ウェブプラットフォーム、および一般大衆が誤情報やその他の問題のあるコンテンツを識別するためにますます使用されています。 高度に調達された組織と非技術一般の両方がより洗練された合成メディアを生成するため、問題のあるコンテンツのパーベイヤが適応する能力は、"newterm{detection dilemma}"を誘導する。 本稿では, 産学, 技術プラットフォーム, メディアエンティティ, 市民社会の多元的コーホートが, 合成メディア検出に活発に活動し, その社会技術的意義が検出ジレンマを評価する方法について述べる。 具体的には、有害な合成メディアの拡散を緩和することに関連する幅広いグローバルAIおよびメディア整合性コミュニティから得られた検出コンテキストと敵の能力の評価を提供します。 ペルソナのコレクションは、技術的能力の文脈における誤情報の未解決と高度に調達されたスポンサーの交差点を描いている。 この研究は、検出器ジレンマをナビゲートする"最良の"アプローチはないと結論づけるが、実際には、検出プロセスの決定や方針をよりよく知らせるために、マルチステイクホルダ入力から一連の影響を導き出している。

Synthetic media detection technologies label media as either synthetic or non-synthetic and are increasingly used by journalists, web platforms, and the general public to identify misinformation and other forms of problematic content. As both well-resourced organizations and the non-technical general public generate more sophisticated synthetic media, the capacity for purveyors of problematic content to adapt induces a \newterm{detection dilemma}: as detection practices become more accessible, they become more easily circumvented. This paper describes how a multistakeholder cohort from academia, technology platforms, media entities, and civil society organizations active in synthetic media detection and its socio-technical implications evaluates the detection dilemma. Specifically, we offer an assessment of detection contexts and adversary capacities sourced from the broader, global AI and media integrity community concerned with mitigating the spread of harmful synthetic media. A collection of personas illustrates the intersection between unsophisticated and highly-resourced sponsors of misinformation in the context of their technical capacities. This work concludes that there is no "best" approach to navigating the detector dilemma, but derives a set of implications from multistakeholder input to better inform detection process decisions and policies, in practice.
翻訳日:2021-02-12 23:53:03 公開日:2021-02-11
# (参考訳) セグメンテーション,拡張,クラス再バランスを組み込んだ3D-CNNによる胸部CT画像からのCOVID-19の同定

COVID-19 identification from volumetric chest CT scans using a progressively resized 3D-CNN incorporating segmentation, augmentation, and class-rebalancing ( http://arxiv.org/abs/2102.06169v1 )

ライセンス: CC BY 4.0
Md. Kamrul Hasan, Md. Tasnim Jawad, Kazi Nasim Imtiaz Hasan, Sajal Basak Partha, Md. Masum Al Masba(参考訳) 新型コロナウイルス(COVID-19)は世界的なパンデミックの流行です。 高い感度のコンピュータ支援スクリーニングツールは、可能な限り早期に疾患の診断と予後診断に不可欠です。 また、新型コロナウイルス(COVID-19)患者の検査と臨床監督のためのトリアージにも役立つ。 しかし、このような自動ツールの設計は、多くの手作業による注釈付きデータセットがまだ公開されていないため、非侵襲的なx線画像から難しい。 本稿では,空間ボクセル情報と空間ボクセル情報の両方を考慮した3次元畳み込みニューラルネットワーク(cnn)に基づく分類手法を提案する。 提案システムは,CT画像全体からの3Dパッチをエンドツーエンドにトレーニングし,トレーニングサンプル数を拡大し,パッチサイズ決定のためのアブレーション研究を行う。 プログレッシブリサイズ、セグメンテーション、拡張、クラスリバランスを3Dネットワークに統合します。 このセグメンテーションは、ctスキャンの外肺領域を除外しながら、分類器が顕著な肺の特徴を学習できる新型コロナウイルスの診断に必須のステップである。 MosMedと呼ばれる公開データセットの広範な実験を評価し、バイナリおよびマルチクラスの胸部CT画像パーティションを持っています。 実験結果は,二進法と多クラス法でそれぞれ0.914および0.893のroc曲線下の領域を5倍のクロスバリデーションを適用し,非常に有意な結果を得た。 この方法の有望な結果は、臨床医や放射線医がCOVID-19を評価するための有利な援助ツールとしてそれを委任します。

The novel COVID-19 is a global pandemic disease overgrowing worldwide. Computer-aided screening tools with greater sensitivity is imperative for disease diagnosis and prognosis as early as possible. It also can be a helpful tool in triage for testing and clinical supervision of COVID-19 patients. However, designing such an automated tool from non-invasive radiographic images is challenging as many manually annotated datasets are not publicly available yet, which is the essential core requirement of supervised learning schemes. This article proposes a 3D Convolutional Neural Network (CNN)-based classification approach considering both the inter- and intra-slice spatial voxel information. The proposed system is trained in an end-to-end manner on the 3D patches from the whole volumetric CT images to enlarge the number of training samples, performing the ablation studies on patch size determination. We integrate progressive resizing, segmentation, augmentations, and class-rebalancing to our 3D network. The segmentation is a critical prerequisite step for COVID-19 diagnosis enabling the classifier to learn prominent lung features while excluding the outer lung regions of the CT scans. We evaluate all the extensive experiments on a publicly available dataset, named MosMed, having binary- and multi-class chest CT image partitions. Our experimental results are very encouraging, yielding areas under the ROC curve of 0.914 and 0.893 for the binary- and multi-class tasks, respectively, applying 5-fold cross-validations. Our method's promising results delegate it as a favorable aiding tool for clinical practitioners and radiologists to assess COVID-19.
翻訳日:2021-02-12 23:38:21 公開日:2021-02-11
# (参考訳) シーケンシャル・ツー・シーケンス変換器を用いたコヒーレント・多様なスローガンの生成

Generating Coherent and Diverse Slogans with Sequence-to-Sequence Transformer ( http://arxiv.org/abs/2102.05924v1 )

ライセンス: CC BY 4.0
Yiping Jin, Akshay Bhatia, Dittaya Wanvarie, Phu T. V. Le(参考訳) スローガン生成のこれまでの仕事は、実際のスローガンから抽出されたテンプレートを利用して、新しいスローガンを生成することに集中しました。 そのようなスローガンの中にはキャッチーなものもあるが、テンプレートは他社のスローガンから採掘されるため、マーケティングコミュニケーション全体における会社の焦点やスタイルと一貫性がないことが多い。 短い会社説明からスローガンを生成するシーケンス・トゥ・シークエンス・トランスフォーマーモデルを提案する。 スローガン生成用に微調整されたナイーブシーケンスツーシーケンスモデルは、トレーニングデータに現れる偽情報、特に無関係な企業名を導入しやすい。 私たちはこの問題を解決するために語彙化を使い、生成したスローガンの品質を大きなマージンで改善します。 さらに,より多様なスローガンを生成するために,単純かつ効果的なアプローチを2つ適用する。 まず、業界で条件付けられたスローガン発生器を訓練します。 推測時間の間、業界を変えることで、スローガンの異なる「フレーバー」を得ることができる。 第2に,企業記述のみを入力シーケンスとして使用する代わりに,企業のWebサイトからランダムな段落をサンプリングする。 驚くべきことに、入力シーケンスが企業記述に似ていなくても、モデルは有意義なスローガンを生成することができる。 定量的評価と質的評価の両面で,提案手法の有効性を検証する。 ROUGE-1/-2/-L F1スコアは53.13/33.30/46.49。 また、人間の評価者は生成されたスローガンを平均3.39点のスコアで1-5点に割り当て、人間の記述に近い品質の可塑性スローガン(平均3.55点)を生成できることを示す。

Previous work in slogan generation focused on generating novel slogans by utilising templates mined from real slogans. While some such slogans can be catchy, they are often not coherent with the company's focus or style across their marketing communications because the templates are mined from other companies' slogans. We propose a sequence-to-sequence transformer model to generate slogans from a brief company description. A naive sequence-to-sequence model fine-tuned for slogan generation is prone to introducing false information, especially unrelated company names appearing in the training data. We use delexicalisation to address this problem and improve the generated slogans' quality by a large margin. Furthermore, we apply two simple but effective approaches to generate more diverse slogans. Firstly, we train a slogan generator conditioned on the industry. During inference time, by changing the industry, we can obtain different "flavours" of slogans. Secondly, instead of using only the company description as the input sequence, we sample random paragraphs from the company's website. Surprisingly, the model can generate meaningful slogans, even if the input sequence does not resemble a company description. We validate the effectiveness of the proposed method with both quantitative evaluation and qualitative evaluation. Our best model achieved a ROUGE-1/-2/-L F1 score of 53.13/33.30/46.49. Besides, human evaluators assigned the generated slogans an average score of 3.39 on a scale of 1-5, indicating the system can generate plausible slogans with a quality close to human-written ones (average score 3.55).
翻訳日:2021-02-12 23:08:20 公開日:2021-02-11
# (参考訳) マルチインスタンス学習を用いたエンティティレベルの関係抽出のためのエンドツーエンドモデル

An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning ( http://arxiv.org/abs/2102.05980v1 )

ライセンス: CC BY 4.0
Markus Eberts, Adrian Ulges(参考訳) 文書からのエンティティレベルの関係抽出のための共同モデルを提案する。 他のアプローチとは対照的に - ローカルなイントラセンテンス参照ペアに注目し、レファレンスレベルでアノテーションを必要とする - 私たちのモデルはエンティティレベルで動作します。 これを実現するために、コリファレンスレゾリューションを基盤として、グローバルエンティティとローカル参照情報を組み合わせたマルチレベル表現によるマルチインスタンス学習を通じて関連する信号を収集するマルチタスクアプローチが提案されている。 我々は,docredデータセット上で最先端の関係抽出結果を達成し,第1のエンティティレベルのエンドツーエンド関係抽出結果を報告する。 最後に,共有パラメータとトレーニングステップによって効率が向上するが,協調アプローチはタスク固有の学習と同等であることが示唆された。

We present a joint model for entity-level relation extraction from documents. In contrast to other approaches - which focus on local intra-sentence mention pairs and thus require annotations on mention level - our model operates on entity level. To do so, a multi-task approach is followed that builds upon coreference resolution and gathers relevant signals via multi-instance learning with multi-level representations combining global entity and local mention information. We achieve state-of-the-art relation extraction results on the DocRED dataset and report the first entity-level end-to-end relation extraction results for future reference. Finally, our experimental results suggest that a joint approach is on par with task-specific learning, though more efficient due to shared parameters and training steps.
翻訳日:2021-02-12 22:48:03 公開日:2021-02-11
# (参考訳) ビデオスタイライゼーションのためのフレーム差に基づく時間損失

Frame Difference-Based Temporal Loss for Video Stylization ( http://arxiv.org/abs/2102.05822v1 )

ライセンス: CC BY 4.0
Jianjin Xu, Zheyang Xiong, Xiaolin Hu(参考訳) ニューラルスタイル転送モデルは、通常のビデオを特定のスタイルにスタイリッシュするために使われてきた。 スタイリングされたビデオのフレーム間の時間的不整合性を確保するため、オリジナルビデオ中の画素の光学的流れを推定し、生成したピクセルを推定された光学的流れと一致させることが一般的である。 これは、モデルトレーニング中の光学フローベース(OFB)損失を最小限にすることで達成される。 しかし、特に複雑な場面では、光学的フロー推定は難しい課題である。 さらに、高い計算コストが発生します。 時間的不整合問題を解決するために,フレーム差分法(FDB)損失という,より単純な時間的損失を提案する。 様式化されたフレーム間の差と元のフレーム間の差との距離として定義される。 2つのフレームの違いは、畳み込みニューラルネットワークによって指定された画素空間と特徴空間の両方で測定される。 62名の被験者による2,600票の人的行動実験の結果,提案するfdb損失のパフォーマンスはofb損失と一致した。 2種類の典型的映像スタイライゼーションモデルを用いて,生成映像の安定性とスタイライゼーション品質を主観的に評価した。 その結果,提案するFDB損失は,ビデオスタイリゼーションにおいて一般的に使用されるOFB損失の強力な代替手段であることが示唆された。

Neural style transfer models have been used to stylize an ordinary video to specific styles. To ensure temporal inconsistency between the frames of the stylized video, a common approach is to estimate the optic flow of the pixels in the original video and make the generated pixels match the estimated optical flow. This is achieved by minimizing an optical flow-based (OFB) loss during model training. However, optical flow estimation is itself a challenging task, particularly in complex scenes. In addition, it incurs a high computational cost. We propose a much simpler temporal loss called the frame difference-based (FDB) loss to solve the temporal inconsistency problem. It is defined as the distance between the difference between the stylized frames and the difference between the original frames. The differences between the two frames are measured in both the pixel space and the feature space specified by the convolutional neural networks. A set of human behavior experiments involving 62 subjects with 25,600 votes showed that the performance of the proposed FDB loss matched that of the OFB loss. The performance was measured by subjective evaluation of stability and stylization quality of the generated videos on two typical video stylization models. The results suggest that the proposed FDB loss is a strong alternative to the commonly used OFB loss for video stylization.
翻訳日:2021-02-12 22:32:43 公開日:2021-02-11
# (参考訳) ZスコアによるCNNモデルの説明可能性

Explainability in CNN Models By Means of Z-Scores ( http://arxiv.org/abs/2102.05874v1 )

ライセンス: CC BY 4.0
David Malmgren-Hansen, Allan Aasbjerg Nielsen and Leif Toudal Pedersen(参考訳) 本稿では,Zスコアによる入力の重要性を説明するために,ニューラルネットワーク(NN)における出力層とロジスティック回帰の類似性を検討する。 合成開口レーダ(sar)とマイクロ波放射計(mwr)データの融合ネットワークであるネットワーク解析を北極海氷の予測に適用した。 解析により,SARに対するMWRの重要性がMWR成分に有利であることが判明した。 さらに,モデルが画像の特徴を異なるスケールで表現するので,それらの相対的重要性もよく分析される。 提案する手法は、出力層コンポーネントを解析するためのシンプルで簡単なフレームワークを提供し、さらに分析するためのコンポーネントの数を削減できる。 一般的なNN可視化手法。

This paper explores the similarities of output layers in Neural Networks (NNs) with logistic regression to explain importance of inputs by Z-scores. The network analyzed, a network for fusion of Synthetic Aperture Radar (SAR) and Microwave Radiometry (MWR) data, is applied to prediction of arctic sea ice. With the analysis the importance of MWR relative to SAR is found to favor MWR components. Further, as the model represents image features at different scales, the relative importance of these are as well analyzed. The suggested methodology offers a simple and easy framework for analyzing output layer components and can reduce the number of components for further analysis with e.g. common NN visualization methods.
翻訳日:2021-02-12 22:11:47 公開日:2021-02-11
# (参考訳) L-SNet:地域ローカリゼーションからスケール不変の医療画像セグメンテーションへ

L-SNet: from Region Localization to Scale Invariant Medical Image Segmentation ( http://arxiv.org/abs/2102.05971v1 )

ライセンス: CC BY 4.0
Jiahao Xie, Sheng Zhang, Jianwei Lu, Ye Luo(参考訳) 医用画像セグメンテーションにおける大規模変動を解決するために,粗大なモデルとカスケードセグメンテーションアーキテクチャが広く採用されている。 第一段階のセグメンテーションはパフォーマンスボトルネックになり、全体的な微分可能性の欠如により、2つのステージのトレーニングプロセスは非同期で一貫性がない。 本稿では,これらの問題に対処する2段階ネットワークアーキテクチャを提案する。 第1段階では、ローカライゼーションネットワーク(L-Net)が、関心領域(RoIs)を検出形式で特定し、第2段階では、セグメンテーションネットワーク(S-Net)が、リカライズされたRoI、L-NetとS-Netの間のRoIリカライゼーションモジュールにおいて、不整合を除去する。 公開データセットにおける実験結果から,本手法は計算オーバーヘッドが無視できる粗粒度モデルよりも優れていることがわかった。

Coarse-to-fine models and cascade segmentation architectures are widely adopted to solve the problem of large scale variations in medical image segmentation. However, those methods have two primary limitations: the first-stage segmentation becomes a performance bottleneck; the lack of overall differentiability makes the training process of two stages asynchronous and inconsistent. In this paper, we propose a differentiable two-stage network architecture to tackle these problems. In the first stage, a localization network (L-Net) locates Regions of Interest (RoIs) in a detection fashion; in the second stage, a segmentation network (S-Net) performs fine segmentation on the recalibrated RoIs; a RoI recalibration module between L-Net and S-Net eliminating the inconsistencies. Experimental results on the public dataset show that our method outperforms state-of-the-art coarse-to-fine models with negligible computation overheads.
翻訳日:2021-02-12 22:06:33 公開日:2021-02-11
# (参考訳) 野生におけるシェルフ監視メッシュ予測

Shelf-Supervised Mesh Prediction in the Wild ( http://arxiv.org/abs/2102.06195v1 )

ライセンス: CC BY 4.0
Yufei Ye, Shubham Tulsiani, Abhinav Gupta(参考訳) 本研究では,単一画像から物体の3次元形状とポーズを推定し,既製認識システムからのセグメンテーション出力のみを用いて,非構造化画像コレクションから学習可能な学習ベースのアプローチを提案する。 「自監」) 我々はまず、カメラのポーズと一緒に、正準フレーム内の体積表現を推測します。 外観とマスクの両方に幾何学的に一貫性のある表現を強制し、合成された新しいビューは画像コレクションとは区別がつかないようにする。 粗いボリューム予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。 これらの2つのステップは、画像収集から形状的因子化と、より詳細なインスタンスごとの再構成の両方を可能にする。 本手法は,合成データと実世界のデータの両方について検討し,実世界の50のカテゴリのスケーラビリティを実証する。

We aim to infer 3D shape and pose of object from a single image and propose a learning-based approach that can train from unstructured image collections, supervised by only segmentation outputs from off-the-shelf recognition systems (i.e. 'shelf-supervised'). We first infer a volumetric representation in a canonical frame, along with the camera pose. We enforce the representation geometrically consistent with both appearance and masks, and also that the synthesized novel views are indistinguishable from image collections. The coarse volumetric prediction is then converted to a mesh-based representation, which is further refined in the predicted camera frame. These two steps allow both shape-pose factorization from image collections and per-instance reconstruction in finer details. We examine the method on both synthetic and real-world datasets and demonstrate its scalability on 50 categories in the wild, an order of magnitude more classes than existing works.
翻訳日:2021-02-12 22:04:48 公開日:2021-02-11
# (参考訳) フルフレームビデオ安定化のためのニューラルリレンダリング

Neural Re-rendering for Full-frame Video Stabilization ( http://arxiv.org/abs/2102.06205v1 )

ライセンス: CC BY 4.0
Yu-Lun Liu, Wei-Sheng Lai, Ming-Hsuan Yang, Yung-Yu Chuang, Jia-Bin Huang(参考訳) 既存のビデオ安定化手法では、フレーム境界のアグレッシブトリミングや、安定化フレーム上の歪みアーチファクトの生成が必要である。 本稿では,まず高密度ワープ場を推定し,フルフレーム映像安定化のためのアルゴリズムを提案する。 フルフレーム安定化フレームは、隣接するフレームから歪んだコンテンツを融合することで合成することができる。 学習ベースのハイブリッド空間融合は、光学フローの不正確さと高速移動オブジェクトによって引き起こされるアーティファクトを緩和します。 NUSおよび自撮りビデオデータセットに対する本手法の有効性を検証した。 広範に実験を行った結果,従来のビデオ安定化手法に対するアプローチのメリットが示された。

Existing video stabilization methods either require aggressive cropping of frame boundaries or generate distortion artifacts on the stabilized frames. In this work, we present an algorithm for full-frame video stabilization by first estimating dense warp fields. Full-frame stabilized frames can then be synthesized by fusing warped contents from neighboring frames. The core technical novelty lies in our learning-based hybrid-space fusion that alleviates artifacts caused by optical flow inaccuracy and fast-moving objects. We validate the effectiveness of our method on the NUS and selfie video datasets. Extensive experiment results demonstrate the merits of our approach over prior video stabilization methods.
翻訳日:2021-02-12 21:50:53 公開日:2021-02-11
# (参考訳) 強固なデータ破損に対するロバストな政策勾配

Robust Policy Gradient against Strong Data Corruption ( http://arxiv.org/abs/2102.05800v1 )

ライセンス: CC BY 4.0
Xuezhou Zhang, Yiding Chen, Xiaojin Zhu and Wen Sun(参考訳) 対人汚職下での堅牢な強化学習の課題を報酬と移行の両面から検討する。 攻撃モデルは、学習エピソードの最大$\epsilon$-fractionに対して、エピソード内の各ステップにおける報酬とトランジションを任意に破壊できる \textit{adaptive} 敵を想定しています。 私達の攻撃モデルは前作で考慮されるものより厳しく強いです。 最初の結果は、攻撃モデルの下では、$O(\epsilon)$-optimal Policyよりも優れたアルゴリズムが見つからないことを示している。 次に、驚くべきことに自然政策勾配(NPG)法は、報酬の腐敗が境界づけられている場合に自然堅牢性特性を保持し、$O(\sqrt{\epsilon})$-optimal Policyを見つけることができることを示した。 その結果、無限の報酬の腐敗を許容し、$O(\epsilon^{1/4})$-optimal Policyを見つけることができるフィルタポリシーグラデーション(FPG)アルゴリズムを開発しました。 FPGは、一定のエピソードが破損した場合に有意義な学習保証を達成できる最初のものであることを強調します。 理論的結果と相まって,FPGのニューラル実装は,MuJoCo連続制御ベンチマーク上で強靭な学習性能を実現することを示す。

We study the problem of robust reinforcement learning under adversarial corruption on both rewards and transitions. Our attack model assumes an \textit{adaptive} adversary who can arbitrarily corrupt the reward and transition at every step within an episode, for at most $\epsilon$-fraction of the learning episodes. Our attack model is strictly stronger than those considered in prior works. Our first result shows that no algorithm can find a better than $O(\epsilon)$-optimal policy under our attack model. Next, we show that surprisingly the natural policy gradient (NPG) method retains a natural robustness property if the reward corruption is bounded, and can find an $O(\sqrt{\epsilon})$-optimal policy. Consequently, we develop a Filtered Policy Gradient (FPG) algorithm that can tolerate even unbounded reward corruption and can find an $O(\epsilon^{1/4})$-optimal policy. We emphasize that FPG is the first that can achieve a meaningful learning guarantee when a constant fraction of episodes are corrupted. Complimentary to the theoretical results, we show that a neural implementation of FPG achieves strong robust learning performance on the MuJoCo continuous control benchmarks.
翻訳日:2021-02-12 20:57:44 公開日:2021-02-11
# (参考訳) 分類とクラスタリングのためのオンライン決定論的アニーリング

Online Deterministic Annealing for Classification and Clustering ( http://arxiv.org/abs/2102.05836v1 )

ライセンス: CC BY 4.0
Christos Mavridis, John Baras(参考訳) 決定論的アニーリングの原理に基づいたクラスタリングと分類のためのオンラインプロトタイプベースの学習アルゴリズムを紹介します。 本稿では,提案アルゴリズムが競合学習ニューラルネットワークを構成することを示し,学習規則をオンライン確率近似アルゴリズムとして定式化する。 アルゴリズムのアニーリング性は局所的な極小さを防ぎ、初期条件に対する堅牢性を提供し、直感的な分岐現象を通じて学習モデルの複雑さを段階的に増加させる手段を提供する。 その結果、提案手法は解釈可能であり、最小限のハイパーパラメータチューニングを必要とし、複雑性と精度のトレードオフに対するオンライン制御を提供する。 最後に、Bregmanの発散は、アルゴリズムの性能と計算複雑性の両方において重要な役割を果たすことを示す相似性尺度の族として用いられる。 本稿では,人工および実データ集合における学習アルゴリズムの特性と性能評価について述べる。

We introduce an online prototype-based learning algorithm for clustering and classification, based on the principles of deterministic annealing. We show that the proposed algorithm constitutes a competitive-learning neural network, the learning rule of which is formulated as an online stochastic approximation algorithm. The annealing nature of the algorithm prevents poor local minima, offers robustness with respect to the initial conditions, and provides a means to progressively increase the complexity of the learning model as needed, through an intuitive bifurcation phenomenon. As a result, the proposed approach is interpretable, requires minimal hyper-parameter tuning, and offers online control over the complexity-accuracy trade-off. Finally, Bregman divergences are used as a family of dissimilarity measures that are shown to play an important role in both the performance of the algorithm, and its computational complexity. We illustrate the properties and evaluate the performance of the proposed learning algorithm in artificial and real datasets.
翻訳日:2021-02-12 20:09:40 公開日:2021-02-11
# (参考訳) 病院における臨床劣化予測

Predicting Clinical Deterioration in Hospitals ( http://arxiv.org/abs/2102.05856v1 )

ライセンス: CC BY 4.0
Laleh Jalali, Hsiu-Khuern Tang, Richard H. Goldstein, Joaqun Alvarez Rodrguez(参考訳) 差し迫った臨床劣化の兆候を示す患者に迅速に反応することは、患者ケアの基本的な要素である。 これにより、早期対応システム(rapid response system, rrs)として知られる患者の安全介入哲学が生まれ、即座臨床悪化の判定基準を満たした患者は、その劣化を緩和し、集中治療ユニット(icu)の移送、心停止、または死亡を予防することを目標として、直ちに評価・治療される。 RRSは広く採用されているが、複数の体系的なレビューではその効果の証拠が見つからなかった。 通常、RSの基準は単純であり、専門家(合意)は重要な生理的異常を特定するか、臨床観察に基づく規則を定義している。 もし、現在の基準における生理的ずれの出現よりも早く患者のデータの中にパターンを見つけることができれば、介入戦略はより効果的であるかもしれない。 本稿では,emr(electronic medical records)に機械学習を適用し,患者が臨床劣化のリスクがあるかどうかを推定する。 当モデルでは,現在病院で用いられている既存のルールベース手法と比較して,より感度が高く,事前予測時間も高い。 成功すれば、病院は既存のITシステムに私たちのアプローチを統合し、モデルによって生成されたアラートを使用してICUの転送、心停止、または死亡を防ぎ、ICUの滞在期間を短縮することができます。

Responding rapidly to a patient who is demonstrating signs of imminent clinical deterioration is a basic tenet of patient care. This gave rise to a patient safety intervention philosophy known as a Rapid Response System (RRS), whereby a patient who meets a pre-determined set of criteria for imminent clinical deterioration is immediately assessed and treated, with the goal of mitigating the deterioration and preventing intensive care unit (ICU) transfer, cardiac arrest, or death. While RRSs have been widely adopted, multiple systematic reviews have failed to find evidence of their effectiveness. Typically, RRS criteria are simple, expert (consensus) defined rules that identify significant physiologic abnormalities or are based on clinical observation. If one can find a pattern in the patient's data earlier than the onset of the physiologic derangement manifest in the current criteria, intervention strategies might be more effective. In this paper, we apply machine learning to electronic medical records (EMR) to infer if patients are at risk for clinical deterioration. Our models are more sensitive and offer greater advance prediction time compared with existing rule-based methods that are currently utilized in hospitals. Our results warrant further testing in the field; if successful, hospitals can integrate our approach into their existing IT systems and use the alerts generated by the model to prevent ICU transfer, cardiac arrest, or death, or to reduce the ICU length of stay.
翻訳日:2021-02-12 19:50:15 公開日:2021-02-11
# (参考訳) EvoSplit: 複数ラベルデータセットを非結合なサブセットに分割する進化的アプローチ

EvoSplit: An evolutionary approach to split a multi-label data set into disjoint subset ( http://arxiv.org/abs/2102.06154v1 )

ライセンス: CC BY 4.0
Francisco Florez-Revuelta(参考訳) 本稿では、教師付き機械学習のための非結合サブセットにマルチラベルデータセットを分散するための新しい進化的アプローチであるEvoSplitを提案する。 現在、データセットプロバイダは、データセットをランダムに分割するか、あるいは元のデータセットのラベル(またはラベルペア)分布を異なるサブセットに維持することを目的とした反復成層法を用いている。 同じ目的に続き、本論文はまず、これらの分布の類似性を独立に最大化する分割を求める、単目的進化的アプローチを提案する。 次に,両分布(ラベルとラベルペア)を同時に考慮し,類似性を最大化するために,新たな多目的進化アルゴリズムを提案する。 どちらのアプローチも、よく知られたマルチラベルデータセットと、現在コンピュータビジョンや機械学習アプリケーションで使われている大規模な画像データセットを使用して検証される。 EvoSplitは、ラベル分布、ラベルペア分布、例分布、折り畳みおよび折り畳みラベルペアの0の例に従って反復的な階層化と比較して、データセットの分割を改善します。

This paper presents a new evolutionary approach, EvoSplit, for the distribution of multi-label data sets into disjoint subsets for supervised machine learning. Currently, data set providers either divide a data set randomly or using iterative stratification, a method that aims to maintain the label (or label pair) distribution of the original data set into the different subsets. Following the same aim, this paper first introduces a single-objective evolutionary approach that tries to obtain a split that maximizes the similarity between those distributions independently. Second, a new multi-objective evolutionary algorithm is presented to maximize the similarity considering simultaneously both distributions (label and label pair). Both approaches are validated using well-known multi-label data sets as well as large image data sets currently used in computer vision and machine learning applications. EvoSplit improves the splitting of a data set in comparison to the iterative stratification following different measures: Label Distribution, Label Pair Distribution, Examples Distribution, folds and fold-label pairs with zero positive examples.
翻訳日:2021-02-12 19:24:14 公開日:2021-02-11
# (参考訳) 音声の非線形モデルを用いた言語独立感情定量化

Language Independent Emotion Quantification using Non linear Modelling of Speech ( http://arxiv.org/abs/2102.06003v1 )

ライセンス: CC BY 4.0
Uddalok Sarkar, Sayan Nag, Chirayata Bhattacharya, Shankha Sanyal, Archi Banerjee, Ranjan Sengupta and Dipak Ghosh(参考訳) 現在,音声からの感情抽出は多種多様であるため,非常に重要な課題である。 したがって、人の話すスタイル、声道情報、音色、および彼の声に関する他の先天的な情報を考慮してモデルを取得することは絶対に必要です。 音声生成システムは,他の実世界システムと同様,非線形システムである。 したがって、非線形手法を用いた音声情報のモデル化の必要性が生じる。 本研究では非線形多フラクタル解析を用いて調音システムをモデル化した。 マルチフラクタルスペクトル幅とスケーリング指数は、取られた音声信号に関連する複雑さを本質的に明らかにする。 マルチフラクタルスペクトルは、異なる感情の場合には低変動領域でよく区別できる。 震源特性は,多フラクタル抑止ゆらぎ解析,ウェーブレット変換変調最大値などの非線形モデルを用いて定量化されている。 この研究から得られた結果は、感情クラスタリングに非常に良い結果をもたらす。

At present emotion extraction from speech is a very important issue due to its diverse applications. Hence, it becomes absolutely necessary to obtain models that take into consideration the speaking styles of a person, vocal tract information, timbral qualities and other congenital information regarding his voice. Our speech production system is a nonlinear system like most other real world systems. Hence the need arises for modelling our speech information using nonlinear techniques. In this work we have modelled our articulation system using nonlinear multifractal analysis. The multifractal spectral width and scaling exponents reveals essentially the complexity associated with the speech signals taken. The multifractal spectrums are well distinguishable the in low fluctuation region in case of different emotions. The source characteristics have been quantified with the help of different non-linear models like Multi-Fractal Detrended Fluctuation Analysis, Wavelet Transform Modulus Maxima. The Results obtained from this study gives a very good result in emotion clustering.
翻訳日:2021-02-12 19:07:44 公開日:2021-02-11
# (参考訳) 音声と視覚領域における感情を特徴付けるフラクタルアプローチ : クロスモーダル相互作用に関する研究

A Fractal Approach to Characterize Emotions in Audio and Visual Domain: A Study on Cross-Modal Interaction ( http://arxiv.org/abs/2102.06038v1 )

ライセンス: CC BY 4.0
Sayan Nag, Uddalok Sarkar, Shankha Sanyal, Archi Banerjee, Souparno Roy, Samir Karmakar, Ranjan Sengupta and Dipak Ghosh(参考訳) 聴覚刺激と視覚刺激の両方が人間の心の感情を異なる程度に伝達できることは、すでに知られている。 感情刺激の強さや強さは、選択された刺激の種類によって異なる。 本研究では,聴覚刺激と視覚刺激の両方を伴うクロスモーダルシナリオにおける情緒覚醒について,音源特性を考察しながら検討する。 Detrended Fluctuation Analysis (DFA)とその2Dアナログと呼ばれる頑健なフラクタル解析技術は、正および負の原子価に対応するスケーリング指数を定量化する3つの標準オーディオおよびビデオ信号の特徴付けに用いられている。 2つの異なるモダリティに対応するスケーリング指数に有意な差があることが判明した。 Detrended Cross Correlation Analysis (DCCA)は、個々のオーディオおよび視覚刺激間の相互相関の解読度にも適用されている。 本研究は, 音源音声と視覚信号のみを用いて感情刺激をクロスモーダルシナリオで分類し, 相互相関を試みる, 新たなアルゴリズムを提案する最初の研究である。

It is already known that both auditory and visual stimulus is able to convey emotions in human mind to different extent. The strength or intensity of the emotional arousal vary depending on the type of stimulus chosen. In this study, we try to investigate the emotional arousal in a cross-modal scenario involving both auditory and visual stimulus while studying their source characteristics. A robust fractal analytic technique called Detrended Fluctuation Analysis (DFA) and its 2D analogue has been used to characterize three (3) standardized audio and video signals quantifying their scaling exponent corresponding to positive and negative valence. It was found that there is significant difference in scaling exponents corresponding to the two different modalities. Detrended Cross Correlation Analysis (DCCA) has also been applied to decipher degree of cross-correlation among the individual audio and visual stimulus. This is the first of its kind study which proposes a novel algorithm with which emotional arousal can be classified in cross-modal scenario using only the source audio and visual signals while also attempting a correlation between them.
翻訳日:2021-02-12 19:01:23 公開日:2021-02-11
# (参考訳) 雑音および感情的発話条件におけるカスケードGMM-CNN分類器を用いたCASA話者識別

CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in Noisy and Emotional Talking Conditions ( http://arxiv.org/abs/2102.05894v1 )

ライセンス: CC BY 4.0
Ali Bou Nassif, Ismail Shahin, Shibani Hamsa, Nawel Nemmour, Keikichi Hirose(参考訳) 本研究の目的は、雑音や感情的な会話条件などの実際の応用状況において、テキスト非依存の話者識別性能を高めることである。 これは、2つの異なるモジュールを組み込むことによって実現される: 雑音低減のための計算聴覚シーン分析 CASA に基づく事前処理モジュールと、話者識別のためのガウス混合モデル 畳み込みニューラルネットワーク GMM-CNN 分類器、および感情認識である。 本研究では,感情的および高雑音環境下での話者識別精度を向上させる新しいアルゴリズムを提案し,評価する。 実験では,SUSASデータベース,Emirati Speech Database ESD,Ryerson Audio-Visual Database of Emotional Speech and Song RAVDESSデータベース,Fluent Speech Commandsデータベースがノイズの多い環境で使用されている場合に,他の分類器と比較して有望な結果が得られることを実証した。

This work aims at intensifying text-independent speaker identification performance in real application situations such as noisy and emotional talking conditions. This is achieved by incorporating two different modules: a Computational Auditory Scene Analysis CASA based pre-processing module for noise reduction and cascaded Gaussian Mixture Model Convolutional Neural Network GMM-CNN classifier for speaker identification followed by emotion recognition. This research proposes and evaluates a novel algorithm to improve the accuracy of speaker identification in emotional and highly-noise susceptible conditions. Experiments demonstrate that the proposed model yields promising results in comparison with other classifiers when Speech Under Simulated and Actual Stress SUSAS database, Emirati Speech Database ESD, the Ryerson Audio-Visual Database of Emotional Speech and Song RAVDESS database and the Fluent Speech Commands database are used in a noisy environment.
翻訳日:2021-02-12 18:54:15 公開日:2021-02-11
# (参考訳) 融合畳み込みニューラルネットワーク予測を用いた対比ロバストなディープフェイクメディア検出

Adversarially robust deepfake media detection using fused convolutional neural network predictions ( http://arxiv.org/abs/2102.05950v1 )

ライセンス: CC BY 4.0
Sohail Ahmed Khan, Alessandro Artusi, Hang Dai(参考訳) Deepfakesは、詐欺師が正当な情報を操作するために使用する合成生成画像、ビデオまたはオーディオです。 現在のディープフェイク検出システムは、見えないデータと闘います。 そこで我々は,(1)VGG16,(2)InceptionV3,(3)XceptionNetという3種類の深層畳み込みニューラルネットワーク(CNN)モデルを用いて,ビデオから抽出した偽画像と実画像の分類を行った。 また,強靭性と一般化性を向上させるため,深部CNNモデルの融合も構築した。 提案手法は、市販のdeepfake detection challenge(dfdc)テストデータ(400ビデオ)でテストした場合、96.5%の精度で最先端モデルを上回る。 融合モデルは、低品質のDeepFake-TIMITデータセットビデオで99%、高品質のDeepFake-TIMITビデオで91.88%の精度を達成する。 これに加えて,予測融合が敵攻撃に対してより堅牢であることを示す。 あるモデルが敵攻撃によって妥協された場合、予測融合は全体分類に影響を与えない。

Deepfakes are synthetically generated images, videos or audios, which fraudsters use to manipulate legitimate information. Current deepfake detection systems struggle against unseen data. To address this, we employ three different deep Convolutional Neural Network (CNN) models, (1) VGG16, (2) InceptionV3, and (3) XceptionNet to classify fake and real images extracted from videos. We also constructed a fusion of the deep CNN models to improve the robustness and generalisation capability. The proposed technique outperforms state-of-the-art models with 96.5% accuracy, when tested on publicly available DeepFake Detection Challenge (DFDC) test data, comprising of 400 videos. The fusion model achieves 99% accuracy on lower quality DeepFake-TIMIT dataset videos and 91.88% on higher quality DeepFake-TIMIT videos. In addition to this, we prove that prediction fusion is more robust against adversarial attacks. If one model is compromised by an adversarial attack, the prediction fusion does not let it affect the overall classification.
翻訳日:2021-02-12 18:37:37 公開日:2021-02-11
# (参考訳) SWAGAN: スタイルベースのウェーブレット駆動生成モデル

SWAGAN: A Style-based Wavelet-driven Generative Model ( http://arxiv.org/abs/2102.06108v1 )

ライセンス: CC BY 4.0
Rinon Gal, Dana Cohen, Amit Bermano, Daniel Cohen-Or(参考訳) 近年、GAN(Generative Adversarial Networks)の視覚的品質に大きな進歩を遂げています。 それでもこれらのネットワークは、スペクトル偏りのあるアーキテクチャと同様に不利な損失関数に起因する高周波コンテンツの品質低下に苦しんでいる。 そこで本研究では,周波数領域におけるプログレッシブ生成を実現する汎用スタイルとWAVEletベースのGAN(SWAGAN)を提案する。 SWAGANは、ジェネレータと識別器アーキテクチャ全体を通してウェーブレットを組み込み、各ステップで周波数対応の潜在表現を強制する。 このアプローチにより、生成した画像の視覚的品質が向上し、計算性能が大幅に向上する。 本手法は,SyleGAN2フレームワークに統合し,ウェーブレット領域におけるコンテンツ生成により,よりリアルな高周波数コンテンツによる高品質な画像が得られることを示す。 さらに,我々のモデルの潜在空間がスタイルガンを編集作業の基礎として機能させる品質を維持していることを検証し,周波数認識アプローチが下流の視覚品質の向上をももたらしていることを示す。

In recent years, considerable progress has been made in the visual quality of Generative Adversarial Networks (GANs). Even so, these networks still suffer from degradation in quality for high-frequency content, stemming from a spectrally biased architecture, and similarly unfavorable loss functions. To address this issue, we present a novel general-purpose Style and WAvelet based GAN (SWAGAN) that implements progressive generation in the frequency domain. SWAGAN incorporates wavelets throughout its generator and discriminator architectures, enforcing a frequency-aware latent representation at every step of the way. This approach yields enhancements in the visual quality of the generated images, and considerably increases computational performance. We demonstrate the advantage of our method by integrating it into the SyleGAN2 framework, and verifying that content generation in the wavelet domain leads to higher quality images with more realistic high-frequency content. Furthermore, we verify that our model's latent space retains the qualities that allow StyleGAN to serve as a basis for a multitude of editing tasks, and show that our frequency-aware approach also induces improved downstream visual quality.
翻訳日:2021-02-12 18:29:19 公開日:2021-02-11
# (参考訳) 微分可能なインシシシタブル・ソフトボディ物理

Differentiable Implicit Soft-Body Physics ( http://arxiv.org/abs/2102.05791v1 )

ライセンス: CC BY 4.0
Junior Rojas, Eftychios Sifakis, Ladislav Kavan(参考訳) 本稿では、ニューラルネットワークを微分可能な層として構成できる微分可能なソフトボディ物理シミュレータを提案する。 状態遷移を定義するために明示的な前方モデルを用いる他の微分可能な物理学のアプローチとは対照的に、関数最小化によって定義される暗黙の状態遷移にフォーカスする。 暗黙的な状態遷移は暗黙的な数値積分法に現れ、大きな時間ステップと優れた数値安定性を提供するが、明示的な微分可能なフォワードパスがないために微分可能性を達成するために特別な処理を必要とする。 力関数と力ヤコビ行列の明示的な公式を必要とする他の暗黙の微分アプローチとは対照的に、これらの微分を逆モードの自動微分によって自動的に行列のない方法で計算できるエネルギーベースのアプローチを提案する。 これにより、物理モデルを定義する際の柔軟性と生産性が向上し、しばしばリバースモードの自動微分(バックプロパゲーション)に依存するニューラルネットワークトレーニングの文脈において特に重要である。 移動課題に対するポリシー最適化における微分可能シミュレータの有効性を実証し,モデルフリーの強化学習よりも優れたサンプル効率を実現することを示す。

We present a differentiable soft-body physics simulator that can be composed with neural networks as a differentiable layer. In contrast to other differentiable physics approaches that use explicit forward models to define state transitions, we focus on implicit state transitions defined via function minimization. Implicit state transitions appear in implicit numerical integration methods, which offer the benefits of large time steps and excellent numerical stability, but require a special treatment to achieve differentiability due to the absence of an explicit differentiable forward pass. In contrast to other implicit differentiation approaches that require explicit formulas for the force function and the force Jacobian matrix, we present an energy-based approach that allows us to compute these derivatives automatically and in a matrix-free fashion via reverse-mode automatic differentiation. This allows for more flexibility and productivity when defining physical models and is particularly important in the context of neural network training, which often relies on reverse-mode automatic differentiation (backpropagation). We demonstrate the effectiveness of our differentiable simulator in policy optimization for locomotion tasks and show that it achieves better sample efficiency than model-free reinforcement learning.
翻訳日:2021-02-12 17:47:29 公開日:2021-02-11
# (参考訳) 農業・製造IoTシステムにおける移動学習による異常検出

Anomaly Detection through Transfer Learning in Agriculture and Manufacturing IoT Systems ( http://arxiv.org/abs/2102.05814v1 )

ライセンス: CC BY 4.0
Mustafa Abdallah, Wo Jae Lee, Nithin Raghunathan, Charilaos Mousoulis, John W. Sutherland, and Saurabh Bagchi(参考訳) IoTシステムは、これらのシステムの複雑化と迅速な展開の実践により、ますます高度な技術的問題に直面しています。 その結果、IoT管理者は、サイバーリスクと運用コストを削減するために、障害(異常)を慎重に検出する必要があります。 多くのIoTベースのシステムには異常検出に関する豊富な文献があるが、デジタル農業やスマート製造システムにおける異常検出のためのMLモデルの使用を文書化する研究は存在しない。 この2つのアプリケーションドメインは、技術的な課題がある。 農業では、農業の広大な地域と、モニタリングのコストを低く抑える必要があるため、データは希少であることが多い。 第二に、両方のドメインには、さまざまな機能とコストを持つ複数のタイプのセンサーがあります。 センサデータの特性は、モータのRPMなど、環境や機械の動作ポイントによって変化します。 従って、参照処理と異常検出プロセスは、操作ポイントに合わせて調整される必要がある。 本稿では, 農作物に設置したセンサから, 7種類のセンサからのデータと, 振動センサを用いた先進的な製造試験からのデータを分析する。 センサデータの時系列予測のためのARIMAモデルとLSTMモデルの性能評価を行った。 そして、1種類のセンサからのスパースデータを考慮して、高データレートセンサからの転送学習を行います。 次に,予測したセンサデータを用いて異常検出を行う。 合わせて、これらの2つのアプリケーションドメインにおいて、予測的障害分類を実現し、予測的メンテナンスの道を開く方法を示す。

IoT systems have been facing increasingly sophisticated technical problems due to the growing complexity of these systems and their fast deployment practices. Consequently, IoT managers have to judiciously detect failures (anomalies) in order to reduce their cyber risk and operational cost. While there is a rich literature on anomaly detection in many IoT-based systems, there is no existing work that documents the use of ML models for anomaly detection in digital agriculture and in smart manufacturing systems. These two application domains pose certain salient technical challenges. In agriculture the data is often sparse, due to the vast areas of farms and the requirement to keep the cost of monitoring low. Second, in both domains, there are multiple types of sensors with varying capabilities and costs. The sensor data characteristics change with the operating point of the environment or machines, such as, the RPM of the motor. The inferencing and the anomaly detection processes therefore have to be calibrated for the operating point. In this paper, we analyze data from sensors deployed in an agricultural farm with data from seven different kinds of sensors, and from an advanced manufacturing testbed with vibration sensors. We evaluate the performance of ARIMA and LSTM models for predicting the time series of sensor data. Then, considering the sparse data from one kind of sensor, we perform transfer learning from a high data rate sensor. We then perform anomaly detection using the predicted sensor data. Taken together, we show how in these two application domains, predictive failure classification can be achieved, thus paving the way for predictive maintenance.
翻訳日:2021-02-12 17:32:46 公開日:2021-02-11
# (参考訳) 近接近傍の合成還元に基づく多階級モデルに対する敵対的ポゾニング攻撃と防御

Adversarial Poisoning Attacks and Defense for General Multi-Class Models Based On Synthetic Reduced Nearest Neighbors ( http://arxiv.org/abs/2102.05867v1 )

ライセンス: CC0 1.0
Pooya Tavallali, Vahid Behzadan, Peyman Tavallali, Mukesh Singhal(参考訳) 最先端の機械学習モデルは、モデルの完全性を損なうことを目的としたデータ中毒攻撃に対して脆弱です。 しかし、データ中毒攻撃に関する現在の文献は、主に特定の機械学習モデルにのみ適用されるアドホックな技術に焦点を当てている。 さらに、文献にある既存のデータ中毒攻撃はバイナリ分類器か勾配に基づくアルゴリズムに限られている。 これらの制限に対処するため,本論文ではまず,ラベルフリッピングの予算に拘束されたまま,競合者がクラスのクラスタをターゲットとする,データのマルチモダリティに基づく新しいモデルフリーラベルフリッピング攻撃を提案する。 提案する攻撃アルゴリズムの複雑さはデータセットのサイズよりも時間的に線形である。 また、提案された攻撃は、同じ攻撃予算で2回までエラーを増加させることができる。 第二に、SRNN(Synthetic reduced Nearest Neighbor)モデルに基づく新しい防御技術を提案する。 防御技術は、トレーニング手順中にフライでフリップサンプルを検出して除外することができます。 広範囲な実験分析により, (i) 提案手法が複数のモデルの精度を劇的に低下させることを示すとともに, (ii) 提案手法は, 対象モデルの精度を回復する上で, 従来の機械学習モデルよりも有意に優れていることを示す。

State-of-the-art machine learning models are vulnerable to data poisoning attacks whose purpose is to undermine the integrity of the model. However, the current literature on data poisoning attacks is mainly focused on ad hoc techniques that are only applicable to specific machine learning models. Additionally, the existing data poisoning attacks in the literature are limited to either binary classifiers or to gradient-based algorithms. To address these limitations, this paper first proposes a novel model-free label-flipping attack based on the multi-modality of the data, in which the adversary targets the clusters of classes while constrained by a label-flipping budget. The complexity of our proposed attack algorithm is linear in time over the size of the dataset. Also, the proposed attack can increase the error up to two times for the same attack budget. Second, a novel defense technique based on the Synthetic Reduced Nearest Neighbor (SRNN) model is proposed. The defense technique can detect and exclude flipped samples on the fly during the training procedure. Through extensive experimental analysis, we demonstrate that (i) the proposed attack technique can deteriorate the accuracy of several models drastically, and (ii) under the proposed attack, the proposed defense technique significantly outperforms other conventional machine learning models in recovering the accuracy of the targeted model.
翻訳日:2021-02-12 17:17:15 公開日:2021-02-11
# (参考訳) eBayにおける個人化埋め込み型eコマースレコメンデーション

Personalized Embedding-based e-Commerce Recommendations at eBay ( http://arxiv.org/abs/2102.06156v1 )

ライセンス: CC BY 4.0
Tian Wang, Yuri M. Brovman, Sriganesh Madhvanath(参考訳) レコメンダシステムはeコマース市場の重要な要素であり、消費者が大量の在庫をナビゲートし、必要なものや好きなものを見つけるのを助ける。 本稿では,同じベクトル空間にアイテムやユーザを埋め込むことを学習することで,電子商取引市場におけるパーソナライズされたアイテムレコメンデーションを生成するアプローチを提案する。 大規模市場におけるコールドスタート問題を軽減するため、コンテンツ機能とマルチモーダルオンサイトユーザアクティビティを用いて、アイテムとユーザ埋め込みをそれぞれ計算する。 データアブレーションはオフラインモデルのトレーニングプロセスに組み込まれ、生産システムの堅牢性を向上させます。 eBayのトラフィックから収集されたデータセットを用いたオフライン評価では、Recall@kメトリクスをLavely-Viewed-Item(RVI)メソッドよりも改善することができた。 パーソナライズドレコメンデーションを生成するこのアプローチは、プロダクショントラフィックを提供するためにローンチされ、対応するスケーラブルなエンジニアリングアーキテクチャも提示されている。 初期のA/Bテスト結果から,現在のパーソナライズされたリコメンデーションモジュールと比較すると,提案手法はページインプレッションの90%のリコメンデーションを生成するために,$\sim$6\%のサーフェスレートを増大させることがわかった。

Recommender systems are an essential component of e-commerce marketplaces, helping consumers navigate massive amounts of inventory and find what they need or love. In this paper, we present an approach for generating personalized item recommendations in an e-commerce marketplace by learning to embed items and users in the same vector space. In order to alleviate the considerable cold-start problem present in large marketplaces, item and user embeddings are computed using content features and multi-modal onsite user activity respectively. Data ablation is incorporated into the offline model training process to improve the robustness of the production system. In offline evaluation using a dataset collected from eBay traffic, our approach was able to improve the Recall@k metric over the Recently-Viewed-Item (RVI) method. This approach to generating personalized recommendations has been launched to serve production traffic, and the corresponding scalable engineering architecture is also presented. Initial A/B test results show that compared to the current personalized recommendation module in production, the proposed method increases the surface rate by $\sim$6\% to generate recommendations for 90\% of listing page impressions.
翻訳日:2021-02-12 17:00:05 公開日:2021-02-11
# (参考訳) クリーンクラスタリングによる深層混合学習による音声強調

Speech enhancement with mixture-of-deep-experts with clean clustering pre-training ( http://arxiv.org/abs/2102.06034v1 )

ライセンス: CC BY 4.0
Shlomo E. Chazan, Jacob Goldberger, Sharon Gannot(参考訳) 本研究では,マイクロホン音声強調のためのディープエキスパート(MoDE)ニューラルネットワークアーキテクチャの混合について述べる。 私たちのアーキテクチャは、深いニューラルネットワーク(DNN)のセットで構成され、それぞれが音素のような異なる音声スペクトルパターンの「専門家」です。 ゲーティングDNNは、音声セグメントが与えられた各専門家の出力に割り当てられた重みである潜在変数を担当します。 専門家は、騒々しい入力からマスクを推定し、最終的なマスクは、ゲーティングDNNによって決定された重量で、専門家の推定の重み付き平均として取得されます。 次に、推定されたマスクに基づいて柔らかいスペクトル減衰を適用し、騒々しい音声信号を強化する。 副産物として、私達はテスト時間の複雑さで減ります。 専門家の専門化により、不慣れなノイズタイプに対する堅牢性が向上します。

In this study we present a mixture of deep experts (MoDE) neural-network architecture for single microphone speech enhancement. Our architecture comprises a set of deep neural networks (DNNs), each of which is an 'expert' in a different speech spectral pattern such as phoneme. A gating DNN is responsible for the latent variables which are the weights assigned to each expert's output given a speech segment. The experts estimate a mask from the noisy input and the final mask is then obtained as a weighted average of the experts' estimates, with the weights determined by the gating DNN. A soft spectral attenuation, based on the estimated mask, is then applied to enhance the noisy speech signal. As a byproduct, we gain reduction at the complexity in test time. We show that the experts specialization allows better robustness to unfamiliar noise types.
翻訳日:2021-02-12 15:43:59 公開日:2021-02-11
# (参考訳) SLS (Single $\ell_1$ Selection): $\ell_1$-norm 選択規則を持つ新しいグリーディアルゴリズム

SLS (Single $\ell_1$ Selection): a new greedy algorithm with an $\ell_1$-norm selection rule ( http://arxiv.org/abs/2102.06058v1 )

ライセンス: CC BY 4.0
Ramzi Ben Mhenni and S\'ebastien Bourguignon and J\'er\^ome Idier(参考訳) 本稿では,SLS for Single L_1 Selectionという,スパース近似のための新しいグレディアルゴリズムを提案する。 SLSは基本的に、各イテレーションにおける新しいコンポーネントの選択ルールは、残りの変数のL_1ノルムによってペナルティ化される最小二乗最適化問題を解決することに基づいています。 その後、最大振幅の成分が選択されます。 非常に相関性の高い辞書を含む困難なスパース・デコンボリューション問題に対するシミュレーションの結果、解がスパースの場合、一般的なグリーディアルゴリズムとBasis Pursuit Denoisingを上回る方法の効率が明らかになる。

In this paper, we propose a new greedy algorithm for sparse approximation, called SLS for Single L_1 Selection. SLS essentially consists of a greedy forward strategy, where the selection rule of a new component at each iteration is based on solving a least-squares optimization problem, penalized by the L_1 norm of the remaining variables. Then, the component with maximum amplitude is selected. Simulation results on difficult sparse deconvolution problems involving a highly correlated dictionary reveal the efficiency of the method, which outperforms popular greedy algorithms and Basis Pursuit Denoising when the solution is sparse.
翻訳日:2021-02-12 15:33:42 公開日:2021-02-11
# 雑音テキストによる視覚・視覚言語表現学習のスケールアップ

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision ( http://arxiv.org/abs/2102.05918v1 )

ライセンス: Link先を確認
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig(参考訳) 事前訓練された表現は、多くのNLPおよび知覚タスクにとって重要になっています。 NLPでの表現学習は、人間のアノテーションなしで生のテキストのトレーニングに移行しましたが、視覚と視覚言語の表現は、依然として高価な、または専門家の知識を必要とするキュレーションされたトレーニングデータセットに大きく依存しています。 視覚アプリケーションの場合、表現はImageNetやOpenImagesなどの明示的なクラスラベルを持つデータセットを使用して学習される。 Conceptual Captions、MSCOCO、CLIPなどの視覚言語で人気のデータセットには、すべて、非自明なデータ収集(およびクリーニング)プロセスが含まれます。 このコストのかかるキュレーションプロセスはデータセットのサイズを制限し、トレーニングされたモデルのスケーリングを妨げる。 本論文では,コンセプチュアルキャプションデータセットの高価なフィルタリングや後処理のステップなしで得られる10億以上の画像alt-textペアのノイズの多いデータセットを活用する。 単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的表現と言語表現を対比的損失を用いて整合させることを学ぶ。 コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。 我々の視覚表現は、ImageNetやVTABのような分類タスクに転送されると、強い性能を達成する。 整列されたビジュアルおよび言語表現は、より洗練されたクロスアテンションモデルと比較しても、Flickr30KおよびMSCOCOベンチマークの最新結果も設定します。 表現は、複雑なテキストとテキスト+画像クエリによるクロスモダリティ検索も可能にする。

Pre-trained representations are becoming crucial for many NLP and perception tasks. While representation learning in NLP has transitioned to training on raw text without human annotations, visual and vision-language representations still rely heavily on curated training datasets that are expensive or require expert knowledge. For vision applications, representations are mostly learned using datasets with explicit class labels such as ImageNet or OpenImages. For vision-language, popular datasets like Conceptual Captions, MSCOCO, or CLIP all involve a non-trivial data collection (and cleaning) process. This costly curation process limits the size of datasets and hence hinders the scaling of trained models. In this paper, we leverage a noisy dataset of over one billion image alt-text pairs, obtained without expensive filtering or post-processing steps in the Conceptual Captions dataset. A simple dual-encoder architecture learns to align visual and language representations of the image and text pairs using a contrastive loss. We show that the scale of our corpus can make up for its noise and leads to state-of-the-art representations even with such a simple learning scheme. Our visual representation achieves strong performance when transferred to classification tasks such as ImageNet and VTAB. The aligned visual and language representations also set new state-of-the-art results on Flickr30K and MSCOCO benchmarks, even when compared with more sophisticated cross-attention models. The representations also enable cross-modality search with complex text and text + image queries.
翻訳日:2021-02-12 14:27:17 公開日:2021-02-11
# トラクタブル回路動作の構成アトラス:単純な変換から複雑な情報理論クエリへ

A Compositional Atlas of Tractable Circuit Operations: From Simple Transformations to Complex Information-Theoretic Queries ( http://arxiv.org/abs/2102.06137v1 )

ライセンス: Link先を確認
Antonio Vergari, YooJung Choi, Anji Liu, Stefano Teso, Guy Van den Broeck(参考訳) 回路表現は、扱いやすい生成モデルや識別モデルを表現するための言語フランカになりつつある。 本稿では、機械学習で一般的に発生するこれらのモデルの複雑な推論シナリオについて、決定木アンサンブルの期待の計算から深層混合モデルの情報理論の分岐まで、回路上のトラクタブルモジュラー操作の観点で表すことができるかを示す。 具体的には、単純な変換の語彙 --sums, product, quotients, powers, logarithms, and exponentials -- の扱いやすさを、それらが操作する回路の十分な構造的制約の観点から特徴付け、これらの特性が満たされない場合に新たなハードネス結果を与える。 これらの操作に基づいて、我々は文献でいくつかの結果を一般化し、新しいトラクタブル推論シナリオを開くトラクタブルモデルに関する推論のための統一されたフレームワークを導出する。

Circuit representations are becoming the lingua franca to express and reason about tractable generative and discriminative models. In this paper, we show how complex inference scenarios for these models that commonly arise in machine learning -- from computing the expectations of decision tree ensembles to information-theoretic divergences of deep mixture models -- can be represented in terms of tractable modular operations over circuits. Specifically, we characterize the tractability of a vocabulary of simple transformations -- sums, products, quotients, powers, logarithms, and exponentials -- in terms of sufficient structural constraints of the circuits they operate on, and present novel hardness results for the cases in which these properties are not satisfied. Building on these operations, we derive a unified framework for reasoning about tractable models that generalizes several results in the literature and opens up novel tractable inference scenarios.
翻訳日:2021-02-12 14:26:48 公開日:2021-02-11
# 正常化を伴わない高性能大規模画像認識

High-Performance Large-Scale Image Recognition Without Normalization ( http://arxiv.org/abs/2102.06171v1 )

ライセンス: Link先を確認
Andrew Brock, Soham De, Samuel L. Smith, Karen Simonyan(参考訳) バッチ正規化は、ほとんどの画像分類モデルのキーコンポーネントであるが、バッチサイズと例間の相互作用に依存することから生じる多くの望ましくない特性を持っている。 最近の研究では、正規化層なしで深層ResNetのトレーニングに成功しましたが、これらのモデルは最高のバッチ正規化ネットワークのテスト精度と一致しず、大きな学習率や強いデータ拡張に対して不安定であることが多いです。 本研究では,これらの不安定性を克服する適応的勾配クリッピング手法を開発し,より優れた正規化自由ResNetのクラスを設計する。 当社の小型モデルはimagenetのeffernet-b7のテスト精度を最大8.7倍に向上させ、最大のモデルは最新のtop-1精度86.5%を達成した。 さらに,3億のラベル付き画像のデータセットを大規模に事前トレーニングした後,ImageNetを微調整した際のバッチ正規化モデルに比べて,最高のモデルでは89.2%の精度で性能が向上した。 コードはhttps://github.com/deepmind/ Deepmind-research/tree/master/nfnetsで入手できます。

Batch normalization is a key component of most image classification models, but it has many undesirable properties stemming from its dependence on the batch size and interactions between examples. Although recent work has succeeded in training deep ResNets without normalization layers, these models do not match the test accuracies of the best batch-normalized networks, and are often unstable for large learning rates or strong data augmentations. In this work, we develop an adaptive gradient clipping technique which overcomes these instabilities, and design a significantly improved class of Normalizer-Free ResNets. Our smaller models match the test accuracy of an EfficientNet-B7 on ImageNet while being up to 8.7x faster to train, and our largest models attain a new state-of-the-art top-1 accuracy of 86.5%. In addition, Normalizer-Free models attain significantly better performance than their batch-normalized counterparts when finetuning on ImageNet after large-scale pre-training on a dataset of 300 million labeled images, with our best models obtaining an accuracy of 89.2%. Our code is available at https://github.com/deepmind/ deepmind-research/tree/master/nfnets
翻訳日:2021-02-12 14:26:05 公開日:2021-02-11
# プライベート予測セット

Private Prediction Sets ( http://arxiv.org/abs/2102.06202v1 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos and Stephen Bates and Tijana Zrnic and Michael I. Jordan(参考訳) 一連の意思決定を含む現実の環境では、機械学習システムの導入は一般的に信頼性の高い不確実性定量化と個人のプライバシー保護の両方を必要とする。 これら2つのデシラタを共同で扱う枠組みを提案する。 我々のフレームワークは、予測モデルを拡張して不確実な定量化を提供する予測セットを返す手法である共形予測に基づいており、90%のようなユーザ特定確率で真の応答を確実にカバーしている。 プライベートに訓練されたモデルを使用する場合、コンフォーマル予測が結果の予測セットのプライバシー保証をもたらすと期待するかもしれません。 この問題を解決するために,事前学習された予測モデルを取り込んで,微分プライベートな予測集合を出力する手法を開発した。 提案手法は分割共形予測の一般的な手法に準じており,予測集合のサイズを定式化するためにホールドアウトデータを用いるが,民営化された分位分位子サブルーチンを用いてプライバシを保留する。 このサブルーチンは、正しいカバレッジを保証するためにプライバシーを保護するために導入されたノイズを補います。 CIFAR-10, ImageNet, CoronaHackデータセットを用いた実験による評価を行った。

In real-world settings involving consequential decision-making, the deployment of machine learning systems generally requires both reliable uncertainty quantification and protection of individuals' privacy. We present a framework that treats these two desiderata jointly. Our framework is based on conformal prediction, a methodology that augments predictive models to return prediction sets that provide uncertainty quantification -- they provably cover the true response with a user-specified probability, such as 90%. One might hope that when used with privately-trained models, conformal prediction would yield privacy guarantees for the resulting prediction sets; unfortunately this is not the case. To remedy this key problem, we develop a method that takes any pre-trained predictive model and outputs differentially private prediction sets. Our method follows the general approach of split conformal prediction; we use holdout data to calibrate the size of the prediction sets but preserve privacy by using a privatized quantile subroutine. This subroutine compensates for the noise introduced to preserve privacy in order to guarantee correct coverage. We evaluate the method with experiments on the CIFAR-10, ImageNet, and CoronaHack datasets.
翻訳日:2021-02-12 14:25:41 公開日:2021-02-11
# ClipBERT for Video-and-Language Learning via Sparse Sampling (英語)

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling ( http://arxiv.org/abs/2102.06183v1 )

ライセンス: Link先を確認
Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu(参考訳) ビデオと言語学習への標準的アプローチ(ビデオ質問応答など)は、視覚モデルや言語モデルからのテキスト機能から、オフラインで抽出された密集したビデオ機能から学ぶためのニューラルモデルを決定する。 これらの特徴抽出器は独立して訓練され、通常はターゲットドメインとは異なるタスクで訓練される。 さらに,高精細度ビデオ特徴量の計算過多により,既存手法に直接特徴抽出器を差し込むのが困難(あるいは不可能)であることも多い。 このジレンマの修正のために、ビデオからサンプリングされた短いクリップを1つまたは数つしか使用しないスパースサンプリングを用いて、ビデオと言語タスクのエンドツーエンド学習を安価に行える汎用フレームワーククリップバートを提案する。 6つのデータセットのテキスト-ビデオ検索とビデオ質問の回答に関する実験は、ClipBERTがフルレングスビデオを利用する既存の方法(またはそれと同等)を上回っていることを実証し、わずか数本のサンプルクリップでエンドツーエンドの学習がフルレングスビデオから密に抽出されたオフライン機能を使用することよりも正確であることを示唆しています。 データセット内のビデオは、3秒のジェネリックドメインgifビデオから180秒のyoutube human activityビデオまで、かなり異なるドメインと長さから成り、我々のアプローチの一般化能力を示している。 この成功に繋がる要因を解明するために、包括的アブレーション研究と徹底的な分析が提供される。 コードはhttps://github.com/jayleicn/ClipBERTで公開されています。

The canonical approach to video-and-language learning (e.g., video question answering) dictates a neural model to learn from offline-extracted dense video features from vision models and text features from language models. These feature extractors are trained independently and usually on tasks different from the target domains, rendering these fixed features sub-optimal for downstream tasks. Moreover, due to the high computational overload of dense video features, it is often difficult (or infeasible) to plug feature extractors directly into existing approaches for easy finetuning. To provide a remedy to this dilemma, we propose a generic framework ClipBERT that enables affordable end-to-end learning for video-and-language tasks, by employing sparse sampling, where only a single or a few sparsely sampled short clips from a video are used at each training step. Experiments on text-to-video retrieval and video question answering on six datasets demonstrate that ClipBERT outperforms (or is on par with) existing methods that exploit full-length videos, suggesting that end-to-end learning with just a few sparsely sampled clips is often more accurate than using densely extracted offline features from full-length videos, proving the proverbial less-is-more principle. Videos in the datasets are from considerably different domains and lengths, ranging from 3-second generic domain GIF videos to 180-second YouTube human activity videos, showing the generalization ability of our approach. Comprehensive ablation studies and thorough analyses are provided to dissect what factors lead to this success. Our code is publicly available at https://github.com/jayleicn/ClipBERT
翻訳日:2021-02-12 14:25:22 公開日:2021-02-11
# 仮想および実概念ドリフトに対処する:適応的なガウス混合モデル

Tackling Virtual and Real Concept Drifts: An Adaptive Gaussian Mixture Model ( http://arxiv.org/abs/2102.05983v1 )

ライセンス: Link先を確認
Gustavo Oliveira, Leandro Minku and Adriano Oliveira(参考訳) 現実世界のアプリケーションは、時間とともに到着する大量のデータを扱うようになり、一般的にその基盤となるジョイント確率分布、すなわち概念ドリフトの変化を示す。 概念ドリフトは、非条件確率分布 p(x) に影響を与える仮想ドリフトと、条件確率分布 p(y|x) に影響を与える実ドリフトの2つのタイプに分けることができる。 既存の作品は実際の漂流に焦点を当てている。 しかし、実際のドリフトに対処する戦略は、実際のクラスの境界は変わらないため、仮想ドリフトを扱うのに最適ではないかもしれない。 本稿では,仮想ドリフトと実ドリフトの差が分類器の適合性に及ぼす影響を初めて詳細に解析する。 OGMMF-VRD (On-line Gaussian Mixture Model With Noise Filter For Handling Virtual and Real Concept Drifts) と呼ばれるドリフト処理手法を提案する。 7つの合成データセットと3つの実世界データセットによる実験では、OGMMF-VRDは、既存のアプローチと比較して平均精度、G平均、ランタイムの点で最高の結果を得たことが示されています。 さらに、時間の経過とともにその精度はドリフトの存在下でパフォーマンスの低下を少なくした。

Real-world applications have been dealing with large amounts of data that arrive over time and generally present changes in their underlying joint probability distribution, i.e., concept drift. Concept drift can be subdivided into two types: virtual drift, which affects the unconditional probability distribution p(x), and real drift, which affects the conditional probability distribution p(y|x). Existing works focuses on real drift. However, strategies to cope with real drift may not be the best suited for dealing with virtual drift, since the real class boundaries remain unchanged. We provide the first in depth analysis of the differences between the impact of virtual and real drifts on classifiers' suitability. We propose an approach to handle both drifts called On-line Gaussian Mixture Model With Noise Filter For Handling Virtual and Real Concept Drifts (OGMMF-VRD). Experiments with 7 synthetic and 3 real-world datasets show that OGMMF-VRD obtained the best results in terms of average accuracy, G-mean and runtime compared to existing approaches. Moreover, its accuracy over time suffered less performance degradation in the presence of drifts.
翻訳日:2021-02-12 14:23:44 公開日:2021-02-11
# ブラックボックスAIモデルのテストフレームワーク

Testing Framework for Black-box AI Models ( http://arxiv.org/abs/2102.06166v1 )

ライセンス: Link先を確認
Aniya Aggarwal, Samiulla Shaikh, Sandeep Hans, Swastik Haldar, Rema Ananthanarayanan, Diptikalyan Saha(参考訳) 重要な意思決定のためのAIモデルの普及に伴い、そのようなモデルの信頼性の確保は依然として重要な課題です。 本稿では,テキスト,表,時系列データなどのさまざまなモーダルデータに対して,精度,公正性,堅牢性など,さまざまな特性に対して自動テスト生成を実行するAIモデルをテストするためのエンドツーエンド汎用フレームワークを提案する。 我々のツールは産業用AIモデルのテストに使われており、これらのモデルに存在する問題を明らかにするのに非常に効果的でした。 デモビデオリンク: https://youtu.be/984ucu17yzi

With widespread adoption of AI models for important decision making, ensuring reliability of such models remains an important challenge. In this paper, we present an end-to-end generic framework for testing AI Models which performs automated test generation for different modalities such as text, tabular, and time-series data and across various properties such as accuracy, fairness, and robustness. Our tool has been used for testing industrial AI models and was very effective to uncover issues present in those models. Demo video link: https://youtu.be/984UCU17YZI
翻訳日:2021-02-12 14:23:02 公開日:2021-02-11
# 時系列分析のための因果推論:問題,方法,評価

Causal Inference for Time series Analysis: Problems, Methods and Evaluation ( http://arxiv.org/abs/2102.05829v1 )

ライセンス: Link先を確認
Raha Moraffah, Paras Sheth, Mansooreh Karami, Anchit Bhattacharya, Qianru Wang, Anique Tahir, Adrienne Raglin, Huan Liu(参考訳) 時系列データは、医学や金融などのいくつかの領域によって生成される時系列観測のコレクションです。 長年にわたり、この種のデータを分析するために分類、予測、クラスタリングといった様々なタスクが提案されてきた。 時系列データは、時間とともに介入の効果を研究するためにも用いられる。 さらに、多くの科学分野では、動的システムと時系列データの因果構造を学ぶことは、科学的な発見において重要な役割を果たす興味深いタスクと考えられている。 介入の効果を推定し、データから因果関係を識別することは因果推論によって行うことができる。 時系列の既存の調査では、分類や予測などの伝統的なタスクについて議論したり、特定のタスクを解決するために提案されたアプローチの詳細を説明したりします。 本稿では,時系列データに対する処理効果推定と因果発見という2つの因果推論タスクに注目し,各タスクにおけるアプローチの総合的なレビューを行う。 さらに、各タスクでよく使われる評価指標とデータセットのリストをキュレートし、詳細な洞察を提供する。 これらのメトリクスとデータセットは、この分野の研究のベンチマークとして役立ちます。

Time series data is a collection of chronological observations which is generated by several domains such as medical and financial fields. Over the years, different tasks such as classification, forecasting, and clustering have been proposed to analyze this type of data. Time series data has been also used to study the effect of interventions over time. Moreover, in many fields of science, learning the causal structure of dynamic systems and time series data is considered an interesting task which plays an important role in scientific discoveries. Estimating the effect of an intervention and identifying the causal relations from the data can be performed via causal inference. Existing surveys on time series discuss traditional tasks such as classification and forecasting or explain the details of the approaches proposed to solve a specific task. In this paper, we focus on two causal inference tasks, i.e., treatment effect estimation and causal discovery for time series data, and provide a comprehensive review of the approaches in each task. Furthermore, we curate a list of commonly used evaluation metrics and datasets for each task and provide in-depth insight. These metrics and datasets can serve as benchmarks for research in the field.
翻訳日:2021-02-12 14:22:32 公開日:2021-02-11
# BoMb-OT:ミニバッチの最適輸送について

BoMb-OT: On Batch of Mini-batches Optimal Transport ( http://arxiv.org/abs/2102.05912v1 )

ライセンス: Link先を確認
Khai Nguyen, Quoc Nguyen, Nhat Ho, Tung Pham, Hung Bui, Dinh Phung, Trung Le(参考訳) ミニバッチ最適輸送(m-OT)は、難解密度の確率測度や、非常に多数の支持率を持つ確率測度を含む実用的な応用で成功している。 m-otはいくつかのスパルサー最適輸送問題を解決し、コストと輸送計画の平均値を返す。 スケーラビリティのアドバンテージにもかかわらず、m-otはアイデンティティ特性を満たさないため、確率測度間の適切な指標ではない。 この問題に対処するため,我々は,最小バッチ最適輸送(BoMb-OT)と呼ばれる,確率測度空間上のよく定義された距離を定式化可能な,最適輸送のための新しいミニバッチ方式を提案する。 さらに、正規化パラメータが無限大になると、m-OT は提案された BoMb-OT のエントロピー正規化バージョンの限界であることを示す。 我々は,新しいミニバッチ方式により,m-OTよりも2つの当初の手段間のよりよい輸送計画を推定できることを示す広範囲な実験を行った。 これは、マッチングおよびカラー転送タスクでBoMb-OTの良好なパフォーマンスにつながります。 さらに,近似ベイズ計算やパラメトリック生成モデルに対する関心パラメータの推定,勾配流による非パラメトリック生成モデルの学習において,bomb-otはm-otよりも客観的な損失をも与えている。

Mini-batch optimal transport (m-OT) has been successfully used in practical applications that involve probability measures with intractable density, or probability measures with a very high number of supports. The m-OT solves several sparser optimal transport problems and then returns the average of their costs and transportation plans. Despite its scalability advantage, m-OT is not a proper metric between probability measures since it does not satisfy the identity property. To address this problem, we propose a novel mini-batching scheme for optimal transport, named Batch of Mini-batches Optimal Transport (BoMb-OT), that can be formulated as a well-defined distance on the space of probability measures. Furthermore, we show that the m-OT is a limit of the entropic regularized version of the proposed BoMb-OT when the regularized parameter goes to infinity. We carry out extensive experiments to show that the new mini-batching scheme can estimate a better transportation plan between two original measures than m-OT. It leads to a favorable performance of BoMb-OT in the matching and color transfer tasks. Furthermore, we observe that BoMb-OT also provides a better objective loss than m-OT for doing approximate Bayesian computation, estimating parameters of interest in parametric generative models, and learning non-parametric generative models with gradient flow.
翻訳日:2021-02-12 14:22:16 公開日:2021-02-11
# 故障データからの公正な学習

Fairness-Aware Learning from Corrupted Data ( http://arxiv.org/abs/2102.06004v1 )

ライセンス: Link先を確認
Nikola Konstantinov, Christoph H. Lampert(参考訳) 機械学習モデルに対する公平性の懸念に対処することは、現実の自動化システムにおける長期的な採用に向けた重要なステップである。 データから公正なモデルをトレーニングするための多くのアプローチが開発されているが、これらの手法に対するデータ破損の影響についてはほとんど分かっていない。 本研究では,任意のデータ操作下での公平性認識学習を検討する。 また,このバイアスの強みは,データ内の保護されていないグループによる学習問題に対して,学習者に対して,精度を低下させることなく,偏りのある分類器を返さなければならないことを示した。 また、2つの自然な学習アルゴリズムが、逆データ操作の精度と公平性の両方で順序-最適保証を達成できることを証明し、これらの硬さに一致する上限を一定要素に設定する。

Addressing fairness concerns about machine learning models is a crucial step towards their long-term adoption in real-world automated systems. While many approaches have been developed for training fair models from data, little is known about the effects of data corruption on these methods. In this work we consider fairness-aware learning under arbitrary data manipulations. We show that an adversary can force any learner to return a biased classifier, with or without degrading accuracy, and that the strength of this bias increases for learning problems with underrepresented protected groups in the data. We also provide upper bounds that match these hardness results up to constant factors, by proving that two natural learning algorithms achieve order-optimal guarantees in terms of both accuracy and fairness under adversarial data manipulations.
翻訳日:2021-02-12 14:21:54 公開日:2021-02-11
# メタトロンプソンサンプリング

Meta-Thompson Sampling ( http://arxiv.org/abs/2102.06129v1 )

ライセンス: Link先を確認
Branislav Kveton, Mikhail Konobeev, Manzil Zaheer, Chih-wei Hsu, Martin Mladenov, Craig Boutilier, and Csaba Szepesvari(参考訳) マルチアームバンディットの効率的な探索は、基本的なオンライン学習問題です。 本研究では,未知の事前分布から引き出された問題インスタンスと対話することで,より深く探索することを学ぶ,トンプソンサンプリングの変種を提案する。 アルゴリズムは事前学習を行い、Meta-TSと呼びます。 Meta-TSの効率的な実装を提案し、ガウス帯で分析します。 我々の分析は,トンプソンサンプリングを後悔するベイズ層の最初の事前依存上界を導出するため,事前およびより幅広い興味を持つメタラーニングの利点を示している。 この結果は、Meta-TSが未知の先行に迅速に適応することを示す経験的評価によって補完される。

Efficient exploration in multi-armed bandits is a fundamental online learning problem. In this work, we propose a variant of Thompson sampling that learns to explore better as it interacts with problem instances drawn from an unknown prior distribution. Our algorithm meta-learns the prior and thus we call it Meta-TS. We propose efficient implementations of Meta-TS and analyze it in Gaussian bandits. Our analysis shows the benefit of meta-learning the prior and is of a broader interest, because we derive the first prior-dependent upper bound on the Bayes regret of Thompson sampling. This result is complemented by empirical evaluation, which shows that Meta-TS quickly adapts to the unknown prior.
翻訳日:2021-02-12 14:21:38 公開日:2021-02-11
# 特徴空間における多様体学習のための擬似超曲面交叉

Quadric hypersurface intersection for manifold learning in feature space ( http://arxiv.org/abs/2102.06186v1 )

ライセンス: Link先を確認
Fedor Pavutnitskiy, Sergei O. Ivanov, Evgeny Abramov, Viacheslav Borovitskiy, Artem Klochkov, Viktor Vialov, Anatolii Zaikovskii, Aleksandr Petiushko(参考訳) データが周囲のユークリッド空間の特定の部分多様体に近いという知識は、いくつかの点で有用である。 例えば、部分多様体から遠く離れた点を外れ値として自動的にマークしたり、その測地線距離を使って点間の類似度を計測したりすることができる。 多様体学習の古典的な問題は、例えば、非常に高い次元でしばしば提起される。 画像の空間や単語の表現の空間についてです 今日、コンピュータビジョンや自然言語処理などの領域で深い表現学習が行われると、この種の多くの問題は、通常数百の順序で、中程度に高い次元の問題に変換される可能性があります。 そこで本研究では,適度な高次元および大規模データセットに適した多様体学習手法を提案する。 多様体は、四次超曲面の交差の形でトレーニングデータから学習される - 単純だが表現力のあるオブジェクト。 テスト時、この多様体は任意の新しい点に対する外れ値を導入し、学習された幾何学的構造を取り入れることで与えられた類似度メートル法を改善するために使うことができる。

The knowledge that data lies close to a particular submanifold of the ambient Euclidean space may be useful in a number of ways. For instance, one may want to automatically mark any point far away from the submanifold as an outlier, or to use its geodesic distance to measure similarity between points. Classical problems for manifold learning are often posed in a very high dimension, e.g. for spaces of images or spaces of representations of words. Today, with deep representation learning on the rise in areas such as computer vision and natural language processing, many problems of this kind may be transformed into problems of moderately high dimension, typically of the order of hundreds. Motivated by this, we propose a manifold learning technique suitable for moderately high dimension and large datasets. The manifold is learned from the training data in the form of an intersection of quadric hypersurfaces -- simple but expressive objects. At test time, this manifold can be used to introduce an outlier score for arbitrary new points and to improve a given similarity metric by incorporating learned geometric structure into it.
翻訳日:2021-02-12 14:21:27 公開日:2021-02-11
# ドライバー同定の畳み込みリカレントニューラルネットワークモデルにおける運転スタイル表現

Driving Style Representation in Convolutional Recurrent Neural Network Model of Driver Identification ( http://arxiv.org/abs/2102.05843v1 )

ライセンス: Link先を確認
Sobhan Moosavi, Pravar D. Mahajan, Srinivasan Parthasarathy, Colleen Saunders-Chukwu, and Rajiv Ramnath(参考訳) 運転スタイルを識別することは、異なるドライバを区別するのに役立つバリエーションをキャプチャするために、ドライバの動作を分析するタスクです。 この作業は、使用ベースの保険、ドライバーコーチング、ドライバーアクション予測、さらには自動運転車の設計など、さまざまなアプリケーションの前提条件となっています。運転スタイルは、これらのアプリケーションに必要な必須情報をエンコードするためです。 本稿では,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)のパワーを組み合わせた,運転スタイルのための高忠実度表現を構築するためのディープニューラルネットワークアーキテクチャD-CRNNを提案する。 CNNを使用して、私たちは軌道(ターンやブレーキングイベントなど)からドライバーの行動の意味的なパターンをキャプチャします。 次に、RNNを使用して運転スタイルをエンコードするセマンティックパターン間の時間依存性を見つけます。 本研究では,実世界の大規模データセットで実施した広範囲な実験を通して,運転スタイル学習によるドライバ識別手法の有効性を実証し,最先端のディープラーニングと非ディープラーニングソリューションとの比較を行った。 これらの実験は、各ドライバの異種軌跡をサンプリングして入力データの事前処理を行い、空間記憶を防止することで、バイアス除去の有用な例を示す。 最後に, 運転者識別における異なる属性の寄与について分析し, エンジンrpm, 速度, 加速度が特徴の最良の組み合わせであることを確認した。

Identifying driving styles is the task of analyzing the behavior of drivers in order to capture variations that will serve to discriminate different drivers from each other. This task has become a prerequisite for a variety of applications, including usage-based insurance, driver coaching, driver action prediction, and even in designing autonomous vehicles; because driving style encodes essential information needed by these applications. In this paper, we present a deep-neural-network architecture, we term D-CRNN, for building high-fidelity representations for driving style, that combine the power of convolutional neural networks (CNN) and recurrent neural networks (RNN). Using CNN, we capture semantic patterns of driver behavior from trajectories (such as a turn or a braking event). We then find temporal dependencies between these semantic patterns using RNN to encode driving style. We demonstrate the effectiveness of these techniques for driver identification by learning driving style through extensive experiments conducted on several large, real-world datasets, and comparing the results with the state-of-the-art deep-learning and non-deep-learning solutions. These experiments also demonstrate a useful example of bias removal, by presenting how we preprocess the input data by sampling dissimilar trajectories for each driver to prevent spatial memorization. Finally, this paper presents an analysis of the contribution of different attributes for driver identification; we find that engine RPM, Speed, and Acceleration are the best combination of features.
翻訳日:2021-02-12 14:21:09 公開日:2021-02-11
# オブジェクトマスク提案のコントラストによる教師なしセマンティックセグメンテーション

Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals ( http://arxiv.org/abs/2102.06191v1 )

ライセンス: Link先を確認
Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Luc Van Gool(参考訳) 監視なしで画像の密集した意味表現を学べることは、コンピュータビジョンの重要な問題である。 しかし、その重要性にもかかわらず、この問題は未解明のままであり、狭い視覚領域を持つ小規模データセットの監視されていないセマンティックセグメンテーションを検討するいくつかの例外がある。 本論文では,従来,監視ケースに活用されてきたデータセットの課題に対処すべく,まず第1の試みを行う。 そこで本研究では, 画素埋め込みを学習するためのコントラスト最適化目標において, 予め規定された2段階のフレームワークを提案する。 これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱する。 さらに,オブジェクトやその部分に関する情報を含む事前情報を持つことの重要性を議論し,教師なしの方法で事前情報を得るためのいくつかの可能性について議論する。 広範な実験結果から,提案手法は既存手法よりも優れていることがわかった。 まず、学習したピクセルの埋め込みをK-Meansを使って意味群に直接クラスタ化することができる。 第二に、セマンティックセグメンテーションタスクの効果的な教師なし事前トレーニングとして機能する。 特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。 コードはhttps://github.com/wvangansbeke/Unsupervised-Semantic-Segmentationで入手できる。

Being able to learn dense semantic representations of images without supervision is an important problem in computer vision. However, despite its significance, this problem remains rather unexplored, with a few exceptions that considered unsupervised semantic segmentation on small-scale datasets with a narrow visual domain. In this paper, we make a first attempt to tackle the problem on datasets that have been traditionally utilized for the supervised case. To achieve this, we introduce a novel two-step framework that adopts a predetermined prior in a contrastive optimization objective to learn pixel embeddings. This marks a large deviation from existing works that relied on proxy tasks or end-to-end clustering. Additionally, we argue about the importance of having a prior that contains information about objects, or their parts, and discuss several possibilities to obtain such a prior in an unsupervised manner. Extensive experimental evaluation shows that the proposed method comes with key advantages over existing works. First, the learned pixel embeddings can be directly clustered in semantic groups using K-Means. Second, the method can serve as an effective unsupervised pre-training for the semantic segmentation task. In particular, when fine-tuning the learned representations using just 1% of labeled examples on PASCAL, we outperform supervised ImageNet pre-training by 7.1% mIoU. The code is available at https://github.com/wvangansbeke/Unsupervised-Semantic-Segmentation.
翻訳日:2021-02-12 14:20:45 公開日:2021-02-11
# 内因性および外因性オピニオンダイナミクスの解明:実験的設計アプローチ

Demarcating Endogenous and Exogenous Opinion Dynamics: An Experimental Design Approach ( http://arxiv.org/abs/2102.05954v1 )

ライセンス: Link先を確認
Paramita Koley, Avirup Saha, Sourangshu Bhattacharya, Niloy Ganguly, and Abir De(参考訳) オンラインソーシャルネットワーク(OSN)におけるネットワーク的意見拡散は、ユーザ間の社会的接触の影響によって引き起こされる内在的意見と、ニュースやフィードなどの外部的効果によって形成される外在的意見の2つのジャンルに支配されることが多い。 内因性メッセージと外因性メッセージの正確な分割は、意見モデリングの重要な手がかりとなり、予測性能が向上する。 本稿では,実験的な設計手法に基づく教師なし分類手法の一群をデザインし,平均推定誤差の異なる尺度を最小化するイベントのサブセットを選択することを目的としている。 さらに詳しくは、これらのサブセット選択タスクがNP-Hardであることを最初に示します。 次に、関連する対象関数が弱部分モジュラーであることを示し、保証付き効率的な近似アルゴリズムを鋳造することを可能にする。 最後に、Twitterからクロールされた様々な実世界のデータセットと多様な合成データセットに対する提案の有効性を検証する。 私達の実験はさまざまなサイズの最適部分集合を選ぶことの効果を点検するunsanitizedおよびsanitizedでき事の予測の性能の検証からあります。 各種実験により,本手法は,複数の競合相手に対する意見予測の精度を有意に向上させることが判明した。

The networked opinion diffusion in online social networks (OSN) is often governed by the two genres of opinions - endogenous opinions that are driven by the influence of social contacts among users, and exogenous opinions which are formed by external effects like news, feeds etc. Accurate demarcation of endogenous and exogenous messages offers an important cue to opinion modeling, thereby enhancing its predictive performance. In this paper, we design a suite of unsupervised classification methods based on experimental design approaches, in which, we aim to select the subsets of events which minimize different measures of mean estimation error. In more detail, we first show that these subset selection tasks are NP-Hard. Then we show that the associated objective functions are weakly submodular, which allows us to cast efficient approximation algorithms with guarantees. Finally, we validate the efficacy of our proposal on various real-world datasets crawled from Twitter as well as diverse synthetic datasets. Our experiments range from validating prediction performance on unsanitized and sanitized events to checking the effect of selecting optimal subsets of various sizes. Through various experiments, we have found that our method offers a significant improvement in accuracy in terms of opinion forecasting, against several competitors.
翻訳日:2021-02-12 14:20:22 公開日:2021-02-11
# Doubtのメリット:エッジコンピューティングプラットフォームに対する不確実な認識

The Benefit of the Doubt: Uncertainty Aware Sensing for Edge Computing Platforms ( http://arxiv.org/abs/2102.05956v1 )

ライセンス: Link先を確認
Lorena Qendro, Jagmohan Chauhan, Alberto Gil C. P. Ramos, Cecilia Mascolo(参考訳) ニューラルネットワーク(NN)は、予測の推論を可能にする「信頼性」推定の尺度を欠いている。 特にヒトの健康と健康の分野において重要なことにもかかわらず、資源制約されたデバイスに適用した場合、最先端の不確実性推定技術は計算コストがかかる。 本稿では,組み込みエッジシステム上に配置されたnnsにおける予測不確実性推定のための効率的なフレームワークを提案する。 これらの組込みプラットフォームのエネルギーとレイテンシの要求を満たすため、このフレームワークは1つの前方パスと理論的に証明された正確性を持つ追加の行列乗算に基づいて予測の不確実性を提供するために、ゼロから構築されている。 私たちの目標は、すでに訓練されたディープラーニングモデルを使用して、分類タスクに焦点を当てた推論時にリソース制限されたデバイスで不確実性推定を生成することです。 この枠組みはベイジアンnnsにおける近似推論としてドロップアウトトレーニングを鋳造する理論的発展に基づいている。 ネットワークを介して畳み込み層のカスケードに階層分布を近似し、特に複数のフォワードパスを必要とする不確実性技術と同等なエネルギーと遅延要求の線形増加を要求されるため、実際は不適当であるのに対して、単一実行時の不確実性推定を最小限に抑える。 多層パーセプトロンに基づく従来の作業よりも性能と柔軟性が向上し,不確実性推定が得られることを実証した。 モバイルアプリケーションデータを用いた評価の結果,本手法はロバストで正確な不確かさを推定するだけでなく,システム性能や消費電力(最大28倍)の削減,メモリオーバヘッドの最小維持,精度向上(最大16%)といった最先端手法よりも優れていることが示された。

Neural networks (NNs) lack measures of "reliability" estimation that would enable reasoning over their predictions. Despite the vital importance, especially in areas of human well-being and health, state-of-the-art uncertainty estimation techniques are computationally expensive when applied to resource-constrained devices. We propose an efficient framework for predictive uncertainty estimation in NNs deployed on embedded edge systems with no need for fine-tuning or re-training strategies. To meet the energy and latency requirements of these embedded platforms the framework is built from the ground up to provide predictive uncertainty based only on one forward pass and a negligible amount of additional matrix multiplications with theoretically proven correctness. Our aim is to enable already trained deep learning models to generate uncertainty estimates on resource-limited devices at inference time focusing on classification tasks. This framework is founded on theoretical developments casting dropout training as approximate inference in Bayesian NNs. Our layerwise distribution approximation to the convolution layer cascades through the network, providing uncertainty estimates in one single run which ensures minimal overhead, especially compared with uncertainty techniques that require multiple forwards passes and an equal linear rise in energy and latency requirements making them unsuitable in practice. We demonstrate that it yields better performance and flexibility over previous work based on multilayer perceptrons to obtain uncertainty estimates. Our evaluation with mobile applications datasets shows that our approach not only obtains robust and accurate uncertainty estimations but also outperforms state-of-the-art methods in terms of systems performance, reducing energy consumption (up to 28x), keeping the memory overhead at a minimum while still improving accuracy (up to 16%).
翻訳日:2021-02-12 14:20:00 公開日:2021-02-11
# コンテキストベースの表現によるマルチタスク強化学習

Multi-Task Reinforcement Learning with Context-based Representations ( http://arxiv.org/abs/2102.06177v1 )

ライセンス: Link先を確認
Shagun Sodhani, Amy Zhang, Joelle Pineau(参考訳) シングルタスク学習よりもマルチタスク学習の利点は、タスク間の関係を利用して、1つのタスクのパフォーマンスを改善する能力に依存している。 表象を共有することは、タスク間で情報を共有するための重要なメカニズムであるが、その成功は、タスクの基盤となる構造がどの程度うまく捉えられるかに依存する。 現実の状況では、メタデータやタスクに関する追加情報にアクセスできますが、単一のタスクの設定だけでは、複数のタスクにまたがる関係を知らせる、新たな洞察は提供できません。 このメタデータはマルチタスク学習のパフォーマンス向上に有用だが、効果的に組み込むことは、さらなる課題となる。 知識伝達に対する効率的なアプローチは、複数のコンテキストに依存した構成可能な表現を用いて、タスクのファミリー間で共有されることを仮定する。 このフレームワークでは、メタデータは解釈可能な表現を学習し、どの表現を構成するか、どのように構成するかを伝えるコンテキストを提供するのに役立つ。 提案手法を用いて,50種類のロボット操作タスクからなるマルチタスク・ベンチマークであるMeta-Worldの最先端結果を得る。

The benefit of multi-task learning over single-task learning relies on the ability to use relations across tasks to improve performance on any single task. While sharing representations is an important mechanism to share information across tasks, its success depends on how well the structure underlying the tasks is captured. In some real-world situations, we have access to metadata, or additional information about a task, that may not provide any new insight in the context of a single task setup alone but inform relations across multiple tasks. While this metadata can be useful for improving multi-task learning performance, effectively incorporating it can be an additional challenge. We posit that an efficient approach to knowledge transfer is through the use of multiple context-dependent, composable representations shared across a family of tasks. In this framework, metadata can help to learn interpretable representations and provide the context to inform which representations to compose and how to compose them. We use the proposed approach to obtain state-of-the-art results in Meta-World, a challenging multi-task benchmark consisting of 50 distinct robotic manipulation tasks.
翻訳日:2021-02-12 14:19:35 公開日:2021-02-11
# Langevin Diffusion と Noisy Gradient Diescent の差分プライバシーダイナミクス

Differential Privacy Dynamics of Langevin Diffusion and Noisy Gradient Descent ( http://arxiv.org/abs/2102.05855v1 )

ライセンス: Link先を確認
Rishav Chourasia, Jiayuan Ye, Reza Shokri(参考訳) 我々は,ランジュバン拡散におけるプライバシ損失のダイナミクスをモデル化し,ノイズ勾配降下アルゴリズムに拡張する。 プライバシーの損失は指数関数的に速く収束する。 これは、(r\'enyi)プライバシの損失がトレーニングイテレーションで常に増加する差分プライベート(stochastic)勾配降下アルゴリズムの事前プライバシ解析を大幅に改善する。 差分プライバシーにおける構成に基づく手法とは異なり、我々のプライバシー分析は、トレーニング中のノイズの勾配(またはパラメータ)が敵に明らかにできると仮定しない。 本解析では,アルゴリズムの中間パラメータ分布によるプライバシ損失のダイナミクスを追跡することで,収束によるプライバシ増幅を考慮できる。 当社のプライバシ解析が厳密であることを証明すると同時に,強い凸,滑らか,リプシッツ損失関数のユーティリティ解析も提供しています。

We model the dynamics of privacy loss in Langevin diffusion and extend it to the noisy gradient descent algorithm: we compute a tight bound on R\'enyi differential privacy and the rate of its change throughout the learning process. We prove that the privacy loss converges exponentially fast. This significantly improves the prior privacy analysis of differentially private (stochastic) gradient descent algorithms, where (R\'enyi) privacy loss constantly increases over the training iterations. Unlike composition-based methods in differential privacy, our privacy analysis does not assume that the noisy gradients (or parameters) during the training could be revealed to the adversary. Our analysis tracks the dynamics of privacy loss through the algorithm's intermediate parameter distributions, thus allowing us to account for privacy amplification due to convergence. We prove that our privacy analysis is tight, and also provide a utility analysis for strongly convex, smooth and Lipshitz loss functions.
翻訳日:2021-02-12 14:19:03 公開日:2021-02-11
# ランクへの学習のための規則化による公平性

Fairness Through Regularization for Learning to Rank ( http://arxiv.org/abs/2102.05996v1 )

ライセンス: Link先を確認
Nikola Konstantinov, Christoph H. Lampert(参考訳) 近年のランキング適用の多さを考えると、エンドユーザー間の信頼を高めるためには、自動ランキングシステムに関する公平性の懸念に対処する必要がある。 フェアランキングに関するこれまでの研究は、主にアプリケーション固有のフェアネスの概念に焦点を当てており、しばしばオンライン広告に合わせており、学習をプロセスの一部として考えることはめったにない。 本稿では,二進分類から学習からランク付けコンテキストへ,多数のフェアネス概念を転送する方法を示す。 我々の形式主義は、証明可能な一般化保証を伴う公正目標を組み込む方法の設計を可能にする。 本手法は, モデル品質の損失がほとんどなく, 公平性が大幅に向上できることを実験的に評価した。

Given the abundance of applications of ranking in recent years, addressing fairness concerns around automated ranking systems becomes necessary for increasing the trust among end-users. Previous work on fair ranking has mostly focused on application-specific fairness notions, often tailored to online advertising, and it rarely considers learning as part of the process. In this work, we show how to transfer numerous fairness notions from binary classification to a learning to rank context. Our formalism allows us to design a method for incorporating fairness objectives with provable generalization guarantees. An extensive experimental evaluation shows that our method can improve ranking fairness substantially with no or only little loss of model quality.
翻訳日:2021-02-12 14:18:47 公開日:2021-02-11
# 河川網の極端部からの因果的発見

Causal Discovery of a River Network from its Extremes ( http://arxiv.org/abs/2102.06197v1 )

ライセンス: Link先を確認
Ngoc Mai Tran and Johannes Buck and Claudia Kl\"uppelberg(参考訳) 極限に対する因果推論は、ランダム変数の大きい観測値間の因果関係を発見することを目的とする。 過去数年間、ドナウデータセットをベンチマークとして、Hidden River問題を解決するための多くの方法が提案されてきた。 本稿では,既存の手法より優れたハイデン川問題の解法である,新しい簡単なアルゴリズムである \QTree を提案する。 \QTree\ は有向グラフを返し、ドナウ川とコロラド川下流からの新しいデータでほぼ完全な回復を達成します。 欠落したデータを扱うことができ、自動パラメータチューニング手順を持ち、時間$O(n |V|^2)$で実行し、$n$は観測数、$|V|$はグラフ内のノード数である。 \qtree\ は最大線形ベイズネットワークモデルの質的側面に依存する。

Causal inference for extremes aims to discover cause and effect relations between large observed values of random variables. Over the last years, a number of methods have been proposed for solving the Hidden River Problem, with the Danube data set as benchmark. In this paper, we provide \QTree, a new and simple algorithm to solve the Hidden River Problem that outperforms existing methods. \QTree\ returns a directed graph and achieves almost perfect recovery on the Danube as well as on new data from the Lower Colorado River. It can handle missing data, has an automated parameter tuning procedure, and runs in time $O(n |V|^2)$, where $n$ is the number of observations and $|V|$ the number of nodes in the graph. \QTree\ relies on qualitative aspects of the max-linear Bayesian network model.
翻訳日:2021-02-12 14:18:35 公開日:2021-02-11
# 神経BRDF表現と重要度サンプリング

Neural BRDF Representation and Importance Sampling ( http://arxiv.org/abs/2102.05963v1 )

ライセンス: Link先を確認
Alejandro Sztrajman, Gilles Rainer, Tobias Ritschel, Tim Weyrich(参考訳) 実世界の物質外観の制御されたキャプチャは、高度に現実的な反射率データの集計セットを得る。 しかし実際には、その高いメモリフットプリントは、オリジナルに忠実でありながら、レンダリングに効率的に使用できる表現に圧縮する必要がある。 レンダリング中に効率的なクエリに適さない高忠実度のアレイ圧縮戦略を適用するか、表現力に欠けるコンパクトな分析モデルを適用するかのいずれかによって、外観符号化の以前の作業は、多くの場合、これらの要件の1つを優先しました。 本稿では, BRDFデータをコンパクトなニューラルネットワークで表現し, 高精度な再構成と, 反射率の補間を組み込んだ効率的な実用的なレンダリングを実現する。 BRDFを軽量ネットワークとしてエンコードし、スペクトルハイライトの正確な再構築に不可欠なアダプティブアンギュラサンプリングによるトレーニングスキームを提案します。 さらに,重要サンプリングに適応する新しい手法を提案する。トレーニングされたネットワークを逆転するのではなく,重要サンプリングが知られている解析BRDFのパラメータにマッピング可能な埋め込みを学習する。 複数の実世界のデータセットから得られた異方性および異方性BRDFの符号化結果と、2つの異なる解析モデルにマッピングされた異方性BRDFのサンプリング性能を評価する。

Controlled capture of real-world material appearance yields tabulated sets of highly realistic reflectance data. In practice, however, its high memory footprint requires compressing into a representation that can be used efficiently in rendering while remaining faithful to the original. Previous works in appearance encoding often prioritised one of these requirements at the expense of the other, by either applying high-fidelity array compression strategies not suited for efficient queries during rendering, or by fitting a compact analytic model that lacks expressiveness. We present a compact neural network-based representation of BRDF data that combines high-accuracy reconstruction with efficient practical rendering via built-in interpolation of reflectance. We encode BRDFs as lightweight networks, and propose a training scheme with adaptive angular sampling, critical for the accurate reconstruction of specular highlights. Additionally, we propose a novel approach to make our representation amenable to importance sampling: rather than inverting the trained networks, we learn an embedding that can be mapped to parameters of an analytic BRDF for which importance sampling is known. We evaluate encoding results on isotropic and anisotropic BRDFs from multiple real-world datasets, and importance sampling performance for isotropic BRDFs mapped to two different analytic models.
翻訳日:2021-02-12 14:18:23 公開日:2021-02-11
# 自動符号化深部画像を用いたX線画像中の気胸の探索

Searching for Pneumothorax in X-Ray Images Using Autoencoded Deep Features ( http://arxiv.org/abs/2102.06096v1 )

ライセンス: Link先を確認
Antonio Sze-To, Abtin Riasatian, Hamid R. Tizhoosh(参考訳) 破裂または低下した肺である気胸の迅速な診断と治療は、死亡を避けるために重要です。 気胸は通常、経験豊富な放射線科医による視察を通して胸部x線画像で検出される。 しかし、検出率は極めて低い。 そのため、放射線科医を補助する自動検出システムが必要である。 多くの応用において、ディープラーニング分類器で一般的に報告される高い精度レベルにもかかわらず、多くの高品質のラベル付き画像の欠如と解釈可能性の欠如により、臨床において有用ではない可能性がある。 あるいは、過去のケースのアーカイブを検索してマッチング画像を見つけることは、一致した診断されたケースのメタデータにアクセスすることで、"仮想第2の意見"として機能する可能性がある。 画像検索をトリージング/診断ツールとして使用するためには、胸部x線画像にまず識別子、すなわち深い特徴をタグ付けする必要がある。 そして、クエリーチェストX線画像が与えられた場合、トップk検索画像の多数投票により、より説明しやすい出力が得られる。 画像検索は臨床的により有効であるが、実際の実践に近い規模で検出性能を調査する必要がある。 公開データセットを3つ組み合わせて、550,000以上の胸部x線画像を持つリポジトリを組み立てました。 左胸側,右下肢,胸部全画像の3つの入力を圧縮した胸部X線画像検索用Autoencoding Thorax Net(短いAutoThorax-Net)を開発した。 実験結果から,AutoThorax-Net機能に基づく画像検索により,実世界展開への道筋となる高い識別率が得られることが示された。 194,608画像(気胸,正常)で半自動検索で92%のauc精度を,551,383画像(正常,気胸,その他多くの胸疾患)で完全自動検索で82%のauc精度を得た。

Fast diagnosis and treatment of pneumothorax, a collapsed or dropped lung, is crucial to avoid fatalities. Pneumothorax is typically detected on a chest X-ray image through visual inspection by experienced radiologists. However, the detection rate is quite low. Therefore, there is a strong need for automated detection systems to assist radiologists. Despite the high accuracy levels generally reported for deep learning classifiers in many applications, they may not be useful in clinical practice due to the lack of large number of high-quality labelled images as well as a lack of interpretation possibility. Alternatively, searching in the archive of past cases to find matching images may serve as a 'virtual second opinion' through accessing the metadata of matched evidently diagnosed cases. To use image search as a triaging/diagnosis tool, all chest X-ray images must first be tagged with identifiers, i.e., deep features. Then, given a query chest X-ray image, the majority vote among the top k retrieved images can provide a more explainable output. While image search can be clinically more viable, its detection performance needs to be investigated at a scale closer to real-world practice. We combined 3 public datasets to assemble a repository with more than 550,000 chest X-ray images. We developed the Autoencoding Thorax Net (short AutoThorax-Net) for image search in chest radiographs compressing three inputs: the left chest side, the flipped right side, and the entire chest image. Experimental results show that image search based on AutoThorax-Net features can achieve high identification rates providing a path towards real-world deployment. We achieved 92% AUC accuracy for a semi-automated search in 194,608 images (pneumothorax and normal) and 82% AUC accuracy for fully automated search in 551,383 images (normal, pneumothorax and many other chest diseases).
翻訳日:2021-02-12 14:18:02 公開日:2021-02-11
# ガウス過程帯域におけるLenient RegretとGood-Action Identification

Lenient Regret and Good-Action Identification in Gaussian Process Bandits ( http://arxiv.org/abs/2102.05793v1 )

ライセンス: Link先を確認
Xu Cai, Selwyn Gomes, Jonathan Scarlett(参考訳) 本稿では,一定のしきい値を超える任意の関数値が「十分」であることを示す緩和最適化基準の下でのガウス過程(gp)バンディットの問題について検討する。 理論面では、すべての準最適作用がゼロペナルティを生じさせるような様々な \emph{\lenient regret} の概念を考察し、GP-UCB に対する寛大な後悔と除去アルゴリズムの上限を与え、通常の $O(\sqrt{T})$ 項を回避し(時間的地平線で)関数の最大値に非常に近いズームから得られる。 さらに,これらの上界をアルゴリズムに依存しない下界で補う。 実用面では、既定のしきい値に従って単一の「良いアクション」を見つける問題を検討し、閾値の知識を利用するいくつかの良いアクション識別アルゴリズムを導入する。 このようなアルゴリズムは、標準的な最適化手法よりも高速に良い作用を得られることが実験的に判明した。

In this paper, we study the problem of Gaussian process (GP) bandits under relaxed optimization criteria stating that any function value above a certain threshold is "good enough". On the theoretical side, we study various \emph{\lenient regret} notions in which all near-optimal actions incur zero penalty, and provide upper bounds on the lenient regret for GP-UCB and an elimination algorithm, circumventing the usual $O(\sqrt{T})$ term (with time horizon $T$) resulting from zooming extremely close towards the function maximum. In addition, we complement these upper bounds with algorithm-independent lower bounds. On the practical side, we consider the problem of finding a single "good action" according to a known pre-specified threshold, and introduce several good-action identification algorithms that exploit knowledge of the threshold. We experimentally find that such algorithms can often find a good action faster than standard optimization-based approaches.
翻訳日:2021-02-12 14:17:31 公開日:2021-02-11
# テキスト圧縮支援トランスエンコーディング

Text Compression-aided Transformer Encoding ( http://arxiv.org/abs/2102.05951v1 )

ライセンス: Link先を確認
Zuchao Li, Zhuosheng Zhang, Hai Zhao, Rui Wang, Kehai Chen, Masao Utiyama, and Eiichiro Sumita(参考訳) テキストエンコーディングは自然言語処理(NLP)において最も重要なステップの1つである。 現在の最先端のTransformerエンコーダにおける自己保持機構により、多くのNLPタスクのパフォーマンスが大幅に改善されている。 Transformerエンコーダは、結果の表現における一般的な情報を効果的にキャプチャすることができるが、バックボーン情報(入力テキストのギストを意味する)は特に焦点を当てていない。 本論文では、トランスフォーマー符号化を強化するための明示的で暗黙的なテキスト圧縮アプローチを提案し、符号化に大きく依存するいくつかの典型的な下流タスクでこのアプローチを使用してモデルを評価する。 明示的なテキスト圧縮アプローチでは、テキスト圧縮に専用モデルを使用しますが、暗黙的なテキスト圧縮アプローチでは、テキスト圧縮を扱うためにメインモデルに追加モジュールを追加するだけです。 バックボーンのソース側融合、ターゲット側融合、および両面融合の3つの統合方法を提案し、バックボーン情報をさまざまな下流タスクのためのトランスフォーマーベースのモデルに統合します。 評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。 したがって、エンコーディングをベースラインモデルと比較すると、テキスト圧縮はエンコーダがより良い言語表現を学ぶのに役立ちます。

Text encoding is one of the most important steps in Natural Language Processing (NLP). It has been done well by the self-attention mechanism in the current state-of-the-art Transformer encoder, which has brought about significant improvements in the performance of many NLP tasks. Though the Transformer encoder may effectively capture general information in its resulting representations, the backbone information, meaning the gist of the input text, is not specifically focused on. In this paper, we propose explicit and implicit text compression approaches to enhance the Transformer encoding and evaluate models using this approach on several typical downstream tasks that rely on the encoding heavily. Our explicit text compression approaches use dedicated models to compress text, while our implicit text compression approach simply adds an additional module to the main model to handle text compression. We propose three ways of integration, namely backbone source-side fusion, target-side fusion, and both-side fusion, to integrate the backbone information into Transformer-based models for various downstream tasks. Our evaluation on benchmark datasets shows that the proposed explicit and implicit text compression approaches improve results in comparison to strong baselines. We therefore conclude, when comparing the encodings to the baseline models, text compression helps the encoders to learn better language representations.
翻訳日:2021-02-12 14:16:44 公開日:2021-02-11
# 理論から実践へ向けた人工知能のメタモデルと枠組み

A Metamodel and Framework for Artificial General Intelligence From Theory to Practice ( http://arxiv.org/abs/2102.06112v1 )

ライセンス: Link先を確認
Hugo Latapie, Ozkan Kilic, Gaowen Liu, Yan Yan, Ramana Kompella, Pei Wang, Kristinn R. Thorisson, Adam Lawrence, Yuhong Sun, Jayanth Srinivasa(参考訳) 本稿では,自律学習と適応性を大幅に向上させるメタモデルに基づく知識表現を提案する。 推論や知識グラフなどを活用したハイブリッド機械学習/シンボリックAIシステムへの関心が高まりつつある一方で、知識の明確な定義と、知識の生成と操作を導くメタモデルの両方が依然として必要であることが分かっています。 本論文で紹介するメタモデルの利点には、シンボル接地問題に対する解決策、累積学習、および連合学習が含まれる。 メタモデルは、時系列分析、コンピュータビジョン、自然言語理解など幅広い問題に適用し、メタモデルは、機械学習から推論エンジンによるグラフネットワーク解析、学習まで、多種多様な学習メカニズムを可能にし、高度に相乗的な方法で相互運用できることを見出した。 我々のメタモデルに基づくプロジェクトは、常に前例のない精度、性能、一般化能力を示してきた。 本稿は、AGIの最先端アプローチ、最近のAGIを意図した研究、グラニュラーコンピューティングコミュニティ、およびAlfred Korzybskiの一般的な意味論に着想を得たものである。 メタモデルの驚くべき結果の1つは、新しいレベルの自律学習と機械学習の最適機能を可能にするだけでなく、人間の認知を改善する方法を理解するための道に光を当てることである。

This paper introduces a new metamodel-based knowledge representation that significantly improves autonomous learning and adaptation. While interest in hybrid machine learning / symbolic AI systems leveraging, for example, reasoning and knowledge graphs, is gaining popularity, we find there remains a need for both a clear definition of knowledge and a metamodel to guide the creation and manipulation of knowledge. Some of the benefits of the metamodel we introduce in this paper include a solution to the symbol grounding problem, cumulative learning, and federated learning. We have applied the metamodel to problems ranging from time series analysis, computer vision, and natural language understanding and have found that the metamodel enables a wide variety of learning mechanisms ranging from machine learning, to graph network analysis and learning by reasoning engines to interoperate in a highly synergistic way. Our metamodel-based projects have consistently exhibited unprecedented accuracy, performance, and ability to generalize. This paper is inspired by the state-of-the-art approaches to AGI, recent AGI-aspiring work, the granular computing community, as well as Alfred Korzybski's general semantics. One surprising consequence of the metamodel is that it not only enables a new level of autonomous learning and optimal functioning for machine intelligences, but may also shed light on a path to better understanding how to improve human cognition.
翻訳日:2021-02-12 14:16:22 公開日:2021-02-11
# ZeroScatter: 散乱メディアによる長距離イメージングとビジョンのためのドメイン転送

ZeroScatter: Domain Transfer for Long Distance Imaging and Vision through Scattering Media ( http://arxiv.org/abs/2102.05847v1 )

ライセンス: Link先を確認
Zheng Shi, Ethan Tseng, Mario Bijelic, Werner Ritter, Felix Heide(参考訳) 雪、雨、霧などの逆の気象条件は、屋外のシナリオにおける人間とコンピュータの両方の視界に課題をもたらす。 これらの環境条件を扱うことは、特に自動運転車、ロボティクス、ドローンなど、安全な意思決定に不可欠である。 しかし今日の監視された画像と視覚のアプローチのほとんどは、これらのデータセットの異常値として濃霧、雪、豪雨など、良質な気象条件に偏った実世界で収集されたトレーニングデータに依存している。 トレーニングデータがなければ、ペアリングデータだけでなく、既存の自動運転車はしばしば良好な条件に制限され、濃霧や雪が検出されると停止します。 本研究では,合成と間接を組み合わせることで,教師付きトレーニングデータの欠如に対処した。 我々は、悪天候下で撮影されたRGBのみのキャプチャーを、晴れた昼間のシーンに変換するドメイン転送手法ZeroScatterを提案する。 ZeroScatterは、モデルベース、テンポラル、マルチビュー、マルチモーダル、および敵対的キューを共同で活用し、無対の偏見のないデータのトレーニングを可能にします。 提案手法は実世界捕捉法を用いて評価し,制御フォグチャンバー測定において2.8dbpsnrで既存の単眼非散乱法を上回った。

Adverse weather conditions, including snow, rain, and fog pose a challenge for both human and computer vision in outdoor scenarios. Handling these environmental conditions is essential for safe decision making, especially in autonomous vehicles, robotics, and drones. Most of today's supervised imaging and vision approaches, however, rely on training data collected in the real world that is biased towards good weather conditions, with dense fog, snow, and heavy rain as outliers in these datasets. Without training data, let alone paired data, existing autonomous vehicles often limit themselves to good conditions and stop when dense fog or snow is detected. In this work, we tackle the lack of supervised training data by combining synthetic and indirect supervision. We present ZeroScatter, a domain transfer method for converting RGB-only captures taken in adverse weather into clear daytime scenes. ZeroScatter exploits model-based, temporal, multi-view, multi-modal, and adversarial cues in a joint fashion, allowing us to train on unpaired, biased data. We assess the proposed method using real-world captures, and the proposed method outperforms existing monocular de-scattering approaches by 2.8 dB PSNR on controlled fog chamber measurements.
翻訳日:2021-02-12 14:15:45 公開日:2021-02-11
# 自動運転における視覚知覚のコーナーケース--検出アプローチに関するガイダンス

Corner Cases for Visual Perception in Automated Driving: Some Guidance on Detection Approaches ( http://arxiv.org/abs/2102.05897v1 )

ライセンス: Link先を確認
Jasmin Breitenstein and Jan-Aike Term\"ohlen and Daniel Lipinski and Tim Fingscheidt(参考訳) 自動運転は、アクティブな研究コミュニティだけでなく、主流メディアのレポートでも大きな関心を集めている。 このようなインテリジェントな車両の視覚的認識は、ディープラーニング技術の進歩によって過去10年間に大きく進歩してきたが、いくつかの課題はまだ残っている。 そのような課題の1つは、コーナーケースの検出です。 運転中に起こる予期せぬ、未知の状況である。 従来の視覚認識方法は、トレーニング中にコーナーケースが目撃されていないため、検出できないことが多い。 したがって、その検出は極めて安全であり、大量の収集データに適用して適切なトレーニングデータを選択することができる。 コーナーケースの信頼性の高い検出は、さらにデータ選択手順を自動化し、自動運転の安全性を高めるだけでなく、新しい技術が公衆に肯定的に受け入れられることにも影響を与える。 本研究では,各レベルの例を拡張して,異なるレベルにおけるコーナーケースの事前の体系化を継続する。 さらに,検出アプローチを異なるカテゴリにグループ化し,コーナーケースレベルとリンクする。 したがって、技術的に検出する方法に関する特定のコーナーケースと基本的なガイドラインを示すための指示を提供します。

Automated driving has become a major topic of interest not only in the active research community but also in mainstream media reports. Visual perception of such intelligent vehicles has experienced large progress in the last decade thanks to advances in deep learning techniques but some challenges still remain. One such challenge is the detection of corner cases. They are unexpected and unknown situations that occur while driving. Conventional visual perception methods are often not able to detect them because corner cases have not been witnessed during training. Hence, their detection is highly safety-critical, and detection methods can be applied to vast amounts of collected data to select suitable training data. A reliable detection of corner cases will not only further automate the data selection procedure and increase safety in autonomous driving but can thereby also affect the public acceptance of the new technology in a positive manner. In this work, we continue a previous systematization of corner cases on different levels by an extended set of examples for each level. Moreover, we group detection approaches into different categories and link them with the corner case levels. Hence, we give directions to showcase specific corner cases and basic guidelines on how to technically detect them.
翻訳日:2021-02-12 14:15:22 公開日:2021-02-11
# HyperPocket: 生成ポイントクラウドの補完

HyperPocket: Generative Point Cloud Completion ( http://arxiv.org/abs/2102.05973v1 )

ライセンス: Link先を確認
Przemys{\l}aw Spurek, Artur Kasymov, Marcin Mazur, Diana Janik, S{\l}awomir Tadeja, {\L}ukasz Struski, Jacek Tabor, Tomasz Trzci\'nski(参考訳) 現代の登録装置で現実のシーンをスキャンすることは、通常、スキャンプロセスと3D閉塞の制限のために不完全な点雲表現を与える。 したがって、そのような部分表現の完成は、多くのコンピュータビジョンアプリケーションにとって基本的な課題である。 既存のアプローチのほとんどは、実際のシナリオとは程遠い、人工的な環境で個々の3dオブジェクトを再構築することを学ぶことによって、この問題を解決しようとしている。 本研究では,ポイントクラウド完成の問題を物体幻覚タスクに再構成する。 そこで、HyperPocketと呼ばれる新しいオートエンコーダベースのアーキテクチャを導入し、遅延表現を解き放ち、結果として完成した3Dポイントクラウドの複数のバリアントを生成することができる。 ポイントクラウド処理を2つの不整合データストリームに分割し、ハイパーネットワークパラダイムを活用して、欠落したオブジェクト部分によって残る、ポケットと呼ばれるスペースを埋める。 その結果、生成された点雲は滑らかなだけでなく、その場面と幾何的に一致している。 本手法は他の最先端モデルと競合する性能を提供し,多くの新規アプリケーションを実現する。

Scanning real-life scenes with modern registration devices typically give incomplete point cloud representations, mostly due to the limitations of the scanning process and 3D occlusions. Therefore, completing such partial representations remains a fundamental challenge of many computer vision applications. Most of the existing approaches aim to solve this problem by learning to reconstruct individual 3D objects in a synthetic setup of an uncluttered environment, which is far from a real-life scenario. In this work, we reformulate the problem of point cloud completion into an object hallucination task. Thus, we introduce a novel autoencoder-based architecture called HyperPocket that disentangles latent representations and, as a result, enables the generation of multiple variants of the completed 3D point clouds. We split point cloud processing into two disjoint data streams and leverage a hypernetwork paradigm to fill the spaces, dubbed pockets, that are left by the missing object parts. As a result, the generated point clouds are not only smooth but also plausible and geometrically consistent with the scene. Our method offers competitive performances to the other state-of-the-art models, and it enables a~plethora of novel applications.
翻訳日:2021-02-12 14:15:05 公開日:2021-02-11
# 局所条件アトラスを用いた3次元曲面マニホールドのモデリング

Modeling 3D Surface Manifolds with a Locally Conditioned Atlas ( http://arxiv.org/abs/2102.05984v1 )

ライセンス: Link先を確認
Przemys{\l}aw Spurek, Sebastian Winczowski, Maciej Zi\k{e}ba, Tomasz Trzci\'nski, Kacper Kania(参考訳) 最近提案された3次元オブジェクト再構成法は,表面を近似した平面パッチの集合であるアトラスを用いたメッシュを表現する。 しかし、実際のシナリオでの彼らの応用は、再構成されたオブジェクトの表面が不連続を含んでいるため、最終メッシュの品質が低下するため、限られている。 これは主に個々のパッチの独立処理によって引き起こされるものであり、本研究では、パッチ頂点周辺の局所的な一貫性を維持することにより、この制限を緩和することを仮定する。 そこで、再生モデルで3Dオブジェクトを階層的に表現するためのフレームワークであるLoCondA(Locally Conditioned Atlas)を紹介します。 第一に、モデルは物体の点雲を球体にマッピングする。 第二に、球面前処理を利用することで、球面上および対象オブジェクト上で局所的に一貫したマッピングを強制する。 このようにして、その球面上のメッシュクワッドをサンプリングし、オブジェクトの多様体に投影することができる。 LoCondAでは、縫合するクワッドを維持しながら、トポロジカルに多様なオブジェクトを生成できる。 提案手法は, コンペティタに匹敵する品質メッシュを生産しながら, 構造的にコヒーレントな再構築を提供する。

Recently proposed 3D object reconstruction methods represent a mesh with an atlas - a set of planar patches approximating the surface. However, their application in a real-world scenario is limited since the surfaces of reconstructed objects contain discontinuities, which degrades the quality of the final mesh. This is mainly caused by independent processing of individual patches, and in this work, we postulate to mitigate this limitation by preserving local consistency around patch vertices. To that end, we introduce a Locally Conditioned Atlas (LoCondA), a framework for representing a 3D object hierarchically in a generative model. Firstly, the model maps a point cloud of an object into a sphere. Secondly, by leveraging a spherical prior, we enforce the mapping to be locally consistent on the sphere and on the target object. This way, we can sample a mesh quad on that sphere and project it back onto the object's manifold. With LoCondA, we can produce topologically diverse objects while maintaining quads to be stitched together. We show that the proposed approach provides structurally coherent reconstructions while producing meshes of quality comparable to the competitors.
翻訳日:2021-02-12 14:14:46 公開日:2021-02-11
# 歯科用cbctにおける歯の3次元識別と分節化の完全自動化法

A fully automated method for 3D individual tooth identification and segmentation in dental CBCT ( http://arxiv.org/abs/2102.06060v1 )

ライセンス: Link先を確認
Tae Jun Jang, Kang Cheol Kim, Hyun Cheol Cho, Jin Keun Seo(参考訳) コーンビームコンピュータ断層撮影(cbct)画像からの3次元(3d)個別歯の高精度・自動分割は,隣接歯とその周辺歯槽骨との分離が困難であるため,課題である。 そこで本研究では,歯科用CBCT画像から3次元個別歯を同定・分別する完全自動化手法を提案する。 提案手法は,深層学習に基づく階層的マルチステップモデルの開発により,前述の困難に対処した。 まず、上下顎パノラマ画像を自動的に生成し、高次元データによる計算複雑性と限られたトレーニングデータセットに関連する次元の呪いを克服する。 得られた2Dパノラマ画像を使用して、2D個々の歯を特定し、3D個々の歯の関心領域(ROI)をキャプチャします。 最後に、ゆるいロースとタイトなロースを用いて、正確な3d個別歯の分割を実現する。 実験結果から, 本法は歯の識別に93.35%のF1スコア, 個々の3次元歯のセグメンテーションに94.79%のDice類似係数を達成できた。 提案手法は, デジタル歯科治療に有効な臨床・実践的枠組みを提供するものである。

Accurate and automatic segmentation of three-dimensional (3D) individual teeth from cone-beam computerized tomography (CBCT) images is a challenging problem because of the difficulty in separating an individual tooth from adjacent teeth and its surrounding alveolar bone. Thus, this paper proposes a fully automated method of identifying and segmenting 3D individual teeth from dental CBCT images. The proposed method addresses the aforementioned difficulty by developing a deep learning-based hierarchical multi-step model. First, it automatically generates upper and lower jaws panoramic images to overcome the computational complexity caused by high-dimensional data and the curse of dimensionality associated with limited training dataset. The obtained 2D panoramic images are then used to identify 2D individual teeth and capture loose- and tight- regions of interest (ROIs) of 3D individual teeth. Finally, accurate 3D individual tooth segmentation is achieved using both loose and tight ROIs. Experimental results showed that the proposed method achieved an F1-score of 93.35% for tooth identification and a Dice similarity coefficient of 94.79% for individual 3D tooth segmentation. The results demonstrate that the proposed method provides an effective clinical and practical framework for digital dentistry.
翻訳日:2021-02-12 14:14:29 公開日:2021-02-11
# Deep Photo Scan:スマートフォンの写真スキャンにおける現実世界の劣化処理のための半教師付き学習

Deep Photo Scan: Semi-supervised learning for dealing with the real-world degradation in smartphone photo scanning ( http://arxiv.org/abs/2102.06120v1 )

ライセンス: Link先を確認
Man M. Ho, Jinjia Zhou(参考訳) 物理的写真はスマートフォンで便利にスキャンでき、デジタル版として永久に保存できるが、スキャンされた写真は正常に復元されない。 1つの解決策は、監視されたディープニューラルネットワークを多くのデジタル写真と対応するスキャンされた写真にトレーニングすることです。 しかし、人間のアノテーションは、限られたトレーニングデータに繋がる膨大なリソースを消費する。 以前の作品では、画像処理技術を使って劣化をシミュレートしてトレーニングペアを作成する。 合成画像は、宇宙空間で完全にスキャンされた写真で作られています。 それでも、実際のレンズのデフォーカス、照明条件、印刷による詳細の喪失、さまざまな写真素材などにより、スマートフォンの写真スキャンの実際の劣化は未解決のままだ。 そこで本研究では,半教師学習に基づくDPS(Deep Photo Scan)を提案する。 まず,DIV2K-SCANデータセットをスマートフォンでスキャンした写真復元のために提案する。 第2に,div2k-scanを用いて,高品質画像を実際のスマートフォンでスキャンしたかのようにデグレードする方法を学習し,非スキャン写真の擬似スキャン写真を生成する。 最後に, 半監督的手法のスキャン・擬似スキャン写真について, 高品質画像 --> 実/擬似スキャン写真 --> 再構成画像というサイクルプロセスで訓練することを提案する。 提案する半教師付きスキームは教師付きエラーと教師なしエラーのバランスを保ちつつ、不完全な擬似入力を制限するよう最適化する。 その結果,提案したDPScanは,スマートフォン写真スキャンにおけるベースラインアーキテクチャ,最先端の学術研究,産業製品よりも定量的に,質的に優れていることがわかった。

Physical photographs now can be conveniently scanned by smartphones and stored forever as a digital version, but the scanned photos are not restored well. One solution is to train a supervised deep neural network on many digital photos and the corresponding scanned photos. However, human annotation costs a huge resource leading to limited training data. Previous works create training pairs by simulating degradation using image processing techniques. Their synthetic images are formed with perfectly scanned photos in latent space. Even so, the real-world degradation in smartphone photo scanning remains unsolved since it is more complicated due to real lens defocus, lighting conditions, losing details via printing, various photo materials, and more. To solve these problems, we propose a Deep Photo Scan (DPScan) based on semi-supervised learning. First, we present the way to produce real-world degradation and provide the DIV2K-SCAN dataset for smartphone-scanned photo restoration. Second, by using DIV2K-SCAN, we adopt the concept of Generative Adversarial Networks to learn how to degrade a high-quality image as if it were scanned by a real smartphone, then generate pseudo-scanned photos for unscanned photos. Finally, we propose to train on the scanned and pseudo-scanned photos representing a semi-supervised approach with a cycle process as: high-quality images --> real-/pseudo-scanned photos --> reconstructed images. The proposed semi-supervised scheme can balance between supervised and unsupervised errors while optimizing to limit imperfect pseudo inputs but still enhance restoration. As a result, the proposed DPScan quantitatively and qualitatively outperforms its baseline architecture, state-of-the-art academic research, and industrial products in smartphone photo scanning.
翻訳日:2021-02-12 14:14:06 公開日:2021-02-11
# スケッチ彩色における逆セグメンテーション損失

Adversarial Segmentation Loss for Sketch Colorization ( http://arxiv.org/abs/2102.06192v1 )

ライセンス: Link先を確認
Samet Hicsonmez, Nermin Samet, Emre Akbas, Pinar Duygulu(参考訳) スケッチやエッジマップからカラー画像を生成する新しい方法を紹介します。 現在の方法は、追加のユーザガイダンスを必要とするか、あるいは"ペア化"翻訳アプローチに制限されている。 セグメンテーション情報はスケッチのカラー化に有用なガイダンスとなるかもしれない。 そこで本研究では,汎用panopticセグメンテーションネットワークが提供する意味的イメージセグメンテーションを活用し,新たな逆損失関数を作成することを提案する。 我々の損失関数は任意のベースラインGANモデルに統合できる。 本手法は,セグメンテーションラベルを含むデータセットに限らず,"不適切な"翻訳タスクのトレーニングを行うことができる。 本手法は, 質的, 量的, ユーザ的分析を用いて, 屋内, 屋外, 子どものイラストレーション画像にまたがる4つの異なるデータセットに対して有効性を示す。 私たちのモデルは、FIDメトリックのベースラインを最大35ポイント改善します。 私たちのコードと事前トレーニングされたモデルは、https://github.com/giddyyupp/AdvSegLoss.comで参照できます。

We introduce a new method for generating color images from sketches or edge maps. Current methods either require some form of additional user-guidance or are limited to the "paired" translation approach. We argue that segmentation information could provide valuable guidance for sketch colorization. To this end, we propose to leverage semantic image segmentation, as provided by a general purpose panoptic segmentation network, to create an additional adversarial loss function. Our loss function can be integrated to any baseline GAN model. Our method is not limited to datasets that contain segmentation labels, and it can be trained for "unpaired" translation tasks. We show the effectiveness of our method on four different datasets spanning scene level indoor, outdoor, and children book illustration images using qualitative, quantitative and user study analysis. Our model improves its baseline up to 35 points on the FID metric. Our code and pretrained models can be found at https://github.com/giddyyupp/AdvSegLoss.
翻訳日:2021-02-12 14:13:36 公開日:2021-02-11
# 確率的, 対逆的な線形帯における近接インスタンス・オプティマティとミニマックス・オプティマティクスを同時に実現する

Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously ( http://arxiv.org/abs/2102.05858v1 )

ライセンス: Link先を確認
Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang, Xiaojin Zhang(参考訳) 本研究では,異なる環境に自動的に適応する線形バンディットアルゴリズムを開発した。 新しい損失推定器をインスタンス最適化戦略を特徴付ける最適化問題に差し込むことで、私たちの最初のアルゴリズムは確率的環境でのインスタンス最適化の後悔をほぼ達成するだけでなく、さらに後悔の量である腐敗した環境で動作し、最先端の(Li et al.、2019)はインスタンス最適化も破損量への最適依存も達成しません。 さらに、このアルゴリズムを逆成分と慎重に設計したテストとを併用することにより、我々の第2のアルゴリズムは、完全に逆条件下での最小限の後悔を享受する。 最後に、すべての保証は高い確率で保持されますが、既存のインスタンス最適化保証は期待通りです。

In this work, we develop linear bandit algorithms that automatically adapt to different environments. By plugging a novel loss estimator into the optimization problem that characterizes the instance-optimal strategy, our first algorithm not only achieves nearly instance-optimal regret in stochastic environments, but also works in corrupted environments with additional regret being the amount of corruption, while the state-of-the-art (Li et al., 2019) achieves neither instance-optimality nor the optimal dependence on the corruption amount. Moreover, by equipping this algorithm with an adversarial component and carefully-designed testings, our second algorithm additionally enjoys minimax-optimal regret in completely adversarial environments, which is the first of this kind to our knowledge. Finally, all our guarantees hold with high probability, while existing instance-optimal guarantees only hold in expectation.
翻訳日:2021-02-12 14:12:45 公開日:2021-02-11
# OpinionRank: グラフベースのスペクトルランク付けによる信頼できないエキスパートオピニオンからの基底真理ラベルの抽出

OpinionRank: Extracting Ground Truth Labels from Unreliable Expert Opinions with Graph-Based Spectral Ranking ( http://arxiv.org/abs/2102.05884v1 )

ライセンス: Link先を確認
Glenn Dawson and Robi Polikar(参考訳) 大規模で包括的なデータセットが現代の機械学習で標準になるにつれて、高度なモデルを訓練するための信頼できる信頼できるラベル情報を得るのがますます難しくなっている。 この問題に対処するため、クラウドソーシングは、分散ラベル収集を行うためのポピュラーで安価で効率的なデータマイニングソリューションとして登場した。 しかし、クラウドソーシングされたアノテーションは本質的に信頼できないものであり、ラベルは様々な信頼できない専門知識を持つ匿名のボランティアによって提供される。 さらに悪いことに、Amazon Mechanical Turkのような一般的なプラットフォーム上の一部の参加者は敵対的であり、エンドユーザーの知識なしに意図的にラベル情報を提供する。 ラベル生成プロセスの従来の3つのモデルについて,パラメータ化とそれを解決するモデルベースアプローチについて述べる。 クラウドソースのアノテーションを信頼できるラベルに統合し,教師付きあるいは半教師付き学習を行うための,モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムである opinionrank を提案する。 実験の結果,より高パラメータ化アルゴリズムと比較した場合, opinionrank は好成績を示した。 opinionrankは、非常に大きなデータセットとラベルソースの数にスケーラブルであり、以前のアプローチに比べて計算リソースが大幅に少ないことも示しています。

As larger and more comprehensive datasets become standard in contemporary machine learning, it becomes increasingly more difficult to obtain reliable, trustworthy label information with which to train sophisticated models. To address this problem, crowdsourcing has emerged as a popular, inexpensive, and efficient data mining solution for performing distributed label collection. However, crowdsourced annotations are inherently untrustworthy, as the labels are provided by anonymous volunteers who may have varying, unreliable expertise. Worse yet, some participants on commonly used platforms such as Amazon Mechanical Turk may be adversarial, and provide intentionally incorrect label information without the end user's knowledge. We discuss three conventional models of the label generation process, describing their parameterizations and the model-based approaches used to solve them. We then propose OpinionRank, a model-free, interpretable, graph-based spectral algorithm for integrating crowdsourced annotations into reliable labels for performing supervised or semi-supervised learning. Our experiments show that OpinionRank performs favorably when compared against more highly parameterized algorithms. We also show that OpinionRank is scalable to very large datasets and numbers of label sources, and requires considerably less computational resources than previous approaches.
翻訳日:2021-02-12 14:12:26 公開日:2021-02-11
# PatchX: 時系列分類のための知的パターンパッチによる深層モデルの説明

PatchX: Explaining Deep Models by Intelligible Pattern Patches for Time-series Classification ( http://arxiv.org/abs/2102.05917v1 )

ライセンス: Link先を確認
Dominique Mercier, Andreas Dengel, Sheraz Ahmed(参考訳) 時系列データの分類はストリーミングデータにとって重要であり、多くの課題がある。 公開データセットの量は急速に増加するが、ディープニューラルネットワークはいくつかの領域でのみ利用される。 伝統的な手法は、深層神経モデルと比較されることが多い。 これらの手法は、解釈可能な結果のため、安全クリティカル、金融、医療分野で好まれる。 しかし,その性能とスケール性は限定的であり,時系列データに隠された概念のため,時系列分類タスクの適切な説明を見つけることは困難である。 完全な時系列を視覚化すると、認識に関する認知的過負荷が発生し、混乱につながる。 したがって、パッチによるデータの処理は、より解釈可能な表現をもたらすと考えています。 本稿では,ディープニューラルネットワークと従来の機械学習アルゴリズムを併用して,解釈可能でスケール可能な時系列分類手法を提案する。 提案手法はまずパッチのきめ細かい分類を行い,次にサンプルレベルの分類を行う。

The classification of time-series data is pivotal for streaming data and comes with many challenges. Although the amount of publicly available datasets increases rapidly, deep neural models are only exploited in a few areas. Traditional methods are still used very often compared to deep neural models. These methods get preferred in safety-critical, financial, or medical fields because of their interpretable results. However, their performance and scale-ability are limited, and finding suitable explanations for time-series classification tasks is challenging due to the concepts hidden in the numerical time-series data. Visualizing complete time-series results in a cognitive overload concerning our perception and leads to confusion. Therefore, we believe that patch-wise processing of the data results in a more interpretable representation. We propose a novel hybrid approach that utilizes deep neural networks and traditional machine learning algorithms to introduce an interpretable and scale-able time-series classification approach. Our method first performs a fine-grained classification for the patches followed by sample level classification.
翻訳日:2021-02-12 14:12:04 公開日:2021-02-11
# AutoScore:臨床イベントの早期予測のための自動警告スコアモデル

AutoScore: An Automated Warning Score Model for the Early Prediction of Clinical Events ( http://arxiv.org/abs/2102.05958v1 )

ライセンス: Link先を確認
Ibrahim Hammoud, Prateek Prasanna, IV Ramakrishnan, Adam Singer, Mark Henry, Henry Thode(参考訳) 臨床劣化のリスクのある患者の早期予測は、医師が介入し、より良い結果に向けて臨床経過を変えるのに役立つ。 精度の要件に加えて、早期の警告システムは、医師が介入するのに十分な時間を与えるのに十分な予測を早めなければならない。 モデル決定の背後にある理由を正当化することができることが臨床で望ましいため、そのようなシステムを構築する際の課題の一つでもある。 本研究は,臨床劣化を示唆する種々の有害な臨床事象の早期予測のための解釈可能なモデルを構築した。 このモデルは2つのデータセットと4つの臨床イベントで評価される。 最初のデータセットは、Stony Brook Hospitalで主に新型コロナウイルス陽性人口で収集されています。 2番目のデータセットはMIMIC IIIデータセットです。 このモデルは、ストーニーブルック病院のデータセットで換気、ICU転送、死亡予測タスクの早期警告スコアを提供し、MIMIC IIIデータセット上での死亡率と血管圧剤の必要性を予測するために訓練された。 我々のモデルはまず各機能を複数の範囲に分割し、次にラッソペナリゼーションを用いたロジスティック回帰を用いて各特徴に対する範囲のサブセットを選択する。 モデルトレーニングは完全に自動化されており、他の早期警告スコアのような専門的な知識は必要ありません。 当モデルとMEWS (Modified Early Warning Score) と, 病院で一般的に使用されるクイックSOFA (qSOFA) を比較した。 本モデルでは, 受信機動作特性曲線 (AUROC) の領域において, より少ない特徴を用いても, 全臨床イベントにおいて, 同様の, より優れた中央値検出時間を持ちながら, これらのモデルよりも優れていることを示す。 MEWSやqSOFAとは異なり、我々のモデルは手動で記録する機能なしで完全に自動化できる。 また, モデルとベースラインのロジスティック回帰モデルを比較することで, モデル性能を改善できることを示した。

Early prediction of patients at risk of clinical deterioration can help physicians intervene and alter their clinical course towards better outcomes. In addition to the accuracy requirement, early warning systems must make the predictions early enough to give physicians enough time to intervene. Interpretability is also one of the challenges when building such systems since being able to justify the reasoning behind model decisions is desirable in clinical practice. In this work, we built an interpretable model for the early prediction of various adverse clinical events indicative of clinical deterioration. The model is evaluated on two datasets and four clinical events. The first dataset is collected in a predominantly COVID-19 positive population at Stony Brook Hospital. The second dataset is the MIMIC III dataset. The model was trained to provide early warning scores for ventilation, ICU transfer, and mortality prediction tasks on the Stony Brook Hospital dataset and to predict mortality and the need for vasopressors on the MIMIC III dataset. Our model first separates each feature into multiple ranges and then uses logistic regression with lasso penalization to select the subset of ranges for each feature. The model training is completely automated and doesn't require expert knowledge like other early warning scores. We compare our model to the Modified Early Warning Score (MEWS) and quick SOFA (qSOFA), commonly used in hospitals. We show that our model outperforms these models in the area under the receiver operating characteristic curve (AUROC) while having a similar or better median detection time on all clinical events, even when using fewer features. Unlike MEWS and qSOFA, our model can be entirely automated without requiring any manually recorded features. We also show that discretization improves model performance by comparing our model to a baseline logistic regression model.
翻訳日:2021-02-12 14:11:50 公開日:2021-02-11
# 畳み込みニューラルネットワークにおける不確実性伝播:技術報告

Uncertainty Propagation in Convolutional Neural Networks: Technical Report ( http://arxiv.org/abs/2102.06064v1 )

ライセンス: Link先を確認
Christos Tzelepis and Ioannis Patras(参考訳) この技術報告では、Convolutional Neural Network (CNN) の典型的なビルディングブロックを通じて、不確実性(与えられた一変数正規確率変数のばらつき)の伝播の問題について研究する。 これには2D畳み込み、完全接続層、平均プール層などの線形操作を行うレイヤや、Rectified Linear Unit (ReLU)のような入力に対して非線形に作用するレイヤが含まれる。 最後に、第一次および第二次モーメントの近似を与えるシグモイド関数と、通常のランダム入力の下でその期待値を近似する二元間エントロピー損失関数について議論する。

In this technical report we study the problem of propagation of uncertainty (in terms of variances of given uni-variate normal random variables) through typical building blocks of a Convolutional Neural Network (CNN). These include layers that perform linear operations, such as 2D convolutions, fully-connected, and average pooling layers, as well as layers that act non-linearly on their input, such as the Rectified Linear Unit (ReLU). Finally, we discuss the sigmoid function, for which we give approximations of its first- and second-order moments, as well as the binary cross-entropy loss function, for which we approximate its expected value under normal random inputs.
翻訳日:2021-02-12 14:10:18 公開日:2021-02-11
# SelfHAR: ラベルなしデータによるセルフトレーニングによるヒューマンアクティビティ認識の改善

SelfHAR: Improving Human Activity Recognition through Self-training with Unlabeled Data ( http://arxiv.org/abs/2102.06073v1 )

ライセンス: Link先を確認
Chi Ian Tang, Ignacio Perez-Pozuelo, Dimitris Spathis, Soren Brage, Nick Wareham and Cecilia Mascolo(参考訳) 機械学習とディープラーニングは、ヒューマンアクティビティ認識を含むモバイルセンシングアプリケーションで大きな約束を示しています。 しかし、実際の環境でのモデルのパフォーマンスは、多種多様な振る舞いをキャプチャする大規模データセットの可用性に大きく依存する。 近年、コンピュータビジョンと自然言語処理の研究では、大量のラベルのないデータを活用することで、最先端の監視モデルと同等のパフォーマンスを実現できることが示されています。 本研究では,ラベルなしのモバイルセンシングデータセットを効果的に活用し,小さなラベル付きデータセットを補完する半教師付きモデルであるselfharを提案する。 本手法では,データ拡張を可能とし,ラベル付きデータセットとラベル付きデータセットの知識を蒸留する教師学習と,入力の歪んだバージョンを予測してロバストな信号レベルの表現を学習するマルチタスク自己スーパービジョンを組み合わせる。 様々なharデータセット上でselfharを評価し,教師付きおよび前回の半教師付きアプローチよりも最先端のパフォーマンスを示し,推論時のモデルパラメータ数と同じf1スコアを最大12%向上させた。 さらに、SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。 私たちの仕事は、HARデータセットの多様なセットで最先端のパフォーマンスを達成するだけでなく、事前トレーニングタスクが下流のパフォーマンスにどのように影響するかに光を当てます。

Machine learning and deep learning have shown great promise in mobile sensing applications, including Human Activity Recognition. However, the performance of such models in real-world settings largely depends on the availability of large datasets that captures diverse behaviors. Recently, studies in computer vision and natural language processing have shown that leveraging massive amounts of unlabeled data enables performance on par with state-of-the-art supervised models. In this work, we present SelfHAR, a semi-supervised model that effectively learns to leverage unlabeled mobile sensing datasets to complement small labeled datasets. Our approach combines teacher-student self-training, which distills the knowledge of unlabeled and labeled datasets while allowing for data augmentation, and multi-task self-supervision, which learns robust signal-level representations by predicting distorted versions of the input. We evaluated SelfHAR on various HAR datasets and showed state-of-the-art performance over supervised and previous semi-supervised approaches, with up to 12% increase in F1 score using the same number of model parameters at inference. Furthermore, SelfHAR is data-efficient, reaching similar performance using up to 10 times less labeled data compared to supervised approaches. Our work not only achieves state-of-the-art performance in a diverse set of HAR datasets, but also sheds light on how pre-training tasks may affect downstream performance.
翻訳日:2021-02-12 14:10:08 公開日:2021-02-11
# 部分観察可能な交換可能モデリング

Partially Observed Exchangeable Modeling ( http://arxiv.org/abs/2102.06083v1 )

ライセンス: Link先を確認
Yang Li and Junier B. Oliva(参考訳) 多くの機械学習タスクでは、機能間の依存関係のモデリングが基本です。 条件依存を通知するために利用される複数の関連インスタンスがしばしば存在するが、典型的なアプローチは個々のインスタンスに対する条件依存をモデル化するのみである。 本研究では,複数の要素上の非観測次元の条件分布を推定し,関連する部分観察されたインスタンスの集合を取り込む交換可能モデリング(POEx)を部分的に観測する,新しいフレームワークを提案する。 私たちのアプローチは、データ内のインスタンス内(ポイント内の機能を含む)とインスタンス間(セット内の複数のポイントの間)の依存関係を共同でモデル化します。 POExは、ポイントクラウド拡張やマルチショット生成など、既存の多くのタスクと、マルチショットインピーダンスのような新しいタスクを包含する一般的なフレームワークです。 その一般性にもかかわらず、広範な実証的評価は私達のモデルがいろいろな適用を渡る最先端の性能を達成することを示します。

Modeling dependencies among features is fundamental for many machine learning tasks. Although there are often multiple related instances that may be leveraged to inform conditional dependencies, typical approaches only model conditional dependencies over individual instances. In this work, we propose a novel framework, partially observed exchangeable modeling (POEx) that takes in a set of related partially observed instances and infers the conditional distribution for the unobserved dimensions over multiple elements. Our approach jointly models the intra-instance (among features in a point) and inter-instance (among multiple points in a set) dependencies in data. POEx is a general framework that encompasses many existing tasks such as point cloud expansion and few-shot generation, as well as new tasks like few-shot imputation. Despite its generality, extensive empirical evaluations show that our model achieves state-of-the-art performance across a range of applications.
翻訳日:2021-02-12 14:09:44 公開日:2021-02-11
# Defuse: テストの正確性を超えたデバッギングモデルの非制限逆例

Defuse: Harnessing Unrestricted Adversarial Examples for Debugging Models Beyond Test Accuracy ( http://arxiv.org/abs/2102.06162v1 )

ライセンス: Link先を確認
Dylan Slack, Nathalie Rauschmayr, Krishnaram Kenthapadi(参考訳) 典型的には、ホールドアウトテストデータに関する集計統計を計算し、機械学習モデルの一般化を評価する。 しかし、テストデータの統計はしばしばモデルの一般化を誇張しており、デプロイされた機械学習モデルのパフォーマンスは可変であり、信頼できない。 これらの懸念に乗じて,モデルエラーを自動的に検出し,修正する手法を開発した。 本稿では,新しいモデルの誤分類を生成し,これらのエラーをハイレベルなモデルバグに分類し,エラーを効率的にラベル付けして修正する手法であるdefuseを提案する。 誤分類データを生成するために, 生成モデルを用いて, モデルが誤分類した自然発生事例を見つける逆機械学習技術に着想を得たアルゴリズムを提案する。 さらに, 生成モデルが潜在空間に領域を持ち, 誤分類の濃度が高いことも観察した。 これらの領域を誤分類領域と呼び、有用な特性がいくつかあります。 例えば、MNIST分類器の誤分類領域には、モデルが1としてミスするスキニー6のスタイルが含まれている。 また、各リージョンに1つのラベルを割り当てて、低コストなラベル付けを容易にします。 誤分類領域を学習し,この知見を用いて誤りの分類と修正を行う手法を提案する。 実際には、defuseは分類器で新しいエラーを見つけて修正する。 例えば、defuseは、ハイパフォーマンスな交通標識分類器が特定の50km/hの標識を80km/hと間違えていることを示している。 defuseは、テストセットの一般化を維持しながら微調整後のエラーを修正する。

We typically compute aggregate statistics on held-out test data to assess the generalization of machine learning models. However, statistics on test data often overstate model generalization, and thus, the performance of deployed machine learning models can be variable and untrustworthy. Motivated by these concerns, we develop methods to automatically discover and correct model errors beyond those available in the data. We propose Defuse, a method that generates novel model misclassifications, categorizes these errors into high-level model bugs, and efficiently labels and fine-tunes on the errors to correct them. To generate misclassified data, we propose an algorithm inspired by adversarial machine learning techniques that uses a generative model to find naturally occurring instances misclassified by a model. Further, we observe that the generative models have regions in their latent space with higher concentrations of misclassifications. We call these regions misclassification regions and find they have several useful properties. Each region contains a specific type of model bug; for instance, a misclassification region for an MNIST classifier contains a style of skinny 6 that the model mistakes as a 1. We can also assign a single label to each region, facilitating low-cost labeling. We propose a method to learn the misclassification regions and use this insight to both categorize errors and correct them. In practice, Defuse finds and corrects novel errors in classifiers. For example, Defuse shows that a high-performance traffic sign classifier mistakes certain 50km/h signs as 80km/h. Defuse corrects the error after fine-tuning while maintaining generalization on the test set.
翻訳日:2021-02-12 14:09:28 公開日:2021-02-11
# 非偏角モデルからの離散表現

Disentangled Representations from Non-Disentangled Models ( http://arxiv.org/abs/2102.06204v1 )

ライセンス: Link先を確認
Valentin Khrulkov, Leyla Mirvakhabova, Ivan Oseledets, Artem Babenko(参考訳) 不連続表現の構築は、特に教師なしのシナリオでは難しい作業であることが知られている。 監視されていない束縛の支配的なパラダイムは、現在、その潜在空間の変動の異なる要因を分離する生成モデルを訓練することです。 この分離は通常、モデルの目的関数の特定の正規化項によるトレーニングによって実施される。 しかし、これらの用語は、絡み合いと生成品質の間のトレードオフに責任を持つ追加のハイパーパラメータを導入する。 これらのハイパーパラメータのチューニングは、適切な絡み合いに欠かせないが、外部の監視なしに調整する方法は、しばしば不明である。 本稿では,異種表現に対する代替経路について検討する。 そこで,本稿では,これらの表現を学習中の生成モデルから抽出する手法を提案する。 このポストホックなジエンタングルメントのパラダイムは、確立されたジエンタングルメントメトリクス、公平性、抽象的推論タスクの比較によって示されるように、表現を学習するときにほとんど、あるいは全くハイパーパラメーターを使用しない。 コードとモデルはすべて公開されています。

Constructing disentangled representations is known to be a difficult task, especially in the unsupervised scenario. The dominating paradigm of unsupervised disentanglement is currently to train a generative model that separates different factors of variation in its latent space. This separation is typically enforced by training with specific regularization terms in the model's objective function. These terms, however, introduce additional hyperparameters responsible for the trade-off between disentanglement and generation quality. While tuning these hyperparameters is crucial for proper disentanglement, it is often unclear how to tune them without external supervision. This paper investigates an alternative route to disentangled representations. Namely, we propose to extract such representations from the state-of-the-art generative models trained without disentangling terms in their objectives. This paradigm of post hoc disentanglement employs little or no hyperparameters when learning representations while achieving results on par with existing state-of-the-art, as shown by comparison in terms of established disentanglement metrics, fairness, and the abstract reasoning task. All our code and models are publicly available.
翻訳日:2021-02-12 14:09:03 公開日:2021-02-11
# コンビナート最適化のための深層強化学習:セールスマン問題をカバーする

Deep Reinforcement Learning for Combinatorial Optimization: Covering Salesman Problems ( http://arxiv.org/abs/2102.05875v1 )

ライセンス: Link先を確認
Kaiwen Li, Tao Zhang, Rui Wang Yuheng Wang, and Yi Han(参考訳) 本稿では,CSP(Covering Salesman Problem)に関する新たなディープラーニング手法を提案する。 このアプローチでは、CSPの都市位置を入力として、ディープニューラルネットワークモデルがソリューションを直接出力するように設計されている。 指導なしに深層強化学習を用いて訓練される。 具体的には、このモデルでは、マルチヘッドアテンションを適用して構造パターンをキャプチャし、問題の動的パターンを処理するための動的埋め込みを設計する。 モデルが訓練されると、再トレーニングを必要とせずに、さまざまなタイプのCSPタスク(異なるサイズとトポロジ)に一般化できます。 制御された実験を通して、提案手法は望ましい時間の複雑さを示し、最適性の小さなギャップを持つ従来のヒューリスティックな解法よりも20倍以上速く実行される。 さらに、トレーニングと推論の両方の面で組み合わせ最適化のための最新のディープラーニングアプローチを大幅に上回っています。 従来の解法と比較して、このアプローチは、通常大規模で迅速な決定を必要とする、実践上の課題の多くにとって非常に望ましいものである。

This paper introduces a new deep learning approach to approximately solve the Covering Salesman Problem (CSP). In this approach, given the city locations of a CSP as input, a deep neural network model is designed to directly output the solution. It is trained using the deep reinforcement learning without supervision. Specifically, in the model, we apply the Multi-head Attention to capture the structural patterns, and design a dynamic embedding to handle the dynamic patterns of the problem. Once the model is trained, it can generalize to various types of CSP tasks (different sizes and topologies) with no need of re-training. Through controlled experiments, the proposed approach shows desirable time complexity: it runs more than 20 times faster than the traditional heuristic solvers with a tiny gap of optimality. Moreover, it significantly outperforms the current state-of-the-art deep learning approaches for combinatorial optimization in the aspect of both training and inference. In comparison with traditional solvers, this approach is highly desirable for most of the challenging tasks in practice that are usually large-scale and require quick decisions.
翻訳日:2021-02-12 14:08:31 公開日:2021-02-11
# マシンインテリジェンスを使ってコードレビューの要求を優先する

Using Machine Intelligence to Prioritise Code Review Requests ( http://arxiv.org/abs/2102.05916v1 )

ライセンス: Link先を確認
Nishrith Saini and Ricardo Britto(参考訳) Modern Code Review (MCR)は、既存のコードベースとマージする必要がある新しいコード変更をレビューするプロセスである。 開発者として、毎日多くのコードレビューリクエストを受け取り、すなわち、レビュー要求を優先順位付けする必要がある。 手作業によるレビュー要求の優先順位付けは困難で時間を要するプロセスです。 上記の問題に対処するため,我々は,コードレビュー要求の優先順位付けにベイズネットワークを使用するpineappleというツールの開発を目的としたericssonの産業ケーススタディを実施した。 私たちのアプローチ/ツールを検証するために、私たちはそれをEricssonのライブソフトウェア開発プロジェクトにデプロイしました。 我々は, 予測性能, 実現可能性, 有用性を評価することに焦点を当てた。 結果は、パイナップルが有能な予測性能(RMSE = 0.21およびMAE = 0.15)を有することを示している。 さらに、pineappleユーザーの82.6%は、信頼できる結果を提供することで、このツールがコードレビュー要求の優先順位付けをサポートできると信じており、56.5%は、コードレビューのリードタイムを減らすのに役立つと考えている。 今後の研究として, ピネアップルの予測性能, 有用性, 実現可能性について, 縦断調査により検討する。

Modern Code Review (MCR) is the process of reviewing new code changes that need to be merged with an existing codebase. As a developer, one may receive many code review requests every day, i.e., the review requests need to be prioritised. Manually prioritising review requests is a challenging and time-consuming process. To address the above problem, we conducted an industrial case study at Ericsson aiming at developing a tool called Pineapple, which uses a Bayesian Network to prioritise code review requests. To validate our approach/tool, we deployed it in a live software development project at Ericsson, wherein more than 150 developers develop a telecommunication product. We focused on evaluating the predictive performance, feasibility, and usefulness of our approach. The results indicate that Pineapple has competent predictive performance (RMSE = 0.21 and MAE = 0.15). Furthermore, around 82.6% of Pineapple's users believe the tool can support code review request prioritisation by providing reliable results, and around 56.5% of the users believe it helps reducing code review lead time. As future work, we plan to evaluate Pineapple's predictive performance, usefulness, and feasibility through a longitudinal investigation.
翻訳日:2021-02-12 14:08:17 公開日:2021-02-11
# ハイブリッド量子コンピューティング-タブサーチアルゴリズムに注目して--非対称セールスマン問題に関する新しい結果

Focusing on the Hybrid Quantum Computing -- Tabu Search Algorithm: new results on the Asymmetric Salesman Problem ( http://arxiv.org/abs/2102.05919v1 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Izaskun Oregi and Aitor Moreno-Fernandez-de-Leceta(参考訳) 量子コンピューティングは、現在の科学と技術コミュニティで多くの人気を集めている新興パラダイムである。 量子コンピューティングは、計算の次のフロンティアとして広く考えられており、パフォーマンスと能力の面で大きな制限に苦しんでいる現在のソリューションシステムである開発がまだ始まっています。 これらの障壁を克服するために、研究者や実践者によっていくつかの興味深いアプローチが考案され、量子古典的ハイブリッドアルゴリズムは最もよく使われる解法の一つである。 本研究の目的は,最近提案されたハイブリッド量子コンピューティング - Tabu Search Algorithm の分割問題に対する結果と結果を拡張することである。 そこで本研究では,この手法を非対称トラベルセールスマン問題に適応させることに着目する。 全体として、TSPLIBに属する6つの有名なインスタンスを用いて量子コンピューティング - タブサーチアルゴリズムの性能を評価し、最先端の分解解であるQBSolvと比較した。 さらに、この研究は、量子計算に基づく手法を用いた非対称トラベルセールスマン問題の最初の解決者も想定している。 qcにおけるコミュニティ全体の調査を促進すべく、我々は、さらなるアプリケーションと改善のために、プロジェクトのリポジトリをオープンソースコードとしてリリースした。

Quantum Computing is an emerging paradigm which is gathering a lot of popularity in the current scientific and technological community. Widely conceived as the next frontier of computation, Quantum Computing is still at the dawn of its development being current solving systems suffering from significant limitations in terms of performance and capabilities. Some interesting approaches have been devised by researchers and practitioners in order to overcome these barriers, being quantum-classical hybrid algorithms one of the most often used solving schemes. The main goal of this paper is to extend the results and findings of the recently proposed hybrid Quantum Computing - Tabu Search Algorithm for partitioning problems. To do that, we focus our research on the adaptation of this method to the Asymmetric Traveling Salesman Problem. In overall, we have employed six well-known instances belonging to TSPLIB to assess the performance of Quantum Computing - Tabu Search Algorithm in comparison to QBSolv -- a state-of-the-art decomposing solver. Furthermore, as an additional contribution, this work also supposes the first solver of the Asymmetric Traveling Salesman Problem using a Quantum Computing based method. Aiming to boost whole community's research in QC, we have released the project's repository as open source code for further application and improvements.
翻訳日:2021-02-12 14:07:56 公開日:2021-02-11
# DirectDebug: 機能モデルの自動テストとデバッグ

DirectDebug: Automated Testing and Debugging of Feature Models ( http://arxiv.org/abs/2102.05949v1 )

ライセンス: Link先を確認
Viet-Man Le and Alexander Felfernig and Mathias Uta and David Benavides and Jos\'e Galindo and Thi Ngoc Trang Tran(参考訳) 変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。 このようなモデルは論理表現に変換できるため、品質保証やその他のモデル特性分析の異なる操作が可能になる。 具体的には、複雑でしばしば大規模な機能モデルが欠陥となる可能性がある、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現していない。 本稿では,可変性モデルの自動テストとデバッグを行うための直接診断手法であるdirectdebugを提案する。 このアルゴリズムは、可変モデルの意図しない振る舞いに責任を持つ欠陥制約の自動識別をサポートすることによって、ソフトウェアエンジニアを支援する。 このアプローチは、そのようなモデルの開発とメンテナンスの労力を大幅に削減できます。

Variability models (e.g., feature models) are a common way for the representation of variabilities and commonalities of software artifacts. Such models can be translated to a logical representation and thus allow different operations for quality assurance and other types of model property analysis. Specifically, complex and often large-scale feature models can become faulty, i.e., do not represent the expected variability properties of the underlying software artifact. In this paper, we introduce DirectDebug which is a direct diagnosis approach to the automated testing and debugging of variability models. The algorithm helps software engineers by supporting an automated identification of faulty constraints responsible for an unintended behavior of a variability model. This approach can significantly decrease development and maintenance efforts for such models.
翻訳日:2021-02-12 14:07:37 公開日:2021-02-11
# 計画のための高精度なモデル学習

Sufficiently Accurate Model Learning for Planning ( http://arxiv.org/abs/2102.06099v1 )

ライセンス: Link先を確認
Clark Zhang, Santiago Paternain, Alejandro Ribeiro(参考訳) 動的システムのデータ駆動モデルは、プランナーやコントローラがより正確で正確な動きを提供するのに役立つ。 ほとんどのモデル学習アルゴリズムは、観測データとモデルの予測の間の損失関数を最小化しようとする。 これは、目の前のタスクに関する事前の知識を使って改善することができ、制約の形でエンコードできる。 これは制約のないモデル学習問題を制約のある問題に変える。 これらの制約により、有限容量を持つモデルは、システムの重要な側面に表現力に集中することができる。 これは特定のタスクに適したモデルにつながる可能性がある。 本稿では,制約付きSufficiently Accurateモデル学習手法を導入し,そのような問題の例を示し,近似解がどの程度近いかという定理を示す。 近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、およびモデル学習におけるサンプル数に依存する。

Data driven models of dynamical systems help planners and controllers to provide more precise and accurate motions. Most model learning algorithms will try to minimize a loss function between the observed data and the model's predictions. This can be improved using prior knowledge about the task at hand, which can be encoded in the form of constraints. This turns the unconstrained model learning problem into a constrained one. These constraints allow models with finite capacity to focus their expressive power on important aspects of the system. This can lead to models that are better suited for certain tasks. This paper introduces the constrained Sufficiently Accurate model learning approach, provides examples of such problems, and presents a theorem on how close some approximate solutions can be. The approximate solution quality will depend on the function parameterization, loss and constraint function smoothness, and the number of samples in model learning.
翻訳日:2021-02-12 14:07:27 公開日:2021-02-11
# Cryo-EMにおけるデノボ分子構造モデリングの人工知能の進歩

Artificial Intelligence Advances for De Novo Molecular Structure Modeling in Cryo-EM ( http://arxiv.org/abs/2102.06125v1 )

ライセンス: Link先を確認
Dong Si, Andrew Nakamura, Runbang Tang, Haowen Guan, Jie Hou, Ammaar Firozi, Renzhi Cao, Kyle Hippe, Minglei Zhao(参考訳) 核電子顕微鏡(cryo-EM)は、2017年のノーベル賞によって証明された、大きなタンパク質複合体と分子集合体の構造を決定する主要な実験技術となった。 マクロ分子に関する詳細な構造情報を含む高分解能3次元マップを生成するために、Cryo-EMは大幅に改善されているが、構造モデルを自動的に構築するためにデータを使用する計算方法は、はるかに遅れている。 従来のCryo-EMモデル構築アプローチはテンプレートベースのホモロジーモデリングである。 手動のde novoモデリングは、データベースにテンプレートモデルが見つからない場合、非常に時間がかかる。 近年,機械学習 (ML) と深層学習 (DL) を用いた de novo cryo-EM モデリングは,分子構造モデリングにおいて最も優れた手法である。 ディープラーニングベースのDe novo cryo-EMモデリングは、次世代の分子バイオ医薬品のための印象的な結果と大きな可能性を持つ人工知能の重要なアプリケーションです。 そこで、代表的なML/DLベースのデノボクライオEMモデリング手法を体系的に検討する。 そして,その意義を実践的,方法論的両面から論じる。 また、cryo-emデータ処理ワークフローの背景についても簡単に説明する。 本総説では、デノボ分子構造モデリングのための人工知能(AI)の現代研究の入門ガイドと、この新興分野における今後の方向性について述べる。

Cryo-electron microscopy (cryo-EM) has become a major experimental technology to determine the structures of large protein complexes and molecular assemblies, as evidenced by the 2017 Nobel Prize. Although cryo-EM has been drastically improved to generate high-resolution three-dimensional (3D) maps that contain detailed structural information about macromolecules, the computational methods for using the data to automatically build structure models are lagging far behind. Traditional cryo-EM model building approach is template-based homology modeling. Manual de novo modeling is very time-consuming when no template model could be found in the database. In recent years, de novo cryo-EM modeling using machine learning (ML) and deep learning (DL) has ranked among the top-performing methods in macromolecular structure modeling. Deep-learning-based de novo cryo-EM modeling is an important application of artificial intelligence, with impressive results and great potential for the next generation of molecular biomedicine. Accordingly, we systematically review the representative ML/DL-based de novo cryo-EM modeling methods. And their significances are discussed from both practical and methodological viewpoints. We also briefly describe the background of cryo-EM data processing workflow. Overall, this review provides an introductory guide to modern research on artificial intelligence (AI) for de novo molecular structure modeling and future directions in this emerging field.
翻訳日:2021-02-12 14:07:14 公開日:2021-02-11
# 条件付き局所戦略推論の論理

A Logic for Conditional Local Strategic Reasoning ( http://arxiv.org/abs/2102.06148v1 )

ライセンス: Link先を確認
Valentin Goranko and Fengkui Ju(参考訳) 個人的および集団的目的の追求において行動し、相互作用する合理的エージェントのシステムを考える。 私たちは、自分の目的を達成するために、推論者の能力または期待を評価するために、その目的に基づいて他のエージェントの行動の期待される選択について、エージェント、または外部のオブザーバーの推論を研究し、形式化します。 このような推論を形式化するために、Pauly の Coalition Logic を条件付き戦略推論の新しい3つのモーダル演算子に拡張し、局所条件付き戦略推論の Logic for Local Conditional Strategic Reasoning ConStR を導入する。 我々は,コンカレントゲームモデルにおける新しい条件付き戦略演算子の形式的意味論を提供し,それらの各条件付き二乗法の概念を導入し,各条件付き不変性とヘネシー・ミルナー特性を証明し,それらの表現性について議論し,簡潔に比較する。 最後に,ConStRの基本演算子と全論理に対する公理系を提案する。

We consider systems of rational agents who act and interact in pursuit of their individual and collective objectives. We study and formalise the reasoning of an agent, or of an external observer, about the expected choices of action of the other agents based on their objectives, in order to assess the reasoner's ability, or expectation, to achieve their own objective. To formalize such reasoning we extend Pauly's Coalition Logic with three new modal operators of conditional strategic reasoning, thus introducing the Logic for Local Conditional Strategic Reasoning ConStR. We provide formal semantics for the new conditional strategic operators in concurrent game models, introduce the matching notion of bisimulation for each of them, prove bisimulation invariance and Hennessy-Milner property for each of them, and discuss and compare briefly their expressiveness. Finally, we also propose systems of axioms for each of the basic operators of ConStR and for the full logic.
翻訳日:2021-02-12 14:06:53 公開日:2021-02-11
# 映像中の映像ハイライト検出

Audiovisual Highlight Detection in Videos ( http://arxiv.org/abs/2102.05811v1 )

ライセンス: Link先を確認
Karel Mundnich and Alexandra Fenster and Aparna Khare and Shiva Sundaram(参考訳) 本稿では,非構造化ビデオにおける興味深いイベントが本質的にオーディオビジュアルであるという仮説を検証した。 物体認識とシーン理解のための深い画像表現と、視聴覚影響認識モデルからの表現を組み合わせる。 このセットには、コンテンツ非依存な音声-視覚同期表現とメル周波数ケプストラム係数が含まれ、オーディオの他の本質的特性をキャプチャする。 これらの機能は、モジュラー監視モデルで使用されます。 本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。 映像要約タスクでは,視覚機能が最も多くの情報を持ち,視覚機能を含めて視覚のみの情報よりも改善されていることを示す。 ハイライト検出のタスクをよりよく研究するために、ビデオクリップの小さなサブセットのハイライトアノテーションを使ったパイロット実験を実施し、最高のモデルを微調整します。 その結果,映像要約タスクからハイライト検出タスク用に特別に訓練されたモデルに知識を伝達できることがわかった。

In this paper, we test the hypothesis that interesting events in unstructured videos are inherently audiovisual. We combine deep image representations for object recognition and scene understanding with representations from an audiovisual affect recognition model. To this set, we include content agnostic audio-visual synchrony representations and mel-frequency cepstral coefficients to capture other intrinsic properties of audio. These features are used in a modular supervised model. We present results from two experiments: efficacy study of single features on the task, and an ablation study where we leave one feature out at a time. For the video summarization task, our results indicate that the visual features carry most information, and including audiovisual features improves over visual-only information. To better study the task of highlight detection, we run a pilot experiment with highlights annotations for a small subset of video clips and fine-tune our best model on it. Results indicate that we can transfer knowledge from the video summarization task to a model trained specifically for the task of highlight detection.
翻訳日:2021-02-12 14:05:59 公開日:2021-02-11
# A-NeRF: ニューラルレンダリングによる表面のないヒト3次元ポース精製

A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering ( http://arxiv.org/abs/2102.06199v1 )

ライセンス: Link先を確認
Shih-Yang Su, Frank Yu, Michael Zollhoefer and Helge Rhodin(参考訳) ディープラーニングは古典的なモーションキャプチャパイプラインを再構成しましたが、ユーザーの高品質の3Dモデルが利用可能であれば、生成的、分析による合成要素がまだ詳細を回復するために使用されています。 残念ながら、すべてのユーザに対してそのようなモデルを取得することは困難で、時間がかかり、アプリケーションのシナリオが制限される。 本稿では,ユーザの体積体モデルを自己教師あり方式で学習する単眼運動キャプチャのための新しいテスト時間最適化手法を提案する。 この目的のために,本手法では,神経放射場と構音骨格表現の利点を組み合わせる。 提案する骨格組込みは,制約を時間にわたって関連付ける共通参照として機能するので,従来の数十台の校正カメラから必要なカメラビューを1つに減らすことができる。 出発点として、3Dスケルトンポーズを予測するオフ・ザ・シェルフモデルの出力を用いる。 その後、容積体の形状と外観をスクラッチから学習し、初期ポーズ推定を共同で修正する。 我々のアプローチは自己監督的であり、外観、ポーズ、および3D形状のための追加の真実ラベルを必要としない。 本研究では,表面非合成解析を用いた判別的ポーズ推定手法が,純粋に識別的単眼的ポーズ推定手法を上回り,複数の視点によく一般化することを示す。

While deep learning has reshaped the classical motion capture pipeline, generative, analysis-by-synthesis elements are still in use to recover fine details if a high-quality 3D model of the user is available. Unfortunately, obtaining such a model for every user a priori is challenging, time-consuming, and limits the application scenarios. We propose a novel test-time optimization approach for monocular motion capture that learns a volumetric body model of the user in a self-supervised manner. To this end, our approach combines the advantages of neural radiance fields with an articulated skeleton representation. Our proposed skeleton embedding serves as a common reference that links constraints across time, thereby reducing the number of required camera views from traditionally dozens of calibrated cameras, down to a single uncalibrated one. As a starting point, we employ the output of an off-the-shelf model that predicts the 3D skeleton pose. The volumetric body shape and appearance is then learned from scratch, while jointly refining the initial pose estimate. Our approach is self-supervised and does not require any additional ground truth labels for appearance, pose, or 3D shape. We demonstrate that our novel combination of a discriminative pose estimation technique with surface-free analysis-by-synthesis outperforms purely discriminative monocular pose estimation approaches and generalizes well to multiple views.
翻訳日:2021-02-12 14:05:24 公開日:2021-02-11
# 不均一データに対するプライバシー保護型自己学習

Privacy-Preserving Self-Taught Federated Learning for Heterogeneous Data ( http://arxiv.org/abs/2102.05883v1 )

ライセンス: Link先を確認
Kai-Fung Chu, Lintao Zhang(参考訳) 多くのアプリケーションシナリオでは、複数の参加者によるマシンラーニングモデルのトレーニングが求められている。 フェデレーテッド・ラーニング(FL)は、各パーティのローカルデータを用いて、データを他人に公開することなく、ディープラーニングモデルのジョイントトレーニングを可能にするために提案された。 様々な種類のFLメソッドの中で、垂直FLは、同じID空間と異なる特徴空間を持つデータソースを処理するカテゴリです。 しかし、既存の垂直FL法は、制限ニューラルネットワーク構造、遅いトレーニング速度などの制限に悩まされ、しばしば比類のないIDを持つデータを利用する能力が欠けている。 本研究では, 分散教師付き深層学習タスクに, 監視されていない特徴抽出技術を用いた, 自己学習型フェデレーションラーニングと呼ばれるFL手法を提案する。 この方法では、潜在変数だけがモデルトレーニングのために他の当事者に送信され、プライバシはアクティベーション、重み、バイアスのデータとパラメータをローカルに保存することで保持される。 提案手法の有効性と効率性を評価するために, 広範な実験を行った。

Many application scenarios call for training a machine learning model among multiple participants. Federated learning (FL) was proposed to enable joint training of a deep learning model using the local data in each party without revealing the data to others. Among various types of FL methods, vertical FL is a category to handle data sources with the same ID space and different feature spaces. However, existing vertical FL methods suffer from limitations such as restrictive neural network structure, slow training speed, and often lack the ability to take advantage of data with unmatched IDs. In this work, we propose an FL method called self-taught federated learning to address the aforementioned issues, which uses unsupervised feature extraction techniques for distributed supervised deep learning tasks. In this method, only latent variables are transmitted to other parties for model training, while privacy is preserved by storing the data and parameters of activations, weights, and biases locally. Extensive experiments are performed to evaluate and demonstrate the validity and efficiency of the proposed method.
翻訳日:2021-02-12 14:04:17 公開日:2021-02-11
# 対実学習におけるロバストな一般化と安全なクエリ・スペシャライゼーション

Robust Generalization and Safe Query-Specialization in Counterfactual Learning to Rank ( http://arxiv.org/abs/2102.05990v1 )

ライセンス: Link先を確認
Harrie Oosterhuis and Maarten de Rijke(参考訳) 既存の対実学習ランキング(LTR)は、文書の特徴に基づいて最適なランキングを予測する特徴ベースモデルの最適化に重点を置いている。 バンディットアルゴリズムに基づくLTR法は、多くの場合、クエリ毎の最適なランキングを記憶する表モデルを最適化する。 これらのモデルには独自の利点とデメリットがある。 機能ベースのモデルは、以前は見えなかったものを含め、多くのクエリで非常に堅牢なパフォーマンスを提供するが、利用可能な機能は、モデルが予測できるランキングを制限することが多い。 対照的に、表モデルは記憶によって任意のランキングに収束することができる。 しかし、記憶はノイズに非常に近いため、多数のユーザインタラクションが利用可能である場合にのみ、表モデルが信頼できるものになる。 安全なときに記憶ベースの最適化を追求した堅牢な反実LTR法を開発できますか? 提案手法は,安全な場合,クエリ毎のメモリ化を追求する,ロバストな特徴ベースの対実的LTR手法であるgenSPECアルゴリズムを導入する。 GENSPECは、すべてのクエリにまたがる堅牢なパフォーマンス、および専門化のための多くの表形式のモデル:単一のクエリで高いパフォーマンスのために最適化された、単一の機能ベースのモデルを最適化する。 GENSPECは、クエリ毎にデプロイするモデルを選択するために、新しい相対的な高信頼境界を使用する。 これにより、GenSPECは、一般化された機能ベースのモデルの堅牢性で、成功した特殊タブラーモデルの高性能を享受します。 その結果,GENSPEC は十分なクリックデータを持つクエリのパフォーマンスを最適に保ちながら,ほとんどノイズのないクエリを堅牢に動作させることが示された。

Existing work in counterfactual Learning to Rank (LTR) has focussed on optimizing feature-based models that predict the optimal ranking based on document features. LTR methods based on bandit algorithms often optimize tabular models that memorize the optimal ranking per query. These types of model have their own advantages and disadvantages. Feature-based models provide very robust performance across many queries, including those previously unseen, however, the available features often limit the rankings the model can predict. In contrast, tabular models can converge on any possible ranking through memorization. However, memorization is extremely prone to noise, which makes tabular models reliable only when large numbers of user interactions are available. Can we develop a robust counterfactual LTR method that pursues memorization-based optimization whenever it is safe to do? We introduce the Generalization and Specialization (GENSPEC) algorithm, a robust feature-based counterfactual LTR method that pursues per-query memorization when it is safe to do so. GENSPEC optimizes a single feature-based model for generalization: robust performance across all queries, and many tabular models for specialization: each optimized for high performance on a single query. GENSPEC uses novel relative high-confidence bounds to choose which model to deploy per query. By doing so, GENSPEC enjoys the high performance of successfully specialized tabular models with the robustness of a generalized feature-based model. Our results show that GENSPEC leads to optimal performance on queries with sufficient click data, while having robust behavior on queries with little or noisy data.
翻訳日:2021-02-12 14:04:01 公開日:2021-02-11
# ラベル差分プライバシーを用いた深層学習について

On Deep Learning with Label Differential Privacy ( http://arxiv.org/abs/2102.06062v1 )

ライセンス: Link先を確認
Badih Ghazi, Noah Golowich, Ravi Kumar, Pasin Manurangsi, Chiyuan Zhang(参考訳) 多くの機械学習アプリケーションでは、トレーニングデータは極めて機密性の高い個人情報を含むことができる。 機密情報を漏らさず、精度を損なわないような大規模な深層モデルの訓練は重要な課題である。 本研究では,ラベルの機密性が考慮され保護されるべきマルチクラス分類設定について検討する。 本稿では,ラベル差分プライバシを用いたディープニューラルネットワークのトレーニングアルゴリズムを提案し,いくつかのデータセットで評価を行う。 Fashion MNIST と CIFAR-10 に対して、我々のアルゴリズムは最先端技術よりもはるかに精度が高く、一部の状況では非プライベートベースラインに近い。 また、難易度の高いCIFAR-100データセットに対する非自明なトレーニング結果も提供する。 本アルゴリズムは, 凸型経験的リスク最小化の設定において, ラベル差分プライバシーを用いたトレーニングの複雑さは次元非依存であり, バニラ差分プライバシーとは対照的であることを示す理論的知見を補完する。

In many machine learning applications, the training data can contain highly sensitive personal information. Training large-scale deep models that are guaranteed not to leak sensitive information while not compromising their accuracy has been a significant challenge. In this work, we study the multi-class classification setting where the labels are considered sensitive and ought to be protected. We propose a new algorithm for training deep neural networks with label differential privacy, and run evaluations on several datasets. For Fashion MNIST and CIFAR-10, we demonstrate that our algorithm achieves significantly higher accuracy than the state-of-the-art, and in some regimes comes close to the non-private baselines. We also provide non-trivial training results for the the challenging CIFAR-100 dataset. We complement our algorithm with theoretical findings showing that in the setting of convex empirical risk minimization, the sample complexity of training with label differential privacy is dimension-independent, which is in contrast to vanilla differential privacy.
翻訳日:2021-02-12 14:03:12 公開日:2021-02-11
# 変分画像復元のための学習局所正規化

Learning local regularization for variational image restoration ( http://arxiv.org/abs/2102.06155v1 )

ライセンス: Link先を確認
Jean Prost, Antoine Houdard, Andr\'es Almansa and Nicolas Papadakis(参考訳) 本研究では,一般画像復元問題を解決するための局所正規化モデルを学ぶための枠組みを提案する。 この正規化子は、小さな画像パッチに対応する受容フィールドを通して画像を見る完全畳み込みニューラルネットワークで定義される。 レギュラライザーは、Wasserstein生成敵対ネットワークベースのエネルギーを使用して、クリーンパッチと劣化パッチの不対分布間の批判として学習される。 これにより、任意の画像復元問題に組み込むことができる正規化機能が得られます。 フレームワークの効率性は、最終的にアプリケーションのデノイジングとデブラリングに示される。

In this work, we propose a framework to learn a local regularization model for solving general image restoration problems. This regularizer is defined with a fully convolutional neural network that sees the image through a receptive field corresponding to small image patches. The regularizer is then learned as a critic between unpaired distributions of clean and degraded patches using a Wasserstein generative adversarial networks based energy. This yields a regularization function that can be incorporated in any image restoration problem. The efficiency of the framework is finally shown on denoising and deblurring applications.
翻訳日:2021-02-12 14:02:54 公開日:2021-02-11
# 同時拡張・仮想・複合現実遠隔協調システムに関する調査研究

A Survey on Synchronous Augmented, Virtual and Mixed Reality Remote Collaboration Systems ( http://arxiv.org/abs/2102.05998v1 )

ライセンス: Link先を確認
Alexander Sch\"afer, Gerd Reis, Didier Stricker(参考訳) 遠隔コラボレーションシステムは今日の社会、特に身体的距離が推奨される時代において、ますます重要になっている。 産業、研究、個人は、遠隔地における協力とネットワークの困難な課題に直面している。 ビデオと遠隔会議はすでに広まっているが、拡張現実、バーチャル、複合現実のコラボレーションシステムはいまだニッチな技術だ。 本稿では, 同期遠隔協調システムの最近の展開の概要を述べるとともに, 環境, アバター, 相互作用の3つの主成分に分け, 分類法を作成する。 アバター、仮想環境、視覚化スタイル、インタラクションといった特定のトピックに関する簡潔な情報を提供することで、異なる分野で働く研究者を支援するために、既存のシステムの概要を分類する。 この作業の焦点は、遠くからのコラボレーションの同期にある。 100以上の出版物と25の商業システムを含む、合計82の遠隔共同作業システムについて論じている。

Remote collaboration systems have become increasingly important in today's society, especially during times where physical distancing is advised. Industry, research and individuals face the challenging task of collaborating and networking over long distances. While video and teleconferencing are already widespread, collaboration systems in augmented, virtual, and mixed reality are still a niche technology. We provide an overview of recent developments of synchronous remote collaboration systems and create a taxonomy by dividing them into three main components that form such systems: Environment, Avatars, and Interaction. A thorough overview of existing systems is given, categorising their main contributions in order to help researchers working in different fields by providing concise information about specific topics such as avatars, virtual environment, visualisation styles and interaction. The focus of this work is clearly on synchronised collaboration from a distance. A total of 82 unique systems for remote collaboration are discussed, including more than 100 publications and 25 commercial systems.
翻訳日:2021-02-12 14:02:46 公開日:2021-02-11
# スペクトル分離波面操作と視線追跡のための非局所メタサーフェス

Nonlocal metasurfaces for spectrally decoupled wavefront manipulation and eye tracking ( http://arxiv.org/abs/2102.05790v1 )

ライセンス: Link先を確認
Jung-Hwan Song, Jorik van de Groep, Soo Jin Kim, and Mark L. Brongersma(参考訳) 準表面ベースの光学素子は通常、散乱ナノ構造の密集した配列で振幅と位相の空間変化を付与することで光波を操作する。 ナノ構造の高局所および低光学品質要素(Q)モードは、電磁界を準局所的に制御できるため、波面形成に有用である。 しかし、多くの新しいイメージング、センシング、通信、ディスプレイ、および非線形光学アプリケーションは、代わりに、顕著なエネルギー貯蔵と波面上のはるかに高いスペクトル制御を提供するフラットで高Q光学素子を必要とします。 ここでは、異なる波長での光-物質相互作用と完全に分離された光学関数を際立たせる原子間メタサーフェ要素を備えた高Q非局所メタサーフェスを実証します。 眼球追跡におけるこのような平坦な視機能の利用の可能性を示す。 ここでは、通常の眼鏡のペアにパターン化されたメタサーフェは、可視スペクトル全体の世界の乱れのないビューを提供し、近赤外光をカメラにリダイレクトし、目のイメージングを可能にします。

Metasurface-based optical elements typically manipulate light waves by imparting space-variant changes in the amplitude and phase with a dense array of scattering nanostructures. The highly-localized and low optical-quality-factor (Q) modes of nanostructures are beneficial for wavefront-shaping as they afford quasi-local control over the electromagnetic fields. However, many emerging imaging, sensing, communication, display, and non-linear optics applications instead require flat, high-Q optical elements that provide notable energy storage and a much higher degree of spectral control over the wavefront. Here, we demonstrate high-Q, nonlocal metasurfaces with atomically-thin metasurface elements that offer notably enhanced light-matter interaction and fully-decoupled optical functions at different wavelengths. We illustrate a possible use of such a flat optic in eye tracking for eye-wear. Here, a metasurface patterned on a regular pair of eye-glasses provides an unperturbed view of the world across the visible spectrum and redirects near-infrared light to a camera to allow imaging of the eye.
翻訳日:2021-02-12 14:01:57 公開日:2021-02-11
# 人工ニューラルネットワークを用いた混合状態エンタングルメント分類

Mixed State Entanglement Classification using Artificial Neural Networks ( http://arxiv.org/abs/2102.06053v1 )

ライセンス: Link先を確認
Cillian Harney, Mauro Paternostro, Stefano Pirandola(参考訳) 量子エンタングルメントの分類と定量化の信頼できる方法は、量子技術におけるその利用を理解するために基本的である。 そのような方法の1つは、分離可能ニューラルネットワーク量子状態(SNNS)と呼ばれ、絡み合う性質が明示的にプログラム可能である量子状態のニューラルネットワークに触発されたパラメータ化を用いる。 生成的機械学習手法と組み合わせ、このアングルは、ターゲット量子状態のエンタングルメント特性を推定/測定するために使用できる非常に特定の形態のエンタングルメントの研究を可能にする。 本研究では,多成分混合状態へのsnsの利用を拡張し,複雑に絡み合った量子システムの研究に汎用的かつ効率的なツールを提供する。 本稿では,新しい三成分絡み合い測度の計算や,quditチャネル容量に対する究極上界の近似など,多くの例を通して本手法の有効性を示す。

Reliable methods for the classification and quantification of quantum entanglement are fundamental to understanding its exploitation in quantum technologies. One such method, known as Separable Neural Network Quantum States (SNNS), employs a neural network inspired parameterisation of quantum states whose entanglement properties are explicitly programmable. Combined with generative machine learning methods, this ansatz allows for the study of very specific forms of entanglement which can be used to infer/measure entanglement properties of target quantum states. In this work, we extend the use of SNNS to mixed, multipartite states, providing a versatile and efficient tool for the investigation of intricately entangled quantum systems. We illustrate the effectiveness of our method through a number of examples, such as the computation of novel tripartite entanglement measures, and the approximation of ultimate upper bounds for qudit channel capacities.
翻訳日:2021-02-12 14:01:39 公開日:2021-02-11
# (参考訳) Covid-19のアウトブレイクを解析・予測する機械学習手法の比較分析

Comparative Analysis of Machine Learning Approaches to Analyze and Predict the Covid-19 Outbreak ( http://arxiv.org/abs/2102.05960v1 )

ライセンス: CC BY 4.0
Muhammad Naeem, Jian Yu, Muhammad Aamir, Sajjad Ahmad Khan, Olayinka Adeleye, Zardad Khan(参考訳) 背景。 パンデミックの時期を予測することは、公衆衛生のメッセージや医師の意識向上といった予防措置を講じることで、病気の影響を減少させる。 新型コロナウイルスの累積発生率の継続的かつ急速な増加に伴い、さまざまな機械学習(ML)モデルを含む統計および発生予測モデルは、流行の傾向を追跡し、予測するために研究コミュニティによって使用され、また、その拡散と闘い、管理するための適切な戦略を開発しています。 方法。 本稿では,Support Vector Machine,Random Forest,K-Nearest Neighbor,Artificial Neural NetworkなどのMLアプローチの比較分析を行い,疫学領域における新型コロナウイルスの流行を予測する。 まず,自己回帰的分散ラグ(ardl)法を適用し,時系列のcovid-19データセットの短期的および長期的関係を同定しモデル化する。 すなわち、応答変数と各説明時系列変数の間の遅延を独立変数として決定する。 その後、ARDLによって選択された回帰モデルにおいて、その遅延に関する有意な変数が流行の傾向を予測および予測するために使用される。 結果。 モデル精度には、Root Mean Square Error(RMSE)、Mean Absolute Error(MAE)、Mean Absolute Percentage Error(MAPE)などの統計的測定が用いられる。 確認,回収,死亡の最良のモデルに対するMAPEの値は,それぞれ0.407,0.094,0.124であり,精度の高い予測値に該当する。 また,毎日の死亡,回復の予測を15日先取りして計算し,あらゆる面で患者と患者が変動していることを確認した。 その上、結果は進化する短期政策の意思決定を支援するためのMLアルゴリズムの利点を明らかにします。

Background. Forecasting the time of forthcoming pandemic reduces the impact of diseases by taking precautionary steps such as public health messaging and raising the consciousness of doctors. With the continuous and rapid increase in the cumulative incidence of COVID-19, statistical and outbreak prediction models including various machine learning (ML) models are being used by the research community to track and predict the trend of the epidemic, and also in developing appropriate strategies to combat and manage its spread. Methods. In this paper, we present a comparative analysis of various ML approaches including Support Vector Machine, Random Forest, K-Nearest Neighbor and Artificial Neural Network in predicting the COVID-19 outbreak in the epidemiological domain. We first apply the autoregressive distributed lag (ARDL) method to identify and model the short and long-run relationships of the time-series COVID-19 datasets. That is, we determine the lags between a response variable and its respective explanatory time series variables as independent variables. Then, the resulting significant variables concerning their lags are used in the regression model selected by the ARDL for predicting and forecasting the trend of the epidemic. Results. Statistical measures i.e., Root Mean Square Error (RMSE), Mean Absolute Error (MAE) and Mean Absolute Percentage Error (MAPE) are used for model accuracy. The values of MAPE for the best selected models for confirmed, recovered and deaths cases are 0.407, 0.094 and 0.124 respectively, which falls under the category of highly accurate forecasts. In addition, we computed fifteen days ahead forecast for the daily deaths, recover, and confirm patients and the cases fluctuated across time in all aspects. Besides, the results reveal the advantages of ML algorithms for supporting decision making of evolving short term policies.
翻訳日:2021-02-12 14:00:56 公開日:2021-02-11
# (参考訳) バックボーンニューラルネットワークの前処理潜時空間からの最適トランスポートマッピングを用いた移動学習に基づく数ショット分類

Transfer learning based few-shot classification using optimal transport mapping from preprocessed latent space of backbone neural network ( http://arxiv.org/abs/2102.05176v2 )

ライセンス: CC BY 4.0
Tom\'a\v{s} Chobola, Daniel Va\v{s}ata, Pavel Kord\'ik(参考訳) MetaDL Challenge 2020は、画像分類タスクを数ショット設定で重視した。 本論文は,大会における2番目に優れた応募について述べる。 メタラーニングアプローチでは,ガウス分布をよりよく追従するために,各クラスに対してバックボーンネットワークによって生成された潜伏空間内のクラス分布を変化させる。 Latent Space Transformアルゴリズムと呼ばれるこの操作の後、クラスの中心はExpectation Maximizationアルゴリズムの反復的な方法でさらに整列され、ラベル付きインスタンス上に頻繁に提供されるラベル付きデータに情報を利用する。 そこで本研究では,シンクホーンアルゴリズムを用いた最適トランスポートマッピングを提案する。 提案手法は,K-Nearest Neighbourアルゴリズムやガウス混合モデルなどを用いて,従来の手法よりも優れていることを示す。

MetaDL Challenge 2020 focused on image classification tasks in few-shot settings. This paper describes second best submission in the competition. Our meta learning approach modifies the distribution of classes in a latent space produced by a backbone network for each class in order to better follow the Gaussian distribution. After this operation which we call Latent Space Transform algorithm, centers of classes are further aligned in an iterative fashion of the Expectation Maximisation algorithm to utilize information in unlabeled data that are often provided on top of few labelled instances. For this task, we utilize optimal transport mapping using the Sinkhorn algorithm. Our experiments show that this approach outperforms previous works as well as other variants of the algorithm, using K-Nearest Neighbour algorithm, Gaussian Mixture Models, etc.
翻訳日:2021-02-12 11:53:26 公開日:2021-02-11
# 単純エージェント・複雑環境:エージェント状態を用いた効率的な強化学習

Simple Agent, Complex Environment: Efficient Reinforcement Learning with Agent State ( http://arxiv.org/abs/2102.05261v2 )

ライセンス: Link先を確認
Shi Dong, Benjamin Van Roy, Zhengyuan Zhou(参考訳) 我々は,エージェント状態ダイナミクスと報酬関数のみの仕様により,任意の環境においてある程度の能力で動作可能な簡易強化学習エージェントを設計した。 エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。 時間差や探索を促進する楽観的なブーストに応じて、値関数はインクリメンタルに更新されます。 エージェントは、この値関数に関して欲張りなアクションを実行します。 エージェント状態とアクションの数において、最適に近い状態を達成するのに要する時間は多項式であり、また、エージェント状態を通してのみ履歴に依存するものからなる参照ポリシークラス内の最良のポリシーの報酬混合時間である。 特に、他の政策や歴史統計に関連付けられた環境状態の数や混合時間に、これ以上依存することはない。 その結果、高次元の相互作用履歴からコンパクトで関連性の高い特徴を抽出する能力を示した(深層)表現学習の潜在的な利点が明らかになった。

We design a simple reinforcement learning agent that, with a specification only of agent state dynamics and a reward function, can operate with some degree of competence in any environment. The agent maintains only visitation counts and value estimates for each agent-state-action pair. The value function is updated incrementally in response to temporal differences and optimistic boosts that encourage exploration. The agent executes actions that are greedy with respect to this value function. We establish a regret bound demonstrating convergence to near-optimal per-period performance, where the time taken to achieve near-optimality is polynomial in the number of agent states and actions, as well as the reward mixing time of the best policy within the reference policy class, which is comprised of those that depend on history only through agent state. Notably, there is no further dependence on the number of environment states or mixing times associated with other policies or statistics of history. Our result sheds light on the potential benefits of (deep) representation learning, which has demonstrated the capability to extract compact and relevant features from high-dimensional interaction histories.
翻訳日:2021-02-12 11:44:09 公開日:2021-02-11
# より多く -- 分類ヘッドを追加して一般化ギャップを絞り込む

More Is More -- Narrowing the Generalization Gap by Adding Classification Heads ( http://arxiv.org/abs/2102.04924v2 )

ライセンス: Link先を確認
Roee Cates, Daphna Weinshall(参考訳) オーバーフィットは、一般的に機械学習、特にディープラーニングにおいて根本的な問題です。 画像の分類におけるオーバーフィットを減らし、一般化を改善するために、回転や反射などの変換群に不変性を用いるものもある。 しかし、全てのオブジェクトが必ずしも同じ不変性を示すわけではないため、ネットワークがデータから有用な不変性を学ぶことが望ましいと考えられる。 そのために、自己監督を動機に、「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのアーキテクチャ強化と、それに適したトレーニングアルゴリズムを紹介します。 私達のモデルは訓練の時間だけに使用し、そして予測のためにpruned、基礎モデルに等価なアーキテクチャで起因します。 そこで,本研究では,基本モデルにおける最後の層の畳み込み核に対してソフト不変性を強制することで実現する一般化の改善を示しながら,各データセットのパフォーマンスを改善できることを示した。 提案手法をサポートするために理論解析を行う。

Overfit is a fundamental problem in machine learning in general, and in deep learning in particular. In order to reduce overfit and improve generalization in the classification of images, some employ invariance to a group of transformations, such as rotations and reflections. However, since not all objects exhibit necessarily the same invariance, it seems desirable to allow the network to learn the useful level of invariance from the data. To this end, motivated by self-supervision, we introduce an architecture enhancement for existing neural network models based on input transformations, termed 'TransNet', together with a training algorithm suitable for it. Our model can be employed during training time only and then pruned for prediction, resulting in an equivalent architecture to the base model. Thus pruned, we show that our model improves performance on various data-sets while exhibiting improved generalization, which is achieved in turn by enforcing soft invariance on the convolutional kernels of the last layer in the base model. Theoretical analysis is provided to support the proposed method.
翻訳日:2021-02-12 11:43:50 公開日:2021-02-11
# パワーローデータストリーム下のカウントミンスケッチに対するベイズ非パラメトリックアプローチ

A Bayesian nonparametric approach to count-min sketch under power-law data streams ( http://arxiv.org/abs/2102.03743v2 )

ライセンス: Link先を確認
Emanuele Dolera, Stefano Favaro, Stefano Peluchetti(参考訳) count-min sketch (cms) は、ランダムハッシュによるデータの圧縮表現を用いて、大きなデータストリーム内のトークンの頻度を推定するランダムデータ構造である。 本論文では、最近のベイズ非パラメトリック(BNP)ビューをCMSに頼って、パワーローデータストリームの下で新しい学習強化CMSを開発する。 ストリーム内のトークンは未知の離散分布から引き出されると仮定し、それ以前に正規化された逆ガウス過程(NIGP)が与えられる。 そして、NIGPの分布特性を用いて、ハッシュデータに基づき、ストリーム内のトークンの周波数の後方分布を計算し、対応するBNP推定を行う。 合成および実データへの応用は,低周波トークンの推定において顕著な性能を達成していることを示す。 これは自然言語処理の文脈において望ましい特徴として知られており、データの力則の振る舞いの文脈では確かに一般的である。

The count-min sketch (CMS) is a randomized data structure that provides estimates of tokens' frequencies in a large data stream using a compressed representation of the data by random hashing. In this paper, we rely on a recent Bayesian nonparametric (BNP) view on the CMS to develop a novel learning-augmented CMS under power-law data streams. We assume that tokens in the stream are drawn from an unknown discrete distribution, which is endowed with a normalized inverse Gaussian process (NIGP) prior. Then, using distributional properties of the NIGP, we compute the posterior distribution of a token's frequency in the stream, given the hashed data, and in turn corresponding BNP estimates. Applications to synthetic and real data show that our approach achieves a remarkable performance in the estimation of low-frequency tokens. This is known to be a desirable feature in the context of natural language processing, where it is indeed common in the context of the power-law behaviour of the data.
翻訳日:2021-02-12 10:12:12 公開日:2021-02-11