このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210426となっている論文です。

PDF登録状況(公開日: 20210426)

TitleAuthorsAbstract論文公表日・翻訳日
# 不可能測定には不可能装置が必要

Impossible measurements require impossible apparatus ( http://arxiv.org/abs/2003.04660v4 )

ライセンス: Link先を確認
Henning Bostelmann, Christopher J. Fewster, Maximilian H. Ruep(参考訳) 相対論的場の量子論におけるよく認識されたオープン概念問題は、測定と因果関係の関係に関するものである。 量子測定規則のナイーブな一般化により、超発光信号(「不可能測定」)が可能となる。 これは物理的に許容される量子測定と演算を線で表す問題を引き起こす。 この問題を最近提案されたフレームワークで解析し、局所的な測定(おそらくは時空の曲線)を物理的にシステムとプローブを結合することによって記述する。 この設定における状態更新規則は、システムとプローブの結合が局所的であることを仮定して因果関係と整合性を示す。 したがって、連続測定のための適切に定義されたフレームワークを確立することにより、物理的に許容される操作のクラスも提供する。 逆に、不可能な測定は不可能な(非局所的な)装置でのみ行うことができる。

A well-recognised open conceptual problem in relativistic quantum field theory concerns the relation between measurement and causality. Naive generalisations of quantum measurement rules can allow for superluminal signalling ('impossible measurements'). This raises the problem of delineating physically allowed quantum measurements and operations. We analyse this issue in a recently proposed framework in which local measurements (in possibly curved spacetime) are described physically by coupling the system to a probe. We show that the state-update rule in this setting is consistent with causality provided that the coupling between the system and probe is local. Thus, by establishing a well-defined framework for successive measurements, we also provide a class of physically allowed operations. Conversely, impossible measurements can only be performed using impossible (non-local) apparatus.
翻訳日:2023-05-30 01:03:44 公開日:2021-04-26
# 確率過程のシミュレーションにおける量子アドバンテージ

Quantum advantage in simulating stochastic processes ( http://arxiv.org/abs/2005.02403v2 )

ライセンス: Link先を確認
Kamil Korzekwa, Matteo Lostaglio(参考訳) 量子力学による古典確率過程のシミュレーション問題について検討し、メモリや時間量子の利点が生じる3つのシナリオを提示する。 まず,確率行列の埋め込み可能性問題の量子バージョンを導入し解析することにより,量子メモリレスダイナミクスが,必ずしもメモリを必要とする古典過程をシミュレートできることを示す。 第二に、確率過程$P$の時空間コストの概念を量子領域に拡張することにより、古典的コストよりも$P$をシミュレートする量子コストの利点を証明できる。 第3に、量子制御を持つマルコフマスター方程式でアクセス可能な古典状態の集合は、古典制御でアクセス可能な状態の集合よりも大きく、例えば冷却プロトコルにおいて潜在的に有利であることを示す。

We investigate the problem of simulating classical stochastic processes through quantum dynamics, and present three scenarios where memory or time quantum advantages arise. First, by introducing and analysing a quantum version of the embeddability problem for stochastic matrices, we show that quantum memoryless dynamics can simulate classical processes that necessarily require memory. Second, by extending the notion of space-time cost of a stochastic process $P$ to the quantum domain, we prove an advantage of the quantum cost of simulating $P$ over the classical cost. Third, we demonstrate that the set of classical states accessible via Markovian master equations with quantum controls is larger than the set of those accessible with classical controls, leading, e.g., to a potential advantage in cooling protocols.
翻訳日:2023-05-21 02:49:53 公開日:2021-04-26
# デバイス非依存量子鍵分布の上限

Upper bounds on device-independent quantum key distribution ( http://arxiv.org/abs/2005.13511v3 )

ライセンス: Link先を確認
Matthias Christandl, Roberto Ferrara, Karol Horodecki(参考訳) 量子鍵分布(Quantum key distribution、QKD)は、量子粒子(例えば光子)の伝送によって秘密鍵を送信者と受信者に分配する手法である。 デバイス独立量子鍵分布(Device-independent quantum key distribution, DIQKD)は、ベルの定理にインスパイアされたデバイスにおける入力および出力の統計のみに基づいて送信側と受信側がプロトコルを基盤とする、より強力なセキュリティ概念を持つQKDのバージョンである。 送信側と受信側の間に分布する任意の2成分量子状態またはそれらを結ぶ量子チャネルに対して、diqkdが実行される速度について検討する。 我々は、QKDで可能な上限を超える達成可能な速度の上限を与える。 特に、DIQKDレートが無視される間、QKDレートが重要な状態とチャネルを構築する。 このギャップは、絡み合った2量子状態に対する標準的な後処理技術を使用する場合の実用事例として説明される。

Quantum key distribution (QKD) is a method that distributes a secret key to a sender and a receiver by the transmission of quantum particles (e.g. photons). Device-independent quantum key distribution (DIQKD) is a version of QKD with a stronger notion of security, in that the sender and receiver base their protocol only on the statistics of input and outputs of their devices as inspired by Bell's theorem. We study the rate at which DIQKD can be carried out for a given bipartite quantum state distributed between the sender and receiver or a quantum channel connecting them. We provide upper bounds on the achievable rate going beyond upper bounds possible for QKD. In particular, we construct states and channels where the QKD rate is significant while the DIQKD rate is negligible. This gap is illustrated for a practical case arising when using standard post-processing techniques for entangled two-qubit states.
翻訳日:2023-05-18 05:02:53 公開日:2021-04-26
# 相互作用する量子物質におけるダイナミクスのための変分古典ネットワーク

Variational classical networks for dynamics in interacting quantum matter ( http://arxiv.org/abs/2007.16084v2 )

ライセンス: Link先を確認
Roberto Verdel, Markus Schmitt, Yi-Ping Huang, Petr Karpov, and Markus Heyl(参考訳) 相関量子物質におけるダイナミクスは難しい問題であり、その厳密な解は一般に構成員の数に指数関数的に増加する計算作業を伴う。 近年、一次元系において顕著な進歩が見られたが、より高次元の量子モデルと相互作用するためには、さらなる複雑さの層が組み込まれているため、はるかに少ない。 本研究では,量子多体系の力学を1次元以上の次元で効率的に制御可能な変分法を適用した。 ここでは、古典スピンの複雑なネットワークに基づく、制御された方法で構築できる人工ニューラルネットワークのような波動関数の変分クラスを導入する。 本研究では, 量子クエンチを1次元および2次元のモデルで研究し, それらの性能について詳述する。 特に, 真に相互作用する2次元格子ゲージ理論, 量子リンクモデル(quantum link model)の非平衡ダイナミクスについて検討し, 本論文で概説した手法を応用し, 乱れのない局在ダイナミクス [p. karpov et al., phys. rev. lett. 126, 130401 (2021)] を特徴とする。 本研究は, 純粋に理論的問題に対処する枠組みを提供するだけでなく, 量子シミュレータにおける実験の理論的記述にも利用することができる。 重要なことに、本手法は古典極限を十分に定義した任意の量子多体系に適用することができる。

Dynamics in correlated quantum matter is a hard problem, as its exact solution generally involves a computational effort that grows exponentially with the number of constituents. While a remarkable progress has been witnessed in recent years for one-dimensional systems, much less has been achieved for interacting quantum models in higher dimensions, since they incorporate an additional layer of complexity. In this work, we employ a variational method that allows for an efficient and controlled computation of the dynamics of quantum many-body systems in one and higher dimensions. The approach presented here introduces a variational class of wavefunctions based on complex networks of classical spins akin to artificial neural networks, which can be constructed in a controlled fashion. We provide a detailed prescription for such constructions and illustrate their performance by studying quantum quenches in one- and two-dimensional models. In particular, we investigate the nonequilibrium dynamics of a genuinely interacting two-dimensional lattice gauge theory, the quantum link model, for which we have recently shown -- employing the technique discussed thoroughly in this paper -- that it features disorder-free localization dynamics [P. Karpov et al., Phys. Rev. Lett. 126, 130401 (2021)]. The present work not only supplies a framework to address purely theoretical questions but also could be used to provide a theoretical description of experiments in quantum simulators, which have recently seen an increased effort targeting two-dimensional geometries. Importantly, our method can be applied to any quantum many-body system with a well-defined classical limit.
翻訳日:2023-05-07 12:43:17 公開日:2021-04-26
# 量子鍵分布における光子エンタングルメント利用におけるソース統計の影響

Effect of source statistics on utilizing photon entanglement in quantum key distribution ( http://arxiv.org/abs/2008.07501v2 )

ライセンス: Link先を確認
Radim Ho\v{s}\'ak, Ivo Straka, Ana Predojevi\'c, Radim Filip, Miroslav Je\v{z}ek(参考訳) 絡み合い源品質評価のためのワークフローを提案する。 理論モデルと実験データから得られた量子状態密度行列に基づき、量子鍵分散プロトコルにおける量子絡み合い源の潜在的な性能を推定する。 このワークフローは、連続的に励起される自発的パラメトリック・ダウンコンバージョン(spdc)ソース向けに紹介され、生成した量子状態の多光子の性質によって引き起こされる絡み合いペア生成率と絡み合い品質の間のトレードオフを強調している。 本研究では,本手法を用いて,光子対の秘密鍵レートが検出ウィンドウ当たり0.029ビットに制限されていることを示す。 また,連続波ダウン変換源に対する最適ゲインが1つ存在することを報告する。 我々はSPDCソースから抽出されたセキュアな鍵レートのバウンダリを見つけ、量子ドットによって生成されるような完全な単一ペア量子状態と比較する。

A workflow for evaluation of entanglement source quality is proposed. Based on quantum state density matrices obtained from theoretical models and experimental data, we make an estimate of a potential performance of a quantum entanglement source in quantum key distribution protocols. This workflow is showcased for continuously pumped spontaneous parametric down-conversion (SPDC) source, where it highlights the trade-off between entangled pair generation rate and entanglement quality caused by multiphoton nature of the generated quantum states. We employ this characterization technique to show that secure key rate of down-converted photon pairs is limited to 0.029 bits per detection window due to intrinsic multiphoton contributions. We also report that there exists one optimum gain for continuous-wave down-conversion sources. We find a bound for secure key rate extracted from SPDC sources and make a comparison with perfectly single-pair quantum states, such as those produced by quantum dots.
翻訳日:2023-05-06 01:00:38 公開日:2021-04-26
# 振幅減衰チャネル識別における境界

Bounds on amplitude damping channel discrimination ( http://arxiv.org/abs/2009.04783v3 )

ライセンス: Link先を確認
Jason L. Pereira and Stefano Pirandola(参考訳) 振幅減衰(AD)チャネルは多くの物理シナリオにおいて良いモデルであるため、それらの区別するプロトコルの開発は量子情報科学において重要な課題である。 したがって、そのようなプロトコルの性能を束縛することが重要である。 適応性は識別プロトコルの性能を向上させることが示されているので、ADチャネルの識別可能性の限界を考慮に入れなければならない。 本稿では,ADチャネルに作用するバイナリチャネル識別プロトコルの出力(従って,そのようなプロトコルのエラー確率の低い値)の間のトレースノルム上の上限を,ダイヤモンドノルムに基づくチャネルシミュレーションと境界の両方を用いて大幅に強化する。 2つのADチャネル間のダイヤモンドノルムは分析的に発見され、一発識別プロトコルの最適誤差確率が与えられる。 また、プロトコル出力間の到達可能なトレースノルム(および達成可能なエラー確率の対応する上限)についてより厳密な下界を示す。 上界と下界は既存の境界と比較され、量子ハッキングや生物学的量子センシングシナリオに適用される。

Amplitude damping (AD) channels are good models for many physical scenarios, and so the development of protocols to discriminate between them is an important task in quantum information science. It is therefore important to bound the performance of such protocols. Since adaptivity has been shown to improve the performance of discrimination protocols, bounds on the distinguishability of AD channels must take this into account. In this paper, we use both channel simulation and a bound based on the diamond norm to significantly tighten the upper bound on the trace norm between the possible outputs of binary channel discrimination protocols acting on AD channels (and hence the lower bound on the error probability of such protocols). The diamond norm between any two AD channels is found analytically, giving the optimal error probability for a one-shot discrimination protocol. We also present a tighter lower bound on the achievable trace norm between protocol outputs (and a corresponding upper bound on the achievable error probability). The upper and lower bounds are compared with existing bounds and then applied to quantum hacking and biological quantum sensing scenarios.
翻訳日:2023-05-03 00:57:37 公開日:2021-04-26
# 最適環境定位

Optimal environment localization ( http://arxiv.org/abs/2009.10094v2 )

ライセンス: Link先を確認
Jason L. Pereira, Quntao Zhuang, Stefano Pirandola(参考訳) 量子チャネルは多くの物理過程をモデル化する。 このため、量子チャネル間の仮説検証は量子情報理論の基本的な課題である。 本稿では,背景チャネルの系列内でターゲット量子チャネルの位置を決定することを目的とした,チャネル位置探索のパラダイムケースについて考察する。 我々は,同じ透過率(または利得)のガウスチャネルを環境騒音の異なるレベルに考慮し,ボソニック系の設定においてこのモデルを検討する。 したがって、問題の目的は、入力されたマルチモードシステムに作用する複数の同一の背景環境のうち、ターゲット環境の位置を検出することとなる。 この多項識別問題に影響を及ぼす究極の誤差確率の境界を導出し、古典的入力状態を含むプロトコルに対する量子優位の解析条件を求める。 また,究極の誤差確率の数値境界を与える明示的なプロトコルも設計し,量子的な利点をしばしば実現している。 最後に,本モデルによる熱画像(暖かくなった背景に画素を埋め込む)と量子通信(ラインや周波数スペクトルで異なるレベルのノイズを局在させる)のタスクの直接的応用について考察する。

Quantum channels model many physical processes. For this reason, hypothesis testing between quantum channels is a fundamental task in quantum information theory. Here we consider the paradigmatic case of channel position finding, where the aim is to determine the position of a target quantum channel within a sequence of background channels. We explore this model in the setting of bosonic systems, considering Gaussian channels with the same transmissivity (or gain) but different levels of environmental noise. Thus the goal of the problem becomes detecting the position of a target environment among a number of identical background environments, all acting on an input multi-mode system. We derive bounds for the ultimate error probability affecting this multi-ary discrimination problem and find an analytic condition for quantum advantage over protocols involving classical input states. We also design an explicit protocol that gives numerical bounds on the ultimate error probability and often achieves quantum advantage. Finally, we consider direct applications of the model for tasks of thermal imaging (finding a warmer pixel in a colder background) and quantum communication (for localizing a different level of noise in a sequence of lines or a frequency spectrum).
翻訳日:2023-05-01 09:14:54 公開日:2021-04-26
# ボース・アインシュタイン凝縮体に注入された不純物の多体衝突ダイナミクス

Many-body collisional dynamics of impurities injected into a double-well trapped Bose-Einstein condensate ( http://arxiv.org/abs/2009.12147v2 )

ライセンス: Link先を確認
Friethjof Theel, Kevin Keiler, Simeon I. Mistakidis, Peter Schmelcher(参考訳) 我々は,2重ウェルに閉じ込められたボソニック媒質と衝突する調和的に閉じ込められた不純物の多体力学を解き明かした。 出現する相関のダイナミクスは、不純物-ナトリウム相互作用の強度に大きく依存し、異なる動的応答状態に分類できることを明らかにする。 強い魅力的な不純物-ナトリウムカップリングでは、不純物はボゾン浴に結合し、中間のアトラクションは効果的なトンネル処理を行う。 弱い魅力的または反発的なカップリングの場合、不純物はボソニック浴を貫通し、散逸振動運動を行う。 さらに不純物-バス反発の増大は、強い不純物-ナトリウムの絡み合う現象であるボゾン媒質の密度ピーク間の不純物のピンニングをもたらす。 強い反発に対して、不純物はボゾン媒質によって完全に反射される。 ダイナミックスに伴う微視的励起過程を解明するために、効果的なポテンシャル図を用いる。 その結果を2つのボソニック不純物の場合にまで拡張し、質的に類似した不純物ダイナミクスの存在を示す。

We unravel the many-body dynamics of a harmonically trapped impurity colliding with a bosonic medium confined in a double-well upon quenching the initially displaced harmonic trap to the center of the double-well. We reveal that the emerging correlation dynamics crucially depends on the impurity-medium interaction strength allowing for a classification into different dynamical response regimes. For strong attractive impurity-medium couplings the impurity is bound to the bosonic bath, while for intermediate attractions it undergoes an effective tunneling. In the case of weak attractive or repulsive couplings the impurity penetrates the bosonic bath and performs a dissipative oscillatory motion. Further increasing the impurity-bath repulsion results in the pinning of the impurity between the density peaks of the bosonic medium, a phenomenon that is associated with a strong impurity-medium entanglement. For strong repulsions the impurity is totally reflected by the bosonic medium. To unravel the underlying microscopic excitation processes accompanying the dynamics we employ an effective potential picture. We extend our results to the case of two bosonic impurities and demonstrate the existence of a qualitatively similar impurity dynamics.
翻訳日:2023-05-01 00:42:18 公開日:2021-04-26
# オンザガー代数をもつ可積分モデルにおけるハイゼンベルク方程式の閉階層

Closed hierarchy of Heisenberg equations in integrable models with Onsager algebra ( http://arxiv.org/abs/2012.00388v4 )

ライセンス: Link先を確認
Oleg Lychkovskiy(参考訳) 量子系の力学は結合ハイゼンベルク方程式によって記述できる。 一般的な多体系では、これらの方程式は指数関数的に大きな階層を形成し、近似を伴わない。 対照的に可積分系では、作用素の小さな部分集合はハミルトニアンとの可換に関して閉じることができる。 結果として、これらの作用素に対するハイゼンベルク方程式は解析的処理に対してより小さい閉じた系を形成することができる。 これは、ハミルトニアンがオンザガー代数の元である可積分モデルのクラスで実際に起こることを証明している。 この代数から作用素に対するハイゼンベルク方程式の系を明示的に解く。 横フィールドイジングモデルと超可積分なカイラル3状態ポッツモデルである。

Dynamics of a quantum system can be described by coupled Heisenberg equations. In a generic many-body system these equations form an exponentially large hierarchy that is intractable without approximations. In contrast, in an integrable system a small subset of operators can be closed with respect to commutation with the Hamiltonian. As a result, the Heisenberg equations for these operators can form a smaller closed system amenable to an analytical treatment. We demonstrate that this indeed happens in a class of integrable models where the Hamiltonian is an element of the Onsager algebra. We explicitly solve the system of Heisenberg equations for operators from this algebra. Two specific models are considered as examples: the transverse field Ising model and the superintegrable chiral 3-state Potts model.
翻訳日:2023-04-22 12:06:41 公開日:2021-04-26
# ネット中立性に関する技術展望

A Technological Perspective on Net Neutrality ( http://arxiv.org/abs/2012.14112v2 )

ライセンス: Link先を確認
William Wagner(参考訳) 本稿では,ネット中立性と議論に関連するインターネット基礎について,簡単な技術的考察を行う。 この文書は、米国の問題を取り巻く政治的・経済的議論を知らせる十分な技術的視点を提供しようとしている。 さらに,本研究は,既存のインターネット経済学が厳密に利用法に基づいており,このモデルがすべての利用を考慮できることを示す。 最後に、米国のネット中立性に関してISPの法律と規制があるべきだと論じます。

This paper serves as a brief technical examination of Net Neutrality and the Internet fundamentals relevant to the discussion. This document seeks to provide sufficient technical perspective that it may inform the political and economic debate surrounding the issue in the United States. Further, this research demonstrates that existing Internet economics are based strictly on usage, and that this model can account for all uses. Finally, I will argue that there should be some legislation and regulation of ISPs with regard to Net Neutrality in the U.S.
翻訳日:2023-04-19 01:57:32 公開日:2021-04-26
# 量子メソロジーにおける誤差補正の実用的限界

Practical Limits of Error Correction for Quantum Metrology ( http://arxiv.org/abs/2101.02823v2 )

ライセンス: Link先を確認
Nathan Shettell, William J. Munro, Damian Markham, Kae Nemoto(参考訳) ノイズは量子力学における最大の障害であり、達成可能な精度と感度を制限する。 ノイズの影響を軽減する技法はたくさんあるが、完全にはできない。 一般的に提案されている1つの手法は、繰り返し量子エラー補正を適用することである。 残念ながら、ハイゼンベルク限界の回復に必要な繰り返し周波数は、既存の量子技術では達成できない。 本稿では,現在の技術制約を念頭に,量子誤差補正の離散的適用について検討する。 我々は、量子誤差補正が有用であることを確立し、改善すべき因子を強調して、ハイゼンベルク限界レベル精度を確実に到達できるようにする。

Noise is the greatest obstacle in quantum metrology that limits it achievable precision and sensitivity. There are many techniques to mitigate the effect of noise, but this can never be done completely. One commonly proposed technique is to repeatedly apply quantum error correction. Unfortunately, the required repetition frequency needed to recover the Heisenberg limit is unachievable with the existing quantum technologies. In this article we explore the discrete application of quantum error correction with current technological limitations in mind. We establish that quantum error correction can be beneficial and highlight the factors which need to be improved so one can reliably reach the Heisenberg limit level precision.
翻訳日:2023-04-17 08:34:46 公開日:2021-04-26
# 量子ランダム性はキメラである

Quantum randomness is chimeric ( http://arxiv.org/abs/2102.13500v2 )

ライセンス: Link先を確認
Karl Svozil(参考訳) 量子力学が与えられると、それに由来するランダム性は空白か妄想的になりうるが、多くの実用目的には十分である。 ランダム」量子事象は、時空の出現と、いわゆる物体が集約される物理的性質の同定と密接に関連している。 また,不確定論のメタフィジカルスについても概説する。

If quantum mechanics is taken for granted the randomness derived from it may be vacuous or even delusional, yet sufficient for many practical purposes. "Random" quantum events are intimately related to the emergence of both space-time as well as the identification of physical properties through which so-called objects are aggregated. We also present a brief review of the metaphysics of indeterminism.
翻訳日:2023-04-10 00:48:05 公開日:2021-04-26
# 時変質量系に対するエルマコフ・ペニー方程式

Ermakov-Pinney equation for time-varying mass systems ( http://arxiv.org/abs/2103.10662v3 )

ライセンス: Link先を確認
Bijan Bagchi, Achal Vinod(参考訳) 一定質量時間依存系の不変量を構成するFring-Tenneyアプローチを時間依存質量粒子の場合まで拡張する。 パラメータ関数の導出法で記述された一連の方程式から、時間依存の質量関数を含む修正されたエルマコフ・ペニー方程式を追跡する。 具体的な例として、質量関数の指数的選択に焦点を当てる。

We extend Fring-Tenney approach of constructing invariants of constant mass time-dependent system to the case of a time-dependent mass particle. From a coupled set of equations described in terms of guiding parameter functions, we track down a modified Ermakov-Pinney equation involving a time-dependent mass function. As a concrete example we focus on an exponential choice of the mass function.
翻訳日:2023-04-07 11:02:58 公開日:2021-04-26
# 1+1)dスカラーqedのquditモデルシミュレーションの展望

Prospects for Simulating a Qudit Based Model of (1+1)d Scalar QED ( http://arxiv.org/abs/2104.10136v2 )

ライセンス: Link先を確認
Erik Gustafson(参考訳) 1+1)$dスカラー量子電磁力学のゲージ不変数値化をquditベースの量子コンピュータの任意のスピン切断に対して提示する。 我々は、普遍クディットゲート集合の観点から、トロッター作用素の構成を提供する。 qutritベースのspin-1エンコーディングとqubitエンコーディングとのコスト削減について述べる。 2つの異なるネイティブゲートセットに対するノイズシミュレーションを用いて、現在のクォートベースハードウェア上で単純な初期状態をシミュレートできることを示す。

We present a gauge invariant digitization of $(1+1)$d scalar quantum electrodynamics for an arbitrary spin truncation for qudit-based quantum computers. We provide a construction of the Trotter operator in terms of a universal qudit-gate set. The cost savings of using a qutrit based spin-1 encoding versus a qubit encoding are illustrated. We show that a simple initial state could be simulated on current qutrit based hardware using noisy simulations for two different native gate set.
翻訳日:2023-04-03 02:31:23 公開日:2021-04-26
# テンソル化量子資源の集中保存に関する基礎的限界

Fundamental limits on concentrating and preserving tensorized quantum resources ( http://arxiv.org/abs/2104.12307v1 )

ライセンス: Link先を確認
Jaehak Lee, Kyunghyun Baek, Jiyong Park, Jaewan Kim, and Hyunchul Nha(参考訳) 量子技術は多くのアプリケーションにおいて、非古典性、コヒーレンス、絡み合いのような量子資源を活用することで大きな利点をもたらす。 実際には、環境騒音は量子システムに必然的に影響を及ぼすので、量子資源をノイズから守ることは重要な問題である。 本研究では,いわゆるテンソル化特性を持つ量子資源の操作について検討し,それらの量子資源の集中と保存に関する基本的な限界を明らかにする。 資源測度がテンソル化特性と単調性を満たすと、自由操作により複数のノイズのあるコピーを単一のより良いリソースに集中することは不可能であることを示す。 さらに,チャネル出力資源がテンソル化特性を示す場合,ジョイントチャネル上の相関入力状態を用いることで,チャネルノイズから量子資源を保護できないことを示す。 我々は, 量子資源操作において, 定理が適用されるいくつかの実効的資源測度に対処し, それらの物理的意味を明らかにする。

Quantum technology offers great advantages in many applications by exploiting quantum resources like nonclassicality, coherence, and entanglement. In practice, an environmental noise unavoidably affects a quantum system and it is thus an important issue to protect quantum resources from noise. In this work, we investigate the manipulation of quantum resources possessing the so-called tensorization property and identify the fundamental limitations on concentrating and preserving those quantum resources. We show that if a resource measure satisfies the tensorization property as well as the monotonicity, it is impossible to concentrate multiple noisy copies into a single better resource by free operations. Furthermore, we show that quantum resources cannot be better protected from channel noises by employing correlated input states on joint channels if the channel output resource exhibits the tensorization property. We address several practical resource measures where our theorems apply and manifest their physical meanings in quantum resource manipulation.
翻訳日:2023-04-02 09:14:03 公開日:2021-04-26
# 熱貯水池の2原子系における量子相関のダイナミクスに対する弱い測定効果

Weak Measurement effects on dynamics of quantum correlations in a Two-atom System in Thermal Reservoirs ( http://arxiv.org/abs/2104.12401v1 )

ライセンス: Link先を確認
N. Ananth, R. Muthuganesan, V. K. Chandrasekar(参考訳) 熱貯水池と結合した2つの原子間の異なる形態の計測誘起非局所性 (min) によって捕獲された量子相関の動的挙動を調査し, エンタングルメントと比較した。 MIN量はより頑丈であり、ノイズは絡み合いで突然死を引き起こすことが示されている。 さらに,弱い測定値との量子相関を定量化し,測定強度の影響を観測した。 量子相関における平均光子数と弱い測定の役割も強調される。

The dynamical behavior of quantum correlations captured by different forms Measurement-Induced Nonlocality (MIN) between two atoms coupled with thermal reservoirs is investigated and compared with the entanglement. It is shown that the MIN quantities are more robust, while noise causes sudden death in entanglement. Further, we quantified the quantum correlation with weak measurement, and the effect of measurement strength is observed. The role of mean photon number and weak measurement on quantum correlation is also highlighted.
翻訳日:2023-04-02 09:10:56 公開日:2021-04-26
# フォトニック系における2点フェルミオンハバード模型のグリーン関数の計算

Calculating the Green's function of two-site Fermionic Hubbard model in a photonic system ( http://arxiv.org/abs/2104.12361v1 )

ライセンス: Link先を確認
Jie Zhu, Yuya O. Nakagawa, Chuan-Feng Li, Guang-Can Guo, and Yong-Sheng Zhang(参考訳) グリーンの機能は、現代の量子物理学における何十年にもわたって最大の課題の1つである多体系を研究するのに欠かせないツールであった。 グリーン関数の複雑な計算は、多体系の研究を妨げる。 ノイズの多い中間スケール量子デバイスと量子古典ハイブリッドアルゴリズムの出現は、グリーン関数を計算する新しい方法に刺激を与える。 本稿では,光子の偏極と自由度を利用して,高精度な変動量子状態を構成する光子のためのプログラム可能な量子回路の設計を行い,光子系における強相関材料の原型モデルである2点フェルミオンハバードモデルのグリーン関数を計算するための実験的実現について述べる。 モデルの基底状態と励起状態を得るために変分量子固有解法を実行し、固有状態間の遷移振幅を評価する。 実験結果はグリーン関数のスペクトル関数を示し、これは正確な結果とよく一致する。 我々の実証は、量子シミュレーションにおけるフォトニックシステムのさらなる可能性と、多体系や生物科学などの複雑な問題を解くための応用を提供する。

The Green's function has been an indispensable tool to study many-body systems that remain one of the biggest challenges in modern quantum physics for decades. The complicated calculation of Green's function impedes the research of many-body systems. The appearance of the noisy intermediate-scale quantum devices and quantum-classical hybrid algorithm inspire a new method to calculate Green's function. Here we design a programmable quantum circuit for photons with utilizing the polarization and the path degrees of freedom to construct a highly-precise variational quantum state of a photon, and first report the experimental realization for calculating the Green's function of the two-site Fermionic Hubbard model, a prototypical model for strongly-correlated materials, in photonic systems. We run the variational quantum eigensolver to obtain the ground state and excited states of the model, and then evaluate the transition amplitudes among the eigenstates. The experimental results present the spectral function of Green's function, which agrees well with the exact results. Our demonstration provides the further possibility of the photonic system in quantum simulation and applications in solving complicated problems in many-body systems, biological science, and so on.
翻訳日:2023-04-02 09:10:28 公開日:2021-04-26
# SiCにおける遷移金属欠陥の超微細構造

Hyperfine Structure of Transition Metal Defects in SiC ( http://arxiv.org/abs/2104.12351v1 )

ライセンス: Link先を確認
Benedikt Tissot and Guido Burkard(参考訳) 炭化ケイ素(SiC)の遷移金属(TM)欠陥は、特に通信帯域に発生するTM欠陥のため、量子技術において有望なプラットフォームである。 我々は、SiCのTM欠陥のD$-shellにおける活性電子とTM核スピンとの相互作用の理論を開発し、スピン軌道結合によって形成されるクラマース二重電子の有効超微細テンソルを導出する。 この理論に基づき、原子核状態と電子状態と核スピン操作と長寿命ヌンクレアスピンベースの量子記憶との交換の可能性について議論する。

Transition metal (TM) defects in silicon carbide (SiC) are a promising platform in quantum technology, especially because some TM defects emit in the telecom band. We develop a theory for the interaction of an active electron in the $D$-shell of a TM defect in SiC with the TM nuclear spin and derive the effective hyperfine tensor within the Kramers doublets formed by the spin-orbit coupling. Based on our theory we discuss the possibility to exchange the nuclear and electron states with potential applications for nuclear spin manipulation and long-lived nunclear-spin based quantum memories.
翻訳日:2023-04-02 09:10:09 公開日:2021-04-26
# ガウス状態からの結合振動子の絡み合いダイナミクス

Entanglement dynamics of coupled oscillators from Gaussian states ( http://arxiv.org/abs/2104.12332v1 )

ライセンス: Link先を確認
Cemal Dinc, Onur Oktay(参考訳) 本研究では, 2つの時間依存結合調和振動子からなる孤立量子系の絡み合いのダイナミクスについて検討する。 特定のガウス関数によるシステムのウィグナー表現の推定に依拠する数値的手法を用いて,システムの固有パラメータを瞬時にクエンチした後の絡み合いエントロピーの時間発展について検討する。 さらに, 時間依存型フォン・ノイマンエントロピーの解析式と数値計算したエントロピーデータとの比較から, 様々な角周波数の組み合わせに対して数値法の有効性を検証した。 また, 絡み合いのエントロピーが時間関数としてどのように変化するかを分析する。

In this work, we explore the dynamics of entanglement of an isolated quantum system consisting of two time-dependent, coupled harmonic oscillators. Through the use of a numerical method that relies on the estimation of the system's Wigner representation by a specific Gaussian function, we investigate the time evolution of the entanglement entropy after an instant quench in the inherent parameters of the system. Besides, from the comparison of the results obtained from the analytical expression for the time-dependent von Neumann entropy with the numerically computed entropy data, the effectiveness of the numerical method is tested for a variety of angular frequency combinations. Also, we analyze how the entropy of entanglement change as a function of time.
翻訳日:2023-04-02 09:09:19 公開日:2021-04-26
# キャビティマグノメカニクスによる量子状態の保存と検索

Cavity magnomechanical storage and retrieval of quantum states ( http://arxiv.org/abs/2104.12323v1 )

ライセンス: Link先を確認
Bijita Sarma, Thomas Busch, Jason Twamley(参考訳) マイクロ波キャビティモードにおける量子状態が、マグノメカニクス系における中間マグノンモードを介してフォノンモードに転送され、記憶されることを示す。 このために、マイクロ波空洞に挿入された鉄イットリウム鉄ガーネット(YIG)球において、マイクロ波とマグノンモードは磁気双極子相互作用によって結合され、YIG球内のマグノンとフォノンモードは磁歪力によって結合される。 キャビティモードとマグノンモードを時間内に調整し、マグノンモードを駆動することにより、キャビティモードとフォノンモードの間でStimulated Raman Adiabatic Passage(STIRAP)のようなコヒーレント転送が可能となる。 フォニックモードは、フォニックモードやマグノンモードよりも低い減衰を有するため、フォニック量子状態を長期間保存するために使用できる。 提案手法は,光量子情報のための量子メモリとしてマグノメカニクスシステムを利用する可能性を提供する。

We show how a quantum state in a microwave cavity mode can be transferred to and stored in a phononic mode via an intermediate magnon mode in a magnomechanical system. For this we consider a ferrimagnetic yttrium iron garnet (YIG) sphere inserted in a microwave cavity, where the microwave and magnon modes are coupled via a magnetic-dipole interaction and the magnon and phonon modes in the YIG sphere are coupled via magnetostrictive forces. By modulating the cavity and magnon detunings and the driving of the magnon mode in time, a Stimulated Raman Adiabatic Passage (STIRAP)-like coherent transfer becomes possible between the cavity mode and the phonon mode. The phononic mode can be used to store the photonic quantum state for long periods as it possesses lower damping than the photonic and magnon modes. Thus our proposed scheme offers a possibility of using magnomechanical systems as quantum memory for photonic quantum information.
翻訳日:2023-04-02 09:09:08 公開日:2021-04-26
# ニュートリノ混合におけるパンカラトナムベリー相

Pancharatnam-Berry phase in neutrino mixing ( http://arxiv.org/abs/2104.12632v1 )

ライセンス: Link先を確認
Manosh T.M., N. Shaji, Ramesh Babu Thayyullathil and Titus K. Mathew(参考訳) 純粋に幾何学的な起源を持つパンカラトナム・ベリー相(pbp)は、光線空間の再パラメトリゼーション不変量として現れる。 本稿では,pbpのニュートリノ混合における特性について検討する。 ニュートリノのフレーバーモードを独立なフレーバー真空状態にマッピングし,バーグマン不変量を用いてPBPを計算する。 我々は2つのフレーバー近似におけるpbpの正確な公式をキネマティックなアプローチで導出する。 結果は循環条件下でblasoneらによるこれまでの結果を再現する。 ムクンダとサイモンの業績に触発されて,総相と力学相を別々に調査する。 この手法により,混合パラメータ空間における結節点の存在を同定する。 ノーダルポイントでは、pbpは$\pi$の値で変化し、全体のフェーズから発生する。 結節点とMSW共鳴の直接関係を報告し,結節点に物理的意味を与える。 解析の結果, pbp の質量階層を区別し, 総エネルギーを変化させることで, 数値境界を $\delta m^2$ に設定できることがわかった。 我々は研究を3つのフレーバーモデルに拡張し、pbpが dirac $cp$ phase (\delta_{cp}$) に敏感であることを発見した。 我々の$N$-qubitアーキテクチャである$N$-flavour neutrinoモデルを用いて、ニュートリノフレーバーモード間のモードの絡み合いのような動的特性を直ちに研究することができる。

The Pancharatnam - Berry phase (PBP) of purely geometric origin appears as a reparametrization invariant quantity of ray Space. In this article, we investigate the properties exhibited by PBP in neutrino mixing. We map the neutrino flavour modes to independent flavour vacuum states and compute PBP using Bargmann invariant. We derive the exact formula for PBP in two flavour approximation using the kinematic approach. Our result reproduces previous results of Blasone et al. under cyclic condition. Inspired by the work of Mukunda and Simon, we investigate the total and dynamical phases separately. This method leads us to identify the existence of nodal points in the mixing parameter space. At nodal points, PBP changes by a value $\pi$, and it originates from the total phase. We report the direct relation between nodal points and MSW resonance, giving physical meaning to nodal points. Our analysis shows the ability of PBP to differentiate between different mass hierarchies and set numerical bounds to $\Delta m^2$ by changing total energy. We extend our studies to three flavour model and found that PBP is sensitive to the Dirac $CP$ phase ($\delta_{CP}$). Using our $N$-qubit architecture of the $N$-flavour neutrino model, one can immediately study the dynamical characteristics like mode entanglement between neutrino flavour modes.
翻訳日:2023-04-02 09:02:49 公開日:2021-04-26
# 量子状態のエントロピー

Entropy of quantum states ( http://arxiv.org/abs/2104.12611v1 )

ライセンス: Link先を確認
Paolo Facchi, Giovanni Gramegna, Arturo Konderak(参考訳) 選択規則に従う量子系の可観測性の代数を考えると、状態は異なる密度行列で表現できる。 その結果、異なるフォン・ノイマンのエントロピーが同じ状態と関連付けられる。 密度行列のフォン・ノイマンエントロピーの極小性(英語版)(minimity property)によって、その可換な状態への分解に関して動機付けられ、観測可能な代数の状態に対して純粋に代数的なエントロピーの定義を与える。 このように定義されたエントロピーは、望ましい熱力学特性をすべて満足し、量子力学の場合のフォン・ノイマンエントロピーに還元する。 さらに、これは多重性自由ヒルベルト空間表現の作用素代数に属する一意的な代表密度行列のフォン・ノイマンエントロピーと等しいことを示すことができる。

Given the algebra of observables of a quantum system subject to selection rules, a state can be represented by different density matrices. As a result, different von Neumann entropies can be associated with the same state. Motivated by a minimality property of the von Neumann entropy of a density matrix with respect to its possible decompositions into pure states, we give a purely algebraic definition of entropy for states of an algebra of observables, thus solving the above ambiguity. The entropy so defined satisfies all the desirable thermodynamic properties, and reduces to the von Neumann entropy in the quantum mechanical case. Moreover, it can be shown to be equal to the von Neumann entropy of the unique representative density matrix belonging to the operator algebra of a multiplicity-free Hilbert-space representation.
翻訳日:2023-04-02 09:02:00 公開日:2021-04-26
# Nb系超伝導技術に用いるタンタル拡散バリアGe薄膜

Ge thin-films with tantalum diffusion-barriers for use in Nb-based superconductor technology ( http://arxiv.org/abs/2104.12580v1 )

ライセンス: Link先を確認
C. Kopas, S. Zhang, J. Gonzales, D.R. Queen, B. Wagner, R.W. Carpenter, N. Newman(参考訳) ゲルマニウム薄膜は超伝導マイクロ波共振器における低損失誘電体、低損失層間金属配線誘電体、マイクロ波およびジョセフソン接合装置におけるパッシベーション層として優れた候補である。 400 {\deg}Cで堆積したGe/Nb構造では、20nm以上の中間混合が観察される。 10nmTa拡散バリア層の追加は超伝導体/誘電体混合を5nm未満に減少させ、ラマン分光法に基づいて堆積したa-Ge層の構造特性を高める。 さらに、taバリア層を有する結晶性ge基板上で室温で作製した超伝導マイクロ波共振器は、全および電力依存の2レベルマイクロ波損失を著しく改善した。

Germanium thin films are an excellent candidate for use as a low-loss dielectric in superconducting microwave resonators, a low-loss inter-layer metal wiring dielectric, and passivation layers in microwave and Josephson junction devices. In Ge/Nb structures deposited at 400 {\deg}C, we observe intermixing over as much as 20 nm. The addition of a 10 nm Ta diffusion barrier layer reduces the superconductor/dielectric intermixing to less than 5 nm and enhances the structural properties of deposited a-Ge layers based on Raman spectroscopy. Additionally, superconducting microwave resonators fabricated at room-temperature on crystalline Ge substrates with a Ta barrier layer show marked improvement in total and power-dependent two-level system microwave losses.
翻訳日:2023-04-02 09:01:02 公開日:2021-04-26
# ニューラルネットワークによる未知の絡み合いの定量化

Quantifying Unknown Entanglement by Neural Networks ( http://arxiv.org/abs/2104.12527v1 )

ライセンス: Link先を確認
Xiaodie Lin, Zhenyu Chen, and Zhaohui Wei(参考訳) 量子絡み合いは量子情報処理タスクや量子力学において重要な役割を果たすため、未知の絡み合いの定量化は基本的な課題である。 しかし、エンタングルメントは観測可能な観測器では直接測定できないため、これは困難である。 本稿では,ニューラルネットワークをトレーニングして未知の絡み合いの定量化を行う。ここでは,ニューラルネットワークの入力特徴が,対象量子状態の局所的な測定によって生成された結果統計データであり,トレーニングラベルは十分なコセン量である。 2部量子状態の場合、この量はコヒーレント情報であり、これは形成の絡み合いと蒸留の絡み合いの低い境界である。 多元量子状態に対しては、この量を絡み合いの幾何測度として選ぶ。 トレーニングするニューラルネットワークは、未知の量子状態の定量化において非常に優れた性能を示しており、この問題に対する半デバイス非依存プロトコルのような従来のアプローチを精度と適用範囲の両方で容易に打ち勝つことができる。 また、より強い量子非局所性を持つ量子状態において、ニューラルネットワークは量子非局所性に関する知識を提供していないが、より優れた性能を持つ傾向があるという驚くべき現象も観察する。

Quantum entanglement plays a crucial role in quantum information processing tasks and quantum mechanics, hence quantifying unknown entanglement is a fundamental task. However, this is also challenging, as entanglement cannot be measured by any observables directly. In this paper, we train neural networks to quantify unknown entanglement, where the input features of neural networks are the outcome statistics data produced by locally measuring target quantum states, and the training labels are well-chosen quantities. For bipartite quantum states, this quantity is coherent information, which is a lower bound for the entanglement of formation and the entanglement of distillation. For multipartite quantum states, we choose this quantity as the geometric measure of entanglement. It turns out that the neural networks we train have very good performance in quantifying unknown quantum states, and can beat previous approaches like semi-device-independent protocols for this problem easily in both precision and application range. We also observe a surprising phenomenon that on quantum states with stronger quantum nonlocality, the neural networks tend to have better performance, though we do not provide them any knowledge on quantum nonlocality.
翻訳日:2023-04-02 09:00:50 公開日:2021-04-26
# チタン不拡散ニオブ酸リチウム導波路の超伝導ナノワイヤ単光子検出器

Integrated superconducting nanowire single-photon detectors on titanium in-diffused lithium niobate waveguides ( http://arxiv.org/abs/2104.12500v1 )

ライセンス: Link先を確認
Jan Philipp H\"opker, Varun B. Verma, Maximilian Protte, Raimund Ricken, Viktor Quiring, Christof Eigner, Lena Ebers, Manfred Hammer, Jens Foerstner, Christine Silberhorn, Richard P. Mirin, Sae Woo Nam, and Tim J. Bartley(参考訳) 非晶質タングステンシリサイド超伝導ナノワイヤ単光子検出器のチタン不拡散ニオブ酸リチウム導波路への集積を実証した。 直交偏光二方向導波路結合を用いた1550nm波長の電子結合光子の初歩的検出法を示す。 カップリング非依存キャラクタリゼーション測定による内部検出効率と検出器吸収特性について検討した。 さらに,これらの機器の収率と効率を向上させる戦略について述べる。

We demonstrate the integration of amorphous tungsten silicide superconducting nanowire single-photon detectors on titanium in-diffused lithium niobate waveguides. We show proof-of-principle detection of evanescently-coupled photons of 1550nm wavelength using bidirectional waveguide coupling for two orthogonal polarization directions. We investigate the internal detection efficiency as well as detector absorption using coupling-independent characterization measurements. Furthermore, we describe strategies to improve the yield and efficiency of these devices.
翻訳日:2023-04-02 09:00:29 公開日:2021-04-26
# particle swarmsが統一的で柔軟なフレームワークへ

Particle Swarms Reformulated towards a Unified and Flexible Framework ( http://arxiv.org/abs/2104.12475v1 )

ライセンス: Link先を確認
Mauro Sebasti\'an Innocente(参考訳) Particle Swarm Optimisation (PSO) アルゴリズムは、1995年の当初の定式化以来、無数の修正と適応が行われている。 これらのいくつかは主流となり、他の多くは採用されず、消滅した。 このように、アルゴリズムの基本的な特徴が pso ファミリーに属する必要があるかという問題が発生する程度まで、数多くの代替定式化が提案されている。 本論文の目的は, psoアルゴリズムの定義を定式化し, 既存の多くの変種を包含する手法で定式化することである。 したがって、メソッドの異なるバージョンは、提案された統合フレームワーク内の設定として設定することができる。 さらに,提案手法では,各粒子の挙動に対する柔軟性を高めるために,特徴を一般化し,分離し,組み込む。 軌道差方程式の閉形式が得られ、異なる種類の振る舞いが識別され、確率性が分離され、伝統的にソシオメトリーや制約ハンドリングのような大域的な特徴が粒子の属性として再定義される。

The Particle Swarm Optimisation (PSO) algorithm has undergone countless modifications and adaptations since its original formulation in 1995. Some of these have become mainstream whereas many others have not been adopted and faded away. Thus, a myriad of alternative formulations have been proposed to the extent that the question arises as to what the basic features of an algorithm must be to belong in the PSO family. The aim of this paper is to establish what defines a PSO algorithm and to attempt to formulate it in such a way that it encompasses many existing variants. Therefore, different versions of the method may be posed as settings within the proposed unified framework. In addition, the proposed formulation generalises, decouples and incorporates features to the method providing more flexibility to the behaviour of each particle. The closed forms of the trajectory difference equation are obtained, different types of behaviour are identified, stochasticity is decoupled, and traditionally global features such as sociometries and constraint-handling are re-defined as particle's attributes.
翻訳日:2023-04-02 09:00:10 公開日:2021-04-26
# 印刷機はなぜデータとaiを理解するのに役立つのか?

We Haven't Gone Paperless Yet: Why the Printing Press Can Help Us Understand Data and AI ( http://arxiv.org/abs/2104.12731v1 )

ライセンス: Link先を確認
Julian Posada, Nicholas Weller, Wendy H. Wong(参考訳) 人間のデータフィケーションの社会的・政治的影響をどう理解すればいいのか? 本稿では,データの効果を,社会・政治関係における構成的変化として理解すべきである。 我々は,人間および非人間的要因の2進コードへの定量化が個人とグループのアイデンティティに与える影響について検討する。 この根本的な変化は、データフィケーションとAIの効果を探求する他の取り組みの焦点となった、経済的および倫理的な懸念を越えている。 dataficationやai(以前は印刷機)といった技術は、既存の電力配置を混乱させ、分散化を招き、新しい技術を活用した新しいアクターによる電力の再集中を引き起こした。 印刷機のアナロジーを用いて構成的変化を理解するための枠組みを提供する。 印刷機の例を見ると、より明確になる 1) 通信媒体が情報の通信や記憶の仕方を大幅に変えると、何が起こるか。 2) 国家から私的主体への権力の移譲 3) データのアルゴリズム分析により, 個人を狭義のコミュニティへ誘導しながら同時に接続する緊張感について検討した。

How should we understand the social and political effects of the datafication of human life? This paper argues that the effects of data should be understood as a constitutive shift in social and political relations. We explore how datafication, or quantification of human and non-human factors into binary code, affects the identity of individuals and groups. This fundamental shift goes beyond economic and ethical concerns, which has been the focus of other efforts to explore the effects of datafication and AI. We highlight that technologies such as datafication and AI (and previously, the printing press) both disrupted extant power arrangements, leading to decentralization, and triggered a recentralization of power by new actors better adapted to leveraging the new technology. We use the analogy of the printing press to provide a framework for understanding constitutive change. The printing press example gives us more clarity on 1) what can happen when the medium of communication drastically alters how information is communicated and stored; 2) the shift in power from state to private actors; and 3) the tension of simultaneously connecting individuals while driving them towards narrower communities through algorithmic analyses of data.
翻訳日:2023-04-02 08:52:40 公開日:2021-04-26
# 一般対称情報完全測定による絡み合い基準

Entanglement criterion via general symmetric informationally complete measurement ( http://arxiv.org/abs/2104.12704v1 )

ライセンス: Link先を確認
Jun Li and Lin Chen(参考訳) 本稿では,対称情報完全 (sic) 計測と一般対称情報完全 (gsic) 計測による多成分系の絡み合い基準を提案する。 これらの基準を,白色雑音を混合したベル状態の凸,絡み合い状態などの多成分状態の絡み合い検出に適用する。 これらの基準が既存の基準よりも強いことが示されている。

We propose entanglement criteria for multipartite systems via symmetric informationally complete (SIC) measurement and general symmetric informationally complete (GSIC) measurement. We apply these criteria to detect entanglement of multipartite states, such as the convex of Bell states, entangled states mixed with white noise. It is shown that these criteria are stronger than some existing ones.
翻訳日:2023-04-02 08:52:06 公開日:2021-04-26
# コールマン・インスタントンの存在について

On the Existence of the Coleman Instantons ( http://arxiv.org/abs/2104.12661v1 )

ライセンス: Link先を確認
Viatcheslav Mukhanov, Alexander Sorin(参考訳) コールマンインスタントンが存在しない無限個のポテンシャルのクラスを同定する。 これらのポテンシャルに対して、偽真空の崩壊は[7,8]で導入された新しい瞬間によって説明されなければならない。

We identify infinite classes of potentials for which the Coleman instantons do not exist. For these potentials, the decay of a false vacuum must be described by the new instantons introduced in [7,8].
翻訳日:2023-04-02 08:51:10 公開日:2021-04-26
# 超幾何学直交多項式に基づくシュル=ワイル双対性から生じる非対称および不変ベクトルのテンソル積の非対称性

Asymmetry of tensor product of asymmetric and invariant vectors arising from Schur-Weyl duality based on hypergeometric orthogonal polynomial ( http://arxiv.org/abs/2104.12635v1 )

ライセンス: Link先を確認
Masahito Hayashi, Akihito Hora, Shintarou Yanagida(参考訳) 量子情報理論における非対称性問題によって動機付けられた非負の整数パラメータ $n,m,k,l$ を持つ離散確率分布 $P_{n,m,k,l}$ を導入,研究する。 その解析は、非対称ベクトルと不変ベクトルのテンソル積の置換ベクトル間の直交ベクトルの数を明らかにする。 この分布は、ある非対称状態のテンソル積 $\xi_{n,m|k,l}$ と、古典シュール-ワイル双対性に現れる$\operatorname{su}(2)$-$\mathfrak{s}_n$-bimodule $(\mathbb{c}^2)^{\otimes n}$ の既約分解によって定義される。 確率質量関数 $p(x)=p(x|n,m,k,l)$ のいくつかの明示的な公式を表現論的手法で導いた。 その中でも、ラカフの表現は最も顕著で有用な公式であり、pmf $p(x)$を1つのラカフ多項式で表す。 また、累積分布関数を表す式を${}_4 f_3$-超幾何級数を用いて導出する。 これらの明示的な公式を用いて、$P_{n,m,k,l}$の漸近挙動を2種類の極限$n \to \infty$で研究する。 最初の極限において、$k$, $l$ および $m/n$ を固定し、漸近離散分布が2つの二項分布の畳み込みであることを示す。 2つ目の極限では、$m/n$, $k/n$, $l/n$を固定し、その極限正規分布がラカフ多項式から来る$p(x)$の3項反復関係によって導かれるような$P_{n,m,k,l}$の中心極限定理を証明する。 また、期待の漸近的挙動と中心極限定理を超えた分散についても述べる。 これらの漸近解析に基づいて、テンソル積状態 $\xi_{n,m|k,l}$ の非対称性の程度を考察する。 付録では、$P_{n,m,k,l}$上の計算の$\mathbf{q}$-analogueについて議論する。

We introduce and study a certain discrete probability distribution $P_{n,m,k,l}$ having non-negative integer parameters $n,m,k,l$, motivated by the asymmetry problem in quantum information theory. Its analysis reveals the number of orthogonal vectors among permuted vectors of the tensor product of asymmetric and invariant vectors. The distribution is defined by irreducible decomposition of the tensor product $\Xi_{n,m|k,l}$ of a certain asymmetric state and the Dicke state in the $\operatorname{SU}(2)$-$\mathfrak{S}_n$-bimodule $(\mathbb{C}^2)^{\otimes n}$ appearing in the classical Schur-Weyl duality. We derive several explicit formulas of the probability mass function $p(x)=p(x|n,m,k,l)$ involving hypergeometric orthogonal polynomials via representation theoretic methods. Among them, Racah presentation is the most remarkable and useful formula, which expresses the pmf $p(x)$ by a single Racah polynomial. We also derive a formula expressing the cumulative distribution function in terms of a terminating ${}_4 F_3$-hypergeometric series. Using these explicit formulas, we study asymptotic behavior of $P_{n,m,k,l}$ in two types of limit $n \to \infty$. In the first limit, we fix $k$, $l$ and $m/n$, and show that the asymptotic discrete distribution is the convolution of two binomial distributions. In the second limit, we fix $m/n$, $k/n$ and $l/n$, and prove the central limit theorem of $P_{n,m,k,l}$, of which the limit normal distribution is derived by the three-term recurrence relation of $p(x)$ coming from that of Racah polynomial. We also describe the asymptotic behavior of the expectation and the variance beyond the central limit theorem. Based on these asymptotic analysis, we discuss the degree of asymmetry of the tensor product state $\Xi_{n,m|k,l}$. In the appendix, we discuss $\mathbf{q}$-analogue of the computations on $P_{n,m,k,l}$.
翻訳日:2023-04-02 08:50:44 公開日:2021-04-26
# ラテンアメリカにおけるデータワークの植民地性

The Coloniality of Data Work in Latin America ( http://arxiv.org/abs/2105.06262v1 )

ライセンス: Link先を確認
Julian Posada(参考訳) このAIES 21博士コンソーシアムのプレゼンテーションでは、ラテンアメリカのクラウドソーシング市場をデコロニアルレンズで調査している。 本研究は,9つのプラットフォームによるWebトラフィックの分析,4つのプラットフォームのベネズエラのデータワーカーへのインタビュー,およびこれらの組織が発行したドキュメントの分析に基づいている。 その結果,(1)先進国における要求者,およびグローバル・サウスの労働者は,(1)何世紀にもわたってグローバルな分業が継続していることが明らかとなった。 2) 労働プロセスのプラットフォームの構成は、アノテーションを作成する際にこれらの労働者の代理を制約する。 3) グローバル・ノースに由来するイデオロギーは、このグローバル労働市場構成の正当化と強化に寄与する。

This presentation for the AIES 21 doctoral consortium examines the Latin American crowdsourcing market through a decolonial lens. This research is based on the analysis of the web traffic of ninety-three platforms, interviews with Venezuelan data workers of four platforms, and the analysis of the documentation issued by these organizations. The findings show that (1) centuries-old global divisions of labor persist, in this case, with requesters located in advanced economies and workers in the Global South. (2) That the platforms' configuration of the labor process constrains the agency of these workers when producing annotations. And, (3) that ideologies originating from the Global North serve to legitimize and reinforce this global labor market configuration.
翻訳日:2023-04-02 08:43:32 公開日:2021-04-26
# 指紋を残して:OSS for Social Goodへの貢献の動機と課題

Leaving My Fingerprints: Motivations and Challenges of Contributing to OSS for Social Good ( http://arxiv.org/abs/2104.12891v1 )

ライセンス: Link先を確認
Yu Huang, Denae Ford, Thomas Zimmermann(参考訳) ソフトウェア開発者にオープンソースソフトウェアへのコントリビューションを促すとき、この行為は開発者コミュニティをサポートするツールを構築する機会としてしばしば言及される。 しかし、コントリビューションを促進する唯一の代償ではない -- オープンソースへの関心の高まりは、ソフトウェア開発者が共通の社会的利益のために技術スキルを使用することに決めたことによる。 開発者がこれらのプロジェクトを特定する方法、コントリビューションの動機、直面する課題を理解するため、OSS for Social Good (OSS4SG)コントリビュータと21の半構造化インタビューを行った。 インタビュー分析から,ソーシャル・グッド・コントリビュータのための5765以上のosとオープンソースソフトウェアを対象に調査を実施し,大規模に理解したかったコントリビュート・スタイルのテーマを特定した。 517の反応を定量的に分析した結果,コントリビュータの大多数がOSS4SGとOSSの区別を示した。 同様に、コントリビュータは、プロジェクトの社会的問題を緩和し、プロジェクトの成果が誰に利益をもたらすかに基づいて、定義を説明した。 さらに、OSS4SGのコントリビュータは、履歴書に新しい技術スキルを詰め込むことによって、自分自身の利益への関心を減らし、統計学的に重要なレベルで社会への目印を残すことにより関心を抱いている。 また、OSS4SGコントリビュータはOSSコントリビュータよりもプロジェクトのオーナをかなり高く評価しています。 これらの発見は、貢献者が高い社会的影響のあるプロジェクトを特定し、プロジェクトのメンテナが参入障壁を減らすのを助け、貢献者がこれらのプロジェクトに惹かれる理由を理解し、アクティブな参加を維持するのに役立つ。

When inspiring software developers to contribute to open source software, the act is often referenced as an opportunity to build tools to support the developer community. However, that is not the only charge that propels contributions -- growing interest in open source has also been attributed to software developers deciding to use their technical skills to benefit a common societal good. To understand how developers identify these projects, their motivations for contributing, and challenges they face, we conducted 21 semi-structured interviews with OSS for Social Good (OSS4SG) contributors. From our interview analysis, we identified themes of contribution styles that we wanted to understand at scale by deploying a survey to over 5765 OSS and Open Source Software for Social Good contributors. From our quantitative analysis of 517 responses, we find that the majority of contributors demonstrate a distinction between OSS4SG and OSS. Likewise, contributors described definitions based on what societal issue the project was to mitigate and who the outcomes of the project were going to benefit. In addition, we find that OSS4SG contributors focus less on benefiting themselves by padding their resume with new technology skills and are more interested in leaving their mark on society at statistically significant levels. We also find that OSS4SG contributors evaluate the owners of the project significantly more than OSS contributors. These findings inform implications to help contributors identify high societal impact projects, help project maintainers reduce barriers to entry, and help organizations understand why contributors are drawn to these projects to sustain active participation.
翻訳日:2023-04-02 08:43:19 公開日:2021-04-26
# 最適化量子$f$分割の単調性

Monotonicity of optimized quantum $f$-divergence ( http://arxiv.org/abs/2104.12890v1 )

ライセンス: Link先を確認
Haojian Li(参考訳) 我々は[wil18]で導入された最適化量子f$-divergencesのデータ処理の不等式に対する別の証明を与え、完全正でない写像に単調性を拡張する。

We give an alternative proof for the data processing inequality of the optimized quantum $f$-divergences introduced in [Wil18] and extend the monotonicity to maps which are not completely positive.
翻訳日:2023-04-02 08:42:47 公開日:2021-04-26
# スピン-3/2 ブルーム-キャメル鎖の普遍量子演算

Universal quantum operation of spin-3/2 Blume-Capel chains ( http://arxiv.org/abs/2104.12851v1 )

ライセンス: Link先を確認
Silas Hoffman, Yiyuan Chen, Hai-Ping Cheng, X.-G. Zhang(参考訳) 我々は,Ising 鎖のより高いスピン一般化と,Ising 軸まわりの回転不変性を保存するオンサイト異方性を可能にするBlume-Capel モデルに基づく論理量子ビットを提案する。 このようなスピン-3/2 ブルーム・キャメル模型は鎖の端の局所マヨラナ境界状態も支持できることを示す。 これらのマヨラナ境界状態の既知のブレイディングプロトコルにインスパイアされ、系パラメータの適切な操作により、鎖の二重縮退基底状態に符号化された量子ビットに作用する普遍ゲート演算の集合を実演する。

We propose a logical qubit based on the Blume-Capel model: a higher spin generalization of the Ising chain and which allows for an on-site anisotropy preserving rotational invariance around the Ising axis. We show that such a spin-3/2 Blume-Capel model can also support localized Majorana bound states at the ends of the chain. Inspired by known braiding protocols of these Majorana bound states, upon appropriate manipulation of the system parameters, we demonstrate a set of universal gate operations which act on qubits encoded in the doubly degenerate ground states of the chain.
翻訳日:2023-04-02 08:42:42 公開日:2021-04-26
# 量子カスケードレーザー構造における電子輸送の量子シミュレーション

Quantum simulating the electron transport in quantum cascade laser structures ( http://arxiv.org/abs/2104.12843v1 )

ライセンス: Link先を確認
Andrea Trombettoni, Francesco Scazza, Francesco Minardi, Giacomo Roati, Francesco Cappelli, Luigi Consolino, Augusto Smerzi, Paolo De Natale(参考訳) 量子カスケードレーザー(QCL)構造における電子輸送を量子シミュレーションするために,超低温フェルミオン原子を1次元光学格子に利用することを提案する。 ウェル間の(そして内部における)コヒーレントトンネルとラシングに基づく散逸崩壊の競合について論じる。 提案手法を検証するため,簡易な一次元モデルにおいて,その競合を定量的に解決する。 本稿では, モデルパラメータ間の最適関係, 粒子電流の最大化, 個体数逆転(あるいはその生成物), および励起放出速度について述べる。 これは、冷原子光学格子シミュレータにおけるQCLの動作機構をエミュレートし、新しい世代のQCLの設計において電子電子散乱の影響や輸送誘起ノイズの発生など、オープンな問題に対処するための基礎となる。

We propose to use ultracold fermionic atoms in one-dimensional optical lattices to quantum simulate the electronic transport in quantum cascade laser (QCL) structures. The competition between the coherent tunneling among (and within) the wells and the dissipative decay at the basis of lasing is discussed. In order to validate the proposed simulation scheme, we quantitatively address such competition in a simplified one-dimensional model. We show the existence of optimal relationships between the model parameters, maximizing the particle current, the population inversion (or their product), and the stimulated emission rate. This substantiates the concept of emulating the QCL operation mechanisms in cold-atom optical lattice simulators, laying the groundwork for addressing open questions, such as the impact of electron-electron scattering and the origin of transport-induced noise, in the design of new-generation QCLs.
翻訳日:2023-04-02 08:42:31 公開日:2021-04-26
# 絡み合う証人の測定のための古典的モデル

Classical model for measurements of an entanglement witness ( http://arxiv.org/abs/2104.12811v1 )

ライセンス: Link先を確認
Brian R. La Cour and E. C. George Sudarshan(参考訳) 係り受け証人の関節および局所的な測定のアナログとして機能する古典的モデルについて述べる。 このモデルの類似した実験手順とデータ解析プロトコルは、偏光子を混合した状態(phys)で測定する以前の実験の手法に従っている。 Rev. Lett. \textbf{91}, 227901 (2003)]。 数値シミュレーションは、実験結果と量子力学的予測の両方に優れた一致を示す。 この合意は、このモデルが一致検出イベントの事後選択によって文脈性を示すという事実によって可能となる。

We describe a classical model that may serve as an analog for joint and local measurements of an entanglement witness. The analogous experimental procedure and data analysis protocol of the model follow those of a previous experiment to measure an entanglement witness with polarized photons prepared in a mixed state [Phys. Rev. Lett. \textbf{91}, 227901 (2003)]. Numerical simulations show excellent agreement with both experimental results and quantum-mechanical predictions. This agreement is made possible by the fact that the model exhibits contextuality due to the postselection of coincident detection events.
翻訳日:2023-04-02 08:42:16 公開日:2021-04-26
# 局所決定論的検出器に基づく量子計測モデル

A locally deterministic, detector-based model of quantum measurement ( http://arxiv.org/abs/2104.12801v1 )

ライセンス: Link先を確認
Brian R. La Cour(参考訳) 本稿では、振幅しきい値検出方式に基づく簡単な因果決定論的量子計測モデルについて述べる。 驚くべきことに、通常、自然界で一意に量子的であると考えられる多くの現象を再現することが知られている。 N$次元純状態のモデル化には、加法的複素雑音を伴う波動ベクトルのスケールバージョンによって与えられる$N$複素確率変数を使用する。 測定は、個々の成分のしきい値交差によって定義される。 得られた検出確率は、ボルン則に従って量子力学によって予測される確率と一致または近似する。 それでも、局所的な測定の下での絡み合い、文脈性、ベルの不等式違反といった量子現象は、全てモデルによって示され、そのような現象が古典的アナログを持たないわけではないことを証明している。

This paper describes a simple, causally deterministic model of quantum measurement based on an amplitude threshold detection scheme. Surprisingly, it is found to reproduce many phenomena normally thought to be uniquely quantum in nature. To model an $N$-dimensional pure state, the model uses $N$ complex random variables given by a scaled version of the wave vector with additive complex noise. Measurements are defined by threshold crossings of the individual components, conditioned on single-component threshold crossings. The resulting detection probabilities match or approximate those predicted by quantum mechanics according to the Born rule. Nevertheless, quantum phenomena such as entanglement, contextuality, and violations of Bell's inequality under local measurements are all shown to be exhibited by the model, thereby demonstrating that such phenomena are not without classical analogs.
翻訳日:2023-04-02 08:41:48 公開日:2021-04-26
# チューナブル崩壊を伴う超放射能量子気体の発散相

Emerging dissipative phases in a superradiant quantum gas with tunable decay ( http://arxiv.org/abs/2104.12782v1 )

ライセンス: Link先を確認
Francesco Ferri, Rodrigo Rosa-Medina, Fabian Finger, Nishant Dogra, Matteo Soriente, Oded Zilberberg, Tobias Donner, Tilman Esslinger(参考訳) 外部の駆動と損失に多体系を配置することは、その相の性質を変容させ、物質の新しい性質を開拓する。 このような特性が、駆動および散逸系の基盤となる微視的過程とどのように関係しているかは、根本的な問題である。 ここでは、原子のスピンと運動の自由度に作用する2つの独立したラマン駆動を用いて、損失のある光学キャビティモードに強く結合した量子気体のこの点に対処する。 この設定により、ドライブ間の不均衡を調整することで、コヒーレントなダイナミクスと散逸の競合を制御できる。 十分に強いカップリングのために、閉系の場合と同様に、超ラジカル相への遷移が起こる。 しかし、ドライブをばらばらにすることで、散逸安定正規位相と多重性の領域に入ることができる。 平衡外相上における励起特性の測定は、開放系における顕微鏡的初等過程を明らかにする。 本研究は,非エルミート系におけるスクイージング,超輝度での量子ジャンプ,散逸性環境での動的スピン軌道カップリングの研究の展望を提供する。

Exposing a many-body system to external drives and losses can transform the nature of its phases and opens perspectives for engineering new properties of matter. How such characteristics are related to the underlying microscopic processes of the driven and dissipative system is a fundamental question. Here we address this point in a quantum gas that is strongly coupled to a lossy optical cavity mode using two independent Raman drives, which act on the spin and motional degrees of freedom of the atoms. This setting allows us to control the competition between coherent dynamics and dissipation by adjusting the imbalance between the drives. For strong enough coupling, the transition to a superradiant phase occurs, as is the case for a closed system. Yet, by imbalancing the drives we can enter a dissipation-stabilized normal phase and a region of multistability. Measuring the properties of excitations on top of the out-of-equilibrium phases reveals the microscopic elementary processes in the open system. Our findings provide prospects for studying squeezing in non-Hermitian systems, quantum jumps in superradiance, and dynamical spin-orbit coupling in a dissipative setting.
翻訳日:2023-04-02 08:41:20 公開日:2021-04-26
# 不連続潜伏因子を用いた治療効果推定

Treatment effect estimation with disentangled latent factors ( http://arxiv.org/abs/2001.10652v3 )

ライセンス: Link先を確認
Weijia Zhang, Lin Liu, Jiuyong Li(参考訳) 多くの研究が観察データから治療効果を推定する問題に費やされてきたが、ほとんどの方法は観察された変数が共同創設者、すなわち治療と結果の両方に影響を与える変数のみを含んでいると仮定している。 残念なことに、この仮定は現実世界のアプリケーションでは頻繁に違反される。 さらに、多くの場合、基礎となる共起因子のプロキシ変数のみが観察できる。 本研究は, 平均的および条件的平均治療効果推定において, 計器的およびリスク要因とを区別することの重要性を最初に示し, 観測変数から潜伏因子を同時に推定し, 計器的, 計器的, 計器的, 計器的, リスク要因に対応する3つの解離集合に分解し, その解離因子を用いて治療効果推定を行うための変分推論手法を提案する。 実験により,提案手法が,幅広い合成,ベンチマーク,実世界のデータセットに対して有効であることを示す。

Much research has been devoted to the problem of estimating treatment effects from observational data; however, most methods assume that the observed variables only contain confounders, i.e., variables that affect both the treatment and the outcome. Unfortunately, this assumption is frequently violated in real-world applications, since some variables only affect the treatment but not the outcome, and vice versa. Moreover, in many cases only the proxy variables of the underlying confounding factors can be observed. In this work, we first show the importance of differentiating confounding factors from instrumental and risk factors for both average and conditional average treatment effect estimation, and then we propose a variational inference approach to simultaneously infer latent factors from the observed variables, disentangle the factors into three disjoint sets corresponding to the instrumental, confounding, and risk factors, and use the disentangled factors for treatment effect estimation. Experimental results demonstrate the effectiveness of the proposed method on a wide range of synthetic, benchmark, and real-world datasets.
翻訳日:2023-01-05 20:44:17 公開日:2021-04-26
# アクションセットの変更による逆オンライン学習:近似レグレット境界を用いた効率的なアルゴリズム

Adversarial Online Learning with Changing Action Sets: Efficient Algorithms with Approximate Regret Bounds ( http://arxiv.org/abs/2003.03490v2 )

ライセンス: Link先を確認
Ehsan Emamjomeh-Zadeh, Chen-Yu Wei, Haipeng Luo, David Kempe(参考訳) 睡眠の専門家/バンドによるオンライン学習の問題を再検討する: 各ステップでは、アルゴリズムが選択する(そして学ぶ)ためのアクションのサブセットのみが利用可能です。 kleinberg et al. (2010) の研究は、漸近的に最良な行動ランク付けを行うようなアルゴリズムは存在しないことを示した。 Kanade と Steinke (2014) は、この非回帰性能を達成することは、少なくともPAC学習型 DNF と同じくらい難しいことを示しており、これは非常に難しい問題である。 本研究では,本課題を緩和し,計算効率のよい非近似回帰アルゴリズムについて検討する。 我々は,一般の睡眠専門家/バンドイット問題に対して,無防備な保証を提供するアルゴリズムを提案する。 この問題のいくつかの標準的特殊ケースに対して、近似比が大幅に向上したアルゴリズムを与え、これらのアルゴリズムはまた、非近似-回帰保証を達成するための異なるテクニックも示している。

We revisit the problem of online learning with sleeping experts/bandits: in each time step, only a subset of the actions are available for the algorithm to choose from (and learn about). The work of Kleinberg et al. (2010) showed that there exist no-regret algorithms which perform no worse than the best ranking of actions asymptotically. Unfortunately, achieving this regret bound appears computationally hard: Kanade and Steinke (2014) showed that achieving this no-regret performance is at least as hard as PAC-learning DNFs, a notoriously difficult problem. In the present work, we relax the original problem and study computationally efficient no-approximate-regret algorithms: such algorithms may exceed the optimal cost by a multiplicative constant in addition to the additive regret. We give an algorithm that provides a no-approximate-regret guarantee for the general sleeping expert/bandit problems. For several canonical special cases of the problem, we give algorithms with significantly better approximation ratios; these algorithms also illustrate different techniques for achieving no-approximate-regret guarantees.
翻訳日:2022-12-25 19:13:49 公開日:2021-04-26
# textgail: テキスト生成のための生成的adversarial imitation learning

TextGAIL: Generative Adversarial Imitation Learning for Text Generation ( http://arxiv.org/abs/2004.13796v4 )

ライセンス: Link先を確認
Qingyang Wu, Lei Li, Zhou Yu(参考訳) テキスト生成のためのGAN(Generative Adversarial Networks)は、最近多くの批判を受けてきた。 従来のテキストGANの劣る性能は、識別器に信頼性のある誘導信号がないためと思われる。 この問題に対処するために,大規模な事前学習言語モデルを用いてより信頼性の高い報酬ガイダンスを提供するテキスト生成のための生成逆模倣学習フレームワークを提案する。 提案手法では,テキスト生成性能の安定化と向上のために,コントラスト判別器とPPOを用いた。 評価のために,条件付きおよび条件付きテキスト生成タスクの多岐にわたる実験を行った。 実験の結果, TextGAIL は MLE ベースラインよりも品質, 多様性の両面で優れた性能を示した。 また、TextGAILの識別器が、追加のタスクで合理的な報酬を提供する能力を示すという直感も検証します。

Generative Adversarial Networks (GANs) for text generation have recently received many criticisms, as they perform worse than their MLE counterparts. We suspect previous text GANs' inferior performance is due to the lack of a reliable guiding signal in their discriminators. To address this problem, we propose a generative adversarial imitation learning framework for text generation that uses large pre-trained language models to provide more reliable reward guidance. Our approach uses contrastive discriminator, and proximal policy optimization (PPO) to stabilize and improve text generation performance. For evaluation, we conduct experiments on a diverse set of unconditional and conditional text generation tasks. Experimental results show that TextGAIL achieves better performance in terms of both quality and diversity than the MLE baseline. We also validate our intuition that TextGAIL's discriminator demonstrates the capability of providing reasonable rewards with an additional task.
翻訳日:2022-12-15 22:53:11 公開日:2021-04-26
# ランダムスプリットについて話す必要がある

We Need to Talk About Random Splits ( http://arxiv.org/abs/2005.00636v3 )

ライセンス: Link先を確認
Anders S{\o}gaard and Sebastian Ebert and Jasmijn Bastings and Katja Filippova(参考訳) gorman and bedrick (2019) は nlp 実験で標準分割ではなくランダム分割を使うと主張した。 標準的な分割のようにランダムな分割は、過度に楽観的なパフォーマンス推定につながると我々は主張する。 また、短文のトレーニングや長文の評価など、偏りのある、あるいは逆の方法でデータを分割することも可能です。 バイアスサンプリングは、現実世界のドリフトをシミュレートする領域適応において使われており、これは共変量シフト仮定として知られている。 しかし、NLPでは、最悪の場合でさえ、バイアスを最大化し、しばしばドメイン内の新しいサンプル、すなわちモデルがテスト時に最小限に一般化すべきデータで観測されるエラーを過小評価する。 これは共変シフトの仮定を無効にする。 複数のランダム分割を使用する代わりに、将来のベンチマークでは、理想的には複数の独立したテストセットを含めるべきである。

Gorman and Bedrick (2019) argued for using random splits rather than standard splits in NLP experiments. We argue that random splits, like standard splits, lead to overly optimistic performance estimates. We can also split data in biased or adversarial ways, e.g., training on short sentences and evaluating on long ones. Biased sampling has been used in domain adaptation to simulate real-world drift; this is known as the covariate shift assumption. In NLP, however, even worst-case splits, maximizing bias, often under-estimate the error observed on new samples of in-domain data, i.e., the data that models should minimally generalize to at test time. This invalidates the covariate shift assumption. Instead of using multiple random splits, future benchmarks should ideally include multiple, independent test sets instead; if infeasible, we argue that multiple biased splits leads to more realistic performance estimates than multiple random splits.
翻訳日:2022-12-07 23:00:42 公開日:2021-04-26
# 進化的環境における機能決定理論

Functional Decision Theory in an Evolutionary Environment ( http://arxiv.org/abs/2005.05154v2 )

ライセンス: Link先を確認
Noah Topper(参考訳) 関数決定理論(fdt)は決定論のかなり新しい方法であり、エージェントが期待する有用性をいかに最大化すべきかに関する規範的な視点である。 決定論と計算機科学の現在の標準は因果決定理論(CDT)であり、主に主な代替的明らか決定理論(EDT)よりも優れていると考えられている。 これらの理論は有用性を最大化する3つの異なる手法を規定している。 我々は、FDTがCDTとEDTとどのように異なるか、そしてFDTエージェントと人間の行動にどのような影響を及ぼすかを検討する。 以前の研究では、FDTがCDTやEDTより優れていることが示されている。 さらに、より古典的なゲーム理論の問題に対してfdtがうまく機能していることを示し、その優越性の可能性を示すために人間の問題への拡張を論じる。 また、FDTを進化環境で表示し、他の理論と直接競合することで、FDTをより具体化する。

Functional decision theory (FDT) is a fairly new mode of decision theory and a normative viewpoint on how an agent should maximize expected utility. The current standard in decision theory and computer science is causal decision theory (CDT), largely seen as superior to the main alternative evidential decision theory (EDT). These theories prescribe three distinct methods for maximizing utility. We explore how FDT differs from CDT and EDT, and what implications it has on the behavior of FDT agents and humans. It has been shown in previous research how FDT can outperform CDT and EDT. We additionally show FDT performing well on more classical game theory problems and argue for its extension to human problems to show that its potential for superiority is robust. We also make FDT more concrete by displaying it in an evolutionary environment, competing directly against other theories.
翻訳日:2022-12-06 06:10:15 公開日:2021-04-26
# ICE-GAN:マイクロ圧縮認識と合成のためのグラフベース推論によるアイデンティティ認識とカプセル強化GAN

ICE-GAN: Identity-aware and Capsule-Enhanced GAN with Graph-based Reasoning for Micro-Expression Recognition and Synthesis ( http://arxiv.org/abs/2005.04370v2 )

ライセンス: Link先を確認
Jianhui Yu, Chaoyi Zhang, Yang Song, Weidong Cai(参考訳) マイクロ表現は人々の真の感情や動機を反映したもので、顔の自動マイクロ表現認識の研究に多くの研究者が集まる。 短い検出窓、微妙な顔の筋肉の動き、限られたトレーニングサンプルは、マイクロ表現認識を困難にする。 そこで本研究では,認識支援のための補助タスクとしてマイクロ表現合成を導入する,グラフベース推論(ice-gan)を用いた新しいアイデンティティ認識・カプセル型生成逆ネットワークを提案する。 本発明のジェネレータは、グラフ推論モジュール(GRM)を介して長距離依存関係を捕捉した制御可能なマイクロ表現と識別認識機能を備えた合成顔を生成し、識別器は画像の真正性及び表現クラスを検出する。 ICE-GAN は Micro-Expression Grand Challenge 2019 (MEGC2019) で評価され、優勝者よりも12.9%向上し、他の最先端の手法を上回った。

Micro-expressions are reflections of people's true feelings and motives, which attract an increasing number of researchers into the study of automatic facial micro-expression recognition. The short detection window, the subtle facial muscle movements, and the limited training samples make micro-expression recognition challenging. To this end, we propose a novel Identity-aware and Capsule-Enhanced Generative Adversarial Network with graph-based reasoning (ICE-GAN), introducing micro-expression synthesis as an auxiliary task to assist recognition. The generator produces synthetic faces with controllable micro-expressions and identity-aware features, whose long-ranged dependencies are captured through the graph reasoning module (GRM), and the discriminator detects the image authenticity and expression classes. Our ICE-GAN was evaluated on Micro-Expression Grand Challenge 2019 (MEGC2019) with a significant improvement (12.9%) over the winner and surpassed other state-of-the-art methods.
翻訳日:2022-12-05 07:01:38 公開日:2021-04-26
# LEAF: 国境沿いの後期探査

LEAF: Latent Exploration Along the Frontier ( http://arxiv.org/abs/2005.10934v3 )

ライセンス: Link先を確認
Homanga Bharadhwaj, Animesh Garg, Florian Shkurti(参考訳) 自己監督目標の提案と到達は、探索と効率的なポリシー学習アルゴリズムの重要なコンポーネントである。 このようなoracleの目標サンプリングディストリビューションにアクセスできない自己監督的なアプローチは、ロングホライズン計画が効率的に発見できるように、深い調査とコミットメントを必要とします。 本稿では,到達可能な状態の動的認識多様体を学習する探索フレームワークを提案する。 目的,提案手法は到達可能な状態の現在のフロンティアにある状態(コミット/リーチ)を決定論的に訪問し,目標を達成するために確率的に探索する(探索)。 これは内部ではなく、到達可能な地域のフロンティア付近で調査予算を割り当てている。 画像として特定された初期状態と目標状態から、政策学習の課題を対象とし、ロボットの基盤となる地中状態と環境へのアクセスを想定しない。 到達可能な潜在状態の追跡のために、ある状態が特定潜在空間距離内で他の状態から到達可能かどうかを推定するように訓練した距離条件付き到達可能性ネットワークを提案する。 初期状態が与えられると、その状態から到達可能な状態のフロンティアを得る。 より難しい目標に先立って、簡単な目標(開始状態に近い)をサンプリングするためのカリキュラムを組み込むことで、提案する自己教師あり探索アルゴリズムが、既存のロボット環境における既存のベースラインよりも優れた性能を持つことを実証する。

Self-supervised goal proposal and reaching is a key component for exploration and efficient policy learning algorithms. Such a self-supervised approach without access to any oracle goal sampling distribution requires deep exploration and commitment so that long horizon plans can be efficiently discovered. In this paper, we propose an exploration framework, which learns a dynamics-aware manifold of reachable states. For a goal, our proposed method deterministically visits a state at the current frontier of reachable states (commitment/reaching) and then stochastically explores to reach the goal (exploration). This allocates exploration budget near the frontier of the reachable region instead of its interior. We target the challenging problem of policy learning from initial and goal states specified as images, and do not assume any access to the underlying ground-truth states of the robot and the environment. To keep track of reachable latent states, we propose a distance-conditioned reachability network that is trained to infer whether one state is reachable from another within the specified latent space distance. Given an initial state, we obtain a frontier of reachable states from that state. By incorporating a curriculum for sampling easier goals (closer to the start state) before more difficult goals, we demonstrate that the proposed self-supervised exploration algorithm, superior performance compared to existing baselines on a set of challenging robotic environments.https://sites.google.com/view/leaf-exploration
翻訳日:2022-11-30 23:46:48 公開日:2021-04-26
# newtonianvae: 物理的潜在空間による画素の比例制御と目標同定

NewtonianVAE: Proportional Control and Goal Identification from Pixels via Physical Latent Spaces ( http://arxiv.org/abs/2006.01959v2 )

ライセンス: Link先を確認
Miguel Jaques, Michael Burke, Timothy Hospedales(参考訳) 低次元の潜在状態空間ダイナミクスモデルを学ぶことは、視覚ベースの計画と制御のための学習を可能にする強力なパラダイムである。 我々は、潜在空間における比例制御性を誘導するために一意に設計された潜在力学学習フレームワークを導入し、従って、以前の作業よりもはるかに単純なコントローラの使用を可能にする。 学習したダイナミックスモデルは画素からの比例制御を可能にし、視覚ベースのコントローラの動作クローンを劇的に単純化し、高速化し、デモからスイッチングコントローラの模倣学習に適用した場合、解釈可能なゴール発見を提供する。

Learning low-dimensional latent state space dynamics models has been a powerful paradigm for enabling vision-based planning and learning for control. We introduce a latent dynamics learning framework that is uniquely designed to induce proportional controlability in the latent space, thus enabling the use of much simpler controllers than prior work. We show that our learned dynamics model enables proportional control from pixels, dramatically simplifies and accelerates behavioural cloning of vision-based controllers, and provides interpretable goal discovery when applied to imitation learning of switching controllers from demonstration.
翻訳日:2022-11-25 23:19:25 公開日:2021-04-26
# ヒンジ正規化を用いた最適輸送を用いた分類におけるロバスト性の実現

Achieving robustness in classification using optimal transport with hinge regularization ( http://arxiv.org/abs/2006.06520v3 )

ライセンス: Link先を確認
Mathieu Serrurier, Franck Mamalet, Alberto Gonz\'alez-Sanz, Thibaut Boissin, Jean-Michel Loubes, Eustasio del Barrio(参考訳) 逆の例では、小さなローカルノイズに対するディープニューラルネットワークの脆弱性が指摘されている。 リプシッツ定数の制約はロバスト性を高めるが、古典的損失関数では学習が困難であることが示されている。 本稿では,このリプシッツ制約を理論的要件として統合した,最適輸送に基づくバイナリ分類のための新しい枠組みを提案する。 ワッサーシュタイン距離推定のためのカントロビッチ・ルビンシュタイン双対定式化のヒンジ正規化版である新しい損失を用いた1-Lipschitzネットワークの学習を提案する。 この損失関数は、証明可能なロバスト性境界とともに、対向的ロバスト性の観点から直接解釈される。 また、このヒンジ正規化バージョンは、最適輸送問題の双対定式化であり、解を持っていることも証明する。 また,この最適解の幾何的性質を定式化し,マルチクラス問題へのアプローチを拡張した。 実験により,提案手法は精度を低下させることなく,堅牢性の観点から期待できる保証を提供することが示された。 提案したモデルの逆例は、分類の説明を提供する入力を視覚的かつ意味的に変更する。

Adversarial examples have pointed out Deep Neural Networks vulnerability to small local noise. It has been shown that constraining their Lipschitz constant should enhance robustness, but make them harder to learn with classical loss functions. We propose a new framework for binary classification, based on optimal transport, which integrates this Lipschitz constraint as a theoretical requirement. We propose to learn 1-Lipschitz networks using a new loss that is an hinge regularized version of the Kantorovich-Rubinstein dual formulation for the Wasserstein distance estimation. This loss function has a direct interpretation in terms of adversarial robustness together with certifiable robustness bound. We also prove that this hinge regularized version is still the dual formulation of an optimal transportation problem, and has a solution. We also establish several geometrical properties of this optimal solution, and extend the approach to multi-class problems. Experiments show that the proposed approach provides the expected guarantees in terms of robustness without any significant accuracy drop. The adversarial examples, on the proposed models, visibly and meaningfully change the input providing an explanation for the classification.
翻訳日:2022-11-22 10:13:26 公開日:2021-04-26
# SDCOR:大規模データセットにおける局所外乱検出のための拡張密度に基づくクラスタリング

SDCOR: Scalable Density-based Clustering for Local Outlier Detection in Massive-Scale Datasets ( http://arxiv.org/abs/2006.07616v11 )

ライセンス: Link先を確認
Sayyed Ahmad Naghavi Nozad and Maryam Amir Haeri and Gianluigi Folino(参考訳) 本稿では,大規模データセットにおける局所外乱検出のためのバッチワイド密度に基づくクラスタリング手法を提案する。 従来のアルゴリズムでは、全てのデータがメモリ常駐であると仮定するが、提案手法はスケーラブルであり、限られたメモリバッファ内のチャンク・バイ・チャンクを処理する。 一時クラスタリングモデルは第1段階で構築され、その後、ポイントの連続するメモリ負荷を分析して徐々に更新される。 その後、スケーラブルクラスタリングの最後に、元のクラスタの近似構造が得られる。 最後に、データセット全体の別のスキャンと適切な基準を用いて、sdcor(scalable density-based clustering outlierness ratio)と呼ばれる各オブジェクトにアウトリーディングスコアを割り当てる。 実時間および合成データを用いた評価により,提案手法は線形時間の複雑さが低く,メモリにすべてのデータをロードする必要のある一般的な密度ベース手法よりも効率的かつ効率的であることが判明した。

This paper presents a batch-wise density-based clustering approach for local outlier detection in massive-scale datasets. Unlike the well-known traditional algorithms, which assume that all the data is memory-resident, our proposed method is scalable and processes the input data chunk-by-chunk within the confines of a limited memory buffer. A temporary clustering model is built at the first phase; then, it is gradually updated by analyzing consecutive memory loads of points. Subsequently, at the end of scalable clustering, the approximate structure of the original clusters is obtained. Finally, by another scan of the entire dataset and using a suitable criterion, an outlying score is assigned to each object called SDCOR (Scalable Density-based Clustering Outlierness Ratio). Evaluations on real-life and synthetic datasets demonstrate that the proposed method has a low linear time complexity and is more effective and efficient compared to best-known conventional density-based methods, which need to load all data into the memory; and also, to some fast distance-based methods, which can perform on data resident in the disk.
翻訳日:2022-11-21 20:42:32 公開日:2021-04-26
# 非スピーカアノテーションを用いた低リソースNERモデルの構築

Building Low-Resource NER Models Using Non-Speaker Annotation ( http://arxiv.org/abs/2006.09627v2 )

ライセンス: Link先を確認
Tatiana Tsygankova, Francesca Marini, Stephen Mayhew, Dan Roth(参考訳) 低リソース自然言語処理(NLP)では、ターゲット言語トレーニングデータの欠如と、それを作成するネイティブスピーカーの欠如が大きな問題となっている。 言語横断の手法はこれらの懸念に対処することに顕著な成功を収めてきたが、訓練済みのコーパスやソース言語から遠く離れた言語など、いくつかの一般的な状況では、その性能が低下する。 本稿では,対象言語での経験のないアノテーションによって提供される`non-speaker'(ns)アノテーションを用いて,低リソースのエンティティ認識(ner)モデルを構築するための補完的アプローチを提案する。 インドネシア語、ロシア語、ヒンディー語の注意統制型アノテーション実験に30名の参加者を募集した。 NSアノテータの使用は、現代の文脈表現上に構築された言語横断的手法よりも、一貫した結果が得られ、さらなる努力により性能が向上する可能性があることを示す。 我々は、共通アノテーションパターンと推奨実装プラクティスの観察から締めくくり、NSアノテーションがパフォーマンスを改善するための先行メソッドに加えてどのように使われるのかを動機づける。 詳細はhttp://cogcomp.org/page/publication_view/941

In low-resource natural language processing (NLP), the key problems are a lack of target language training data, and a lack of native speakers to create it. Cross-lingual methods have had notable success in addressing these concerns, but in certain common circumstances, such as insufficient pre-training corpora or languages far from the source language, their performance suffers. In this work we propose a complementary approach to building low-resource Named Entity Recognition (NER) models using ``non-speaker'' (NS) annotations, provided by annotators with no prior experience in the target language. We recruit 30 participants in a carefully controlled annotation experiment with Indonesian, Russian, and Hindi. We show that use of NS annotators produces results that are consistently on par or better than cross-lingual methods built on modern contextual representations, and have the potential to outperform with additional effort. We conclude with observations of common annotation patterns and recommended implementation practices, and motivate how NS annotations can be used in addition to prior methods for improved performance. For more details, http://cogcomp.org/page/publication_view/941
翻訳日:2022-11-19 20:55:38 公開日:2021-04-26
# UV-Net:境界表現から学ぶ

UV-Net: Learning from Boundary Representations ( http://arxiv.org/abs/2006.10211v2 )

ライセンス: Link先を確認
Pradeep Kumar Jayaraman, Aditya Sanghi, Joseph G. Lambourne, Karl D.D. Willis, Thomas Davies, Hooman Shayani, Nigel Morris(参考訳) 本稿では,3次元CADモデルによる境界表現(B-rep)データを直接操作する新しいニューラルネットワークアーキテクチャと表現であるUV-Netを紹介する。 B-repフォーマットは設計、シミュレーション、製造業界で広く使われ、高度なCADモデリング操作を可能にする。 しかしながら、B-repデータは、データ構造が複雑であり、連続的な非ユークリッド幾何学的実体と離散位相的実体の両方をサポートするため、現代の機械学習で使用される際、いくつかの固有の課題を示す。 本稿では,曲線と曲面の u および v パラメータ領域をモデル幾何学に活用する b-rep データの統一表現と,明示的にモデルトポロジーをモデル化するための隣接グラフを提案する。 これにより、計算とメモリ効率のよい方法で画像とグラフ畳み込みニューラルネットワークを結合する、ユニークで効率的なネットワークアーキテクチャであるUV-Netが実現される。 今後の研究を支援するために、幾何学とトポロジの両方のバリエーションを持つ人間設計フォントから派生した合成ラベル付きB-repデータセットSolidLettersを提案する。 最後に、UV-Netは5つのデータセット上の教師なしタスクに一般化でき、ポイントクラウド、ボクセル、メッシュなどの3次元形状表現よりも優れています。

We introduce UV-Net, a novel neural network architecture and representation designed to operate directly on Boundary representation (B-rep) data from 3D CAD models. The B-rep format is widely used in the design, simulation and manufacturing industries to enable sophisticated and precise CAD modeling operations. However, B-rep data presents some unique challenges when used with modern machine learning due to the complexity of the data structure and its support for both continuous non-Euclidean geometric entities and discrete topological entities. In this paper, we propose a unified representation for B-rep data that exploits the U and V parameter domain of curves and surfaces to model geometry, and an adjacency graph to explicitly model topology. This leads to a unique and efficient network architecture, UV-Net, that couples image and graph convolutional neural networks in a compute and memory-efficient manner. To aid in future research we present a synthetic labelled B-rep dataset, SolidLetters, derived from human designed fonts with variations in both geometry and topology. Finally we demonstrate that UV-Net can generalize to supervised and unsupervised tasks on five datasets, while outperforming alternate 3D shape representations such as point clouds, voxels, and meshes.
翻訳日:2022-11-19 13:15:54 公開日:2021-04-26
# auto-pytorch tabular: 効率的でロバストなautodlのためのマルチフィデリティメタラーニング

Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and Robust AutoDL ( http://arxiv.org/abs/2006.13799v3 )

ライセンス: Link先を確認
Lucas Zimmer, Marius Lindauer, Frank Hutter(参考訳) 初期のAutoMLフレームワークは、従来のMLパイプラインとそのハイパーパラメータの最適化に重点を置いていたが、先日のAutoMLのトレンドは、ニューラルネットワーク検索に重点を置いている。 本稿では、ネットワークのアーキテクチャとトレーニングハイパーパラメータを協調的かつ堅牢に最適化し、これら2つの世界を最大限に組み合わせ、完全に自動化されたディープラーニング(AutoDL)を実現するAuto-PyTorchを紹介する。 auto-pytorchは、ディープニューラルネットワーク(dnn)のウォームスタートとセンシングのためのポートフォリオ構築と、テーブルデータのための共通ベースラインを組み合わせることで、複数のグラフベンチマークで最先端のパフォーマンスを実現している。 LCBenchと呼ばれるDNNの学習曲線に関する新しいベンチマークを導入し、通常のAutoMLベンチマークで完全なAuto-PyTorchのアブレーション調査を行い、最終的にAuto-PyTorchが平均していくつかの最先端の競合より優れていることを示す。

While early AutoML frameworks focused on optimizing traditional ML pipelines and their hyperparameters, a recent trend in AutoML is to focus on neural architecture search. In this paper, we introduce Auto-PyTorch, which brings the best of these two worlds together by jointly and robustly optimizing the architecture of networks and the training hyperparameters to enable fully automated deep learning (AutoDL). Auto-PyTorch achieves state-of-the-art performance on several tabular benchmarks by combining multi-fidelity optimization with portfolio construction for warmstarting and ensembling of deep neural networks (DNNs) and common baselines for tabular data. To thoroughly study our assumptions on how to design such an AutoDL system, we additionally introduce a new benchmark on learning curves for DNNs, dubbed LCBench, and run extensive ablation studies of the full Auto-PyTorch on typical AutoML benchmarks, eventually showing that Auto-PyTorch performs better than several state-of-the-art competitors on average.
翻訳日:2022-11-17 08:55:50 公開日:2021-04-26
# 線形関数近似を用いた無限水平平均回帰MDPの学習

Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation ( http://arxiv.org/abs/2007.11849v2 )

ライセンス: Link先を確認
Chen-Yu Wei, Mehdi Jafarnia-Jahromi, Haipeng Luo, Rahul Jain(参考訳) 線形関数近似を用いた無限水平平均逆設定でマルコフ決定過程を学習するための新しいアルゴリズムを開発した。 最適化原理を用いて、MDPが線形構造を持つことを仮定し、まず、最適な$\widetilde{O}(\sqrt{T})$ regretと$\widetilde{O}(T^{3/4})$ regretを持つ別の計算効率の良い変種を持つ計算非効率なアルゴリズムを提案し、そこで$T$は相互作用の数である。 次に、逆線型包帯からインスピレーションを得て、異なる仮定のセットの下で、$\widetilde{O}(\sqrt{T})$ regret を持つ別の効率的なアルゴリズムを開発し、$\widetilde{O}(T^{2/3})$ regret を用いて Hao et al. (2020) による最高の既存の結果を改善する。 さらに,本アルゴリズムとkakade (2002) が提案した自然政策勾配アルゴリズムとの関係を考察し,最近 agarwal et al. (2020) によって与えられたサンプル複雑性を解析により改善することを示した。

We develop several new algorithms for learning Markov Decision Processes in an infinite-horizon average-reward setting with linear function approximation. Using the optimism principle and assuming that the MDP has a linear structure, we first propose a computationally inefficient algorithm with optimal $\widetilde{O}(\sqrt{T})$ regret and another computationally efficient variant with $\widetilde{O}(T^{3/4})$ regret, where $T$ is the number of interactions. Next, taking inspiration from adversarial linear bandits, we develop yet another efficient algorithm with $\widetilde{O}(\sqrt{T})$ regret under a different set of assumptions, improving the best existing result by Hao et al. (2020) with $\widetilde{O}(T^{2/3})$ regret. Moreover, we draw a connection between this algorithm and the Natural Policy Gradient algorithm proposed by Kakade (2002), and show that our analysis improves the sample complexity bound recently given by Agarwal et al. (2020).
翻訳日:2022-11-07 11:54:37 公開日:2021-04-26
# ドメインを超えた本質的な次元に適応する深いネットワーク構成

A deep network construction that adapts to intrinsic dimensionality beyond the domain ( http://arxiv.org/abs/2008.02545v3 )

ライセンス: Link先を確認
Alexander Cloninger and Timo Klock(参考訳) 本研究では,reluアクティベーションを持つディープネットワークを用いて,2層合成の近似値である$f(x) = g(\phi(x))$について検討する。 例えば、低次元埋め込み部分多様体への射影と、低次元集合の集合への距離である。 我々は、周囲の次元ではなく、次元還元写像 $\phi$ の複雑さにのみ依存する最適な近似率を達成する。 $\phi$ は関数 $f$ の材料となるすべての非線形特徴をカプセル化するので、深いネットは、$f$ の領域の複雑さではなく、$f$ によって支配される本質的な次元に忠実であることを意味する。 特に、低次元多様体上の近似函数の一般的な仮定は、同じ多様体上の直交射影を表す$\phi$ を持つ $f(x) = g(\phi(x))$ の函数を用いてかなり緩和することができる。

We study the approximation of two-layer compositions $f(x) = g(\phi(x))$ via deep networks with ReLU activation, where $\phi$ is a geometrically intuitive, dimensionality reducing feature map. We focus on two intuitive and practically relevant choices for $\phi$: the projection onto a low-dimensional embedded submanifold and a distance to a collection of low-dimensional sets. We achieve near optimal approximation rates, which depend only on the complexity of the dimensionality reducing map $\phi$ rather than the ambient dimension. Since $\phi$ encapsulates all nonlinear features that are material to the function $f$, this suggests that deep nets are faithful to an intrinsic dimension governed by $f$ rather than the complexity of the domain of $f$. In particular, the prevalent assumption of approximating functions on low-dimensional manifolds can be significantly relaxed using functions of type $f(x) = g(\phi(x))$ with $\phi$ representing an orthogonal projection onto the same manifold.
翻訳日:2022-11-02 06:52:23 公開日:2021-04-26
# pareto frontをハイパーネットワークで学ぶ

Learning the Pareto Front with Hypernetworks ( http://arxiv.org/abs/2010.04104v2 )

ライセンス: Link先を確認
Aviv Navon and Aviv Shamsian and Gal Chechik and Ethan Fetaya(参考訳) 機械学習では、多目的最適化(MOO)問題が多い。 これらの問題には、Paretoフロントと呼ばれる最適なソリューションセットがあり、フロントの各ポイントは、衝突する可能性のある目標間の異なるトレードオフを表す。 最近のMOO法は、損失空間において特定の望まれる光線を標的にすることができるが、ほとんどのアプローチは以下の2つの重大な制限に直面している。 (i)前の各点ごとに別個のモデルを訓練しなければならない。 (ii)最適化プロセスの前に正確なトレードオフを知る必要がある。 ここでは,訓練後,前部の所望の操作点を選択できるパレートフロント全体を学習する問題に取り組む。 この新しいセットアップをPFL(Pareto-Front Learning)と呼ぶ。 本稿では, HyperNetworks (PHN) を用いて実装した PFL に対するアプローチについて述べる。 PHNは1つのハイパーネットワークを用いてパレートフロント全体を同時に学習し、所望の好みベクトルとして入力され、損失ベクトルが所望の光線にあるパレート最適モデルを返す。 統一モデルは、複数のモデルのトレーニングと比較して実行効率が良く、トレーニング中に使用されない新しい操作ポイントに一般化する。 提案手法は,マルチタスク回帰や分類から公平性に至るまで,幅広い問題に対して評価する。 PHNは、正面の1つの点を学習すると同時に、より良いソリューションセットに到達するのとほぼ同時に、Paretoフロント全体を学習する。 さらに、PHNはResNet18のような大規模モデルを生成するためにスケール可能であることを示す。 PFLは、実行時にのみ利用できる好みに基づいてモデルが選択される新しいアプリケーションへの扉を開く。

Multi-objective optimization (MOO) problems are prevalent in machine learning. These problems have a set of optimal solutions, called the Pareto front, where each point on the front represents a different trade-off between possibly conflicting objectives. Recent MOO methods can target a specific desired ray in loss space however, most approaches still face two grave limitations: (i) A separate model has to be trained for each point on the front; and (ii) The exact trade-off must be known before the optimization process. Here, we tackle the problem of learning the entire Pareto front, with the capability of selecting a desired operating point on the front after training. We call this new setup Pareto-Front Learning (PFL). We describe an approach to PFL implemented using HyperNetworks, which we term Pareto HyperNetworks (PHNs). PHN learns the entire Pareto front simultaneously using a single hypernetwork, which receives as input a desired preference vector and returns a Pareto-optimal model whose loss vector is in the desired ray. The unified model is runtime efficient compared to training multiple models and generalizes to new operating points not used during training. We evaluate our method on a wide set of problems, from multi-task regression and classification to fairness. PHNs learn the entire Pareto front at roughly the same time as learning a single point on the front and at the same time reach a better solution set. Furthermore, we show that PHNs can scale to generate large models like ResNet18. PFL opens the door to new applications where models are selected based on preferences that are only available at run time.
翻訳日:2022-10-09 12:43:54 公開日:2021-04-26
# エネルギーに基づく分布外検出

Energy-based Out-of-distribution Detection ( http://arxiv.org/abs/2010.03759v4 )

ライセンス: Link先を確認
Weitang Liu, Xiaoyun Wang, John D. Owens, Yixuan Li(参考訳) 入力がアウト・オブ・ディストリビューション(OOD)かどうかを決定することは、オープンな世界で機械学習モデルを安全にデプロイするための重要なビルディングブロックである。 しかし,従来のソフトマックス信頼性スコアに依存する手法は,OODデータに対する過信後分布に悩まされている。 エネルギースコアを用いたOOD検出のための統合フレームワークを提案する。 エネルギースコアは,ソフトマックススコアを用いた従来の手法よりも,分布内サンプルと分布外サンプルの区別が良好であることを示す。 ソフトマックス信頼度スコアとは異なり、エネルギースコアは理論上は入力の確率密度と一致しており、過信頼問題に対する影響を受けにくい。 この枠組み内では、OOD検出のためにエネルギー表面を明示的に形成するための訓練可能なコスト関数と同様に、任意のトレーニング済みニューラルネットワーク分類器のスコア関数として、エネルギーを柔軟に使用することができる。 CIFAR-10のトレーニング済みWideResNetでは、エネルギースコアを使用して平均FPR(TPR 95%)をソフトマックスの信頼性スコアと比較して18.03%削減する。 エネルギーベースのトレーニングでは、我々の手法は一般的なベンチマークで最先端よりも優れています。

Determining whether inputs are out-of-distribution (OOD) is an essential building block for safely deploying machine learning models in the open world. However, previous methods relying on the softmax confidence score suffer from overconfident posterior distributions for OOD data. We propose a unified framework for OOD detection that uses an energy score. We show that energy scores better distinguish in- and out-of-distribution samples than the traditional approach using the softmax scores. Unlike softmax confidence scores, energy scores are theoretically aligned with the probability density of the inputs and are less susceptible to the overconfidence issue. Within this framework, energy can be flexibly used as a scoring function for any pre-trained neural classifier as well as a trainable cost function to shape the energy surface explicitly for OOD detection. On a CIFAR-10 pre-trained WideResNet, using the energy score reduces the average FPR (at TPR 95%) by 18.03% compared to the softmax confidence score. With energy-based training, our method outperforms the state-of-the-art on common benchmarks.
翻訳日:2022-10-09 11:23:26 公開日:2021-04-26
# グラフとgraphonニューラルネットワークの安定性

Graph and graphon neural network stability ( http://arxiv.org/abs/2010.12529v4 )

ライセンス: Link先を確認
Luana Ruiz, Zhiyang Wang, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、大規模ネットワークデータの意味のある表現を生成するためにグラフ構造の知識に依存する学習アーキテクチャである。 したがって、GNNの安定性は、現実のシナリオではグラフに関連する不確実性が存在するため重要である。 我々は,GNNの安定性をグラファイトと呼ばれるカーネルオブジェクトを用いて解析する。 グラトンは収束グラフ列の極限であり、決定論的および確率的グラフのモデルを生成する。 グラトン信号処理の理論に基づいて、グラトンニューラルネットワークを定義し、グラトン摂動に対するその安定性を分析する。 そして、この分析を、元のグラフと摂動グラフからインスタンス化された決定論的および確率的グラフ上で、GNNの生成モデルとしてグラノンニューラルネットワークを解釈することによって拡張する。 gnnはグラフの大きさと漸近的に減少する安定性境界を持つグラフェン摂動に対して安定である。 この症状は映画レコメンデーションの実験でさらに実証されている。

Graph neural networks (GNNs) are learning architectures that rely on knowledge of the graph structure to generate meaningful representations of large-scale network data. GNN stability is thus important as in real-world scenarios there are typically uncertainties associated with the graph. We analyze GNN stability using kernel objects called graphons. Graphons are both limits of convergent graph sequences and generating models for deterministic and stochastic graphs. Building upon the theory of graphon signal processing, we define graphon neural networks and analyze their stability to graphon perturbations. We then extend this analysis by interpreting the graphon neural network as a generating model for GNNs on deterministic and stochastic graphs instantiated from the original and perturbed graphons. We observe that GNNs are stable to graphon perturbations with a stability bound that decreases asymptotically with the size of the graph. This asymptotic behavior is further demonstrated in an experiment of movie recommendation.
翻訳日:2022-10-04 00:12:52 公開日:2021-04-26
# voicing-aware conditional discriminatorを用いた生成逆ネットワークに基づく並列波形合成

Parallel waveform synthesis based on generative adversarial networks with voicing-aware conditional discriminators ( http://arxiv.org/abs/2010.14151v2 )

ライセンス: Link先を確認
Ryuichi Yamamoto, Eunwoo Song, Min-Jae Hwang, Jae-Min Kim(参考訳) 本稿では、パラレルウェーブGANに基づく波形合成システムのための音声対応条件判別器を提案する。 この枠組みでは, 判別器の性能を著しく向上できる投射に基づく条件付け手法を採用する。 さらに、従来の判別器を2つの波形判別器に分離し、有声・無声音声をモデル化する。 各判別器は、それぞれ調和成分と雑音成分の特徴的な特徴を学習するので、対向訓練プロセスはより効率的になり、生成器はより現実的な音声波形を生成できる。 主観試験の結果,従来の並列ウェーブガンおよびウェーブネットシステムよりも,提案手法が優れていることが示された。 特に、fastspeech 2ベースのtext-to-speechフレームワーク内の話者独立学習モデルでは、日本語話者4人に対して平均評価スコアが4.20,4.18,4.21,4.31である。

This paper proposes voicing-aware conditional discriminators for Parallel WaveGAN-based waveform synthesis systems. In this framework, we adopt a projection-based conditioning method that can significantly improve the discriminator's performance. Furthermore, the conventional discriminator is separated into two waveform discriminators for modeling voiced and unvoiced speech. As each discriminator learns the distinctive characteristics of the harmonic and noise components, respectively, the adversarial training process becomes more efficient, allowing the generator to produce more realistic speech waveforms. Subjective test results demonstrate the superiority of the proposed method over the conventional Parallel WaveGAN and WaveNet systems. In particular, our speaker-independently trained model within a FastSpeech 2 based text-to-speech framework achieves the mean opinion scores of 4.20, 4.18, 4.21, and 4.31 for four Japanese speakers, respectively.
翻訳日:2022-10-02 13:16:17 公開日:2021-04-26
# スパイクニューラルネットワーク -その2:時空間パターンの検出

Spiking Neural Networks -- Part II: Detecting Spatio-Temporal Patterns ( http://arxiv.org/abs/2010.14217v3 )

ライセンス: Link先を確認
Nicolas Skatchkovsky, Hyeryung Jang, Osvaldo Simeone(参考訳) 生体脳の操作にインスパイアされたスパイキングニューラルネットワーク(SNN)は、スパイキング信号の時空間パターンに符号化された情報を検出するユニークな能力を持つ。 時空間処理を必要とするデータ型には、例えばツイートのタイムスタンプのログや、神経義肢や神経形センサーの出力などがある。 本稿では,SNNをリカレントニューラルネットワーク(Recurrent Neural Network, RNN)とみなす支配的アプローチのモデルとトレーニングアルゴリズムをまずレビューし,SNNの要件を満たすためのバックプロパゲーションに基づく学習規則を適用する。 スパイキング機構の非微分可能性に取り組むために、最先端の解は、閾値活性化関数を微分可能な関数で近似する代理勾配を用いる。 次に, 勾配の確率的推定による局所学習規則の導出を可能とし, スパイキングニューロンの確率モデルに依存する別のアプローチについて述べる。 最後に、ニューロモルフィックデータセットに対して実験を行い、異なるSNNモデルの下での精度と収束についての洞察を得る。

Inspired by the operation of biological brains, Spiking Neural Networks (SNNs) have the unique ability to detect information encoded in spatio-temporal patterns of spiking signals. Examples of data types requiring spatio-temporal processing include logs of time stamps, e.g., of tweets, and outputs of neural prostheses and neuromorphic sensors. In this paper, the second of a series of three review papers on SNNs, we first review models and training algorithms for the dominant approach that considers SNNs as a Recurrent Neural Network (RNN) and adapt learning rules based on backpropagation through time to the requirements of SNNs. In order to tackle the non-differentiability of the spiking mechanism, state-of-the-art solutions use surrogate gradients that approximate the threshold activation function with a differentiable function. Then, we describe an alternative approach that relies on probabilistic models for spiking neurons, allowing the derivation of local learning rules via stochastic estimates of the gradient. Finally, experiments are provided for neuromorphic data sets, yielding insights on accuracy and convergence under different SNN models.
翻訳日:2022-10-02 11:15:14 公開日:2021-04-26
# 安全に関する保守的批判

Conservative Safety Critics for Exploration ( http://arxiv.org/abs/2010.14497v2 )

ライセンス: Link先を確認
Homanga Bharadhwaj, Aviral Kumar, Nicholas Rhinehart, Sergey Levine, Florian Shkurti, Animesh Garg(参考訳) 安全な探索は強化学習(RL)において大きな課題である: アクティブなデータ収集が部分的に訓練されたポリシーを配置する必要がある場合、我々は、これらのポリシーが破滅的に安全でない地域を回避しつつ、トライアルとエラー学習を引き続き可能にしなくてはならない。 本稿では,RLにおける安全探査の課題を,批判者を通じて環境状態の保守的安全性推定を学習し,トレーニングの繰り返しごとに破滅的故障の確率を確実に上限とする。 我々は、安全と政策改善のトレードオフを理論的に特徴づけ、トレーニング中に高い確率で安全制約を満たす可能性を示し、標準のRLよりも悪い漸近的ではない我々のアプローチに対して証明可能な収束保証を導出し、提案手法が困難なナビゲーション、操作、移動タスクのスイートにおいて有効であることを示す。 実験結果から,提案手法は従来の手法よりも大きな破壊的障害率を伴いながら,競争的タスク性能を達成できることを示した。 ビデオはこのurlhttps://sites.google.com/view/conservative-safety-critics/homeにある。

Safe exploration presents a major challenge in reinforcement learning (RL): when active data collection requires deploying partially trained policies, we must ensure that these policies avoid catastrophically unsafe regions, while still enabling trial and error learning. In this paper, we target the problem of safe exploration in RL by learning a conservative safety estimate of environment states through a critic, and provably upper bound the likelihood of catastrophic failures at every training iteration. We theoretically characterize the tradeoff between safety and policy improvement, show that the safety constraints are likely to be satisfied with high probability during training, derive provable convergence guarantees for our approach, which is no worse asymptotically than standard RL, and demonstrate the efficacy of the proposed approach on a suite of challenging navigation, manipulation, and locomotion tasks. Empirically, we show that the proposed approach can achieve competitive task performance while incurring significantly lower catastrophic failure rates during training than prior methods. Videos are at this url https://sites.google.com/view/conservative-safety-critics/home
翻訳日:2022-10-02 10:54:10 公開日:2021-04-26
# AI Poincar\'e: 軌道からの機械学習保存法則

AI Poincar\'e: Machine Learning Conservation Laws from Trajectories ( http://arxiv.org/abs/2011.04698v2 )

ライセンス: Link先を確認
Ziming Liu (MIT), Max Tegmark (MIT)(参考訳) 未知の力学系からの軌跡データを用いて保存量の自動発見を行う機械学習アルゴリズムであるAI Poincar\'eを提案する。 重力3体問題を含む5つのハミルトニアン系でテストし、完全に保存された全ての量だけでなく、周期軌道、相転移、近似保存則の崩壊時間尺度も発見する。

We present AI Poincar\'e, a machine learning algorithm for auto-discovering conserved quantities using trajectory data from unknown dynamical systems. We test it on five Hamiltonian systems, including the gravitational 3-body problem, and find that it discovers not only all exactly conserved quantities, but also periodic orbits, phase transitions and breakdown timescales for approximate conservation laws.
翻訳日:2022-09-28 02:45:17 公開日:2021-04-26
# 適応多要素モデルを用いた時間不変係数テスト

Time-Invariance Coefficients Tests with the Adaptive Multi-Factor Model ( http://arxiv.org/abs/2011.04171v2 )

ライセンス: Link先を確認
Liao Zhu, Robert A. Jarrow, Martin T. Wells(参考訳) 本稿では,アダプティブ・マルチファクター(AMF)モデルにより推定されるベータ係数の時間不変性をテストする。 AMFモデルは、一定のベータ係数を意味する一般仲裁価格理論(GAPT)によって示唆される。 AMFモデルは、Groupwise Interpretable Basis Selection (GIBS)アルゴリズムを使用して、すべてのETFから関連する要素を識別する。 AMFモデルとFama-French 5-factor (FF5)モデルを比較した。 6年以内のほぼ全ての期間において、ベータ係数はAMFモデルでは時間不変であるが、FF5モデルでは変化しないことを示す。 これは、転がり窓を持つamfモデル(例えば5年)がff5モデルよりも実現されたアセットリターンと一貫性があることを意味する。

The purpose of this paper is to test the time-invariance of the beta coefficients estimated by the Adaptive Multi-Factor (AMF) model. The AMF model is implied by the generalized arbitrage pricing theory (GAPT), which implies constant beta coefficients. The AMF model utilizes a Groupwise Interpretable Basis Selection (GIBS) algorithm to identify the relevant factors from among all traded ETFs. We compare the AMF model with the Fama-French 5-factor (FF5) model. We show that for nearly all time periods with length less than 6 years, the beta coefficients are time-invariant for the AMF model, but not for the FF5 model. This implies that the AMF model with a rolling window (such as 5 years) is more consistent with realized asset returns than is the FF5 model.
翻訳日:2022-09-28 02:04:30 公開日:2021-04-26
# スケルトンに基づく人間行動認識のための時空間グラフ畳み込みネットワーク

Progressive Spatio-Temporal Graph Convolutional Network for Skeleton-Based Human Action Recognition ( http://arxiv.org/abs/2011.05668v2 )

ライセンス: Link先を確認
Negar Heidari and Alexandros Iosifidis(参考訳) グラフ畳み込みネットワーク(GCN)は、骨格の配列をグラフとしてモデル化した骨格に基づく人間の行動認識において、非常に成功した。 しかし、この領域におけるGCNベースの手法のほとんどは、計算複雑性が高く、低計算シナリオでの応用を制限する固定トポロジを持つディープフィードフォワードネットワークを訓練している。 本稿では,時空間グラフ畳み込みネットワークのためのコンパクトかつ問題固有のトポロジを漸進的に発見する手法を提案する。 骨格に基づく人間の行動認識に広く用いられている2つのデータセットの実験結果から,提案手法は計算複雑性がはるかに低い最先端の手法と比較して,競争力や分類性能が優れていることが示された。

Graph convolutional networks (GCNs) have been very successful in skeleton-based human action recognition where the sequence of skeletons is modeled as a graph. However, most of the GCN-based methods in this area train a deep feed-forward network with a fixed topology that leads to high computational complexity and restricts their application in low computation scenarios. In this paper, we propose a method to automatically find a compact and problem-specific topology for spatio-temporal graph convolutional networks in a progressive manner. Experimental results on two widely used datasets for skeleton-based human action recognition indicate that the proposed method has competitive or even better classification performance compared to the state-of-the-art methods with much lower computational complexity.
翻訳日:2022-09-26 23:22:48 公開日:2021-04-26
# deep sketch-based modeling: ヒントとトリック

Deep Sketch-Based Modeling: Tips and Tricks ( http://arxiv.org/abs/2011.06133v3 )

ライセンス: Link先を確認
Yue Zhong, Yulia Gryaditskaya, Honggang Zhang, Yi-Zhe Song(参考訳) 近年、深部画像ベースモデリングが注目されているが、スケッチベースモデリングの並列問題は、しばしば潜在的な応用として短期間研究されているだけである。 本研究では,まず,スケッチと画像入力の主な違いを明らかにする。 (i)スタイルのばらつき。 (ii)不合理な視点、及び (iii)気まぐれ。 これらの違いがなぜ課題となるのかを議論し、特定の画像ベースの手法を適用できないようにする。 我々は、それぞれの違いに対処するための代替ソリューションを研究します。 そうすることで、私たちはいくつかの重要な洞察を導き出します。 (i)スパーシティは一般的に前景と背景の誤った予測をもたらす。 二 人間の様式の多様性が考慮されなければ、非常に貧弱な一般化特性につながり、最終的に (iii)専用のスケッチインタフェースが使われていなければ、一定の視点の視点に合致するスケッチを期待できない。 最後に,一組のディープ・シングルイメージ・モデリング・ソリューションを比較し,重要な相違点を考慮し,スケッチ入力に対処するためにそれらの性能をどのように改善できるかを示す。

Deep image-based modeling received lots of attention in recent years, yet the parallel problem of sketch-based modeling has only been briefly studied, often as a potential application. In this work, for the first time, we identify the main differences between sketch and image inputs: (i) style variance, (ii) imprecise perspective, and (iii) sparsity. We discuss why each of these differences can pose a challenge, and even make a certain class of image-based methods inapplicable. We study alternative solutions to address each of the difference. By doing so, we drive out a few important insights: (i) sparsity commonly results in an incorrect prediction of foreground versus background, (ii) diversity of human styles, if not taken into account, can lead to very poor generalization properties, and finally (iii) unless a dedicated sketching interface is used, one can not expect sketches to match a perspective of a fixed viewpoint. Finally, we compare a set of representative deep single-image modeling solutions and show how their performance can be improved to tackle sketch input by taking into consideration the identified critical differences.
翻訳日:2022-09-26 06:48:51 公開日:2021-04-26
# delta-glmbフィルタを用いたオクルージョンとアイデンティティスイッチハンドリングに基づくオンラインマルチオブジェクトトラッキング

Online Multi-Object Tracking with delta-GLMB Filter based on Occlusion and Identity Switch Handling ( http://arxiv.org/abs/2011.10111v2 )

ライセンス: Link先を確認
Mohammadjavad Abbaspour and Mohammad Ali Masnadi-Shirazi(参考訳) 本稿では,デルタ一般化ラベル付きマルチベルヌーリ(delta Generalized Labeled Multi-Bernoulli, Delta-GLMB)フィルタフレームワークにおけるオンラインマルチオブジェクト追跡(MOT)手法を提案する。 咬合・ミス検出問題に対処するために,一段階のデルタグレーンフィルタを用いた計測から解答までのトラックアソシエーション法を提案する。 提案手法は,仮定された再出現トラックの重み付けに責任を持つ類似度測定値に基づく。 また、デルタ-GLMBフィルタを拡張して、仮定されたトラックの濃度密度、サイズ、色特徴を用いて、スイッチングされたIDを効率よく回収する。 また,より効果的なクラッタ除去性能を実現するための新しい出生モデルを提案する。 提案手法では, 咬合・ミス検出ハンドラと新たに誕生した物体検出セクションの両方において, 再出現や出生の候補として無割当な測定が重要な役割を果たす。 また,本研究はベースライン法と比較し,提案手法の有効性を確認したアブレーション研究を行う。 歩行者追跡に焦点を当てたMOT15およびMOT17テストデータセットについて,提案手法の評価を行った。 実験結果から,提案トラッカーはオンラインおよびオフラインMOT手法と同等以上の性能を示した。 隠蔽とIDスイッチの問題を効果的に処理し、誤報を低減します。

In this paper, we propose an online multi-object tracking (MOT) method in a delta Generalized Labeled Multi-Bernoulli (delta-GLMB) filter framework to address occlusion and miss-detection issues, reduce false alarms, and recover identity switch (ID switch). To handle occlusion and miss-detection issues, we propose a measurement-to-disappeared track association method based on one-step delta-GLMB filter, so it is possible to manage these difficulties by jointly processing occluded or miss-detected objects. This part of proposed method is based on a proposed similarity metric which is responsible for defining the weight of hypothesized reappeared tracks. We also extend the delta-GLMB filter to efficiently recover switched IDs using the cardinality density, size and color features of the hypothesized tracks. We also propose a novel birth model to achieve more effective clutter removal performance. In both occlusion/miss-detection handler and newly-birthed object detector sections of the proposed method, unassigned measurements play a significant role, since they are used as the candidates for reappeared or birth objects. In addition, we perform an ablation study which confirms the effectiveness of our contributions in comparison with the baseline method. We evaluate the proposed method on well-known and publicly available MOT15 and MOT17 test datasets which are focused on pedestrian tracking. Experimental results show that the proposed tracker performs better or at least at the same level of the state-of-the-art online and offline MOT methods. It effectively handles the occlusion and ID switch issues and reduces false alarms as well.
翻訳日:2022-09-23 21:44:25 公開日:2021-04-26
# Sparse R-CNN:学習可能な提案によるエンドツーエンドオブジェクト検出

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals ( http://arxiv.org/abs/2011.12450v2 )

ライセンス: Link先を確認
Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo(参考訳) Sparse R-CNNは画像中の物体検出のための純粋にスパースな方法である。 既存のオブジェクト検出の作業は、密度の高いオブジェクト候補に大きく依存している。例えば、サイズ$h\times w$のイメージフィーチャーマップのすべてのグリッドで事前に定義された$k$ anchor boxなどだ。 しかし,本手法では,対象認識ヘッドに対して,学習対象の提案である総長さn$の固定スパースセットを提供し,分類と位置推定を行う。 HWk$(数十万まで)のハンドデザインのオブジェクト候補を$N$(例えば100)の学習可能な提案に排除することで、Sparse R-CNNはオブジェクト候補の設計と多対一のラベル割り当てに関連するすべての作業を完全に回避する。 さらに重要なことに、最終予測は、処理後の最大抑制なしに直接出力される。 Sparse R-CNNは精度、実行時間、トレーニング収束性能を、挑戦的なCOCOデータセット上で確立されたベースラインと同等に示す。例えば、標準3ドル/タイムで45.0 APを獲得し、ResNet-50 FPNモデルを使用して22fpsで実行することができる。 われわれの研究が、物体検知器の高密度以前の慣習を再考することを願っている。 コードはhttps://github.com/PeizeSun/SparseR-CNNで入手できる。

We present Sparse R-CNN, a purely sparse method for object detection in images. Existing works on object detection heavily rely on dense object candidates, such as $k$ anchor boxes pre-defined on all grids of image feature map of size $H\times W$. In our method, however, a fixed sparse set of learned object proposals, total length of $N$, are provided to object recognition head to perform classification and location. By eliminating $HWk$ (up to hundreds of thousands) hand-designed object candidates to $N$ (e.g. 100) learnable proposals, Sparse R-CNN completely avoids all efforts related to object candidates design and many-to-one label assignment. More importantly, final predictions are directly output without non-maximum suppression post-procedure. Sparse R-CNN demonstrates accuracy, run-time and training convergence performance on par with the well-established detector baselines on the challenging COCO dataset, e.g., achieving 45.0 AP in standard $3\times$ training schedule and running at 22 fps using ResNet-50 FPN model. We hope our work could inspire re-thinking the convention of dense prior in object detectors. The code is available at: https://github.com/PeizeSun/SparseR-CNN.
翻訳日:2022-09-21 02:45:54 公開日:2021-04-26
# AdaINを用いた切換え型サイクロンを用いたCTカーネルの連続変換

Continuous Conversion of CT Kernel using Switchable CycleGAN with AdaIN ( http://arxiv.org/abs/2011.13150v2 )

ライセンス: Link先を確認
Serin Yang, Eung Yeop Kim, and Jong Chul Ye(参考訳) X線CT(CT)は異なるフィルタカーネルを用いて異なる構造をハイライトする。 生のシンノグラムデータは、通常、復元後に削除されるため、以前に生成されなかった他のタイプのカーネルイメージが必要となる場合、患者は再度スキャンする必要がある。 したがって、イメージ品質を犠牲にすることなく、あるカーネルから別のカーネルへのポストホックなイメージドメイン変換の需要が高まっている。 本稿では,適応インスタンス正規化(adain)を伴うサイクル整合生成型逆ネットワーク(cyclegan)を用いた,教師なし連続カーネル変換手法を提案する。 ペアトレーニングデータなしでも、2つの異なるカーネル間でイメージを変換できるだけでなく、2つのカーネルドメイン間の補間パスに沿ってイメージを変換することも可能です。 また、中間カーネル領域の画像が利用可能であれば、生成画像の品質をさらに向上できることを示す。 実験の結果,本手法は教師あり学習法に匹敵する正確なカーネル変換を可能にするだけでなく,下咽頭癌診断に有用な未確認領域の中間核画像も生成できることが確認された。

X-ray computed tomography (CT) uses different filter kernels to highlight different structures. Since the raw sinogram data is usually removed after the reconstruction, in case there are additional need for other types of kernel images that were not previously generated, the patient may need to be scanned again. Accordingly, there exists increasing demand for post-hoc image domain conversion from one kernel to another without sacrificing the image quality. In this paper, we propose a novel unsupervised continuous kernel conversion method using cycle-consistent generative adversarial network (cycleGAN) with adaptive instance normalization (AdaIN). Even without paired training data, not only can our network translate the images between two different kernels, but it can also convert images along the interpolation path between the two kernel domains. We also show that the quality of generated images can be further improved if intermediate kernel domain images are available. Experimental results confirm that our method not only enables accurate kernel conversion that is comparable to supervised learning methods, but also generates intermediate kernel images in the unseen domain that are useful for hypopharyngeal cancer diagnosis.
翻訳日:2022-09-20 08:29:57 公開日:2021-04-26
# (参考訳) SSGD : 勾配降下の安全かつ効率的な方法

SSGD: A safe and efficient method of gradient descent ( http://arxiv.org/abs/2012.02076v2 )

ライセンス: CC BY 4.0
Jinhuan Duan, Xianxian Li, Shiqi Gao, Jinyan Wang and Zili Zhong(参考訳) 人工知能技術の活発な開発により、様々な技術応用が次々と実施されている。 勾配降下法は, 単純構造, 安定性, 実装容易性など, 様々な最適化問題を解く上で重要な役割を担っている。 マルチノード機械学習システムでは、勾配は通常共有する必要がある。 共有勾配は一般に安全ではない。 攻撃者は勾配情報を知るだけで訓練データを得ることができる。 本稿では,モデル精度を維持しつつ勾配リークを防止するため,勾配ベクトルのモジュラス長を隠蔽し,それを単位ベクトルに変換することで,パラメータを更新するための超確率勾配降下法を提案する。 さらに,超確率勾配降下法の安全性を解析した。 我々のアルゴリズムは 勾配の攻撃から防御できる 実験結果から,本手法は大規模バッチに対する精度,堅牢性,適応性の観点から,偏勾配勾配法よりも明らかに優れていることが示された。

With the vigorous development of artificial intelligence technology, various engineering technology applications have been implemented one after another. The gradient descent method plays an important role in solving various optimization problems, due to its simple structure, good stability and easy implementation. In multi-node machine learning system, the gradients usually need to be shared. Shared gradients are generally unsafe. Attackers can obtain training data simply by knowing the gradient information. In this paper, to prevent gradient leakage while keeping the accuracy of model, we propose the super stochastic gradient descent approach to update parameters by concealing the modulus length of gradient vectors and converting it or them into a unit vector. Furthermore, we analyze the security of super stochastic gradient descent approach. Our algorithm can defend against attacks on the gradient. Experiment results show that our approach is obviously superior to prevalent gradient descent approaches in terms of accuracy, robustness, and adaptability to large-scale batches.
翻訳日:2021-05-23 20:14:07 公開日:2021-04-26
# M-locationに基づくリスク学習

Learning with risks based on M-location ( http://arxiv.org/abs/2012.02424v2 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 本研究では,従来の平均分散リスク関数をはるかに超え,損失分布の位置と偏差から定義される新たなリスクのクラスについて検討する。 クラスは任意の滑らかな損失のラッパーとして容易に実装され、確率勾配法に対する有限サンプルの定常性保証を認め、損失位置のM推定器に近接して解釈と調整が容易であり、テスト損失分布に顕著な影響を持つ。

In this work, we study a new class of risks defined in terms of the location and deviation of the loss distribution, generalizing far beyond classical mean-variance risk functions. The class is easily implemented as a wrapper around any smooth loss, it admits finite-sample stationarity guarantees for stochastic gradient methods, it is straightforward to interpret and adjust, with close links to M-estimators of the loss location, and has a salient effect on the test loss distribution.
翻訳日:2021-05-22 20:50:28 公開日:2021-04-26
# AI研究における社会技術探究の軸

Axes for Sociotechnical Inquiry in AI Research ( http://arxiv.org/abs/2105.06551v1 )

ライセンス: Link先を確認
Sarah Dean, Thomas Krendl Gilbert, Nathan Lambert and Tom Zick(参考訳) 人工知能(AI)技術の発展は、社会との関係の調査をはるかに上回っている。 社会技術的調査は、潜在的な影響が十分に理解されていない新しい技術の害を軽減するために必要である。 現在、AI研究のサブフィールドは、主に社会技術者との関係についての個々の見解を発達させており、外部調査、比較、相互補間のためのツールが不足している。 本稿では,新しい技術開発分野を探求する4つの方法を提案する:価値 - 進歩と方向性がフィールドを促進,最適化する - 問題の定式化における定義されたシステムが,より広範なダイナミクスとどのように関連するか,コンセンサス- 合意が達成され,誰がそれを構築するか,そして,問題仕様が望まれている場合の失敗方法を求める。 本論文は、社会技術調査のためのレキシコンを提供し、消費者向けドローン技術の例を通してそれを解説する。

The development of artificial intelligence (AI) technologies has far exceeded the investigation of their relationship with society. Sociotechnical inquiry is needed to mitigate the harms of new technologies whose potential impacts remain poorly understood. To date, subfields of AI research develop primarily individual views on their relationship with sociotechnics, while tools for external investigation, comparison, and cross-pollination are lacking. In this paper, we propose four directions for inquiry into new and evolving areas of technological development: value--what progress and direction does a field promote, optimization--how the defined system within a problem formulation relates to broader dynamics, consensus--how agreement is achieved and who is included in building it, and failure--what methods are pursued when the problem specification is found wanting. The paper provides a lexicon for sociotechnical inquiry and illustrates it through the example of consumer drone technology.
翻訳日:2021-05-18 17:21:28 公開日:2021-04-26
# BM25は、訴訟検索のための強力なベースライン

Yes, BM25 is a Strong Baseline for Legal Case Retrieval ( http://arxiv.org/abs/2105.05686v1 )

ライセンス: Link先を確認
Guilherme Moraes Rosa, Ruan Chaves Rodrigues, Roberto Lotufo, Rodrigo Nogueira(参考訳) 我々はCOLIEE 2021のタスク1への単一提出について述べる。 バニラBM25が2位となり、応募の中央値を大きく上回った。 コードはhttps://github.com/neuralmind-ai/colieeで入手できる。

We describe our single submission to task 1 of COLIEE 2021. Our vanilla BM25 got second place, well above the median of submissions. Code is available at https://github.com/neuralmind-ai/coliee.
翻訳日:2021-05-14 11:30:07 公開日:2021-04-26
# コード生成に向けて:セマンティック解析による調査と教訓

Toward Code Generation: A Survey and Lessons from Semantic Parsing ( http://arxiv.org/abs/2105.03317v1 )

ライセンス: Link先を確認
Celine Lee (1 and 2), Justin Gottschlich (1 and 2), Dan Roth (2) ((1) Intel Labs, (2) University of Pennsylvania)(参考訳) 自然言語処理技術の成長とソフトウェアエンジニアリングの効率化への需要により、人間の言語からプログラミング言語への意図の翻訳への関心が高まっている。 本稿では,この分野における研究の進展について概説する。 まず,自然言語意味解析手法をレビューし,プログラム合成と並行する手法を提案する。 次に、神経シンボリックな手法、アーキテクチャ、監督に関する特定の分析とともに、進化的観点から意味的構文解析の作用を考える。 次に、コード生成のための意味解析のためのフレームワークの進歩を分析する。 締めくくりとして、私たちはこの領域における新たなオープンな課題をいくつか挙げます。

With the growth of natural language processing techniques and demand for improved software engineering efficiency, there is an emerging interest in translating intention from human languages to programming languages. In this survey paper, we attempt to provide an overview of the growing body of research in this space. We begin by reviewing natural language semantic parsing techniques and draw parallels with program synthesis efforts. We then consider semantic parsing works from an evolutionary perspective, with specific analyses on neuro-symbolic methods, architecture, and supervision. We then analyze advancements in frameworks for semantic parsing for code generation. In closing, we present what we believe are some of the emerging open challenges in this domain.
翻訳日:2021-05-11 08:34:40 公開日:2021-04-26
# (参考訳) マルチモードプロセスのモニタリング:連続学習能力を持つ修正PCAアルゴリズム

Monitoring multimode processes: a modified PCA algorithm with continual learning ability ( http://arxiv.org/abs/2012.07044v4 )

ライセンス: CC BY 4.0
Jingxin Zhang, Donghua Zhou, and Maoyin Chen(参考訳) マルチモードプロセスでは、一般にローカルモードに対応するローカルモニタリングモデルを確立する。 しかし、現在のモードの監視モデルを構築したとき、以前のモードの重要な特徴は破滅的に忘れられる可能性がある。 その結果、突然のパフォーマンスが低下する。 ローカルモニタリングモデルを以前のモードの特徴を思い出させる効果的な方法かもしれない。 基本的な監視モデルとして主成分分析(pca)を選択し,この問題を解決しようとする。 改良されたPCAアルゴリズムは、連続モードにおけるPCAの破滅的な忘れを克服するために、弾性重み付け(EWC)を採用するマルチモードプロセスの連続的な学習能力を持つ。 PCA-EWC(PCA-EWC)と呼ばれ、現在のモードでPCAモデルを確立する際に、以前のモードの重要な特徴が保存される。 最適パラメータは凸関数の違いによって得られる。 さらに、提案したPCA-EWCを一般的なマルチモードプロセスに拡張し、その手順を示す。 PCAと提案アルゴリズムの関係をより深く理解するために,計算複雑性と鍵パラメータについて考察する。 潜在的な制限と関連する解決策は、アルゴリズムをさらに理解するために指摘される。 中国における数値ケーススタディと実践的産業システムを用いて,提案アルゴリズムの有効性を実証した。

For multimode processes, one generally establishes local monitoring models corresponding to local modes. However, the significant features of previous modes may be catastrophically forgotten when a monitoring model for the current mode is built. It would result in an abrupt performance decrease. It could be an effective manner to make local monitoring model remember the features of previous modes. Choosing the principal component analysis (PCA) as a basic monitoring model, we try to resolve this problem. A modified PCA algorithm is built with continual learning ability for monitoring multimode processes, which adopts elastic weight consolidation (EWC) to overcome catastrophic forgetting of PCA for successive modes. It is called PCA-EWC, where the significant features of previous modes are preserved when a PCA model is established for the current mode. The optimal parameters are acquired by differences of convex functions. Moreover, the proposed PCA-EWC is extended to general multimode processes and the procedure is presented. The computational complexity and key parameters are discussed to further understand the relationship between PCA and the proposed algorithm. Potential limitations and relevant solutions are pointed to understand the algorithm further. Numerical case study and a practical industrial system in China are employed to illustrate the effectiveness of the proposed algorithm.
翻訳日:2021-05-09 17:07:31 公開日:2021-04-26
# Trex: バイナリ類似性のためのマイクロトレースからの実行セマンティック学習

Trex: Learning Execution Semantics from Micro-Traces for Binary Similarity ( http://arxiv.org/abs/2012.08680v3 )

ライセンス: Link先を確認
Kexin Pei, Zhou Xuan, Junfeng Yang, Suman Jana, Baishakhi Ray(参考訳) セマンティックに類似した関数の検出 – 脆弱性検出、マルウェアの系統、法医学など、幅広い現実世界のセキュリティ使用に関する重要な分析機能 – には、関数の動作と意図を理解する必要がある。 セマンティクス的に類似した関数は異なるアーキテクチャ上で実行され、様々なコンパイラ最適化や難読化でコンパイルされるため、このタスクは困難である。 既存のアプローチのほとんどは、関数の実行セマンティクスを理解せずに、構文的特徴に基づいた関数にマッチする。 本稿では、関数のマイクロトレースから学習実行セマンティクスを明示的に自動化し、学習知識を意味論的に類似した関数に変換するトランスファーラーニングベースのフレームワークであるTrexを提案する。 私たちの重要な洞察は、これらのトレースを使用して、異なる命令シーケンスの実行セマンティクスをMLモデルに教えることができることです。 したがって、手作業でラベルを付けることなく、関数のマイクロトレースから実行セマンティクスを学ぶようにモデルをトレーニングします。 次に、マイクロトレースから実行セマンティクスを学習する新しいニューラルアーキテクチャを開発し、トレーニング済みモデルにセマンティクス的に類似した機能を加える。 13のソフトウェアプロジェクトから1,472,066個の関数バイナリをトレックスで評価した。 これらの関数は異なるアーキテクチャからなり、様々な最適化と難読化でコンパイルされる。 Trexは、アーキテクチャ、最適化、難読化関数マッチングにおいて、それぞれ7.8%、7.2%、14.3%で最先端システムを上回っている。 アブレーション研究では、事前学習が機能マッチング性能を大幅に向上させ、学習実行セマンティクスの重要性を強調している。

Detecting semantically similar functions -- a crucial analysis capability with broad real-world security usages including vulnerability detection, malware lineage, and forensics -- requires understanding function behaviors and intentions. This task is challenging as semantically similar functions can be implemented differently, run on different architectures, and compiled with diverse compiler optimizations or obfuscations. Most existing approaches match functions based on syntactic features without understanding the functions' execution semantics. We present Trex, a transfer-learning-based framework, to automate learning execution semantics explicitly from functions' micro-traces and transfer the learned knowledge to match semantically similar functions. Our key insight is that these traces can be used to teach an ML model the execution semantics of different sequences of instructions. We thus train the model to learn execution semantics from the functions' micro-traces, without any manual labeling effort. We then develop a novel neural architecture to learn execution semantics from micro-traces, and we finetune the pretrained model to match semantically similar functions. We evaluate Trex on 1,472,066 function binaries from 13 popular software projects. These functions are from different architectures and compiled with various optimizations and obfuscations. Trex outperforms the state-of-the-art systems by 7.8%, 7.2%, and 14.3% in cross-architecture, optimization, and obfuscation function matching, respectively. Ablation studies show that the pretraining significantly boosts the function matching performance, underscoring the importance of learning execution semantics.
翻訳日:2021-05-03 02:43:38 公開日:2021-04-26
# (参考訳) リモートセンシングにおける3次元表面情報の重要性について

On the Importance of 3D Surface Information for Remote Sensing Classification Tasks ( http://arxiv.org/abs/2104.13969v1 )

ライセンス: CC BY 4.0
Jan Petrich, Ryan Sander, Eliza Bradley, Adam Dawood, Shawn Hough(参考訳) アクティブまたはパッシブセンサーのデータとマルチセンサーの組み合わせ(Ma et al)を利用するリモートセンシング機械学習アプリケーションが急増している。 (2019)). しかし、この急増にもかかわらず、機械学習の分類タスクにおける3d表面情報の相対的価値に関する研究は、比較的少ない。 RGB画像に3D表面情報を加えることで、建物などの意味クラスにとって重要な幾何学的情報を提供できる。 本稿では,3次元正規化ディジタルサーフェスモデル(nDSM)情報を用いて訓練された完全畳み込みニューラルネットワーク(FCNN)とサポートベクトルマシン(SVM)のサンプル内およびサンプル外分類性能について検討する。 我々は,ISPRS (International Society for Photogrammetry and Remote Sensing) 2D Semantic Labeling contest and the United States Special Operations Command (USSOCOM) Urban 3D Challengeのマルチスペクトル画像を用いた分類性能の評価を行った。 3D nDSM情報を追加してRGB分類器を提供することで、サンプル内分類性能は向上せず、スペクトル情報だけでは与えられた分類タスクに十分である可能性が示唆された。 しかし、これらのRGB分類器に付加的なnDSM情報を提供することで、サンプル外予測性能が大幅に向上することが観察された。 具体的には,ISPRSデータセットの平均値が14.4%,USSOCOMデータセットの平均値が8.6%向上した。 さらに,学習サンプル不足に直面する機械学習や分類設定において,ndsm情報の重要性を実証する実験を行った。

There has been a surge in remote sensing machine learning applications that operate on data from active or passive sensors as well as multi-sensor combinations (Ma et al. (2019)). Despite this surge, however, there has been relatively little study on the comparative value of 3D surface information for machine learning classification tasks. Adding 3D surface information to RGB imagery can provide crucial geometric information for semantic classes such as buildings, and can thus improve out-of-sample predictive performance. In this paper, we examine in-sample and out-of-sample classification performance of Fully Convolutional Neural Networks (FCNNs) and Support Vector Machines (SVMs) trained with and without 3D normalized digital surface model (nDSM) information. We assess classification performance using multispectral imagery from the International Society for Photogrammetry and Remote Sensing (ISPRS) 2D Semantic Labeling contest and the United States Special Operations Command (USSOCOM) Urban 3D Challenge. We find that providing RGB classifiers with additional 3D nDSM information results in little increase in in-sample classification performance, suggesting that spectral information alone may be sufficient for the given classification tasks. However, we observe that providing these RGB classifiers with additional nDSM information leads to significant gains in out-of-sample predictive performance. Specifically, we observe an average improvement in out-of-sample all-class accuracy of 14.4% on the ISPRS dataset and an average improvement in out-of-sample F1 score of 8.6% on the USSOCOM dataset. In addition, the experiments establish that nDSM information is critical in machine learning and classification settings that face training sample scarcity.
翻訳日:2021-05-01 04:03:36 公開日:2021-04-26
# (参考訳) スライス対応会話システムによるロングテールクエリ処理

Handling Long-Tail Queries with Slice-Aware Conversational Systems ( http://arxiv.org/abs/2104.13216v1 )

ライセンス: CC BY 4.0
Cheng Wang, Sun Kim, Taiwoo Park, Sajal Choudhary, Sunghyun Park, Young-Bum Kim, Ruhi Sarikaya, Sungjin Lee(参考訳) 私たちは、SiriやAlexaといった会話型AIシステムの有用性を目の当たりにしてきました。 これらのシステムは通常、品質の高いユーザエクスペリエンスを提供するために、時間とともに進化する機械学習モデルに依存します。 しかし、モデルの開発と改善は、高い(頭)と低い(尾)の両方の使用シナリオをサポートし、特定のデータサブセットやスライスに対してきめ細かいモデリング戦略を必要とするため、難しい。 本稿では,最近のslice-based learning (sbl) (chen et al., 2019) の概念について考察する。 まず、末尾意図に対する弱い監督データを生成するためのラベル付け関数のセットを定義する。 次に、ベースラインモデルをスライス対応アーキテクチャに拡張し、選択したテールインテント上でのモデルパフォーマンスを監視し改善する。 商用の会話型AIシステムからのライブトラフィックの特定に応用して、スライス認識モデルは、全体的なパフォーマンスを維持しながら、テールインテントのモデルパフォーマンスを改善するのに有用であることを示す。

We have been witnessing the usefulness of conversational AI systems such as Siri and Alexa, directly impacting our daily lives. These systems normally rely on machine learning models evolving over time to provide quality user experience. However, the development and improvement of the models are challenging because they need to support both high (head) and low (tail) usage scenarios, requiring fine-grained modeling strategies for specific data subsets or slices. In this paper, we explore the recent concept of slice-based learning (SBL) (Chen et al., 2019) to improve our baseline conversational skill routing system on the tail yet critical query traffic. We first define a set of labeling functions to generate weak supervision data for the tail intents. We then extend the baseline model towards a slice-aware architecture, which monitors and improves the model performance on the selected tail intents. Applied to de-identified live traffic from a commercial conversational AI system, our experiments show that the slice-aware model is beneficial in improving model performance for the tail intents while maintaining the overall performance.
翻訳日:2021-04-29 02:48:01 公開日:2021-04-26
# (参考訳) Infinitesimal gradient boosting

Infinitesimal gradient boosting ( http://arxiv.org/abs/2104.13208v1 )

ライセンス: CC BY 4.0
Cl\'ement Dombry and Jean-Jil Duchamps(参考訳) 我々は、機械学習から人気のツリーベース勾配向上アルゴリズムの限界として無限小勾配ブースティングを定義する。 この限界は、学習率がゼロになり、勾配木がリスケールされる場合の消失学習速度漸近性において考慮される。 そこで本研究では,完全ランダム化木とエクストラツリーをブリッジし,二分木分割にソフトマックス分布を用いるランダム化回帰木を新たに導入する。 我々の主な結果は、関連する確率アルゴリズムの収束と、無限次元関数空間における非線形常微分方程式の特異解としての極限過程の特性である。 無限小勾配ブースティングは、トレーニングエラーが減少し、残差が集中し、全体の変動がよく制御される連続関数空間における滑らかな経路を定義する。

We define infinitesimal gradient boosting as a limit of the popular tree-based gradient boosting algorithm from machine learning. The limit is considered in the vanishing-learning-rate asymptotic, that is when the learning rate tends to zero and the number of gradient trees is rescaled accordingly. For this purpose, we introduce a new class of randomized regression trees bridging totally randomized trees and Extra Trees and using a softmax distribution for binary splitting. Our main result is the convergence of the associated stochastic algorithm and the characterization of the limiting procedure as the unique solution of a nonlinear ordinary differential equation in a infinite dimensional function space. Infinitesimal gradient boosting defines a smooth path in the space of continuous functions along which the training error decreases, the residuals remain centered and the total variation is well controlled.
翻訳日:2021-04-29 02:38:54 公開日:2021-04-26
# (参考訳) モデル中心のデータ多様体:モデルの目を通してのデータ

Model-centric Data Manifold: the Data Through the Eyes of the Model ( http://arxiv.org/abs/2104.13289v1 )

ライセンス: CC BY 4.0
Luca Grementieri, Rita Fioresi(参考訳) 深層reluニューラルネットワーク分類器はデータ上の低次元リーマン多様体構造を見ることができる。 このような構造はローカルデータマトリクス(Fisher情報マトリクスのバリエーション)によってもたらされ、そこではモデルパラメータの役割がデータ変数によって取られる。 本研究では,データ領域の葉形成を行い,そのモデルが訓練されたデータセットが,分類ラベルの数に制限されたデータリーフ上にあることを示す。 データリーフ上のパスは有効な画像を接続し、他のリーフはノイズの多い画像をカバーします。

We discover that deep ReLU neural network classifiers can see a low-dimensional Riemannian manifold structure on data. Such structure comes via the local data matrix, a variation of the Fisher information matrix, where the role of the model parameters is taken by the data variables. We obtain a foliation of the data domain and we show that the dataset on which the model is trained lies on a leaf, the data leaf, whose dimension is bounded by the number of classification labels. We validate our results with some experiments with the MNIST dataset: paths on the data leaf connect valid images, while other leaves cover noisy images.
翻訳日:2021-04-29 02:37:54 公開日:2021-04-26
# (参考訳) 異種ベイズ型ニューラルネットワークアンサンブルを用いた文仙火炎シミュレーションのためのオンラインパラメータ推定

Online parameter inference for the simulation of a Bunsen flame using heteroscedastic Bayesian neural network ensembles ( http://arxiv.org/abs/2104.13201v1 )

ライセンス: CC BY 4.0
Maximilian L. Croci, Ushnish Sengupta, Matthew P. Juniper(参考訳) 本稿では,ダクト型予混合火炎のg方程式モデルのパラメータをオンライン推定するためのベイズデータ駆動機械学習手法を提案する。 ヘテロシデスティックベイズ型ニューラルネットワークアンサンブルは、観測されたモデルパラメータのベイズ後方分布を学ぶために、g方程式解法であるlsgen2dでシミュレーションされた170万個の火炎フロントのライブラリで訓練される。 次にアンサンブルを用いてブンゼン火炎実験のパラメータを推定し、これらのダイナミクスをlsgen2dでシミュレートする。 これにより、放熱率のプロキシである火炎縁の表面積の変動を計算することができる。 提案手法は,アンサンブルカルマンフィルタで得られた結果と一致する安価でオンラインなパラメータと不確実性推定を計算コストで提供する。 これにより、燃焼過程の迅速かつ信頼性の高いシミュレーションが可能になる。

This paper proposes a Bayesian data-driven machine learning method for the online inference of the parameters of a G-equation model of a ducted, premixed flame. Heteroscedastic Bayesian neural network ensembles are trained on a library of 1.7 million flame fronts simulated in LSGEN2D, a G-equation solver, to learn the Bayesian posterior distribution of the model parameters given observations. The ensembles are then used to infer the parameters of Bunsen flame experiments so that the dynamics of these can be simulated in LSGEN2D. This allows the surface area variation of the flame edge, a proxy for the heat release rate, to be calculated. The proposed method provides cheap and online parameter and uncertainty estimates matching results obtained with the ensemble Kalman filter, at less computational cost. This enables fast and reliable simulation of the combustion process.
翻訳日:2021-04-29 02:18:50 公開日:2021-04-26
# (参考訳) フェデレーション設定におけるマルチリソース割り当て:非均質マルコフ連鎖モデル

Multi-resource allocation for federated settings: A non-homogeneous Markov chain model ( http://arxiv.org/abs/2104.12828v1 )

ライセンス: CC BY 4.0
Syed Eqbal Alam and Fabian Wirth and Jia Yuan Yu(参考訳) 連合設定において、エージェントは中央エージェントまたはサーバと協調し、エージェントが互いに情報を共有しない最適化問題を解決する。 Wirth氏と彼の共著者は、最近の論文で、エージェント間通信のない単一の共有リソースのフェデレーション設定に対する最適化問題のクラスを解決するために、基本的な加法・増分乗数分解(AIMD)アルゴリズムをいかに簡単に修正できるかを説明している。 AIMDアルゴリズムは、現在実際にデプロイされている最も成功した分散リソース割り当てアルゴリズムの1つである。 インターネットのバックボーンとしてよく知られ、他のアプリケーション領域でも広く研究されている。 シングルリソースのアルゴリズムを、スマートシティや共有エコノミー、その他多くのアプリケーションに出現する複数の異種共有リソースに拡張する。 本研究の主な成果は,最適値に対する平均アロケーションの収束性を示す。 位置依存確率を持つ非同次マルコフ連鎖としてシステムをモデル化する。 さらに,アルゴリズムの有効性を実証し,解析の主な特徴を明らかにするためにシミュレーション結果を示す。

In a federated setting, agents coordinate with a central agent or a server to solve an optimization problem in which agents do not share their information with each other. Wirth and his co-authors, in a recent paper, describe how the basic additive-increase multiplicative-decrease (AIMD) algorithm can be modified in a straightforward manner to solve a class of optimization problems for federated settings for a single shared resource with no inter-agent communication. The AIMD algorithm is one of the most successful distributed resource allocation algorithms currently deployed in practice. It is best known as the backbone of the Internet and is also widely explored in other application areas. We extend the single-resource algorithm to multiple heterogeneous shared resources that emerge in smart cities, sharing economy, and many other applications. Our main results show the convergence of the average allocations to the optimal values. We model the system as a non-homogeneous Markov chain with place-dependent probabilities. Furthermore, simulation results are presented to demonstrate the efficacy of the algorithms and to highlight the main features of our analysis.
翻訳日:2021-04-29 02:13:00 公開日:2021-04-26
# (参考訳) データサブセット選択における制約とサブモジュラリティのバランス

Balancing Constraints and Submodularity in Data Subset Selection ( http://arxiv.org/abs/2104.12835v1 )

ライセンス: CC BY 4.0
Srikumar Ramalingam, Daniel Glasner, Kaushal Patel, Raviteja Vemulapalli, Sadeep Jayasumana, Sanjiv Kumar(参考訳) ディープラーニングは視覚と自然言語処理の素晴らしい成果をもたらしたが、この成果にはコストがかかる。 ほとんどのディープラーニングモデルは、計算と人間のラベル付けの両面で、トレーニング中に膨大なリソースを必要とします。 本稿では,より少ないトレーニングデータを用いて,従来のディープラーニングモデルと同様の精度が得られることを示す。 この領域での以前の作業の多くは、より大きなトレーニングセットのサブセットを選択するために不確実性やある種の多様性を使うことに依存している。 凸性の離散的類似である部分モジュラリティは、データサブセットの選択を含む様々な設定の多様性をモデル化するために利用されてきた。 従来の手法とは対照的に,新しい多様性駆動目的関数を提案し,マトロイドを用いたクラスラベルと決定バウンダリの制約のバランスをとる。 これにより、部分集合選択に対する近似保証付き効率的なグリードアルゴリズムを使用できる。 我々は、CIFAR-10、CIFAR-100、ImageNetなどの標準画像分類データセットのベースラインを上回ります。 さらに,提案するバランス制約が,cifar-100-ltなどのロングテールデータセットのパフォーマンス向上に重要な役割を果たすことを示す。

Deep learning has yielded extraordinary results in vision and natural language processing, but this achievement comes at a cost. Most deep learning models require enormous resources during training, both in terms of computation and in human labeling effort. In this paper, we show that one can achieve similar accuracy to traditional deep-learning models, while using less training data. Much of the previous work in this area relies on using uncertainty or some form of diversity to select subsets of a larger training set. Submodularity, a discrete analogue of convexity, has been exploited to model diversity in various settings including data subset selection. In contrast to prior methods, we propose a novel diversity driven objective function, and balancing constraints on class labels and decision boundaries using matroids. This allows us to use efficient greedy algorithms with approximation guarantees for subset selection. We outperform baselines on standard image classification datasets such as CIFAR-10, CIFAR-100, and ImageNet. In addition, we also show that the proposed balancing constraints can play a key role in boosting the performance in long-tailed datasets such as CIFAR-100-LT.
翻訳日:2021-04-29 01:37:46 公開日:2021-04-26
# (参考訳) 異常検出のための低ラベル教師付き学習による教師なしインスタンス選択

Unsupervised Instance Selection with Low-Label, Supervised Learning for Outlier Detection ( http://arxiv.org/abs/2104.12837v1 )

ライセンス: CC BY 4.0
Trent J. Bradberry, Christopher H. Hase, LeAnna Kent, Joel A. G\'ongora(参考訳) データをラベル付けする面倒なプロセスは、しばしば、教師付き機械学習の力を活用しようとするプロジェクトのボトルネックとなる。 アクティブラーニング(al)は、ヒューマンアノテータに最も不確定なクラス割り当てを持つインスタンスのラベルをクエリする反復的なフレームワークを通じて、この条件を改善する技術として確立された。 このメカニズムにより、ALは少ないラベル付きデータで訓練されたバイナリ分類器を生成するが、予測性能の損失はほとんどない。 その利点にもかかわらず、ALはクラス不均衡なデータセットに難航し、非効率なラベリングプロセスをもたらす。 これらの欠点に対処するため、低ラベル条件下での10個の外れ値検出データセットに対して、unsupervised instance selection (UNISEL) 手法とRandom Forest (RF) 分類器を併用した。 これらの結果は、同じデータセットで実行されるalと比較される。 さらに,UNISELとALの組み合わせについても検討した。 その結果,UNISELの後続のRFはRFとALと同等に動作し,UNISELとALの組み合わせは優れた性能を示した。 これらの知見の実際的な意義について,ユニセルが与える時間節約と一般化可能性について論じる。

The laborious process of labeling data often bottlenecks projects that aim to leverage the power of supervised machine learning. Active Learning (AL) has been established as a technique to ameliorate this condition through an iterative framework that queries a human annotator for labels of instances with the most uncertain class assignment. Via this mechanism, AL produces a binary classifier trained on less labeled data but with little, if any, loss in predictive performance. Despite its advantages, AL can have difficulty with class-imbalanced datasets and results in an inefficient labeling process. To address these drawbacks, we investigate our unsupervised instance selection (UNISEL) technique followed by a Random Forest (RF) classifier on 10 outlier detection datasets under low-label conditions. These results are compared to AL performed on the same datasets. Further, we investigate the combination of UNISEL and AL. Results indicate that UNISEL followed by an RF performs comparably to AL with an RF and that the combination of UNISEL and AL demonstrates superior performance. The practical implications of these findings in terms of time savings and generalizability afforded by UNISEL are discussed.
翻訳日:2021-04-29 01:22:12 公開日:2021-04-26
# (参考訳) LCS-DIVE: 分類における複雑な関連を識別するルールベース機械学習可視化パイプライン

LCS-DIVE: An Automated Rule-based Machine Learning Visualization Pipeline for Characterizing Complex Associations in Classification ( http://arxiv.org/abs/2104.12844v1 )

ライセンス: CC BY 4.0
Robert Zhang, Rachael Stolzenberg-Solomon, Shannon M. Lynch, Ryan J. Urbanowicz(参考訳) 機械学習(ML)の研究は、複雑な多変量関連(例えば)にもかかわらず、正確な予測モデルをトレーニングするための強力なツールを生み出している。 相互作用と異質性) 医学などの分野では、知識発見、説明可能性、公平性においてMLモデリングの解釈可能性の向上が必要である。 学習分類システム(LCS)のようなルールベースのMLアプローチは、複雑な雑音のある領域における予測性能と解釈可能性のバランスをとる。 この研究は、複雑な生物医学分類のためのLCSモデル解釈パイプラインであるLCSディスカバリー・ビジュアライゼーション・環境(LCS-DIVE)を紹介する。 LCS-DIVEは、生体医学データマイニングにおけるノイズとスケーラビリティを克服し、人間の可読性IF:THENルールとトレーニングサンプル毎の機能追跡スコアを用いてモデリングを行う。 LCS-DIVEは機能追跡スコアと/またはルールを活用し、(1)特徴重要度、(2)付加的、エピスタティック、および/または不均一な関連パターン、(3)クラスタリング、可視化生成、クラスタ尋問によるモデル駆動の異種インスタンスサブグループを自動指導する。 LCS-DIVEは、様々な複雑な多変量関連をコードする様々な遺伝子およびベンチマークデータセットを用いて評価され、膵がんの実際の研究における関連を識別する能力を示した。

Machine learning (ML) research has yielded powerful tools for training accurate prediction models despite complex multivariate associations (e.g. interactions and heterogeneity). In fields such as medicine, improved interpretability of ML modeling is required for knowledge discovery, accountability, and fairness. Rule-based ML approaches such as Learning Classifier Systems (LCSs) strike a balance between predictive performance and interpretability in complex, noisy domains. This work introduces the LCS Discovery and Visualization Environment (LCS-DIVE), an automated LCS model interpretation pipeline for complex biomedical classification. LCS-DIVE conducts modeling using a new scikit-learn implementation of ExSTraCS, an LCS designed to overcome noise and scalability in biomedical data mining yielding human readable IF:THEN rules as well as feature-tracking scores for each training sample. LCS-DIVE leverages feature-tracking scores and/or rules to automatically guide characterization of (1) feature importance (2) underlying additive, epistatic, and/or heterogeneous patterns of association, and (3) model-driven heterogeneous instance subgroups via clustering, visualization generation, and cluster interrogation. LCS-DIVE was evaluated over a diverse set of simulated genetic and benchmark datasets encoding a variety of complex multivariate associations, demonstrating its ability to differentiate between them and then applied to characterize associations within a real-world study of pancreatic cancer.
翻訳日:2021-04-29 01:10:56 公開日:2021-04-26
# (参考訳) 惑星形成の最初期の段階をエミュレートする多出力ランダムフォレスト回帰

Multi-Output Random Forest Regression to Emulate the Earliest Stages of Planet Formation ( http://arxiv.org/abs/2104.12845v1 )

ライセンス: CC BY-SA 4.0
Kevin Hoffman, Jae Yoon Sung, Andr\'e Zazzera(参考訳) 現在の惑星形成研究のパラダイムでは、巨大な天体(小惑星や惑星など)を形成する最初のステップは、宇宙に浮遊する小さな星間塵粒子が衝突し、より大きな大きさに成長することが必要であると考えられている。 これらの小石の初期形成は、最も単純なシナリオを除いて解析解が難解であるsmoluchowski coagulation equationとして知られる積分微分方程式によって制御される。 ブルート力近似法が開発されているが、計算コストは高く、現在、惑星形成に関連する他の物理的過程を含む、非常に広い範囲のスケールでこの過程をシミュレートすることは不可能である。 本稿では,より高速に近似するシステムを設計するための機械学習手法を提案する。 本研究では,プロトプラネタリーディスクの粉塵粒径分布を時間差で近似するために,ブライト力シミュレーションデータに基づいて学習した多出力ランダム森林回帰モデルを開発した。 我々のランダムフォレストモデルの性能は、実シミュレーションの標準である既存のブルート力モデルに対して測定される。 その結果,ランダムフォレストモデルでは,ブルト力シミュレーション結果と比較して高精度な予測が可能であり,r^{2}$0.97で,ブルト力シミュレーションよりも有意に高速であることがわかった。

In the current paradigm of planet formation research, it is believed that the first step to forming massive bodies (such as asteroids and planets) requires that small interstellar dust grains floating through space collide with each other and grow to larger sizes. The initial formation of these pebbles is governed by an integro-differential equation known as the Smoluchowski coagulation equation, to which analytical solutions are intractable for all but the simplest possible scenarios. While brute-force methods of approximation have been developed, they are computationally costly, currently making it infeasible to simulate this process including other physical processes relevant to planet formation, and across the very large range of scales on which it occurs. In this paper, we take a machine learning approach to designing a system for a much faster approximation. We develop a multi-output random forest regression model trained on brute-force simulation data to approximate distributions of dust particle sizes in protoplanetary disks at different points in time. The performance of our random forest model is measured against the existing brute-force models, which are the standard for realistic simulations. Results indicate that the random forest model can generate highly accurate predictions relative to the brute-force simulation results, with an $R^{2}$ of 0.97, and do so significantly faster than brute-force methods.
翻訳日:2021-04-29 00:52:43 公開日:2021-04-26
# (参考訳) 自然言語処理に関する大規模オープンオンライン講座

Teaching a Massive Open Online Course on Natural Language Processing ( http://arxiv.org/abs/2104.12846v1 )

ライセンス: CC BY 4.0
Ekaterina Artemova and Murat Apishev and Veronika Sarkisyan and Sergey Aksenov and Denis Kirjanov and Oleg Serikov(参考訳) 本稿では,非英語話者を対象に,自然言語処理に関する大規模オープンオンライン講座を新たに開催する。 コースは12週間で、毎週講義、実践的なセッション、クイズ課題で構成されている。 12のうち3週間は、Kaggleスタイルのコーディング課題が続く。 i)言語モデリングや単語や文表現など,NLPの中核的な概念や手法を学生に親しみやすくすること,(ii)事前学習型トランスフォーマーベースモデルを含む最近の進歩がこれらの概念に基づいて構築されていること,(iii)ほとんどの要求された実生活アプリケーションのためのアーキテクチャを導入すること,(iv)複数の言語でテキストを処理する実践的スキルを開発すること,などである。 コースは2020年に準備され、2020年末までに開始され、2021年初頭には肯定的なフィードバックを受けた。

This paper presents a new Massive Open Online Course on Natural Language Processing, targeted at non-English speaking students. The course lasts 12 weeks; every week consists of lectures, practical sessions, and quiz assignments. Three weeks out of 12 are followed by Kaggle-style coding assignments. Our course intends to serve multiple purposes: (i) familiarize students with the core concepts and methods in NLP, such as language modeling or word or sentence representations, (ii) show that recent advances, including pre-trained Transformer-based models, are built upon these concepts; (iii) introduce architectures for most demanded real-life applications, (iv) develop practical skills to process texts in multiple languages. The course was prepared and recorded during 2020, launched by the end of the year, and in early 2021 has received positive feedback.
翻訳日:2021-04-29 00:43:09 公開日:2021-04-26
# (参考訳) morph call : 多言語トランスフォーマーにおけるmorphosyntactic contentの探索

Morph Call: Probing Morphosyntactic Content of Multilingual Transformers ( http://arxiv.org/abs/2104.12847v1 )

ライセンス: CC BY 4.0
Vladislav Mikhailov and Oleg Serikov and Ekaterina Artemova(参考訳) NLPおよびNLUタスクにおけるトランスフォーマーベース言語モデルの卓越した性能は、内部動作の探索への関心を刺激している。 近年の研究は、文法、意味論、世界知識、常識といった高レベルで複雑な言語現象に焦点を当てている。 研究の大部分はアングロセントリックであり、他の言語についてはほとんど知られていない。 この目的のために、我々の研究はMorph Callという、異なる形態を持つ4つのインド・ヨーロッパ語(英語、フランス語、ドイツ語、ロシア語)に対する46の探索タスクスイートを提示した。 本稿では,誘導文摂動の検出に基づく新しいタイプの探索タスクを提案する。 我々は,4つの多言語トランスフォーマーのモルフォシンティクス内容を分析するために,ニューロン,レイヤ,表現レベルのイントロスペクション技術を組み合わせた。 さらに,posタグの微調整がモデル知識に与える影響についても検討する。 その結果, 微調整により探索性能が向上し, モデル全体にわたって形態素合成知識が分散されるかが変化することがわかった。 コードとデータは公開されており、トランスフォーマーのあまり研究されていない側面のギャップを埋めたいと考えています。

The outstanding performance of transformer-based language models on a great variety of NLP and NLU tasks has stimulated interest in exploring their inner workings. Recent research has focused primarily on higher-level and complex linguistic phenomena such as syntax, semantics, world knowledge, and common sense. The majority of the studies are anglocentric, and little remains known regarding other languages, precisely their morphosyntactic properties. To this end, our work presents Morph Call, a suite of 46 probing tasks for four Indo-European languages of different morphology: English, French, German and Russian. We propose a new type of probing task based on the detection of guided sentence perturbations. We use a combination of neuron-, layer- and representation-level introspection techniques to analyze the morphosyntactic content of four multilingual transformers, including their less explored distilled versions. Besides, we examine how fine-tuning for POS-tagging affects the model knowledge. The results show that fine-tuning can improve and decrease the probing performance and change how morphosyntactic knowledge is distributed across the model. The code and data are publicly available, and we hope to fill the gaps in the less studied aspect of transformers.
翻訳日:2021-04-29 00:23:45 公開日:2021-04-26
# (参考訳) 研究論文の潜在的影響の自動評価のための意味分析

Semantic Analysis for Automated Evaluation of the Potential Impact of Research Articles ( http://arxiv.org/abs/2104.12869v1 )

ライセンス: CC BY 4.0
Neslihan Suzen, Alexander Gorban, Jeremy Levesley and Evgeny Mirkes(参考訳) 科学論文のテキストで使われる単語の意味分析は、引用による未来の影響を予測することができるか? 本研究は,高引用記事と低引用記事の区別において80%の成功率を達成した自動テキスト分類の例を詳述する。 自動化された知的システムは、科学コミュニティに影響を与えうる有望な作品の識別を可能にする。 自然言語処理の開始以来,テキストの意味と人間の言語表現の定量化の問題点が明らかになってきた。 本稿では,情報理論に基づくテキスト意味のベクトル表現法を提案し,この情報意味論がレスター科学コーパスに基づいてテキスト分類にどのように用いられるかを示す。 本稿では,学術論文の影響を,その情報的意味を通して評価する実験的枠組みについて述べる。 我々の関心は、引用数を予測する上でテキストのセマンティクスがいかに重要であるかを明らかにするための引用分類である。 引用予測の重要な要素として,テキストの意味論を提案する。 各論文について,論文の要約を抽出し,意味空間のベクトルとしての抽象語を表現し,要約のテキスト内の科学カテゴリ(Web of Scienceカテゴリ)の分布を自動的に解析し,引用数に応じて論文を分類する。 テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。

Can the analysis of the semantics of words used in the text of a scientific paper predict its future impact measured by citations? This study details examples of automated text classification that achieved 80% success rate in distinguishing between highly-cited and little-cited articles. Automated intelligent systems allow the identification of promising works that could become influential in the scientific community. The problems of quantifying the meaning of texts and representation of human language have been clear since the inception of Natural Language Processing. This paper presents a novel method for vector representation of text meaning based on information theory and show how this informational semantics is used for text classification on the basis of the Leicester Scientific Corpus. We describe the experimental framework used to evaluate the impact of scientific articles through their informational semantics. Our interest is in citation classification to discover how important semantics of texts are in predicting the citation count. We propose the semantics of texts as an important factor for citation prediction. For each article, our system extracts the abstract of paper, represents the words of the abstract as vectors in Meaning Space, automatically analyses the distribution of scientific categories (Web of Science categories) within the text of abstract, and then classifies papers according to citation counts (highly-cited, little-cited). We show that an informational approach to representing the meaning of a text has offered a way to effectively predict the scientific impact of research papers.
翻訳日:2021-04-29 00:05:39 公開日:2021-04-26
# (参考訳) 危機管理のための継続的分散学習

Continual Distributed Learning for Crisis Management ( http://arxiv.org/abs/2104.12876v1 )

ライセンス: CC BY 4.0
Aman Priyanshu and Mudit Sinha and Shreyans Mehta(参考訳) Twitterのようなソーシャルメディアプラットフォームは、緊急時のモバイル通信に優れたリソースを提供する。 自然災害や人工災害が突然発生したとき、重要な情報はTwitterや同様のWebフォーラムに投稿される。 この情報は、正確に処理すれば災害対応や危機管理に使用できる。 しかし、このような状況にあるデータは常に変化しており、そのような危機の間にかなりのリソースが手に入ることはないかもしれない。 したがって、低リソースで継続的な学習システムは、ノイズや秩序のないデータに対してNLPモデルを堅牢化するために開発されなければならない。 我々は、リソース制約のあるデバイスで学習できるように分散アプローチを採用しながら、ターゲットニューラルネットワークにおける破滅的な忘れを緩和するために正規化を利用する。 分散学習にフェデレーション学習を採用し,継続的デプロイのための中央モデルの集約を行う。

Social media platforms such as Twitter provide an excellent resource for mobile communication during emergency events. During the sudden onset of a natural or artificial disaster, important information may be posted on Twitter or similar web forums. This information can be used for disaster response and crisis management if processed accurately. However, the data present in such situations is ever-changing, and considerable resources during such crisis may not be readily available. Therefore, a low resource, continually learning system must be developed to incorporate and make NLP models robust against noisy and unordered data. We utilise regularisation to alleviate catastrophic forgetting in the target neural networks while taking a distributed approach to enable learning on resource-constrained devices. We employ federated learning for distributed learning and aggregation of the central model for continual deployment.
翻訳日:2021-04-29 00:04:24 公開日:2021-04-26
# (参考訳) アルゴリズムは実験である:機械学習、市場設計、ポリシー適格性ルール

Algorithm is Experiment: Machine Learning, Market Design, and Policy Eligibility Rules ( http://arxiv.org/abs/2104.12909v1 )

ライセンス: CC BY 4.0
Yusuke Narita and Kohei Yata(参考訳) アルゴリズムは、政策とビジネスの両方において、意思決定と推奨の増大する部分を生み出します。 このようなアルゴリズム決定は、観測可能な入力変数のみに基づいて決定を行うため、自然実験(条件付き準ランダムに割り当てられた機器)である。 この観測結果を用いて,確率的および決定論的アルゴリズムのクラスに対する治療効果推定器を開発した。 我々の推定値は、よく定義された因果効果に対して一貫性があり漸近的に正常であることが示されている。 我々の推定器の重要なケースは高次元回帰不連続設計である。 証明は微分幾何学と幾何学的測度論のツールを使い、独立した興味を持つかもしれない。 本手法の実用性は,機械学習アルゴリズムによる意思決定に類似した高次元シミュレーションで実証された。 我々の推定器は代替推定器に比べて平均二乗誤差が小さい。 最終的には、アルゴリズムによって100億ドル以上の救済資金が病院に配分されるコロナウイルスエイド、救済、経済保障法(CARES)の効果を評価するために、我々の推定装置を適用します。 推定によると、救済資金は新型コロナウイルス関連の病院活動レベルにはほとんど影響がない。 ナイーブ ols と iv の推定値は、かなりの選択バイアスを示す。

Algorithms produce a growing portion of decisions and recommendations both in policy and business. Such algorithmic decisions are natural experiments (conditionally quasi-randomly assigned instruments) since the algorithms make decisions based only on observable input variables. We use this observation to develop a treatment-effect estimator for a class of stochastic and deterministic algorithms. Our estimator is shown to be consistent and asymptotically normal for well-defined causal effects. A key special case of our estimator is a high-dimensional regression discontinuity design. The proofs use tools from differential geometry and geometric measure theory, which may be of independent interest. The practical performance of our method is first demonstrated in a high-dimensional simulation resembling decision-making by machine learning algorithms. Our estimator has smaller mean squared errors compared to alternative estimators. We finally apply our estimator to evaluate the effect of Coronavirus Aid, Relief, and Economic Security (CARES) Act, where more than \$10 billion worth of relief funding is allocated to hospitals via an algorithmic rule. The estimates suggest that the relief funding has little effects on COVID-19-related hospital activity levels. Naive OLS and IV estimates exhibit substantial selection bias.
翻訳日:2021-04-28 23:58:38 公開日:2021-04-26
# エンド・ツー・エンドASR単語のマルチタスク学習と削除予測による発話信頼度

Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction ( http://arxiv.org/abs/2104.12870v1 )

ライセンス: Link先を確認
David Qiu, Yanzhang He, Qiujia Li, Yu Zhang, Liangliang Cao, Ian McGraw(参考訳) 信頼スコアは、自動音声認識(ASR)システムの下流での応用に非常に有用である。 近年の研究では、ニューラルネットワークを用いて、エンドツーエンドASRの単語または発話信頼度スコアを学習する手法が提案されている。 これらの研究では、単語の信頼度自体が削除をモデル化せず、発話の信頼度は単語レベルの訓練信号を利用しない。 本稿では,単語信頼度,単語削除度,発話信頼度を共同で学習することを提案する。 実験の結果,3つの目的を持つマルチタスク学習は,信頼度推定モジュールのモデルサイズを増大させることなく,信頼度指標(NCE, AUC, RMSE)を改善することが示された。 また、音声レベルの信頼度を使って、専用のニューラルリスコラを必要とせずに、GoogleのVoice SearchとLong-tail Mapデータセットの単語エラー率を3~5%削減する。

Confidence scores are very useful for downstream applications of automatic speech recognition (ASR) systems. Recent works have proposed using neural networks to learn word or utterance confidence scores for end-to-end ASR. In those studies, word confidence by itself does not model deletions, and utterance confidence does not take advantage of word-level training signals. This paper proposes to jointly learn word confidence, word deletion, and utterance confidence. Empirical results show that multi-task learning with all three objectives improves confidence metrics (NCE, AUC, RMSE) without the need for increasing the model size of the confidence estimation module. Using the utterance-level confidence for rescoring also decreases the word error rates on Google's Voice Search and Long-tail Maps datasets by 3-5% relative, without needing a dedicated neural rescorer.
翻訳日:2021-04-28 13:36:24 公開日:2021-04-26
# プライバシ保護学習を用いたグラフフェデレーションアーキテクチャ

A Graph Federated Architecture with Privacy Preserving Learning ( http://arxiv.org/abs/2104.13215v1 )

ライセンス: Link先を確認
Elsa Rizk and Ali H. Sayed(参考訳) フェデレーション学習は、複数のエージェントと連携してグローバルモデルを見つける中央プロセッサを含む。 このプロセスは、繰り返し見積もりを交換し、ローカルなプライベートデータに関連する情報の拡散をもたらす。 このようなスキームは、センシティブなデータを扱う際に不便であり、したがってアルゴリズムの民営化が必要である。 さらに、複数のクライアントに接続されたサーバの現在のアーキテクチャは、サーバにおける通信障害や計算過負荷に非常に敏感である。 そこで本研究では,グラフフェデレーション学習と呼ばれる,プライベートなマルチサーバフェデレーション学習手法を開発した。 我々は、グラフ構造に拡張するフェデレーション学習アルゴリズムを民営化するために、暗号と差分プライバシーの概念を使用します。 民営化が付加雑音としてモデル化可能な一般民間スキームにおける学習アルゴリズムの性能に及ぼす影響について検討した。 畳み込み条件およびリプシッツ条件下では, 雑音分散が増大しても, 民営化処理が非民営化アルゴリズムの性能と一致することを示す。

Federated learning involves a central processor that works with multiple agents to find a global model. The process consists of repeatedly exchanging estimates, which results in the diffusion of information pertaining to the local private data. Such a scheme can be inconvenient when dealing with sensitive data, and therefore, there is a need for the privatization of the algorithms. Furthermore, the current architecture of a server connected to multiple clients is highly sensitive to communication failures and computational overloads at the server. Thus in this work, we develop a private multi-server federated learning scheme, which we call graph federated learning. We use cryptographic and differential privacy concepts to privatize the federated learning algorithm that we extend to the graph structure. We study the effect of privatization on the performance of the learning algorithm for general private schemes that can be modeled as additive noise. We show under convexity and Lipschitz conditions, that the privatized process matches the performance of the non-private algorithm, even when we increase the noise variance.
翻訳日:2021-04-28 13:35:49 公開日:2021-04-26
# nash平衡を求めるための深層強化学習の計算性能

Computational Performance of Deep Reinforcement Learning to find Nash Equilibria ( http://arxiv.org/abs/2104.12895v1 )

ライセンス: Link先を確認
Christoph Graf, Viktor Zobernig, Johannes Schmidt, Claude Kl\"ockl(参考訳) 我々は,連続状態と行動空間を処理可能な深層強化学習アルゴリズムであるddpg(deep deterministic policy gradient)の性能をテストし,企業が価格で競う環境でnash平衡を学習する。 これらのアルゴリズムは通常、遷移確率関数(マルコフゲームなど)や事前定義された機能形式を必要としないため、モデルフリーと見なされる。 モデルフリーにもかかわらず、アルゴリズムの様々なステップで大量のパラメータが利用される。 これらは学習率、メモリバッファ、状態空間次元化、正規化、ノイズ減衰率などであり、本研究の目的は解析的に導かれたベルトランド平衡への収束に対するパラメータ構成の影響を体系的に検証することである。 パラメータの選択は、最大99%の収束率に達することができる。 信頼性の高い収束は、より複雑な環境でも企業の戦略的行動を研究する上で有用なツールとなる可能性がある。 キーワード:Bertrand Equilibrium, competition in Uniform Price Auctions, Deep Deterministic Policy Gradient Algorithm, Parameter Sensitivity Analysis

We test the performance of deep deterministic policy gradient (DDPG), a deep reinforcement learning algorithm, able to handle continuous state and action spaces, to learn Nash equilibria in a setting where firms compete in prices. These algorithms are typically considered model-free because they do not require transition probability functions (as in e.g., Markov games) or predefined functional forms. Despite being model-free, a large set of parameters are utilized in various steps of the algorithm. These are e.g., learning rates, memory buffers, state-space dimensioning, normalizations, or noise decay rates and the purpose of this work is to systematically test the effect of these parameter configurations on convergence to the analytically derived Bertrand equilibrium. We find parameter choices that can reach convergence rates of up to 99%. The reliable convergence may make the method a useful tool to study strategic behavior of firms even in more complex settings. Keywords: Bertrand Equilibrium, Competition in Uniform Price Auctions, Deep Deterministic Policy Gradient Algorithm, Parameter Sensitivity Analysis
翻訳日:2021-04-28 13:32:58 公開日:2021-04-26
# ラマンスペクトルベースライン補正のための一次元アクティブ輪郭モデル

One-dimensional Active Contour Models for Raman Spectrum Baseline Correction ( http://arxiv.org/abs/2104.12839v1 )

ライセンス: Link先を確認
M. Hamed Mozaffari and Li-Lin Tay(参考訳) ラマン分光法(英: Raman spectroscopy)は、化学分析と未知の物質の検出のための強力で非侵襲的な方法である。 しかし、ラマン信号は非常に弱いため、バックグラウンドノイズは実際のラマン信号を歪めることができる。 ラマンスペクトルに存在するこれらの基線シフトは分析結果を劣化させる可能性がある。 本稿では,ラマンスペクトルのベースライン補正のために,一次元空間におけるアクティブな輪郭モデルの修正版を提案する。 本手法は,物理原理とヒューリスティック最適化法に着想を得て,初期化曲線を所望のベースラインに向けて反復的に変形する。 提案アルゴリズムの性能評価と,シミュレーションしたラマンスペクトルを用いた類似手法との比較を行った。 その結果, 1次元活動輪郭モデルの方が多くの反復的ベースライン補正法より優れていた。 提案アルゴリズムは実験的なラマンスペクトルデータに適用され, 結果からラマンスペクトルの基底線を自動的に減算できることが示唆された。

Raman spectroscopy is a powerful and non-invasive method for analysis of chemicals and detection of unknown substances. However, Raman signal is so weak that background noise can distort the actual Raman signal. These baseline shifts that exist in the Raman spectrum might deteriorate analytical results. In this paper, a modified version of active contour models in one-dimensional space has been proposed for the baseline correction of Raman spectra. Our technique, inspired by principles of physics and heuristic optimization methods, iteratively deforms an initialized curve toward the desired baseline. The performance of the proposed algorithm was evaluated and compared with similar techniques using simulated Raman spectra. The results showed that the 1D active contour model outperforms many iterative baseline correction methods. The proposed algorithm was successfully applied to experimental Raman spectral data, and the results indicate that the baseline of Raman spectra can be automatically subtracted.
翻訳日:2021-04-28 13:32:38 公開日:2021-04-26
# トランスフォーマー言語モデルによる文理解における合意現象の計算:類似性に基づく干渉が主観と注意に及ぼす影響

Accounting for Agreement Phenomena in Sentence Comprehension with Transformer Language Models: Effects of Similarity-based Interference on Surprisal and Attention ( http://arxiv.org/abs/2104.12874v1 )

ライセンス: Link先を確認
Soo Hyun Ryu and Richard L. Lewis(参考訳) 我々は,事前訓練された大規模トランスフォーマーモデル GPT-2 から計算した基本値に基づいて,主語動詞と反射的代名詞一致処理における類似性に基づく干渉効果の新たな説明を進めた。 具体的には,動詞や反射的代名詞の代名詞が非文法的な文のファシリテーション的干渉効果を予測することを示し,そこでは,動詞や代名詞と数的に一致した散見子名詞が,合意関係に参加していないにもかかわらず,より高速な読解時間をもたらすことを示す。 近年のメタアナリシスや大規模研究など,人間によるこのような影響の実証的証拠を概観する。 また, トランスフォーマーの注意パターン(エントロピーなどによる評価)は, 類似した注意の分散パターンを示し, 解析の手がかりに基づく検索モデルと一致していることを示した。 しかし、これらのモデルとは対照的に、注意深い手がかりと記憶表現は、次の単語を予測する単純な自己監督タスクから完全に学習される。

We advance a novel explanation of similarity-based interference effects in subject-verb and reflexive pronoun agreement processing, grounded in surprisal values computed from a pretrained large-scale Transformer model, GPT-2. Specifically, we show that surprisal of the verb or reflexive pronoun predicts facilitatory interference effects in ungrammatical sentences, where a distractor noun that matches in number with the verb or pronoun leads to faster reading times, despite the distractor not participating in the agreement relation. We review the human empirical evidence for such effects, including recent meta-analyses and large-scale studies. We also show that attention patterns (indexed by entropy and other measures) in the Transformer show patterns of diffuse attention in the presence of similar distractors, consistent with cue-based retrieval models of parsing. But in contrast to these models, the attentional cues and memory representations are learned entirely from the simple self-supervised task of predicting the next word.
翻訳日:2021-04-28 13:32:25 公開日:2021-04-26
# AIが思った以上に難しい理由

Why AI is Harder Than We Think ( http://arxiv.org/abs/2104.12871v1 )

ライセンス: Link先を確認
Melanie Mitchell(参考訳) 1950年代以降、人工知能の分野は、楽観的な予測と大規模な投資(「AI春」)の期間と失望の時期、信頼の喪失、資金の削減(「AI冬」)の間に何度も循環してきた。 今日のAIの急激な進歩にもかかわらず、自動運転車やホームキーピングロボット、会話の仲間といった長年のテクノロジーの開発は、多くの人が予想していたよりもずっと難しいことが判明した。 このような繰り返しサイクルの1つの理由は、インテリジェンス自体の性質と複雑さに対する私たちの限られた理解である。 本稿では,AI研究者による一般的な仮定における4つの誤りについて述べる。 結論として、人間のような常識を身につける機械の長年の挑戦など、これらの誤解によって引き起こされたオープンな質問について論じる。

Since its beginning in the 1950s, the field of artificial intelligence has cycled several times between periods of optimistic predictions and massive investment ("AI spring") and periods of disappointment, loss of confidence, and reduced funding ("AI winter"). Even with today's seemingly fast pace of AI breakthroughs, the development of long-promised technologies such as self-driving cars, housekeeping robots, and conversational companions has turned out to be much harder than many people expected. One reason for these repeating cycles is our limited understanding of the nature and complexity of intelligence itself. In this paper I describe four fallacies in common assumptions made by AI researchers, which can lead to overconfident predictions about the field. I conclude by discussing the open questions spurred by these fallacies, including the age-old challenge of imbuing machines with humanlike common sense.
翻訳日:2021-04-28 13:31:19 公開日:2021-04-26
# 視覚表現学習のためのマルチモーダルコントラストトレーニング

Multimodal Contrastive Training for Visual Representation Learning ( http://arxiv.org/abs/2104.12836v1 )

ライセンス: Link先を確認
Xin Yuan, Zhe Lin, Jason Kuen, Jianming Zhang, Yilin Wang, Michael Maire, Ajinkya Kale, and Baldo Faieta(参考訳) 我々は,モーダル内およびモーダル間類似性保存目的の組み合わせにより,マルチモーダルデータを取り入れた視覚表現の学習手法を開発する。 1つのドメインでプロキシ予測タスクを解決する既存のビジュアルプリトレーニング手法とは異なり、各モダリティ内の固有のデータプロパティと、クロスモーダル相関によるセマンティック情報を同時に活用し、学習したビジュアル表現の品質を向上させる。 コントラスト損失の異なる統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。 我々はまず、COCO上でモデルをトレーニングし、画像分類、オブジェクト検出、インスタンス分割を含む様々な下流タスクにおける学習された視覚表現を評価する。 例えば、我々の方法でCOCOで事前訓練された視覚表現は、共通の転送プロトコルの下で、画像ネット分類における最先端のトップ-1検証精度を55.3\%で達成する。 また,本手法を大規模ストックイメージデータセット上で評価し,マルチラベル画像タグ付けおよびクロスモーダル検索タスクにおいて有効であることを示す。

We develop an approach to learning visual representations that embraces multimodal data, driven by a combination of intra- and inter-modal similarity preservation objectives. Unlike existing visual pre-training methods, which solve a proxy prediction task in a single domain, our method exploits intrinsic data properties within each modality and semantic information from cross-modal correlation simultaneously, hence improving the quality of learned visual representations. By including multimodal training in a unified framework with different types of contrastive losses, our method can learn more powerful and generic visual features. We first train our model on COCO and evaluate the learned visual representations on various downstream tasks including image classification, object detection, and instance segmentation. For example, the visual representations pre-trained on COCO by our method achieve state-of-the-art top-1 validation accuracy of $55.3\%$ on ImageNet classification, under the common transfer protocol. We also evaluate our method on the large-scale Stock images dataset and show its effectiveness on multi-label image tagging, and cross-modal retrieval tasks.
翻訳日:2021-04-28 13:30:35 公開日:2021-04-26
# SGNet:画像分類とオブジェクト検出のためのスーパークラスガイドネットワーク

SGNet: A Super-class Guided Network for Image Classification and Object Detection ( http://arxiv.org/abs/2104.12898v1 )

ライセンス: Link先を確認
Kaidong Li, Nina Y. Wang, Yiju Yang and Guanghui Wang(参考訳) ほとんどの分類モデルは異なるオブジェクトクラスを並列に扱い、2つのクラス間の誤分類は等しく扱われる。 対照的に、人間は未知の物体の予測にハイレベルな情報を利用することができる。 この観察から着想を得た本論文は,高レベル意味情報をネットワークに統合し,推論性能を向上させるスーパークラス誘導ネットワーク(sgnet)を提案する。 SGNetは、スーパークラスとファインクラスのラベルの両方を含む2レベルのクラスアノテーションを取ります。 スーパークラスは、ある種の細かなクラスからなるより高度なセマンティックカテゴリである。 スーパークラスラベルに基づいて訓練されたスーパークラスブランチ(SCB)を導入し、より微細なクラス予測を導く。 推論時には、2段階推論(TSI)と直接推論(DI)の2つの異なる戦略を採用する。 TSIはまずスーパークラスの予測を行い、次に対応するファインクラスの予測を行う。 一方、DIはより微細なクラスブランチ(FCB)から直接予測を生成する。 CIFAR-100とMS COCOデータセットで大規模な実験が行われた。 実験結果は,提案手法を検証し,画像分類と物体検出において優れた性能を示す。

Most classification models treat different object classes in parallel and the misclassifications between any two classes are treated equally. In contrast, human beings can exploit high-level information in making a prediction of an unknown object. Inspired by this observation, the paper proposes a super-class guided network (SGNet) to integrate the high-level semantic information into the network so as to increase its performance in inference. SGNet takes two-level class annotations that contain both super-class and finer class labels. The super-classes are higher-level semantic categories that consist of a certain amount of finer classes. A super-class branch (SCB), trained on super-class labels, is introduced to guide finer class prediction. At the inference time, we adopt two different strategies: Two-step inference (TSI) and direct inference (DI). TSI first predicts the super-class and then makes predictions of the corresponding finer class. On the other hand, DI directly generates predictions from the finer class branch (FCB). Extensive experiments have been performed on CIFAR-100 and MS COCO datasets. The experimental results validate the proposed approach and demonstrate its superior performance on image classification and object detection.
翻訳日:2021-04-28 13:30:14 公開日:2021-04-26
# ユニバーサルオフポリシー評価

Universal Off-Policy Evaluation ( http://arxiv.org/abs/2104.12820v1 )

ライセンス: Link先を確認
Yash Chandak, Scott Niekum, Bruno Castro da Silva, Erik Learned-Miller, Emma Brunskill, Philip S. Thomas(参考訳) 逐次的な意思決定問題に直面した場合には、新しい方針を使って意思決定を行った場合、何が起こるかを予測するのに有用であることが多い。 これらの予測は、しばしば、以前使用されていた意思決定規則で収集されたデータに基づいている必要がある。 以前の多くの手法は、リターンと呼ばれるパフォーマンス指標の期待値の非政治的(あるいは反実的)推定を可能にする。 そこで,本稿では,アウトポリシー推定と回帰分布のパラメータに対する高い信頼度境界を提供するユニバーサルオフポリシー推定器 (uno) への第一歩を踏み出す。 我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。 最後に, 可観測性, 部分可観測性, マルコフ的, 非マルコフ的, 定常的, スムーズな非定常的, 離散的分布シフトなど, 様々な環境における宇野の適用性についても論じる。

When faced with sequential decision-making problems, it is often useful to be able to predict what would happen if decisions were made using a new policy. Those predictions must often be based on data collected under some previously used decision-making rule. Many previous methods enable such off-policy (or counterfactual) estimation of the expected value of a performance measure called the return. In this paper, we take the first steps towards a universal off-policy estimator (UnO) -- one that provides off-policy estimates and high-confidence bounds for any parameter of the return distribution. We use UnO for estimating and simultaneously bounding the mean, variance, quantiles/median, inter-quantile range, CVaR, and the entire cumulative distribution of returns. Finally, we also discuss Uno's applicability in various settings, including fully observable, partially observable (i.e., with unobserved confounders), Markovian, non-Markovian, stationary, smoothly non-stationary, and discrete distribution shifts.
翻訳日:2021-04-28 13:26:27 公開日:2021-04-26
# 適応周波数応答フィルタを用いたグラフニューラルネットワーク

Graph Neural Networks with Adaptive Frequency Response Filter ( http://arxiv.org/abs/2104.12840v1 )

ライセンス: Link先を確認
Yushun Dong, Kaize Ding, Brian Jalaian, Shuiwang Ji, Jundong Li(参考訳) グラフニューラルネットワークは最近、さまざまなハイインパクトグラフ学習タスクの一般的なパラダイムとなっている。 既存の取り組みは主にスペクトルベースおよび空間ベース手法に分類される。 前者にとっての大きな課題は、入力信号から識別情報を抽出する適切なグラフフィルタを見つけることである。 近年,グラフ畳み込みネットワーク (GCN) などの試みでは,チェビシェフ多項式の切り込みを利用してグラフフィルタの近似を求め,これら2種類の手法をブリッジしている。 近年の研究では、GCNとその変種は基本的に固定された低域通過フィルタを用いて情報をノイズ化していることが示されている。 したがって、学習能力はかなり限られており、より深い層でノード表現を過剰にスムースする可能性がある。 そこで本研究では,適応周波数応答フィルタを用いた新しいグラフニューラルネットワークフレームワークadagnnを開発した。 コアとなるAdaGNNは、複数の層にまたがるシンプルだがエレガントなトレーニング可能なフィルタを活用して、ノード表現学習における様々な周波数成分の重要性を捉えている。 異なる特徴チャネル間の固有の相違もフィルタによってよく捉えられる。 そのため、AdaGNNに強い表現力を与え、過度にスムースな問題を自然に軽減する。 提案手法の有効性を,様々なベンチマークデータセット上で実証的に検証した。 また,提案するAdaGNNの優位性を示す理論的解析を行った。 AdaGNNの実装は \url{https://github.com/yushundong/AdaGNN} で公開されている。

Graph Neural Networks have recently become a prevailing paradigm for various high-impact graph learning tasks. Existing efforts can be mainly categorized as spectral-based and spatial-based methods. The major challenge for the former is to find an appropriate graph filter to distill discriminative information from input signals for learning. Recently, attempts such as Graph Convolutional Network (GCN) leverage Chebyshev polynomial truncation to seek an approximation of graph filters and bridge these two families of methods. It has been shown in recent studies that GCN and its variants are essentially employing fixed low-pass filters to perform information denoising. Thus their learning capability is rather limited and may over-smooth node representations at deeper layers. To tackle these problems, we develop a novel graph neural network framework AdaGNN with a well-designed adaptive frequency response filter. At its core, AdaGNN leverages a simple but elegant trainable filter that spans across multiple layers to capture the varying importance of different frequency components for node representation learning. The inherent differences among different feature channels are also well captured by the filter. As such, it empowers AdaGNN with stronger expressiveness and naturally alleviates the over-smoothing problem. We empirically validate the effectiveness of the proposed framework on various benchmark datasets. Theoretical analysis is also provided to show the superiority of the proposed AdaGNN. The implementation of AdaGNN is available at \url{https://github.com/yushundong/AdaGNN}.
翻訳日:2021-04-28 13:26:09 公開日:2021-04-26
# 深層強化学習によるループ型ロボットのエンドツーエンド把持政策

End-to-end grasping policies for human-in-the-loop robots via deep reinforcement learning ( http://arxiv.org/abs/2104.12842v1 )

ライセンス: Link先を確認
Mohammadreza Sharif, Deniz Erdogmus, Christopher Amato, and Taskin Padir(参考訳) 最先端の人型ロボットの把握は、EMG(Electromyography)推論の堅牢性の問題に悩まされている。 回避策として、研究者たちは、しばしばアドホックな方法で、他の信号とEMGを統合することを検討している。 本稿では,実際に到達する軌道を把握したロボットのためのポリシーをエンドツーエンドに学習する手法を提案する。 この目的のために,モンテカルロ(MC)シミュレーション法を用いて,実人軌道を用いた確率的シミュレーション環境であるDEXTRON(DEXTerity environment)における強化学習(RL)と模倣学習(IL)を用いる。 また、専門家のポリシーデータとrlポリシーのロールアウト移行に基づいてトレーニングされた成功モデルも提供しています。

State-of-the-art human-in-the-loop robot grasping is hugely suffered by Electromyography (EMG) inference robustness issues. As a workaround, researchers have been looking into integrating EMG with other signals, often in an ad hoc manner. In this paper, we are presenting a method for end-to-end training of a policy for human-in-the-loop robot grasping on real reaching trajectories. For this purpose we use Reinforcement Learning (RL) and Imitation Learning (IL) in DEXTRON (DEXTerity enviRONment), a stochastic simulation environment with real human trajectories that are augmented and selected using a Monte Carlo (MC) simulation method. We also offer a success model which once trained on the expert policy data and the RL policy roll-out transitions, can provide transparency to how the deep policy works and when it is probably going to fail.
翻訳日:2021-04-28 13:23:59 公開日:2021-04-26
# 空間埋め込みによる地理的レートメイキング

Geographic ratemaking with spatial embeddings ( http://arxiv.org/abs/2104.12852v1 )

ライセンス: Link先を確認
Christopher Blier-Wong and H\'el\`ene Cossette and Luc Lamontagne and Etienne Marceau(参考訳) リスクの位置に関する知識は、保険会社のレートメイキング、保存、リスク管理プロセスを改善する可能性がある。 領域に露出が大きい保険会社は、非パラメトリックな空間リスクをモデル化するために、地域における歴史的損失を利用するため、競争上の優位性を持つことが多い。 過去の損失データが利用できない地域では、地理的損失に依存することが問題となる。 本稿では,地理的レートメイキングモデルを構築するためのデータに基づく手法(過去の保険請求損失の平滑化に代えて)を提案する。 特に、複素表現モデル内で空間的特徴を構築し、その特徴をより単純な予測モデル(一般化線形モデルなど)への入力として利用する。 本手法は,双変量スプラインなどの他の空間補間モデルよりもバイアスが小さく,ばらつきが小さい予測を生成する。 この方法では、歴史的経験のない領域で率を生成できる。

Spatial data is a rich source of information for actuarial applications: knowledge of a risk's location could improve an insurance company's ratemaking, reserving or risk management processes. Insurance companies with high exposures in a territory typically have a competitive advantage since they may use historical losses in a region to model spatial risk non-parametrically. Relying on geographic losses is problematic for areas where past loss data is unavailable. This paper presents a method based on data (instead of smoothing historical insurance claim losses) to construct a geographic ratemaking model. In particular, we construct spatial features within a complex representation model, then use the features as inputs to a simpler predictive model (like a generalized linear model). Our approach generates predictions with smaller bias and smaller variance than other spatial interpolation models such as bivariate splines in most situations. This method also enables us to generate rates in territories with no historical experience.
翻訳日:2021-04-28 13:21:59 公開日:2021-04-26
# 心筋速度マッピングによる左室脱線に対する3次元埋め込みrnn(3d-ear)セグメンタ

Three-Dimensional Embedded Attentive RNN (3D-EAR) Segmentor for Left Ventricle Delineation from Myocardial Velocity Mapping ( http://arxiv.org/abs/2104.13214v1 )

ライセンス: Link先を確認
Mengmeng Kuang, Yinzhe Wu, Diego Alonso-\'Alvarez, David Firmin, Jennifer Keegan, Peter Gatehouse, Guang Yang(参考訳) 心電図(MVM-CMR)は, 心筋の局所速度を再現性で測定するために用いられる。 正確な左室デライン化はロバストで再現性のある心筋速度推定の前提条件である。 このデータセットの従来の手動セグメンテーションは時間と主観的であり,効率的な完全自動デライン化手法が要求されている。 本研究では,最近提案されたディープラーニングに基づくセマンティクスセグメンテーション手法を活用し,mvm-cmrデータセット(dubbed 3d-ear segmentor)のための組込みマルチチャネルアテンション機構とlstmベースのリカレントニューラルネットワーク(rnn)による3d-unetバックボーンアーキテクチャを組み込んだ,新しい完全自動化フレームワークを提案する。 提案手法では,多チャンネルデータセットの情報融合を実現するための入力としてマグニチュードと位相画像の融合を利用し,組込みrnnを介して時間フレームの相関関係を探索する。 3d-unetおよびアブレーション研究のベースラインモデルと埋込み型lstmモジュールおよび各種損失関数との比較により,提案モデルが最先端のベースラインモデルよりも大幅に改善されていることを示すことができる。

Myocardial Velocity Mapping Cardiac MR (MVM-CMR) can be used to measure global and regional myocardial velocities with proved reproducibility. Accurate left ventricle delineation is a prerequisite for robust and reproducible myocardial velocity estimation. Conventional manual segmentation on this dataset can be time-consuming and subjective, and an effective fully automated delineation method is highly in demand. By leveraging recently proposed deep learning-based semantic segmentation approaches, in this study, we propose a novel fully automated framework incorporating a 3D-UNet backbone architecture with Embedded multichannel Attention mechanism and LSTM based Recurrent neural networks (RNN) for the MVM-CMR datasets (dubbed 3D-EAR segmentor). The proposed method also utilises the amalgamation of magnitude and phase images as input to realise an information fusion of this multichannel dataset and exploring the correlations of temporal frames via the embedded RNN. By comparing the baseline model of 3D-UNet and ablation studies with and without embedded attentive LSTM modules and various loss functions, we can demonstrate that the proposed model has outperformed the state-of-the-art baseline models with significant improvement.
翻訳日:2021-04-28 13:21:13 公開日:2021-04-26
# Pizza Preferencesに基づくバーガーのリコメンデーション - 専門家のプロダクトによるデータの分散への対応

Recommending Burgers based on Pizza Preferences: Addressing Data Sparsity with a Product of Experts ( http://arxiv.org/abs/2104.12822v1 )

ライセンス: Link先を確認
Martin Milenkoski, Diego Antognini, Claudiu Musat(参考訳) 本稿では,ユーザの嗜好に関する知識が限られている領域において,データの分散に対処し,レコメンデーションを作成する手法について述べる。 本稿では,可変オートエンコーダ協調フィルタリングを単一ドメインからマルチドメインに拡張する。 直感的には、ソースドメインにおけるユーザとイテムの相互作用は、ターゲットドメインにおけるレコメンデーション品質を高めることができる。 ドメイン横断的な設定では、ソースドメインのユーザ履歴は、ターゲットのドメインで高品質なレコメンデーションを生成するのに十分です。 したがって、複数のドメイン間でのユーザ・イテムインタラクションを共同でモデル化するレコメンデーションのためのProduct-of-Experts(POE)アーキテクチャを作成します。 この方法は、1つ以上のドメインのデータ欠落に対して弾力性があり、実生活でよく見られる状況である。 AmazonとYelpの2つの広く使われているデータセットの結果は、総合的なユーザー好みの知識がより良いレコメンデーションをもたらすという主張をサポートする。 驚いたことに、特定のケースでは、ターゲットドメインのユーザ表現にアクセスできないPOEレコメンデータが、ターゲットドメインでトレーニングされた強力なVAEレコメンデータベースラインを超える可能性がある。 このアウトパフォーマンスの背後にある理由と、結果として生じる埋め込み空間を詳細に調べて分析を完成させる。

In this paper we describe a method to tackle data sparsity and create recommendations in domains with limited knowledge about the user preferences. We expand the variational autoencoder collaborative filtering from a single-domain to a multi domain setting. The intuition is that user-item interactions in a source domain can augment the recommendation quality in a target domain. The intuition can be taken to its extreme, where, in a cross-domain setup, the user history in a source domain is enough to generate high quality recommendations in a target one. We thus create a Product-of-Experts (POE) architecture for recommendations that jointly models user-item interactions across multiple domains. The method is resilient to missing data for one or more of the domains, which is a situation often found in real life. We present results on two widely-used datasets - Amazon and Yelp, which support the claim that holistic user preference knowledge leads to better recommendations. Surprisingly, we find that in select cases, a POE recommender that does not access the target domain user representation can surpass a strong VAE recommender baseline trained on the target domain. We complete the analysis with a study of the reasons behind this outperformance and an in-depth look at the resulting embedding spaces.
翻訳日:2021-04-28 13:20:15 公開日:2021-04-26
# 対向環境における学習型分散オフロード意思決定

Learning-based decentralized offloading decision making in an adversarial environment ( http://arxiv.org/abs/2104.12827v1 )

ライセンス: Link先を確認
Byungjin Cho and Yu Xiao(参考訳) vehicular fog computing (vfc)は、クラウドコンピューティング機能をインターネットの端にある分散フォグノードにプッシュし、タスクオフロードを通じて車両の計算集約的でレイテンシに敏感なコンピューティングサービスを可能にする。 しかし、不均質な移動環境は資源供給と需要の面で不確実性をもたらし、最適なオフロード決定には避けられないボトルネックとなる。 また、こうした不確実性は、悪意のない攻撃とデータプライバシーリスクの下でタスクのオフロードに余分な課題をもたらす。 本稿では,フォグノードの選択によるスケーラブルで低複雑さなオフロード決定を可能にするために,マルチアーム・バンディット理論に基づくバンディットフィードバックを用いた新たな逆方向オンラインアルゴリズムを開発し,遅延とエネルギの観点から,オフロードサービスコストを最小化する。 鍵となるのは、不安定な資源供給と需要を考慮した設計アルゴリズムの選択と評価規則における探索ボーナスを暗黙的に調整することである。 理論上は,入力サイズ依存選択ルールは,サブ最適動作を探索することなく適切なフォグノードを選択できること,また,適切なスコアパッチ適用ルールは,発展する状況に迅速に適応できることを実証し,分散とバイアスを同時に低減し,よりよい搾取探索バランスを実現する。 シミュレーションの結果,提案アルゴリズムの有効性とロバスト性を検証した。

Vehicular fog computing (VFC) pushes the cloud computing capability to the distributed fog nodes at the edge of the Internet, enabling compute-intensive and latency-sensitive computing services for vehicles through task offloading. However, a heterogeneous mobility environment introduces uncertainties in terms of resource supply and demand, which are inevitable bottlenecks for the optimal offloading decision. Also, these uncertainties bring extra challenges to task offloading under the oblivious adversary attack and data privacy risks. In this article, we develop a new adversarial online algorithm with bandit feedback based on the adversarial multi-armed bandit theory, to enable scalable and low-complex offloading decision making on the fog node selection toward minimizing the offloading service cost in terms of delay and energy. The key is to implicitly tune exploration bonus in selection and assessment rules of the designed algorithm, taking into account volatile resource supply and demand. We theoretically prove that the input-size dependent selection rule allows to choose a suitable fog node without exploring the sub-optimal actions, and also an appropriate score patching rule allows to quickly adapt to evolving circumstances, which reduces variance and bias simultaneously, thereby achieving better exploitation exploration balance. Simulation results verify the effectiveness and robustness of the proposed algorithm.
翻訳日:2021-04-28 13:17:53 公開日:2021-04-26
# モッキング・バードをモックする : バイオミミカリーの研究

To mock a Mocking bird : Studies in Biomimicry ( http://arxiv.org/abs/2104.13228v1 )

ライセンス: Link先を確認
Inavamsi Enaganti and Bud Mishra(参考訳) 本稿では, 情報非対称性, 個々の有用性, その最適化の観点から, 共進化する捕食者(昆虫など)や捕食者(虫類など)が学習する戦略的相互作用を通じて議論する。 形態的には、比較的短い寿命を持つ獲物種が占めるパンミック生態系を考察し、比較的長い寿命を持つ捕食者と相互作用し、捕食者が捕食者信号を学ぶ能力を持つように、代々模倣信号を進化させる。 すべての獲物は信号を送信し、捕食者にユーティリティを提供する。 獲物は捕食者にとって栄養素か毒性があるが、獲物はその真の「タイプ」を明かさずに(おそらく)欺くことができる。 このモデルを用いて,事前情報ゼロのマルチアームバンディット捕食者が生態系に導入される状況を研究する。 探索と利用の結果、捕食者は自然にこれらの信号の進化をもたらす獲物を選択する。 この戦略の共進化は、本論文の主題である様々な興味深い現象を生み出す。

This paper dwells on certain novel game-theoretic investigations in bio-mimicry, discussed from the perspectives of information asymmetry, individual utility and its optimization via strategic interactions involving co-evolving preys (e.g., insects) and predators (e.g., reptiles) who learn. Formally, we consider a panmictic ecosystem, occupied by species of prey with relatively short lifespan, which evolve mimicry signals over generations as they interact with predators with relatively longer lifespans, thus endowing predators with the ability to learn prey signals. Every prey sends a signal and provides utility to the predator. The prey can be either nutritious or toxic to the predator, but the prey may signal (possibly) deceptively without revealing its true "type." The model is used to study the situation where multi-armed bandit predators with zero prior information are introduced into the ecosystem. As a result of exploration and exploitation the predators naturally select the prey that result in the evolution of those signals. This co-evolution of strategies produces a variety of interesting phenomena which are subjects of this paper.
翻訳日:2021-04-28 13:16:57 公開日:2021-04-26
# (参考訳) dualFace: フリーハンドポートレートスケッチのための2段階描画ガイダンス

dualFace:Two-Stage Drawing Guidance for Freehand Portrait Sketching ( http://arxiv.org/abs/2104.12297v1 )

ライセンス: CC BY 4.0
Zhengyu Huang, Yichen Peng, Tomohiro Hibino, Chunqi Zhao, Haoran Xie, Tsukasa Fukusato, Kazunori Miyata(参考訳) 本論文では,異なるレベルの描画スキルを持つユーザに対して,認識可能な顔のスケッチを補完するポートレート描画インタフェースであるDoubleFaceを提案する。 ユーザーが肖像画の輪郭線を描くのを助けるグローバルガイダンス(幾何学的構造)と、伝統的なアーティストのワークフローにインスパイアされた顔の部品の詳細を描くのに役立つローカルガイダンス(ユーザーによって描かれた輪郭線に準拠した)である。 グローバルガイダンスの段階で、ユーザはいくつかの輪郭線を描画し、doubleFaceは内部データベースからいくつかの関連画像を検索し、候補の輪郭線をキャンバスの背景に表示する。 局所的な誘導の段階では,ユーザによる輪郭線からの深部生成モデルを用いて詳細な肖像画を合成するが,その合成結果を詳細な描画指導として利用する。 We performed a user study to verify the effectiveness of dualFace, and we confirmed that dualFace significantly help a detailed portrait sketch。 http://www.jaist.ac.jp/~xie/dualface.html

In this paper, we propose dualFace, a portrait drawing interface to assist users with different levels of drawing skills to complete recognizable and authentic face sketches. dualFace consists of two-stage drawing assistance to provide global and local visual guidance: global guidance, which helps users draw contour lines of portraits (i.e., geometric structure), and local guidance, which helps users draws details of facial parts (which conform to user-drawn contour lines), inspired by traditional artist workflows in portrait drawing. In the stage of global guidance, the user draws several contour lines, and dualFace then searches several relevant images from an internal database and displays the suggested face contour lines over the background of the canvas. In the stage of local guidance, we synthesize detailed portrait images with a deep generative model from user-drawn contour lines, but use the synthesized results as detailed drawing guidance. We conducted a user study to verify the effectiveness of dualFace, and we confirmed that dualFace significantly helps achieve a detailed portrait sketch. see http://www.jaist.ac.jp/~xie/dualface.html
翻訳日:2021-04-28 02:39:25 公開日:2021-04-26
# (参考訳) クラスタリングのための自己重み付け低ランク表現

Auto-weighted low-rank representation for clustering ( http://arxiv.org/abs/2104.12308v1 )

ライセンス: CC BY 4.0
Zhiqiang Fu, Yao Zhao, Dongxia Chang, Xingxing Zhang, Yiming Wang(参考訳) 本稿では,新しい教師なし低ランク表現モデルであるauto-weighted low-rank representation(alrr)を提案し,クラスタリングのためのより好適な類似性グラフ(sg)を構築する。 特にALRRは、マルチサブスペース構造を捕捉し、同時に塩分の特徴を抽出することにより、SGの識別性を高める。 具体的には、有効機能を強調表示することで類似度グラフを学習するために自動重み付けペナルティが導入された。 その結果、ALRRは2つの異なるサンプルに対してより小さな類似性を強制することにより、データ内の固有幾何学構造を保存できる類似性グラフを得る。 さらに、ブロック対角正規化器を用いて、学習グラフが$k$対角ブロックを含むことを保証する。 これにより、クラスタリングタスクに対するより識別的な表現学習が容易になる。 合成および実データベースに関する広範な実験の結果は、1.8\%$\sim$10.8\%のマージンを持つ他の最先端手法よりもalrrが優れていることを示している。

In this paper, a novel unsupervised low-rank representation model, i.e., Auto-weighted Low-Rank Representation (ALRR), is proposed to construct a more favorable similarity graph (SG) for clustering. In particular, ALRR enhances the discriminability of SG by capturing the multi-subspace structure and extracting the salient features simultaneously. Specifically, an auto-weighted penalty is introduced to learn a similarity graph by highlighting the effective features, and meanwhile, overshadowing the disturbed features. Consequently, ALRR obtains a similarity graph that can preserve the intrinsic geometrical structures within the data by enforcing a smaller similarity on two dissimilar samples. Moreover, we employ a block-diagonal regularizer to guarantee the learned graph contains $k$ diagonal blocks. This can facilitate a more discriminative representation learning for clustering tasks. Extensive experimental results on synthetic and real databases demonstrate the superiority of ALRR over other state-of-the-art methods with a margin of 1.8\%$\sim$10.8\%.
翻訳日:2021-04-28 02:24:30 公開日:2021-04-26
# (参考訳) 多段階時系列予測のための確率的リカレントニューラルネットワーク

Stochastic Recurrent Neural Network for Multistep Time Series Forecasting ( http://arxiv.org/abs/2104.12311v1 )

ライセンス: CC BY 4.0
Zexuan Yin, Paolo Barucca(参考訳) 近年,複雑な非線形時間ダイナミクスをモデル化する能力により,深層構造に基づく時系列予測が普及している。 リカレントニューラルネットワークは、可変長入力と出力を処理できるモデルの一つである。 本稿では, 深部生成モデルと状態空間モデルの概念の最近の進歩を活用し, 確率勾配変動ベイズを訓練したマルチステップ・アヘッド時系列予測のための再帰的ニューラルネットワークの確率的適応を提案する。 我々のモデル設計では、隠れ状態の進化を決定するリカレントニューラルネットワークの遷移関数は、通常のリカレントニューラルネットワークのように決定論的ではなく確率的である。 我々のモデルは、すべての関連する情報が隠された状態にカプセル化されるリカレントニューラルネットワークのアーキテクチャ動作を保ち、この柔軟性により、シーケンシャルなモデリングのための深いアーキテクチャに容易に統合できる。 我々は、金融から医療まで幅広いデータセットでモデルをテストし、その結果、確率的リカレントニューラルネットワークが決定論的アルゴリズムよりも一貫して優れていることを示した。

Time series forecasting based on deep architectures has been gaining popularity in recent years due to their ability to model complex non-linear temporal dynamics. The recurrent neural network is one such model capable of handling variable-length input and output. In this paper, we leverage recent advances in deep generative models and the concept of state space models to propose a stochastic adaptation of the recurrent neural network for multistep-ahead time series forecasting, which is trained with stochastic gradient variational Bayes. In our model design, the transition function of the recurrent neural network, which determines the evolution of the hidden states, is stochastic rather than deterministic as in a regular recurrent neural network; this is achieved by incorporating a latent random variable into the transition process which captures the stochasticity of the temporal dynamics. Our model preserves the architectural workings of a recurrent neural network for which all relevant information is encapsulated in its hidden states, and this flexibility allows our model to be easily integrated into any deep architecture for sequential modelling. We test our model on a wide range of datasets from finance to healthcare; results show that the stochastic recurrent neural network consistently outperforms its deterministic counterpart.
翻訳日:2021-04-28 02:13:37 公開日:2021-04-26
# (参考訳) 機械学習に基づくLie Detectorの収集および注釈付きデータセットへの適用

Machine Learning based Lie Detector applied to a Collected and Annotated Dataset ( http://arxiv.org/abs/2104.12345v1 )

ライセンス: CC BY 4.0
Nuria Rodriguez-Diaz, Decky Aspandi, Federico Sukno, Xavier Binefa(参考訳) リー検出は、人間同士の相互作用に影響を及ぼすため、日々の生活においてすべての人にとって懸念される。 したがって、通常、人々は、会話者が言っていることに注意を払うだけでなく、顔を含む視覚的な外観を検査して、その人が真実を言っているかどうかを示す兆候を見つけようとする。 残念ながら、この嘘の特徴を理解するのに役立ちそうな自動嘘検出は、まだかなり限られている。 主な原因は、嘘データセットの欠如とそれに対応する評価である。 本研究では,嘘のインセンティブを与えるカードゲームにおいて,異なる参加者の顔の注釈付き画像と3d情報を含むデータセットを収集した。 収集したデータセットを用いて、一般化、個人的、横断的な嘘検出実験により、機械学習ベースの嘘検出装置を複数評価した。 これらの実験では, 一般化タスクでは57\%, 参加者1名に対して63\%のリーフ認識において, ディープラーニングモデルが優れていることを示した。 最後に、異なる種類の嘘タスクを扱う際に、ディープラーニングベースの嘘検出の制限についても強調する。

Lie detection is considered a concern for everyone in their day to day life given its impact on human interactions. Hence, people are normally not only pay attention to what their interlocutors are saying but also try to inspect their visual appearances, including faces, to find any signs that indicate whether the person is telling the truth or not. Unfortunately to date, the automatic lie detection, which may help us to understand this lying characteristics are still fairly limited. Mainly due to lack of a lie dataset and corresponding evaluations. In this work, we have collected a dataset that contains annotated images and 3D information of different participants faces during a card game that incentivise the lying. Using our collected dataset, we evaluated several types of machine learning based lie detector through generalize, personal and cross lie lie experiments. In these experiments, we showed the superiority of deep learning based model in recognizing the lie with best accuracy of 57\% for generalized task and 63\% when dealing with a single participant. Finally, we also highlight the limitation of the deep learning based lie detector when dealing with different types of lie tasks.
翻訳日:2021-04-28 02:02:06 公開日:2021-04-26
# (参考訳) 画像復元・融合における動的劣化

Dynamic Degradation for Image Restoration and Fusion ( http://arxiv.org/abs/2104.12347v1 )

ライセンス: CC0 1.0
Aiqing Fang, Xinbo Zhao, Jiaqi Yang, Yanning Zhang(参考訳) 深層学習に基づく画像復元と融合手法は顕著な成果を上げている。 しかし, 従来の修復法と融合法は, 動的劣化に起因するロバスト性問題にはほとんど注意を払わなかった。 本稿では,静的回復と融合,動的劣化という2つの問題を解くことができる,DDRF-Netと呼ばれる新しい動的画像復元と融合ニューラルネットワークを提案する。 既存手法の静的融合問題を解くため,動的復元と融合重みを学習するために動的畳み込みを導入した。 さらに,画像復元と核融合の堅牢性を向上させるため,動的劣化カーネルを提案する。 ネットワークフレームワークは,画像劣化と画像融合タスクを効果的に結合し,画像復元損失による画像融合タスクの詳細な情報を提供し,画像融合損失による画像復元タスクを最適化する。 したがって、画像融合におけるディープラーニングの崩壊ブロック、例えば静的融合重みや特別に設計されたネットワークアーキテクチャは大幅に軽減される。 実験の結果,本手法は最先端の手法よりも優れていることがわかった。

The deep-learning-based image restoration and fusion methods have achieved remarkable results. However, the existing restoration and fusion methods paid little research attention to the robustness problem caused by dynamic degradation. In this paper, we propose a novel dynamic image restoration and fusion neural network, termed as DDRF-Net, which is capable of solving two problems, i.e., static restoration and fusion, dynamic degradation. In order to solve the static fusion problem of existing methods, dynamic convolution is introduced to learn dynamic restoration and fusion weights. In addition, a dynamic degradation kernel is proposed to improve the robustness of image restoration and fusion. Our network framework can effectively combine image degradation with image fusion tasks, provide more detailed information for image fusion tasks through image restoration loss, and optimize image restoration tasks through image fusion loss. Therefore, the stumbling blocks of deep learning in image fusion, e.g., static fusion weight and specifically designed network architecture, are greatly mitigated. Extensive experiments show that our method is more superior compared with the state-of-the-art methods.
翻訳日:2021-04-28 01:46:39 公開日:2021-04-26
# (参考訳) 物理系キャラクタアニメーションのための高効率ハイパーパラメータ最適化

Efficient Hyperparameter Optimization for Physics-based Character Animation ( http://arxiv.org/abs/2104.12365v1 )

ライセンス: CC BY 4.0
Zeshi Yang and Zhiqi Yin(参考訳) 近年,Deep Reinforcement Learning (DRL) の導入により,物理ベースのキャラクターアニメーションが大きな進歩を遂げている。 しかし、DRLベースの学習法は通常計算コストが高く、その性能はハイパーパラメータの選択に大きく依存する。 これらの方法に対するハイパーパラメータのチューニングには、制御ポリシーの反復的なトレーニングがしばしば必要となる。 本研究では,DRLに基づく文字制御システムの高パラメータ最適化を効率的に行うために,カリキュラムベースのマルチフィデリティベイズ最適化フレームワーク(CMFBO)を提案する。 本手法は,カリキュラムベースの課題難易度を忠実度基準として,より簡単な運動スキルタスクの評価を通じて,探索空間を徐々に刈り取ることにより探索効率を向上させる。 本手法は,deepmimicのキャラクタリモルフォロジー最適化とハイパーパラメータチューニングの2つの物理ベースのキャラクタ制御タスクについて評価する。 本アルゴリズムは,物理ベースのキャラクタアニメーションに適用できる最先端のハイパーパラメータ最適化手法を著しく上回っている。 特に,アルゴリズムによって最適化されたハイパーパラメータは,DeepMimicの作者リリース設定と比較して,少なくとも5倍の効率向上が得られることを示す。

Physics-based character animation has seen significant advances in recent years with the adoption of Deep Reinforcement Learning (DRL). However, DRL-based learning methods are usually computationally expensive and their performance crucially depends on the choice of hyperparameters. Tuning hyperparameters for these methods often requires repetitive training of control policies, which is even more computationally prohibitive. In this work, we propose a novel Curriculum-based Multi-Fidelity Bayesian Optimization framework (CMFBO) for efficient hyperparameter optimization of DRL-based character control systems. Using curriculum-based task difficulty as fidelity criterion, our method improves searching efficiency by gradually pruning search space through evaluation on easier motor skill tasks. We evaluate our method on two physics-based character control tasks: character morphology optimization and hyperparameter tuning of DeepMimic. Our algorithm significantly outperforms state-of-the-art hyperparameter optimization methods applicable for physics-based character animation. In particular, we show that hyperparameters optimized through our algorithm result in at least 5x efficiency gain comparing to author-released settings in DeepMimic.
翻訳日:2021-04-28 01:31:06 公開日:2021-04-26
# (参考訳) 医用画像における動脈・てんかん性回帰不確かさの再検討

Recalibration of Aleatoric and Epistemic Regression Uncertainty in Medical Imaging ( http://arxiv.org/abs/2104.12376v1 )

ライセンス: CC BY 4.0
Max-Heinrich Laves, Sontje Ihler, Jacob F. Fast, L\"uder A. Kahrs, Tobias Ortmaier(参考訳) 深層学習による医用画像の予測不確実性の考察が最も重要である。 モンテカルロの降雨量から推定したベイズ変分推定法を回帰問題に適用し,予測的不確実性は系統的に過小評価されていることを示す。 私たちは、$ \sigma $ scalingを単一のスカラー値で適用します。 提案手法の性能は,様々な最先端の畳み込みネットワークアーキテクチャを用いて,様々な医療レグレッションデータセットを用いて評価される。 私たちの実験では、$ \sigma $ scalingは予測の不確実性を確実に再調整できます。 実装が容易で、正確さを維持します。 回帰における不確実性は、信頼できない予測の堅牢な拒絶や、分布外サンプルの検出を可能にする。 私たちのソースコードはhttps://github.com/mlaves/well-calibrated-regression-uncertaintyで利用可能です。

The consideration of predictive uncertainty in medical imaging with deep learning is of utmost importance. We apply estimation of both aleatoric and epistemic uncertainty by variational Bayesian inference with Monte Carlo dropout to regression tasks and show that predictive uncertainty is systematically underestimated. We apply $ \sigma $ scaling with a single scalar value; a simple, yet effective calibration method for both types of uncertainty. The performance of our approach is evaluated on a variety of common medical regression data sets using different state-of-the-art convolutional network architectures. In our experiments, $ \sigma $ scaling is able to reliably recalibrate predictive uncertainty. It is easy to implement and maintains the accuracy. Well-calibrated uncertainty in regression allows robust rejection of unreliable predictions or detection of out-of-distribution samples. Our source code is available at https://github.com/mlaves/well-calibrated-regression-uncertainty
翻訳日:2021-04-28 01:11:38 公開日:2021-04-26
# (参考訳) DADgraph:多人数対話機読解のための談話対応対話グラフニューラルネットワーク

DADgraph: A Discourse-aware Dialogue Graph Neural Network for Multiparty Dialogue Machine Reading Comprehension ( http://arxiv.org/abs/2104.12377v1 )

ライセンス: CC BY 4.0
Jiaqi Li, Ming Liu, Zihao Zheng, Heng Zhang, Bing Qin, Min-Yen Kan and Ting Liu(参考訳) mrc(multiparty dialogue machine reading comprehension)は、モデルが従来のmrcとは無関係な複雑な対話談話構造を扱う必要があるため、従来のmrcとは異なる。 マルチパーティ対話における談話構造を完全に活用するために,談話依存リンクと談話関係を用いた対話グラフを明示的に構築する,談話対応対話グラフニューラルネットワーク,DADgraphを提案する。 このモデルを検証するために,談話構造を付加した多人数対話上に構築された大規模MRCデータセットであるMolweni corpusの実験を行った。 Molweniの実験では、我々の談話認識モデルは強力なニューラルネットワークMRCベースラインと比較して統計的に有意な改善が得られた。

Multiparty Dialogue Machine Reading Comprehension (MRC) differs from traditional MRC as models must handle the complex dialogue discourse structure, previously unconsidered in traditional MRC. To fully exploit such discourse structure in multiparty dialogue, we present a discourse-aware dialogue graph neural network, DADgraph, which explicitly constructs the dialogue graph using discourse dependency links and discourse relations. To validate our model, we perform experiments on the Molweni corpus, a large-scale MRC dataset built over multiparty dialogue annotated with discourse structure. Experiments on Molweni show that our discourse-aware model achieves statistically significant improvements compared against strong neural network MRC baselines.
翻訳日:2021-04-28 00:51:28 公開日:2021-04-26
# (参考訳) Syft 0.5: ユニバーサルデプロイ可能な構造化透明性プラットフォーム

Syft 0.5: A Platform for Universally Deployable Structured Transparency ( http://arxiv.org/abs/2104.12385v1 )

ライセンス: CC BY 4.0
Adam James Hall, Madhava Jay, Tudor Cebere, Bogdan Cebere, Koen Lennart van der Veen, George Muraru, Tongye Xu, Patrick Cason, William Abramson, Ayoub Benaissa, Chinmay Shah, Alan Aboudib, Th\'eo Ryffel, Kritika Prakash, Tom Titcombe, Varun Kumar Khare, Maddie Shang, Ionesio Junior, Animesh Gupta, Jason Paulmier, Nahua Kang, Andrew Trask(参考訳) 我々は、構造化された透明性システムの普遍的なセットを促進するプライバシー強化技術のコアグループを組み合わせた汎用フレームワークであるSyftを紹介する。 このフレームワークは、同型に暗号化されたアクティベーション信号を推論のために分割ニューラルネットワークを介して渡す、新しいプライバシ保護推論情報フローの設計と実装を通じて実証される。 さらに,モデルを計算チェーンに分割することで,モデルの秘密さを犠牲にして,推論の計算時間とアクティベーション信号のペイロードサイズを大幅に削減できることを示した。 我々は,コアとなる構造的透明性原則の提供に関して,提案するフローを評価する。

We present Syft, a general-purpose framework that combines a core group of privacy-enhancing technologies that facilitate a universal set of structured transparency systems. This framework is demonstrated through the design and implementation of a novel privacy-preserving inference information flow where we pass homomorphically encrypted activation signals through a split neural network for inference. We show that splitting the model further up the computation chain significantly reduces the computation time of inference and the payload size of activation signals at the cost of model secrecy. We evaluate our proposed flow with respect to its provision of the core structural transparency principles.
翻訳日:2021-04-28 00:35:09 公開日:2021-04-26
# (参考訳) リレーショナルargumentation Semantics

Relational Argumentation Semantics ( http://arxiv.org/abs/2104.12386v1 )

ライセンス: CC BY 4.0
Ryuta Arisaka, Takayuki Ito(参考訳) 本稿では,議論の意味論に対する新たな視点を提案し,それらを関係データベースとみなす。 基礎となる議論グラフのカプセル化を提供し、単一のリレーショナルな観点で議論意味論を理解できるようにし、リレーショナルな議論意味論(relational argumentation semantics)の概念を導いた。 これは共通の形式言語を通して議論の意味を理解するための方向である。 本稿では, 意味論やマルチエージェント・セマンティクス, より典型的なセマンティクスなど, 特定の目的のために提案されている多くの既存セマンティクスが, 関係性の観点から理解されていることを示す。

In this paper, we propose a fresh perspective on argumentation semantics, to view them as a relational database. It offers encapsulation of the underlying argumentation graph, and allows us to understand argumentation semantics under a single, relational perspective, leading to the concept of relational argumentation semantics. This is a direction to understand argumentation semantics through a common formal language. We show that many existing semantics such as explanation semantics, multi-agent semantics, and more typical semantics, that have been proposed for specific purposes, are understood in the relational perspective.
翻訳日:2021-04-28 00:21:05 公開日:2021-04-26
# (参考訳) 変分歩行者検出

Variational Pedestrian Detection ( http://arxiv.org/abs/2104.12389v1 )

ライセンス: CC BY 4.0
Yuang Zhang, Huanyu He, Jianguo Li, Yuxi Li, John See, Weiyao Lin(参考訳) 古典的物体検出法では,現在IoUをベースとした地上真理割当手順において曖昧さと最適化の難しさが生じるため,群集における歩行者検出は困難である。 本稿では,変動推定問題として歩行者検出のユニークな視点を考案する。 本稿では,自動符号化変分ベイズ(aevb)アルゴリズムを提案しながら,濃密な提案を潜在変数としてモデル化し,歩行者検出のための新規かつ効率的なアルゴリズムを提案する。 提案アルゴリズムの最適化により、古典的検出器を可変型歩行者検出器にすることができる。 CrowdHumanとCityPersonsのデータセットを用いて行った実験により、提案アルゴリズムは、単一ステージ検出器の場合の密度の高い歩行者検出問題に対処するための効率的な解であることが示された。 また, この手法は2段階検出器に柔軟に適用でき, 顕著な性能向上を実現する。

Pedestrian detection in a crowd is a challenging task due to a high number of mutually-occluding human instances, which brings ambiguity and optimization difficulties to the current IoU-based ground truth assignment procedure in classical object detection methods. In this paper, we develop a unique perspective of pedestrian detection as a variational inference problem. We formulate a novel and efficient algorithm for pedestrian detection by modeling the dense proposals as a latent variable while proposing a customized Auto Encoding Variational Bayes (AEVB) algorithm. Through the optimization of our proposed algorithm, a classical detector can be fashioned into a variational pedestrian detector. Experiments conducted on CrowdHuman and CityPersons datasets show that the proposed algorithm serves as an efficient solution to handle the dense pedestrian detection problem for the case of single-stage detectors. Our method can also be flexibly applied to two-stage detectors, achieving notable performance enhancement.
翻訳日:2021-04-27 23:59:29 公開日:2021-04-26
# (参考訳) 魚眼カメラにおける幾何運動分割制約の球面定式化

Spherical formulation of geometric motion segmentation constraints in fisheye cameras ( http://arxiv.org/abs/2104.12404v1 )

ライセンス: CC BY 4.0
Letizia Mariotti and Ciaran Eising(参考訳) 魚眼カメラと自動走行のための球面形状を用いた視覚運動分割法を提案する。 ピンホール画像における3つの一般的な幾何学的制約(正の高さ、正の深さ、極性制約)は球面座標に再構成され、カメラキャリブレーションが知られている限り、特定のカメラ構成に不変となる。 第4の制約(反平行制約)は、運動パララックスのあいまいさを解決するために追加され、ホスト車両に対する平行または準平行運動中の移動物体の検出を支援する。 最後の制約制約は球面型3視点制約として記述されるが,提案アルゴリズムでは適用されない。 魚眼画像への直接的雇用に有効な動き分割手法であることを示す結果が提示され, 分析された。

We introduce a visual motion segmentation method employing spherical geometry for fisheye cameras and automoated driving. Three commonly used geometric constraints in pin-hole imagery (the positive height, positive depth and epipolar constraints) are reformulated to spherical coordinates, making them invariant to specific camera configurations as long as the camera calibration is known. A fourth constraint, known as the anti-parallel constraint, is added to resolve motion-parallax ambiguity, to support the detection of moving objects undergoing parallel or near-parallel motion with respect to the host vehicle. A final constraint constraint is described, known as the spherical three-view constraint, is described though not employed in our proposed algorithm. Results are presented and analyzed that demonstrate that the proposal is an effective motion segmentation approach for direct employment on fisheye imagery.
翻訳日:2021-04-27 23:43:56 公開日:2021-04-26
# (参考訳) シャプリー型説明法における注意と非注意

Attention vs non-attention for a Shapley-based explanation method ( http://arxiv.org/abs/2104.12424v1 )

ライセンス: CC BY 4.0
Tom Kersten, Hugh Mee Wong, Jaap Jumelet, Dieuwke Hupkes(参考訳) 説明可能なAIの分野は、最近、高非線形ディープニューラルネットワークの説明方法が爆発的に増えている。 コンピュータビジョンの領域でしばしば提案され、テストされるそのような手法が、NLPにおける説明可能性の問題にどのように対処するかは、まだ明らかになっていない。 本研究では,繰り返しNLPモデルに有効であることを示すShapleyベースの入力特徴属性法であるContextual Decomposition (CD)について検討し,注意操作を含むモデルにどの程度有用かを検証する。 この目的のために、注意に基づくモデルに必要な操作をカバーするためにCDを拡張する。 次に,2つの異なる言語(英語とオランダ語)の異なる構文構造を考慮し,対象と対象の関係の長距離化をモデルと無注意で比較した。 我々の実験は、CDが注意に基づくモデルにもうまく適用可能であることを確認し、現代のニューラルネットワークに代替のShapleyベースの属性法を提供する。 特にCDを用いて、イギリスとオランダのモデルも同様な処理挙動を示すが、その内部では注意と非注意のモデルの間に一貫した違いがある。

The field of explainable AI has recently seen an explosion in the number of explanation methods for highly non-linear deep neural networks. The extent to which such methods -- that are often proposed and tested in the domain of computer vision -- are appropriate to address the explainability challenges in NLP is yet relatively unexplored. In this work, we consider Contextual Decomposition (CD) -- a Shapley-based input feature attribution method that has been shown to work well for recurrent NLP models -- and we test the extent to which it is useful for models that contain attention operations. To this end, we extend CD to cover the operations necessary for attention-based models. We then compare how long distance subject-verb relationships are processed by models with and without attention, considering a number of different syntactic structures in two different languages: English and Dutch. Our experiments confirm that CD can successfully be applied for attention-based models as well, providing an alternative Shapley-based attribution method for modern neural networks. In particular, using CD, we show that the English and Dutch models demonstrate similar processing behaviour, but that under the hood there are consistent differences between our attention and non-attention models.
翻訳日:2021-04-27 23:24:44 公開日:2021-04-26
# (参考訳) IoT用ネットワーク侵入検知システムに対する敵攻撃の開始

Launching Adversarial Attacks against Network Intrusion Detection Systems for IoT ( http://arxiv.org/abs/2104.12426v1 )

ライセンス: CC BY 4.0
Pavlos Papadopoulos, Oliver Thornewill von Essen, Nikolaos Pitropakis, Christos Chrysoulas, Alexios Mylonas, William J. Buchanan(参考訳) インターネットが新しいデバイスや新興技術で人口が増え続けるにつれ、攻撃面は指数関数的に増加する。 テクノロジーは、セキュリティが後から考えられている利益主導のモノのインターネット市場へとシフトしつつある。 従来の防御アプローチは、既知の攻撃と未知の攻撃の両方を高精度に検出するのに十分ではない。 機械学習による侵入検知システムは、未知の攻撃を高精度に特定することに成功した。 それでも、機械学習モデルは攻撃に対して脆弱である。 逆の例は、デプロイ前に設計したモデルの堅牢性を評価するのに使うことができる。 さらに、敵の例を使うことは、敵の環境向けに設計された堅牢なモデルを作成するのに不可欠である。 私たちの研究は、Bot-IoTデータセットを使用して、従来の機械学習とディープラーニングモデルの堅牢性を評価します。 私たちの方法論には2つの主要なアプローチがありました。 第一に、ラベル中毒はモデルによる誤った分類を引き起こすために使用される。 第2に,検出対策を回避するための高速勾配符号法である。 実験は、攻撃者がかなりの確率で検出を操作または回避できることを実証した。

As the internet continues to be populated with new devices and emerging technologies, the attack surface grows exponentially. Technology is shifting towards a profit-driven Internet of Things market where security is an afterthought. Traditional defending approaches are no longer sufficient to detect both known and unknown attacks to high accuracy. Machine learning intrusion detection systems have proven their success in identifying unknown attacks with high precision. Nevertheless, machine learning models are also vulnerable to attacks. Adversarial examples can be used to evaluate the robustness of a designed model before it is deployed. Further, using adversarial examples is critical to creating a robust model designed for an adversarial environment. Our work evaluates both traditional machine learning and deep learning models' robustness using the Bot-IoT dataset. Our methodology included two main approaches. First, label poisoning, used to cause incorrect classification by the model. Second, the fast gradient sign method, used to evade detection measures. The experiments demonstrated that an attacker could manipulate or circumvent detection with significant probability.
翻訳日:2021-04-27 23:11:39 公開日:2021-04-26
# (参考訳) GPT2MVS:マルチモーダルビデオ要約のための生成事前学習トランス-2

GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video Summarization ( http://arxiv.org/abs/2104.12465v1 )

ライセンス: CC BY 4.0
Jia-Hong Huang, Luka Murn, Marta Mrak, Marcel Worring(参考訳) 従来のビデオ要約手法は、ユーザーの興味に関係なく固定されたビデオ表現を生成する。 そのため、コンテンツ検索や探索のシナリオにおけるユーザの期待を制限している。 マルチモーダル映像要約はこの問題に対処するために用いられる手法の1つである。 ビデオ探索にマルチモーダルビデオ要約を用いる場合,テキストベースの問合せは,ユーザが定義するビデオ要約生成の主要な要因の1つであると考えられる。 したがって、テキストベースの問合せと映像を効果的にエンコーディングすることは、マルチモーダルビデオ要約のタスクにおいて重要である。 本稿では,この課題に取り組むために,特別な注意ネットワークと文脈表現を用いた新しい手法を提案する。 提案モデルは,コンテキスト化された映像要約コントローラ,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。 既存のマルチモーダルビデオ要約ベンチマークの評価結果から,提案手法は精度が5.88%,f1-scoreが4.06%向上した。

Traditional video summarization methods generate fixed video representations regardless of user interest. Therefore such methods limit users' expectations in content search and exploration scenarios. Multi-modal video summarization is one of the methods utilized to address this problem. When multi-modal video summarization is used to help video exploration, a text-based query is considered as one of the main drivers of video summary generation, as it is user-defined. Thus, encoding the text-based query and the video effectively are both important for the task of multi-modal video summarization. In this work, a new method is proposed that uses a specialized attention network and contextualized word representations to tackle this task. The proposed model consists of a contextualized video summary controller, multi-modal attention mechanisms, an interactive attention network, and a video summary generator. Based on the evaluation of the existing multi-modal video summarization benchmark, experimental results show that the proposed model is effective with the increase of +5.88% in accuracy and +4.06% increase of F1-score, compared with the state-of-the-art method.
翻訳日:2021-04-27 22:50:00 公開日:2021-04-26
# (参考訳) 簡易かつ効率的な変圧器 : 大規模NLPモードのためのスケーラブル推論ソリューション

Easy and Efficient Transformer : Scalable Inference Solution For large NLP mode ( http://arxiv.org/abs/2104.12470v1 )

ライセンス: CC BY 4.0
Gongzheng li, Yadong Xi, Jingzhen Ding, Duan Wang, Bai Liu, Changjie Fan, Xiaoxi Mao, Zeng Zhao(参考訳) 超大規模事前学習モデルは、様々なタスクの効果を効果的に改善すると同時に、推論に重い計算負荷をもたらす。 本稿では,アルゴリズム特性とgpuプロセッサハードウェア特性を組み合わせた超大規模事前学習モデル最適化手法を提案する。 まず,生成タスクのトークン並列性を改善するプリパディング復号機構を導入する。 次に,シークエンスマスクを除去し,パディングトークンのコストフリー計算を実現するとともに,長いシークエンスと長い埋め込みサイズをサポートするために,高度に最適化されたカーネルを設計する。 第3に,簡単なサービスパイプラインを備えたユーザフレンドリな推論システムを導入して,スループットの高いエンジニアリングデプロイメントの困難さを大幅に削減した。 A100上でのGPT-2のFaster Transformerの実装と比較すると、EETはコンテキスト長に応じて1.5~15倍の最先端の高速化を実現している。

The ultra-large-scale pre-training model can effectively improve the effect of a variety of tasks, and it also brings a heavy computational burden to inference. This paper introduces a series of ultra-large-scale pre-training model optimization methods that combine algorithm characteristics and GPU processor hardware characteristics, and on this basis, propose an inference engine -- Easy and Efficient Transformer (EET), Which has a significant performance improvement over the existing schemes. We firstly introduce a pre-padding decoding mechanism that improves token parallelism for generation tasks. Then we design high optimized kernels to remove sequence masks and achieve cost-free calculation for padding tokens, as well as support long sequence and long embedding sizes. Thirdly a user-friendly inference system with an easy service pipeline was introduced which greatly reduces the difficulty of engineering deployment with high throughput. Compared to Faster Transformer's implementation for GPT-2 on A100, EET achieves a 1.5-15x state-of-art speedup varying with context length.EET is available https://github.com/NetEase-FuXi/EET.
翻訳日:2021-04-27 22:31:27 公開日:2021-04-26
# (参考訳) マルチモーダル網膜画像キャプションのための文脈化キーワード表現

Contextualized Keyword Representations for Multi-modal Retinal Image Captioning ( http://arxiv.org/abs/2104.12471v1 )

ライセンス: CC BY 4.0
Jia-Hong Huang, Ting-Wei Wu, Marcel Worring(参考訳) 医用画像キャプションは、所定の医用画像の内容を記述するための医用記述を自動的に生成する。 従来の医用画像キャプションモデルは、単一の医用画像入力のみに基づいて医療記述を生成する。 したがって、抽象的な医学的記述や概念を従来のアプローチに基づいて生成することは困難である。 このような方法は、医用画像キャプションの有効性を制限する。 マルチモーダル医療画像キャプションはこの問題に対処するために用いられるアプローチの1つである。 マルチモーダルな医用画像キャプションでは、専門家定義のキーワードなど、テキスト入力が医用記述生成の主要な要因の1つであると考えられている。 したがって、マルチモーダルな医用画像キャプションのタスクには、テキスト入力と医用画像の効果的エンコーディングが重要である。 本研究では, エンド・ツー・エンドの医用画像キャプションモデルを提案する。 提案手法の開発には,文脈付きキーワード表現,テキスト特徴強化,マスク付き自己注意を用いた。 既存のマルチモーダル医用画像キャプションデータセットの評価から,提案手法は最先端法と比較してbleu-avg+53.2%,cider+18.6%の増加に有効であることが示された。

Medical image captioning automatically generates a medical description to describe the content of a given medical image. A traditional medical image captioning model creates a medical description only based on a single medical image input. Hence, an abstract medical description or concept is hard to be generated based on the traditional approach. Such a method limits the effectiveness of medical image captioning. Multi-modal medical image captioning is one of the approaches utilized to address this problem. In multi-modal medical image captioning, textual input, e.g., expert-defined keywords, is considered as one of the main drivers of medical description generation. Thus, encoding the textual input and the medical image effectively are both important for the task of multi-modal medical image captioning. In this work, a new end-to-end deep multi-modal medical image captioning model is proposed. Contextualized keyword representations, textual feature reinforcement, and masked self-attention are used to develop the proposed approach. Based on the evaluation of the existing multi-modal medical image captioning dataset, experimental results show that the proposed model is effective with the increase of +53.2% in BLEU-avg and +18.6% in CIDEr, compared with the state-of-the-art method.
翻訳日:2021-04-27 22:19:47 公開日:2021-04-26
# (参考訳) ベイズクラスタリングにおける「リッチ・ゲット・リチャー」の事前推定の重要性制御のためのパワーディリクレ法

Powered Dirichlet Process for Controlling the Importance of "Rich-Get-Richer" Prior Assumptions in Bayesian Clustering ( http://arxiv.org/abs/2104.12485v1 )

ライセンス: CC BY 4.0
Ga\"el Poux-M\'edard and Julien Velcin and Sabine Loudcher(参考訳) ベイズクラスタリングで最もよく使われる優先事項の1つはディリクレプリルである。 中華料理として表現できる。 このプロセスにより、データセットを分割する際のクラスタ数の非パラメトリック推定が可能になる。 その重要な特徴は "rich-get-richer" プロパティであり、クラスタが人口に線形に依存して選択される事前確率を持つと仮定する。 本稿では,このような先行が必ずしもデータモデリングに最適であるとは限らないことを示す。 我々は,この問題を解決するために,dirichlet-multinomial distributionの修正版から,中国料理店のパワー処理を導出する。 そして、その基本的な性質(クラスタの数、収束など)をいくつか開発します。 この方向の最先端の努力とは異なり、この新しい定式化により、"rich-get-richer" の重要性を直接制御することができる。

One of the most used priors in Bayesian clustering is the Dirichlet prior. It can be expressed as a Chinese Restaurant Process. This process allows nonparametric estimation of the number of clusters when partitioning datasets. Its key feature is the "rich-get-richer" property, which assumes a cluster has an a priori probability to get chosen linearly dependent on population. In this paper, we show that such prior is not always the best choice to model data. We derive the Powered Chinese Restaurant process from a modified version of the Dirichlet-Multinomial distribution to answer this problem. We then develop some of its fundamental properties (expected number of clusters, convergence). Unlike state-of-the-art efforts in this direction, this new formulation allows for direct control of the importance of the "rich-get-richer" prior.
翻訳日:2021-04-27 22:03:46 公開日:2021-04-26
# (参考訳) ビッグデータストリーミング分析によるEV充電ステーション占有確率の短期予測

Short-term forecast of EV charging stations occupancy probability using big data streaming analysis ( http://arxiv.org/abs/2104.12503v1 )

ライセンス: CC BY 4.0
Francesca Soldan, Enea Bionda, Giuseppe Mauri, Silvia Celaschi(参考訳) 電気移動の広範な普及は、充電インフラストラクチャのコンテキスト拡張を必要とする。 電気自動車の充電に関する情報の収集と処理は、各電気自動車充電ステーションを貴重なストリーミングデータソースにすることができる。 チャージポイントオペレータは、運用と計画アクティビティを最適化するために、これらすべてのデータから利益を得ることができる。 このようなシナリオでは、ビッグデータと機械学習技術により、電気自動車充電ステーションからのリアルタイムデータの評価が可能になる。 本稿では、現在から数分後に充電ステーションの可利用性を予測することを目的として、充電インフラからのデータストリームを処理可能なアーキテクチャを提案する。 過去の課金に関するバッチデータとリアルタイムデータストリームの両方を使用して、ストリーミングロジスティック回帰モデルをトレーニングし、過去の状況と予期しない実際のイベントを考慮に入れます。 ストリーミングモデルは、履歴データのみを使用してトレーニングされたモデルよりもパフォーマンスがよい。 その結果,変化条件に適応し,常に正確な予測を行うために,予測モデルパラメータを常に更新することの重要性を強調した。

The widespread diffusion of electric mobility requires a contextual expansion of the charging infrastructure. An extended collection and processing of information regarding charging of electric vehicles may turn each electric vehicle charging station into a valuable source of streaming data. Charging point operators may profit from all these data for optimizing their operation and planning activities. In such a scenario, big data and machine learning techniques would allow valorizing real-time data coming from electric vehicle charging stations. This paper presents an architecture able to deal with data streams from a charging infrastructure, with the final aim to forecast electric charging station availability after a set amount of minutes from present time. Both batch data regarding past charges and real-time data streams are used to train a streaming logistic regression model, to take into account recurrent past situations and unexpected actual events. The streaming model performs better than a model trained only using historical data. The results highlight the importance of constantly updating the predictive model parameters in order to adapt to changing conditions and always provide accurate forecasts.
翻訳日:2021-04-27 21:47:18 公開日:2021-04-26
# (参考訳) 機械学習を用いた個人の将来健康予測のための個人・社会・健康・バイオマーカー・遺伝子データの性能評価--縦断分析

Evaluating the performance of personal, social, health-related, biomarker and genetic data for predicting an individuals future health using machine learning: A longitudinal analysis ( http://arxiv.org/abs/2104.12516v1 )

ライセンス: CC BY 4.0
Mark Green(参考訳) 個人に関するより深い情報と幅広い健康関連情報にアクセスできるようになると、(1)個人レベルの健康リスクを予測するためのより良いモデルを構築することができるか? 2)健康状態を効果的に予測するには,どの程度のデータが必要か? 3) 新たなデータ形式がもたらした複雑さを処理するための新しいメソッドは必要か? 本研究の目的は、個人における将来の健康の予測因子として、個人、社会、健康、バイオマーカー、遺伝データの相対的な寄与を特定するための機械学習アプローチを適用することである。 英国理解協会(2010-12-2015-17)の6830人の縦データを用いて、個人(例えば、個人)の5種類の指標の予測性能を比較した。 年齢、性別、社会性(例) 職業、教育、健康関連(例) 体重、握力、バイオマーカー(例) コレステロール、ホルモン、遺伝性単一ヌクレオチド多型(SNP)。 予測結果の変動は, ベースラインから1~5年後の長期疾患を制限していた。 ニューラルネットワークによるディープラーニング(deep learning)とXGBoost(gradient boosting decision tree)という2つの機械学習アプローチが予測モデルの構築に使用された。 モデル適合は従来のロジスティック回帰モデルと比較された。 その結果,健康関連指標は今後の健康状態の予測に最も優れており,遺伝データが不十分であった。 機械学習モデルは、ロジスティック回帰モデルと比較してモデル精度が極端に向上しただけでなく、他の指標でも良好に機能した。 ニューラルネットワークはAUCとXGBoostの精度が最も高かった。 この研究は、データと手法の複雑さの増加は必ずしも健康の要因や健康の予測モデルの性能の理解を改善するものではないことを示唆している。

As we gain access to a greater depth and range of health-related information about individuals, three questions arise: (1) Can we build better models to predict individual-level risk of ill health? (2) How much data do we need to effectively predict ill health? (3) Are new methods required to process the added complexity that new forms of data bring? The aim of the study is to apply a machine learning approach to identify the relative contribution of personal, social, health-related, biomarker and genetic data as predictors of future health in individuals. Using longitudinal data from 6830 individuals in the UK from Understanding Society (2010-12 to 2015-17), the study compares the predictive performance of five types of measures: personal (e.g. age, sex), social (e.g. occupation, education), health-related (e.g. body weight, grip strength), biomarker (e.g. cholesterol, hormones) and genetic single nucleotide polymorphisms (SNPs). The predicted outcome variable was limiting long-term illness one and five years from baseline. Two machine learning approaches were used to build predictive models: deep learning via neural networks and XGBoost (gradient boosting decision trees). Model fit was compared to traditional logistic regression models. Results found that health-related measures had the strongest prediction of future health status, with genetic data performing poorly. Machine learning models only offered marginal improvements in model accuracy when compared to logistic regression models, but also performed well on other metrics e.g. neural networks were best on AUC and XGBoost on precision. The study suggests that increasing complexity of data and methods does not necessarily translate to improved understanding of the determinants of health or performance of predictive models of ill health.
翻訳日:2021-04-27 21:41:55 公開日:2021-04-26
# (参考訳) グラフニューラルネットワークを用いたトラヒック予測のための時空間モデリング

Unified Spatio-Temporal Modeling for Traffic Forecasting using Graph Neural Network ( http://arxiv.org/abs/2104.12518v1 )

ライセンス: CC BY 4.0
Amit Roy, Kashob Kumar Roy, Amin Ahsan Ali, M Ashraful Amin and A K M Mahbubur Rahman(参考訳) 交通強度を予測するディープラーニングモデルの研究は、交通データ内の複雑な時空間関係を捉える能力から、近年大きな注目を集めている。 しかし、最先端のほとんどのアプローチは空間のみを設計している(例)。 グラフニューラルネットワーク)と時間のみ(例えば、) リカレントニューラルネットワーク) 空間的特徴と時間的特徴を別々に抽出するモジュール。 しかし、そのような分解された加群との複素時空間関係を抽出することはより効果的であると主張する。 また、既存の作品の多くは、その日の1時間前の交通データのみに基づいて、特定の時間間隔の交通強度を予測する。 これにより、データの最後の1時間に存在するかもしれない日毎/週毎のパターンを無視する。 そこで我々は,時空間グラフのスペクトルグラフ畳み込みの助けを借りて,異なるタイムスタンプノード間の直接情報伝搬を通じて空間的および時間的アグリゲーションを行うトラフィック予測のための統一時空間グラフ畳み込みネットワーク (USTGCN) を提案する。 さらに、過去の日々のパターンや現在の交通データの現在のパターンもキャプチャする。 最後に,本研究の有効性を実験分析により検証し,本モデルがPMS(Performance Measurement System)の3つのベンチマークデータセットにおいて,最先端のパフォーマンスを上回ることを示す。 さらに,提案したUSTGCNモデルにより,トレーニング時間を大幅に短縮する。

Research in deep learning models to forecast traffic intensities has gained great attention in recent years due to their capability to capture the complex spatio-temporal relationships within the traffic data. However, most state-of-the-art approaches have designed spatial-only (e.g. Graph Neural Networks) and temporal-only (e.g. Recurrent Neural Networks) modules to separately extract spatial and temporal features. However, we argue that it is less effective to extract the complex spatio-temporal relationship with such factorized modules. Besides, most existing works predict the traffic intensity of a particular time interval only based on the traffic data of the previous one hour of that day. And thereby ignores the repetitive daily/weekly pattern that may exist in the last hour of data. Therefore, we propose a Unified Spatio-Temporal Graph Convolution Network (USTGCN) for traffic forecasting that performs both spatial and temporal aggregation through direct information propagation across different timestamp nodes with the help of spectral graph convolution on a spatio-temporal graph. Furthermore, it captures historical daily patterns in previous days and current-day patterns in current-day traffic data. Finally, we validate our work's effectiveness through experimental analysis, which shows that our model USTGCN can outperform state-of-the-art performances in three popular benchmark datasets from the Performance Measurement System (PeMS). Moreover, the training time is reduced significantly with our proposed USTGCN model.
翻訳日:2021-04-27 21:40:40 公開日:2021-04-26
# (参考訳) 低遅延スパイクニューラルネットワークの時空間プルーニングと量子化

Spatio-Temporal Pruning and Quantization for Low-latency Spiking Neural Networks ( http://arxiv.org/abs/2104.12528v1 )

ライセンス: CC BY 4.0
Sayeed Shafayet Chowdhury, Isha Garg and Kaushik Roy(参考訳) イベント駆動情報処理を実行するため、スパイキングニューラルネットワーク(SNN)は従来のディープラーニング手法に代わる有望な手段である。 しかし、SNNの大きな欠点は、高い推論遅延である。 SNNの効率はプルーニングや量子化といった圧縮手法によって向上することができた。 特に、SNNは、スポーキング以外のものと異なり、時間次元から成り、圧縮によって遅延が減少する可能性がある。 本稿では,SNNの空間的および時間的プルーニングを提案する。 第1に、ニューロンの平均蓄積膜電位の主成分分析を用いて、層別有意次元を決定することにより、構造化空間プラニングを行う。 このステップは10-14Xモデル圧縮につながる。 さらに、低レイテンシで推論が可能で、推論当たりのスパイク数を削減できる。 さらにレイテンシを低減し、トレーニング中の時間ステップを徐々に削減して、時間的プルーニングを行う。 VGG アーキテクチャを用いて,CIFAR10 と CIFAR100 のバックプロパゲーションを用いてネットワークをトレーニングし,その結果を検証した。 CIFAR10 と CIFAR100 でそれぞれ89.04% と66.4% の精度を達成し、最先端の SNN と比較して3-30倍のレイテンシで推論を行う。 さらに、通常のディープラーニングに比べて8~14倍の計算エネルギーを必要とする。 エネルギー数は、演算毎のエネルギーで演算数を乗算することで得られる。 これらのSNNはまた、ガウスノイズ劣化入力に対して1-4%高いロバスト性を提供する。 さらに,重み量子化を行い,5ビット量子化まで性能が安定であることを確認した。

Spiking Neural Networks (SNNs) are a promising alternative to traditional deep learning methods since they perform event-driven information processing. However, a major drawback of SNNs is high inference latency. The efficiency of SNNs could be enhanced using compression methods such as pruning and quantization. Notably, SNNs, unlike their non-spiking counterparts, consist of a temporal dimension, the compression of which can lead to latency reduction. In this paper, we propose spatial and temporal pruning of SNNs. First, structured spatial pruning is performed by determining the layer-wise significant dimensions using principal component analysis of the average accumulated membrane potential of the neurons. This step leads to 10-14X model compression. Additionally, it enables inference with lower latency and decreases the spike count per inference. To further reduce latency, temporal pruning is performed by gradually reducing the timesteps while training. The networks are trained using surrogate gradient descent based backpropagation and we validate the results on CIFAR10 and CIFAR100, using VGG architectures. The spatiotemporally pruned SNNs achieve 89.04% and 66.4% accuracy on CIFAR10 and CIFAR100, respectively, while performing inference with 3-30X reduced latency compared to state-of-the-art SNNs. Moreover, they require 8-14X lesser compute energy compared to their unpruned standard deep learning counterparts. The energy numbers are obtained by multiplying the number of operations with energy per operation. These SNNs also provide 1-4% higher robustness against Gaussian noise corrupted inputs. Furthermore, we perform weight quantization and find that performance remains reasonably stable up to 5-bit quantization.
翻訳日:2021-04-27 21:25:30 公開日:2021-04-26
# (参考訳) 自動駐車システムにおけるコンピュータビジョン:設計・実装・課題

Computer vision in automated parking systems: Design, implementation and challenges ( http://arxiv.org/abs/2104.12537v1 )

ライセンス: CC BY 4.0
Markus Heimberger, Jonathan Horgan, Ciaran Hughes, John McDonald, Senthil Yogamani(参考訳) 自動運転は、産業と学界の両方で活発な研究分野である。 自動駐車(automated parking, 自動駐車)は、低速運転を伴う駐車の制限されたシナリオにおいて、完全自動運転システムにとって重要な製品である。 また、衝突警報や歩行者検出などを含む前世代の運転支援システムから構築されたハイエンドシステムの観点からも重要なマイルストーンである。 本稿では,コンピュータビジョンアルゴリズムの観点から,自動駐車システムの設計と実装について議論する。 機能的安全性を備えた低コストシステムの設計は困難であり、全てのコーナーケースを処理するためにプロトタイプと最終製品の間に大きなギャップが生じる。 本研究では,自動駐車の用途にカメラシステムがいかに重要であるかを実証するとともに,超音波やレーダなどの能動距離計測センサを用いたシステムへのロバスト性も示す。 パーキングのユースケースを実現する重要な視覚モジュールは、3D再構成、パーキングスロットマーキング認識、空き空間、車/歩行者検出である。 パーキングの重要なユースケースを詳述し、視覚モジュールを組み合わせることでロバストなパーキングシステムを構築する方法を示す。 著者たちの知る限りでは、これは商用自動駐車システムのシステム的視点に関する最初の詳細な議論である。

Automated driving is an active area of research in both industry and academia. Automated Parking, which is automated driving in a restricted scenario of parking with low speed manoeuvring, is a key enabling product for fully autonomous driving systems. It is also an important milestone from the perspective of a higher end system built from the previous generation driver assistance systems comprising of collision warning, pedestrian detection, etc. In this paper, we discuss the design and implementation of an automated parking system from the perspective of computer vision algorithms. Designing a low-cost system with functional safety is challenging and leads to a large gap between the prototype and the end product, in order to handle all the corner cases. We demonstrate how camera systems are crucial for addressing a range of automated parking use cases and also, to add robustness to systems based on active distance measuring sensors, such as ultrasonics and radar. The key vision modules which realize the parking use cases are 3D reconstruction, parking slot marking recognition, freespace and vehicle/pedestrian detection. We detail the important parking use cases and demonstrate how to combine the vision modules to form a robust parking system. To the best of the authors' knowledge, this is the first detailed discussion of a systemic view of a commercial automated parking system.
翻訳日:2021-04-27 21:07:27 公開日:2021-04-26
# (参考訳) 建築における幾何学的深層学習のための合成3次元データ生成パイプライン

Synthetic 3D Data Generation Pipeline for Geometric Deep Learning in Architecture ( http://arxiv.org/abs/2104.12564v1 )

ライセンス: CC BY 4.0
Stanislava Fedorova, Alberto Tono, Meher Shashwat Nigam, Jiayao Zhang, Amirhossein Ahmadnia, Cecilia Bolognesi, Dominik L. Michels(参考訳) アーキテクチャ分野におけるディープラーニングアルゴリズムと計算設計への関心が高まり、大規模でアクセスしやすい多様なアーキテクチャデータセットの必要性が高まっている。 そこで我々は,フィールド固有の合成データ生成パイプラインを構築し,任意の量の3Dデータと関連する2Dおよび3Dアノテーションを生成する。 アノテーションの種類、生成したビルディングパラメータとデータセットパラメータをカスタマイズする柔軟性により、このフレームワークは、直接3d監視を必要とする幾何学的ディープラーニングを含む、複数のディープラーニングタスクに適している。 データ生成パイプラインを構築するために、専門家のアーキテクチャ知識を活用して、モジュール化され、拡張可能で、十分な量のクラスバランスのデータサンプルを提供するフレームワークを構築しました。 さらに,3次元モデルサンプルあたりのビュー数だけでなく,ビルディングコンポーネント,マテリアルテクスチャ,ビルディングクラス,数,アノテーションの種類などの追加機能を導入できるように,データセットのカスタマイズを意図的に実施する。 このようにして、このフレームワークは異なる研究要件を満たすことができ、様々なタスクに適応できるだろう。 すべてのコードとデータは公開されています。

With the growing interest in deep learning algorithms and computational design in the architectural field, the need for large, accessible and diverse architectural datasets increases. We decided to tackle this problem by constructing a field-specific synthetic data generation pipeline that generates an arbitrary amount of 3D data along with the associated 2D and 3D annotations. The variety of annotations, the flexibility to customize the generated building and dataset parameters make this framework suitable for multiple deep learning tasks, including geometric deep learning that requires direct 3D supervision. Creating our building data generation pipeline we leveraged architectural knowledge from experts in order to construct a framework that would be modular, extendable and would provide a sufficient amount of class-balanced data samples. Moreover, we purposefully involve the researcher in the dataset customization allowing the introduction of additional building components, material textures, building classes, number and type of annotations as well as the number of views per 3D model sample. In this way, the framework would satisfy different research requirements and would be adaptable to a large variety of tasks. All code and data are made publicly available.
翻訳日:2021-04-27 20:44:19 公開日:2021-04-26
# (参考訳) 線形方程式の非二乗密系に対するアルゴリズム解と特徴選択への応用

Algorithmic Solution for Non-Square, Dense Systems of Linear Equations, with applications in Feature Selection ( http://arxiv.org/abs/2104.12570v1 )

ライセンス: CC BY 4.0
Nikolaos P. Bakas(参考訳) 本稿では,線形方程式系の解法として,超高速に解く新しいアルゴリズムを提案する。 このアルゴリズムは基本的な定式化と定義ではベクトル化が短いが、各イテレーションで与えられた入力行列 $\mathbf x$ の1次元しか利用できないため、メモリ割り当ては自明である。 実行時間は最先端の手法と比較して非常に短く、最大$\mathcal{o}(10^3)$ のスピードアップと低メモリ割り当ての要求、特に線形方程式の非二乗系では、方程式と高次(全系)あるいは低(全体系)の比で表される。 精度は高く、直接的に制御され、計算時間、解の精度、メモリ割り当て要求の観点から、提案アルゴリズムの効率を数値的に強調する。 アルゴリズムの並列化はまた、マルチスレッドおよびGPUアクセラレータの設定で示される。 この論文はアルゴリズム収束の理論的証明も含んでいる。 最後に,提案するアルゴリズム的論理式の実装を特徴選択タスクに拡張する。

We present a novel algorithm attaining excessively fast, the sought solution of linear systems of equations. The algorithm is short in its basic formulation and by definition vectorised, while the memory allocation demands trivial, because for each iteration only one dimension of the given input matrix $\mathbf x$ is utilized. The execution time is very short compared with state-of-the-art methods, exhibiting up to $\mathcal{O}(10^3)$ speed-up and low memory allocation demands, especially for non-square Systems of Linear Equations, with ratio of equations versus features high (tall systems), or low (wide systems) accordingly. The accuracy is high and straightforwardly controlled, and the numerical results highlight the efficiency of the proposed algorithm, in terms of computation time, solution accuracy and memory allocations demands. The parallelisation of the algorithm is also presented in multi-threaded and GPU accelerators' setting. The paper also comprises a theoretical proof for the algorithmic convergence. Finally, we extend the implementation of the proposed algorithmic rationale to feature selection tasks.
翻訳日:2021-04-27 20:32:47 公開日:2021-04-26
# (参考訳) feddpgan:federated differentially private generative adversarial networks framework for the detection of covid-19 pneumonia

FedDPGAN: Federated Differentially Private Generative Adversarial Networks Framework for the Detection of COVID-19 Pneumonia ( http://arxiv.org/abs/2104.12581v1 )

ライセンス: CC BY 4.0
Longling Zhang, Bochen Shen, Ahmed Barnawi, Shan Xi, Neeraj Kumar, Yi Wu(参考訳) 既存のディープラーニング技術は一般的に、ジェネレーティブ・アドバイサル・ネットワーク(GAN)によって生成された胸部X線データの特徴を学習し、新型コロナウイルスの肺炎を診断する。 しかし、上記の手法には、データプライバシという重要な課題がある。 ganは、攻撃者がトレーニングサンプルを再構築するために使用できるトレーニングデータのセマンティクス情報をリークするので、この方法は患者のプライバシーを漏らすことになる。 さらに、トレーニングデータサンプルの制限であるこの理由から、異なる病院がデータ共有を通じてモデルを共同でトレーニングすることで、プライバシの漏洩も引き起こす。 この問題を解決するために,我々は,データプライバシを保護するために使用される新しい手法であるフェデレーション学習(fl)フレームワークを採用する。 flの枠組みと異なる個人的思考の下で,持続的スマートシティーのためのcovid-19肺炎検出のためのfederateddifferentially private generative adversarial network (feddpgan)を提案する。 具体的には、DP-GANを用いて、差分プライバシ技術を導入した多様な患者データをプライベートに生成し、トレーニングデータセットのセマンティック情報のプライバシー保護を確実にする。 さらに、FLを活用して、病院がオリジナルのデータを共有することなく、共同で新型コロナウイルスモデルを訓練できるようにする。 Independent and Identically Distributed (IID) and non-IID settings, the proposed model are on three type of chest X-ray (CXR) image dataset (COVID-19, normal, and normal pneumonia)。 多くの真理ある報告は、私たちのモデルの検証によって、プライバシを損なうことなく、covid-19を効果的に診断することができるとしています。

Existing deep learning technologies generally learn the features of chest X-ray data generated by Generative Adversarial Networks (GAN) to diagnose COVID-19 pneumonia. However, the above methods have a critical challenge: data privacy. GAN will leak the semantic information of the training data which can be used to reconstruct the training samples by attackers, thereby this method will leak the privacy of the patient. Furthermore, for this reason that is the limitation of the training data sample, different hospitals jointly train the model through data sharing, which will also cause the privacy leakage. To solve this problem, we adopt the Federated Learning (FL) frame-work which is a new technique being used to protect the data privacy. Under the FL framework and Differentially Private thinking, we propose a FederatedDifferentially Private Generative Adversarial Network (FedDPGAN) to detectCOVID-19 pneumonia for sustainable smart cities. Specifically, we use DP-GAN to privately generate diverse patient data in which differential privacy technology is introduced to make sure the privacy protection of the semantic information of training dataset. Furthermore, we leverage FL to allow hospitals to collaboratively train COVID-19 models without sharing the original data. Under Independent and Identically Distributed (IID) and non-IID settings, The evaluation of the proposed model is on three types of chest X-ray (CXR) images dataset (COVID-19, normal, and normal pneumonia). A large number of the truthful reports make the verification of our model can effectively diagnose COVID-19 without compromising privacy.
翻訳日:2021-04-27 20:23:40 公開日:2021-04-26
# (参考訳) 視覚に基づく運転支援システム:調査・分類・進歩

Vision-based Driver Assistance Systems: Survey, Taxonomy and Advances ( http://arxiv.org/abs/2104.12583v1 )

ライセンス: CC BY 4.0
Jonathan Horgan, Ciar\'an Hughes, John McDonald, Senthil Yogamani(参考訳) 視覚ベースの運転支援システムは、自動車の安全性要求の高まり、組み込みシステムの計算能力、そして自動運転に近づいたいという願望など様々な要因により、急速に成長している研究分野の1つである。 コンピュータビジョン、機械学習、ロボットナビゲーション、組み込みシステム、自動車エレクトロニクス、安全クリティカルソフトウェアといった専門分野を含む横断的な分野である。 本稿では,一貫した用語を用いた視覚に基づく先進運転支援システムのリストを調査し,分類法を提案する。 また,自律運転システムに向けて,アプリケーション開発のトップダウンビューを形式化するための抽象モデルを提案する。

Vision-based driver assistance systems is one of the rapidly growing research areas of ITS, due to various factors such as the increased level of safety requirements in automotive, computational power in embedded systems, and desire to get closer to autonomous driving. It is a cross disciplinary area encompassing specialised fields like computer vision, machine learning, robotic navigation, embedded systems, automotive electronics and safety critical software. In this paper, we survey the list of vision based advanced driver assistance systems with a consistent terminology and propose a taxonomy. We also propose an abstract model in an attempt to formalize a top-down view of application development to scale towards autonomous driving system.
翻訳日:2021-04-27 20:05:24 公開日:2021-04-26
# (参考訳) 変分不等式による分散学習における一般化ADMM

Generalized ADMM in Distributed Learning via Variational Inequality ( http://arxiv.org/abs/2104.12608v1 )

ライセンス: CC BY 4.0
Saeedeh Parsaeefard and Alberto Leon Garcia(参考訳) 現代のデータセットのサイズと複雑さの急増とデータ保持者のプライバシー上の懸念により、機械学習の問題を分散的に解決できることがますます重要になっている。 コンセンサス変数の概念による乗算器の交互方向法(ADMM)は,異なる応用領域において,その多様さと性能が研究されているこの文脈において,実用的なアルゴリズムである。 本稿では,ADMMの分散学習におけるユーザのローカルデータセットの効果について検討する。 我々の目標は、ADMM変動の統一的なビューを達成するために変動不等式(VI)をデプロイすることである。 シミュレーションの結果から,より一般的なコンセンサスパラメータの定義や,分散手法における不確実なパラメータの導入が,学習過程におけるより良い結果を得る上で有効であることを示す。

Due to the explosion in size and complexity of modern data sets and privacy concerns of data holders, it is increasingly important to be able to solve machine learning problems in distributed manners. The Alternating Direction Method of Multipliers (ADMM) through the concept of consensus variables is a practical algorithm in this context where its diverse variations and its performance have been studied in different application areas. In this paper, we study the effect of the local data sets of users in the distributed learning of ADMM. Our aim is to deploy variational inequality (VI) to attain an unified view of ADMM variations. Through the simulation results, we demonstrate how more general definitions of consensus parameters and introducing the uncertain parameters in distribute approach can help to get the better results in learning processes.
翻訳日:2021-04-27 19:52:08 公開日:2021-04-26
# (参考訳) ストリートビューとディープラーニングに基づくグリーンビューインデックス解析と最適なグリーンビューインデックスパス

Green View Index Analysis and Optimal Green View Index Path Based on Street View and Deep Learning ( http://arxiv.org/abs/2104.12627v1 )

ライセンス: CC BY 4.0
Anqi Hu, Jiahao Zhang and Hiroyuki Kaga(参考訳) 街並みは都市景観の重要な部分であり、それらの分析と研究は都市のインフラの理解を高め、都市生活環境のより良い計画と設計に繋がる可能性がある。 本稿では,大阪市のストリートビュー画像を取得するために,Google APIを用いた。 セマンティックセグメンテーションモデルPSPNetは、大阪市のストリートビュー画像を分割し、大阪地域のグリーンビューインデックス(GVI)データを解析するために使用される。 GVIデータに基づいて, 大阪市内の最適GVI経路を計算するために, 廊下解析, 幾何学的ネットワーク, 組み合わせの3つの手法を用いた。 廊下解析と幾何学的ネットワーク手法により、一般的な領域から特定の経路への最適GVI経路のより詳細な記述が可能になる。 本解析により,最適なgvi経路の特定経路の計算が可能となるだけでなく,近隣景観データの可視化と統合が可能となった。 すべてのデータを要約することにより、研究領域の景観をより具体的に客観的に分析することができ、これに基づいて、利用可能な天然資源をより良い生活のために最大化することができる。

Streetscapes are an important part of the urban landscape, analysing and studying them can increase the understanding of the cities' infrastructure, which can lead to better planning and design of the urban living environment. In this paper, we used Google API to obtain street view images of Osaka City. The semantic segmentation model PSPNet is used to segment the Osaka City street view images and analyse the Green View Index (GVI) data of Osaka area. Based on the GVI data, three methods, namely corridor analysis, geometric network and a combination of them, were then used to calculate the optimal GVI paths in Osaka City. The corridor analysis and geometric network methods allow for a more detailed delineation of the optimal GVI path from general areas to specific routes. Our analysis not only allows for the calculation of specific routes for the optimal GVI paths, but also allows for the visualisation and integration of neighbourhood landscape data. By summarising all the data, a more specific and objective analysis of the landscape in the study area can be carried out and based on this, the available natural resources can be maximised for a better life.
翻訳日:2021-04-27 19:33:23 公開日:2021-04-26
# (参考訳) MOOCフォーラムにおける緊急インストラクタ介入のためのベイズ的深層学習

Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need in MOOC Forums ( http://arxiv.org/abs/2104.12643v1 )

ライセンス: CC BY 4.0
Jialin Yu, Laila Alrajhi, Anoushka Harit, Zhongtian Sun, Alexandra I. Cristea, Lei Shi(参考訳) 大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。 しかし、多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。 学習者は各MOOCフォーラムに混乱感と苦悩感を投稿することができるが,MOOCインストラクターにとって大量の投稿と高い負荷が伴うため,指導者が介入を必要とするすべての学習者を特定できる可能性は低い。 この問題は、最近自然言語処理(NLP)問題として研究されており、データの不均衡とタスクの複雑な性質のため、難しいことが知られている。 本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者の投稿に対するインストラクター介入の必要性を評価するための新しい解法として,学習者に基づくテキスト投稿のベイズ的深層学習を初めて検討する。 提案手法に基づくモデルと確率モデルとを類似した条件下でベースライン非ベイズモデルと比較し,予測を適用した。 その結果,ベイジアンディープラーニングは,従来のニューラルネットワークでは得られない重要な不確実性尺度であることがわかった。 これはaiに説明可能性、信頼性、堅牢性を追加し、教育ベースのアプリケーションでは不可欠である。 さらに、非確率的ニューラルネットワークと同等あるいは優れたパフォーマンスを達成し、分散を低減できる。

Massive Open Online Courses (MOOCs) have become a popular choice for e-learning thanks to their great flexibility. However, due to large numbers of learners and their diverse backgrounds, it is taxing to offer real-time support. Learners may post their feelings of confusion and struggle in the respective MOOC forums, but with the large volume of posts and high workloads for MOOC instructors, it is unlikely that the instructors can identify all learners requiring intervention. This problem has been studied as a Natural Language Processing (NLP) problem recently, and is known to be challenging, due to the imbalance of the data and the complex nature of the task. In this paper, we explore for the first time Bayesian deep learning on learner-based text posts with two methods: Monte Carlo Dropout and Variational Inference, as a new solution to assessing the need of instructor interventions for a learner's post. We compare models based on our proposed methods with probabilistic modelling to its baseline non-Bayesian models under similar circumstances, for different cases of applying prediction. The results suggest that Bayesian deep learning offers a critical uncertainty measure that is not supplied by traditional neural networks. This adds more explainability, trust and robustness to AI, which is crucial in education-based applications. Additionally, it can achieve similar or better performance compared to non-probabilistic neural networks, as well as grant lower variance.
翻訳日:2021-04-27 19:24:29 公開日:2021-04-26
# (参考訳) ディープラーニングによる回帰アルゴリズムと関係性の調査

A Survey Of Regression Algorithms And Connections With Deep Learning ( http://arxiv.org/abs/2104.12647v1 )

ライセンス: CC BY 4.0
Yunpeng Tai(参考訳) 回帰は近年、値の予測のようなタスクの有効性のために、大きな関心を集めている。 また、レグレッションは、経済、金融、ビジネス、生物学など、複数の分野で広く利用されている。 かなりの研究によっていくつかの印象的なモデルが提案されているが、回帰がどのようにして発展してきたかについての全体像を提供するものはほとんどない。 本稿では,様々な回帰アルゴリズム間の関係を理解するために初心者を支援することを目的として,最近の回帰アルゴリズムの広範囲かつ思慮深い選択を特徴付ける。 本稿では,回帰モデルと深層学習との関係についても検討し,今後の回帰モデルと組み合わせることで,深層学習がより強力になることを示す。

Regression has attracted immense interest lately due to its effectiveness in tasks like predicting values. And Regression is of widespread use in multiple fields such as Economics, Finance, Business, Biology and so on. While considerable studies have proposed some impressive models, few of them have provided a whole picture regarding how and to what extent Regression has developed. With the aim of aiding beginners in understanding the relationships among different Regression algorithms, this paper characterizes a broad and thoughtful selection of recent regression algorithms, providing an organized and comprehensive overview of existing work and models utilized frequently. In this paper, the relationship between Regression and Deep Learning is also discussed and a conclusion can be drawn that Deep Learning can be more powerful as an combination with Regression models in the future.
翻訳日:2021-04-27 19:13:54 公開日:2021-04-26
# (参考訳) tsrobprep -- 時系列データの堅牢な前処理のためのRパッケージ

tsrobprep -- an R package for robust preprocessing of time series data ( http://arxiv.org/abs/2104.12657v1 )

ライセンス: CC BY-SA 4.0
Micha{\l} Narajewski, Jens Kley-Holsteg, Florian Ziel(参考訳) データクリーニングは、すべてのデータ分析活動において重要な部分です。 しかし、現在利用可能なRパッケージは、時系列データのクリーニングと作成のための高速で堅牢な方法を提供していない。 オープンソースのパッケージtsrobprepは、モデルベースのアプローチを使用して、欠落した値と外れ値を扱う効率的な方法を導入している。 データインプットには、自己回帰コンポーネントと外部入力からなる確率的置換モデルが提案されている。 外乱検出には、有限混合モデリングに基づくクラスタリングアルゴリズムを導入し、典型的な時系列関連特性を特徴とする。 各観測者にアウトリー化データポイントとなる確率を割り当てることにより、アウトリー化度を決定することができる。 メソッドは堅牢で、完全にチューニング可能である。 さらに、auto_data_cleaning関数を提供することで、手動チューニングなしで1つのキャストでデータ前処理を実行でき、適切な結果が得られる。 このパッケージの主な動機はエネルギーシステムデータの前処理であるが、このパッケージは他の中程度、大規模の時系列データセットにも適している。 電力負荷・風力・太陽エネルギーデータへの適用について述べる。

Data cleaning is a crucial part of every data analysis exercise. Yet, the currently available R packages do not provide fast and robust methods for cleaning and preparation of time series data. The open source package tsrobprep introduces efficient methods for handling missing values and outliers using model based approaches. For data imputation a probabilistic replacement model is proposed, which may consist of autoregressive components and external inputs. For outlier detection a clustering algorithm based on finite mixture modelling is introduced, which considers typical time series related properties as features. By assigning to each observation a probability of being an outlying data point, the degree of outlyingness can be determined. The methods work robust and are fully tunable. Moreover, by providing the auto_data_cleaning function the data preprocessing can be carried out in one cast, without manual tuning and providing suitable results. The primary motivation of the package is the preprocessing of energy system data, however, the package is also suited for other moderate and large sized time series data set. We present application for electricity load, wind and solar power data.
翻訳日:2021-04-27 18:57:01 公開日:2021-04-26
# (参考訳) 畳み込みニューラルネットワークの暗黙的構造を持つ低複素mimoチャネル推定器

A Low-Complexity MIMO Channel Estimator with Implicit Structure of a Convolutional Neural Network ( http://arxiv.org/abs/2104.12667v1 )

ライセンス: CC BY 4.0
B. Fesl, N. Turan, M. Koller, and W. Utschick(参考訳) 単一アンテナユーザのための最小平均二乗誤差チャネル推定器を学習する低複素畳み込みニューラルネットワーク推定器が最近提案されている。 アーキテクチャをマルチアンテナユーザによるMIMOチャネルの推定に一般化し、チャネルモデルに基づく複雑性低減仮定を組み込む。 この文脈で学習は、仮定と仮定が持たない実際のシナリオの間のミスマッチに対処するために使用される。 パイロットシーケンスの任意の選択に対する推定器の高レベルな記述を導出する。 提案した推定器は、2層畳み込みニューラルネットワークの暗黙構造を持ち、そこから得られる量は学習可能なパラメータに緩和することができる。 離散フーリエ変換に基づくパイロットを用いて, 学習可能なネットワークパラメータの数が大幅に減少し, 推定器のオンライン実行時間が大幅に短縮され, アンテナ数における複雑さの線形次数を実現できることを示す。 数値計算の結果は、圧縮センシングや共分散推定の分野から得られた最先端のアルゴリズムと比較して、同じまたはそれ以上の計算複雑性の性能向上を示す。 シミュレーションコードはオンラインで入手できる。

A low-complexity convolutional neural network estimator which learns the minimum mean squared error channel estimator for single-antenna users was recently proposed. We generalize the architecture to the estimation of MIMO channels with multiple-antenna users and incorporate complexity-reducing assumptions based on the channel model. Learning is used in this context to combat the mismatch between the assumptions and real scenarios where the assumptions may not hold. We derive a high-level description of the estimator for arbitrary choices of the pilot sequence. It turns out that the proposed estimator has the implicit structure of a two-layered convolutional neural network, where the derived quantities can be relaxed to learnable parameters. We show that by using discrete Fourier transform based pilots the number of learnable network parameters decreases significantly and the online run time of the estimator is reduced considerably, where we can achieve linearithmic order of complexity in the number of antennas. Numerical results demonstrate performance gains compared to state-of-the-art algorithms from the field of compressive sensing or covariance estimation of the same or even higher computational complexity. The simulation code is available online.
翻訳日:2021-04-27 18:48:09 公開日:2021-04-26
# (参考訳) 単語感覚の曖昧さ解消のためのノンパラメトリック・マイノショット学習

Non-Parametric Few-Shot Learning for Word Sense Disambiguation ( http://arxiv.org/abs/2104.12677v1 )

ライセンス: CC BY 4.0
Howard Chen, Mengzhou Xia, and Danqi Chen(参考訳) word sense disambiguation (wsd) は自然言語処理における長年の問題である。 教師あり全語wsdにおける1つの重要な課題は、ロングテール分布にある単語の大多数の感覚を分類することである。 例えば、アノテーション付き単語の84%は、semcorトレーニングデータに10未満の例を持っている。 この問題は、単語分布と感覚分布の両方で不均衡が発生するため、より顕著である。 本研究では,このデータ不均衡を解消するために,非パラメトリックな少数ショット学習手法であるmetricwsdを提案する。 エピソード訓練により、ある単語の感覚間の距離を計算することで、MetricWSDは、高頻度の単語から頻繁な単語への知識(学習距離空間)を伝達する。 MetricWSDは、単語周波数に合わせたトレーニングエピソードを構築し、従来の作業でパラメトリックモデルで訓練されたすべての単語を混合するのではなく、歪んだ分布の問題に明示的に対処する。 語彙資源に頼らずに、MetricWSDはパラメトリックな代替品に対して強力な性能を獲得し、統一されたWSD評価ベンチマーク(Raganato et al., 2017b)で75.1 F1スコアを達成した。 我々の分析は、頻繁な単語や感覚が著しく改善されることを示す。

Word sense disambiguation (WSD) is a long-standing problem in natural language processing. One significant challenge in supervised all-words WSD is to classify among senses for a majority of words that lie in the long-tail distribution. For instance, 84% of the annotated words have less than 10 examples in the SemCor training data. This issue is more pronounced as the imbalance occurs in both word and sense distributions. In this work, we propose MetricWSD, a non-parametric few-shot learning approach to mitigate this data imbalance issue. By learning to compute distances among the senses of a given word through episodic training, MetricWSD transfers knowledge (a learned metric space) from high-frequency words to infrequent ones. MetricWSD constructs the training episodes tailored to word frequencies and explicitly addresses the problem of the skewed distribution, as opposed to mixing all the words trained with parametric models in previous work. Without resorting to any lexical resources, MetricWSD obtains strong performance against parametric alternatives, achieving a 75.1 F1 score on the unified WSD evaluation benchmark (Raganato et al., 2017b). Our analysis further validates that infrequent words and senses enjoy significant improvement.
翻訳日:2021-04-27 18:39:19 公開日:2021-04-26
# (参考訳) 大規模画像分類データセットの効率的な注釈付けの実践に向けて

Towards Good Practices for Efficiently Annotating Large-Scale Image Classification Datasets ( http://arxiv.org/abs/2104.12690v1 )

ライセンス: CC BY 4.0
Yuan-Hong Liao, Amlan Kar, Sanja Fidler(参考訳) データとは、大規模なデータセットの収集を必要とする、現代のコンピュータビジョンのエンジンである。 これは高価であり、ラベルの品質を保証することが大きな課題である。 本稿では,画像集合のための多クラス分類ラベルを収集するための効率的なアノテーション戦略について検討する。 ラベル付けのために学習モデルを利用する手法は存在するが、驚くほど一般的なアプローチは、人間に1ダータあたりのラベルの固定数を問い合わせ、それらを集約することである。 人間のアノテーションとマシン生成信念のオンライン共同確率的モデリングを先行研究として,人間のラベル付け労力を最小化するための修正とベストプラクティスを提案する。 具体的には,自己教師付き学習の進歩,アノテーションを半教師付き学習問題として見ること,落とし穴を特定し軽減すること,いくつかの重要な設計選択を省略してラベル付けの効果的なガイドラインを提案する。 既存の作業者シミュレーション手法を用いて評価を行った結果,人間のラベルを問合せするより現実的なシミュレーションを行った。 ImageNet100の125k画像サブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度にアノテートでき、以前の作業と手動のアノテーションよりも2.7倍と6.7倍改善されている。 プロジェクトページ: https://fidler-lab.github.io/efficient-annotation-cookbook

Data is the engine of modern computer vision, which necessitates collecting large-scale datasets. This is expensive, and guaranteeing the quality of the labels is a major challenge. In this paper, we investigate efficient annotation strategies for collecting multi-class classification labels for a large collection of images. While methods that exploit learnt models for labeling exist, a surprisingly prevalent approach is to query humans for a fixed number of labels per datum and aggregate them, which is expensive. Building on prior work on online joint probabilistic modeling of human annotations and machine-generated beliefs, we propose modifications and best practices aimed at minimizing human labeling effort. Specifically, we make use of advances in self-supervised learning, view annotation as a semi-supervised learning problem, identify and mitigate pitfalls and ablate several key design choices to propose effective guidelines for labeling. Our analysis is done in a more realistic simulation that involves querying human labelers, which uncovers issues with evaluation using existing worker simulation methods. Simulated experiments on a 125k image subset of the ImageNet100 show that it can be annotated to 80% top-1 accuracy with 0.35 annotations per image on average, a 2.7x and 6.7x improvement over prior work and manual annotation, respectively. Project page: https://fidler-lab.github.io/efficient-annotation-cookbook
翻訳日:2021-04-27 18:29:08 公開日:2021-04-26
# (参考訳) モザンビークにおける持続的国勢調査自立人口推定に向けて

Towards Sustainable Census Independent Population Estimation in Mozambique ( http://arxiv.org/abs/2104.12696v1 )

ライセンス: CC BY 4.0
Isaac Neal, Sohan Seth, Gary Watmough, Mamadou Saliou Diallo(参考訳) 予防接種とインフラ提供計画に関する政策を立案する上で、信頼度が高く頻繁な人口推定が鍵となる。 これらの課題に必要となる時空間分解能が欠如しているため、リモートセンシングとマイクロセンサスデータを用いた国勢調査に依存しないアプローチが普及している。 モザンビークの2つのパイロット地区におけるインターセンサル人口を推定する。 持続可能性を高めるために,公開データセットを用いて人口を推定する可能性を評価する。 また、既存のアノテーション付きデータセットによる転送学習によるビルのフットプリント予測と、これらの推定を強化するために興味のある領域から追加のdotアノテーションによるトレーニングについても検討した。 このアプローチで推定された足跡面積を使用すると、一般の機能のみに対して人口予測が改善するのを観察した。

Reliable and frequent population estimation is key for making policies around vaccination and planning infrastructure delivery. Since censuses lack the spatio-temporal resolution required for these tasks, census-independent approaches, using remote sensing and microcensus data, have become popular. We estimate intercensal population count in two pilot districts in Mozambique. To encourage sustainability, we assess the feasibility of using publicly available datasets to estimate population. We also explore transfer learning with existing annotated datasets for predicting building footprints, and training with additional `dot' annotations from regions of interest to enhance these estimations. We observe that population predictions improve when using footprint area estimated with this approach versus only publicly available features.
翻訳日:2021-04-27 18:04:35 公開日:2021-04-26
# (参考訳) 2.5次元視覚関係検出

2.5D Visual Relationship Detection ( http://arxiv.org/abs/2104.12727v1 )

ライセンス: CC BY 4.0
Yu-Chuan Su, Soravit Changpinyo, Xiangning Chen, Sathish Thoppay, Cho-Jui Hsieh, Lior Shapira, Radu Soricut, Hartwig Adam, Matthew Brown, Ming-Hsuan Yang, Boqing Gong(参考訳) 視覚的2.5D知覚は、環境におけるビューアーに対するオブジェクトの関係について推論することで、シーンの意味と幾何学を理解することを含む。 しかし、視覚認識における既存の研究は主に意味論に焦点を当てている。 このギャップを埋めるために、2.5次元視覚的関係検出(2.5VRD)について検討し、対象を共同で検出し、相対的な深さと閉塞関係を予測する。 一般的なVRDとは異なり、2.5VRDは自我中心であり、カメラの視点をすべての2.5D関係の共通参照として利用する。 深さ推定とは異なり、2.5VRDは対象中心であり、深さのみに焦点を当てるものではない。 1K画像から512Kオブジェクト間の220kの人間アノテーションによる2.5D関係からなる新しいデータセットを作成する。 このデータセットを分析し、このタスク上で複数の最先端VRDモデルのベンチマークを含む広範な実験を行う。 以上の結果から,既存のモデルは2.5VRDを解くための意味的手がかりと単純なヒューリスティックに大きく依存していることが示唆された。 新しいデータセットはhttps://github.com/google-research-datasets/2.5vrdで入手できる。

Visual 2.5D perception involves understanding the semantics and geometry of a scene through reasoning about object relationships with respect to the viewer in an environment. However, existing works in visual recognition primarily focus on the semantics. To bridge this gap, we study 2.5D visual relationship detection (2.5VRD), in which the goal is to jointly detect objects and predict their relative depth and occlusion relationships. Unlike general VRD, 2.5VRD is egocentric, using the camera's viewpoint as a common reference for all 2.5D relationships. Unlike depth estimation, 2.5VRD is object-centric and not only focuses on depth. To enable progress on this task, we create a new dataset consisting of 220k human-annotated 2.5D relationships among 512K objects from 11K images. We analyze this dataset and conduct extensive experiments including benchmarking multiple state-of-the-art VRD models on this task. Our results show that existing models largely rely on semantic cues and simple heuristics to solve 2.5VRD, motivating further research on models for 2.5D perception. The new dataset is available at https://github.com/google-research-datasets/2.5vrd.
翻訳日:2021-04-27 17:56:57 公開日:2021-04-26
# (参考訳) 不変多項式と機械学習

Invariant polynomials and machine learning ( http://arxiv.org/abs/2104.12733v1 )

ライセンス: CC BY 4.0
Ward Haddadin(参考訳) 機械学習における不変多項式の適用について述べる。 先行研究で開発された手法を用いて, 粒子モーメントにおけるローレンツ多項式と置換不変多項式の2種類の生成器, 最小代数生成器と広中分解を求める。 我々は、これらの不変なジェネレータを一般の機械学習アルゴリズム、特にニューラルネットワークで利用するための近似定理を議論し、証明する。 回帰タスクに適用したニューラルネットワークにこれらのジェネレータを実装することにより、幅広いパラメータ選択による性能向上を検証し、トレーニングデータにおける損失の低減と、検証データにおける損失の大幅な削減を見出した。 これらのニューラルネットワークの性能を定量化するための別のアプローチとして,ベイズ推定の観点からこの問題を扱い,ネストサンプリング手法を用いてモデル比較を行う。 ネットワークサイズ以外にも,広中分解を利用したネットワークが最適であることがわかった。

We present an application of invariant polynomials in machine learning. Using the methods developed in previous work, we obtain two types of generators of the Lorentz- and permutation-invariant polynomials in particle momenta; minimal algebra generators and Hironaka decompositions. We discuss and prove some approximation theorems to make use of these invariant generators in machine learning algorithms in general and in neural networks specifically. By implementing these generators in neural networks applied to regression tasks, we test the improvements in performance under a wide range of hyperparameter choices and find a reduction of the loss on training data and a significant reduction of the loss on validation data. For a different approach on quantifying the performance of these neural networks, we treat the problem from a Bayesian inference perspective and employ nested sampling techniques to perform model comparison. Beyond a certain network size, we find that networks utilising Hironaka decompositions perform the best.
翻訳日:2021-04-27 17:37:23 公開日:2021-04-26
# (参考訳) GermanQuAD と GermanDPR:非英語質問応答の改善とパス検索

GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval ( http://arxiv.org/abs/2104.12741v1 )

ライセンス: CC BY 4.0
Timo M\"oller and Julian Risch and Malte Pietsch(参考訳) 質問応答のための非英語機械読解の研究における大きな課題は、注釈付きデータセットの欠如である。 本稿では,13,722組の抽出質問/回答ペアのデータセットである GermanQuAD を提案する。 データセット作成手法の再現性の向上と他言語でのQA研究の促進を目的として,アノテーションプロセスの高速化を目的とした質問/回答ペアの改訂について,学習と評価を行った。 GermanQuADでトレーニングされた抽出QAモデルは、多言語モデルよりも大幅に優れており、機械翻訳されたトレーニングデータは、対象言語で手書きのトレーニングデータを完全に置き換えることができないことを示す。 最後に,dpr (dung passage retrieval) のためのトレーニングデータセットである germandpr に適用し,最初の非英語dprモデルを訓練し,評価することで, germanquad の幅広い応用を実証する。

A major challenge of research on non-English machine reading for question answering (QA) is the lack of annotated datasets. In this paper, we present GermanQuAD, a dataset of 13,722 extractive question/answer pairs. To improve the reproducibility of the dataset creation approach and foster QA research on other languages, we summarize lessons learned and evaluate reformulation of question/answer pairs as a way to speed up the annotation process. An extractive QA model trained on GermanQuAD significantly outperforms multilingual models and also shows that machine-translated training data cannot fully substitute hand-annotated training data in the target language. Finally, we demonstrate the wide range of applications of GermanQuAD by adapting it to GermanDPR, a training dataset for dense passage retrieval (DPR), and train and evaluate the first non-English DPR model.
翻訳日:2021-04-27 17:13:19 公開日:2021-04-26
# (参考訳) ダイアグラムを用いた効率的な進化モデル

Efficient Evolutionary Models with Digraphons ( http://arxiv.org/abs/2104.12748v1 )

ライセンス: CC BY 4.0
Abhinav Tamaskar, Bud Mishra(参考訳) 進化過程をモデル化するためのグラノン理論の活用に寄与する主な貢献を2つ提示する。 複製による進化を伴う生物学的ネットワークを代表した,有限基底部分グラフを用いたダイグラフ生成モデルを示す。 ダイリクレ中華料理プロセス表現を用いたベイズ非パラメトリックモデルにおいて,gibbsサンプリングアルゴリズムを用いて事前推定を行い,簡易な地図推定を行う。 次に,有限基底分割に基づくシミュレーションを行うための効率的な実装を示す。 この実装は、二元根分解表現を持つ動的セグメント木を用いたディグラフの効率的な2次元表現の助けを借りて、高速進化シミュレーションの開発に使用される。 さらに、この表現がグラフノードの変更を扱うのに十分な柔軟性を示すとともに、更新の効率的な時間的複雑さを$O(\sqrt{|V|}\log{|V|})$で達成するために、償却された更新表現の助けを借りて動的ディクソンをモデル化することもできる。

We present two main contributions which help us in leveraging the theory of graphons for modeling evolutionary processes. We show a generative model for digraphons using a finite basis of subgraphs, which is representative of biological networks with evolution by duplication. We show a simple MAP estimate on the Bayesian non parametric model using the Dirichlet Chinese restaurant process representation, with the help of a Gibbs sampling algorithm to infer the prior. Next we show an efficient implementation to do simulations on finite basis segmentations of digraphons. This implementation is used for developing fast evolutionary simulations with the help of an efficient 2-D representation of the digraphon using dynamic segment-trees with the square-root decomposition representation. We further show how this representation is flexible enough to handle changing graph nodes and can be used to also model dynamic digraphons with the help of an amortized update representation to achieve an efficient time complexity of the update at $O(\sqrt{|V|}\log{|V|})$.
翻訳日:2021-04-27 16:59:54 公開日:2021-04-26
# (参考訳) モデル解釈のための文脈別因果特徴選択

Instance-wise Causal Feature Selection for Model Interpretation ( http://arxiv.org/abs/2104.12759v1 )

ライセンス: CC BY 4.0
Pranoy Panda, Sai Srinivas Kancheti, Vineeth N Balasubramanian(参考訳) ブラックボックスの視覚分類器を説明するために、最近導入された例機能選択のパラダイムへの因果拡張を定式化する。 提案手法は,モデル出力に最も大きな因果効果を持つ入力特徴のサブセットを選択する。 特徴のサブセットの因果影響を相対エントロピー距離測度によって定量化する。 ある仮定では、これは選択されたサブセットと出力変数の間の条件付き相互情報と等価である。 結果として得られる因果選択はスパーザーであり、シーン内の突出したオブジェクトをカバーします。 モデル出力に選択した特徴の時間後精度と平均因果効果を測定し,複数の視覚データセットに対するアプローチの有効性を示す。

We formulate a causal extension to the recently introduced paradigm of instance-wise feature selection to explain black-box visual classifiers. Our method selects a subset of input features that has the greatest causal effect on the models output. We quantify the causal influence of a subset of features by the Relative Entropy Distance measure. Under certain assumptions this is equivalent to the conditional mutual information between the selected subset and the output variable. The resulting causal selections are sparser and cover salient objects in the scene. We show the efficacy of our approach on multiple vision datasets by measuring the post-hoc accuracy and Average Causal Effect of selected features on the models output.
翻訳日:2021-04-27 16:47:04 公開日:2021-04-26
# (参考訳) データサービスの収益化プラットフォームとしてのクラウドコンピューティング: 双方向ゲームビジネスモデル

Cloud computing as a platform for monetizing data services: A two-sided game business model ( http://arxiv.org/abs/2104.12762v1 )

ライセンス: CC BY 4.0
Ahmed Saleh Bataineh, Jamal Bentahar, Rabeb Mizouni, Omar Abdel Wahab, Gaith Rjoub, May El Barachi(参考訳) 今日のビッグデータを保存するバックボーンとしてクラウドコンピューティングに前例のない依存があるので、この論文では、クラウドの役割は受動的仮想市場から、人工知能(AI)サービスを通じてビッグデータを収益化するためのアクティブなプラットフォームへと再形成されるべきである、と論じます。 目標は、ビッグデータサービスプロバイダがより広い範囲の顧客とクラウドユーザ(すなわちデータコンシューマ)にリーチし、より大きな、よりリッチなさまざまなデータを公開して、データ分析タスクを実行するための、アクティブなプラットフォームになることである。 そこで本研究では,協調戦略と競争戦略を組み合わせた新しいゲーム理論モデルを提案する。 このゲームのプレイヤーは、ビッグデータサービスプロバイダ、クラウドコンピューティングプラットフォーム、およびクラウドユーザである。 プレイヤーの戦略は、関係者間のネットワーク効果を考慮した双方向市場理論を用いてモデル化され、一方で、クラウドリソースとコンシューマー要求の外部性をゲームの設計に統合する。 amazon と google のクラスタデータを用いたシミュレーションでは,提案モデルが,クラウドリソースの供給と金銭的利益という面で,現行のマーチャントモデルと比較して,関係者全員の合計余剰を改善できることが示されている。

With the unprecedented reliance on cloud computing as the backbone for storing today's big data, we argue in this paper that the role of the cloud should be reshaped from being a passive virtual market to become an active platform for monetizing the big data through Artificial Intelligence (AI) services. The objective is to enable the cloud to be an active platform that can help big data service providers reach a wider set of customers and cloud users (i.e., data consumers) to be exposed to a larger and richer variety of data to run their data analytic tasks. To achieve this vision, we propose a novel game theoretical model, which consists of a mix of cooperative and competitive strategies. The players of the game are the big data service providers, cloud computing platform, and cloud users. The strategies of the players are modeled using the two-sided market theory that takes into consideration the network effects among involved parties, while integrating the externalities between the cloud resources and consumer demands into the design of the game. Simulations conducted using Amazon and google clustered data show that the proposed model improves the total surplus of all the involved parties in terms of cloud resources provision and monetary profits compared to the current merchant model.
翻訳日:2021-04-27 16:40:09 公開日:2021-04-26
# (参考訳) HAO:効率的な推論のためのハードウェア対応ニューラルアーキテクチャ最適化

HAO: Hardware-aware neural Architecture Optimization for Efficient Inference ( http://arxiv.org/abs/2104.12766v1 )

ライセンス: CC BY 4.0
Zhen Dong, Yizhao Gao, Qijing Huang, John Wawrzynek, Hayden K.H. So, Kurt Keutzer(参考訳) DNNの自動設計はFPGA上でのDNNの性能向上に大きく貢献している。 しかし、ニューラルネットワークアーキテクチャとハードウェアアクセラレータ実装の難解な検索スペースのため、このプロセスは依然として困難である。 従来のハードウェア対応ニューラルアーキテクチャサーチ(NAS)アルゴリズムと異なり、高価な学習ベースのアプローチに依存しているため、我々は整数プログラミングを検索アルゴリズムに組み込んで設計空間を創出する。 ハードウェアリソースの制約が与えられた場合、整数プログラミングの定式化は、遅延を最小限に抑えるDNNサブグラフをマッピングするための最適なアクセラレータ構成を直接出力する。 異なる量子化スキームを持つdnnサブグラフに対する精度予測器を用いて精度・相対性パレートフロンティアを生成する。 計算コストの低いアルゴリズムでは, Xilinx Zynq (ZU3EG) FPGA 上で画像分類のための最先端の精度とハードウェア性能を実現する量子ネットワークを生成することができる。 このアルゴリズムによって探索された解は、フレームレート50でImageNetの72.5%のトップ-1精度を達成し、これはMnasNetより60%速く、FBNetより135%速く、精度は同等である。

Automatic algorithm-hardware co-design for DNN has shown great success in improving the performance of DNNs on FPGAs. However, this process remains challenging due to the intractable search space of neural network architectures and hardware accelerator implementation. Differing from existing hardware-aware neural architecture search (NAS) algorithms that rely solely on the expensive learning-based approaches, our work incorporates integer programming into the search algorithm to prune the design space. Given a set of hardware resource constraints, our integer programming formulation directly outputs the optimal accelerator configuration for mapping a DNN subgraph that minimizes latency. We use an accuracy predictor for different DNN subgraphs with different quantization schemes and generate accuracy-latency pareto frontiers. With low computational cost, our algorithm can generate quantized networks that achieve state-of-the-art accuracy and hardware performance on Xilinx Zynq (ZU3EG) FPGA for image classification on ImageNet dataset. The solution searched by our algorithm achieves 72.5% top-1 accuracy on ImageNet at framerate 50, which is 60% faster than MnasNet and 135% faster than FBNet with comparable accuracy.
翻訳日:2021-04-27 16:18:57 公開日:2021-04-26
# (参考訳) MDETR -- エンドツーエンドマルチモーダル理解のための変調検出

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding ( http://arxiv.org/abs/2104.12763v1 )

ライセンス: CC BY 4.0
Aishwarya Kamath, Mannat Singh, Yann LeCun, Ishan Misra, Gabriel Synnaeve, Nicolas Carion(参考訳) マルチモーダル推論システムは、画像から興味のある領域を抽出するために事前学習された物体検出器に依存する。 しかし、この重要なモジュールは一般的にブラックボックスとして使用され、下流のタスクとオブジェクトと属性の固定語彙から独立して訓練される。 これにより、このようなシステムがフリーフォームテキストで表現された視覚概念のロングテールを捉えることが困難になる。 本稿では,字幕や質問文などの原文クエリで条件付き画像中の物体を検出するエンドツーエンド変調検出器であるMDETRを提案する。 モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。 我々は、既存のマルチモーダルデータセットから抽出した1.3Mテキストイメージペアのネットワークを事前トレーニングし、テキスト中のフレーズと画像内のオブジェクトの間に明確なアライメントを持つ。 次に、フレーズグラウンド、表現理解、セグメンテーションなどの下流タスクを微調整し、一般的なベンチマークで最先端の結果を得る。 また,複数ショットで微調整した場合のラベルセットのオブジェクト検出器としての有用性についても検討した。 我々の事前トレーニングアプローチは、非常に少ないラベル付きインスタンスを持つオブジェクトカテゴリのロングテールを処理する方法を提供する。 GQAとCLEVRの競合性能を実現することで,視覚的質問応答を容易に拡張することができる。 コードとモデルはhttps://github.com/ashkamath/mdetrで入手できる。

Multi-modal reasoning systems rely on a pre-trained object detector to extract regions of interest from the image. However, this crucial module is typically used as a black box, trained independently of the downstream task and on a fixed vocabulary of objects and attributes. This makes it challenging for such systems to capture the long tail of visual concepts expressed in free form text. In this paper we propose MDETR, an end-to-end modulated detector that detects objects in an image conditioned on a raw text query, like a caption or a question. We use a transformer-based architecture to reason jointly over text and image by fusing the two modalities at an early stage of the model. We pre-train the network on 1.3M text-image pairs, mined from pre-existing multi-modal datasets having explicit alignment between phrases in text and objects in the image. We then fine-tune on several downstream tasks such as phrase grounding, referring expression comprehension and segmentation, achieving state-of-the-art results on popular benchmarks. We also investigate the utility of our model as an object detector on a given label set when fine-tuned in a few-shot setting. We show that our pre-training approach provides a way to handle the long tail of object categories which have very few labelled instances. Our approach can be easily extended for visual question answering, achieving competitive performance on GQA and CLEVR. The code and models are available at https://github.com/ashkamath/mdetr.
翻訳日:2021-04-27 15:33:38 公開日:2021-04-26
# 開放関係抽出のためのBiLSTM-CRFモデル探索

Explore BiLSTM-CRF-Based Models for Open Relation Extraction ( http://arxiv.org/abs/2104.12333v1 )

ライセンス: Link先を確認
Tao Ni, Qing Wang, Gabriela Ferraro(参考訳) テキストから複数の関係を抽出することは、現在のOpen Relation extract (Open RE)タスクの課題である。 本稿では,双方向LSTM-CRF(BiLSTM-CRF)ニューラルネットワークと,異なる文脈の単語埋め込み手法に基づく複数のOpen REモデルを開発する。 また,重なり合う問題を解消し,モデルの性能を向上させる新しいタグ付け手法を提案する。 評価結果とモデル間の比較から,タギングスキーム,単語埋め込み器,bilstm-crfネットワークの最適組み合わせを選択し,複数関係文に対して顕著な抽出能力を有するオープンreモデルを実現する。

Extracting multiple relations from text sentences is still a challenge for current Open Relation Extraction (Open RE) tasks. In this paper, we develop several Open RE models based on the bidirectional LSTM-CRF (BiLSTM-CRF) neural network and different contextualized word embedding methods. We also propose a new tagging scheme to solve overlapping problems and enhance models' performance. From the evaluation results and comparisons between models, we select the best combination of tagging scheme, word embedder, and BiLSTM-CRF network to achieve an Open RE model with a remarkable extracting ability on multiple-relation sentences.
翻訳日:2021-04-27 15:03:00 公開日:2021-04-26
# ODDObjects: マスクオブジェクト上のマルチクラス非教師付き異常検出フレームワーク

ODDObjects: A Framework for Multiclass Unsupervised Anomaly Detection on Masked Objects ( http://arxiv.org/abs/2104.12300v1 )

ライセンス: Link先を確認
Ricky Ma (The University of British Columbia)(参考訳) 本稿では,ODDObjectsと呼ばれるマスキング対象物に対する教師なし異常検出のための新しいフレームワークを提案する。 ODDObjectsはCOCOスタイルのデータセットでトレーニングされた教師なしオートエンコーダを使用して、さまざまなカテゴリの異常を検出するように設計されている。 高再構成誤差が異常の可能性を示すオートエンコーダベースの画像再構成を用いる。 このフレームワークはオートエンコーダによる異常検出に関する以前の作業を拡張し、オブジェクト認識データセットでトレーニングされた最先端のモデルを比較する。 様々なモデルアーキテクチャを比較し,実験結果から,メモリ拡張深部畳み込みオートエンコーダは分布外物体の検出に最適であることがわかった。

This paper presents a novel framework for unsupervised anomaly detection on masked objects called ODDObjects, which stands for Out-of-Distribution Detection on Objects. ODDObjects is designed to detect anomalies of various categories using unsupervised autoencoders trained on COCO-style datasets. The method utilizes autoencoder-based image reconstruction, where high reconstruction error indicates the possibility of an anomaly. The framework extends previous work on anomaly detection with autoencoders, comparing state-of-the-art models trained on object recognition datasets. Various model architectures were compared, and experimental results show that memory-augmented deep convolutional autoencoders perform the best at detecting out-of-distribution objects.
翻訳日:2021-04-27 15:02:11 公開日:2021-04-26
# ECLIPSE : 太陽エネルギーにおける雲誘起摂動の展望

ECLIPSE : Envisioning Cloud Induced Perturbations in Solar Energy ( http://arxiv.org/abs/2104.12419v1 )

ライセンス: Link先を確認
Quentin Paletta, Anthony Hu, Guillaume Arbod, Joan Lasenby(参考訳) 太陽エネルギーの電気混合への効率的な統合は、断続性の信頼できる予測に依存する。 雲のカバーダイナミクスによる日射量の時間的変動を予測するための有望なアプローチは、地上撮影されたスカイ画像のシーケンスの解析に基づいている。 結果の奨励にもかかわらず、現在のディープラーニングアプローチの現在の制限は、将来の出来事を積極的に予測するのではなく、過去の観察に反応するユビキタスな傾向にある。 これにより、系統的な時間的遅延が発生し、突然の事象を予測する能力がほとんどなくなる。 この課題に対処するために,天空画像から雲の動きをモデル化し,将来のセグメント画像とそれに対応する照射レベルの予測を行う,時空間ニューラルネットワークアーキテクチャであるCLIPSEを導入する。 ECLIPSEは重要な事象を予測し、視覚的に現実的な未来を発生させながら時間的遅延を大幅に低減することを示す。

Efficient integration of solar energy into the electricity mix depends on a reliable anticipation of its intermittency. A promising approach to forecast the temporal variability of solar irradiance resulting from the cloud cover dynamics, is based on the analysis of sequences of ground-taken sky images. Despite encouraging results, a recurrent limitation of current Deep Learning approaches lies in the ubiquitous tendency of reacting to past observations rather than actively anticipating future events. This leads to a systematic temporal lag and little ability to predict sudden events. To address this challenge, we introduce ECLIPSE, a spatio-temporal neural network architecture that models cloud motion from sky images to predict both future segmented images and corresponding irradiance levels. We show that ECLIPSE anticipates critical events and considerably reduces temporal delay while generating visually realistic futures.
翻訳日:2021-04-27 15:02:00 公開日:2021-04-26
# エクストリームイベントコンディショニングによる時空間気象パターンの生成モデル

Generative modeling of spatio-temporal weather patterns with extreme event conditioning ( http://arxiv.org/abs/2104.12469v1 )

ライセンス: Link先を確認
Konstantin Klemmer, Sudipan Saha, Matthias Kahl, Tianlin Xu, Xiao Xiang Zhu(参考訳) 深層生成モデルは、気候データなどの地理空間データ領域の洞察を得るために、ますます使われている。 しかし、既存のほとんどのアプローチは、時間的スナップショットや1Dの時系列を前提としています。 さらに、地球系のデータは、極端な気象現象によって引き起こされる、非常に不規則で複雑なパターンを示すことが多い。 気候変動のため、これらの現象は頻度的にのみ増加している。 本稿では,検出された極端事象に条件付き時空間気象パターンを生成するための新しいGANに基づく手法を提案する。 我々のアプローチは、極端気象イベントセグメンテーションマスクを符号化したGANジェネレータと識別器を増強する。 これらのセグメンテーションマスクは、既存のイベント検出フレームワークを使用して生入力から作成することができる。 このように、我々のアプローチは高度にモジュール化されており、カスタムのGANアーキテクチャと組み合わせることができる。 実地表面放射と帯状風データを用いた実験における提案手法の適用性を強調した。

Deep generative models are increasingly used to gain insights in the geospatial data domain, e.g., for climate data. However, most existing approaches work with temporal snapshots or assume 1D time-series; few are able to capture spatio-temporal processes simultaneously. Beyond this, Earth-systems data often exhibit highly irregular and complex patterns, for example caused by extreme weather events. Because of climate change, these phenomena are only increasing in frequency. Here, we proposed a novel GAN-based approach for generating spatio-temporal weather patterns conditioned on detected extreme events. Our approach augments GAN generator and discriminator with an encoded extreme weather event segmentation mask. These segmentation masks can be created from raw input using existing event detection frameworks. As such, our approach is highly modular and can be combined with custom GAN architectures. We highlight the applicability of our proposed approach in experiments with real-world surface radiation and zonal wind data.
翻訳日:2021-04-27 15:01:47 公開日:2021-04-26
# インフォグラフィックVQA

InfographicVQA ( http://arxiv.org/abs/2104.12756v1 )

ライセンス: Link先を確認
Minesh Mathew, Viraj Bagal, Rub\`en P\'erez Tito, Dimosthenis Karatzas, Ernest Valveny, C.V Jawahar(参考訳) インフォグラフィック(英: Infographics)とは、テキスト、グラフィカル、ビジュアルの各要素を組み合わせて情報を効果的に伝達する文書である。 本研究では,視覚的質問回答技術を用いて,インフォグラフィック画像の自動理解について検討する。この目的のために,インフォグラフィックの多様なコレクションと,自然言語の質問や回答アノテーションを含む新しいデータセットであるInfographicVQAを提案する。 収集された質問は、文書のレイアウト、テキストの内容、グラフィカル要素、データの視覚化を共同で考える方法を必要とする。 基本推論と基本算術スキルを必要とする質問に重点を置いたデータセットをキュレートする。 最後に,芸術的マルチモーダルVQAモデルの状態に基づく2つの強いベースラインを評価し,新しいタスクのベースライン性能を確立する。 dataset, code, leaderboardはhttp://docvqa.orgで利用可能になる。

Infographics are documents designed to effectively communicate information using a combination of textual, graphical and visual elements. In this work, we explore the automatic understanding of infographic images by using Visual Question Answering technique.To this end, we present InfographicVQA, a new dataset that comprises a diverse collection of infographics along with natural language questions and answers annotations. The collected questions require methods to jointly reason over the document layout, textual content, graphical elements, and data visualizations. We curate the dataset with emphasis on questions that require elementary reasoning and basic arithmetic skills. Finally, we evaluate two strong baselines based on state of the art multi-modal VQA models, and establish baseline performance for the new task. The dataset, code and leaderboard will be made available at http://docvqa.org
翻訳日:2021-04-27 15:01:33 公開日:2021-04-26
# wise-srnet: 特徴地図の空間分解能学習による画像分類強化のための新しいアーキテクチャ

Wise-SrNet: A Novel Architecture for Enhancing Image Classification by Learning Spatial Resolution of Feature Maps ( http://arxiv.org/abs/2104.12294v1 )

ライセンス: Link先を確認
Mohammad Rahimzadeh, Soroush Parvin, Elnaz Safi, Mohammad Reza Mohammadi(参考訳) 畳み込みニューラルネットワークの進歩以降の主な課題の1つは、抽出された特徴マップを最終分類層に接続する方法である。 VGGモデルはアーキテクチャの分類に2つの完全に連結された層を使用し、モデルの重みを著しく増加させた。 ResNetと次の深層畳み込みモデルでは、Global Average Pooling(GAP)レイヤを使用してフィーチャーマップを圧縮し、それを分類層に供給する。 GAPレイヤを使用すると計算コストが削減されるが、特徴マップの空間分解能が低下し、学習効率が低下する。 本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。 奥行きの畳み込みのアイデアにインスパイアされ、空間分解能の処理用に設計され、計算コストも増加しない。 我々は、Intel Image Classification Challenge、MIT Indoors Scenes、ImageNetデータセットの一部の3つの異なるデータセットを用いて手法を評価した。 我々は、インセプション、ResNet、DensNetファミリーのモデルにおけるアーキテクチャの実装について検討した。 アーキテクチャを適用することで、収束速度と精度が向上することが明らかになりました。 224x224解像度の画像に対する実験は、データセットやモデルでTop-1の精度を2%から8%向上させた。 MIT Indoors Scenesデータセットの512x512解像度画像上でモデルを走らせると、Top-1の精度が3%から26%向上した。 また,入力画像が大きく,クラス数が少ない場合にGAP層の欠点を示す。 この状況下では,提案アーキテクチャは分類結果の強化に大いに役立てることができる。 コードはhttps://github.com/mr7495/image-classification-spatialで共有される。

One of the main challenges since the advancement of convolutional neural networks is how to connect the extracted feature map to the final classification layer. VGG models used two sets of fully connected layers for the classification part of their architectures, which significantly increases the number of models' weights. ResNet and next deep convolutional models used the Global Average Pooling (GAP) layer to compress the feature map and feed it to the classification layer. Although using the GAP layer reduces the computational cost, but also causes losing spatial resolution of the feature map, which results in decreasing learning efficiency. In this paper, we aim to tackle this problem by replacing the GAP layer with a new architecture called Wise-SrNet. It is inspired by the depthwise convolutional idea and is designed for processing spatial resolution and also not increasing computational cost. We have evaluated our method using three different datasets: Intel Image Classification Challenge, MIT Indoors Scenes, and a part of the ImageNet dataset. We investigated the implementation of our architecture on several models of Inception, ResNet and DensNet families. Applying our architecture has revealed a significant effect on increasing convergence speed and accuracy. Our Experiments on images with 224x224 resolution increased the Top-1 accuracy between 2% to 8% on different datasets and models. Running our models on 512x512 resolution images of the MIT Indoors Scenes dataset showed a notable result of improving the Top-1 accuracy within 3% to 26%. We will also demonstrate the GAP layer's disadvantage when the input images are large and the number of classes is not few. In this circumstance, our proposed architecture can do a great help in enhancing classification results. The code is shared at https://github.com/mr7495/image-classification-spatial.
翻訳日:2021-04-27 14:59:59 公開日:2021-04-26
# モデル誘導道路交差点分類

Model Guided Road Intersection Classification ( http://arxiv.org/abs/2104.12417v1 )

ライセンス: Link先を確認
Augusto Luis Ballardini and \'Alvaro Hern\'andez and Miguel \'Angel Sotelo(参考訳) 車載カメラから複雑なシナリオを理解することは、密集した地域で自動運転システムを安全に運用するには不可欠である。 このうち交差点地域は交通事故や死亡事故が集中しているため、最も重要な地域の一つである。 道路事故の防止と脆弱な道路利用者の安全向上を目的とした、自動運転車と現代のADASの両方にとって、これら通常混雑した地域のシーン構成の検出と理解は極めて重要である。 本研究は,rgb画像からの区間間分類を,教師・生徒の訓練パラダイムに基づく結果向上手法とともに,統合型ニューラルネットワークを用いて検討する。 KITTIデータセットと新しいKITTI-360シーケンスの両方において、最適な入力構成を特定し、異なるネットワークパラメータを評価することを目的とした広範な実験活動により、本手法はフレーム単位の最先端手法よりも優れ、提案手法の有効性が証明された。

Understanding complex scenarios from in-vehicle cameras is essential for safely operating autonomous driving systems in densely populated areas. Among these, intersection areas are one of the most critical as they concentrate a considerable number of traffic accidents and fatalities. Detecting and understanding the scene configuration of these usually crowded areas is then of extreme importance for both autonomous vehicles and modern ADAS aimed at preventing road crashes and increasing the safety of vulnerable road users. This work investigates inter-section classification from RGB images using well-consolidate neural network approaches along with a method to enhance the results based on the teacher/student training paradigm. An extensive experimental activity aimed at identifying the best input configuration and evaluating different network parameters on both the well-known KITTI dataset and the new KITTI-360 sequences shows that our method outperforms current state-of-the-art approaches on a per-frame basis and prove the effectiveness of the proposed learning scheme.
翻訳日:2021-04-27 14:59:29 公開日:2021-04-26
# プロパティ指向テストによるニューラルネットワークの高速改ざん

Fast Falsification of Neural Networks using Property Directed Testing ( http://arxiv.org/abs/2104.12418v1 )

ライセンス: Link先を確認
Moumita Das, Rajarshi Ray, Swarup Kumar Mohalik, Ansuman Banerjee(参考訳) ニューラルネットワークは現在、自律システムの認識、予測、制御に広く使われている。 彼らの安全クリティカルなシステムへの展開は、そのようなネットワークの検証技術の必要性をもたらす。 徹底的でコストのかかる検証アルゴリズムの代替として、軽量のファルシフィケーションアルゴリズムは、安全でない出力、すなわちシステムの安全性に対する反例を生成するシステムへの入力を探索するために多用されている。 本研究では,安全特性仕様に導かれる反例の探索を指示するニューラルネットワークの偽造アルゴリズムを提案する。 本アルゴリズムは, 微分自由サンプリングに基づく最適化手法を用いる。 acas xuシステムの45個のニューラルネットワークベンチマークを10個の安全性特性に対して評価した。 フェールシフィケーション手順は、他の検証ツールが安全でないと報告しているすべての安全でないインスタンスを検出する。 さらに,フェーシフィケーション手法は,NNENUMやNeurifyなどのフィードフォワードニューラルネットワークに対する最先端の検証ツールと比較して,安全でないインスタンスの大部分を桁違いに高速に識別する。

Neural networks are now extensively used in perception, prediction and control of autonomous systems. Their deployment in safety-critical systems brings forth the need for verification techniques for such networks. As an alternative to exhaustive and costly verification algorithms, lightweight falsification algorithms have been heavily used to search for an input to the system that produces an unsafe output, i.e., a counterexample to the safety of the system. In this work, we propose a falsification algorithm for neural networks that directs the search for a counterexample, guided by a safety property specification. Our algorithm uses a derivative-free sampling-based optimization method. We evaluate our algorithm on 45 trained neural network benchmarks of the ACAS Xu system against 10 safety properties. We show that our falsification procedure detects all the unsafe instances that other verification tools also report as unsafe. Moreover, in terms of performance, our falsification procedure identifies most of the unsafe instances faster, in comparison to the state-of-the-art verification tools for feed-forward neural networks such as NNENUM and Neurify and in many instances, by orders of magnitude.
翻訳日:2021-04-27 14:59:12 公開日:2021-04-26
# 概念に基づく説明可能性のための弱教師付きマルチタスク学習

Weakly Supervised Multi-task Learning for Concept-based Explainability ( http://arxiv.org/abs/2104.12459v1 )

ライセンス: Link先を確認
Catarina Bel\'em, Vladimir Balayan, Pedro Saleiro, Pedro Bizarro(参考訳) MLが支援する不正検出や診断などの意思決定タスクでは、ヒューマン・イン・ザ・ループは、技術的MLの知識を持たないドメインエキスパートであり、モデルの特徴に基づく低レベルの説明ではなく、高レベルの概念に基づく説明を好む。 忠実な概念に基づく説明を得るためには、前例説明可能性タスク(すなわち、マルチラベル概念)の予測に基づいて、共同学習して決定タスクを予測するニューラルネットワークを訓練するために、マルチタスク学習を利用する。 克服すべき主な課題は、コンセプトラベルの不足と共同学習の2つだ。 i) ノイズの多い概念ラベルの大規模なデータセットを生成するために専門家ルールを使用すること,2) ノイズの多い概念ラベルとゴールデンなラベルを組み合わせた2つの異なるマルチタスク学習戦略を適用することを提案する。 実世界の不正検出アプリケーションにおいて,これらの戦略を,説明可能性タスクに利用できるゴールデンラベルがほとんどない完全教師付きアプローチと比較した。 説明性および意思決定性では, 9.26%, 417.8%の改善がみられ, 不均一な品質のラベルを組み合わせることで, 両タスクのパフォーマンス向上が図られた。

In ML-aided decision-making tasks, such as fraud detection or medical diagnosis, the human-in-the-loop, usually a domain-expert without technical ML knowledge, prefers high-level concept-based explanations instead of low-level explanations based on model features. To obtain faithful concept-based explanations, we leverage multi-task learning to train a neural network that jointly learns to predict a decision task based on the predictions of a precedent explainability task (i.e., multi-label concepts). There are two main challenges to overcome: concept label scarcity and the joint learning. To address both, we propose to: i) use expert rules to generate a large dataset of noisy concept labels, and ii) apply two distinct multi-task learning strategies combining noisy and golden labels. We compare these strategies with a fully supervised approach in a real-world fraud detection application with few golden labels available for the explainability task. With improvements of 9.26% and of 417.8% at the explainability and decision tasks, respectively, our results show it is possible to improve performance at both tasks by combining labels of heterogeneous quality.
翻訳日:2021-04-27 14:58:56 公開日:2021-04-26
# TrustyAI Explainability Toolkit

TrustyAI Explainability Toolkit ( http://arxiv.org/abs/2104.12717v1 )

ライセンス: Link先を確認
Rob Geada, Tommaso Teofili, Rui Vieira, Rebecca Whitworth, Daniele Zonca(参考訳) 人工知能(AI)はますます普及し、世界中の職場や家庭でも見られるようになっている。 しかし、これらのシステムに対する信頼をどうやって確保するか? GDPRのような規制変更は、ユーザがデータの処理方法と保存方法を理解する権利を持つことを意味する。 ですから,例えば,ローンを拒否された場合には,理由を問う権利があります。 この方法がニューラルネットワークのような"ブラックボックス"機械学習技術を使用する場合、これは難しい場合があります。 TrustyAIは、MLの信頼性と意思決定サービスの展望に対処するために、説明可能な人工知能(XAI)ソリューションを検討する新しいイニシアチブである。 本稿では,TrustyAIが意思決定サービスや予測モデルへの信頼をどのようにサポートするかを検討する。 LIME や SHAP など,既存の実装に対して LIME と 対実技術の両方をベンチマークする手法について検討する。 定量的データに基づいて評価されるバックグラウンドデータ選択をサポートし、エラー境界を許容するshapの拡張バージョンも検討する。

Artificial intelligence (AI) is becoming increasingly more popular and can be found in workplaces and homes around the world. However, how do we ensure trust in these systems? Regulation changes such as the GDPR mean that users have a right to understand how their data has been processed as well as saved. Therefore if, for example, you are denied a loan you have the right to ask why. This can be hard if the method for working this out uses "black box" machine learning techniques such as neural networks. TrustyAI is a new initiative which looks into explainable artificial intelligence (XAI) solutions to address trustworthiness in ML as well as decision services landscapes. In this paper we will look at how TrustyAI can support trust in decision services and predictive models. We investigate techniques such as LIME, SHAP and counterfactuals, benchmarking both LIME and counterfactual techniques against existing implementations. We also look into an extended version of SHAP, which supports background data selection to be evaluated based on quantitative data and allows for error bounds.
翻訳日:2021-04-27 14:58:36 公開日:2021-04-26
# EigenGAN: GANのためのレイヤワイズ固有学習

EigenGAN: Layer-Wise Eigen-Learning for GANs ( http://arxiv.org/abs/2104.12476v1 )

ライセンス: Link先を確認
Zhenliang He, Meina Kan, Shiguang Shan(参考訳) GAN(Generative Adversarial Network)の最近の研究は、生成CNNの異なる層が合成画像の異なる意味を持つことを示した。 しかし、特定の層に表される意味的属性を制御するために明示的な次元を持つGANモデルはほとんどない。 本稿では,異なるジェネレータ層から解釈可能な次元と制御可能な次元を教師なしでマイニングできるEigenGANを提案する。 具体的には、EigenGANは各ジェネレータ層に直交基底を持つ1つの線型部分空間を埋め込む。 対象の分布を学ぶための敵対的訓練を通じて、これらの階層的部分空間は、意味属性のセットや解釈可能なバリエーションに対応する各層で「固有次元」の集合を自動的に発見する。 特定の固有次元の係数をトラバースすることで、ジェネレータは特定の意味属性に対応する連続的な変化を伴うサンプルを生成することができる。 例えば、人間の顔を使って、EigenGANは深層の部分空間におけるポーズやジェンダーのような高レベルの概念や、浅い層の部分空間における色や色といった低レベルの概念の制御可能な次元を発見できる。 さらに,線形状況下では,PCAのようにアルゴリズムが主成分を導出することを理論的に証明する。 コードはhttps://github.com/LynnHo/EigenGAN-Tensorflowにある。

Recent studies on Generative Adversarial Network (GAN) reveal that different layers of a generative CNN hold different semantics of the synthesized images. However, few GAN models have explicit dimensions to control the semantic attributes represented in a specific layer. This paper proposes EigenGAN which is able to unsupervisedly mine interpretable and controllable dimensions from different generator layers. Specifically, EigenGAN embeds one linear subspace with orthogonal basis into each generator layer. Via the adversarial training to learn a target distribution, these layer-wise subspaces automatically discover a set of "eigen-dimensions" at each layer corresponding to a set of semantic attributes or interpretable variations. By traversing the coefficient of a specific eigen-dimension, the generator can produce samples with continuous changes corresponding to a specific semantic attribute. Taking the human face for example, EigenGAN can discover controllable dimensions for high-level concepts such as pose and gender in the subspace of deep layers, as well as low-level concepts such as hue and color in the subspace of shallow layers. Moreover, under the linear circumstance, we theoretically prove that our algorithm derives the principal components as PCA does. Codes can be found in https://github.com/LynnHo/EigenGAN-Tensorflow.
翻訳日:2021-04-27 14:58:20 公開日:2021-04-26
# 共分散作用素とガウス過程の間の完全およびエントロピーワッサーシュタイン距離の有限サンプル近似

Finite sample approximations of exact and entropic Wasserstein distances between covariance operators and Gaussian processes ( http://arxiv.org/abs/2104.12368v1 )

ライセンス: Link先を確認
Minh Ha Quang(参考訳) この研究は、中心ガウス過程とより一般的には関数的ランダム過程の共分散作用素の間の完全かつエントロピー正則なワッサーシュタイン距離の有限サンプル近似を研究する。 まず,これらの距離/ディバージェンスを、対応する共分散関数に付随する核ヒルベルト空間(rkhs)共分散とクロス共分散作用素の再現によって完全に表現することを示す。 この表現を用いて, 2つの中心ガウス過程間のシンクホーンの発散を, 対応する正規化有限次元共分散行列間の発散, あるいはそのサンプル共分散作用素から, 一貫して効率的に推定できることを示す。 これにより、2つのプロセスによって生成された有限なサンプルからシンクホーンの発散を推定するための一貫性と効率のよいアルゴリズムが導かれる。 固定正則化パラメータでは、収束率は、ヒルベルト-シュミット距離のそれと同じ順序の {\it dimension-independent} である。 RKHS の少なくとも一方が有限次元であれば、ガウス過程の間の正確なワッサーシュタイン距離について、次元依存的なサンプル複雑性が得られる。

This work studies finite sample approximations of the exact and entropic regularized Wasserstein distances between centered Gaussian processes and, more generally, covariance operators of functional random processes. We first show that these distances/divergences are fully represented by reproducing kernel Hilbert space (RKHS) covariance and cross-covariance operators associated with the corresponding covariance functions. Using this representation, we show that the Sinkhorn divergence between two centered Gaussian processes can be consistently and efficiently estimated from the divergence between their corresponding normalized finite-dimensional covariance matrices, or alternatively, their sample covariance operators. Consequently, this leads to a consistent and efficient algorithm for estimating the Sinkhorn divergence from finite samples generated by the two processes. For a fixed regularization parameter, the convergence rates are {\it dimension-independent} and of the same order as those for the Hilbert-Schmidt distance. If at least one of the RKHS is finite-dimensional, we obtain a {\it dimension-dependent} sample complexity for the exact Wasserstein distance between the Gaussian processes.
翻訳日:2021-04-27 14:57:59 公開日:2021-04-26
# 携帯電話で収集したBluetoothデバイスによる抑うつ症状の重症度予測 : 予備的縦断的研究

Predicting Depressive Symptom Severity through Individuals' Nearby Bluetooth Devices Count Data Collected by Mobile Phones: A Preliminary Longitudinal Study ( http://arxiv.org/abs/2104.12407v1 )

ライセンス: Link先を確認
Yuezhou Zhang, Amos A Folarin, Shaoxiong Sun, Nicholas Cummins, Yatharth Ranjan, Zulqarnain Rashid, Pauline Conde, Callum Stewart, Petroula Laiou, Faith Matcham, Carolin Oetzmann, Femke Lamers, Sara Siddi, Sara Simblett, Aki Rintala, David C Mohr, Inez Myin-Germeys, Til Wykes, Josep Maria Haro, Brenda WJH Pennix, Vaibhav A Narayan, Peter Annas, Matthew Hotopf, Richard JB Dobson(参考訳) 携帯電話に埋め込まれたbluetoothセンサーは、近くのbluetoothデバイス数(nbdc)のような個人の近接情報をキャプチャする、邪魔にならない、連続的でコスト効率のよい手段を提供する。 連続的なNBDCデータは、社会的つながりや相互作用、労働状況、移動性、社会的孤立と孤独といった個人の行動やステータスを部分的に反映することができる。 本研究では,8項目の患者健康アンケート(PHQ-8)を用いて,うつ症状の重症度を予測するNBDCデータの価値を検討することを目的とする。 この論文で使用されたデータには、オランダ、スペイン、英国の3つの研究現場から集められた316人の参加者から、隔週で2,886件のPHQ-8記録が含まれていた。 PHQ-8スコアの2週間前のNBDCデータから,個人生活リズムの周期性と規則性を測定する統計的特徴や非線形特徴を含む49個のBluetooth特徴を抽出した。 線形混合効果モデルはbluetooth機能とphq-8スコアの関係を調べるために用いられた。 次に階層型ベイズ線形回帰モデルを用いて,抽出したBluetooth特徴量からPHQ-8のスコアを予測する。 bluetooth機能と抑うつ症状の重症度との間には,多くの有意な関連が見られた。 一般的な機械学習モデルと比較して、提案された階層ベイズ線形回帰モデルは、R2=0.526、ルート平均二乗誤差(RMSE)が3.891である。 bluetooth機能は、bluetooth機能のないベースラインモデル(r2=0.338, rmse = 4.547)と比較して、phq-8スコアのばらつきの18.8%を説明できる。

The Bluetooth sensor embedded in mobile phones provides an unobtrusive, continuous, and cost-efficient means to capture individuals' proximity information, such as the nearby Bluetooth devices count (NBDC). The continuous NBDC data can partially reflect individuals' behaviors and status, such as social connections and interactions, working status, mobility, and social isolation and loneliness, which were found to be significantly associated with depression by previous survey-based studies. This paper aims to explore the NBDC data's value in predicting depressive symptom severity as measured via the 8-item Patient Health Questionnaire (PHQ-8). The data used in this paper included 2,886 bi-weekly PHQ-8 records collected from 316 participants recruited from three study sites in the Netherlands, Spain, and the UK as part of the EU RADAR-CNS study. From the NBDC data two weeks prior to each PHQ-8 score, we extracted 49 Bluetooth features, including statistical features and nonlinear features for measuring periodicity and regularity of individuals' life rhythms. Linear mixed-effect models were used to explore associations between Bluetooth features and the PHQ-8 score. We then applied hierarchical Bayesian linear regression models to predict the PHQ-8 score from the extracted Bluetooth features. A number of significant associations were found between Bluetooth features and depressive symptom severity. Compared with commonly used machine learning models, the proposed hierarchical Bayesian linear regression model achieved the best prediction metrics, R2= 0.526, and root mean squared error (RMSE) of 3.891. Bluetooth features can explain an extra 18.8% of the variance in the PHQ-8 score relative to the baseline model without Bluetooth features (R2=0.338, RMSE = 4.547).
翻訳日:2021-04-27 14:57:36 公開日:2021-04-26
# 厳密な解釈に向けて--特徴帰属の形式化

Towards Rigorous Interpretations: a Formalisation of Feature Attribution ( http://arxiv.org/abs/2104.12437v1 )

ライセンス: Link先を確認
Darius Afchar, Romain Hennequin and Vincent Guigue(参考訳) 特徴属性は、しばしば予測の理論的根拠として関連する特徴のサブセットを選択する過程として緩やかに表される。 この明快さの欠如は、通常、根本真実の帰属という概念にアクセスできないという事実と、良い解釈とは何かというより一般的な議論から来ている。 本稿では,機能依存の緩和という概念に基づく特徴の選択/帰属を定式化する。 特に、我々は、タスク依存の余地を残しながら、インスタンスワイズ設定に拡張し、候補選択ソリューションに必要な特性を導出する。 合成データセットの基底帰属を計算することにより,最先端の帰属法を多数評価し,最適化しても提案する性質の検証に失敗し,誤った解が得られたことを示す。

Feature attribution is often loosely presented as the process of selecting a subset of relevant features as a rationale of a prediction. This lack of clarity stems from the fact that we usually do not have access to any notion of ground-truth attribution and from a more general debate on what good interpretations are. In this paper we propose to formalise feature selection/attribution based on the concept of relaxed functional dependence. In particular, we extend our notions to the instance-wise setting and derive necessary properties for candidate selection solutions, while leaving room for task-dependence. By computing ground-truth attributions on synthetic datasets, we evaluate many state-of-the-art attribution methods and show that, even when optimised, some fail to verify the proposed properties and provide wrong solutions.
翻訳日:2021-04-27 14:57:08 公開日:2021-04-26
# CompOFA: より高速なマルチプラットフォームデプロイメントのための複合ネットワーク

CompOFA: Compound Once-For-All Networks for Faster Multi-Platform Deployment ( http://arxiv.org/abs/2104.12642v1 )

ライセンス: Link先を確認
Manas Sahni, Shreya Varshini, Alind Khare, Alexey Tumanov(参考訳) メインストリームデプロイメントにおけるcnnの出現は、多様なハードウェアとレイテンシの制約下での精度を最大化するために調整された効率的なアーキテクチャの設計と訓練の方法を必要としている。 これらのリソース集約的なタスクをデプロイ目標数の増加とともにスケールアップするために、Imped-For-All(OFA)は、一定のトレーニングコストで複数のモデルを同時にトレーニングするアプローチを提案した。 しかしながら、このコストは40-50gpu日という高いままであり、サブ最適モデル構成の組合せ的な爆発に苦しむ。 私たちは、精度の低いParetoフロンティアに近いモデルにサーチを制限することで、この検索スペースを減らそうとしています。 モデル次元間の複合関係の洞察を取り入れて、数桁の規模で小さなデザイン空間であるCompOFAを構築する。 imagenetの実験を通じて、単純なヒューリスティックであっても、paretoの最適性を損なうことなく、トレーニング時間の2倍、モデル検索/抽出時間の216倍のスピードアップを達成できることを実証する。 また、この小さな設計空間は、ハードウェアと遅延ターゲットの類似の多様性に対して同等に正確なモデルをサポートするのに十分な密度であり、トレーニングとその後の抽出アルゴリズムの複雑さを低減できることを示す。

The emergence of CNNs in mainstream deployment has necessitated methods to design and train efficient architectures tailored to maximize the accuracy under diverse hardware & latency constraints. To scale these resource-intensive tasks with an increasing number of deployment targets, Once-For-All (OFA) proposed an approach to jointly train several models at once with a constant training cost. However, this cost remains as high as 40-50 GPU days and also suffers from a combinatorial explosion of sub-optimal model configurations. We seek to reduce this search space -- and hence the training budget -- by constraining search to models close to the accuracy-latency Pareto frontier. We incorporate insights of compound relationships between model dimensions to build CompOFA, a design space smaller by several orders of magnitude. Through experiments on ImageNet, we demonstrate that even with simple heuristics we can achieve a 2x reduction in training time and 216x speedup in model search/extraction time compared to the state of the art, without loss of Pareto optimality! We also show that this smaller design space is dense enough to support equally accurate models for a similar diversity of hardware and latency targets, while also reducing the complexity of the training and subsequent extraction algorithms.
翻訳日:2021-04-27 14:55:44 公開日:2021-04-26
# オーバースムーシング抑制による視覚トランスフォーマートレーニングの改善

Improve Vision Transformers Training by Suppressing Over-smoothing ( http://arxiv.org/abs/2104.12753v1 )

ライセンス: Link先を確認
Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, Qiang Liu(参考訳) コンピュータビジョンタスクにトランスフォーマー構造を導入することは、従来の畳み込みネットワークよりも高速なトレードオフをもたらすという約束を果たす。 しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。 その結果、近年の研究では、視覚タスクの性能向上のために畳み込み層を導入してトランスフォーマー構造を変更することを提案する。 本研究は,視覚トランスフォーマーの特殊構造修正を安定化させる方法について検討する。 視覚タスクにおけるトランスフォーマートレーニングの不安定性は,入力画像からの異なるパッチを類似の潜在表現にマッピングする傾向があるため,特にレイヤ数が大きければ,情報の損失や性能の低下を生じさせる可能性がある。 そこで我々は,この問題を緩和するために,多様性を促進するための損失関数の追加,情報損失の防止,cutmixに対するパッチ分類損失の追加による異なるパッチの判別など,いくつかの手法を提案する。 提案手法はトレーニングを安定化させ,より深い視覚トランスフォーマーの訓練を可能にし,追加の教師や畳み込み層を導入することなく,imagenet検証セット上で85.0\%top-1精度を達成する。 私たちのコードはhttps://github.com/ChengyueGongR/PatchVisionTransformerで公開されます。

Introducing the transformer structure into computer vision tasks holds the promise of yielding a better speed-accuracy trade-off than traditional convolution networks. However, directly training vanilla transformers on vision tasks has been shown to yield unstable and sub-optimal results. As a result, recent works propose to modify transformer structures by incorporating convolutional layers to improve the performance on vision tasks. This work investigates how to stabilize the training of vision transformers \emph{without} special structure modification. We observe that the instability of transformer training on vision tasks can be attributed to the over-smoothing problem, that the self-attention layers tend to map the different patches from the input image into a similar latent representation, hence yielding the loss of information and degeneration of performance, especially when the number of layers is large. We then propose a number of techniques to alleviate this problem, including introducing additional loss functions to encourage diversity, prevent loss of information, and discriminate different patches by additional patch classification loss for Cutmix. We show that our proposed techniques stabilize the training and allow us to train wider and deeper vision transformers, achieving 85.0\% top-1 accuracy on ImageNet validation set without introducing extra teachers or additional convolution layers. Our code will be made publicly available at https://github.com/ChengyueGongR/PatchVisionTransformer .
翻訳日:2021-04-27 14:55:20 公開日:2021-04-26
# 音声合成における双方向エンコーダ表現を用いたフレーズブレーク予測

Phrase break prediction with bidirectional encoder representations in Japanese text-to-speech synthesis ( http://arxiv.org/abs/2104.12395v1 )

ライセンス: Link先を確認
Kosuke Futamata, Byeongseon Park, Ryuichi Yamamoto, Kentaro Tachibana(参考訳) 本稿では,事前学習した大言語モデルであるBERTから抽出した暗黙的特徴と,BiLSTMから抽出した明示的特徴とを言語的特徴とを組み合わせ,句分割予測手法を提案する。 従来のBiLSTM法では、単語表現や文表現が独立したコンポーネントとして使用される。 提案手法は,従来の手法では捕捉できない潜在意味論を抽出するために,両表現を考慮に入れている。 評価の結果,提案手法は言語特徴を用いた従来のBiLSTM法と比較して,F1得点の3.2点の絶対的改善が得られることがわかった。 また,本手法を適用したttsシステムにおいて,韻律的自然性において平均評価スコア4.39を,接頭辞節切断による合成音声のスコア4.37と高い競合性を示すことを検証した。

We propose a novel phrase break prediction method that combines implicit features extracted from a pre-trained large language model, a.k.a BERT, and explicit features extracted from BiLSTM with linguistic features. In conventional BiLSTM based methods, word representations and/or sentence representations are used as independent components. The proposed method takes account of both representations to extract the latent semantics, which cannot be captured by previous methods. The objective evaluation results show that the proposed method obtains an absolute improvement of 3.2 points for the F1 score compared with BiLSTM-based conventional methods using linguistic features. Moreover, the perceptual listening test results verify that a TTS system that applied our proposed method achieved a mean opinion score of 4.39 in prosody naturalness, which is highly competitive with the score of 4.37 for synthesized speech with ground-truth phrase breaks.
翻訳日:2021-04-27 14:53:57 公開日:2021-04-26
# オンライン医療チャットサービスにおける自動応答生成

Auto Response Generation in Online Medical Chat Services ( http://arxiv.org/abs/2104.12755v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Syed Kazmi, Mucahit Cevik(参考訳) telehealthは、患者の遠隔医療サービスを可能にすることで、医療専門家へのアクセスを促進する。 これらのサービスは、必要な技術インフラの出現により、長年にわたって徐々に普及してきた。 新型コロナウイルス(COVID-19)の感染拡大に伴い、医師の訪問が減り、テレヘルスのメリットはさらに顕著になっている。 本稿では,医師と患者とのチャットセッションの円滑化に焦点をあてる。 テレヘルスサービスの需要が増加するにつれ、チャット体験の品質と効率が重要になる可能性があることに注意する。 そこで我々は,特に多忙なセッションにおいて,医師が相談要求に効果的に対応するのに役立つ,医療会話のためのスマート自動応答生成機構を開発した。 9ヶ月にわたって収集された医師と患者の匿名、歴史的なオンラインメッセージ9万件を探索する。 我々は,医師による最も頻繁な応答を識別し,それに応じて手動でラベル付けするクラスタリングアルゴリズムを実装した。 次に、この前処理データを使用して機械学習アルゴリズムをトレーニングし、応答を生成する。 検討されたアルゴリズムには、2つのステップがある: 無効な患者メッセージをフィルタリングするフィルタリング(トリガー)モデルと、トリガーフェーズを成功させた患者に対してトップ3の医師反応を提案する応答生成器である。 この方法は精度83.28\%の精度を提供し、パラメータに堅牢性を示す。

Telehealth helps to facilitate access to medical professionals by enabling remote medical services for the patients. These services have become gradually popular over the years with the advent of necessary technological infrastructure. The benefits of telehealth have been even more apparent since the beginning of the COVID-19 crisis, as people have become less inclined to visit doctors in person during the pandemic. In this paper, we focus on facilitating the chat sessions between a doctor and a patient. We note that the quality and efficiency of the chat experience can be critical as the demand for telehealth services increases. Accordingly, we develop a smart auto-response generation mechanism for medical conversations that helps doctors respond to consultation requests efficiently, particularly during busy sessions. We explore over 900,000 anonymous, historical online messages between doctors and patients collected over nine months. We implement clustering algorithms to identify the most frequent responses by doctors and manually label the data accordingly. We then train machine learning algorithms using this preprocessed data to generate the responses. The considered algorithm has two steps: a filtering (i.e., triggering) model to filter out infeasible patient messages and a response generator to suggest the top-3 doctor responses for the ones that successfully pass the triggering phase. The method provides an accuracy of 83.28\% for precision@3 and shows robustness to its parameters.
翻訳日:2021-04-27 14:53:42 公開日:2021-04-26
# 収束保証付きリッジ推定アルゴリズム

Algorithms for ridge estimation with convergence guarantees ( http://arxiv.org/abs/2104.12314v1 )

ライセンス: Link先を確認
Wanli Qiao and Wolfgang Polonik(参考訳) 点雲からのフィラメント構造抽出について考察した。 フィラメントは、下層の密度の隆起線または高次元隆起としてモデル化される。 我々は2つの新しいアルゴリズムを提案し,それらの収束に関する理論的保証を提供する。 本稿では,本論文で明らかにされるscmの欠点を伴わない部分空間制約平均シフト (scms) アルゴリズムの代替案として,新しいアルゴリズムを提案する。

The extraction of filamentary structure from a point cloud is discussed. The filaments are modeled as ridge lines or higher dimensional ridges of an underlying density. We propose two novel algorithms, and provide theoretical guarantees for their convergences. We consider the new algorithms as alternatives to the Subspace Constraint Mean Shift (SCMS) algorithm that do not suffer from a shortcoming of the SCMS that is also revealed in this paper.
翻訳日:2021-04-27 14:51:00 公開日:2021-04-26
# 適応運動量法を用いた非凸ミニマックスゲームの解法

Solving a class of non-convex min-max games using adaptive momentum methods ( http://arxiv.org/abs/2104.12676v1 )

ライセンス: Link先を確認
Babak Barazandeh, Davoud Ataee Tarzanagh, George Michailidis(参考訳) 適応モーメント法は最近、ディープニューラルネットワークのトレーニングに多くの注目を集めている。 対象関数の過去の勾配の指数的な移動平均を使い、探索方向と学習率の両方を更新する。 しかし、これらの手法は、生成的対向ネットワークのトレーニングで生じるmin-max最適化問題の解決には適していない。 本稿では,適応運動量法を非凸 min-max に一般化する適応運動量 min-max アルゴリズムを提案する。 さらに,非凸min-max最適化問題に適度に広いクラスを用いた場合,提案アルゴリズムの非漸近収束率を定式化する。 実験の結果, vis-a-visベンチマーク法が優れていることがわかった。

Adaptive momentum methods have recently attracted a lot of attention for training of deep neural networks. They use an exponential moving average of past gradients of the objective function to update both search directions and learning rates. However, these methods are not suited for solving min-max optimization problems that arise in training generative adversarial networks. In this paper, we propose an adaptive momentum min-max algorithm that generalizes adaptive momentum methods to the non-convex min-max regime. Further, we establish non-asymptotic rates of convergence for the proposed algorithm when used in a reasonably broad class of non-convex min-max optimization problems. Experimental results illustrate its superior performance vis-a-vis benchmark methods for solving such problems.
翻訳日:2021-04-27 14:50:54 公開日:2021-04-26
# 不確実性を考慮した不均一エージェント軌道予測

Heterogeneous-Agent Trajectory Forecasting Incorporating Class Uncertainty ( http://arxiv.org/abs/2104.12446v1 )

ライセンス: Link先を確認
Boris Ivanovic, Kuan-Hui Lee, Pavel Tokmakov, Blake Wulfe, Rowan McAllister, Adrien Gaidon, Marco Pavone(参考訳) 他のエージェントの将来の行動に関する推論は、安全なロボットナビゲーションに不可欠である。 確率的未来の多重性は、位置、速度、セマンティッククラスを含むデータからエージェントの状態推定に固有の不確実性によってさらに増幅される。 しかしながら、予測手法は一般的にクラスの不確実性を無視し、代わりにエージェントの最も可能性の高いクラスのみを条件付けする。 この情報を活用するために,エージェントのクラス確率を明示的に組み込んだ異種エージェント軌道予測法であるHAICUを提案する。 さらに、予測における知覚不確実性の影響を調べるために、新しい挑戦的な現実の自律運転データセットであるPUPを提示する。 それは、現在の最先端の認識システムの長いテールを反映した、フィルターされていないエージェントクラスの確率を持つ、困難な混雑したシーンを含んでいる。 軌道予測におけるクラス確率の導入は不確実性に直面した性能を大幅に向上させ,反事実予測などの新たな予測能力を実現する。

Reasoning about the future behavior of other agents is critical to safe robot navigation. The multiplicity of plausible futures is further amplified by the uncertainty inherent to agent state estimation from data, including positions, velocities, and semantic class. Forecasting methods, however, typically neglect class uncertainty, conditioning instead only on the agent's most likely class, even though perception models often return full class distributions. To exploit this information, we present HAICU, a method for heterogeneous-agent trajectory forecasting that explicitly incorporates agents' class probabilities. We additionally present PUP, a new challenging real-world autonomous driving dataset, to investigate the impact of Perceptual Uncertainty in Prediction. It contains challenging crowded scenes with unfiltered agent class probabilities that reflect the long-tail of current state-of-the-art perception systems. We demonstrate that incorporating class probabilities in trajectory forecasting significantly improves performance in the face of uncertainty, and enables new forecasting capabilities such as counterfactual predictions.
翻訳日:2021-04-27 14:49:02 公開日:2021-04-26
# 優れたアーティストがコピーし、偉大なアーティストが盗む: 画像翻訳生成広告ネットワークに対するモデル抽出攻撃

Good Artists Copy, Great Artists Steal: Model Extraction Attacks Against Image Translation Generative Adversarial Networks ( http://arxiv.org/abs/2104.12623v1 )

ライセンス: Link先を確認
Sebastian Szyller, Vasisht Duddu, Tommi Gr\"ondahl, N. Asokan(参考訳) マシンラーニングモデルは一般的に、推論APIを通じて、潜在的なクライアントユーザに提供される。 モデル抽出攻撃は、悪意のあるクライアントがクエリから取得した情報を被害者モデルの推論apiに使用して、同等の機能を持つサロゲートモデル$f_a$を構築する時に発生する。 最近の研究では、画像分類とNLPモデルに対するモデル抽出攻撃が成功した。 本稿では,実世界生成逆ネットワーク(gan)画像翻訳モデルに対する最初のモデル抽出攻撃を示す。 本稿では,画像翻訳モデルに対するモデル抽出攻撃を行うためのフレームワークを提案する。 相手は、$F_V$のアーキテクチャや、意図したイメージ変換タスク以外の他の情報を知る必要はなく、$F_V$の推論インターフェースを、トレーニングデータである$F_V$と同じドメインから引き出されたデータを使ってクエリする。 本研究では,(1)セルフィー・ツー・アニム,(2)モネ・ツー・フォト(画像スタイル転送),(3)超解像(スーパーレゾリューション)の3つのカテゴリを用いて,本攻撃の有効性を評価した。 GANの標準的なパフォーマンス指標を用いて、攻撃は3つのケースで有効であることが示される。ターゲットと比較して、F_V$と$F_A$の差は以下の範囲である: Selfie-to-Anime: FID $13.36-68.66$、Monet-to-Photo: FID $3.57-4.40$、Super-Resolution: SSIM: $0.06-0.08$、PSNR: $1.43-4.46$。 さらに,自撮り対アニムとモネ対写真に関する大規模(125名)ユーザ調査を行い,被害者モデルとサロゲートモデルによる画像の人間の知覚を,コーエンの$0.3$の等価性の範囲内で同等視できることを示した。

Machine learning models are typically made available to potential client users via inference APIs. Model extraction attacks occur when a malicious client uses information gleaned from queries to the inference API of a victim model $F_V$ to build a surrogate model $F_A$ that has comparable functionality. Recent research has shown successful model extraction attacks against image classification, and NLP models. In this paper, we show the first model extraction attack against real-world generative adversarial network (GAN) image translation models. We present a framework for conducting model extraction attacks against image translation models, and show that the adversary can successfully extract functional surrogate models. The adversary is not required to know $F_V$'s architecture or any other information about it beyond its intended image translation task, and queries $F_V$'s inference interface using data drawn from the same domain as the training data for $F_V$. We evaluate the effectiveness of our attacks using three different instances of two popular categories of image translation: (1) Selfie-to-Anime and (2) Monet-to-Photo (image style transfer), and (3) Super-Resolution (super resolution). Using standard performance metrics for GANs, we show that our attacks are effective in each of the three cases -- the differences between $F_V$ and $F_A$, compared to the target are in the following ranges: Selfie-to-Anime: FID $13.36-68.66$, Monet-to-Photo: FID $3.57-4.40$, and Super-Resolution: SSIM: $0.06-0.08$ and PSNR: $1.43-4.46$. Furthermore, we conducted a large scale (125 participants) user study on Selfie-to-Anime and Monet-to-Photo to show that human perception of the images produced by the victim and surrogate models can be considered equivalent, within an equivalence bound of Cohen's $d=0.3$.
翻訳日:2021-04-27 14:48:46 公開日:2021-04-26
# モデル反転攻撃の爆発的説明

Exploiting Explanations for Model Inversion Attacks ( http://arxiv.org/abs/2104.12669v1 )

ライセンス: Link先を確認
Xuejun Zhao, Wencan Zhang, Xiaokui Xiao, Brian Y. Lim(参考訳) 医療から雇用まで、多くの領域における人工知能(AI)の展開の成功には、特にモデル説明とプライバシにおいて、責任ある使用が必要である。 説明可能な人工知能(XAI)は、ユーザーがモデル決定を理解するのに役立つ情報を提供するが、この追加の知識は、プライバシー攻撃のさらなるリスクを露呈する。 したがって、説明を提供することはプライバシーを害する。 画像ベースモデルインバージョンアタックに対するこのリスクを調査し,モデル説明からプライベートイメージデータを再構成する性能を向上させる複数のアタックアーキテクチャを同定した。 対象モデルのみを用いた場合よりもはるかに高いインバージョン性能を実現するマルチモーダル変換CNNアーキテクチャを開発した。 これらのXAI対応インバージョンモデルは、画像説明における空間的知識を活用するために設計された。 どの説明がプライバシーリスクが高いかを理解するために,さまざまな説明タイプや要因が逆性能に与える影響を分析した。 説明を提供していないモデルもいくつかあるが,注意伝達による代理モデルの説明を活用し,説明不能な対象モデルにおいてもインバージョン性能が向上することを示す。 この方法は、まずターゲット予測から説明を反転させ、次にターゲット画像を再構成する。 これらの脅威は、説明の緊急かつ重要なプライバシーリスクを強調し、AI説明可能性とプライバシーの二重要求をバランスさせる新しいプライバシー保護技術への注意を呼びかける。

The successful deployment of artificial intelligence (AI) in many domains from healthcare to hiring requires their responsible use, particularly in model explanations and privacy. Explainable artificial intelligence (XAI) provides more information to help users to understand model decisions, yet this additional knowledge exposes additional risks for privacy attacks. Hence, providing explanation harms privacy. We study this risk for image-based model inversion attacks and identified several attack architectures with increasing performance to reconstruct private image data from model explanations. We have developed several multi-modal transposed CNN architectures that achieve significantly higher inversion performance than using the target model prediction only. These XAI-aware inversion models were designed to exploit the spatial knowledge in image explanations. To understand which explanations have higher privacy risk, we analyzed how various explanation types and factors influence inversion performance. In spite of some models not providing explanations, we further demonstrate increased inversion performance even for non-explainable target models by exploiting explanations of surrogate models through attention transfer. This method first inverts an explanation from the target prediction, then reconstructs the target image. These threats highlight the urgent and significant privacy risks of explanations and calls attention for new privacy preservation techniques that balance the dual-requirement for AI explainability and privacy.
翻訳日:2021-04-27 14:48:11 公開日:2021-04-26
# エルゴード確率微分方程式に対する数値近似の分布に対するワッサーシュタイン距離推定

Wasserstein distance estimates for the distributions of numerical approximations to ergodic stochastic differential equations ( http://arxiv.org/abs/2104.12384v1 )

ライセンス: Link先を確認
J.M. Sanz-Serna, Konstantinos C. Zygalakis(参考訳) 本稿では、エルゴード確率微分方程式の不変分布と、強対数対数の場合の数値近似の分布との間の2ドルワッサーシュタイン距離の非漸近的な研究を可能にする枠組みを提案する。 これにより、過度に損傷されたランゲヴィン力学の文献で提案された多くの異なる積分器を統一的に研究することができる。 さらに, 時間ステップ毎に1段階のみの勾配評価を行うランジュバン動力学の新しい分割法を解析した。 条件番号 $\kappa$ を持つ$d$-次元の強い対数凸分布に対する追加の滑らかさ仮定の下で、このアルゴリズムは、ターゲット分布から最大 $\epsilon>0$ であるような分布から、$\mathcal{o}\big(\kappa^{5/4} d^{1/4}\epsilon^{-1/2} \big)$ の複雑性サンプルを生成する。

We present a framework that allows for the non-asymptotic study of the $2$-Wasserstein distance between the invariant distribution of an ergodic stochastic differential equation and the distribution of its numerical approximation in the strongly log-concave case. This allows us to study in a unified way a number of different integrators proposed in the literature for the overdamped and underdamped Langevin dynamics. In addition, we analyse a novel splitting method for the underdamped Langevin dynamics which only requires one gradient evaluation per time step. Under an additional smoothness assumption on a $d$--dimensional strongly log-concave distribution with condition number $\kappa$, the algorithm is shown to produce with an $\mathcal{O}\big(\kappa^{5/4} d^{1/4}\epsilon^{-1/2} \big)$ complexity samples from a distribution that, in Wasserstein distance, is at most $\epsilon>0$ away from the target distribution.
翻訳日:2021-04-27 14:47:50 公開日:2021-04-26
# ガウス混合モデル削減アルゴリズムの一貫性問題

Consistency issues in Gaussian Mixture Models reduction algorithms ( http://arxiv.org/abs/2104.12586v1 )

ライセンス: Link先を確認
A. D'Ortenzio and C. Manes(参考訳) 多くの文脈において、ガウス混合(gm)は確率分布、おそらくは時変を近似するために用いられる。 一部のアプリケーションでは、GMコンポーネントの数は時間とともに指数関数的に増加し、それらを合理的に制限し続けるために削減手順が必要である。 GMリダクション(GMR)問題は、KLD(Kulback-Leibler Divergence)やISE(Integral Squared Error)のような、削減前後のGMの相似性の異なる尺度を選択することで定式化することができる。 解がクローズドな形で得られないため、過去30年間に多くの近似GMRアルゴリズムが提案されてきたが、いずれも最適性を保証するものではない。 本研究では, 異質性尺度の選択の重要性と, 削減アルゴリズムのすべてのステップと選択した尺度との整合性の問題について論じる。 実際、既存のGMRアルゴリズムのほとんどは、一意の測度と一致しないいくつかのステップで構成されており、そのためGMを最適性からはるかに減らすことができる。 特に、この観点から、 ise と正規化された ise の kld の使用について論じ、比較する。

In many contexts Gaussian Mixtures (GM) are used to approximate probability distributions, possibly time-varying. In some applications the number of GM components exponentially increases over time, and reduction procedures are required to keep them reasonably limited. The GM reduction (GMR) problem can be formulated by choosing different measures of the dissimilarity of GMs before and after reduction, like the Kullback-Leibler Divergence (KLD) and the Integral Squared Error (ISE). Since in no case the solution is obtained in closed form, many approximate GMR algorithms have been proposed in the past three decades, although none of them provides optimality guarantees. In this work we discuss the importance of the choice of the dissimilarity measure and the issue of consistency of all steps of a reduction algorithm with the chosen measure. Indeed, most of the existing GMR algorithms are composed by several steps which are not consistent with a unique measure, and for this reason may produce reduced GMs far from optimality. In particular, the use of the KLD, of the ISE and normalized ISE is discussed and compared in this perspective.
翻訳日:2021-04-27 14:47:29 公開日:2021-04-26
# 会議時間の自動作成のためのスライディング・ウィンドウアプローチ

A Sliding-Window Approach to Automatic Creation of Meeting Minutes ( http://arxiv.org/abs/2104.12324v1 )

ライセンス: Link先を確認
Jia Jin Koay and Alexander Roustai and Xiaojin Dai and Fei Liu(参考訳) 会議の議事録には、議論された問題、決定、会議での行動が記録されている。 仮想空間でかなりの数の会議が行われるとき、ミナリングの重要性は過度に強調できない。 本稿では,会議時間の自動生成のためのスライディングウィンドウ方式を提案する。 これは、長い書き起こしや文書構造の欠如など、話し言葉の性質に関わる問題に取り組むことを目的としており、会議の議事録に含まれている内容を特定するのが困難である。 提案手法では,スライディングウィンドウと神経抽象要約器を組み合わせることで,書き起こしをナビゲートし,有意な内容を見つける。 このアプローチは自然会議会話の書き起こしに基づいて評価され、人間の書き起こしと自動書き起こしの2つのバージョンで得られた結果を比較し、サレントコンテンツのキャプチャーにどの程度成功したかについて議論する。

Meeting minutes record any subject matters discussed, decisions reached and actions taken at meetings. The importance of minuting cannot be overemphasized in a time when a significant number of meetings take place in the virtual space. In this paper, we present a sliding window approach to automatic generation of meeting minutes. It aims to tackle issues associated with the nature of spoken text, including lengthy transcripts and lack of document structure, which make it difficult to identify salient content to be included in the meeting minutes. Our approach combines a sliding window and a neural abstractive summarizer to navigate through the transcripts to find salient content. The approach is evaluated on transcripts of natural meeting conversations, where we compare results obtained for human transcripts and two versions of automatic transcripts and discuss how and to what extent the summarizer succeeds at capturing salient content.
翻訳日:2021-04-27 14:44:01 公開日:2021-04-26
# pangu-$\alpha$:自動並列計算による大規模自己回帰型中国語モデル

PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation ( http://arxiv.org/abs/2104.12369v1 )

ライセンス: Link先を確認
Wei Zeng, Xiaozhe Ren, Teng Su, Hui Wang, Yi Liao, Zhiwei Wang, Xin Jiang, ZhenZhang Yang, Kaisheng Wang, Xiaoda Zhang, Chen Li, Ziyan Gong, Yifan Yao, Xinjing Huang, Jun Wang, Jianfeng Yu, Qi Guo, Yue Yu, Yan Zhang, Jin Wang, Hengtao Tao, Dasen Yan, Zexuan Yi, Fang Peng, Fangqing Jiang, Han Zhang, Lingfeng Deng, Yehong Zhang, Zhe Lin, Chao Zhang, Shaojie Zhang, Mingyue Guo, Shanzhi Gu, Gaojun Fan, Yaowei Wang, Xuefeng Jin, Qun Liu, Yonghong Tian(参考訳) 大規模事前学習言語モデル(PLM)が自然言語処理(NLP)の新しいパラダイムとなった。 GPT-3 のような数十億のパラメータを持つ PLM は、自然言語の理解と生成に \textit{few-shot in-context} 学習で強い性能を示した。 本研究では,PanGu-$\alpha$と呼ばれる大規模自己回帰型言語モデルのトレーニングを,最大200億のパラメータで実施する。 PanGu-$\alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。 MindSpore Auto-parallelは、トレーニングタスクを2048プロセッサに効率的にスケールするための5つの並列性次元で構成され、データ並列性、オペレベルモデル並列性、パイプラインモデル並列性、オプティマイザモデル並列性、リマテリアル化である。 pangu-$\alpha$の一般化能力を高めるために、幅広いドメインから1.1tbの高品質中国データを収集し、モデルを事前学習する。 テキスト要約,質問応答,対話生成など,さまざまなシナリオにおいて,PanGu-$\alpha$の生成能力を実証的に検証する。 さらに,中国のNLPタスクにおいて,モデルスケールが複数ショットのパフォーマンスに与える影響について検討した。 実験結果から,pangu-$\alpha$ が少数またはゼロショット設定で様々なタスクを実行する場合,優れた性能を示した。

Large-scale Pretrained Language Models (PLMs) have become the new paradigm for Natural Language Processing (NLP). PLMs with hundreds of billions parameters such as GPT-3 have demonstrated strong performances on natural language understanding and generation with \textit{few-shot in-context} learning. In this work, we present our practice on training large-scale autoregressive language models named PanGu-$\alpha$, with up to 200 billion parameters. PanGu-$\alpha$ is developed under the MindSpore and trained on a cluster of 2048 Ascend 910 AI processors. The training parallelism strategy is implemented based on MindSpore Auto-parallel, which composes five parallelism dimensions to scale the training task to 2048 processors efficiently, including data parallelism, op-level model parallelism, pipeline model parallelism, optimizer model parallelism and rematerialization. To enhance the generalization ability of PanGu-$\alpha$, we collect 1.1TB high-quality Chinese data from a wide range of domains to pretrain the model. We empirically test the generation ability of PanGu-$\alpha$ in various scenarios including text summarization, question answering, dialogue generation, etc. Moreover, we investigate the effect of model scales on the few-shot performances across a broad range of Chinese NLP tasks. The experimental results demonstrate the superior capabilities of PanGu-$\alpha$ in performing various tasks under few-shot or zero-shot settings.
翻訳日:2021-04-27 14:43:43 公開日:2021-04-26
# 若いイタリア人学生をNLPに導入するための普及ワークショップ

A dissemination workshop for introducing young Italian students to NLP ( http://arxiv.org/abs/2104.12405v1 )

ライセンス: Link先を確認
Lucio Messina (1), Lucia Busso (2), Claudia Roberta Combei (3), Ludovica Pannitto (4), Alessio Miaschi (5), Gabriele Sarti (6) and Malvina Nissim (7) ((1) Independent Researcher, (2) Aston University, (3) University of Bologna, (4) University of Trento, (5) University of Pisa, (6) University of Trieste, (7) University of Groningen)(参考訳) 我々は,いくつかのイタリア科学祭の研究室で,nlpを普及させるために開発されたゲームベースの教材を解説し,活用する。

We describe and make available the game-based material developed for a laboratory run at several Italian science festivals to popularize NLP among young students.
翻訳日:2021-04-27 14:43:18 公開日:2021-04-26
# ブレスレットとレストランメニューによるNLP教育 : イタリア学生のためのインタラクティブワークショップ

Teaching NLP with Bracelets and Restaurant Menus: An Interactive Workshop for Italian Students ( http://arxiv.org/abs/2104.12422v1 )

ライセンス: Link先を確認
Ludovica Pannitto (1), Lucia Busso (2), Claudia Roberta Combei (3), Lucio Messina (4), Alessio Miaschi (5), Gabriele Sarti (6) and Malvina Nissim (7) ((1) University of Trento, (2) Aston University, (3) University of Bologna, (4) Independent Researcher, (5) University of Pisa, (6) University of Trieste, (7) University of Groningen)(参考訳) 自然言語処理(NLP)は、若者が日常生活で使用する多くのツールの中核にあるが、高校カリキュラム(イタリア語)には計算言語学の教育は含まれていない。 この露出の欠如により、そのようなツールの使用は不可能であり、計算言語学を大学の学位として選ぶことは不可能である。 若者に対する意識,好奇心,長期的関心を高めるために,13歳から18歳までの高校生を対象に,nlpと計算言語学の基本原則を説明する対話型ワークショップを開発した。 ワークショップは、参加者がコンピュータが言語を理解する際に直面する最も一般的な問題(音声認識からマルコフ連鎖、構文解析など)を解決するために必要な機械の役割を演じるゲームの形をとる。 参加者は、インストラクターの助けを借りてワークショップを案内され、その活動を示し、計算言語学からコアコンセプトを説明する。 ワークショップは2019年から2021年にかけて、対面とオンラインの両方で、イタリアで多数のコンセントで開催された。

Although Natural Language Processing (NLP) is at the core of many tools young people use in their everyday life, high school curricula (in Italy) do not include any computational linguistics education. This lack of exposure makes the use of such tools less responsible than it could be and makes choosing computational linguistics as a university degree unlikely. To raise awareness, curiosity, and longer-term interest in young people, we have developed an interactive workshop designed to illustrate the basic principles of NLP and computational linguistics to high school Italian students aged between 13 and 18 years. The workshop takes the form of a game in which participants play the role of machines needing to solve some of the most common problems a computer faces in understanding language: from voice recognition to Markov chains to syntactic parsing. Participants are guided through the workshop with the help of instructors, who present the activities and explain core concepts from computational linguistics. The workshop was presented at numerous outlets in Italy between 2019 and 2021, both face-to-face and online.
翻訳日:2021-04-27 14:43:15 公開日:2021-04-26
# メッセージの説得力とは? 9つの事例研究における説得性への適応の同定

What Makes a Message Persuasive? Identifying Adaptations Towards Persuasiveness in Nine Exploratory Case Studies ( http://arxiv.org/abs/2104.12454v1 )

ライセンス: Link先を確認
Sebastian Duerr, Krystian Teodor Lange, Peter A. Gloor(参考訳) 他人を説得する能力は、専門的かつ個人的な成功に不可欠である。 しかし、説得力のあるメッセージを作るのは困難であり、様々な課題がある。 専門的・専門的でない作家が執筆シナリオで行う適応を,主観的説得力を高めるために,9つの事例研究を行った。 さらに,これらの著者が直面した課題を特定し,説得力のある自然言語生成,すなわち人工知能を用いて解決する戦略を特定した。 我々の研究結果は、人間は高い説得力(より専門レベルの作家にとって)を達成でき、人工知能はそれらを補完し、その過程における寛大さと整合性を達成することができることを示している。

The ability to persuade others is critical to professional and personal success. However, crafting persuasive messages is demanding and poses various challenges. We conducted nine exploratory case studies to identify adaptations that professional and non-professional writers make in written scenarios to increase their subjective persuasiveness. Furthermore, we identified challenges that those writers faced and identified strategies to resolve them with persuasive natural language generation, i.e., artificial intelligence. Our findings show that humans can achieve high degrees of persuasiveness (more so for professional-level writers), and artificial intelligence can complement them to achieve increased celerity and alignment in the process.
翻訳日:2021-04-27 14:42:57 公開日:2021-04-26
# 転帰学習における情報源の価値評価

Evaluating the Values of Sources in Transfer Learning ( http://arxiv.org/abs/2104.12567v1 )

ライセンス: Link先を確認
Md Rizwan Parvez and Kai-Wei Chang(参考訳) データリッチソースでトレーニングされたモデルを低リソースターゲットに適応するトランスファー学習は、自然言語処理(NLP)に広く適用されている。 しかし、複数のソース上で転送モデルをトレーニングする場合、すべてのソースがターゲットに等しく有用であるとは限らない。 モデルをより良く転送するには、ソースの値を理解することが不可欠である。 本稿では,Shapley値法に基づく伝達学習における情報源(ドメイン/言語など)の有用性を定量化する効率的な情報源評価フレームワークSEAL-Shapを開発する。 クロスドメイントランスファーとクロスリンガルトランスファーの両方に関する実験と包括的解析により、我々のフレームワークは有用なトランスファーソースの選択に有効であるだけでなく、ソース値が直感的なソース・ターゲットの類似性に合致することを示した。

Transfer learning that adapts a model trained on data-rich sources to low-resource targets has been widely applied in natural language processing (NLP). However, when training a transfer model over multiple sources, not every source is equally useful for the target. To better transfer a model, it is essential to understand the values of the sources. In this paper, we develop SEAL-Shap, an efficient source valuation framework for quantifying the usefulness of the sources (e.g., domains/languages) in transfer learning based on the Shapley value method. Experiments and comprehensive analyses on both cross-domain and cross-lingual transfers demonstrate that our framework is not only effective in choosing useful transfer sources but also the source values match the intuitive source-target similarity.
翻訳日:2021-04-27 14:42:46 公開日:2021-04-26
# Focused Attentionはドキュメント生成を改善する

Focused Attention Improves Document-Grounded Generation ( http://arxiv.org/abs/2104.12714v1 )

ライセンス: Link先を確認
Shrimai Prabhumoye, Kazuma Hashimoto, Yingbo Zhou, Alan W Black, Ruslan Salakhutdinov(参考訳) 文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。 本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。 本研究は,文書のコンテキスト駆動表現の構築に着目し,文書内の情報に特異的な注意を喚起することを目的とした,大規模事前学習エンコーダデコーダモデルの2つの新しい適応手法を提案する。 さらに、これらのタスクに対してより強力なBARTベースラインを提供します。 提案手法は,文書への参照と関連性に関する人間による評価と,自動化(BLEU-4点の48%以上)の既存手法よりも優れている。 さらに、生成した出力の包括的な手動検査を行い、これらのタスクをモデル化する際の今後の方向性についての洞察を提供するためにエラーを分類する。

Document grounded generation is the task of using the information provided in a document to improve text generation. This work focuses on two different document grounded generation tasks: Wikipedia Update Generation task and Dialogue response generation. Our work introduces two novel adaptations of large scale pre-trained encoder-decoder models focusing on building context driven representation of the document and enabling specific attention to the information in the document. Additionally, we provide a stronger BART baseline for these tasks. Our proposed techniques outperform existing methods on both automated (at least 48% increase in BLEU-4 points) and human evaluation for closeness to reference and relevance to the document. Furthermore, we perform comprehensive manual inspection of the generated output and categorize errors to provide insights into future directions in modeling these tasks.
翻訳日:2021-04-27 14:42:32 公開日:2021-04-26
# ビジュアルセマンティクスに向けて

Towards Visual Semantics ( http://arxiv.org/abs/2104.12379v1 )

ライセンス: Link先を確認
Fausto Giunchiglia and Luca Erculiani and Andrea Passerini(参考訳) 視覚的セマンティックス(Visual Semantics)では、人間の心的表現、すなわち視覚的に知覚されるものの概念をどのように構築するかを研究する。 このような概念を物質概念と呼びます 本稿では,単語の意味を符号化するために語彙意味論(Lexical Semantics)を用いて,分類概念と呼ぶ概念に対応する物質概念を学習する理論とアルゴリズムを提案する。 The theory and algorithm are based on three main contributions: (i) substance concepts are modeled as visual objects , namely sequences of similar frames, as perceived in multiple encounters ; (ii) substance concepts are organized into a visual subsumption hierarchy based on the notions of Genus and Differentia that resemble the notions that, in Lexical Semantics, allow to construct hierarchies of classification concepts; (iii) the human feedback is exploited not to name objects, as it has been the case so far, but, rather, to align the hierarchy of substance concepts with that of classification concepts. この学習アルゴリズムは、深さ2の階層のベースケースに対して実装される。 実験は、予備的ではあるが、アルゴリズムが妥当な正確さで属と分化の概念を取得することができたことを示しているが、これは少数の例を見て、そのごく一部について監督を受けているにもかかわらずである。

In Visual Semantics we study how humans build mental representations, i.e., concepts , of what they visually perceive. We call such concepts, substance concepts. In this paper we provide a theory and an algorithm which learns substance concepts which correspond to the concepts, that we call classification concepts , that in Lexical Semantics are used to encode word meanings. The theory and algorithm are based on three main contributions: (i) substance concepts are modeled as visual objects , namely sequences of similar frames, as perceived in multiple encounters ; (ii) substance concepts are organized into a visual subsumption hierarchy based on the notions of Genus and Differentia that resemble the notions that, in Lexical Semantics, allow to construct hierarchies of classification concepts; (iii) the human feedback is exploited not to name objects, as it has been the case so far, but, rather, to align the hierarchy of substance concepts with that of classification concepts. The learning algorithm is implemented for the base case of a hierarchy of depth two. The experiments, though preliminary, show that the algorithm manages to acquire the notions of Genus and Differentia with reasonable accuracy, this despite seeing a small number of examples and receiving supervision on a fraction of them.
翻訳日:2021-04-27 14:41:58 公開日:2021-04-26
# 双方向・自己回帰変換器を用いた多面的画像描画

Diverse Image Inpainting with Bidirectional and Autoregressive Transformers ( http://arxiv.org/abs/2104.12335v1 )

ライセンス: Link先を確認
Yingchen Yu, Fangneng Zhan, Rongliang Wu, Jianxiong Pan, Kaiwen Cui, Shijian Lu, Feiying Ma, Xuansong Xie, Chunyan Miao(参考訳) 画像の塗装は、不確定な逆問題であり、自然に、欠落した領域を合理的かつ現実的に埋める多様なコンテンツを許容する。 畳み込みニューラルネットワーク(CNN)を用いた一般的なアプローチは、視覚的に快適なコンテンツを合成することができるが、CNNは、グローバルな特徴を捉えるための限られた知覚領域に悩まされている。 画像レベルの注意によって、トランスフォーマーは長距離の依存関係をモデル化し、ピクセル列分布の自己回帰モデリングで多様なコンテンツを生成することができる。 しかしながら、変圧器における一方向の注意は、崩壊した領域が任意の方向からの文脈を持つ任意の形状を持つことができるため、準最適である。 本稿では,多種多様な塗り込みコンテンツの自己回帰生成のための深い双方向コンテキストをモデル化する,双方向自己回帰トランスフォーマ(bat)を備えた画像塗り込みフレームワークbat-fillを提案する。 BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。 具体的には、まずトランスフォーマーを適用して低解像度の多元的画像構造を生成し、cnnベースのアップサンプリングネットワークで高解像度の現実的なテクスチャの詳細を合成する。 複数のデータセットに対する大規模な実験により、BAT-Fillは画像の質的および定量的な塗布において、優れた多様性と忠実性を達成することが示された。

Image inpainting is an underdetermined inverse problem, it naturally allows diverse contents that fill up the missing or corrupted regions reasonably and realistically. Prevalent approaches using convolutional neural networks (CNNs) can synthesize visually pleasant contents, but CNNs suffer from limited perception fields for capturing global features. With image-level attention, transformers enable to model long-range dependencies and generate diverse contents with autoregressive modeling of pixel-sequence distributions. However, the unidirectional attention in transformers is suboptimal as corrupted regions can have arbitrary shapes with contexts from arbitrary directions. We propose BAT-Fill, an image inpainting framework with a novel bidirectional autoregressive transformer (BAT) that models deep bidirectional contexts for autoregressive generation of diverse inpainting contents. BAT-Fill inherits the merits of transformers and CNNs in a two-stage manner, which allows to generate high-resolution contents without being constrained by the quadratic complexity of attention in transformers. Specifically, it first generates pluralistic image structures of low resolution by adapting transformers and then synthesizes realistic texture details of high resolutions with a CNN-based up-sampling network. Extensive experiments over multiple datasets show that BAT-Fill achieves superior diversity and fidelity in image inpainting qualitatively and quantitatively.
翻訳日:2021-04-27 14:35:40 公開日:2021-04-26
# データ探究:ブラックボックス攻撃の訓練を効果的に置き換える

Delving into Data: Effectively Substitute Training for Black-box Attack ( http://arxiv.org/abs/2104.12378v1 )

ライセンス: Link先を確認
Wenxuan Wang and Bangjie Yin and Taiping Yao and Li Zhang and Yanwei Fu and Shouhong Ding and Jilin Li and Feiyue Huang and Xiangyang Xue(参考訳) ディープモデルは、敵対的なサンプルを処理する際の脆弱性を示している。 ブラックボックス攻撃については、攻撃モデルのアーキテクチャや重みにアクセスできることなく、敵攻撃の代替モデルを訓練することが注目されている。 従来の代替トレーニングアプローチでは、実際のトレーニングデータや合成データに基づいてターゲットモデルの知識を盗むことに重点を置いている。 本稿では,知識盗みプロセスで使用されるデータの分散設計に焦点をあてた,新しい視点代替訓練を提案する。 より具体的には、広範囲に分散した大規模データを合成するための多様なデータ生成モジュールが提案されている。 また,意思決定境界付近に分散するデータに注目して,対向代用トレーニング戦略を導入する。 これら2つのモジュールの組み合わせにより、代替モデルとターゲットモデルの一貫性がさらに向上し、敵攻撃の有効性が大幅に向上する。 非標的および目標攻撃条件下での最先端の競合相手に対する本手法の有効性を示す。 詳細な可視化と分析も提案手法の利点を理解するのに役立つ。

Deep models have shown their vulnerability when processing adversarial samples. As for the black-box attack, without access to the architecture and weights of the attacked model, training a substitute model for adversarial attacks has attracted wide attention. Previous substitute training approaches focus on stealing the knowledge of the target model based on real training data or synthetic data, without exploring what kind of data can further improve the transferability between the substitute and target models. In this paper, we propose a novel perspective substitute training that focuses on designing the distribution of data used in the knowledge stealing process. More specifically, a diverse data generation module is proposed to synthesize large-scale data with wide distribution. And adversarial substitute training strategy is introduced to focus on the data distributed near the decision boundary. The combination of these two modules can further boost the consistency of the substitute model and target model, which greatly improves the effectiveness of adversarial attack. Extensive experiments demonstrate the efficacy of our method against state-of-the-art competitors under non-target and target attack settings. Detailed visualization and analysis are also provided to help understand the advantage of our method.
翻訳日:2021-04-27 14:35:15 公開日:2021-04-26
# 深部構造モデルを用いた実用的広角画像補正

Practical Wide-Angle Portraits Correction with Deep Structured Models ( http://arxiv.org/abs/2104.12464v1 )

ライセンス: Link先を確認
Jing Tan, Shan Zhao, Pengfei Xiong, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu(参考訳) 広角の肖像画はしばしば拡張された景色を楽しめる。 しかし、特に、背景が歪んで顔が伸びているグループ肖像画を撮影する際には、視線歪みが顕著である。 本稿では,このような人工物を自由撮影写真から取り除くための,最初のディープラーニング手法を提案する。 具体的には、入力として広角ポートレートが与えられた場合、LineNet、ShapeNet、トランジションモジュール(TM)で構成されるカスケードネットワークを構築し、背景の視点歪みを補正し、顔領域の立体投影に適応し、これら2つのプロジェクション間のスムーズな遷移を実現する。 ネットワークをトレーニングするために、アイデンティティ、シーン、カメラモジュールに大きな多様性を持つ最初の視点ポートレートデータセットを構築しました。 定量的評価には,ラインの整合性と面の整合性という2つの新しい指標を導入する。 従来の最先端手法と比較して,カメラの歪みパラメータは不要である。 我々は,従来の最先端手法よりも質的,定量的に優れていることを示す。

Wide-angle portraits often enjoy expanded views. However, they contain perspective distortions, especially noticeable when capturing group portrait photos, where the background is skewed and faces are stretched. This paper introduces the first deep learning based approach to remove such artifacts from freely-shot photos. Specifically, given a wide-angle portrait as input, we build a cascaded network consisting of a LineNet, a ShapeNet, and a transition module (TM), which corrects perspective distortions on the background, adapts to the stereographic projection on facial regions, and achieves smooth transitions between these two projections, accordingly. To train our network, we build the first perspective portrait dataset with a large diversity in identities, scenes and camera modules. For the quantitative evaluation, we introduce two novel metrics, line consistency and face congruence. Compared to the previous state-of-the-art approach, our method does not require camera distortion parameters. We demonstrate that our approach significantly outperforms the previous state-of-the-art approach both qualitatively and quantitatively.
翻訳日:2021-04-27 14:34:58 公開日:2021-04-26
# ゼロショット連続学習のための生成再生型動的VAE

Dynamic VAEs with Generative Replay for Continual Zero-shot Learning ( http://arxiv.org/abs/2104.12468v1 )

ライセンス: Link先を確認
Subhankar Ghosh(参考訳) 連続ゼロショット学習(Continuous Zero-shot Learning, CZSL)は、トレーニング中にモデルが見ていないオブジェクトを逐次分類する新しいドメインである。 データがいくつかのクラスに対してのみ属性を持ち続ける場合、実際のシナリオではゼロショットや連続的な学習アプローチよりも適しています。 連続学習(CL)は破滅的な忘れ込みに悩まされ、ゼロショット学習(ZSL)モデルは訓練中に実際のデータ(または特徴)が欠如しているため、最先端の教師付き分類器のようなオブジェクトを分類できない。 本稿では,タスクごとにサイズが拡大する新しいゼロショット学習(DVGR-CZSL)モデルを提案する。 当社のハイブリッドモデル(dvgr-czsl)は,ベースラインを上回っており,cub,awa1,awa2,apyなどのデータセットに有効であることを示す。 ZSL(Zero-Shot Learning)を用いた逐次学習において,本手法が優れていることを示す。 また、SUNデータセットに関する結果についても論じる。

Continual zero-shot learning(CZSL) is a new domain to classify objects sequentially the model has not seen during training. It is more suitable than zero-shot and continual learning approaches in real-case scenarios when data may come continually with only attributes for a few classes and attributes and features for other classes. Continual learning(CL) suffers from catastrophic forgetting, and zero-shot learning(ZSL) models cannot classify objects like state-of-the-art supervised classifiers due to lack of actual data(or features) during training. This paper proposes a novel continual zero-shot learning (DVGR-CZSL) model that grows in size with each task and uses generative replay to update itself with previously learned classes to avoid forgetting. We demonstrate our hybrid model(DVGR-CZSL) outperforms the baselines and is effective on several datasets, i.e., CUB, AWA1, AWA2, and aPY. We show our method is superior in task sequentially learning with ZSL(Zero-Shot Learning). We also discuss our results on the SUN dataset.
翻訳日:2021-04-27 14:34:41 公開日:2021-04-26
# 密集点予測:群衆数と局所化のための単純なベースライン

Dense Point Prediction: A Simple Baseline for Crowd Counting and Localization ( http://arxiv.org/abs/2104.12505v1 )

ライセンス: Link先を確認
Yi Wang, Xinyu Hou, and Lap-Pui Chau(参考訳) 本論文では,SCALNet という,シンプルながら効果的なクラスタカウントとローカライズネットワークを提案する。 カウントとローカライゼーションのタスクを分離する既存の作業とは異なり、これらのタスクはピクセルワイドな予測問題であり、それらをエンドツーエンドのフレームワークに統合する。 特に,群集カウントには,平均正方形誤差(MSE)の損失によって監督されるカウントヘッドを採用する。 群衆のローカライゼーションにとって重要な洞察は、人のキーポイント、すなわち頭の中心を認識することである。 本研究では,2つの損失関数,すなわち負抑制焦点損失(NSF)と偽陽性損失(FP)の2つの損失関数によって訓練された密集群を識別する局在化ヘッドを提案する。 近年の大規模ベンチマークであるNWPU-Crowdの実験により, 提案手法は, 群集のローカライゼーションおよびカウントタスクにおいて, それぞれ5%以上, 10%以上向上していることがわかった。 コードはhttps://github.com/WangyiNTU/SCALNetで公開されている。

In this paper, we propose a simple yet effective crowd counting and localization network named SCALNet. Unlike most existing works that separate the counting and localization tasks, we consider those tasks as a pixel-wise dense prediction problem and integrate them into an end-to-end framework. Specifically, for crowd counting, we adopt a counting head supervised by the Mean Square Error (MSE) loss. For crowd localization, the key insight is to recognize the keypoint of people, i.e., the center point of heads. We propose a localization head to distinguish dense crowds trained by two loss functions, i.e., Negative-Suppressed Focal (NSF) loss and False-Positive (FP) loss, which balances the positive/negative examples and handles the false-positive predictions. Experiments on the recent and large-scale benchmark, NWPU-Crowd, show that our approach outperforms the state-of-the-art methods by more than 5% and 10% improvement in crowd localization and counting tasks, respectively. The code is publicly available at https://github.com/WangyiNTU/SCALNet.
翻訳日:2021-04-27 14:34:22 公開日:2021-04-26
# シミュレーションに基づく3次元生成対向ネットワークによる内耳金属アーチファクト低減

Inner-ear Augmented Metal Artifact Reduction with Simulation-based 3D Generative Adversarial Networks ( http://arxiv.org/abs/2104.12510v1 )

ライセンス: Link先を確認
Wang Zihao, Vandersteen Clair, Demarcy Thomas, Gnansia Dan, Raffaelli Charles, Guevara Nicolas, Delingette Herve(参考訳) 金属人工物は、c}omputed {t}omography (CT)における術後画像の高品質な視覚評価のためにしばしば困難を生じる。 この問題に対処するために、多数の方法が提案されているが、{these} 法は通常のctスキャン用に設計されており、小さなインプラントの撮影では性能が不十分である。 術後の高分解能ct画像の文脈において,生成的逆ニューラルネットワークに基づく3次元金属人工物除去アルゴリズムを提案する。 人工内耳電極で作成した物理的にリアルなCT金属アーチファクトを,術前の画像上でシミュレーションした。 生成された画像は、アーティファクト削減のために3次元生成逆ネットワークを訓練するのに役立つ。 人工内耳装用後の画像から, 臨床およびコーンビームCTを質的, 定量的に評価した。 これらの実験により, 提案手法が一般金属アーティファクト還元手法より優れていることが示された。

Metal Artifacts creates often difficulties for a high quality visual assessment of post-operative imaging in {c}omputed {t}omography (CT). A vast body of methods have been proposed to tackle this issue, but {these} methods were designed for regular CT scans and their performance is usually insufficient when imaging tiny implants. In the context of post-operative high-resolution {CT} imaging, we propose a 3D metal {artifact} reduction algorithm based on a generative adversarial neural network. It is based on the simulation of physically realistic CT metal artifacts created by cochlea implant electrodes on preoperative images. The generated images serve to train a 3D generative adversarial networks for artifacts reduction. The proposed approach was assessed qualitatively and quantitatively on clinical conventional and cone-beam CT of cochlear implant postoperative images. These experiments show that the proposed method {outperforms other} general metal artifact reduction approaches.
翻訳日:2021-04-27 14:34:03 公開日:2021-04-26
# Visformer:視覚に優しいトランスフォーマー

Visformer: The Vision-friendly Transformer ( http://arxiv.org/abs/2104.12533v1 )

ライセンス: Link先を確認
Zhengsu Chen, Lingxi Xie, Jianwei Niu, Xuefeng Liu, Longhui Wei, Qi Tian(参考訳) 過去1年間、視覚問題にトランスフォーマーモジュールを適用する急速な開発が見られた。 一部の研究者は、トランスフォーマーモデルがデータに適合する能力を持っていることを実証しているが、特にトレーニングデータに制限がある場合、これらのモデルが過剰に適合していることを示す証拠は増え続けている。 本稿では,トランスフォーマーモデルから畳み込みモデルへ段階的に移行するステップバイステップ操作による実証的研究を提案する。 遷移過程において得られた結果は、視覚認識を改善するのに有用なメッセージを提供する。 これらの観測に基づいて,視覚にやさしいトランスフォーマーを省略したVisformerという新しいアーキテクチャを提案する。 同じ計算複雑性で、Visformerは、ImageNet分類精度の観点からTransformerベースのモデルと畳み込みベースのモデルの両方より優れており、モデルの複雑さが小さくなり、トレーニングセットが小さくなると、その利点はより重要になる。 コードはhttps://github.com/danczs/visformerで入手できる。

The past year has witnessed the rapid development of applying the Transformer module to vision problems. While some researchers have demonstrated that Transformer-based models enjoy a favorable ability of fitting data, there are still growing number of evidences showing that these models suffer over-fitting especially when the training data is limited. This paper offers an empirical study by performing step-by-step operations to gradually transit a Transformer-based model to a convolution-based model. The results we obtain during the transition process deliver useful messages for improving visual recognition. Based on these observations, we propose a new architecture named Visformer, which is abbreviated from the `Vision-friendly Transformer'. With the same computational complexity, Visformer outperforms both the Transformer-based and convolution-based models in terms of ImageNet classification accuracy, and the advantage becomes more significant when the model complexity is lower or the training set is smaller. The code is available at https://github.com/danczs/Visformer.
翻訳日:2021-04-27 14:33:51 公開日:2021-04-26
# 視覚表現学習のための相互コントラスト学習

Mutual Contrastive Learning for Visual Representation Learning ( http://arxiv.org/abs/2104.12565v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Linhang Cai, Yongjun Xu(参考訳) 本稿では,汎用視覚表現学習のための相互コントラスト学習(mcl)と呼ばれる協調学習手法を提案する。 MCLの中核となる考え方は、モデルのコホート間の相互相互作用と対照的分布の移動である。 MCLから恩恵を受けるため、各モデルは他者からさらにコントラスト的な知識を学ぶことができ、視覚認識タスクにおいてより有意義な特徴表現をもたらす。 MCLは概念的にはシンプルですが、経験的に強力です。 教師付き表現学習と自己教師付き表現学習の両方に適用可能な汎用フレームワークである。 教師付きおよび自己教師型画像分類,転送学習,少数ショット学習による実験結果から,MCLが一貫した性能向上につながることが確認された。

We present a collaborative learning method called Mutual Contrastive Learning (MCL) for general visual representation learning. The core idea of MCL is to perform mutual interaction and transfer of contrastive distributions among a cohort of models. Benefiting from MCL, each model can learn extra contrastive knowledge from others, leading to more meaningful feature representations for visual recognition tasks. We emphasize that MCL is conceptually simple yet empirically powerful. It is a generic framework that can be applied to both supervised and self-supervised representation learning. Experimental results on supervised and self-supervised image classification, transfer learning and few-shot learning show that MCL can lead to consistent performance gains, demonstrating that MCL can guide the network to generate better feature representations.
翻訳日:2021-04-27 14:33:34 公開日:2021-04-26
# スパーススパイク畳み込みニューラルネットワークを用いたイベントカメラからの学習

Learning from Event Cameras with Sparse Spiking Convolutional Neural Networks ( http://arxiv.org/abs/2104.12579v1 )

ライセンス: Link先を確認
Lo\"ic Cordone, Beno\^it Miramond and Sonia Ferrante(参考訳) 畳み込みニューラルネットワーク(CNN)は、目覚ましい結果と学習の容易さのおかげで、コンピュータビジョン問題に対する事実上の解決策になった。 これらのネットワークは、人工ニューロンと呼ばれる接続されたユニットの層で構成され、生物学的脳内のニューロンをゆるくモデル化する。 しかし、従来のハードウェア(CPU/GPU)への実装は高消費電力となり、組み込みシステムへの統合が困難になる。 例えば自動車では、組込みアルゴリズムはエネルギー、レイテンシ、精度の面で非常に高い制約がある。 より効率的なコンピュータビジョンアルゴリズムを設計するために、イベントカメラとスパイクニューラルネットワーク(SNN)を用いたエンドツーエンドの生物学的なアプローチを提案する。 イベントカメラは非同期かつスパースなイベントを出力し、信じられないほど効率的なデータソースを提供するが、CNNのような同期的で高密度なアルゴリズムでこれらのイベントを処理することは、大きなメリットをもたらすことはない。 この制限に対処するために、スパイキングニューラルネットワーク(SNN)を使用し、これはより生物学的に現実的なニューラルネットワークであり、ユニットは離散スパイクを使用して通信する。 運用の性質上、ハードウェアフレンドリーでエネルギ効率が高いが、トレーニングは依然として課題である。 提案手法は,一般的なディープラーニングフレームワークであるPyTorchを用いて,イベントデータから直接,スパーススパイク畳み込みニューラルネットワークのトレーニングを可能にする。 一般的なDVS128 Gesture Datasetの精度、空間性、トレーニング時間の面でのパフォーマンスは、このバイオインスパイアされたアプローチを使って、低消費電力のニューロモルフィックハードウェアにリアルタイムアプリケーションを埋め込むことができる。

Convolutional neural networks (CNNs) are now the de facto solution for computer vision problems thanks to their impressive results and ease of learning. These networks are composed of layers of connected units called artificial neurons, loosely modeling the neurons in a biological brain. However, their implementation on conventional hardware (CPU/GPU) results in high power consumption, making their integration on embedded systems difficult. In a car for example, embedded algorithms have very high constraints in term of energy, latency and accuracy. To design more efficient computer vision algorithms, we propose to follow an end-to-end biologically inspired approach using event cameras and spiking neural networks (SNNs). Event cameras output asynchronous and sparse events, providing an incredibly efficient data source, but processing these events with synchronous and dense algorithms such as CNNs does not yield any significant benefits. To address this limitation, we use spiking neural networks (SNNs), which are more biologically realistic neural networks where units communicate using discrete spikes. Due to the nature of their operations, they are hardware friendly and energy-efficient, but training them still remains a challenge. Our method enables the training of sparse spiking convolutional neural networks directly on event data, using the popular deep learning framework PyTorch. The performances in terms of accuracy, sparsity and training time on the popular DVS128 Gesture Dataset make it possible to use this bio-inspired approach for the future embedding of real-time applications on low-power neuromorphic hardware.
翻訳日:2021-04-27 14:32:55 公開日:2021-04-26
# patchguard++: 敵対的パッチに対する効率的な証明可能な攻撃検出

PatchGuard++: Efficient Provable Attack Detection against Adversarial Patches ( http://arxiv.org/abs/2104.12609v1 )

ライセンス: Link先を確認
Chong Xiang, Prateek Mittal(参考訳) 逆パッチは、制限領域内の画像画素を任意に操作して、モデル誤分類を誘導することができる。 この局所攻撃の脅威は、被害者のオブジェクトにパッチを付けることで、敵が物理的に実現可能な攻撃をマウントできるため、大きな注目を集めている。 最近の実証可能なロバストな防御は一般的に、小さな受容フィールドを持つcnnと堅牢なモデル予測のためのセキュアな機能アグリゲーションを使用することで、patguardフレームワークに従っている。 本稿では,PatchGuardをPatchGuard++に拡張して,敵のパッチ攻撃を確実に検出し,証明可能な堅牢性とクリーンな精度を向上する。 PatchGuard++では、まず、小さな受信フィールドを持つCNNを使って特徴抽出を行い、敵パッチによって破損した特徴の数が制限されるようにします。 次に,マスクを特徴空間に適用し,可能なすべてのマスク特徴マップの予測を評価する。 最後に、敵パッチ攻撃をキャッチするために、マスク付き予測からパターンを抽出する。 ImageNette(ImageNetの10クラスのサブセット)、ImageNet、CIFAR-10上でPatchGuard++を評価し、PatchGuard++が証明可能な堅牢性とクリーンなパフォーマンスを大幅に向上することを示した。

An adversarial patch can arbitrarily manipulate image pixels within a restricted region to induce model misclassification. The threat of this localized attack has gained significant attention because the adversary can mount a physically-realizable attack by attaching patches to the victim object. Recent provably robust defenses generally follow the PatchGuard framework by using CNNs with small receptive fields and secure feature aggregation for robust model predictions. In this paper, we extend PatchGuard to PatchGuard++ for provably detecting the adversarial patch attack to boost both provable robust accuracy and clean accuracy. In PatchGuard++, we first use a CNN with small receptive fields for feature extraction so that the number of features corrupted by the adversarial patch is bounded. Next, we apply masks in the feature space and evaluate predictions on all possible masked feature maps. Finally, we extract a pattern from all masked predictions to catch the adversarial patch attack. We evaluate PatchGuard++ on ImageNette (a 10-class subset of ImageNet), ImageNet, and CIFAR-10 and demonstrate that PatchGuard++ significantly improves the provable robustness and clean performance.
翻訳日:2021-04-27 14:32:27 公開日:2021-04-26
# CAGAN:Attention GANを併用したテキスト・ツー・イメージ生成

CAGAN: Text-To-Image Generation with Combined Attention GANs ( http://arxiv.org/abs/2104.12663v1 )

ライセンス: Link先を確認
Henning Schulze and Dogucan Yaman and Alexander Waibel(参考訳) 自然言語の記述に従って画像を生成することは難しい課題である。 本研究では,テキスト記述に基づく写真リアルな画像を生成するためのCAGAN(Combined Attention Generative Adversarial Network)を提案する。 提案するcaganは2つの注意モデルを用いている: 関連する単語に基づいて異なるサブ領域を描画する単語注意、チャネル間の非線形相互作用を捉えるための押し出しおよび押出し注意である。 スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。 さらに,1つの評価基準によるモデル判断は,高得点の局所的自己注意を付加した追加モデルを開発することで誤解を招く可能性があることを実証し,特徴反復による非現実的な画像を生成する。

Generating images according to natural language descriptions is a challenging task. In this work, we propose the Combined Attention Generative Adversarial Network (CAGAN) to generate photo-realistic images according to textual descriptions. The proposed CAGAN utilises two attention models: word attention to draw different sub-regions conditioned on related words; and squeeze-and-excitation attention to capture non-linear interaction among channels. With spectral normalisation to stabilise training, our proposed CAGAN improves the state of the art on the IS and FID on the CUB dataset and the FID on the more challenging COCO dataset. Furthermore, we demonstrate that judging a model by a single evaluation metric can be misleading by developing an additional model adding local self-attention which scores a higher IS, outperforming the state of the art on the CUB dataset, but generates unrealistic images through feature repetition.
翻訳日:2021-04-27 14:32:05 公開日:2021-04-26
# ディープラーニングによる外見に基づく視線推定: レビューとベンチマーク

Appearance-based Gaze Estimation With Deep Learning: A Review and Benchmark ( http://arxiv.org/abs/2104.12668v1 )

ライセンス: Link先を確認
Yihua Cheng, Haofei Wang, Yiwei Bao and Feng Lu(参考訳) 視線推定は、人が見ている場所を明らかにする。 それは人間の意図を理解するための重要な手がかりである。 近年のディープラーニングの発展は多くのコンピュータビジョンタスクに革命をもたらしたが、外観に基づく視線推定は例外ではない。 しかし、視線推定タスクのためのディープラーニングアルゴリズムを設計するためのガイドラインが欠けている。 本稿では,ディープラーニングを用いた外見に基づく視線推定手法の総合的なレビューを行う。 本稿では,処理パイプラインを要約し,これらの手法について,深い特徴抽出,ディープニューラルネットワークアーキテクチャ設計,パーソナルキャリブレーション,デバイスとプラットフォームという4つの視点から考察する。 データ前処理と後処理は視線推定に不可欠であるため,顔・目の検出方法,データ修正方法,2D/3D視線変換法,視線原点変換法も検討する。 様々な視線推定手法の性能を十分に比較するために,公開されている視線推定データセットをすべて特徴付け,典型的な視線推定アルゴリズムのコードを収集する。 これらのコードを実装し、異なるメソッドの結果を同じ評価指標に変換するベンチマークを設定します。 本論文は,深層学習に基づく視線推定手法開発への参考となるだけでなく,将来の視線推定研究の指針となる。 実装されたメソッドとデータ処理コードはhttp://phi-ai.org/GazeHub.orgで公開されている。

Gaze estimation reveals where a person is looking. It is an important clue for understanding human intention. The recent development of deep learning has revolutionized many computer vision tasks, the appearance-based gaze estimation is no exception. However, it lacks a guideline for designing deep learning algorithms for gaze estimation tasks. In this paper, we present a comprehensive review of the appearance-based gaze estimation methods with deep learning. We summarize the processing pipeline and discuss these methods from four perspectives: deep feature extraction, deep neural network architecture design, personal calibration as well as device and platform. Since the data pre-processing and post-processing methods are crucial for gaze estimation, we also survey face/eye detection method, data rectification method, 2D/3D gaze conversion method, and gaze origin conversion method. To fairly compare the performance of various gaze estimation approaches, we characterize all the publicly available gaze estimation datasets and collect the code of typical gaze estimation algorithms. We implement these codes and set up a benchmark of converting the results of different methods into the same evaluation metrics. This paper not only serves as a reference to develop deep learning-based gaze estimation methods but also a guideline for future gaze estimation research. Implemented methods and data processing codes are available at http://phi-ai.org/GazeHub.
翻訳日:2021-04-27 14:31:49 公開日:2021-04-26
# 非ラベルビデオからの自己教師あり学習のためのマルチモーダルクラスタリングネットワーク

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos ( http://arxiv.org/abs/2104.12671v1 )

ライセンス: Link先を確認
Brian Chen, Andrew Rouditchenko, Kevin Duarte, Hilde Kuehne, Samuel Thomas, Angie Boggust, Rameswar Panda, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Michael Picheny, Shih-Fu Chang(参考訳) マルチモーダルな自己教師付き学習は、人間の監督なしに大規模ネットワークをトレーニングするだけでなく、さまざまなモダリティに関するデータの検索と検索を可能にするため、ますます注目を集めている。 本稿では,異なるモダリティ間の表現の共有に加えて,意味的に類似したインスタンスのグループ化を強制する,共通マルチモーダル埋め込み空間を学習する自己教師付き学習フレームワークを提案する。 この目的のために、トレーニングパイプラインにおけるマルチモーダルクラスタリングステップを用いて、インスタンスレベルのコントラスト学習の概念を拡張し、モーダルのセマンティックな類似性を捉える。 結果として得られる埋め込み空間は、見当たらないデータセットや異なるドメインからでも、すべてのモダリティにわたってサンプルの検索を可能にする。 提案手法を評価するために,ハウト100Mデータセットを用いてモデルをトレーニングし,テキスト・ツー・ビデオ検索と時間的アクション・ローカライゼーションという2つの課題領域におけるゼロショット検索能力を評価する。

Multimodal self-supervised learning is getting more and more attention as it allows not only to train large networks without human supervision but also to search and retrieve data across various modalities. In this context, this paper proposes a self-supervised training framework that learns a common multimodal embedding space that, in addition to sharing representations across different modalities, enforces a grouping of semantically similar instances. To this end, we extend the concept of instance-level contrastive learning with a multimodal clustering step in the training pipeline to capture semantic similarities across modalities. The resulting embedding space enables retrieval of samples across all modalities, even from unseen datasets and different domains. To evaluate our approach, we train our model on the HowTo100M dataset and evaluate its zero-shot retrieval capabilities in two challenging domains, namely text-to-video retrieval, and temporal action localization, showing state-of-the-art results on four different datasets.
翻訳日:2021-04-27 14:31:30 公開日:2021-04-26
# 複数モーダルデータを用いた共同表現学習と新たなカテゴリー発見

Joint Representation Learning and Novel Category Discovery on Single- and Multi-modal Data ( http://arxiv.org/abs/2104.12673v1 )

ライセンス: Link先を確認
Xuihui Jia and Kai Han and Yukun Zhu and Bradley Green(参考訳) 本稿では,異なるカテゴリのラベルを持つ単一およびマルチモーダルデータにおける新しいカテゴリ発見の問題について検討する。 信頼性の高い表現を共同学習し、ラベルなしのデータにクラスタを割り当てる汎用的なエンドツーエンドフレームワークを提案する。 ラベル付きデータへの学習埋め込みが過剰に収まるのを避けるため、ノイズコントラスト推定による自己教師付き表現学習から着想を得て、ラベル付きデータとラベル付きデータを同時に扱うように拡張する。 特に,ラベル付きデータにおけるカテゴリ識別とマルチモーダルデータにおけるクロスモーダル識別を用いて,従来のコントラスト学習手法におけるインスタンス識別の強化を提案する。 さらに,共有表現空間におけるウィナー・テイク・オール(wta)ハッシュアルゴリズムを用いて,ラベルなしデータに対してペアワイズ擬似ラベルを生成し,クラスタ割り当てを予測する。 我々は,大規模マルチモーダルビデオベンチマークのKinetics-400,VGG-Sound,画像ベンチマークのCIFAR10,CIFAR100,ImageNetを徹底的に評価し,最新の結果を得た。

This paper studies the problem of novel category discovery on single- and multi-modal data with labels from different but relevant categories. We present a generic, end-to-end framework to jointly learn a reliable representation and assign clusters to unlabelled data. To avoid over-fitting the learnt embedding to labelled data, we take inspiration from self-supervised representation learning by noise-contrastive estimation and extend it to jointly handle labelled and unlabelled data. In particular, we propose using category discrimination on labelled data and cross-modal discrimination on multi-modal data to augment instance discrimination used in conventional contrastive learning approaches. We further employ Winner-Take-All (WTA) hashing algorithm on the shared representation space to generate pairwise pseudo labels for unlabelled data to better predict cluster assignments. We thoroughly evaluate our framework on large-scale multi-modal video benchmarks Kinetics-400 and VGG-Sound, and image benchmarks CIFAR10, CIFAR100 and ImageNet, obtaining state-of-the-art results.
翻訳日:2021-04-27 14:31:11 公開日:2021-04-26
# リッチなセマンティックスによるショット学習の改善

Rich Semantics Improve Few-shot Learning ( http://arxiv.org/abs/2104.12709v1 )

ライセンス: Link先を確認
Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer, Fahad Shahbaz Khan(参考訳) 人間の学習は、しばしばリッチセマンティクスとして現れるマルチモーダル入力(例えば、そのことを学びながらオブジェクトの属性を記述する)からの恩恵を受ける。 これにより、非常に限られた視覚的な例から一般化可能な概念を学ぶことができる。 しかし、現在の数ショット学習(FSL)法では、数値クラスラベルを使用して、学習概念に関する豊富な意味を含まないオブジェクトクラスを表現している。 本研究では,最小限のアノテーションコストで得られる「クラスレベルの」言語記述を用いることで,FSLの性能を向上させることができることを示す。 サポートセットとクエリが与えられた後、私たちの主なアイデアはボトルネック視覚機能(ハイブリッドプロトタイプ)を作成し、トレーニング中の補助的なタスクとしてクラスの言語記述を生成することです。 我々は,2つのモダリティ間の複雑な関係をエンコードできる視覚的および意味的トークンを関連付けるトランスフォーマティブ・フォワード・フォワード・エンコーディング機構を開発した。 プロトタイプは、クラス記述に関するセマンティック情報を視覚的特徴の正規化として保持し、推論時に新しいクラスへの一般化を改善する。 さらに、この戦略は学習された表現に先行して人間を課し、モデルが視覚的概念と意味的概念に忠実に関係していることを保証する。 4つのデータセットとアブレーションに関する実験により、FSLのリッチセマンティクスを効果的にモデル化する利点が示された。

Human learning benefits from multi-modal inputs that often appear as rich semantics (e.g., description of an object's attributes while learning about it). This enables us to learn generalizable concepts from very limited visual examples. However, current few-shot learning (FSL) methods use numerical class labels to denote object classes which do not provide rich semantic meanings about the learned concepts. In this work, we show that by using 'class-level' language descriptions, that can be acquired with minimal annotation cost, we can improve the FSL performance. Given a support set and queries, our main idea is to create a bottleneck visual feature (hybrid prototype) which is then used to generate language descriptions of the classes as an auxiliary task during training. We develop a Transformer based forward and backward encoding mechanism to relate visual and semantic tokens that can encode intricate relationships between the two modalities. Forcing the prototypes to retain semantic information about class description acts as a regularizer on the visual features, improving their generalization to novel classes at inference. Furthermore, this strategy imposes a human prior on the learned representations, ensuring that the model is faithfully relating visual and semantic concepts, thereby improving model interpretability. Our experiments on four datasets and ablation studies show the benefit of effectively modeling rich semantics for FSL.
翻訳日:2021-04-27 14:30:51 公開日:2021-04-26
# 効率のよいグローバル最適化のための1パラメータ族獲得関数

One-parameter family of acquisition functions for efficient global optimization ( http://arxiv.org/abs/2104.12363v1 )

ライセンス: Link先を確認
Takuya Kanazawa(参考訳) ガウス過程を用いたベイズ最適化(BO)は、機能評価を極力少ない高価なブラックボックス関数を最適化する強力な手法である。 BOにおいて、期待される改善(EI)と改善の確率(PI)が最も広く使われているスキームの一つである。 EI や PI を上回る他のスキームもあるが、そのほとんどは EI や PI よりもはるかに高価である。 本研究では,EI と PI を統一した BO のための,新しい1パラメータの取得関数群を提案する。 提案手法は数値的に安価で実装が容易で、並列化が容易であり、ベンチマークタスクではEIやGP-UCBよりも優れた性能を示す。 また,BOの学生プロセスへの一般化についても述べる。

Bayesian optimization (BO) with Gaussian processes is a powerful methodology to optimize an expensive black-box function with as few function evaluations as possible. The expected improvement (EI) and probability of improvement (PI) are among the most widely used schemes for BO. There is a plethora of other schemes that outperform EI and PI, but most of them are numerically far more expensive than EI and PI. In this work, we propose a new one-parameter family of acquisition functions for BO that unifies EI and PI. The proposed method is numerically inexpensive, is easy to implement, can be easily parallelized, and on benchmark tasks shows a performance superior to EI and GP-UCB. Its generalization to BO with Student-t processes is also presented.
翻訳日:2021-04-27 14:29:33 公開日:2021-04-26
# 出力正規化がラベルノイズを軽減する理由の探索

An Exploration into why Output Regularization Mitigates Label Noise ( http://arxiv.org/abs/2104.12477v1 )

ライセンス: Link先を確認
Neta Shoham, Tomer Avidor, Nadav Israel(参考訳) ラベルノイズは教師付き学習アルゴリズムの真の課題である。 その結果,近年,ラベルノイズの低減が注目されている。 ノイズロバストな損失は、ラベルノイズを扱うためのより有望なアプローチの1つであり、これらの手法は損失関数を変更するだけで、開発時間の観点から高価な分類器自体の設計を変更する必要はない。 本研究では、出力正則化(ラベルの平滑化やエントロピーなど)を使用する損失に焦点を当てる。 これらの損失は実際によく機能するが、ラベルノイズを緩和する能力は数学的厳密さを欠いている。 本研究は,正規化係数が無限に近づくにつれて,出力正規化項を含む損失が対称となることを示すことにより,このギャップを埋めることを目的とする。 我々は、正規化係数を対称性を制御する超パラメータと見なすことができ、損失関数のノイズロバスト性について論じる。

Label noise presents a real challenge for supervised learning algorithms. Consequently, mitigating label noise has attracted immense research in recent years. Noise robust losses is one of the more promising approaches for dealing with label noise, as these methods only require changing the loss function and do not require changing the design of the classifier itself, which can be expensive in terms of development time. In this work we focus on losses that use output regularization (such as label smoothing and entropy). Although these losses perform well in practice, their ability to mitigate label noise lack mathematical rigor. In this work we aim at closing this gap by showing that losses, which incorporate an output regularization term, become symmetric as the regularization coefficient goes to infinity. We argue that the regularization coefficient can be seen as a hyper-parameter controlling the symmetricity, and thus, the noise robustness of the loss function.
翻訳日:2021-04-27 14:29:22 公開日:2021-04-26
# シフトパターン抽出のためのブール推論に基づくビクラスタリング

Boolean Reasoning-Based Biclustering for Shifting Pattern Extraction ( http://arxiv.org/abs/2104.12493v1 )

ライセンス: Link先を確認
Marcin Michalak, Jes\'us S. Aguilar-Ruiz(参考訳) バイクラスタ化は、さまざまな種類の関心のあるパターンの品質を測定する関数によって駆動されるため、データ内のパターンを検索するための強力なアプローチである。 しかし、その計算複雑性のため、探索空間の探索はアルゴリズム戦略によって導かれ、時には計算コストを単純化するランダムな要因(例)がもたらされる。 欲深い探索または進化的計算)。 シフトパターンは、データの変動を一定に考慮しているため、特に興味深い。 パターン内の全ての値が1次元で上下に動き、すべての次元のレンジ振幅を維持する状況を把握する。 この行動は自然界において非常に一般的である。 遺伝子発現データの解析において、遺伝子のサブセットが患者のサブセットまたは実験条件に対して上昇または下降し、機能的に一貫性のあるカテゴリを特定する。 ブール推論は, 定常二クラスタ探索のための適切な手法として最近明らかにされた。 この研究では、シフトパターンを含むより一般的な双クラスタを探すために、この方向が拡張される。 数学的基礎はブール概念とシフトパターンを関連付けるために記述され、この方法論はブール推論によるシフトパターンの誘導が、全ての包摂的最大シフトパターンを見つける能力によるものであることを示す。 実データセットを用いた実験では,平均二乗残差 (msr) で評価された,"デルタ"シフトパターンを用いた二クラスター探索のアプローチの可能性を示し,結果がゼロに非常に近い場合の優れた性能を提供する。

Biclustering is a powerful approach to search for patterns in data, as it can be driven by a function that measures the quality of diverse types of patterns of interest. However, due to its computational complexity, the exploration of the search space is usually guided by an algorithmic strategy, sometimes introducing random factors that simplify the computational cost (e.g. greedy search or evolutionary computation). Shifting patterns are specially interesting as they account constant fluctuations in data, i.e. they capture situations in which all the values in the pattern move up or down for one dimension maintaining the range amplitude for all the dimensions. This behaviour is very common in nature, e.g. in the analysis of gene expression data, where a subset of genes might go up or down for a subset of patients or experimental conditions, identifying functionally coherent categories. Boolean reasoning was recently revealed as an appropriate methodology to address the search for constant biclusters. In this work, this direction is extended to search for more general biclusters that include shifting patterns. The mathematical foundations are described in order to associate Boolean concepts with shifting patterns, and the methodology is presented to show that the induction of shifting patterns by means of Boolean reasoning is due to the ability of finding all inclusion--maximal {\delta}-shifting patterns. Experiments with a real dataset show the potential of our approach at finding biclusters with {\delta}-shifting patterns, which have been evaluated with the mean squared residue (MSR), providing an excellent performance at finding results very close to zero.
翻訳日:2021-04-27 14:29:06 公開日:2021-04-26
# 空間周波数制約が逆ロバスト性に及ぼす影響

Impact of Spatial Frequency Based Constraints on Adversarial Robustness ( http://arxiv.org/abs/2104.12679v1 )

ライセンス: Link先を確認
R\'emi Bernhard, Pierre-Alain Moellic, Martial Mermillod, Yannick Bourrier, Romain Cohendet, Miguel Solinas, Marina Reyboz(参考訳) 敵対的な例は、人間が敏感でない入力ピクセルの変更を主に利用し、モデルは解釈不能な特徴に基づいて決定するという事実から生じる。 興味深いことに、認知科学は人間の分類決定の解釈可能性の過程は、主に低空間周波数成分に依存していると報告している。 本稿では,学習中に強制されるモデルの逆摂動に対するロバスト性を調査し,異なる空間周波数範囲に対応する情報を活用する。 重み付けされたデータの空間周波数特性と密接に関連していることを示す。 実際、データセットによっては、同じ制約が全く異なるロバスト性(最大0.41対逆精度差)をもたらす可能性がある。 この現象を説明するために、高周波に対する感度のレベルや、オリジナルおよびローパスフィルタ入力間の逆摂動の伝達可能性など、いくつかの要因を啓蒙する実験を行った。

Adversarial examples mainly exploit changes to input pixels to which humans are not sensitive to, and arise from the fact that models make decisions based on uninterpretable features. Interestingly, cognitive science reports that the process of interpretability for human classification decision relies predominantly on low spatial frequency components. In this paper, we investigate the robustness to adversarial perturbations of models enforced during training to leverage information corresponding to different spatial frequency ranges. We show that it is tightly linked to the spatial frequency characteristics of the data at stake. Indeed, depending on the data set, the same constraint may results in very different level of robustness (up to 0.41 adversarial accuracy difference). To explain this phenomenon, we conduct several experiments to enlighten influential factors such as the level of sensitivity to high frequencies, and the transferability of adversarial perturbations between original and low-pass filtered inputs.
翻訳日:2021-04-27 14:28:42 公開日:2021-04-26
# ビデオからの深層学習を用いた多粒子系の支配的運動同定

Dominant motion identification of multi-particle system using deep learning from video ( http://arxiv.org/abs/2104.12722v1 )

ライセンス: Link先を確認
Yayati Jadhav, Amir Barati Farimani(参考訳) 高次元可観測データから基礎となる支配方程式と物理関連情報を同定することは、常に物理科学における課題である。 最近のセンシング技術と利用可能なデータセットの進歩により、さまざまな機械学習技術により、基礎となる数学的モデルを十分にクリーンで使用可能なデータセットから蒸留することが可能になった。 しかし、これらの技術のほとんどは、システムの事前知識と、物理システムのシミュレーションや信号の直接測定によって得られたノイズのないデータに依存している。 したがって、これらの技術を用いて得られた推論は、観測データにノイズがあり、関連する特徴を抽出するのに特徴工学を必要とする実世界では、しばしば信頼できない。 本研究では,高度確率系の実世界の映像から関連する情報を抽出し,事前知識を持たず,システムを表す支配方程式を抽出するディープラーニングフレームワークを提案する。 本研究では, アリ, シロアリ, 魚の閉じ込められたマルチエージェント/粒子系, および弾性衝突相互作用を有する模擬多粒子系のビデオに対して, このアプローチを実証する。 さらに,これらの多様なシステムがどのようにして基礎となる振る舞いを予測できるかを考察する。 本研究では,コンピュータビジョンとモーショントラッキングを用いて個々のエージェントや粒子の空間的軌跡を抽出し,LSTM VAEを用いてこれらの特徴を低次元潜在空間に投影し,その基礎となる微分方程式をSINDyフレームワークを用いて抽出した。

Identifying underlying governing equations and physical relevant information from high-dimensional observable data has always been a challenge in physical sciences. With the recent advances in sensing technology and available datasets, various machine learning techniques have made it possible to distill underlying mathematical models from sufficiently clean and usable datasets. However, most of these techniques rely on prior knowledge of the system and noise-free data obtained by simulation of physical system or by direct measurements of the signals. Hence, the inference obtained by using these techniques is often unreliable to be used in the real world where observed data is noisy and requires feature engineering to extract relevant features. In this work, we provide a deep-learning framework that extracts relevant information from real-world videos of highly stochastic systems, with no prior knowledge and distills the underlying governing equation representing the system. We demonstrate this approach on videos of confined multi-agent/particle systems of ants, termites, fishes as well as a simulated confined multi-particle system with elastic collision interactions. Furthermore, we explore how these seemingly diverse systems have predictable underlying behavior. In this study, we have used computer vision and motion tracking to extract spatial trajectories of individual agents/particles in a system, and by using LSTM VAE we projected these features on a low-dimensional latent space from which the underlying differential equation representing the data was extracted using SINDy framework.
翻訳日:2021-04-27 14:28:29 公開日:2021-04-26
# 項目を項目で表現する:推奨対象項目の強化表現

Represent Items by Items: An Enhanced Representation of the Target Item for Recommendation ( http://arxiv.org/abs/2104.12483v1 )

ライセンス: Link先を確認
Yinjiang Cai, Zeyu Cui, Shu Wu, Zhen Lei, Xibo Ma(参考訳) アイテムベースの協調フィルタリング(ICF)は、レコメンダシステムやオンライン広告などの産業アプリケーションで広く利用されている。 対話したアイテムによって、ターゲットアイテムに対するユーザの好みをモデル化する。 近年のモデルは、注意機構やディープニューラルネットワークなどの手法を用いて、ユーザの表現とスコアリング機能をより正確に学習している。 しかし、これらのモデルの有効性にもかかわらず、ICF手法の性能はアイテム表現の品質、特に対象アイテム表現に大きく依存する問題を見落としている。 実際、レコメンデーションにおける長期分布のため、ほとんどのアイテム埋め込みはアイテムの意味を正確に表現することができず、現在のICFメソッドのパフォーマンスを低下させる。 本稿では,共起項目から関連する情報を蒸留する対象項目の表現の強化を提案する。 ノイズ低減と計算コストのために,共起アイテム数をサンプリングするためのサンプリング戦略を設計する。 対象項目に対するサンプル項目の重要性を考慮し,サンプル項目の意味情報を選択的に適用するための注意機構を適用した。 提案した共起性に基づく拡張表現モデル (CER) は, 暗黙的ユーザ表現と生表現の融合, 対象項目の強調表現を入力として, 深層ニューラルネットワークを用いてスコアリング関数を学習する。 拡張表現により、cerは最先端のicfメソッドに比べてテール項目の表現力が強い。 2つの公開ベンチマークに関する広範囲な実験がcerの有効性を実証している。

Item-based collaborative filtering (ICF) has been widely used in industrial applications such as recommender system and online advertising. It models users' preference on target items by the items they have interacted with. Recent models use methods such as attention mechanism and deep neural network to learn the user representation and scoring function more accurately. However, despite their effectiveness, such models still overlook a problem that performance of ICF methods heavily depends on the quality of item representation especially the target item representation. In fact, due to the long-tail distribution in the recommendation, most item embeddings can not represent the semantics of items accurately and thus degrade the performance of current ICF methods. In this paper, we propose an enhanced representation of the target item which distills relevant information from the co-occurrence items. We design sampling strategies to sample fix number of co-occurrence items for the sake of noise reduction and computational cost. Considering the different importance of sampled items to the target item, we apply attention mechanism to selectively adopt the semantic information of the sampled items. Our proposed Co-occurrence based Enhanced Representation model (CER) learns the scoring function by a deep neural network with the attentive user representation and fusion of raw representation and enhanced representation of target item as input. With the enhanced representation, CER has stronger representation power for the tail items compared to the state-of-the-art ICF methods. Extensive experiments on two public benchmarks demonstrate the effectiveness of CER.
翻訳日:2021-04-27 14:28:06 公開日:2021-04-26
# ANT: 適応型ビデオストリーミングのための正確なネットワークスループットの学習

ANT: Learning Accurate Network Throughput for Better Adaptive Video Streaming ( http://arxiv.org/abs/2104.12507v1 )

ライセンス: Link先を確認
Jiaoyang Yin, Yiling Xu, Hao Chen, Yunfei Zhang, Steve Appleby, Zhan Ma(参考訳) アダプティブビットレート(ABR)の決定は、過去のネットワーク統計を主に将来のネットワーク帯域幅予測に活用するビデオストリーミングアプリケーションにおいて、満足度の高いQuality of Experience(QoE)を確保する上で重要な役割を果たす。 しかし、ほとんどのアルゴリズムはルールベースまたは学習駆動のアプローチ、スループットトレースのフィード、または従来の統計に基づく分類されたトレース(平均/標準偏差)によってABRの決定を駆動し、特定のシナリオのパフォーマンスを損なう。 本稿では、ネットワークスループットセグメント(nts)の特定のクラスタに関連する適切なネットワーク条件を導出するために、過去のネットワークスループットダイナミクスの全スペクトルを特徴付けるantモデル(すなわち、正確なネットワークスループット)を学習することを提案する。 NTSの各クラスタは専用のABRモデルを生成するために使用されます。 我々は、ANTモデルと既存の強化学習(RL)ベースのABR決定エンジンを統合し、ABRモデルを用いて精度の高いネットワークセンシングを行い、高いレート決定を行う。 広範な実験結果から,提案手法は,ネットワークシナリオにおいて,最先端のペンシブやオーボエと比較して,65.5%,31.3%,有意にユーザqoeを改善できることがわかった。

Adaptive Bit Rate (ABR) decision plays a crucial role for ensuring satisfactory Quality of Experience (QoE) in video streaming applications, in which past network statistics are mainly leveraged for future network bandwidth prediction. However, most algorithms, either rules-based or learning-driven approaches, feed throughput traces or classified traces based on traditional statistics (i.e., mean/standard deviation) to drive ABR decision, leading to compromised performances in specific scenarios. Given the diverse network connections (e.g., WiFi, cellular and wired link) from time to time, this paper thus proposes to learn the ANT (a.k.a., Accurate Network Throughput) model to characterize the full spectrum of network throughput dynamics in the past for deriving the proper network condition associated with a specific cluster of network throughput segments (NTS). Each cluster of NTS is then used to generate a dedicated ABR model, by which we wish to better capture the network dynamics for diverse connections. We have integrated the ANT model with existing reinforcement learning (RL)-based ABR decision engine, where different ABR models are applied to respond to the accurate network sensing for better rate decision. Extensive experiment results show that our approach can significantly improve the user QoE by 65.5% and 31.3% respectively, compared with the state-of-the-art Pensive and Oboe, across a wide range of network scenarios.
翻訳日:2021-04-27 14:27:44 公開日:2021-04-26
# 機械学習を用いた海のブリッジング観測・理論・数値シミュレーション

Bridging observation, theory and numerical simulation of the ocean using Machine Learning ( http://arxiv.org/abs/2104.12506v1 )

ライセンス: Link先を確認
Maike Sonnewald, Redouane Lguensat, Daniel C. Jones, Peter D. Dueben, Julien Brajard, Venkatramani Balaji(参考訳) 物理海洋学の進歩は、研究に利用可能なツールの高度化と並行している。 機械学習(ML)技術の導入は、確立されたメソッドのキャパシティとスピードを向上し、実質的でセレンディピティーな発見をするためのエキサイティングな可能性を提供する。 現代の多くの科学分野に共通する膨大な量の複雑なデータ以外にも、海洋の研究はmlが対処できるユニークな課題の組合せとなっている。 利用可能な観測データは大部分が空間的に疎らで、表面だけに限られており、時系列は数十年を超える。 重要なタイムスケールは数秒から数千年に渡り、強いスケールの相互作用と、海岸線のような詳細によって複雑な数値モデリングの努力を伴う。 このレビューでは、MLを適用することで提供される現在の科学的洞察と、差し迫った潜在能力の所在を論じる。 我々は、観測、理論、数値モデリングの3つの分野をカバーしている。 課題と機会の両方を高く評価し、歴史的文脈と健全なMLツールについて論じる。 本研究は, ml in situ sampling と衛星観測の利用と, ml応用が理論的海洋探査を前進させる程度, および数値シミュレーションの支援に焦点をあてた。 また、モデルエラーやバイアス補正、データ同化における現在および潜在的利用などについても触れられている。 リスクがないわけではないが、海洋MLアプリケーションの潜在的な利益には大きな関心がある。

Progress within physical oceanography has been concurrent with the increasing sophistication of tools available for its study. The incorporation of machine learning (ML) techniques offers exciting possibilities for advancing the capacity and speed of established methods and also for making substantial and serendipitous discoveries. Beyond vast amounts of complex data ubiquitous in many modern scientific fields, the study of the ocean poses a combination of unique challenges that ML can help address. The observational data available is largely spatially sparse, limited to the surface, and with few time series spanning more than a handful of decades. Important timescales span seconds to millennia, with strong scale interactions and numerical modelling efforts complicated by details such as coastlines. This review covers the current scientific insight offered by applying ML and points to where there is imminent potential. We cover the main three branches of the field: observations, theory, and numerical modelling. Highlighting both challenges and opportunities, we discuss both the historical context and salient ML tools. We focus on the use of ML in situ sampling and satellite observations, and the extent to which ML applications can advance theoretical oceanographic exploration, as well as aid numerical simulations. Applications that are also covered include model error and bias correction and current and potential use within data assimilation. While not without risk, there is great interest in the potential benefits of oceanographic ML applications; this review caters to this interest within the research community.
翻訳日:2021-04-27 14:27:06 公開日:2021-04-26
# Kauffman's NK ランドスケープにおけるミオピック局所探索のプロンプト終了効果アルゴリズム

An Algorithm to Effect Prompt Termination of Myopic Local Search on Kauffman-s NK Landscape ( http://arxiv.org/abs/2104.12620v1 )

ライセンス: Link先を確認
Sasanka Sekhar Chanda(参考訳) カウフマンによるNKモデルでは、ミオピック局所探索は、Nビット決定文字列のランダムなビットを1つの時間ステップごとに反転させ、適合度が高い場合は新しい構成を受け入れる。 1つの問題は、このアルゴリズムが検査された代替構成の数によって割り当てられた計算資源を最大限に消費することである。 そうでなければ、アルゴリズムはすべてのN隣人の適合度を時間ステップごとに計算し、大量のリソースを消費しなければならない。 この問題を回避するために,N人の隣人の適合度を毎回評価することなく,論理的に比較的早期に探索を終了させることができるアルゴリズムについて述べる。 さらに私は、2つのアルゴリズムの有効性を頭と頭で比較する必要がある場合、評価される選択肢の数に共通の制限を課す必要があることを示唆する。

In the NK model given by Kauffman, myopic local search involves flipping one randomly-chosen bit of an N-bit decision string in every time step and accepting the new configuration if that has higher fitness. One issue is that, this algorithm consumes the full extent of computational resources allocated - given by the number of alternative configurations inspected - even though search is expected to terminate the moment there are no neighbors having higher fitness. Otherwise, the algorithm must compute the fitness of all N neighbors in every time step, consuming a high amount of resources. In order to get around this problem, I describe an algorithm that allows search to logically terminate relatively early, without having to evaluate fitness of all N neighbors at every time step. I further suggest that when the efficacy of two algorithms need to be compared head to head, imposing a common limit on the number of alternatives evaluated - metering - provides the necessary level field.
翻訳日:2021-04-27 14:26:27 公開日:2021-04-26
# VCGAN:ハイブリッド世代対応ネットワークによるビデオカラー化

VCGAN: Video Colorization with Hybrid Generative Adversarial Network ( http://arxiv.org/abs/2104.12357v1 )

ライセンス: Link先を確認
Yuzhi Zhao, Lai-Man Po, Wing-Yin Yu, Yasar Abbas Ur Rehman, Mengyang Liu, Yujia Zhang, Weifeng Ou(参考訳) 本稿では,ビデオカラー化に対するエンドツーエンド学習による改良アプローチとして,vcgan(hybrid generative adversarial network)を用いたビデオカラー化のハイブリッド化を提案する。 vcganは、ビデオカラー化領域において、時間的一貫性とカラー化ネットワークの統合、ネットワークの洗練という2つの問題に対処している。 着色品質と時空間整合性を高めるため、VCGANのジェネレータの主流は、それぞれグローバル特徴抽出器とプレースホルダー特徴抽出器という2つの追加ネットワークによって支援される。 グローバル特徴抽出器はグレースケール入力のグローバルセマンティクスをエンコードし、カラー化品質を高めるが、プレースホルダ特徴抽出器は以前のカラー化フレームのセマンティクスをエンコードするフィードバック接続として働き、時空間的一貫性を維持する。 プレースホルダー特徴抽出器の入力をグレースケール入力として変更する場合、ハイブリッドVCGANは画像のカラー化を行うことができる。 遠方フレームの一貫性を向上させるために,2つのリモートフレーム間の時間的不一致を平滑化する高密度な長期損失を提案する。 カラー化と時間的損失を併用してトレーニングされたVCGANは、色鮮度とビデオ連続性のバランスが良好である。 実験の結果,VCGANは既存の手法よりも高品質で時間的に一貫したカラービデオを生成することがわかった。

We propose a hybrid recurrent Video Colorization with Hybrid Generative Adversarial Network (VCGAN), an improved approach to video colorization using end-to-end learning. The VCGAN addresses two prevalent issues in the video colorization domain: Temporal consistency and unification of colorization network and refinement network into a single architecture. To enhance colorization quality and spatiotemporal consistency, the mainstream of generator in VCGAN is assisted by two additional networks, i.e., global feature extractor and placeholder feature extractor, respectively. The global feature extractor encodes the global semantics of grayscale input to enhance colorization quality, whereas the placeholder feature extractor acts as a feedback connection to encode the semantics of the previous colorized frame in order to maintain spatiotemporal consistency. If changing the input for placeholder feature extractor as grayscale input, the hybrid VCGAN also has the potential to perform image colorization. To improve the consistency of far frames, we propose a dense long-term loss that smooths the temporal disparity of every two remote frames. Trained with colorization and temporal losses jointly, VCGAN strikes a good balance between color vividness and video continuity. Experimental results demonstrate that VCGAN produces higher-quality and temporally more consistent colorful videos than existing approaches.
翻訳日:2021-04-27 14:24:48 公開日:2021-04-26
# entropy penalized neural representation functionによる3次元シーン圧縮

3D Scene Compression through Entropy Penalized Neural Representation Functions ( http://arxiv.org/abs/2104.12456v1 )

ライセンス: Link先を確認
Thomas Bird, Johannes Ball\'e, Saurabh Singh, Philip A. Chou(参考訳) いくつかの斬新なビジュアルメディアは、元のビューの離散的なセットを補間することにより、視聴者が任意の視点から3dシーンを探索できる。 2d画像と比較して、これらのタイプのアプリケーションは、はるかに大きなストレージスペースを必要とします。 3Dシーンを圧縮するための既存のアプローチは、圧縮とレンダリングの分離に基づいており、元のビューは従来の2Dイメージフォーマットを使用して圧縮され、レシーバはビューを圧縮し、それからレンダリングを実行する。 我々は、空間座標を放射ベクトル場にマッピングする関数であるシーンの暗黙の表現を直接圧縮することでこれらのステップを統一し、任意の視点を描画するためにクエリすることができる。 この機能はニューラルネットワークとして実装され、パラメータにエントロピーペナルティを用いることで、再構成と圧縮性を両立させるように共同で訓練される。 本手法はシーン圧縮の最先端手法を著しく上回り,高品質な再構成と低ビットレートを同時に達成する。 さらに,ソフトなパラメータ共有方式を用いて複数のシーンを共同で表現することで,低ビットレートの性能を向上させることができることを示す。

Some forms of novel visual media enable the viewer to explore a 3D scene from arbitrary viewpoints, by interpolating between a discrete set of original views. Compared to 2D imagery, these types of applications require much larger amounts of storage space, which we seek to reduce. Existing approaches for compressing 3D scenes are based on a separation of compression and rendering: each of the original views is compressed using traditional 2D image formats; the receiver decompresses the views and then performs the rendering. We unify these steps by directly compressing an implicit representation of the scene, a function that maps spatial coordinates to a radiance vector field, which can then be queried to render arbitrary viewpoints. The function is implemented as a neural network and jointly trained for reconstruction as well as compressibility, in an end-to-end manner, with the use of an entropy penalty on the parameters. Our method significantly outperforms a state-of-the-art conventional approach for scene compression, achieving simultaneously higher quality reconstructions and lower bitrates. Furthermore, we show that the performance at lower bitrates can be improved by jointly representing multiple scenes using a soft form of parameter sharing.
翻訳日:2021-04-27 14:24:21 公開日:2021-04-26
# 全スライド画像における胃びまん性腺癌分類の深層学習モデル

A deep learning model for gastric diffuse-type adenocarcinoma classification in whole slide images ( http://arxiv.org/abs/2104.12478v1 )

ライセンス: Link先を確認
Fahdi Kanavati, Masayuki Tsuneki(参考訳) 胃びまん性腺癌は若年者で発生した胃癌の比率が極めて高く,比較的頻度が高くなっていると考えられる。 通常、胃の体に影響を及ぼし、分化型(腸管型)腺癌と比較すると、短い期間と予後が悪化する。 胃腺癌との鑑別が困難であったのはびまん性型である。 びまん性型腺癌のがん細胞は、背景デスモプラヤや炎症において単発で目立たずであることが多いため、顆粒組織に見られる胃炎や反応性内皮細胞を含む様々な非腫瘍性病変と誤認されることが多い。 本研究は,WSIsから胃びまん性腺癌を分類する深層学習モデルを訓練した。 我々は,異なる情報源から得られた5つのテストセットのモデルを評価し,0.95-0.99の範囲の曲線(AUC)の下でレシーバ演算子曲線(ROC)領域を達成した。 非常に有望な結果は、診断ワークフローシステムにおいて、病理医を支援するAIベースの計算病理学の可能性を示している。

Gastric diffuse-type adenocarcinoma represents a disproportionately high percentage of cases of gastric cancers occurring in the young, and its relative incidence seems to be on the rise. Usually it affects the body of the stomach, and presents shorter duration and worse prognosis compared with the differentiated (intestinal) type adenocarcinoma. The main difficulty encountered in the differential diagnosis of gastric adenocarcinomas occurs with the diffuse-type. As the cancer cells of diffuse-type adenocarcinoma are often single and inconspicuous in a background desmoplaia and inflammation, it can often be mistaken for a wide variety of non-neoplastic lesions including gastritis or reactive endothelial cells seen in granulation tissue. In this study we trained deep learning models to classify gastric diffuse-type adenocarcinoma from WSIs. We evaluated the models on five test sets obtained from distinct sources, achieving receiver operator curve (ROC) area under the curves (AUCs) in the range of 0.95-0.99. The highly promising results demonstrate the potential of AI-based computational pathology for aiding pathologists in their diagnostic workflow system.
翻訳日:2021-04-27 14:24:01 公開日:2021-04-26
# クリーンな画像は再現が難しい:デブラリングの新しい手掛かり

Clean Images are Hard to Reblur: A New Clue for Deblurring ( http://arxiv.org/abs/2104.12665v1 )

ライセンス: Link先を確認
Seungjun Nah, Sanghyun Son, Jaerin Lee, Kyoung Mu Lee(参考訳) 動的シーンデブラリングの目標は、与えられた画像に存在する動きのぼやけを取り除くことである。 ほとんどの学習ベースのアプローチは、出力と参照シャープ画像の間のL1またはL2距離を最小化することで、ソリューションを実装している。 近年,視覚認識課題から得られた特徴を用いて画像の知覚品質を向上させる試みが行われている。 しかし、これらの特徴はもともと、ぼかしのような画像の低レベル構造ではなく、高レベルなコンテキストを捉えるように設計されている。 画像のシャープ化のために,新しい低レベルの知覚損失を提案する。 画像のぼやけにもっと焦点を合わせるために、削除されていない動きのぼやけを増幅するリブラリングモジュールを訓練する。 鮮明な画像は、増幅が難しいゼロマグニチュード運動のぼかしを含むべきであると仮定し、2種類の再生損失関数を設計する。 トレーニング段階における教師付き再ブラッシング損失は、デブロワー画像と基準シャープ画像との増幅されたぼかしを比較する。 推論段階での自己教師リブラリング損失は、デブラリング画像が増幅すべき目に見えるぼやけを含むかどうかを検査する。 NIQEとLPIPSのスコアと視覚的シャープネスの両面から,可視画像の知覚品質が向上することを示す実験結果を得た。

The goal of dynamic scene deblurring is to remove the motion blur present in a given image. Most learning-based approaches implement their solutions by minimizing the L1 or L2 distance between the output and reference sharp image. Recent attempts improve the perceptual quality of the deblurred image by using features learned from visual recognition tasks. However, those features are originally designed to capture the high-level contexts rather than the low-level structures of the given image, such as blurriness. We propose a novel low-level perceptual loss to make image sharper. To better focus on image blurriness, we train a reblurring module amplifying the unremoved motion blur. Motivated that a well-deblurred clean image should contain zero-magnitude motion blur that is hard to be amplified, we design two types of reblurring loss functions. The supervised reblurring loss at training stage compares the amplified blur between the deblurred image and the reference sharp image. The self-supervised reblurring loss at inference stage inspects if the deblurred image still contains noticeable blur to be amplified. Our experimental results demonstrate the proposed reblurring losses improve the perceptual quality of the deblurred images in terms of NIQE and LPIPS scores as well as visual sharpness.
翻訳日:2021-04-27 14:23:42 公開日:2021-04-26
# デュアルサイド低ランク圧縮によるコミュニケーション効率のよいフェデレーション学習

Communication-Efficient Federated Learning with Dual-Side Low-Rank Compression ( http://arxiv.org/abs/2104.12416v1 )

ライセンス: Link先を確認
Zhefeng Qiao, Xianghao Yu, Jun Zhang, Khaled B. Letaief(参考訳) federated learning(fl)は、クライアントの生データを共有することなくディープラーニングモデルをトレーニングするための有望で強力なアプローチである。 FLのトレーニングプロセスの間、中央サーバと分散クライアントは、定期的に大量のモデル情報を交換する必要があります。 コミュニケーション集約型学習の課題に対処するため,サーバ側とクライアント側の両方で,深層学習モデルを低階近似により圧縮するFedDLR(Federated Learning with dual-side Low-rank compression)と呼ばれる新たなトレーニング手法を提案する。 提案したFedDLRは,トレーニング期間中の通信オーバーヘッドを削減するだけでなく,推論プロセスを高速化するコンパクトモデルを直接生成する。 我々は、収束解析を行い、鍵パラメータの影響を調査し、FedDLRが通信と計算の効率の両面で最先端のソリューションより優れていることを実証的に示す。

Federated learning (FL) is a promising and powerful approach for training deep learning models without sharing the raw data of clients. During the training process of FL, the central server and distributed clients need to exchange a vast amount of model information periodically. To address the challenge of communication-intensive training, we propose a new training method, referred to as federated learning with dual-side low-rank compression (FedDLR), where the deep learning model is compressed via low-rank approximations at both the server and client sides. The proposed FedDLR not only reduces the communication overhead during the training stage but also directly generates a compact model to speed up the inference process. We shall provide convergence analysis, investigate the influence of the key parameters, and empirically show that FedDLR outperforms the state-of-the-art solutions in terms of both the communication and computation efficiency.
翻訳日:2021-04-27 14:21:32 公開日:2021-04-26
# 非IIDデータの高速収束のための半分散フェデレーションエッジ学習

Semi-Decentralized Federated Edge Learning for Fast Convergence on Non-IID Data ( http://arxiv.org/abs/2104.12678v1 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Yuyi Mao and Jun Zhang(参考訳) フェデレーションエッジラーニング(FEEL)は、データプライバシを保ちながら、クラウドベースの機械学習ソリューションにおける大きな通信遅延を低減する効果的な代替手段として登場した。 残念ながら、FEELの学習性能は、単一エッジクラスタでの限られたトレーニングデータのために損なわれる可能性がある。 本稿では,FEELの新たな枠組み,すなわち半分散型フェデレーションエッジ学習(SD-FEEL)について検討する。 異なるエッジクラスタ間のモデルアグリゲーションを可能にすることで、sd-feelはトレーニングレイテンシの低減と、複数のエッジクラスタからよりリッチなトレーニングデータへのアクセスによる学習パフォーマンスの向上という、フィールのメリットを享受する。 ローカルモデル更新,クラスタ内およびクラスタ間モデル集約など,ラウンド毎に3つの主要な手順を持つsd-feelのトレーニングアルゴリズムが提示され,非独立かつ同一分散(非iid)データに収束することが証明された。 また,エッジサーバのネットワークトポロジとクラスタ間モデルアグリゲーションの通信オーバーヘッドとの相互作用をトレーニング性能で特徴付ける。 その結果, SD-FFELが高速収束に有効であることを実証した。 また、トレーニングアルゴリズムの重要なハイパーパラメータの選択に関するガイドラインも提供される。

Federated edge learning (FEEL) has emerged as an effective alternative to reduce the large communication latency in Cloud-based machine learning solutions, while preserving data privacy. Unfortunately, the learning performance of FEEL may be compromised due to limited training data in a single edge cluster. In this paper, we investigate a novel framework of FEEL, namely semi-decentralized federated edge learning (SD-FEEL). By allowing model aggregation between different edge clusters, SD-FEEL enjoys the benefit of FEEL in reducing training latency and improves the learning performance by accessing richer training data from multiple edge clusters. A training algorithm for SD-FEEL with three main procedures in each round is presented, including local model updates, intra-cluster and inter-cluster model aggregations, and it is proved to converge on non-independent and identically distributed (non-IID) data. We also characterize the interplay between the network topology of the edge servers and the communication overhead of inter-cluster model aggregation on training performance. Experiment results corroborate our analysis and demonstrate the effectiveness of SD-FFEL in achieving fast convergence. Besides, guidelines on choosing critical hyper-parameters of the training algorithm are also provided.
翻訳日:2021-04-27 14:21:14 公開日:2021-04-26
# DABT: 依存性を意識したバグトリアージ手法

DABT: A Dependency-aware Bug Triaging Method ( http://arxiv.org/abs/2104.12744v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Kritika Chhabra, Mucahit Cevik, Ay\c{s}e Ba\c{s}ar(参考訳) ソフトウェアエンジニアリングの実践では、バグの修正はすぐに関連するコストを削減します。 一方、手動のバグ修正プロセスは、時間がかかり、面倒で、エラーが発生しやすい。 本研究では、自然言語処理と整数プログラミングを利用してバグを適切な開発者に割り当てるDABT(Dependency-aware Bug Triaging)と呼ばれるバグトリアージ手法を提案する。 バグレポートの1つの側面に主にフォーカスする以前の作業とは異なり、DABTは、テキスト情報、各バグに関連するコスト、およびそれらの依存関係について検討している。 したがって、この包括的定式化は、バグのブロック効果を考慮しつつ、以前の作業の最も重要な側面をカバーしている。 本稿では,EclipseJDT, LibreOffice, Mozillaの3つのオープンソースソフトウェアシステムにおけるアルゴリズムの性能について報告する。 以上の結果から,DABT はオーバーデューバグを 12 % まで減らすことができることがわかった。 また、バグの修正時間の平均を半減します。 さらに、ブロッキングバグを優先順位付けすることで、バグ依存グラフの複雑さを低減する。

In software engineering practice, fixing a bug promptly reduces the associated costs. On the other hand, the manual bug fixing process can be time-consuming, cumbersome, and error-prone. In this work, we introduce a bug triaging method, called Dependency-aware Bug Triaging (DABT), which leverages natural language processing and integer programming to assign bugs to appropriate developers. Unlike previous works that mainly focus on one aspect of the bug reports, DABT considers the textual information, cost associated with each bug, and dependency among them. Therefore, this comprehensive formulation covers the most important aspect of the previous works while considering the blocking effect of the bugs. We report the performance of the algorithm on three open-source software systems, i.e., EclipseJDT, LibreOffice, and Mozilla. Our result shows that DABT is able to reduce the number of overdue bugs up to 12\%. It also decreases the average fixing time of the bugs by half. Moreover, it reduces the complexity of the bug dependency graph by prioritizing blocking bugs.
翻訳日:2021-04-27 14:20:51 公開日:2021-04-26
# ポイント2Sound:3Dポイントクラウドシーンを用いたモノからバイノーラルオーディオへ

Points2Sound: From mono to binaural audio using 3D point cloud scenes ( http://arxiv.org/abs/2104.12462v1 )

ライセンス: Link先を確認
Francesc Llu\'is, Vasileios Chatziioannou, Alex Hofmann(参考訳) 視覚にマッチするバイノーラルサウンドは、拡張現実(AR)や仮想現実(VR)アプリケーションにおいて、有意義で没入的な体験をもたらすために不可欠である。 近年の研究では2次元視覚情報を用いてモノからバイノーラル音声を生成する可能性を示している。 3Dビジュアル情報を使用することで、VR/ARアプリケーション用の仮想オーディオシーンをより正確に表現することができる。 本稿では,3Dポイントクラウドシーンを用いたモノオーディオからバイノーラル版を生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。 具体的には、points2soundは、ポイントクラウドシーンから視覚特徴を抽出するビジョンネットワークからなり、波形領域で動作するオーディオネットワークを条件付けしてバイノーラルバージョンを合成する。 定量的および知覚的評価は,最近の2次元モノツーバイノーラルモデルに基づいて,提案モデルが参照ケースよりも好まれていることを示している。

Binaural sound that matches the visual counterpart is crucial to bring meaningful and immersive experiences to people in augmented reality (AR) and virtual reality (VR) applications. Recent works have shown the possibility to generate binaural audio from mono using 2D visual information as guidance. Using 3D visual information may allow for a more accurate representation of a virtual audio scene for VR/AR applications. This paper proposes Points2Sound, a multi-modal deep learning model which generates a binaural version from mono audio using 3D point cloud scenes. Specifically, Points2Sound consist of a vision network which extracts visual features from the point cloud scene to condition an audio network, which operates in the waveform domain, to synthesize the binaural version. Both quantitative and perceptual evaluations indicate that our proposed model is preferred over a reference case, based on a recent 2D mono-to-binaural model.
翻訳日:2021-04-27 14:20:35 公開日:2021-04-26
# 重要サンプリングによる物理インフォームドニューラルネットワークの効率的なトレーニング

Efficient training of physics-informed neural networks via importance sampling ( http://arxiv.org/abs/2104.12325v1 )

ライセンス: Link先を確認
Mohammad Amin Nabian, Rini Jasmine Gladstone, Hadi Meidani(参考訳) 物理情報ニューラルネットワーク(英: Physics-Informed Neural Networks、PINN)は、偏微分方程式(PDE)によって支配されるシステムの応答を計算するために、自動微分を用いて訓練されたディープニューラルネットワークのクラスである。 PINNのトレーニングはシミュレーション不要であり、数値PDEソルバから得られるトレーニングデータセットは不要である。 代わりに、物理法則、領域幾何学、初期/境界条件、物質的性質を含む物理的問題の記述のみを必要とする。 この訓練は通常、確率勾配勾配法の変種を用いて非凸最適化問題を解くことを含み、損失関数の勾配は、一様分布に従って各イテレーションでランダムに選択されるコロケーション点のバッチに近似される。 PINNは様々なPDEを正確に解くのに成功しているが、計算効率の面では依然として改善が必要である。 そこで,本稿では,ピンの効率的な訓練における重要サンプリング手法の性能について検討する。 数値的な例と理論的な証拠を用いて,各トレーニングイテレーションにおいて,損失関数に比例する分布に従ってコロケーション点をサンプリングすることにより,PINNのトレーニングの収束挙動が向上することを示す。 さらに,重要度サンプリングを高速化するために損失関数に分割定数近似を提供することにより,トレーニング効率がさらに向上することを示す。 この重要サンプリングアプローチは、既存のPINNコードで簡単に実装でき、また、キャリブレーションのための新しいハイパーパラメータも導入していない。 数値例として, 弾性, 拡散, 面応力問題などがあり, 従来の一様サンプリング法と比較して, 重要サンプリングアプローチの精度と効率を数値的に検証した。

Physics-Informed Neural Networks (PINNs) are a class of deep neural networks that are trained, using automatic differentiation, to compute the response of systems governed by partial differential equations (PDEs). The training of PINNs is simulation-free, and does not require any training dataset to be obtained from numerical PDE solvers. Instead, it only requires the physical problem description, including the governing laws of physics, domain geometry, initial/boundary conditions, and the material properties. This training usually involves solving a non-convex optimization problem using variants of the stochastic gradient descent method, with the gradient of the loss function approximated on a batch of collocation points, selected randomly in each iteration according to a uniform distribution. Despite the success of PINNs in accurately solving a wide variety of PDEs, the method still requires improvements in terms of computational efficiency. To this end, in this paper, we study the performance of an importance sampling approach for efficient training of PINNs. Using numerical examples together with theoretical evidences, we show that in each training iteration, sampling the collocation points according to a distribution proportional to the loss function will improve the convergence behavior of the PINNs training. Additionally, we show that providing a piecewise constant approximation to the loss function for faster importance sampling can further improve the training efficiency. This importance sampling approach is straightforward and easy to implement in the existing PINN codes, and also does not introduce any new hyperparameter to calibrate. The numerical examples include elasticity, diffusion and plane stress problems, through which we numerically verify the accuracy and efficiency of the importance sampling approach compared to the predominant uniform sampling approach.
翻訳日:2021-04-27 14:19:08 公開日:2021-04-26
# コミュニケーション効率と個人化によるロッキーチケット学習

Communication-Efficient and Personalized Federated Lottery Ticket Learning ( http://arxiv.org/abs/2104.12501v1 )

ライセンス: Link先を確認
Sejin Seo, Seung-Woo Ko, Jihong Park, Seong-Lyun Kim, and Mehdi Bennis(参考訳) 抽選券仮説(英: lottery ticket hypothesis、LTH)は、ディープニューラルネットワーク(すなわち、地上ネットワーク)は、複数のサブネット(すなわち、勝利チケット)を含み、それぞれが地上ネットワークと同一正確な推論能力を示すと主張している。 フェデレーテッド・ラーニング(FL)は,最近LotteryFLで導入され,分散方式で,バニラFLよりも高精度なマルチタスク学習を実現している。 それでもLotteryFLはダウンリンク上のユニキャスト送信に依存しており、トラグラーの緩和を無視し、スケーラビリティを疑っている。 そこで,本稿では,ダウンリンク放送を通信効率に活用した,個人化・通信効率の高いフェデレーション抽選チケット学習アルゴリズムであるcoined cellを提案する。 さらに、新規なユーザグループ化手法を利用して、FLと宝くじ学習の交互にストラグラーを緩和する。 数値シミュレーションにより、cifar-10データセットで収束するまでの通信コストは4.3倍小さく、セルは最大3.6%のパーソナライズされたタスク分類精度を達成している。

The lottery ticket hypothesis (LTH) claims that a deep neural network (i.e., ground network) contains a number of subnetworks (i.e., winning tickets), each of which exhibiting identically accurate inference capability as that of the ground network. Federated learning (FL) has recently been applied in LotteryFL to discover such winning tickets in a distributed way, showing higher accuracy multi-task learning than Vanilla FL. Nonetheless, LotteryFL relies on unicast transmission on the downlink, and ignores mitigating stragglers, questioning scalability. Motivated by this, in this article we propose a personalized and communication-efficient federated lottery ticket learning algorithm, coined CELL, which exploits downlink broadcast for communication efficiency. Furthermore, it utilizes a novel user grouping method, thereby alternating between FL and lottery learning to mitigate stragglers. Numerical simulations validate that CELL achieves up to 3.6% higher personalized task classification accuracy with 4.3x smaller total communication cost until convergence under the CIFAR-10 dataset.
翻訳日:2021-04-27 14:18:40 公開日:2021-04-26
# リカレントニューラルネットワークと転送学習によるボットネット検出の改善

Improving Botnet Detection with Recurrent Neural Network and Transfer Learning ( http://arxiv.org/abs/2104.12602v1 )

ライセンス: Link先を確認
Jeeyung Kim, Alex Sim, Jinoh Kim, Kesheng Wu, Jaegyoon Hahm(参考訳) ボットネット検出は、ボットネットの拡散を防ぎ、悪意のある活動を防ぐための重要なステップである。 しかし、ますます増加するデバイスや攻撃ベクトルを含むさまざまなボットネットのため、信頼性の高い検出は依然として難しい課題である。 機械学習(ML)を用いた最近のアプローチは、以前のアプローチよりもパフォーマンスが向上した。 例えば、ほとんどのMLアプローチでは、ボットネットのクラスを検出するキーとなるシーケンシャルパターン解析技術は組み込まれない。 MLベースのアプローチのもうひとつの一般的な欠点は、進化するボットネットを検出するためにニューラルネットワークを再トレーニングする必要があることだ。 進化の早いボットネットにとっては、ボットネットが再び変わる前に十分なトレーニングサンプルを作成するのに時間がかかりすぎるかもしれない。 これらの課題に対処するために,リカレント変分オートエンコーダ(RVAE)をベースとしたボットネット検出手法を提案する。 実験では,この半教師付き学習手法は,類似した学習方法,特にクラス検出が難しい場合に比べて,検出精度が向上する。 さらに,適切なソースデータセットから学習し,これまで見たことのない対象問題領域に知識を転送するためのトランスファー学習フレームワークを考案する。 転帰学習による真陽性率(TPR)は、ターゲットデータセットを用いて訓練されたRVAE半教師あり学習法(91.8%対68.3%)よりも高い。

Botnet detection is a critical step in stopping the spread of botnets and preventing malicious activities. However, reliable detection is still a challenging task, due to a wide variety of botnets involving ever-increasing types of devices and attack vectors. Recent approaches employing machine learning (ML) showed improved performance than earlier ones, but these ML- based approaches still have significant limitations. For example, most ML approaches can not incorporate sequential pattern analysis techniques key to detect some classes of botnets. Another common shortcoming of ML-based approaches is the need to retrain neural networks in order to detect the evolving botnets; however, the training process is time-consuming and requires significant efforts to label the training data. For fast-evolving botnets, it might take too long to create sufficient training samples before the botnets have changed again. To address these challenges, we propose a novel botnet detection method, built upon Recurrent Variational Autoencoder (RVAE) that effectively captures sequential characteristics of botnet activities. In the experiment, this semi-supervised learning method achieves better detection accuracy than similar learning methods, especially on hard to detect classes. Additionally, we devise a transfer learning framework to learn from a well-curated source data set and transfer the knowledge to a target problem domain not seen before. Tests show that the true-positive rate (TPR) with transfer learning is higher than the RVAE semi-supervised learning method trained using the target data set (91.8% vs. 68.3%).
翻訳日:2021-04-27 14:17:59 公開日:2021-04-26
# 継続的ゲームにおける適応学習: 最適回帰境界とナッシュ平衡への収束

Adaptive Learning in Continuous Games: Optimal Regret Bounds and Convergence to Nash Equilibrium ( http://arxiv.org/abs/2104.12761v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Kimon Antonakopoulos, Panayotis Mertikopoulos(参考訳) ゲーム理論学習では、複数のエージェントがそれぞれの興味を同時に追っているため、各プレイヤーの観点から環境は静止していない。 この文脈では、学習アルゴリズムのパフォーマンスは、しばしばその後悔によって測定される。 しかし、ゲーム理論の保証の観点からは、非回帰アルゴリズムは等しく作られていない:それらがどのように調整されているかによっては、システムに平衡性を持たせるものもあれば、循環的、カオス的、あるいは他の散逸した軌道を生成できるものもある。 これを説明するために、楽観的ミラー降下に基づく非相対的ポリシーの範囲を提案し、以下の望ましい性質を持つ: i) ゲームに対する事前のチューニングや知識を必要としない; i) 任意の敵に対するO(\sqrt{T})後悔を達成する; iii) 収束する相手に対する最良の応答に収束する。 また、すべてのプレイヤーが採用した場合、 iv) は O(1) の社会的後悔を保証し、v) の誘導されたプレイ列は、すべての変分安定なゲーム(全ての単調および凸凸凸ゼロサムゲームを含むゲームのクラス)において、O(1) 個人の後悔とナッシュ均衡に収束する。

In game-theoretic learning, several agents are simultaneously following their individual interests, so the environment is non-stationary from each player's perspective. In this context, the performance of a learning algorithm is often measured by its regret. However, no-regret algorithms are not created equal in terms of game-theoretic guarantees: depending on how they are tuned, some of them may drive the system to an equilibrium, while others could produce cyclic, chaotic, or otherwise divergent trajectories. To account for this, we propose a range of no-regret policies based on optimistic mirror descent, with the following desirable properties: i) they do not require any prior tuning or knowledge of the game; ii) they all achieve O(\sqrt{T}) regret against arbitrary, adversarial opponents; and iii) they converge to the best response against convergent opponents. Also, if employed by all players, then iv) they guarantee O(1) social regret; while v) the induced sequence of play converges to Nash equilibrium with O(1) individual regret in all variationally stable games (a class of games that includes all monotone and convex-concave zero-sum games).
翻訳日:2021-04-27 14:17:34 公開日:2021-04-26
# 予測・選択・生成:知識駆動型会話システムの探索

Prediction, Selection, and Generation: Exploration of Knowledge-Driven Conversation System ( http://arxiv.org/abs/2104.11454v2 )

ライセンス: Link先を確認
Cheng Luo, Dayiheng Liu, Chanjuan Li, Li Lu, Jiancheng Lv(参考訳) オープンドメインの会話システムでは、背景知識を活用することは重要だが難しい。 知識の体系化を利用して対話生成を制御可能とし、実際の知識を含むより多様な文を生成することができる。 本稿では,知識ベースと事前学習モデルを組み合わせて,知識駆動会話システムを提案する。 本システムは,対話トピック予測,知識マッチング,対話生成などのモジュールを含む。 本システムに基づいて,話題の粗いリコールアルゴリズム,知識選択数,生成モデル選択など,知識駆動対話の生成に影響する可能性のあるパフォーマンス要因を調査し,最終的にシステムの現状に到達させた。 これらの実験結果は,今後の課題研究の指針となるだろう。 私たちが知る限りでは、これは関連する要因について研究し分析する最初の研究である。

In open-domain conversational systems, it is important but challenging to leverage background knowledge. We can use the incorporation of knowledge to make the generation of dialogue controllable, and can generate more diverse sentences that contain real knowledge. In this paper, we combine the knowledge bases and pre-training model to propose a knowledge-driven conversation system. The system includes modules such as dialogue topic prediction, knowledge matching and dialogue generation. Based on this system, we study the performance factors that maybe affect the generation of knowledge-driven dialogue: topic coarse recall algorithm, number of knowledge choices, generation model choices, etc., and finally made the system reach state-of-the-art. These experimental results will provide some guiding significance for the future research of this task. As far as we know, this is the first work to study and analyze the effects of the related factors.
翻訳日:2021-04-27 11:21:08 公開日:2021-04-26
# スポーツキャプション:身近なスポーツビデオで、モノクロの3Dモーションキャプチャーときめ細かい理解

SportsCap: Monocular 3D Human Motion Capture and Fine-grained Understanding in Challenging Sports Videos ( http://arxiv.org/abs/2104.11452v2 )

ライセンス: Link先を確認
Xin Chen, Anqi Pang, Wei Yang, Yuexin Ma, Lan Xu, Jingyi Yu(参考訳) プロの非日常的な人間の動きのマーカーなしのモーションキャプチャーと理解は、複雑な動きパターンと重度の自己閉塞に悩まされる重要な未解決課題である。 本稿では,3次元人間の動きを同時に捉え,モノラルな挑戦的なスポーツビデオ入力からのきめ細かい動作を理解するための,最初のアプローチであるSportsCapを提案する。 本手法は,データ駆動型マルチタスク方式の動作キャプチャと理解のために,埋め込み空間に先行する意味的および時間的構造的サブモーションを利用する。 複雑な動きパターンの下でロバストなキャプチャを実現するために,我々は,暗黙的な動き埋め込みと明示的な3次元動き詳細の両方を対応するマッピング関数とサブモーション分類器で復元する効果的な動き埋め込みモジュールを提案する。 このようなハイブリッド動作情報に基づいて,マルチストリーム時空間グラフ畳み込みネットワーク(ST-GCN)を導入し,細粒度なセマンティックアクション属性を予測し,関連するアクション属性を高レベルなアクションラベルに集約する意味属性マッピングブロックを導入し,シーケンス全体を詳細に理解し,アクションアセスメントやモーションスコアリングなどの様々な応用を可能にする。 一般および提案するデータセットの総合的な実験により, 単眼型スポーツ映像の入力に挑戦することで, 3次元モーションキャプチャの精度が大幅に向上するだけでなく, 正確な細粒度のセマンティクス特性を回復できることを示した。

Markerless motion capture and understanding of professional non-daily human movements is an important yet unsolved task, which suffers from complex motion patterns and severe self-occlusion, especially for the monocular setting. In this paper, we propose SportsCap -- the first approach for simultaneously capturing 3D human motions and understanding fine-grained actions from monocular challenging sports video input. Our approach utilizes the semantic and temporally structured sub-motion prior in the embedding space for motion capture and understanding in a data-driven multi-task manner. To enable robust capture under complex motion patterns, we propose an effective motion embedding module to recover both the implicit motion embedding and explicit 3D motion details via a corresponding mapping function as well as a sub-motion classifier. Based on such hybrid motion information, we introduce a multi-stream spatial-temporal Graph Convolutional Network(ST-GCN) to predict the fine-grained semantic action attributes, and adopt a semantic attribute mapping block to assemble various correlated action attributes into a high-level action label for the overall detailed understanding of the whole sequence, so as to enable various applications like action assessment or motion scoring. Comprehensive experiments on both public and our proposed datasets show that with a challenging monocular sports video input, our novel approach not only significantly improves the accuracy of 3D human motion capture, but also recovers accurate fine-grained semantic action attributes.
翻訳日:2021-04-27 11:20:56 公開日:2021-04-26
# 移動パターンの比較による電話対共同利用の確立

Establishing phone-pair co-usage by comparing mobility patterns ( http://arxiv.org/abs/2104.11683v2 )

ライセンス: Link先を確認
Wauter Bosma, Sander Dalm, Erwin van Eijk, Rachid el Harchaoui, Edwin Rijgersberg, Hannah Tereza Tops, Alle Veenstra, Rolf Ypma(参考訳) 法医学的な調査では、ある期間に同じ人物が2台の携帯電話を使っていたかどうかを判断する価値がしばしばある。 携帯電話の基地局登録の時間と場所を利用して,携帯電話が同一人物によって使用された証拠の強度を評価する手法を提案する。 この方法は、同一ユーザと異なるユーザの仮説を識別するためにロジスティック回帰を用いており、また、確率比で証拠の重みを定量化する標準的なカーネル密度推定法である。 さらに,本手法を実世界のデータ上で訓練し,検証することにより,従来の理論的研究をさらに進める。 本手法は,データ量や品質の異なるモデル選択下での優れた性能とロバスト性を示す。 我々は法廷で実用性について議論する。

In forensic investigations it is often of value to establish whether two phones were used by the same person during a given time period. We present a method that uses time and location of cell tower registrations of mobile phones to assess the strength of evidence that any pair of phones were used by the same person. The method is transparent as it uses logistic regression to discriminate between the hypotheses of same and different user, and a standard kernel density estimation to quantify the weight of evidence in terms of a likelihood ratio. We further add to previous theoretical work by training and validating our method on real world data, paving the way for application in practice. The method shows good performance under different modeling choices and robustness under lower quantity or quality of data. We discuss practical usage in court.
翻訳日:2021-04-27 11:20:27 公開日:2021-04-26
# ソフトウェア定義エッジコンピューティング - IoTデータ分析をサポートする新しいアーキテクチャパラダイム

Software-Defined Edge Computing: A New Architecture Paradigm to Support IoT Data Analysis ( http://arxiv.org/abs/2104.11645v2 )

ライセンス: Link先を確認
Di Wu, Xiaofeng Xie, Xiang Ni, Bin Fu, Hanhui Deng, Haibo Zeng, and Zhijin Qin(参考訳) IoT(Internet of Things)アプリケーションの迅速なデプロイは、処理が必要な大量のデータを生み出します。 これらのIoTアプリケーションは、レイテンシと帯域幅に関する特定の通信要件を持ち、時間依存性などの生成されたデータに新機能を提供する。 したがって、スマートなIoTデータプロセスと分析をサポートするために、通信とコンピューティングの本質的な性質を探求することで、現在のIoTアーキテクチャを再構築することが望ましい。 この論文では、IoTデータの特徴、IoTネットワークアーキテクチャのトレンド、IoTデータ分析におけるいくつかの問題とそのソリューションを紹介します。 具体的には、ソフトウェア定義エッジコンピューティングは、IoTデータ分析のユニークなニーズをサポートするための有望なアーキテクチャであると考えています。 さらに,本アーキテクチャにおけるデータ異常検出実験を行い,ecg診断のための2つのアーキテクチャの比較を行った。 その結果,本手法は有効かつ有効であることがわかった。

The rapid deployment of Internet of Things (IoT) applications leads to massive data that need to be processed. These IoT applications have specific communication requirements on latency and bandwidth, and present new features on their generated data such as time-dependency. Therefore, it is desirable to reshape the current IoT architectures by exploring their inherent nature of communication and computing to support smart IoT data process and analysis. We introduce in this paper features of IoT data, trends of IoT network architectures, some problems in IoT data analysis, and their solutions. Specifically, we view that software-defined edge computing is a promising architecture to support the unique needs of IoT data analysis. We further present an experiment on data anomaly detection in this architecture, and the comparison between two architectures for ECG diagnosis. Results show that our method is effective and feasible.
翻訳日:2021-04-27 11:20:14 公開日:2021-04-26