このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210508となっている論文です。

PDF登録状況(公開日: 20210508)

TitleAuthorsAbstract論文公表日・翻訳日
# 雑音のないオンデマンド原子周波数コム量子メモリ

Noise Free On-Demand Atomic Frequency Comb Quantum Memory ( http://arxiv.org/abs/2006.00943v3 )

ライセンス: Link先を確認
Sebastian P. Horvath, Mohammed K. Alqedra, Adam Kinos, Andreas Walther, Jan Marcus Dahlstr\"om, Stefan Kr\"oll, and Lars Rippe(参考訳) 本稿では,スターク効果を利用した無ノイズオンデマンド制御を実現する原子周波数コムプロトコルの拡張を提案する。 このプロトコルはpr$^{3+}$:y$_2$sio$_5$固体システムで実験的に実現され、0.8$\mu$sの保存時間に対して38\%のリコール効率を達成した。 明るいパルスと弱いコヒーレント状態の両方で実験を行い、後者は平均的な光子数$\sim 0.1$の入力パルスを用いて570 \pm 120$の信号対雑音比を達成した。 より長い保存時間に対する主制限は、Pr$^{3+}$:Y$_2$SiO$_5$で達成できる最小ピーク幅であることがわかった。 eu$^{3+}$:y$_2$sio$_5$に基づくオンデマンドの広帯域メモリを調査するために、確立された原子周波数コムモデルの適応を用いる。 このことから、スピンウェーブストレージとは無関係に、100$\mu$sのストレージ時間が実用的であると判断する。

We present an extension of the atomic frequency comb protocol that utilizes the Stark effect to perform noise-free, on-demand, control. An experimental realization of this protocol was implemented in the Pr$^{3+}$:Y$_2$SiO$_5$ solid-state system, and a recall efficiency of 38\% for a 0.8 $\mu$s storage time was achieved. Experiments were performed with both bright pulses as well as weak-coherent states, the latter achieving a signal-to-noise ratio of $570 \pm 120$ using input pulses with an average photon number of $\sim 0.1$. The principal limitation for a longer storage time was found to be the minimum peak width attainable for Pr$^{3+}$:Y$_2$SiO$_5$. We employ an adaptation of an established atomic-frequency comb model to investigate an on-demand, wide-bandwidth, memory based on Eu$^{3+}$:Y$_2$SiO$_5$. From this we determine that a storage time as long as 100 $\mu$s may be practical even without recourse to spin-wave storage.
翻訳日:2023-05-17 11:27:59 公開日:2021-05-08
# 教室における検索技術設計における研究パートナーとしての教師たち

All Together Now: Teachers as Research Partners in the Design of Search Technology for the Classroom ( http://arxiv.org/abs/2105.03708v1 )

ライセンス: Link先を確認
Emiliana Murgia, Monica Landoni, Theo Huibers, Maria Soledad Pera(参考訳) 教室環境において,検索ツールは学生がWebリソースにアクセスするための手段である。 学生、研究者、産業実践者の視点は、この分野で進行中の研究議論を導いている。 本稿では,この議論に新たな声を取り入れることに賛成する。 本稿では,教室における検索ツールの設計に関わるすべての側面において,教師が関与することの価値について紹介する。 教室での情報発見を支援するための新しいツールを設計、開発、評価した研究経験に基づいて,我々は,検索ツールと学生とのつながりを提供する教師の役割についての洞察を共有した。 そして、私たちの場合、常に教師を研究パートナーとして巻き込みます。

In the classroom environment, search tools are the means for students to access Web resources. The perspectives of students, researchers, and industry practitioners lead the ongoing research debate in this area. In this article, we argue in favor of incorporating a new voice into this debate: teachers. We showcase the value of involving teachers in all aspects related to the design of search tools for the classroom; from the beginning till the end. Driven by our research experience designing, developing, and evaluating new tools to support children's information discovery in the classroom, we share insights on the role of the experts-in-the-loop, i.e., teachers who provide the connection between search tools and students. And yes, in our case, always involving a teacher as a research partner.
翻訳日:2023-04-01 03:29:54 公開日:2021-05-08
# 反パリティ時対称非エルミタンSu-シュリーファー-ヘーガー模型の位相

Topology of anti-parity-time-symmetric non-Hermitian Su-Schrieffer-Heeger model ( http://arxiv.org/abs/2105.03676v1 )

ライセンス: Link先を確認
H. C. Wu, L. Jin, Z. Song(参考訳) 反パリティ時間(反PT)対称非エルミート的Su-Schrieffer-Heeger(SSH)モデルを提案する。 反PT対称SSHモデルでは、利得と損失は逆対称性の下で対に配置される。 ブリルアンゾーンの中心における退化点の出現は位相相転移を決定するが、例外的な点はバンド位相に影響を与えない。 大きい非ヘルミティック性は、破れた反pt対称位相における不平衡な波動関数分布をもたらし、非自明な位相を誘導する。 この知見は、自明な位相が散逸のみによって引き起こされるような自明な位相であっても、標準sshモデルの他の2つの点に散逸を導入することによって検証できる。

We propose an anti-parity-time (anti-PT ) symmetric non-Hermitian Su-Schrieffer-Heeger (SSH) model, where the large non-Hermiticity constructively creates nontrivial topology and greatly expands the topological phase. In the anti-PT -symmetric SSH model, the gain and loss are alternatively arranged in pairs under the inversion symmetry. The appearance of degenerate point at the center of the Brillouin zone determines the topological phase transition, while the exceptional points unaffect the band topology. The large non-Hermiticity leads to unbalanced wavefunction distribution in the broken anti-PT -symmetric phase and induces the nontrivial topology. Our findings can be verified through introducing dissipations in every another two sites of the standard SSH model even in its trivial phase, where the nontrivial topology is solely induced by the dissipations.
翻訳日:2023-04-01 03:29:03 公開日:2021-05-08
# ニューロモルフィックプロセッサを用いた多層スパイクニューラルネットワークのハードウェア内学習

In-Hardware Learning of Multilayer Spiking Neural Networks on a Neuromorphic Processor ( http://arxiv.org/abs/2105.03649v1 )

ライセンス: Link先を確認
Amar Shrestha, Haowen Fang, Daniel Patrick Rider, Zaidao Mei and Qinru Qiu(参考訳) 機械学習では広く用いられているが、バックプロパゲーションはSNNトレーニングに直接適用できず、生物学的ニューロンやシナプスをエミュレートする神経形プロセッサでは実現できない。 この研究は、生物学的に妥当な局所更新規則を持つスパイクベースのバックプロパゲーションアルゴリズムを示し、ニューロモルフィックハードウェアの制約に適合するように適応する。 このアルゴリズムはintel loihiチップに実装され、モバイルアプリケーション向けの多層snsの低消費電力なオンライン学習を可能にする。 本実装は, MNIST, Fashion-MNIST, CIFAR-10, MSTARデータセット上で, 性能とエネルギー効率を保証し, インクリメンタルオンライン学習の可能性を示す。

Although widely used in machine learning, backpropagation cannot directly be applied to SNN training and is not feasible on a neuromorphic processor that emulates biological neuron and synapses. This work presents a spike-based backpropagation algorithm with biological plausible local update rules and adapts it to fit the constraint in a neuromorphic hardware. The algorithm is implemented on Intel Loihi chip enabling low power in-hardware supervised online learning of multilayered SNNs for mobile applications. We test this implementation on MNIST, Fashion-MNIST, CIFAR-10 and MSTAR datasets with promising performance and energy-efficiency, and demonstrate a possibility of incremental online learning with the implementation.
翻訳日:2023-04-01 03:28:45 公開日:2021-05-08
# 量子メモリのない連続可変量子通信におけるリピータレスバウンダリの克服

Overcoming the repeaterless bound in continuous-variable quantum communication without quantum memories ( http://arxiv.org/abs/2105.03586v1 )

ライセンス: Link先を確認
Matthew S. Winnel, Joshua J. Guanzon, Nedasadat Hosseinidehaj, Timothy C. Ralph(参考訳) 量子通信の大きな問題の1つは、長距離で高いレートを達成する方法である。 非信頼の中間中継局である量子リピータは、リピータレス通信の基本レート距離制限を設定するリピータレス境界を克服するために必要である。 本研究では,「量子サイザー」と呼ばれる1つの線形光学装置を用いて,リピータバウンドのようなリピータレスバウンドとスケールを克服し,従来のリピータ提案要素のエンタングル蒸留とエンタングル交換を組み合わせた連続変数プロトコルを導入し,量子メモリの必要性を解消した。 リピータを用いた標準連続可変量子鍵分布プロトコルの実装により、リピータレスバウンダリを超えるキーレートを予測する。 提案プロトコルは,非理想的単一光子源および非理想的単一光子検出器に対して良好に動作し,ある種の余分なノイズを許容し,既存の技術で実装できる。 提案手法は,従来の手法よりも少ない物理資源で,量子メモリを用いてより長いリピータチェーンに拡張できることを示す。 さらに, 鍵分布以外のアプリケーションに対しては, 高階に一般化し, 成功確率を低減したコストでより絡み合いを解消する。

One of the main problems in quantum communications is how to achieve high rates at long distances. Quantum repeaters, i.e., untrusted, intermediate relay stations, are necessary to overcome the repeaterless bound which sets the fundamental rate-distance limit of repeaterless communications. In this work, we introduce a continuous-variable protocol which overcomes the repeaterless bound and scales like the single-repeater bound using just one linear-optical device called a "quantum scissor", combining the entanglement distillation and entanglement swapping elements of previous repeater proposals into a single step, thus, removing the need for quantum memories. Implementing a standard continuous-variable quantum key distribution protocol using our repeater we predict key rates which surpass the repeaterless bound. Our protocol works well for non-ideal single-photon sources and non-ideal single-photon detectors, and can tolerate some level of excess noise, making our protocol implementable with existing technology. We show that our scheme can be extended to longer repeater chains using quantum memories, using less physical resources than previous schemes. Furthermore, for applications beyond key distribution, our scheme generalises to higher order and distils more entanglement at the cost of a reduced probability of success.
翻訳日:2023-04-01 03:26:57 公開日:2021-05-08
# ELMOPP: グラフ理論と機械学習の交通光座標への応用

ELMOPP: An Application of Graph Theory and Machine Learning to Traffic Light Coordination ( http://arxiv.org/abs/2106.10104v1 )

ライセンス: Link先を確認
Fareed Sheriff(参考訳) トラヒックライト管理は、トラヒックライトを用いたトラヒックを効率的に管理するアルゴリズムを公表した様々な論文で広く取り上げられている。 2つのアルゴリズムは OAF (Oldest arrival first) アルゴリズムと ITLC (intelligent traffic light controller) アルゴリズムである。 しかし,多くのトラヒックライトアルゴリズムは将来的なトラフィックフローを考慮せず,将来的なトラフィックを減らすような方法ではトラフィックを軽減できない。 This paper presents the Edge Load Management and Optimization through Pseudoflow Prediction (ELMOPP) algorithm, which aims to solve problems detailed in previous algorithms; through machine learning with nested long short-term memory (NLSTM) modules and graph theory, the algorithm attempts to predict the near future using past data and traffic patterns to inform its real-time decisions and better mitigate traffic by predicting future traffic flow based on past flow and using those predictions to both maximize present traffic flow and decrease future traffic congestion. さらに、ITLCとOAFはGPSトランスポンダ、GPS、速度センサー、無線を使用する必要があるが、ELMOPPはGPSや速度センサーとは対照的に、ほぼ常に容易に利用できる交通用光カメラの映像のみを使用する。 ELMOPPは,ITLC論文で提示されたシミュレーション,シングルインターセクションシミュレーションをモデルとしたシミュレーションを用いて,ITLCとOAFのトラフィック管理アルゴリズムに対して試験を行い,収集されたデータは,ELMOPPが両アルゴリズムをスループット速度で統計的に有意に上回っているという結論を支持した。

Traffic light management is a broad subject with various papers published that put forth algorithms to efficiently manage traffic using traffic lights. Two such algorithms are the OAF (oldest arrival first) and ITLC (intelligent traffic light controller) algorithms. However, many traffic light algorithms do not consider future traffic flow and therefore cannot mitigate traffic in such a way as to reduce future traffic in the present. This paper presents the Edge Load Management and Optimization through Pseudoflow Prediction (ELMOPP) algorithm, which aims to solve problems detailed in previous algorithms; through machine learning with nested long short-term memory (NLSTM) modules and graph theory, the algorithm attempts to predict the near future using past data and traffic patterns to inform its real-time decisions and better mitigate traffic by predicting future traffic flow based on past flow and using those predictions to both maximize present traffic flow and decrease future traffic congestion. Furthermore, while ITLC and OAF require the use of GPS transponders; and GPS, speed sensors, and radio, respectively, ELMOPP only uses traffic light camera footage, something that is almost always readily available in contrast to GPS and speed sensors. ELMOPP was tested against the ITLC and OAF traffic management algorithms using a simulation modeled after the one presented in the ITLC paper, a single-intersection simulation, and the collected data supports the conclusion that ELMOPP statistically significantly outperforms both algorithms in throughput rate, a measure of how many vehicles are able to exit inroads every second.
翻訳日:2023-04-01 03:21:25 公開日:2021-05-08
# テンソルと量子コンピュータを用いた全次元schr\"odinger波動関数計算:デカルト成分分離法

Full-Dimensional Schr\"odinger Wavefunction Calculations using Tensors and Quantum Computers: the Cartesian component-separated approach ( http://arxiv.org/abs/2105.03787v1 )

ライセンス: Link先を確認
Bill Poirier and Jonathan Jerke(参考訳) 従来の量子化学の手法はハートリーフォックに基づくSlater-Determinant (SD)表現に依存しており、その基礎となるゼロ階画像は粒子による分離性を前提としている。 ここでは,粒子[j. chem. phys., 2018, 148, 104101]ではなく,デカルト成分による分離性に基づいて,根本的に異なるアプローチを探求する。 このアプローチは、量子化学における3Dグリッドベースの手法や、いわゆる「第一量子化」量子コンピューティングにも非常に適しているようである。 まず,従来のコンピュータに実装した手法の概要を述べるとともに,性能の主張を正当化するための数値結果について述べる。 特に、全CI行列対角化と同等の4つの明示電子を持つ数値計算を、約10^{15}$ SDで行う。 次に、量子コンピュータの実装について、量子ビット数と量子ゲート数の両方を第一量子化量子計算化学(QCC)の実装のために想定された他の量子回路と比較して、大幅に削減することができることを示す。

Traditional methods in quantum chemistry rely on Hartree-Fock-based Slater-determinant (SD) representations, whose underlying zeroth-order picture assumes separability by particle. Here, we explore a radically different approach, based on separability by Cartesian component, rather than by particle [J. Chem. Phys., 2018, 148, 104101]. The approach appears to be very well suited for 3D grid-based methods in quantum chemistry, and thereby also for so-called "first-quantized" quantum computing. We first present an overview of the approach as implemented on classical computers, including numerical results that justify performance claims. In particular, we perform numerical calculations with four explicit electrons that are equivalent to full-CI matrix diagonalization with nearly $10^{15}$ SDs. We then present an implementation for quantum computers, for which both the number of qubits, and the number of quantum gates, may be substantially reduced in comparison with other quantum circuitry that has been envisioned for implementing first-quantized "quantum computational chemistry" (QCC).
翻訳日:2023-04-01 03:20:32 公開日:2021-05-08
# 量子粒子から古典的コヒーレント光場へのエントロピー移動

Entropy transfer from a quantum particle to a classical coherent light field ( http://arxiv.org/abs/2105.03780v1 )

ライセンス: Link先を確認
John P. Bartolotta, Simon B. J\"ager, Jarrod T. Reilly, Matthew A. Norcia, James K. Thompson, Graeme Smith, Murray J. Holland(参考訳) 光-物質相互作用の分野では、量子粒子と相互作用する古典的な光場はほとんど変化せず、したがって操作された粒子に関する情報はほとんど含まないとしばしば仮定される。 この仮定の妥当性を検討するために,コヒーレント状態と量子粒子の相互作用を光学キャビティ内で包含する簡単なゲダンケン実験を開発し,理論的に解析した。 我々は,その初期状態と平衡状態の忠実性を測定することにより,光場の変化を定量化する。 ベイズ推定を用いて光子計測による情報伝達を実証する。 さらに,量子エントロピーの概念と相互情報を用いて粒子から光場へのエントロピー移動を定量化する。 弱い結合限界では、通常想定される光場とエントロピー移動の無視可能な変化が検証される。 しかし、強い結合限界では、大光子数であっても、初期粒子状態に関する情報が光場に完全にエンコードできることが観察される。 しかし, 自然放出は粒子に蓄えられたエントロピーを除去するのに十分な機構であることを示す。 我々の分析は、量子物質と古典光の間のエントロピー交換をより深く理解する。

In the field of light-matter interactions, it is often assumed that a classical light field that interacts with a quantum particle remains almost unchanged and thus contains nearly no information about the manipulated particles. To investigate the validity of this assumption, we develop and theoretically analyze a simple Gedankenexperiment which involves the interaction of a coherent state with a quantum particle in an optical cavity. We quantify the resulting alteration of the light field by measuring the fidelity of its initial and equilibrium states. Using Bayesian inference, we demonstrate the information transfer through photon measurements. In addition, we employ the concepts of quantum entropy and mutual information to quantify the entropy transfer from the particle to the light field. In the weak coupling limit, we validate the usually assumed negligible alteration of the light field and entropy transfer. In the strong coupling limit, however, we observe that the information of the initial particle state can be fully encoded in the light field, even for large photon numbers. Nevertheless, we show that spontaneous emission is a sufficient mechanism for removing the entropy initially stored in the particle. Our analysis provides a deeper understanding of the entropy exchange between quantum matter and classical light.
翻訳日:2023-04-01 03:19:37 公開日:2021-05-08
# 離散時間量子ウォークにおけるかなり良い状態伝達

Pretty good state transfer in discrete-time quantum walks ( http://arxiv.org/abs/2105.03762v1 )

ライセンス: Link先を確認
Ada Chan, Hanmeng Zhan(参考訳) 離散時間量子ウォークにおける状態移動のかなり良い理論を確立する。 より具体的には、かなり良い状態移動に関わる頂点は、この行列に対して$m$-strongly cospectralでなければならず、その固有値のアルコシンはいくつかの数理論的条件を満たす必要がある。 正規化された隣接行列、巡回被覆、および測地角間の線形関係の理論を用いて、この現象を示す無限列のウォークを構成する。

We establish the theory for pretty good state transfer in discrete-time quantum walks. For a class of walks, we show that pretty good state transfer is characterized by the spectrum of certain Hermitian adjacency matrix of the graph; more specifically, the vertices involved in pretty good state transfer must be $m$-strongly cospectral relative to this matrix, and the arccosines of its eigenvalues must satisfy some number theoretic conditions. Using normalized adjacency matrices, cyclic covers, and the theory on linear relations between geodetic angles, we construct several infinite families of walks that exhibits this phenomenon.
翻訳日:2023-04-01 03:19:17 公開日:2021-05-08
# Fockのはしごを登る:多光子状態生成の促進

Climbing the Fock ladder: Advancing multiphoton state generation ( http://arxiv.org/abs/2105.03720v1 )

ライセンス: Link先を確認
M. Engelkemeier, J. Sperling, J. Tiedau, S. Barkhofen, I. Dhand, M. B. Plenio, B. Brecht, and C. Silberhorn(参考訳) パラメトリックダウンコンバージョン源を反復状態生成に活用した光多重化設定を用いて、より高い光子数状態の増大発生のためのスキームを実現する。 すでに生成された光子に対して量子フィードバック機構を用いて連続した非線形過程の自己検査を行い、フィードバックループで伝播する光に光子をコヒーレントに付加する。 この追加は、選択された数回のラウンドトリップで実行でき、その結果、複数の光子状態が連続して構築される。 我々のシステムはループ損失によってのみ制限される。 ループ化された設計は、伝播モードの形状を適合し保存する注意深く設計された導波路ソースによって可能となる。 我々は、我々のプロトコルのフィダリティと成功確率を、光子数状態の一般的な直接保持と比較する。 この比較によって、我々のフィードバックベースのセットアップは成功確率を大幅に向上させ、量子テクノロジーの効率的な利用に欠かせないことが分かる。 さらに、生成した状態の量子的特性を解析し、我々の設定による高光子数状態の生成の柔軟性を示す。

A scheme for the enhanced generation of higher photon-number states is realized, using an optical time-multiplexing setting that exploits a parametric down-conversion source for an iterative state generation. We use a quantum feedback mechanism for already generated photons to induce self-seeding of the consecutive nonlinear process, enabling us to coherently add photons to the light that propagates in the feedback loop. The addition can be carried out for any chosen number of round trips, resulting in a successive buildup of multiphoton states. Our system is only limited by loop losses. The looped design is rendered possible by a carefully engineered waveguide source that is compatible with and preserves the shape of the propagating mode. We compare the fidelities and success probabilities of our protocol with the common direct heralding of photon-number states. This comparison reveals that, for same the fidelity, our feedback-based setup significantly enhances success probabilities, being vital for an efficient utilization in quantum technologies. Moreover, quantum characteristics of the produced states are analyzed, and the flexibility of producing higher photon-number states with our setup beyond the common direct heralding is demonstrated.
翻訳日:2023-04-01 03:18:36 公開日:2021-05-08
# DDPNOpt: 微分動的プログラミングニューラル最適化器

DDPNOpt: Differential Dynamic Programming Neural Optimizer ( http://arxiv.org/abs/2002.08809v3 )

ライセンス: Link先を確認
Guan-Horng Liu, Tianrong Chen and Evangelos A. Theodorou(参考訳) 非線形力学系の最適制御問題としてのディープニューラルネットワーク(dnn)トレーニングの解釈は近年注目されているが,アルゴリズム開発は比較的限られている。 そこで本研究では,軌道最適化の観点からトレーニング手順を再構成し,この路線に沿って試みる。 最初に、DNNのトレーニングに最も広く使われているアルゴリズムは、Approximate Dynamic Programmingに根ざした有名な2階法であるdifferial Dynamic Programming(DDP)にリンク可能であることを示す。 本稿では、フィードフォワードと畳み込みネットワークをトレーニングするための新しい最適化手法であるDDP Neural Optimizer (DDPNOpt)を提案する。 DDPNOptは、収束を改善し、既存の手法よりも過度パラメータに対する感度を低下させるレイヤワイズフィードバックポリシーを備えている。 コンバージェンスと複雑性の両方において、他の最適制御によるトレーニング手法よりも優れており、最先端の第1および第2の手法と競合する。 また, DDPNOptは, 勾配消失の防止に有益であることも観察した。 我々の研究は、最適制御理論に基づくアルゴリズム設計のための新しい道を開く。

Interpretation of Deep Neural Networks (DNNs) training as an optimal control problem with nonlinear dynamical systems has received considerable attention recently, yet the algorithmic development remains relatively limited. In this work, we make an attempt along this line by reformulating the training procedure from the trajectory optimization perspective. We first show that most widely-used algorithms for training DNNs can be linked to the Differential Dynamic Programming (DDP), a celebrated second-order method rooted in the Approximate Dynamic Programming. In this vein, we propose a new class of optimizer, DDP Neural Optimizer (DDPNOpt), for training feedforward and convolution networks. DDPNOpt features layer-wise feedback policies which improve convergence and reduce sensitivity to hyper-parameter over existing methods. It outperforms other optimal-control inspired training methods in both convergence and complexity, and is competitive against state-of-the-art first and second order methods. We also observe DDPNOpt has surprising benefit in preventing gradient vanishing. Our work opens up new avenues for principled algorithmic design built upon the optimal control theory.
翻訳日:2022-12-30 06:31:36 公開日:2021-05-08
# 非教師的異常検出のための正常脳解剖のグローバルおよび局所的特徴の学習

Learning Global and Local Features of Normal Brain Anatomy for Unsupervised Abnormality Detection ( http://arxiv.org/abs/2005.12573v3 )

ライセンス: Link先を確認
Kazuma Kobayashi, Ryuichiro Hataya, Yusuke Kurose, Amina Bolatkan, Mototaka Miyake, Hirokazu Watanabe, Masamichi Takahashi, Jun Itami, Tatsuya Harada, Ryuji Hamamoto(参考訳) 実際の臨床実践では、予期せぬ発見を見渡すことは深刻な結果をもたらす。 しかし、ディープラーニングの現在の成功の基盤である教師付き学習は、事前にデータセットで定義されている異常をモデルが識別することを推奨するだけである。 したがって、特定の疾患カテゴリに限定されない医療画像に異常検出を実装する必要がある。 本研究では,転移性脳腫瘍患者集団から採取した脳磁気共鳴画像における画素単位の異常検出のための教師なし学習フレームワークを示す。 画像再構成ネットワークが正常解剖学の全体的特徴を忠実に再現できるなら、未発見画像の異常病変を識別ネットワークによって正常に再構成されたものとの局所的な差異に基づいて同定することができる。 どちらのネットワークも、ラベルのない通常の画像のみからなるデータセット上でトレーニングされる。 さらに、再構成画像の解剖学的忠実度を評価する指標を考案し、画像再構成ネットワークがより高いスコアを達成すると、全体的な検出性能が向上することを確認した。 臨床的に有意な異常は包括的に区分される。 以上の結果より, 転移性脳腫瘍, 頭蓋外転移腫瘍, 術後の空洞, 構造変化は0.78, 0.61, 0.91, 0.60であった。

In real-world clinical practice, overlooking unanticipated findings can result in serious consequences. However, supervised learning, which is the foundation for the current success of deep learning, only encourages models to identify abnormalities that are defined in datasets in advance. Therefore, abnormality detection must be implemented in medical images that are not limited to a specific disease category. In this study, we demonstrate an unsupervised learning framework for pixel-wise abnormality detection in brain magnetic resonance imaging captured from a patient population with metastatic brain tumor. Our concept is as follows: If an image reconstruction network can faithfully reproduce the global features of normal anatomy, then the abnormal lesions in unseen images can be identified based on the local difference from those reconstructed as normal by a discriminative network. Both networks are trained on a dataset comprising only normal images without labels. In addition, we devise a metric to evaluate the anatomical fidelity of the reconstructed images and confirm that the overall detection performance is improved when the image reconstruction network achieves a higher score. For evaluation, clinically significant abnormalities are comprehensively segmented. The results show that the area under the receiver operating characteristics curve values for metastatic brain tumors, extracranial metastatic tumors, postoperative cavities, and structural changes are 0.78, 0.61, 0.91, and 0.60, respectively.
翻訳日:2022-11-29 00:42:47 公開日:2021-05-08
# 相互情報推定と最大化によるマルチモーダル画像変換

Multimodal Image-to-Image Translation via Mutual Information Estimation and Maximization ( http://arxiv.org/abs/2008.03529v7 )

ライセンス: Link先を確認
Zhiwen Zuo, Lei Zhao, Zhizhong Wang, Haibo Chen, Ailin Li, Qijiang Xu, Wei Xing, Dongming Lu(参考訳) multimodal image-to-image translation (i2it) は、ソースドメインに入力画像が与えられた場合、ターゲットドメインで複数の可能なイメージを探索する条件付き分布を学習することを目的としている。 このような条件分布をモデル化するために、条件生成逆ネットワーク(cGAN)がよく用いられる。 しかし、cGANは遅延コードを無視し、条件付き画像合成において一様分布を学ぶ傾向にあり、これはGANのモード崩壊問題としても知られている。 そこで本稿では,cGANにおける潜伏符号と出力画像間の相互情報を,深い相互情報ニューラル推定器を用いて明示的に推定し,最大化する,シンプルで効果的な手法を提案する。 相互情報の最大化は、潜伏コードと出力画像間の統計的依存関係を強化することにより、潜伏コードを無視しないようにし、多様な結果の合成に潜伏コードを完全に活用することをcGANに促す。 I2ITの多様性を向上させるために情報理論から新たな視点を提供するだけでなく、ソースドメインコンテンツとターゲットドメインスタイルとの絡み合いを無償で実現する。

Multimodal image-to-image translation (I2IT) aims to learn a conditional distribution that explores multiple possible images in the target domain given an input image in the source domain. Conditional generative adversarial networks (cGANs) are often adopted for modeling such a conditional distribution. However, cGANs are prone to ignore the latent code and learn a unimodal distribution in conditional image synthesis, which is also known as the mode collapse issue of GANs. To solve the problem, we propose a simple yet effective method that explicitly estimates and maximizes the mutual information between the latent code and the output image in cGANs by using a deep mutual information neural estimator in this paper. Maximizing the mutual information strengthens the statistical dependency between the latent code and the output image, which prevents the generator from ignoring the latent code and encourages cGANs to fully utilize the latent code for synthesizing diverse results. Our method not only provides a new perspective from information theory to improve diversity for I2IT but also achieves disentanglement between the source domain content and the target domain style for free.
翻訳日:2022-11-01 09:14:16 公開日:2021-05-08
# 対向的自己マイニング : 表情認識のための簡便な手法

Point Adversarial Self Mining: A Simple Method for Facial Expression Recognition ( http://arxiv.org/abs/2008.11401v2 )

ライセンス: Link先を確認
Ping Liu, Yuewei Lin, Zibo Meng, Lu Lu, Weihong Deng, Joey Tianyi Zhou, and Yi Yang(参考訳) 本稿では,表情認識における認識精度を向上させるために,PASM(Point Adversarial Self Mining)というシンプルなアプローチを提案する。 この問題を解決するために特定のアーキテクチャや損失関数を設計することに焦点を当てた以前の研究とは異なり、PASMは人間の学習プロセスをシミュレートすることでネットワーク能力を高める。 具体的には、新たな学習材料を生成するために、PASMは、目標タスクに関連する最も情報性の高い位置を見つけるために、ポイント敵攻撃法と訓練された教師ネットワークを利用する。 探索位置は,各サンプルの統計情報と教師ネットワーク能力の両方を考慮するため,高い適応性を有する。 生徒ネットワークは、新たな学習教材を提供する以外に、教師ネットワークからの指導も受けている。 学生ネットワークがトレーニングを終えると、学生ネットワークはその役割を変更し、教師として行動し、新しい学習教材を生成し、より良い学生ネットワークを訓練するためのより強力なガイダンスを提供する。 適応学習教材の生成と教師/学生の更新を複数回行うことができ、ネットワーク能力が反復的に向上する。 表情認識における既存技術に対する本手法の有効性を広範な実験により検証した。

In this paper, we propose a simple yet effective approach, named Point Adversarial Self Mining (PASM), to improve the recognition accuracy in facial expression recognition. Unlike previous works focusing on designing specific architectures or loss functions to solve this problem, PASM boosts the network capability by simulating human learning processes: providing updated learning materials and guidance from more capable teachers. Specifically, to generate new learning materials, PASM leverages a point adversarial attack method and a trained teacher network to locate the most informative position related to the target task, generating harder learning samples to refine the network. The searched position is highly adaptive since it considers both the statistical information of each sample and the teacher network capability. Other than being provided new learning materials, the student network also receives guidance from the teacher network. After the student network finishes training, the student network changes its role and acts as a teacher, generating new learning materials and providing stronger guidance to train a better student network. The adaptive learning materials generation and teacher/student update can be conducted more than one time, improving the network capability iteratively. Extensive experimental results validate the efficacy of our method over the existing state of the arts for facial expression recognition.
翻訳日:2022-10-24 21:36:55 公開日:2021-05-08
# テンソルプログラムiii:ニューラルマトリクスの法則

Tensor Programs III: Neural Matrix Laws ( http://arxiv.org/abs/2009.10685v3 )

ライセンス: Link先を確認
Greg Yang(参考訳) ニューラルネットワーク(NN)では、*重行列*は入力を *preactivations* に線形に変換し、その後非線形に *activations* に変換する。 典型的なNNは、そのような線型変換と非線形変換をインターリーブして複素関数を表現する。 したがって、(前)活性化は、複雑な方法で重みに依存する。 ランダムに初期化されたNNの(前)アクティベーションは、ランダム行列理論における漸近自由性という意味で、NNの幅が無限大になる傾向があるため、ウェイトから*独立となる。 これを自由独立原則(fip:free independence principle)と呼んでいます。 1)ペニントン等におけるNNの漸近的ヤコビ特異値分布の計算を厳密に正当化する。 超深度NNのトレーニングに不可欠な[36,37]。 2)ニューラルネットワークの神経接核を計算するために使用される勾配独立性仮定の新たな正当性を与える。 FIPとこれらの結果は、どんな神経アーキテクチャにも当てはまる。 我々は、yang [50,51] で導入された任意のテンソルプログラムのマスター定理を証明し、それらの研究で証明されたマスター定理を一般化することによってfipを示す。 この新しいマスター定理のウォームアップデモとして、これらの基本的な数学的結果に対して我々の枠組みをベンチマークする半円法とマルテンコ・パストゥル法の新しい証明を与える。

In a neural network (NN), *weight matrices* linearly transform inputs into *preactivations* that are then transformed nonlinearly into *activations*. A typical NN interleaves multitudes of such linear and nonlinear transforms to express complex functions. Thus, the (pre-)activations depend on the weights in an intricate manner. We show that, surprisingly, (pre-)activations of a randomly initialized NN become *independent* from the weights as the NN's widths tend to infinity, in the sense of asymptotic freeness in random matrix theory. We call this the Free Independence Principle (FIP), which has these consequences: 1) It rigorously justifies the calculation of asymptotic Jacobian singular value distribution of an NN in Pennington et al. [36,37], essential for training ultra-deep NNs [48]. 2) It gives a new justification of gradient independence assumption used for calculating the Neural Tangent Kernel of a neural network. FIP and these results hold for any neural architecture. We show FIP by proving a Master Theorem for any Tensor Program, as introduced in Yang [50,51], generalizing the Master Theorems proved in those works. As warmup demonstrations of this new Master Theorem, we give new proofs of the semicircle and Marchenko-Pastur laws, which benchmarks our framework against these fundamental mathematical results.
翻訳日:2022-10-15 22:34:29 公開日:2021-05-08
# 機会のイルミネータを用いたエネルギー効率のよいUAVレーダイメージングシステムのシステム設計と解析

System Design and Analysis for Energy-Efficient Passive UAV Radar Imaging System using Illuminators of Opportunity ( http://arxiv.org/abs/2010.00179v2 )

ライセンス: Link先を確認
Zhichao Sun, Junjie Wu, Gary G. Yen, Hang Ren, Hongyang An, Jianyu Yang(参考訳) 無人航空機(UAV)は、合成開口レーダー(SAR)技術を用いた高度リモートセンシングアプリケーションのための理想的なプラットフォームである現代のレーダーイメージングシステムにおいて、優れた柔軟性とコスト効率を提供することができる。 本稿では、まず、機会のイルミネータを用いたエネルギー効率の高い受動型UAVレーダイメージングシステムを提案する。 SAR受信機を装備したUAVプラットフォームは、SAR衛星、GNSS、地上ベースの静止式商用イルミネーターなどの外部イルミネーターからターゲットシーンの後方散乱信号を受動的に再利用し、バイスタティックSARイメージングとデータ通信を行う。 本システムは,ステルス観測とシーン監視に不可欠なプラットフォーム隠蔽機能を備えた,興味のあるターゲットのレーダ画像への即時アクセス性を提供する。 ミッションの概念とシステムブロックダイアグラムは、まず、システムの利点に関する正当化と共に提示される。 次に、UAVナビゲーション、受動SARイメージング、通信を含むシステムの性能を包括的に定量的に評価するために、ミッションパフォーマンス評価器のセットを確立する。 最後に,提案手法の有効性を数値シミュレーションにより検証した。

Unmanned aerial vehicle (UAV) can provide superior flexibility and cost-efficiency for modern radar imaging systems, which is an ideal platform for advanced remote sensing applications using synthetic aperture radar (SAR) technology. In this paper, an energy-efficient passive UAV radar imaging system using illuminators of opportunity is first proposed and investigated. Equipped with a SAR receiver, the UAV platform passively reuses the backscattered signal of the target scene from an external illuminator, such as SAR satellite, GNSS or ground-based stationary commercial illuminators, and achieves bi-static SAR imaging and data communication. The system can provide instant accessibility to the radar image of the interested targets with enhanced platform concealment, which is an essential tool for stealth observation and scene monitoring. The mission concept and system block diagram are first presented with justifications on the advantages of the system. Then, a set of mission performance evaluators is established to quantitatively assess the capability of the system in a comprehensive manner, including UAV navigation, passive SAR imaging and communication. Finally, the validity of the proposed performance evaluators are verified by numerical simulations.
翻訳日:2022-10-12 08:27:34 公開日:2021-05-08
# 非対称シャムネットワークを用いた意味変化検出

Semantic Change Detection with Asymmetric Siamese Networks ( http://arxiv.org/abs/2010.05687v2 )

ライセンス: Link先を確認
Kunping Yang, Gui-Song Xia, Zicheng Liu, Bo Du, Wen Yang, Marcello Pelillo, Liangpei Zhang(参考訳) 2つの時空間画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。 この問題は、精密な都市計画や天然資源管理など、多くの地球ビジョン関連のタスクにおいて不可欠である。 既存の最先端アルゴリズムは、各入力画像に均質な演算を施し、抽出した特徴を比較することで、変更画素を主に識別する。 しかし、変化した地域では、全く異なる土地被覆分布は入力ごとに不均一な特徴抽出手順を必要とすることが多い。 本稿では,異なる構造のモジュールから得られた特徴対を用いて,異なる大きさの領域を包含し,異なる面積のパラメータを異なる土地被覆分布における相違要因に適用し,意味的変化を特定し,同定する非対称システマネットワーク(ASN)を提案する。 モデルをよりよく訓練し評価するために、モデルトレーニングと評価においてラベルの不均衡の影響を軽減するために、適応閾値学習(ATL)モジュールと分離カッパ係数(SeK)係数が提案されている。 実験の結果,提案手法は,異なるエンコーダバックボーンを持つ最先端アルゴリズムを安定的に上回ることができることがわかった。

Given two multi-temporal aerial images, semantic change detection aims to locate the land-cover variations and identify their change types with pixel-wise boundaries. This problem is vital in many earth vision related tasks, such as precise urban planning and natural resource management. Existing state-of-the-art algorithms mainly identify the changed pixels by applying homogeneous operations on each input image and comparing the extracted features. However, in changed regions, totally different land-cover distributions often require heterogeneous features extraction procedures w.r.t each input. In this paper, we present an asymmetric siamese network (ASN) to locate and identify semantic changes through feature pairs obtained from modules of widely different structures, which involve areas of various sizes and apply different quantities of parameters to factor in the discrepancy across different land-cover distributions. To better train and evaluate our model, we create a large-scale well-annotated SEmantic Change detectiON Dataset (SECOND), while an Adaptive Threshold Learning (ATL) module and a Separated Kappa (SeK) coefficient are proposed to alleviate the influences of label imbalance in model training and evaluation. The experimental results demonstrate that the proposed model can stably outperform the state-of-the-art algorithms with different encoder backbones.
翻訳日:2022-10-08 07:26:51 公開日:2021-05-08
# 超高速ストリーミングサブモジュール関数最大化

Very Fast Streaming Submodular Function Maximization ( http://arxiv.org/abs/2010.10059v5 )

ライセンス: Link先を確認
Sebastian Buschj\"ager, Philipp-Jan Honysz, Lukas Pfahler, Katharina Morik(参考訳) データ要約はテラバイト単位のデータを理解する上で貴重なツールになっている。 その説得力のある理論的な性質から、サブモジュラー関数は要約アルゴリズムの焦点となっている。 これらのアルゴリズムは、より高い計算とメモリ要求を犠牲にして最悪の近似を提供する。 しかし、多くの実用的アプリケーションは、この最悪のケースに該当しないが、通常、ずっとうまく機能している。 本稿では,最悪のケースを無視するが,高い確率で優れた解を提供する3-Sievesという,新しい部分モジュラ関数最大化アルゴリズムを提案する。 オンザフライでデータストリームから最も有用な項目を選択し、固定メモリ予算で証明可能なパフォーマンスを維持する。 広範な評価では,8ドルの異なるデータセット上の6ドルの他の手法と,概念ドリフトの有無を比較した。 我々のアルゴリズムは現在の最先端のアルゴリズムよりも優れており、同時にリソースが少ないことも示している。 最後に,ガンマ線天文学におけるデータ要約のための実例を紹介する。 コードをhttps://github.com/sbuschjaeger/SubmodularStreamingMaximizationで公開しています。

Data summarization has become a valuable tool in understanding even terabytes of data. Due to their compelling theoretical properties, submodular functions have been in the focus of summarization algorithms. These algorithms offer worst-case approximations guarantees to the expense of higher computation and memory requirements. However, many practical applications do not fall under this worst-case, but are usually much more well-behaved. In this paper, we propose a new submodular function maximization algorithm called ThreeSieves, which ignores the worst-case, but delivers a good solution in high probability. It selects the most informative items from a data-stream on the fly and maintains a provable performance on a fixed memory budget. In an extensive evaluation, we compare our method against $6$ other methods on $8$ different datasets with and without concept drift. We show that our algorithm outperforms current state-of-the-art algorithms and, at the same time, uses fewer resources. Last, we highlight a real-world use-case of our algorithm for data summarization in gamma-ray astronomy. We make our code publicly available at https://github.com/sbuschjaeger/SubmodularStreamingMaximization.
翻訳日:2022-10-05 06:36:28 公開日:2021-05-08
# 一般価値関数としての余裕:計算モデル

Affordance as general value function: A computational model ( http://arxiv.org/abs/2010.14289v3 )

ライセンス: Link先を確認
Daniel Graves, Johannes G\"unther, Jun Luo(参考訳) 強化学習(rl)文学における一般価値関数(gvfs)は、環境における特定の政策に従うエージェントの成果の長期予測要約である。 特定の原子価に対する作用の可能性として認識される確率は、予測された政策相対的善意に投入され、GVFとしてモデル化される。 この関係を体系的に説明すると,GVF,特に深層学習の実施形態は,(1)直接知覚の形式としての可利用性予測を実現し,(2)可利用性における行動と知覚の基本的な関係を解明し,(3)RL法を用いて可利用性を学ぶためのスケーラブルな方法を提供する。 ロボット工学におけるGVF応用に関する既存の文献の広範なレビューを通じて、GVFsが現実世界の応用における可利用性を学ぶための適切な枠組みを提供することを示した。 さらに,GVFによる複雑な行動の整理など,GVFとしての認知という視点で開かれた新たな研究の方法をいくつか紹介する。

General value functions (GVFs) in the reinforcement learning (RL) literature are long-term predictive summaries of the outcomes of agents following specific policies in the environment. Affordances as perceived action possibilities with specific valence may be cast into predicted policy-relative goodness and modelled as GVFs. A systematic explication of this connection shows that GVFs and especially their deep learning embodiments (1) realize affordance prediction as a form of direct perception, (2) illuminate the fundamental connection between action and perception in affordance, and (3) offer a scalable way to learn affordances using RL methods. Through an extensive review of existing literature on GVF applications and representative affordance research in robotics, we demonstrate that GVFs provide the right framework for learning affordances in real-world applications. In addition, we highlight a few new avenues of research opened up by the perspective of "affordance as GVF", including using GVFs for orchestrating complex behaviors.
翻訳日:2022-10-02 12:05:37 公開日:2021-05-08
# 深部ニューラルネットワークの注意機構におけるデータインフォームドグローバルスパースネス

Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks ( http://arxiv.org/abs/2012.02030v2 )

ライセンス: Link先を確認
Ileana Rugina, Rumen Dangovski, Li Jing, Preslav Nakov, Marin Solja\v{c}i\'c(参考訳) 注意機構は自然言語処理(NLP)における神経革命の重要な要素である。 注目度に基づくモデルのサイズが利用可能な計算資源でスケールしているため、これらのモデルのスパース性をより効率的に検出し、活用するために多くのプルーニング技術が開発されている。 このような取り組みの大部分は、注意パターンを探し出し、それらをハードコーディングして疎度を達成したり、トレーニングデータから統計情報に基づいて注意機構の重み付けを行ったりすることに重点を置いている。 ここでは、固定されたデータセットにおける注意パターンの観察を収集し、そのモデルに対するグローバルなスパースネスマスクを誘導する新しいプルーニングフレームワークである、注意的プルーニング(AP)を提案することによって、これらの2つの研究の行を結婚する。 これにより、言語モデリングの注意の90%、機械翻訳の50%、グルータスクの解決の50%を削減し、結果の品質を維持することができる。 さらに,本手法を用いて,注意に基づくモデリングにおける今後のNLP研究を導くことができる自己認識パターンと横断注意パターンの区別について検討した。 我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。 私たちの実装はhttps://github.com/irugina/apで利用可能です。

The attention mechanism is a key component of the neural revolution in Natural Language Processing (NLP). As the size of attention-based models has been scaling with the available computational resources, a number of pruning techniques have been developed to detect and to exploit sparseness in such models in order to make them more efficient. The majority of such efforts have focused on looking for attention patterns and then hard-coding them to achieve sparseness, or pruning the weights of the attention mechanisms based on statistical information from the training data. Here, we marry these two lines of research by proposing Attention Pruning (AP): a novel pruning framework that collects observations about the attention patterns in a fixed dataset and then induces a global sparseness mask for the model. This can save 90% of the attention computation for language modelling and about 50% for machine translation and for solving GLUE tasks, while maintaining the quality of the results. Moreover, using our method, we discovered important distinctions between self- and cross-attention patterns, which could guide future NLP research in attention-based modelling. Our framework can in principle speed up any model that uses attention mechanism, thus helping develop better models for existing or for new NLP applications. Our implementation is available at https://github.com/irugina/AP.
翻訳日:2022-09-23 05:48:07 公開日:2021-05-08
# Gated Recurrent Units を用いたポーリングダイナミクスの推定

Pouring Dynamics Estimation Using Gated Recurrent Units ( http://arxiv.org/abs/2105.12828v1 )

ライセンス: Link先を確認
Qi Zheng(参考訳) 人間の日常生活における最も一般的な操作の1つは、注ぐことである。 多くの要因がターゲットの精度に影響を与えており、注水速度、回転角、源の幾何学、受信容器などがある。 本稿では, 深部繰り返しニューラルネットワーク, 特にゲートリカレントユニット (GRU) の複数層を用いた注水動作に対する注水カップの水量の変化を推定することにより, ロボットマニピュレータの繰り返し性と精度を向上させるアプローチを提案する。 提案したGRUモデルは,重み f(t) の予測値に対して,1e-4 (lbf) 以下の2乗誤差を検証平均とした。 本稿では、繰り返しニューラルネットワークとハイパーパラメータ微調整の様々な設計による多数の実験の包括的評価と解析を含む。

One of the most commonly performed manipulation in a human's daily life is pouring. Many factors have an effect on target accuracy, including pouring velocity, rotation angle, geometric of the source, and the receiving containers. This paper presents an approach to increase the repeatability and accuracy of the robotic manipulator by estimating the change in the amount of water of the pouring cup to a sequence of pouring actions using multiple layers of the deep recurrent neural network, especially gated recurrent units (GRU). The proposed GRU model achieved a validation mean squared error as low as 1e-4 (lbf) for the predicted value of weight f(t). This paper contains a comprehensive evaluation and analysis of numerous experiments with various designs of recurrent neural networks and hyperparameters fine-tuning.
翻訳日:2021-06-06 11:08:13 公開日:2021-05-08
# (参考訳) 確率グラフモデルによる配電系統のマルチソースデータ融合停止位置

Multi-Source Data Fusion Outage Location in Distribution Systems via Probabilistic Graph Models ( http://arxiv.org/abs/2012.02877v2 )

ライセンス: CC BY 4.0
Yuxuan Yuan, Kaveh Dehghanpour, Zhaoyu Wang, Fankun Bu(参考訳) 効率の良い停電位置は配電システムのレジリエンスを高めるために重要である。 しかし、正確な停止位置は、スマートメーター(SM)ラストギャップ信号、顧客のトラブルコール、ソーシャルメディアメッセージ、天気データ、植生情報、ネットワークの物理的パラメータなど、さまざまなデータソースから受け取った膨大な証拠を組み合わせる必要がある。 これは分散グリッドにおけるデータの高次元性に起因する計算学的に複雑なタスクである。 本稿では,ベイズネットワーク(bns)を用いた部分観測可能な分散システムにおいて,停止イベントを探索するためのマルチソースデータ融合手法を提案する。 提案手法の新たな側面は,多元的証拠と分布系の複雑な構造を確率的グラフィカル手法を用いて考慮することである。 提案手法は,高次元空間における停止位置推定の計算量を大幅に削減することができる。 提案したBNのグラフィカルな構造は,ネットワークのトポロジと,分岐・触媒の状態や証拠などのランダム変数間の因果関係に基づいて確立されている。 このグラフィカルモデルを用いることで、ギブスサンプリング(GS)法を利用して正確な停止位置を求め、すべてのブランチに対してデエネルギ化の確率を推定する。 BNの大きさが指数関数的に複雑である一般的な正確な推論法と比較して、GSは目標条件確率分布をタイムリーに定量化する。 提案手法の有効性を検証するために,複数の実世界の流通システムの事例研究を行った。

Efficient outage location is critical to enhancing the resilience of power distribution systems. However, accurate outage location requires combining massive evidence received from diverse data sources, including smart meter (SM) last gasp signals, customer trouble calls, social media messages, weather data, vegetation information, and physical parameters of the network. This is a computationally complex task due to the high dimensionality of data in distribution grids. In this paper, we propose a multi-source data fusion approach to locate outage events in partially observable distribution systems using Bayesian networks (BNs). A novel aspect of the proposed approach is that it takes multi-source evidence and the complex structure of distribution systems into account using a probabilistic graphical method. Our method can radically reduce the computational complexity of outage location inference in high-dimensional spaces. The graphical structure of the proposed BN is established based on the network's topology and the causal relationship between random variables, such as the states of branches/customers and evidence. Utilizing this graphical model, accurate outage locations are obtained by leveraging a Gibbs sampling (GS) method, to infer the probabilities of de-energization for all branches. Compared with commonly-used exact inference methods that have exponential complexity in the size of the BN, GS quantifies the target conditional probability distributions in a timely manner. A case study of several real-world distribution systems is presented to validate the proposed method.
翻訳日:2021-05-22 22:59:57 公開日:2021-05-08
# (参考訳) エンドツーエンド音声認識モデルのロバスト性 -Mozilla DeepSpeech を用いた事例-

Robustness of end-to-end Automatic Speech Recognition Models -- A Case Study using Mozilla DeepSpeech ( http://arxiv.org/abs/2105.09742v1 )

ライセンス: CC BY 4.0
Aashish Agarwal and Torsten Zesch(参考訳) 音声認識モデルの性能を評価する際には、通常、特定のデータセット内の単語誤り率を用いる。 現実的なパフォーマンス数値を報告するためには、データセットの理解に特に注意する必要がある。 多くの性能数値が予想されるエラー率を過小評価していると我々は主張する。 我々は、選択バイアス、性別、およびコンテンツ、音声、記録条件の重複(トレーニングとテストデータ間の重複)を制御する実験を行う。 コンテンツの重複は最大の影響を与えるが、ジェンダーのような他の要因も重要な役割を果たしている。

When evaluating the performance of automatic speech recognition models, usually word error rate within a certain dataset is used. Special care must be taken in understanding the dataset in order to report realistic performance numbers. We argue that many performance numbers reported probably underestimate the expected error rate. We conduct experiments controlling for selection bias, gender as well as overlap (between training and test data) in content, voices, and recording conditions. We find that content overlap has the biggest impact, but other factors like gender also play a role.
翻訳日:2021-05-22 02:29:21 公開日:2021-05-08
# (参考訳) 近似同期アドバンテージ推定によるマルチエージェントポリシー最適化

Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation ( http://arxiv.org/abs/2012.03488v3 )

ライセンス: CC BY 4.0
Lipeng Wan, Xuwei Song, Xuguang Lan, Nanning Zheng(参考訳) 協力型マルチエージェントタスクでは、クレジット割り当ての課題として知られる、グローバルな報酬を共有することで、エージェントが自身の貢献を推測する必要がある。 課題を解決するためのポリシベースマルチエージェント強化学習の一般的な方法は,個々のエージェントに対する価値関数やアドバンテージ関数の違いを導入する。 マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。 警察を同期的に更新するためには、そのような値関数や有利関数も同期評価を必要とする。 しかし、現在の手法では、値関数や有利関数は、非同期に評価される対実関節アクションを使用し、したがって自然な推定バイアスに悩まされる。 本研究では,近似的同期的優位推定法を提案する。 まず、一エージェントの利点関数からマルチエージェントシステムへの拡張である限界優位関数を導出する。 さらに,同期アドバンテージ推定のためのポリシ近似を導入し,マルチエージェント・ポリシー最適化問題を単一エージェント・ポリシー最適化の複数のサブ問題に分割する。 提案手法は,StarCraftマルチエージェント課題のベースラインアルゴリズムと比較し,ほとんどのタスクにおいて最高の性能を示す。

Cooperative multi-agent tasks require agents to deduce their own contributions with shared global rewards, known as the challenge of credit assignment. General methods for policy based multi-agent reinforcement learning to solve the challenge introduce differentiate value functions or advantage functions for individual agents. In multi-agent system, polices of different agents need to be evaluated jointly. In order to update polices synchronously, such value functions or advantage functions also need synchronous evaluation. However, in current methods, value functions or advantage functions use counter-factual joint actions which are evaluated asynchronously, thus suffer from natural estimation bias. In this work, we propose the approximatively synchronous advantage estimation. We first derive the marginal advantage function, an expansion from single-agent advantage function to multi-agent system. Further more, we introduce a policy approximation for synchronous advantage estimation, and break down the multi-agent policy optimization problem into multiple sub-problems of single-agent policy optimization. Our method is compared with baseline algorithms on StarCraft multi-agent challenges, and shows the best performance on most of the tasks.
翻訳日:2021-05-21 05:16:27 公開日:2021-05-08
# (参考訳) IoTにおける無線デバイス識別のためのクラスインクリメンタル学習

Class-Incremental Learning for Wireless Device Identification in IoT ( http://arxiv.org/abs/2105.06381v1 )

ライセンス: CC BY 4.0
Yongxin Liu, Jian Wang, Jianqiang Li, Shuteng Niu, Houbing Song(参考訳) ディープラーニング(DL)はIoT(Internet of Things)で広く利用されている。 IoTにおけるDLの典型的な応用の1つは、無線信号、すなわち非暗号化デバイス識別(NDI)からのデバイス識別である。 しかし、NDIシステムの学習コンポーネントは、運用のバリエーションに適応するために進化し、このようなパラダイムをインクリメンタルラーニング(IL)と呼ぶ。 さまざまなILアルゴリズムが提案されており、その多くは履歴データの蓄積に専用のスペースを必要とするため、IoTやモバイルアプリケーションには適さない。 しかし、従来のIL方式では、履歴データが入手できない場合、満足な性能が得られない。 本稿では,NDIにおけるIL問題に対する新しい視点から,DNNモデルのトポロジカル成熟度をクラス固有指紋の衝突度から測定する新しい指標を提案する。 ILにより実現されたNDIの性能劣化の重要な原因は,デバイスの指紋の衝突によるものである。 第2に,従来の IL スキームは,NDI システムにおける DNN モデルの位相的成熟度が低いことを示す。 第3に,過去のデータを用いずに,新たなチャネル分離可能なインクリメンタルラーニング(csil)方式を提案する。 最後に,航空におけるIoTの応用であるADS-B(Automatic Dependent Surveillance-Broadcast)の実データを用いて,提案フレームワークの有効性を評価した。 提案されたフレームワークは、さまざまなIoTアプリケーションやサービスにおけるIoTデバイスの正確な識別に適用される可能性がある。 IEEE Dataport (DOI: 10.21227/1bxc-ke87) および \url{https://github.com/pcwhy/CSIL}} で利用可能なデータとコード

Deep Learning (DL) has been utilized pervasively in the Internet of Things (IoT). One typical application of DL in IoT is device identification from wireless signals, namely Non-cryptographic Device Identification (NDI). However, learning components in NDI systems have to evolve to adapt to operational variations, such a paradigm is termed as Incremental Learning (IL). Various IL algorithms have been proposed and many of them require dedicated space to store the increasing amount of historical data, and therefore, they are not suitable for IoT or mobile applications. However, conventional IL schemes can not provide satisfying performance when historical data are not available. In this paper, we address the IL problem in NDI from a new perspective, firstly, we provide a new metric to measure the degree of topological maturity of DNN models from the degree of conflict of class-specific fingerprints. We discover that an important cause for performance degradation in IL enabled NDI is owing to the conflict of devices' fingerprints. Second, we also show that the conventional IL schemes can lead to low topological maturity of DNN models in NDI systems. Thirdly, we propose a new Channel Separation Enabled Incremental Learning (CSIL) scheme without using historical data, in which our strategy can automatically separate devices' fingerprints in different learning stages and avoid potential conflict. Finally, We evaluated the effectiveness of the proposed framework using real data from ADS-B (Automatic Dependent Surveillance-Broadcast), an application of IoT in aviation. The proposed framework has the potential to be applied to accurate identification of IoT devices in a variety of IoT applications and services. Data and code available at IEEE Dataport (DOI: 10.21227/1bxc-ke87) and \url{https://github.com/pcwhy/CSIL}}
翻訳日:2021-05-15 11:49:30 公開日:2021-05-08
# (参考訳) 話者インフォームドモデル選択によるゼロショット個人化音声強調

Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model Selection ( http://arxiv.org/abs/2105.03542v1 )

ライセンス: CC BY 4.0
Aswin Sivaraman, Minje Kim(参考訳) 本稿では,スパースアクティブアンサンブルモデルを用いて,パーソナライズされた音声強調に対するゼロショット学習手法を提案する。 特定のテスト時間話者に向かって音声を発音するシステムを最適化することは、パフォーマンスを改善し、実行時の複雑さを低減できる。 しかし、テストタイム話者からデータを収集できない場合、テストタイムモデル適応は困難である。 そこで,本研究では,各専門家モジュールが学習集合話者の異なる分割から雑音発話を発音するアンサンブルモデルを提案する。 ゲーティングモジュールは、埋め込みベクトルの形でテスト時間スピーカ特性を安価に推定し、テスト信号をデノージする最も適切な専門モジュールを選択する。 トレーニングセットの話者を重複しない意味的に類似したグループにグループ化することは、自明で未定義である。 そこで我々はまず、雑音の多い音声対を用いてシームズネットワークを訓練し、同じ話者から発する発話の有無に応じて出力ベクトルの類似性を最大化または最小化する。 次に、トレーニングセット話者あたりの平均埋め込みベクトルによって形成された潜在空間上でk平均クラスタリングを行う。 このように話者グループを定義し,完全なトレーニングセットの分割を中心に最適化した専門モジュールを訓練する。 実験の結果,低容量スペシャリストによるアンサンブルモデルでは,高容量ジェネリストモデルよりも効率が良く,テストタイムの未確認話者への適応性が向上することがわかった。

This paper presents a novel zero-shot learning approach towards personalized speech enhancement through the use of a sparsely active ensemble model. Optimizing speech denoising systems towards a particular test-time speaker can improve performance and reduce run-time complexity. However, test-time model adaptation may be challenging if collecting data from the test-time speaker is not possible. To this end, we propose using an ensemble model wherein each specialist module denoises noisy utterances from a distinct partition of training set speakers. The gating module inexpensively estimates test-time speaker characteristics in the form of an embedding vector and selects the most appropriate specialist module for denoising the test signal. Grouping the training set speakers into non-overlapping semantically similar groups is non-trivial and ill-defined. To do this, we first train a Siamese network using noisy speech pairs to maximize or minimize the similarity of its output vectors depending on whether the utterances derive from the same speaker or not. Next, we perform k-means clustering on the latent space formed by the averaged embedding vectors per training set speaker. In this way, we designate speaker groups and train specialist modules optimized around partitions of the complete training set. Our experiments show that ensemble models made up of low-capacity specialists can outperform high-capacity generalist models with greater efficiency and improved adaptation towards unseen test-time speakers.
翻訳日:2021-05-14 03:59:20 公開日:2021-05-08
# (参考訳) 個人化音声強調に向けたテスト時間適応:知識蒸留によるゼロショット学習

Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot Learning with Knowledge Distillation ( http://arxiv.org/abs/2105.03544v1 )

ライセンス: CC BY 4.0
Sunwoo Kim and Minje Kim(参考訳) エンドユーザーデバイスにおける現実的な音声強調設定では、特定の音響環境において再起しがちな話者やノイズタイプに遭遇することが多い。 本稿では,テスト時間特異性に適応するコンパクトな認知モデルを実現するための,パーソナライズされた音声強調手法を提案する。 このテスト時間適応の目標は、テスト話者のクリーンな音声目標を活用せず、ゼロショット学習の要件を満たすことである。 クリーン発話の欠如を補うため,我々は知識蒸留の枠組みを採用している。 欠落しているクリーンな発話目標の代わりに、非常に大きな教師モデルからより高度な発音結果を抽出し、それを疑似目標として、小学生モデルを訓練します。 このゼロショット学習手順は、プライバシの懸念やクリーン音声の録音が技術的に困難であることから、ユーザのクリーンスピーチの収集プロセスを回避するものだ。 種々の試験時間条件における実験により,提案手法は,大規模話者・雑音に依存しないデータセットからトレーニングした大規模ベースラインネットワークと比較して,大幅な性能向上を実現することが示された。 また,コンパクトなパーソナライズモデルが汎用モデルよりも優れた性能を持つため,提案手法は分散性能を損なうことなくモデル圧縮を行うことができると主張している。

In realistic speech enhancement settings for end-user devices, we often encounter only a few speakers and noise types that tend to reoccur in the specific acoustic environment. We propose a novel personalized speech enhancement method to adapt a compact denoising model to the test-time specificity. Our goal in this test-time adaptation is to utilize no clean speech target of the test speaker, thus fulfilling the requirement for zero-shot learning. To complement the lack of clean utterance, we employ the knowledge distillation framework. Instead of the missing clean utterance target, we distill the more advanced denoising results from an overly large teacher model, and use it as the pseudo target to train the small student model. This zero-shot learning procedure circumvents the process of collecting users' clean speech, a process that users are reluctant to comply due to privacy concerns and technical difficulty of recording clean voice. Experiments on various test-time conditions show that the proposed personalization method achieves significant performance gains compared to larger baseline networks trained from a large speaker- and noise-agnostic datasets. In addition, since the compact personalized models can outperform larger general-purpose models, we claim that the proposed method performs model compression with no loss of denoising performance.
翻訳日:2021-05-14 03:47:40 公開日:2021-05-08
# (参考訳) stigmergy と ant コロニーに触発されたスケーラブルな分散マルチエージェント強化学習法

Scalable, Decentralized Multi-Agent Reinforcement Learning Methods Inspired by Stigmergy and Ant Colonies ( http://arxiv.org/abs/2105.03546v1 )

ライセンス: CC BY 4.0
Austin Anhkhoi Nguyen(参考訳) 複雑なコーディネーションと制御タスクに取り組むためにマルチエージェント学習アルゴリズムを強化することは、現在進行中の研究にとって長年の課題である。 非定常性と非スケーリング性の影響を低減するために多くの方法が提案されている。 本研究では,これら2つの課題に対処する分散型マルチエージェント学習と計画手法について検討する。 特に、この方法はアリコロニーの凝集、協調、行動に触発されている。 その結果、これらのアルゴリズムは多数のエージェントを持つシステムに自然に拡張できるように設計されている。 最適性は保証されていないが、この方法は実際にうまく機能し、他のエージェントよりも有効にスケールすることを目的としている。 このアプローチは、単一エージェントrlとant-colonyにインスパイアされた分散型スティグマ作動性アルゴリズムを組み合わせて、マルチエージェント経路計画と環境修正を行う。 具体的には、このアルゴリズムをエージェントがゴール位置までナビゲートし、矩形箱を穴に押し込んで新たなトラバーサブルパスを生成するように学習する設定に適用する。 このアプローチは、この特定の環境で有望な成功をもたらすが、他人にそれほど簡単に一般化できないことが示されている。 設計されたアルゴリズムは、多くのエージェントに対して特にスケーラブルであるが、比較的単純で規則に基づくアプローチのため、その性能に制限がある。 さらに、RLトレーニングされたポリシーの構成可能性についても疑問視され、トレーニング環境ではポリシーが成功する一方で、大規模でマルチエージェントなフレームワークにトレーニングされたポリシーを適用すると予測不可能な振る舞いが生じる。

Bolstering multi-agent learning algorithms to tackle complex coordination and control tasks has been a long-standing challenge of on-going research. Numerous methods have been proposed to help reduce the effects of non-stationarity and unscalability. In this work, we investigate a novel approach to decentralized multi-agent learning and planning that attempts to address these two challenges. In particular, this method is inspired by the cohesion, coordination, and behavior of ant colonies. As a result, these algorithms are designed to be naturally scalable to systems with numerous agents. While no optimality is guaranteed, the method is intended to work well in practice and scale better in efficacy with the number of agents present than others. The approach combines single-agent RL and an ant-colony-inspired decentralized, stigmergic algorithm for multi-agent path planning and environment modification. Specifically, we apply this algorithm in a setting where agents must navigate to a goal location, learning to push rectangular boxes into holes to yield new traversable pathways. It is shown that while the approach yields promising success in this particular environment, it may not be as easily generalized to others. The algorithm designed is notably scalable to numerous agents but is limited in its performance due to its relatively simplistic, rule-based approach. Furthermore, the composability of RL-trained policies is called into question, where, while policies are successful in their training environments, applying trained policies to a larger-scale, multi-agent framework results in unpredictable behavior.
翻訳日:2021-05-14 03:35:31 公開日:2021-05-08
# (参考訳) クリック詐欺検出のためのマルチモーダル・コントラスト学習

Multimodal and Contrastive Learning for Click Fraud Detection ( http://arxiv.org/abs/2105.03567v1 )

ライセンス: CC BY 4.0
Weibin Li, Qiwei Zhong, Qingyang Zhao, Hongchun Zhang, Xiaonan Meng(参考訳) 広告クリックの不正検出は、現在のeコマースウェブサイトにおいて、ビジネスモデルの重要な要素として重要な役割を担っている。 これは、ユーザの人口統計情報やクリックの統計的特徴など、一連の対応する特徴を考慮し、クリックが不正であるか否かをコミュニティ内で予測することを目的としている。 近年,ユーザの複雑な特徴を抽出するための属性付き行動シーケンスとヘテロジニアスネットワークの導入が試みられ,クリック詐欺検出に大きな影響を与えた。 本稿では,Click Fraud Detection (MCCF) のためのマルチモーダル・コントラスト学習ネットワークを提案する。 具体的には,電子商取引プラットフォーム上では,人口統計情報,行動シーケンス,詐欺師と真のユーザ間のメディア関係の相違から動機づけられたMCCFは,幅広い特徴,行動シーケンス,異種ネットワークを共同で利用し,クリック表現を蒸留する。 さらに,これら3つのモジュールは,コントラスト学習によって統合され,最終予測に協調的に寄与する。 Alibabaプラットフォーム上での254万クリックを含む実世界のデータセットを用いて、MCCFの有効性を調査した。 実験の結果,提案手法は最先端手法と比較してAUCを7.2%,F1スコアを15.6%改善できることがわかった。

Advertising click fraud detection plays one of the vital roles in current E-commerce websites as advertising is an essential component of its business model. It aims at, given a set of corresponding features, e.g., demographic information of users and statistical features of clicks, predicting whether a click is fraudulent or not in the community. Recent efforts attempted to incorporate attributed behavior sequence and heterogeneous network for extracting complex features of users and achieved significant effects on click fraud detection. In this paper, we propose a Multimodal and Contrastive learning network for Click Fraud detection (MCCF). Specifically, motivated by the observations on differences of demographic information, behavior sequences and media relationship between fraudsters and genuine users on E-commerce platform, MCCF jointly utilizes wide and deep features, behavior sequence and heterogeneous network to distill click representations. Moreover, these three modules are integrated by contrastive learning and collaboratively contribute to the final predictions. With the real-world datasets containing 2.54 million clicks on Alibaba platform, we investigate the effectiveness of MCCF. The experimental results show that the proposed approach is able to improve AUC by 7.2% and F1-score by 15.6%, compared with the state-of-the-art methods.
翻訳日:2021-05-13 12:07:14 公開日:2021-05-08
# (参考訳) 適応オブジェクト検出のためのドメイン特化抑制

Domain-Specific Suppression for Adaptive Object Detection ( http://arxiv.org/abs/2105.03570v1 )

ライセンス: CC BY 4.0
Yu Wang, Rui Zhang, Shuo Zhang, Miao Li, YangYang Xia, XiShan Zhang, ShaoLi Liu(参考訳) ドメイン適応メソッドは、オブジェクト検出においてパフォーマンス低下に直面し、タスクの複雑さはモデルの転送可能性についてより多くを必要とする。 本研究では,cnnモデルが伝達性を得るための新しい視点を提案し,モデルの重みを一連の運動パターンとして捉えた。 重みの方向と勾配はドメイン固有部分とドメイン不変部分に分けられ、ドメイン適応の目的はドメイン固有部分から乱を排除しながらドメイン不変方向に集中することである。 現在のudaオブジェクト検出手法では、2つの方向を最適化しながら全体として見ているため、出力機能が完全に整列していても、ドメイン不変の方向ミスマッチを引き起こす。 本稿では,2つの方向を分離し,ドメイン固有の方向を抑えるために,バックプロパゲーションにおける元の畳み込み勾配に対する例と一般化可能な制約であるドメイン固有抑制を提案する。 さらに,天気,カメラ構成,合成から現実世界への適応など,複数の領域適応オブジェクト検出タスクに関する理論的解析と手法を検証した。 実験の結果,UDAオブジェクト検出分野における最先端手法に対する大きな進歩を示し,これらすべてのドメイン適応シナリオに対して10.2\sim12.2\%$ mAPのプロモーションを行うことができた。

Domain adaptation methods face performance degradation in object detection, as the complexity of tasks require more about the transferability of the model. We propose a new perspective on how CNN models gain the transferability, viewing the weights of a model as a series of motion patterns. The directions of weights, and the gradients, can be divided into domain-specific and domain-invariant parts, and the goal of domain adaptation is to concentrate on the domain-invariant direction while eliminating the disturbance from domain-specific one. Current UDA object detection methods view the two directions as a whole while optimizing, which will cause domain-invariant direction mismatch even if the output features are perfectly aligned. In this paper, we propose the domain-specific suppression, an exemplary and generalizable constraint to the original convolution gradients in backpropagation to detach the two parts of directions and suppress the domain-specific one. We further validate our theoretical analysis and methods on several domain adaptive object detection tasks, including weather, camera configuration, and synthetic to real-world adaptation. Our experiment results show significant advance over the state-of-the-art methods in the UDA object detection field, performing a promotion of $10.2\sim12.2\%$ mAP on all these domain adaptation scenarios.
翻訳日:2021-05-13 11:54:39 公開日:2021-05-08
# (参考訳) マイグレーション画像による非教師なしリモートセンシングスーパーレゾリューション

Unsupervised Remote Sensing Super-Resolution via Migration Image Prior ( http://arxiv.org/abs/2105.03579v1 )

ライセンス: CC BY 4.0
Jiaming Wang, Zhenfeng Shao, Tao Liu, Xiao Huang, Ruiqian Zhang, Yu Wang(参考訳) 近年,高時間分解能の衛星が様々な実用化に広く注目されている。 しかし、帯域幅の制限とハードウェアコストのため、そのような衛星の空間分解能はかなり低く、空間的に明示的な情報を必要とするシナリオにおいてそのポテンシャルをほとんど制限している。 画像解像度を改善するために,超解像度(sr)タスクに対処するために,低解像度ペアのトレーニングに基づく多数のアプローチが提案されている。 しかし、その成功にもかかわらず、低空間分解能と高空間分解能のペアは通常、高時間分解能の衛星では取得が困難であり、そのようなアプローチはSRでは使用できない。 本稿では,低解像度画像ペアを使わずにSRタスクを実現する,新しい教師なし学習フレームワーク"MIP"を提案する。 まず,ランダムなノイズマップをGAN(Design Generative Adversarial Network)に入力して再構成を行う。 そこで,提案手法では,参照画像を移動画像として遅延空間に変換する。 最後に、暗黙的な方法で入力ノイズを更新し、さらにテクスチャと構造化情報を参照画像から転送する。 Draperデータセットの大規模な実験結果から、MIPは最先端の手法よりも定量的にも質的にも大幅な改善を達成している。 提案されたMIPはhttp://github.com/jiaming-wang/MIPでオープンソース化されている。

Recently, satellites with high temporal resolution have fostered wide attention in various practical applications. Due to limitations of bandwidth and hardware cost, however, the spatial resolution of such satellites is considerably low, largely limiting their potentials in scenarios that require spatially explicit information. To improve image resolution, numerous approaches based on training low-high resolution pairs have been proposed to address the super-resolution (SR) task. Despite their success, however, low/high spatial resolution pairs are usually difficult to obtain in satellites with a high temporal resolution, making such approaches in SR impractical to use. In this paper, we proposed a new unsupervised learning framework, called "MIP", which achieves SR tasks without low/high resolution image pairs. First, random noise maps are fed into a designed generative adversarial network (GAN) for reconstruction. Then, the proposed method converts the reference image to latent space as the migration image prior. Finally, we update the input noise via an implicit method, and further transfer the texture and structured information from the reference image. Extensive experimental results on the Draper dataset show that MIP achieves significant improvements over state-of-the-art methods both quantitatively and qualitatively. The proposed MIP is open-sourced at http://github.com/jiaming-wang/MIP.
翻訳日:2021-05-13 11:41:26 公開日:2021-05-08
# (参考訳) Dynamic-OFA:不均一な組み込みプラットフォーム上でのパフォーマンススケーリングのための実行時DNNアーキテクチャスイッチ

Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03596v1 )

ライセンス: CC BY 4.0
Wei Lou, Lei Xun, Amin Sabet, Jia Bi, Jonathon Hare, Geoff V. Merrett(参考訳) モバイルおよび組み込みプラットフォームは、不均一な処理要素をまたいだ計算要求のDNNを効率的に実行するためにますます必要となる。 実行時に、DNNに利用可能なハードウェアリソースは、他の並列実行アプリケーションによって大きく異なる可能性がある。 アプリケーションのパフォーマンス要件は、異なるシナリオの下でも変更できる。 所望の性能を達成するために,様々な資源制約の下で異なる要求を満たすために,チャネル/レイヤの数をリアルタイムでスケールできる動的dnnが提案されている。 しかし、このような動的DNNのトレーニングプロセスは、異なるデプロイメントシナリオのプラットフォーム対応モデルを再トレーニングする必要があるため、コストがかかる可能性がある。 本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。 全ネットワーク(OFA)。 dynamic-ofaは静的ofaバックボーンモデルからサブネットワークのファミリーをプリサンプリングし、異なるランタイム環境下で異なるサブネットワークを選択するランタイムマネージャを含む。 そのため、Dynamic-OFAは従来の動的DNNトレーニングパイプラインを必要としない。 最新技術と比較すると、Jetson Xavier NX上でのImageNetを用いた実験結果は、アプローチが類似のImageNet Top-1精度で3.5x(CPU)、2.4x(GPU)、または3.8%(CPU)、同様のレイテンシで5.1%(GPU)の精度であることを示している。

Mobile and embedded platforms are increasingly required to efficiently execute computationally demanding DNNs across heterogeneous processing elements. At runtime, the available hardware resources to DNNs can vary considerably due to other concurrently running applications. The performance requirements of the applications could also change under different scenarios. To achieve the desired performance, dynamic DNNs have been proposed in which the number of channels/layers can be scaled in real time to meet different requirements under varying resource constraints. However, the training process of such dynamic DNNs can be costly, since platform-aware models of different deployment scenarios must be retrained to become dynamic. This paper proposes Dynamic-OFA, a novel dynamic DNN approach for state-of-the-art platform-aware NAS models (i.e. Once-for-all network (OFA)). Dynamic-OFA pre-samples a family of sub-networks from a static OFA backbone model, and contains a runtime manager to choose different sub-networks under different runtime environments. As such, Dynamic-OFA does not need the traditional dynamic DNN training pipeline. Compared to the state-of-the-art, our experimental results using ImageNet on a Jetson Xavier NX show that the approach is up to 3.5x (CPU), 2.4x (GPU) faster for similar ImageNet Top-1 accuracy, or 3.8% (CPU), 5.1% (GPU) higher accuracy at similar latency.
翻訳日:2021-05-13 11:18:10 公開日:2021-05-08
# (参考訳) 全分布に依存する一般報酬関数を用いた純粋探査バンドイット問題

Pure Exploration Bandit Problem with General Reward Functions Depending on Full Distributions ( http://arxiv.org/abs/2105.03598v1 )

ライセンス: CC0 1.0
Siwei Wang, Wei Chen(参考訳) 本稿では,一般分布関数の純粋探索バンディットモデルについて検討する。つまり,各アームの報酬関数は,その平均値だけでなく,分布全体に依存する。 この問題を解決するために、レースフレームワークとLUCBフレームワークを適用し、異なる種類の分布で報酬関数の価値を推定するアルゴリズムを設計する。 そして,提案手法が適切なパラメータで正確性を保証することを示し,それらのサンプル複雑性上限を求める。 最後に,学習フレームワーク下で重要なアプリケーションとその対応ソリューションについて論じる。

In this paper, we study the pure exploration bandit model on general distribution functions, which means that the reward function of each arm depends on the whole distribution, not only its mean. We adapt the racing framework and LUCB framework to solve this problem, and design algorithms for estimating the value of the reward functions with different types of distributions. Then we show that our estimation methods have correctness guarantee with proper parameters, and obtain sample complexity upper bounds for them. Finally, we discuss about some important applications and their corresponding solutions under our learning framework.
翻訳日:2021-05-13 11:06:56 公開日:2021-05-08
# (参考訳) デンス検索のための擬似クエリ埋め込み生成による文書表現の改善

Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval ( http://arxiv.org/abs/2105.03599v1 )

ライセンス: CC BY 4.0
Hongyin Tang, Xingwu Sun, Beihong Jin, Jingang Wang, Fuzheng Zhang, Wei Wu(参考訳) 近年,高密度表現に基づく検索モデルは文書検索タスクの第1段階で徐々に適用され,従来の疎ベクトル空間モデルよりも優れた性能を示している。 高効率を得るために、これらのモデルの基本的な構造は、ほとんどの場合ビエンコーダである。 しかし、この単純な構造はクエリに依存せず、ドキュメントのエンコーディング中に深刻な情報損失を引き起こす可能性がある。 この問題に対処するために,各文書のクエリを反復的クラスタリングプロセスで模倣し,複数の疑似クエリ(すなわちクラスタセンタロイド)で文書を表現する手法を設計する。 また,近接探索ライブラリを用いて検索処理を高速化するために,2段階のスコア計算手順でマッチング機能を最適化する。 いくつかの人気ランキングとQAデータセットの実験結果から、我々のモデルが最先端の結果を得ることができることが示された。

Recently, the retrieval models based on dense representations have been gradually applied in the first stage of the document retrieval tasks, showing better performance than traditional sparse vector space models. To obtain high efficiency, the basic structure of these models is Bi-encoder in most cases. However, this simple structure may cause serious information loss during the encoding of documents since the queries are agnostic. To address this problem, we design a method to mimic the queries on each of the documents by an iterative clustering process and represent the documents by multiple pseudo queries (i.e., the cluster centroids). To boost the retrieval process using approximate nearest neighbor search library, we also optimize the matching function with a two-step score calculation procedure. Experimental results on several popular ranking and QA datasets show that our model can achieve state-of-the-art results.
翻訳日:2021-05-13 10:42:00 公開日:2021-05-08
# (参考訳) 不均一な組み込みプラットフォーム上での実行時DNNパフォーマンススケーリングのためのインクリメンタルトレーニングとグループ畳み込み

Incremental Training and Group Convolution Pruning for Runtime DNN Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03600v1 )

ライセンス: CC BY 4.0
Lei Xun, Long Tran-Thanh, Bashir M Al-Hashimi, Geoff V. Merrett(参考訳) Deep Neural Networksの推論は、レイテンシ、プライバシ、接続性の利点から、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。 現代のSystem on Chipsは、通常、異なるワークロードと動的ワークロードの組み合わせを同時に実行するため、DNNで利用可能なローカルコンピューティングリソースが異なるため、実行時に推論時間/エネルギー予算を一貫して満たすことは困難である。 この課題に対処するために、様々な動的DNNが提案された。 しかしながら、これらの作業には大きなメモリオーバーヘッド、ランタイム回復可能な圧縮速度の制限、パフォーマンススケーリングのダイナミックレンジの制限がある。 本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。 dnn畳み込み層のチャネルはグループに分割され、段階的に訓練される。 実行時に、以下のグループは推論時間/エネルギー削減のためにプルーニングしたり、モデルの再トレーニングなしで精度回復のために追加することができる。 さらに、タスクマッピングと動的電圧周波数スケーリング(DVFS)を動的DNNと組み合わせることで、より広いダイナミックレンジでの精度と時間/電力/エネルギーのトレードオフをより細かくする。 我々は、CIFAR10イメージデータセットのためにAlexNetを修正し、Odroid XU3(ARM Big.LITTLE CPU)とNvidia Jetson Nano(CPUとGPU)という2つの異種ハードウェアプラットフォーム上での作業を評価した。 既存の作品と比較して、このアプローチは最大2.36倍(エネルギー)と2.73倍(時間)のダイナミックレンジを提供し、同じ圧縮レートで2.4倍のメモリフットプリントを削減できる。 タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。

Inference for Deep Neural Networks is increasingly being executed locally on mobile and embedded platforms due to its advantages in latency, privacy and connectivity. Since modern System on Chips typically execute a combination of different and dynamic workloads concurrently, it is challenging to consistently meet inference time/energy budget at runtime because of the local computing resources available to the DNNs vary considerably. To address this challenge, a variety of dynamic DNNs were proposed. However, these works have significant memory overhead, limited runtime recoverable compression rate and narrow dynamic ranges of performance scaling. In this paper, we present a dynamic DNN using incremental training and group convolution pruning. The channels of the DNN convolution layer are divided into groups, which are then trained incrementally. At runtime, following groups can be pruned for inference time/energy reduction or added back for accuracy recovery without model retraining. In addition, we combine task mapping and Dynamic Voltage Frequency Scaling (DVFS) with our dynamic DNN to deliver finer trade-off between accuracy and time/power/energy over a wider dynamic range. We illustrate the approach by modifying AlexNet for the CIFAR10 image dataset and evaluate our work on two heterogeneous hardware platforms: Odroid XU3 (ARM big.LITTLE CPUs) and Nvidia Jetson Nano (CPU and GPU). Compared to the existing works, our approach can provide up to 2.36x (energy) and 2.73x (time) wider dynamic range with a 2.4x smaller memory footprint at the same compression rate. It achieved 10.6x (energy) and 41.6x (time) wider dynamic range by combining with task mapping and DVFS.
翻訳日:2021-05-13 10:28:57 公開日:2021-05-08
# (参考訳) トリミングハンドで無休のマルコフアームを検知する学習

Learning to Detect an Odd Restless Markov Arm with a Trembling Hand ( http://arxiv.org/abs/2105.03603v1 )

ライセンス: CC BY 4.0
P. N. Karthik and Rajesh Sundaresan(参考訳) 本稿では, (a) 各アームが有限状態マルコフ過程であり, (b) アームがレストである場合, 多腕のバンディットにおいて異常なアームを見つける問題について検討する。 ここでの異常とは、一方の腕(奇腕)の遷移確率行列(TPM)が他方の腕の共通のTPMとは異なることを意味する。 TPMは、エラー確率の上限を条件として、奇腕の指数をできるだけ早く見つけようとする決定エンティティには未知である。 我々は、異常なアーム指数を見つけるのに必要な期待時間に基づいて、問題のインスタンス固有の漸近的下限を導出する。 さらに, 確実性同値原理に基づく政策を考案し, 連続選択仮定とtpms上の一定の規則性仮定の下で, 政策が任意に下限を満たしていることを示す。 したがって、下限はすべての問題インスタンスに対して示されるが、上限は正規性仮定を満たす問題インスタンスに対してのみ示される。 我々の実現可能性分析は、可算状態制御マルコフ過程の文脈における識別可能性問題の解法に基づいている。

This paper studies the problem of finding an anomalous arm in a multi-armed bandit when (a) each arm is a finite-state Markov process, and (b) the arms are restless. Here, anomaly means that the transition probability matrix (TPM) of one of the arms (the odd arm) is different from the common TPM of each of the non-odd arms. The TPMs are unknown to a decision entity that wishes to find the index of the odd arm as quickly as possible, subject to an upper bound on the error probability. We derive a problem instance specific asymptotic lower bound on the expected time required to find the odd arm index, where the asymptotics is as the error probability vanishes. Further, we devise a policy based on the principle of certainty equivalence, and demonstrate that under a continuous selection assumption and a certain regularity assumption on the TPMs, the policy achieves the lower bound arbitrarily closely. Thus, while the lower bound is shown for all problem instances, the upper bound is shown only for those problem instances satisfying the regularity assumption. Our achievability analysis is based on resolving the identifiability problem in the context of a certain countable-state controlled Markov process.
翻訳日:2021-05-13 10:18:13 公開日:2021-05-08
# (参考訳) 組み込み機械学習のためのリソース管理の最適化

Optimising Resource Management for Embedded Machine Learning ( http://arxiv.org/abs/2105.03608v1 )

ライセンス: CC BY 4.0
Lei Xun, Long Tran-Thanh, Bashir M Al-Hashimi, Geoff V. Merrett(参考訳) マシンラーニングの推論は、レイテンシやプライバシ、接続性に明確なメリットがあるため、モバイルおよび組み込みプラットフォーム上でのローカル実行がますます増えている。 本稿では、異種マルチコアシステムにおけるオンラインリソース管理のアプローチを提案し、機械学習ワークロードの性能を最適化する方法を示す。 パフォーマンスはプラットフォームに依存して定義することができる(例)。 スピード、エネルギー)とプラットフォームに依存しない(正確性、信頼性)メトリクス。 特に、ディープニューラルネットワーク(dnn)が動的にスケーラブルになり、これらの様々なパフォーマンス指標をトレードオフできることを示す。 異なるプラットフォーム上で実行する場合の一貫したパフォーマンスを実現するには、提供されるリソースとその能力、他のワークロードと並行して実行する場合の時間的不安定性など、非常に困難である。 利用可能なハードウェアリソース間のインターフェース管理(本質的には多種多様なハードウェアリソース)、ソフトウェア要件、ユーザエクスペリエンスはますます複雑になっています。

Machine learning inference is increasingly being executed locally on mobile and embedded platforms, due to the clear advantages in latency, privacy and connectivity. In this paper, we present approaches for online resource management in heterogeneous multi-core systems and show how they can be applied to optimise the performance of machine learning workloads. Performance can be defined using platform-dependent (e.g. speed, energy) and platform-independent (accuracy, confidence) metrics. In particular, we show how a Deep Neural Network (DNN) can be dynamically scalable to trade-off these various performance metrics. Achieving consistent performance when executing on different platforms is necessary yet challenging, due to the different resources provided and their capability, and their time-varying availability when executing alongside other workloads. Managing the interface between available hardware resources (often numerous and heterogeneous in nature), software requirements, and user experience is increasingly complex.
翻訳日:2021-05-13 10:16:59 公開日:2021-05-08
# (参考訳) 自己学習による言語横断読解の改善

Improving Cross-Lingual Reading Comprehension with Self-Training ( http://arxiv.org/abs/2105.03627v1 )

ライセンス: CC BY 4.0
Wei-Cheng Huang, Chien-yu Huang, Hung-yi Lee(参考訳) マシンが与えられたコンテキストに基づいて質問に答える機械読解において、実質的な改善がなされている。 現在の最先端のモデルは、いくつかのベンチマークで人間のパフォーマンスを超えている。 しかし、言語横断のシナリオにおけるそれらの能力はまだ検討されている。 従来の研究は、ゼロショットのクロスリンガル読解のための事前学習された多言語モデルの能力を明らかにしている。 本稿では,ラベルのないデータを利用して性能を向上する。 モデルはまずソース言語コーパスに基づいて教師あり、次にラベルなしのターゲット言語データで自己学習される。 実験の結果,すべての言語が改善され,質的側面から言語間理解に自己学習がどう役立つかを検討した。

Substantial improvements have been made in machine reading comprehension, where the machine answers questions based on a given context. Current state-of-the-art models even surpass human performance on several benchmarks. However, their abilities in the cross-lingual scenario are still to be explored. Previous works have revealed the abilities of pre-trained multilingual models for zero-shot cross-lingual reading comprehension. In this paper, we further utilized unlabeled data to improve the performance. The model is first supervised-trained on source language corpus, and then self-trained with unlabeled target language data. The experiment results showed improvements for all languages, and we also analyzed how self-training benefits cross-lingual reading comprehension in qualitative aspects.
翻訳日:2021-05-13 10:04:22 公開日:2021-05-08
# (参考訳) マルチラベルリモートセンシング画像検索・検索のための新しい三重項サンプリング法

A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image Search and Retrieval ( http://arxiv.org/abs/2105.03647v1 )

ライセンス: CC BY 4.0
Tristan Kreuziger, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) リモートセンシング(RS)画像の類似性を学習することは、コンテンツベースRS画像検索(CBIR)の基礎となる。 近年,画像の意味的類似性を埋め込み空間にマッピングするディープメトリック学習手法が,RSで非常に人気がある。 計量空間を学習するための一般的なアプローチは、アンカーと呼ばれる参照画像に対する類似(正)および異(負)の画像の選択に依存する。 特にマルチラベルRS CBIRでは,各トレーニングイメージに複数のクラスラベルがアノテートされるため,トリプレットの選択は難しい課題である。 本稿では,多ラベルRS CBIR問題に対して定義されたディープニューラルネットワーク(DNN)の枠組みにおける新しいトリプルトサンプリング手法を提案する。 提案手法は,2つの主要なステップに基づいて,最も代表的なトリプレットと情報トリプレットの小さなセットを選択する。 第1のステップでは、反復アルゴリズムを用いて現在のミニバッチから、埋め込み空間内で互いに多様なアンカー群を選択する。 第2のステップでは、新たなランキング戦略に基づいて、画像の関連性、硬度、多様性を評価することにより、各アンカーに対して異なる正と負のイメージセットを選択する。 2つのマルチラベルベンチマークで得られた実験結果から,dnnsの文脈における最も有益で代表的な三重項の選択は,(1)性能を損なうことなく,dnnのトレーニングフェーズの計算複雑性を低減すること,(2)有益三重項が高速収束を可能にするため,学習速度が向上すること,という結果が得られた。 提案手法のコードは https://git.tu-berlin.de/rsim/image-retrieval-from-triplets で公開されている。

Learning the similarity between remote sensing (RS) images forms the foundation for content based RS image retrieval (CBIR). Recently, deep metric learning approaches that map the semantic similarity of images into an embedding space have been found very popular in RS. A common approach for learning the metric space relies on the selection of triplets of similar (positive) and dissimilar (negative) images to a reference image called as an anchor. Choosing triplets is a difficult task particularly for multi-label RS CBIR, where each training image is annotated by multiple class labels. To address this problem, in this paper we propose a novel triplet sampling method in the framework of deep neural networks (DNNs) defined for multi-label RS CBIR problems. The proposed method selects a small set of the most representative and informative triplets based on two main steps. In the first step, a set of anchors that are diverse to each other in the embedding space is selected from the current mini-batch using an iterative algorithm. In the second step, different sets of positive and negative images are chosen for each anchor by evaluating relevancy, hardness, and diversity of the images among each other based on a novel ranking strategy. Experimental results obtained on two multi-label benchmark achieves show that the selection of the most informative and representative triplets in the context of DNNs results in: i) reducing the computational complexity of the training phase of the DNNs without any significant loss on the performance; and ii) an increase in learning speed since informative triplets allow fast convergence. The code of the proposed method is publicly available at https://git.tu-berlin.de/rsim/image-retrieval-from-triplets.
翻訳日:2021-05-13 09:55:31 公開日:2021-05-08
# (参考訳) プログラムのトレーニング方法

How To Train Your Program ( http://arxiv.org/abs/2105.03650v1 )

ライセンス: CC BY 4.0
David Tolpin(参考訳) 確率的プログラムを用いた機械学習に対するベイズ的アプローチを提案する。 本手法では,階層モデルに基づく推論として,利用可能なデータのトレーニングを行う。 モデルパラメータの後続分布は、新しいデータに対する推論が、新しいデータに対応する潜在パラメータの同じ後続分布を、より低い計算コストで、既に利用可能なデータと新しいデータの組み合わせによる階層モデル上の推論として生成する補完モデルであるtextit{stochastically condition} に使用される。 我々は,このアプローチを'stump and fungus'と呼ばれる確率的プログラミングの設計パターンとし,そのパターンの実現をディダクティックなケーススタディで示す。

We present a Bayesian approach to machine learning with probabilistic programs. In our approach, training on available data is implemented as inference on a hierarchical model. The posterior distribution of model parameters is then used to \textit{stochastically condition} a complementary model, such that inference on new data yields the same posterior distribution of latent parameters corresponding to the new data as inference on a hierachical model on the combination of both previously available and new data, at a lower computation cost. We frame the approach as a design pattern of probabilistic programming referred to herein as `stump and fungus', and illustrate realization of the pattern on a didactic case study.
翻訳日:2021-05-13 09:36:39 公開日:2021-05-08
# (参考訳) テキストの論理推論のための論理駆動コンテキスト拡張とデータ拡張

Logic-Driven Context Extension and Data Augmentation for Logical Reasoning of Text ( http://arxiv.org/abs/2105.03659v1 )

ライセンス: CC BY 4.0
Siyuan Wang, Wanjun Zhong, Duyu Tang, Zhongyu Wei, Zhihao Fan, Daxin Jiang, Ming Zhou and Nan Duan(参考訳) テキストの論理的推論には、テキスト内の重要な論理情報の理解と推論が必要である。 論理推論のための大規模事前学習モデルは主に、記号論理を捉えるのに苦労しながら、テキストの単語レベルの意味論に焦点を当てている。 本稿では,テキスト中の論理記号と表現を理解して,その答えにたどり着くことを提案する。 このような論理的情報に基づいて,文脈拡張フレームワークを提案するだけでなく,データ拡張アルゴリズムを提案する。 前者は文脈を拡張し、論理同値法則に従って暗黙の論理式をカバーする。 後者は文字通り類似しているが論理的に異なるインスタンスを拡張して、論理情報、特に論理的負関係と条件関係をよりよくキャプチャする。 ReClorデータセット上で実験を行う。 その結果,本手法は最先端性能を実現し,論理駆動型コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度の向上に役立つことがわかった。 そしてマルチモデルアンサンブルシステムは、簡単なセットとハードセットの両方で人間のパフォーマンスを初めて上回ったシステムです。

Logical reasoning of text requires understanding critical logical information in the text and performing inference over them. Large-scale pre-trained models for logical reasoning mainly focus on word-level semantics of text while struggling to capture symbolic logic. In this paper, we propose to understand logical symbols and expressions in the text to arrive at the answer. Based on such logical information, we not only put forward a context extension framework but also propose a data augmentation algorithm. The former extends the context to cover implicit logical expressions following logical equivalence laws. The latter augments literally similar but logically different instances to better capture logical information, especially logical negative and conditional relationships. We conduct experiments on ReClor dataset. The results show that our method achieves the state-of-the-art performance, and both logic-driven context extension framework and data augmentation algorithm can help improve the accuracy. And our multi-model ensemble system is the first to surpass human performance on both EASY set and HARD set of ReClor.
翻訳日:2021-05-13 09:30:25 公開日:2021-05-08
# (参考訳) D2S:クエリベースのテキスト要約による文書からスライド生成

D2S: Document-to-Slide Generation Via Query-Based Text Summarization ( http://arxiv.org/abs/2105.03664v1 )

ライセンス: CC BY 4.0
Edward Sun, Yufang Hou, Dakuo Wang, Yunfeng Zhang, Nancy X.R. Wang(参考訳) プレゼンテーションは、私たちの生活のあらゆる領域におけるコミュニケーションに不可欠ですが、スライドデッキの作成は、しばしば退屈で時間がかかります。 document-to-slides生成プロセスの自動化を目的とした限定的な研究が行われており、いずれも重大な課題に直面している。 本研究では,近年のNLPおよびMLカンファレンス(ACLなど)の論文とそれに対応するスライドデッキからなるデータセットSciDuetを,まず最初にコントリビュートする。 次に2段階のアプローチで文書からスライドへのタスクに取り組む新しいシステムであるd2sを提案する。1) スライドタイトルを使用して、関連するテキスト、図形、テーブルを検索する。2) 検索されたコンテキストを長い質問応答で弾丸ポイントにまとめる。 評価の結果,長期QAは自動ROUGE測定値と定性評価値の両方に基づいて,最先端の要約基準よりも優れていた。

Presentations are critical for communication in all areas of our lives, yet the creation of slide decks is often tedious and time-consuming. There has been limited research aiming to automate the document-to-slides generation process and all face a critical challenge: no publicly available dataset for training and benchmarking. In this work, we first contribute a new dataset, SciDuet, consisting of pairs of papers and their corresponding slides decks from recent years' NLP and ML conferences (e.g., ACL). Secondly, we present D2S, a novel system that tackles the document-to-slides task with a two-step approach: 1) Use slide titles to retrieve relevant and engaging text, figures, and tables; 2) Summarize the retrieved context into bullet points with long-form question answering. Our evaluation suggests that long-form QA outperforms state-of-the-art summarization baselines on both automated ROUGE metrics and qualitative human evaluation.
翻訳日:2021-05-12 13:35:22 公開日:2021-05-08
# (参考訳) タグは正しい:フェデレーションデータ強化ラジオフィンガープリントによる大規模RFIDクローン検出

The Tags Are Alright: Robust Large-Scale RFID Clone Detection Through Federated Data-Augmented Radio Fingerprinting ( http://arxiv.org/abs/2105.03671v1 )

ライセンス: CC BY 4.0
Mauro Piva, Gaia Maselli, Francesco Restuccia(参考訳) 何百万ものRFIDタグが世界中で広く使われ、さまざまな日常用途のオブジェクトを安価に識別する。 RFIDの重要な問題の1つは、タグがエネルギー不足の暗号を使えないことである。 このような理由から、RFIDクローン検出を実現するために、タグの無線回路に固有の不完全性を利用する、ラジオフィンガープリント(RFP)は魅力的なアプローチである。 しかし,近年の研究により,RFPプロセスの精度が著しく低下することが明らかとなった。 本研究では,動的チャネル条件を持つRFIDタグのRFPに関する大規模研究を提案する。 具体的には,200個の市販RFIDタグとソフトウェア定義無線(SDR)タグリーダによって構成されたテストベッド上で,大規模なデータ収集キャンペーンを行う。 タグリーダ距離の異なるデータを,オーバーザエア構成で収集する。 移植したRFIDタグをエミュレートするために,タグと読者の間に挿入された2種類の豚肉のデータも収集した。 我々は、この豊富なデータセットを使用して、様々なチャネル条件で複数の畳み込みニューラルネットワーク(cnn)ベースの分類器を訓練し、テストする。 本研究は,異なるチャネル条件におけるトレーニングとテストが,分類器の精度を著しく低下させることを明らかにした。 そこで本稿では,FML(Federated Machine Learning)とDAG(Data Augmentation)に基づく新たなトレーニングフレームワークを提案する。 広範な実験結果から, (i) fmlアプローチは精度を最大48%向上させ, (ii) daアプローチはfml性能を最大31%向上させた。 我々の知る限り、大規模なデバイス群に対するFMLとDAの有効性を実験的に実証した最初の論文である。 私たちは研究コミュニティと200gbのrfid波形データセット、コード全体、トレーニングされたモデルを共有しています。

Millions of RFID tags are pervasively used all around the globe to inexpensively identify a wide variety of everyday-use objects. One of the key issues of RFID is that tags cannot use energy-hungry cryptography. For this reason, radio fingerprinting (RFP) is a compelling approach that leverages the unique imperfections in the tag's wireless circuitry to achieve large-scale RFID clone detection. Recent work, however, has unveiled that time-varying channel conditions can significantly decrease the accuracy of the RFP process. We propose the first large-scale investigation into RFP of RFID tags with dynamic channel conditions. Specifically, we perform a massive data collection campaign on a testbed composed by 200 off-the-shelf identical RFID tags and a software-defined radio (SDR) tag reader. We collect data with different tag-reader distances in an over-the-air configuration. To emulate implanted RFID tags, we also collect data with two different kinds of porcine meat inserted between the tag and the reader. We use this rich dataset to train and test several convolutional neural network (CNN)--based classifiers in a variety of channel conditions. Our investigation reveals that training and testing on different channel conditions drastically degrades the classifier's accuracy. For this reason, we propose a novel training framework based on federated machine learning (FML) and data augmentation (DAG) to boost the accuracy. Extensive experimental results indicate that (i) our FML approach improves accuracy by up to 48%; (ii) our DA approach improves the FML performance by up to 31%. To the best of our knowledge, this is the first paper experimentally demonstrating the efficacy of FML and DA on a large device population. We are sharing with the research community our fully-labeled 200-GB RFID waveform dataset, the entirety of our code and trained models.
翻訳日:2021-05-12 13:17:12 公開日:2021-05-08
# (参考訳) 古典データのための量子機械学習

Quantum Machine Learning For Classical Data ( http://arxiv.org/abs/2105.03684v1 )

ライセンス: CC BY-SA 4.0
Leonard Wossnig(参考訳) この論文では、量子コンピューティングと教師あり機械学習アルゴリズムの交点について研究し、古典的データを扱う教師あり機械学習のための量子アルゴリズムについて検討する。 この研究領域は、最近広く注目を集めているコンピュータ科学の研究領域である量子機械学習の傘下にある。 特に,教師付き機械学習アルゴリズムの高速化に量子コンピュータがどの程度使えるかを検討する。 この目的は、教師付き機械学習のための量子アルゴリズム技術の現状の約束と限界を明確に理解することだけでなく、このエキサイティングな分野における将来の研究の方向性を定義することである。 まず、統計学習理論のレンズを通して、教師付き量子機械学習(QML)アルゴリズムを考察する。 このフレームワークでは、最適学習率の要求の下で、教師付きQMLアルゴリズムの大規模集合の計算複雑性に基づいた新しい境界を導出する。 次に、最もよく知られた教師付きQMLアルゴリズムの主要なサブルーチンである高密度ハミルトニアンのハミルトンシミュレーションに新しい境界を与え、それからほぼ同じ複雑さを持つ古典的アルゴリズムを導出する。 次に,最近の量子インスパイアされた結果と並列性を示し,これらの結果が量子機械学習アプリケーションに与える影響を説明する。 QMLアルゴリズムの利点が大きい分野を探すため、量子ボルツマンマシンのための新しいアルゴリズムを提案し、量子データのための量子アルゴリズムは古典的アプローチよりも指数関数的な優位性を持つQMLの最も有望な応用の1つであると論じる。

In this dissertation, we study the intersection of quantum computing and supervised machine learning algorithms, which means that we investigate quantum algorithms for supervised machine learning that operate on classical data. This area of research falls under the umbrella of quantum machine learning, a research area of computer science which has recently received wide attention. In particular, we investigate to what extent quantum computers can be used to accelerate supervised machine learning algorithms. The aim of this is to develop a clear understanding of the promises and limitations of the current state of the art of quantum algorithms for supervised machine learning, but also to define directions for future research in this exciting field. We start by looking at supervised quantum machine learning (QML) algorithms through the lens of statistical learning theory. In this framework, we derive novel bounds on the computational complexities of a large set of supervised QML algorithms under the requirement of optimal learning rates. Next, we give a new bound for Hamiltonian simulation of dense Hamiltonians, a major subroutine of most known supervised QML algorithms, and then derive a classical algorithm with nearly the same complexity. We then draw the parallels to recent "quantum-inspired" results, and will explain the implications of these results for quantum machine learning applications. Looking for areas which might bear larger advantages for QML algorithms, we finally propose a novel algorithm for Quantum Boltzmann machines, and argue that quantum algorithms for quantum data are one of the most promising applications for QML with potentially exponential advantage over classical approaches.
翻訳日:2021-05-12 12:52:45 公開日:2021-05-08
# (参考訳) HamNet: ハミルトンニューラルネットワークを用いた変換誘導分子表現

HamNet: Conformation-Guided Molecular Representation with Hamiltonian Neural Networks ( http://arxiv.org/abs/2105.03688v1 )

ライセンス: CC BY 4.0
Ziyao Li, Shuwen Yang, Guojie Song and Lingsheng Cai(参考訳) 良く設計された分子表現(フィンガープリント)は、医学化学と深層学習を組み合わせるために不可欠である。 一方、分子の3次元幾何学(すなわち)を取り入れている。 コンフォメーション)の表現は有益で、現在の3Dアルゴリズムはまだ初期段階です。 本稿では,分子の3次元配座を分子ハミルトニアンネットワーク(HamNet)で保持する新しい分子表現アルゴリズムを提案する。 ハムネットでは、分子中の原子の位置と運動量がハミルトン方程式に従ってハミルトニアンエンジンで相互作用する。 これらの暗黙的なコーディネーションは、翻訳および回転不変損失と実際のコンフォメーションで監督され、さらにメッセージパッシングニューラルネットワークである指紋生成器への入力として使用される。 実験により、ハミルトニアンエンジンは分子構造を十分に保存でき、HamNetが生成した指紋は標準的な分子機械学習ベンチマークであるMoleculeNetの最先端のパフォーマンスを達成することが示された。

Well-designed molecular representations (fingerprints) are vital to combine medical chemistry and deep learning. Whereas incorporating 3D geometry of molecules (i.e. conformations) in their representations seems beneficial, current 3D algorithms are still in infancy. In this paper, we propose a novel molecular representation algorithm which preserves 3D conformations of molecules with a Molecular Hamiltonian Network (HamNet). In HamNet, implicit positions and momentums of atoms in a molecule interact in the Hamiltonian Engine following the discretized Hamiltonian equations. These implicit coordinations are supervised with real conformations with translation- & rotation-invariant losses, and further used as inputs to the Fingerprint Generator, a message-passing neural network. Experiments show that the Hamiltonian Engine can well preserve molecular conformations, and that the fingerprints generated by HamNet achieve state-of-the-art performances on MoleculeNet, a standard molecular machine learning benchmark.
翻訳日:2021-05-12 12:51:24 公開日:2021-05-08
# (参考訳) logarithm determinant entropy estimatorを用いたニューラルネットワークの理解

Understanding Neural Networks with Logarithm Determinant Entropy Estimator ( http://arxiv.org/abs/2105.03705v1 )

ライセンス: CC BY 4.0
Zhanghao Zhouyin, Ding Liu(参考訳) ディープニューラルネットワークの有益な振る舞いを理解することは、誤用された推定値とネットワーク構造の複雑さによって、一貫性のない観察と多様な解釈につながる。 ここでは,シャノン微分エントロピーを近似する信頼性の高い行列系エントロピー推定器logdet estimatorを提案する。 我々は,logdet estimatorに基づく有意な測定値を構築し,それと同等の実験を行い,ニューラルネットワークの動作解析に利用する。 その結果,logdet推定器は,高度に多様な分布から生じる欠点を克服し,ニューラルネットワークのエントロピーを推定できることがわかった。 ネットワーク解析の結果,ニューラルネットワークの情報ボトルネック理論における圧縮現象を理解するのに役立つ浅層層と深層層の機能的区別も見いだされた。

Understanding the informative behaviour of deep neural networks is challenged by misused estimators and the complexity of network structure, which leads to inconsistent observations and diversified interpretation. Here we propose the LogDet estimator -- a reliable matrix-based entropy estimator that approximates Shannon differential entropy. We construct informative measurements based on LogDet estimator, verify our method with comparable experiments and utilize it to analyse neural network behaviour. Our results demonstrate the LogDet estimator overcomes the drawbacks that emerge from highly diverse and degenerated distribution thus is reliable to estimate entropy in neural networks. The Network analysis results also find a functional distinction between shallow and deeper layers, which can help understand the compression phenomenon in the Information bottleneck theory of neural networks.
翻訳日:2021-05-12 12:38:21 公開日:2021-05-08
# (参考訳) ギャップを抜ける: 形態的ルール学習のモデルとしてのニューラルアーキテクチャ

Falling Through the Gaps: Neural Architectures as Models of Morphological Rule Learning ( http://arxiv.org/abs/2105.03710v1 )

ライセンス: CC BY 4.0
Deniz Beser(参考訳) ニューラル・アーキテクチャの最近の進歩は、形態的規則学習の問題を復活させた。 形態素規則学習のモデルとしてTransformerを評価し,英語,ドイツ語,ロシア語のRecurrent Neural Networks(RNN)と比較した。 我々は,単語の語句の変形が期待できないような形態的ギャップという,見過ごされがちな問題に直面する。 例えば、63のロシア語の動詞は、"*o\v{s}\v{c}u\v{s}\v{c}u" ("i feel") と快適に言えないような一対一の現在形を欠いている。 英語にも「ストライド」の過去分詞のようなギャップがあり、形態的インフレクションの関数は部分的である。 両方のニューラルアーキテクチャは、欠落すべき反射を生み出す。 解析により、Transformerはトレーニングデータ中の反射の統計的分布を再カプセル化することが明らかになった。 英語とドイツ語におけるモデルの成功は、これらの言語の規則が大多数の形式と同一視できるという事実によって引き起こされる。

Recent advances in neural architectures have revived the problem of morphological rule learning. We evaluate the Transformer as a model of morphological rule learning and compare it with Recurrent Neural Networks (RNN) on English, German, and Russian. We bring to the fore a hitherto overlooked problem, the morphological gaps, where the expected inflection of a word is missing. For example, 63 Russian verbs lack a first-person-singular present form such that one cannot comfortably say "*o\v{s}\v{c}u\v{s}\v{c}u" ("I feel"). Even English has gaps, such as the past participle of "stride": the function of morphological inflection can be partial. Both neural architectures produce inflections that ought to be missing. Analyses reveal that Transformers recapitulate the statistical distribution of inflections in the training data, similar to RNNs. Models' success on English and German is driven by the fact that rules in these languages can be identified with the majority forms, which is not universal.
翻訳日:2021-05-12 12:18:54 公開日:2021-05-08
# (参考訳) PIM-DRAM:DRAM技術に基づくメモリ処理による機械学習ワークロードの高速化

PIM-DRAM:Accelerating Machine Learning Workloads using Processing in Memory based on DRAM Technology ( http://arxiv.org/abs/2105.03736v1 )

ライセンス: CC BY 4.0
Sourjya Roy, Mustafa Ali and Anand Raghunathan(参考訳) ディープニューラルネットワーク(DNN)は、画像やビデオ分析、言語翻訳、医療診断など、多くの応用において、近年大きな関心を集めている。 大部分のデータがメインメモリに格納されているため、von-Neumannハードウェアアーキテクチャ上で実装される場合、データ集約型DNNアプリケーションのニーズに沿うために、高いメモリ帯域幅が要求される。 したがって、メモリ内の処理は、MLワークロードのメモリ壁ボトルネックに対する有望な解決策を提供することができる。 本研究では,DRAMベースの処理インメモリ(PIM)乗算プリミティブをバンク内蓄積と組み合わせて,MLワークロードにおける行列ベクトル演算を高速化する手法を提案する。 さらに,提案するプリミティブに基づくメモリ内DRAMバンクアーキテクチャ,データマッピング,データフローを提案する。 AlexNet、VGG16、ResNet18などのネットワーク上で実施されたシステム評価では、提案されたアーキテクチャ、マッピング、データフローは、GPUよりも最大で23倍、データフローは6.5倍の利点が得られる。

Deep Neural Networks (DNNs) have gained significant interest in the recent past for plethora of applications such as image and video analytics, language translation, and medical diagnosis. High memory bandwidth is required to keep up with the needs of data-intensive DNN applications when implemented on a von-Neumann hardware architecture as majority of the data resides in the main memory. Therefore, processing in memory can provide a promising solution for the memory wall bottleneck for ML workloads. In this work, we propose a DRAM-based processing-in-memory (PIM) multiplication primitive coupled with intra-bank accumulation to accelerate matrix vector operations in ML workloads. Moreover, we propose a processing-in-memory DRAM bank architecture, data mapping and dataflow based on the proposed primitive. System evaluations performed on networks like AlexNet, VGG16 and ResNet18 show that the proposed architecture, mapping, and data flow can provide up to 23x and 6.5x benefits over a GPU and an ideal conventional (non-PIM) baseline architecture with infinite compute bandwidth, respectively.
翻訳日:2021-05-12 12:07:08 公開日:2021-05-08
# (参考訳) RAIL:Reinforcement-learning-based Adversarial Imitation Learningのためのモジュラーフレームワーク

RAIL: A modular framework for Reinforcement-learning-based Adversarial Imitation Learning ( http://arxiv.org/abs/2105.03756v1 )

ライセンス: CC BY 4.0
Eddy Hudson and Garrett Warnell and Peter Stone(参考訳) Adversarial Imitation Learning (AIL)アルゴリズムは、最近、様々な模倣学習ベンチマークで最先端の結果をもたらしたが、様々な設計決定がパフォーマンスに与える影響は明らかではない。 そこで本稿では,既存のailアプローチの一般的なサブクラスを包含し,一般化する,強化学習に基づく相反的模倣学習(rail)と呼ばれるモジュール型フレームワークを提案する。 RAILが提案するビューを用いて,SAIfO(SAC-based Adversarial Imitation from Observation)とSILEM(Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch)という2つの新しいifO(Imitation from Observation)アルゴリズムを作成する。 私たちはSILEMについて、別の技術レポートでより深く掘り下げています。 本稿では,SAIfOに着目し,OpenAI Gymのロコモーションタスクのスイートで評価し,FifOを実行する並列RAILアルゴリズムよりも優れていることを示す。

While Adversarial Imitation Learning (AIL) algorithms have recently led to state-of-the-art results on various imitation learning benchmarks, it is unclear as to what impact various design decisions have on performance. To this end, we present here an organizing, modular framework called Reinforcement-learning-based Adversarial Imitation Learning (RAIL) that encompasses and generalizes a popular subclass of existing AIL approaches. Using the view espoused by RAIL, we create two new IfO (Imitation from Observation) algorithms, which we term SAIfO: SAC-based Adversarial Imitation from Observation and SILEM (Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch). We go into greater depth about SILEM in a separate technical report. In this paper, we focus on SAIfO, evaluating it on a suite of locomotion tasks from OpenAI Gym, and showing that it outperforms contemporaneous RAIL algorithms that perform IfO.
翻訳日:2021-05-12 11:50:54 公開日:2021-05-08
# (参考訳) 視覚オドメトリーのためのpcaイベントに基づくオティカルフロー

PCA Event-Based Otical Flow for Visual Odometry ( http://arxiv.org/abs/2105.03760v1 )

ライセンス: CC BY 4.0
Mahmoud Z. Khairallah, Fabien Bonardi, David Roussel and Samia Bouchafa(参考訳) イベントベースカメラのようなニューロモルフィック視覚センサの出現により、ほとんどのコンピュータビジョンアルゴリズムにはパラダイムシフトが必要とされる。 これらのアルゴリズムのうち、オプティカルフロー推定はこの過程の第一候補であり、神経形態的視覚アプローチに関連付けられている。 光流の利用は、その豊かさと正確さのため、ロボット工学の応用で広く使われている。 イベントベース光フロー推定問題に対する主成分分析(PCA)手法を提案する。 そこで本研究では,光学的流れの推定を効果的に向上する様々な正則化手法について検討する。 提案手法の最適変種は,視力計測のリアルタイムな文脈に特化しており,最新の実装に比べて約2倍高速であり,光学的フロー精度は著しく向上している。

With the advent of neuromorphic vision sensors such as event-based cameras, a paradigm shift is required for most computer vision algorithms. Among these algorithms, optical flow estimation is a prime candidate for this process considering that it is linked to a neuromorphic vision approach. Usage of optical flow is widespread in robotics applications due to its richness and accuracy. We present a Principal Component Analysis (PCA) approach to the problem of event-based optical flow estimation. In this approach, we examine different regularization methods which efficiently enhance the estimation of the optical flow. We show that the best variant of our proposed method, dedicated to the real-time context of visual odometry, is about two times faster compared to state-of-the-art implementations while significantly improves optical flow accuracy.
翻訳日:2021-05-12 11:11:18 公開日:2021-05-08
# (参考訳) MetaKernel: 限定ラベルによる変分ランダムな特徴の学習

MetaKernel: Learning Variational Random Features with Limited Labels ( http://arxiv.org/abs/2105.03781v1 )

ライセンス: CC BY 4.0
Yingjun Du, Haoliang Sun, Xiantong Zhen, Jun Xu, Yilong Yin, Ling Shao, Cees G. M. Snoek(参考訳) 少数のショット学習は、いくつかの注釈付きサンプルから学習する基礎的かつ困難な問題に対処すると同時に、新しいタスクをうまく一般化することができる。 少数ショット学習の要点は、関連するタスクから事前の知識を抽出し、限られたデータ量で新しいタスクに素早く適応できるようにすることである。 本稿では,メタカーネル(MetaKernel)と呼ぶ,ランダムなフーリエ機能を備えたメタ学習カーネルを提案する。 具体的には,メタラーニング環境において,関連するタスクによって提供される共有知識を活用し,タスク固有のカーネルを得るために,データ駆動方式で変分的ランダム特徴の学習を提案する。 確率的特徴基底を潜在変数として扱い, 変分推論によって推定する。 関連するタスクからの共有知識は、長期記憶モジュールを通じて達成される後部のコンテキスト推論に組み込まれている。 より表現力のあるカーネルを確立するために,結合層に基づく条件付き正規化フローをデプロイし,ランダムなフーリエベース上でよりリッチな後部分布を実現する。 結果として得られるカーネルは、より有益で差別的であり、わずかな学習をさらに改善する。 提案手法を評価するために,少数ショット画像分類と回帰処理の両方について広範な実験を行った。 徹底的なアブレーション研究により,本手法における各成分の有効性が示された。 14のデータセットのベンチマーク結果は、MetaKernelが、最先端の代替よりも、少なくとも同等で、しばしば優れたパフォーマンスを一貫して提供することを示す。

Few-shot learning deals with the fundamental and challenging problem of learning from a few annotated samples, while being able to generalize well on new tasks. The crux of few-shot learning is to extract prior knowledge from related tasks to enable fast adaptation to a new task with a limited amount of data. In this paper, we propose meta-learning kernels with random Fourier features for few-shot learning, we call MetaKernel. Specifically, we propose learning variational random features in a data-driven manner to obtain task-specific kernels by leveraging the shared knowledge provided by related tasks in a meta-learning setting. We treat the random feature basis as the latent variable, which is estimated by variational inference. The shared knowledge from related tasks is incorporated into a context inference of the posterior, which we achieve via a long-short term memory module. To establish more expressive kernels, we deploy conditional normalizing flows based on coupling layers to achieve a richer posterior distribution over random Fourier bases. The resultant kernels are more informative and discriminative, which further improves the few-shot learning. To evaluate our method, we conduct extensive experiments on both few-shot image classification and regression tasks. A thorough ablation study demonstrates that the effectiveness of each introduced component in our method. The benchmark results on fourteen datasets demonstrate MetaKernel consistently delivers at least comparable and often better performance than state-of-the-art alternatives.
翻訳日:2021-05-12 11:01:06 公開日:2021-05-08
# (参考訳) 傾斜ブースト決定木を用いたnli微調整用変圧器

Enhancing Transformers with Gradient Boosted Decision Trees for NLI Fine-Tuning ( http://arxiv.org/abs/2105.03791v1 )

ライセンス: CC BY 4.0
Benjamin Minixhofer, Milan Gritta, Ignacio Iacobacci(参考訳) トランスファー学習は多くの自然言語処理タスクにおいて主要なパラダイムとなっている。 大規模なデータセットで事前トレーニングされたモデルに加えて、ターゲットタスクに類似した中間(教師あり)タスクでさらにトレーニングすることができる。 小さな自然言語推論(NLI)データセットの場合、言語モデリングは通常、それぞれのNLIサブタスクで微調整する前に、大きな(ラベル付き)NLIデータセットで事前トレーニングが行われる。 本研究では,多層パーセプトロン(MLP)分類ヘッドの代替として,GBDT(Gradient Boosted Decision Trees)を探索する。 GBDTは、密度の高い数値的特徴に対する優れた性能などの望ましい特性を有し、試料数w.r.tの比率が低い場合に有効である。 次に、微細チューニング中に計算した機能にGBDTヘッドを取り付け、ニューラルネットワークによる計算を必要とせずに性能を向上させるFreeGBDTを紹介する。 強ベースラインモデル (RoBERTa-large with MNLI pretraining) を用いて, 提案手法の有効性を示す。 FreeGBDTは、MPP分類ヘッドよりも一貫した改善を示している。

Transfer learning has become the dominant paradigm for many natural language processing tasks. In addition to models being pretrained on large datasets, they can be further trained on intermediate (supervised) tasks that are similar to the target task. For small Natural Language Inference (NLI) datasets, language modelling is typically followed by pretraining on a large (labelled) NLI dataset before fine-tuning with each NLI subtask. In this work, we explore Gradient Boosted Decision Trees (GBDTs) as an alternative to the commonly used Multi-Layer Perceptron (MLP) classification head. GBDTs have desirable properties such as good performance on dense, numerical features and are effective where the ratio of the number of samples w.r.t the number of features is low. We then introduce FreeGBDT, a method of fitting a GBDT head on the features computed during fine-tuning to increase performance without additional computation by the neural network. We demonstrate the effectiveness of our method on several NLI datasets using a strong baseline model (RoBERTa-large with MNLI pretraining). The FreeGBDT shows a consistent improvement over the MLP classification head.
翻訳日:2021-05-12 10:27:33 公開日:2021-05-08
# (参考訳) minimax問題に対する確率勾配法の安定性と一般化

Stability and Generalization of Stochastic Gradient Methods for Minimax Problems ( http://arxiv.org/abs/2105.03793v1 )

ライセンス: CC BY 4.0
Yunwen Lei, Zhenhuan Yang, Tianbao Yang, Yiming Ying(参考訳) 多くの機械学習問題は、GAN(Generative Adversarial Networks)やAUCの最大化、ロバストな推定といったミニマックス問題として定式化することができる。 多くの研究が確率勾配型アルゴリズムの収束挙動の研究に費やされている。 対照的に、一般化に関する作業は、トレーニング例から構築された学習モデルがテスト例でどのように振る舞うかというように、比較的少ない。 本稿では, アルゴリズム安定性のレンズを用いて, 凸凹および非凸非凸ケースにおけるミニマックス問題に対する確率的勾配法の包括的一般化解析を行う。 安定性といくつかの一般化尺度の間の定量的な関係を期待と高い確率で確立する。 凸凹集合の場合, 確率的勾配降下上昇が滑らかかつ非滑らかなミニマックス問題に対して最適一般化境界に達することを示す。 また,弱凸ウェクリ凸問題と勾配支配問題の両方に対する一般化境界を定式化する。

Many machine learning problems can be formulated as minimax problems such as Generative Adversarial Networks (GANs), AUC maximization and robust estimation, to mention but a few. A substantial amount of studies are devoted to studying the convergence behavior of their stochastic gradient-type algorithms. In contrast, there is relatively little work on their generalization, i.e., how the learning models built from training examples would behave on test examples. In this paper, we provide a comprehensive generalization analysis of stochastic gradient methods for minimax problems under both convex-concave and nonconvex-nonconcave cases through the lens of algorithmic stability. We establish a quantitative connection between stability and several generalization measures both in expectation and with high probability. For the convex-concave setting, our stability analysis shows that stochastic gradient descent ascent attains optimal generalization bounds for both smooth and nonsmooth minimax problems. We also establish generalization bounds for both weakly-convex-weakly-concave and gradient-dominated problems.
翻訳日:2021-05-12 10:14:19 公開日:2021-05-08
# 外部文脈検索と協調学習による名前付きエンティティ認識の改善

Improving Named Entity Recognition by External Context Retrieving and Cooperative Learning ( http://arxiv.org/abs/2105.03654v1 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) 名前付きエンティティ認識(NER)の最近の進歩は、文書レベルのコンテキストがモデルの性能を大幅に改善できることを示している。 しかし、多くのアプリケーションシナリオでは、そのようなコンテキストは利用できない。 本稿では,原文を問合せとして,検索エンジンを通じて意味的関連テキストの集合を検索し,選択することで,文の外部コンテキストを見つけることを提案する。 文章の結合とその外部の文脈によって構築された検索ベースの入力ビューで計算された文脈表現は、文章のみに基づく元の入力ビューに比べて大幅に性能が向上することを示す。 さらに,2つの入力ビューに類似した文脈表現や出力ラベル分布を生成するトレーニング手法であるCooperative Learningにより,両方の入力ビューのモデル性能を向上させることができる。 実験の結果,5つのドメインにわたる8つのnerデータセットにおいて,新たな最先端のパフォーマンスを実現することができた。

Recent advances in Named Entity Recognition (NER) show that document-level contexts can significantly improve model performance. In many application scenarios, however, such contexts are not available. In this paper, we propose to find external contexts of a sentence by retrieving and selecting a set of semantically relevant texts through a search engine, with the original sentence as the query. We find empirically that the contextual representations computed on the retrieval-based input view, constructed through the concatenation of a sentence and its external contexts, can achieve significantly improved performance compared to the original input view based only on the sentence. Furthermore, we can improve the model performance of both input views by Cooperative Learning, a training method that encourages the two input views to produce similar contextual representations or output label distributions. Experiments show that our approach can achieve new state-of-the-art performance on 8 NER data sets across 5 domains.
翻訳日:2021-05-11 15:25:12 公開日:2021-05-08
# e-ViL:視覚言語課題における自然言語説明のためのデータセットとベンチマーク

e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks ( http://arxiv.org/abs/2105.03761v1 )

ライセンス: Link先を確認
Maxime Kayser, Oana-Maria Camburu, Leonard Salewski, Cornelius Emde, Virginie Do, Zeynep Akata, Thomas Lukasiewicz(参考訳) 近年では、視覚言語(vl)タスクの予測のために自然言語説明(nles)を生成できるモデルが導入されている。 このようなモデルは、人間にやさしく包括的な説明を提供できるので魅力的である。 しかし、これらのモデルによって生成された説明に対して統一的な評価アプローチがまだ存在しない。 さらに、現在VLタスク用のNLEのデータセットはごくわずかである。 本稿では,統合評価フレームワークを構築し,VLタスクのためのNLEを生成する既存のアプローチを総合的に比較した,説明可能な視覚言語タスクのベンチマークであるe-ViLを紹介する。 e-ViLは4つのモデルと3つのデータセットにまたがる。 自動測定と人的評価の両方が、モデル生成の説明を評価するために使用される。 また、NLE(430kインスタンス以上)を持つ既存のVLデータセットとしては最大であるe-SNLI-VEを紹介します。 最後に,画像とテキストの共同埋め込みを学習するUNITERと,テキスト生成に適した事前学習型言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。 これまでの最先端のデータを、すべてのデータセットで大きく上回っている。

Recently, an increasing number of works have introduced models capable of generating natural language explanations (NLEs) for their predictions on vision-language (VL) tasks. Such models are appealing because they can provide human-friendly and comprehensive explanations. However, there is still a lack of unified evaluation approaches for the explanations generated by these models. Moreover, there are currently only few datasets of NLEs for VL tasks. In this work, we introduce e-ViL, a benchmark for explainable vision-language tasks that establishes a unified evaluation framework and provides the first comprehensive comparison of existing approaches that generate NLEs for VL tasks. e-ViL spans four models and three datasets. Both automatic metrics and human evaluation are used to assess model-generated explanations. We also introduce e-SNLI-VE, the largest existing VL dataset with NLEs (over 430k instances). Finally, we propose a new model that combines UNITER, which learns joint embeddings of images and text, and GPT-2, a pre-trained language model that is well-suited for text generation. It surpasses the previous state-of-the-art by a large margin across all datasets.
翻訳日:2021-05-11 15:24:59 公開日:2021-05-08
# Facial Emotion Recognition: State of the Art Performance on FER2013

Facial Emotion Recognition: State of the Art Performance on FER2013 ( http://arxiv.org/abs/2105.03588v1 )

ライセンス: Link先を確認
Yousif Khaireddin, Zhuofa Chen(参考訳) 顔の感情認識(FER)は、臨床や行動記述などの人間とコンピュータの相互作用において重要である。 コンピュータモデルによる正確かつ堅牢なFERは、人間の顔の不均一性や、異なる顔のポーズや照明などの画像の変化により、依然として困難である。 FERのすべての技術の中で、ディープラーニングモデル、特に畳み込みニューラルネットワーク(CNN)は、強力な自動特徴抽出と計算効率のために大きな可能性を示している。 本研究では、FER2013データセット上で最も高いシングルネットワーク分類精度を実現する。 我々はvggnetアーキテクチャを採用し,そのハイパーパラメータを厳密に微調整し,様々な最適化手法を実験した。 我々の知る限り、我々のモデルは、追加のトレーニングデータを用いることなく、FER2013において最先端のシングルネットワーク精度73.28 %を達成する。

Facial emotion recognition (FER) is significant for human-computer interaction such as clinical practice and behavioral description. Accurate and robust FER by computer models remains challenging due to the heterogeneity of human faces and variations in images such as different facial pose and lighting. Among all techniques for FER, deep learning models, especially Convolutional Neural Networks (CNNs) have shown great potential due to their powerful automatic feature extraction and computational efficiency. In this work, we achieve the highest single-network classification accuracy on the FER2013 dataset. We adopt the VGGNet architecture, rigorously fine-tune its hyperparameters, and experiment with various optimization methods. To our best knowledge, our model achieves state-of-the-art single-network accuracy of 73.28 % on FER2013 without using extra training data.
翻訳日:2021-05-11 15:24:04 公開日:2021-05-08
# 表現学習のためのコントラスト条件伝達

Contrastive Conditional Transport for Representation Learning ( http://arxiv.org/abs/2105.03746v1 )

ライセンス: Link先を確認
Huangjie Zheng, Xu Chen, Jiangchao Yao, Hongxia Yang, Chunyuan Li, Ya Zhang, Hao Zhang, Ivor Tsang, Jingren Zhou, Mingyuan Zhou(参考訳) コントラスト学習(CL)はラベルの監督なしにデータ表現を学習することで大きな成功を収めた。 しかし、従来のCL損失は、負のサンプルがいくつ含まれ、どのように選択されるかに敏感である。 本稿では,無作為なクエリを描画し,正のサンプルと負のサンプルをランダムに選択し,それらのサンプルをクエリとの距離に応じて比較的に重み付けし,より遠く離れた正のサンプルをクエリにプルし,さらに近い負のサンプルをクエリからプッシュすることで,clロスを定義するコントラスト条件トランスポート(cct)を提案する。 理論的解析により、この一意的な対比的重み付けスキームは、正のサンプルとクエリを整合させ、負のサンプルとクエリの間の相互情報を減らすのに役立つ。 標準的な視覚タスクに関する大規模な実験により、CCTはコントラスト表現学習において、ベンチマークデータセット上の既存のメソッドを一貫して上回るだけでなく、解釈可能なコントラスト重みや潜在表現も提供することが示された。 PyTorchコードは提供される。

Contrastive learning (CL) has achieved remarkable success in learning data representations without label supervision. However, the conventional CL loss is sensitive to how many negative samples are included and how they are selected. This paper proposes contrastive conditional transport (CCT) that defines its CL loss over dependent sample-query pairs, which in practice is realized by drawing a random query, randomly selecting positive and negative samples, and contrastively reweighting these samples according to their distances to the query, exerting a greater force to both pull more distant positive samples towards the query and push closer negative samples away from the query. Theoretical analysis shows that this unique contrastive reweighting scheme helps in the representation space to both align the positive samples with the query and reduce the mutual information between the negative sample and query. Extensive large-scale experiments on standard vision tasks show that CCT not only consistently outperforms existing methods on benchmark datasets in contrastive representation learning but also provides interpretable contrastive weights and latent representations. PyTorch code will be provided.
翻訳日:2021-05-11 15:23:53 公開日:2021-05-08
# NLPモデルに対する最適ロバスト記述の保証について

On Guaranteed Optimal Robust Explanations for NLP Models ( http://arxiv.org/abs/2105.03640v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Agnieszka Zbrzezny, Rhiannon Michelmore, Nicola Paoletti and Marta Kwiatkowska(参考訳) 本研究では,マシーン学習のための推論に基づく説明を構築し,自然言語処理(NLP)におけるニューラルネットワークモデルの局所的説明を計算する手法を開発した。 我々の説明は2つの重要な特徴を満たす出力テキストの単語のサブセットから構成されている。 説明の長さや頑健性といったユーザ定義のコスト関数は、単語の埋め込み空間における任意の有界摂動に対する予測不変性を保証する。 我々は,暗黙の打撃集合と最大普遍部分集合に基づく2つの解法を提示し,ハードインスタンスの収束を高速化するためのアルゴリズム改善を多数導入した。 提案手法は, 組込み空間における異なる摂動集合で構成可能であり, バイアス項に制約を含まないことで予測のバイアスを検出するとともに, アンカーのような既存のヒューリスティックなNLP説明フレームワークを拡張できることを示す。 我々は,SST,Twitter,IMDBデータセットから最大100ワードまでの感情分析タスクとテキストを3つのフレームワークで評価し,提案手法の有効性を実証した。

We build on abduction-based explanations for ma-chine learning and develop a method for computing local explanations for neural network models in natural language processing (NLP). Our explanations comprise a subset of the words of the in-put text that satisfies two key features: optimality w.r.t. a user-defined cost function, such as the length of explanation, and robustness, in that they ensure prediction invariance for any bounded perturbation in the embedding space of the left out words. We present two solution algorithms, respectively based on implicit hitting sets and maximum universal subsets, introducing a number of algorithmic improvements to speed up convergence of hard instances. We show how our method can be con-figured with different perturbation sets in the em-bedded space and used to detect bias in predictions by enforcing include/exclude constraints on biased terms, as well as to enhance existing heuristic-based NLP explanation frameworks such as Anchors. We evaluate our framework on three widely used sentiment analysis tasks and texts of up to100words from SST, Twitter and IMDB datasets,demonstrating the effectiveness of the derived explanations.
翻訳日:2021-05-11 15:22:13 公開日:2021-05-08
# 音声ガイドソフトマックスを用いたニューラルテキスト生成

Neural Text Generation with Part-of-Speech Guided Softmax ( http://arxiv.org/abs/2105.03641v1 )

ライセンス: Link先を確認
Zhixian Yang, Xiaojun Wan(参考訳) ニューラルテキスト生成モデルは、低多様性の問題に苦しむ可能性が高い。 様々な復号戦略や訓練に基づく手法が提案されており、文脈的特徴を利用するだけで多様性を促進することができる。 そこで本研究では,テキスト生成の指導に言語アノテーション,すなわちPOS(Part-of-speech)を用いることを提案する。 本報告では,POSガイドソフトマックス (POSG-Softmax) を用いて, (i) next-POS と (ii) next-token の2つの後方確率をモデル化する。 POSの多様性を豊かにすることで、低多様性問題に対処するPOSガイドサンプリング戦略が提案されている。 提案手法は,既存の最先端手法と比較して,同等の品質を維持しつつ,より多様なテキストを生成することができることを示す。

Neural text generation models are likely to suffer from the low-diversity problem. Various decoding strategies and training-based methods have been proposed to promote diversity only by exploiting contextual features, but rarely do they consider incorporating syntactic structure clues. In this work, we propose using linguistic annotation, i.e., part-of-speech (POS), to guide the text generation. In detail, we introduce POS Guided Softmax (POSG-Softmax) to explicitly model two posterior probabilities: (i) next-POS, and (ii) next-token from the vocabulary of the target POS. A POS guided sampling strategy is further proposed to address the low-diversity problem by enriching the diversity of POS. Extensive experiments and human evaluations demonstrate that, compared with existing state-of-the-art methods, our proposed methods can generate more diverse text while maintaining comparable quality.
翻訳日:2021-05-11 15:21:54 公開日:2021-05-08
# AnomalyHop:SSLベースの画像異常ローカライゼーション方法

AnomalyHop: An SSL-based Image Anomaly Localization Method ( http://arxiv.org/abs/2105.03797v1 )

ライセンス: Link先を確認
Kaitai Zhang, Bin Wang, Wei Wang, Fahad Sohrab, Moncef Gabbouj and C.-C. Jay Kuo(参考訳) 本研究では,AnomalyHopと呼ばれる連続的なサブスペース学習(SSL)フレームワークに基づく画像異常ローカライズ手法を提案する。 anomalyhop は,1) 連続部分空間学習(ssl)による特徴抽出,2) ガウスモデルによる正規性特徴分布モデリング,3) 異常マップ生成と融合の3つのモジュールで構成される。 ディープニューラルネットワーク(DNN)に基づく最先端の画像異常ローカライゼーション手法と比較して、AnomalyHopは数学的に透明で、訓練が容易で、推論速度が速い。 さらに、MVTec ADデータセットのROC曲線(ROC-AUC)の領域は95.9%であり、これはいくつかのベンチマーク手法の中でも最高のものである。 私たちのコードはgithubで公開されている。

An image anomaly localization method based on the successive subspace learning (SSL) framework, called AnomalyHop, is proposed in this work. AnomalyHop consists of three modules: 1) feature extraction via successive subspace learning (SSL), 2) normality feature distributions modeling via Gaussian models, and 3) anomaly map generation and fusion. Comparing with state-of-the-art image anomaly localization methods based on deep neural networks (DNNs), AnomalyHop is mathematically transparent, easy to train, and fast in its inference speed. Besides, its area under the ROC curve (ROC-AUC) performance on the MVTec AD dataset is 95.9%, which is among the best of several benchmarking methods. Our codes are publicly available at Github.
翻訳日:2021-05-11 15:21:15 公開日:2021-05-08
# Siamese Graph Convolutional Networksとビジネスエンティティマッチング

Business Entity Matching with Siamese Graph Convolutional Networks ( http://arxiv.org/abs/2105.03701v1 )

ライセンス: Link先を確認
Evgeny Krivosheev, Mattia Atzeni, Katsiaryna Mirylenka, Paolo Scotton, Christoph Miksovic, Anton Zorin(参考訳) データ統合は数十年にわたって広く研究され、異なる角度からアプローチされてきた。 しかし、このドメインは依然としてルール駆動であり、普遍的な自動化がない。 最近の機械学習や特にディープラーニングの発展は、データ統合タスクに対するより汎用的で効率的なソリューションへの道を開いた。 本稿では,それらの関係や文脈情報を活用することによって,エンティティのモデリングと統合を可能にするアプローチを示す。 siameseとgraphニューラルネットワークを組み合わせることで、接続されたエンティティ間の情報を効果的に伝搬し、高いスケーラビリティをサポートする。 我々は、従来のルールベースシステムと他のディープラーニングアプローチよりも優れていることを示すとともに、ビジネスエンティティに関するデータを統合するタスクに対するアプローチを評価した。

Data integration has been studied extensively for decades and approached from different angles. However, this domain still remains largely rule-driven and lacks universal automation. Recent developments in machine learning and in particular deep learning have opened the way to more general and efficient solutions to data-integration tasks. In this paper, we demonstrate an approach that allows modeling and integrating entities by leveraging their relations and contextual information. This is achieved by combining siamese and graph neural networks to effectively propagate information between connected entities and support high scalability. We evaluated our approach on the task of integrating data about business entities, demonstrating that it outperforms both traditional rule-based systems and other deep learning approaches.
翻訳日:2021-05-11 15:19:20 公開日:2021-05-08
# Generative Actor-Critic: Push-forwardモデルを用いたオフポリシーアルゴリズム

Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model ( http://arxiv.org/abs/2105.03733v1 )

ライセンス: Link先を確認
Peng Lingwei(参考訳) モデルなしの深層強化学習は、ビデオゲーム、レコメンデーションシステム、ロボット制御タスクなど、多くの領域で大きな成功を収めている。 連続制御タスクでは、ガウス分布を持つ広く使われるポリシーは、多くの場合、環境の非効率的な探索とアルゴリズムの性能の制限をもたらす。 本稿では,政策の表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズム(GAC)を提案し,また,探索と搾取のバランスをとるためにエントロピー的手法であるMDDエントロピー正規化器を含む。 さらに,このレギュレータを自動スケールする適応機構を考案し,GACの安定性と堅牢性をさらに向上させる。 実験結果から, プッシュフォワードポリシには, 探索効率の向上やアルゴリズムの漸近性能の向上など, 望ましい特徴があることが明らかとなった。

Model-free deep reinforcement learning has achieved great success in many domains, such as video games, recommendation systems and robotic control tasks. In continuous control tasks, widely used policies with Gaussian distributions results in ineffective exploration of environments and limited performance of algorithms in many cases. In this paper, we propose a density-free off-policy algorithm, Generative Actor-Critic(GAC), using the push-forward model to increase the expressiveness of policies, which also includes an entropy-like technique, MMD-entropy regularizer, to balance the exploration and exploitation. Additionnally, we devise an adaptive mechanism to automatically scale this regularizer, which further improves the stability and robustness of GAC. The experiment results show that push-forward policies possess desirable features, such as multi-modality, which can improve the efficiency of exploration and asymptotic performance of algorithms obviously.
翻訳日:2021-05-11 15:19:10 公開日:2021-05-08
# 微分木モジュールを用いた解釈可能な混合密度推定

Interpretable Mixture Density Estimation by use of Differentiable Tree-module ( http://arxiv.org/abs/2105.03616v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Tomu Yanabe(参考訳) 機械学習を用いて信頼性の高いサービスを開発するためには,モデル出力の不確実性を理解することが重要である。 予測対象が従う確率分布は複雑であり、不確実性が従う分布として混合分布が仮定されることが多い。 混合密度推定の出力は複雑であるため、実際のサービスでの利用を考えると、その解釈性が重要となる。 本稿では,解釈可能な木構造を用いた混合密度推定手法を提案する。 さらに、時間不変情報キャッシュに基づく高速推論処理は、高速かつ解釈性の両方を達成する。

In order to develop reliable services using machine learning, it is important to understand the uncertainty of the model outputs. Often the probability distribution that the prediction target follows has a complex shape, and a mixture distribution is assumed as a distribution that uncertainty follows. Since the output of mixture density estimation is complicated, its interpretability becomes important when considering its use in real services. In this paper, we propose a method for mixture density estimation that utilizes an interpretable tree structure. Further, a fast inference procedure based on time-invariant information cache achieves both high speed and interpretability.
翻訳日:2021-05-11 15:17:18 公開日:2021-05-08
# パラメトリックホークスの細粒度$\epsilon$-margin閉形式安定化

Fine-Grained $\epsilon$-Margin Closed-Form Stabilization of Parametric Hawkes Processes ( http://arxiv.org/abs/2105.03800v1 )

ライセンス: Link先を確認
Rafael Lima(参考訳) hawkesプロセスは、連続時間イベントストリームにおける離散イベントの自己および相互にエキサイティングなインタラクションをモデリングするためのデフォルトツールとして人気が高まっている。 MLE(Maximum Likelihood Estimation)は、対応する強度関数のトリガーカーネルをパラメトリックに仮定した形に制限のない最適化手順であり、特に少ないシーケンスや短いシーケンスのデータに向いている。 しかし、MLE最適化には、トリガーカーネルのパラメータに関する強い仮定を除いて保証が欠如しており、その結果のパラメータの不安定性につながる可能性がある。本研究では、これらの過度に制限された仮定を伴わずに、単純な安定化手順によってMLE最適化の性能が向上することを示す。

Hawkes Processes have undergone increasing popularity as default tools for modeling self- and mutually exciting interactions of discrete events in continuous-time event streams. A Maximum Likelihood Estimation (MLE) unconstrained optimization procedure over parametrically assumed forms of the triggering kernels of the corresponding intensity function are a widespread cost-effective modeling strategy, particularly suitable for data with few and/or short sequences. However, the MLE optimization lacks guarantees, except for strong assumptions on the parameters of the triggering kernels, and may lead to instability of the resulting parameters .In the present work, we show how a simple stabilization procedure improves the performance of the MLE optimization without these overly restrictive assumptions.This stabilized version of the MLE is shown to outperform traditional methods over sequences of several different lengths.
翻訳日:2021-05-11 15:17:11 公開日:2021-05-08
# 損失耐性連合学習

Loss Tolerant Federated Learning ( http://arxiv.org/abs/2105.03591v1 )

ライセンス: Link先を確認
Pengyuan Zhou, Pei Fang, Pan Hui(参考訳) 近年,プライバシー保護を伴う分散デバイス上でのデータの協調学習が注目されている。 モバイルとIoTデバイスの限られたネットワーク容量は、デバイス間フェデレーション学習における大きな課題の1つと見なされている。 近年,通信効率を確保するためのしきい値ベースのクライアント選択方式に注目している。 しかし,このアプローチはクライアントの選択に偏りが生じ,性能が低下する可能性がある。 さらに,ネットワーク制限の課題が過大評価されている場合もあり,パケット損失が必ずしも有害であるとは限らない。 本稿では,損失耐性フェデレート学習(LT-FL)について,アグリゲーション,フェアネス,パーソナライゼーションの観点から検討する。 我々はThrowRightAway (TRA) を用いて、パケット損失を意図的に無視することで、低帯域デバイスのデータアップロードを高速化する。 その結果、traと他のアルゴリズムは、一定の割合(10%-30%)以下のパケット損失に直面して、パーソナライズと公平性のパフォーマンスを共に保証できることが示唆された。

Federated learning has attracted attention in recent years for collaboratively training data on distributed devices with privacy-preservation. The limited network capacity of mobile and IoT devices has been seen as one of the major challenges for cross-device federated learning. Recent solutions have been focusing on threshold-based client selection schemes to guarantee the communication efficiency. However, we find this approach can cause biased client selection and results in deteriorated performance. Moreover, we find that the challenge of network limit may be overstated in some cases and the packet loss is not always harmful. In this paper, we explore the loss tolerant federated learning (LT-FL) in terms of aggregation, fairness, and personalization. We use ThrowRightAway (TRA) to accelerate the data uploading for low-bandwidth-devices by intentionally ignoring some packet losses. The results suggest that, with proper integration, TRA and other algorithms can together guarantee the personalization and fairness performance in the face of packet loss below a certain fraction (10%-30%).
翻訳日:2021-05-11 15:11:32 公開日:2021-05-08
# 特徴粗化による大規模多孔質流予測のためのディープラーニング性能の向上

Improving Deep Learning Performance for Predicting Large-Scale Porous-Media Flow through Feature Coarsening ( http://arxiv.org/abs/2105.03752v1 )

ライセンス: Link先を確認
Bicheng Yan, Dylan Robert Harp, Bailian Chen, Rajesh J. Pawar(参考訳) 多孔質媒質中の流体流動の物理シミュレーションは、状態変数の時間空間的進化を予測するための計算技術である。 圧力) 多孔質媒質中では, 通常は非線形性や研究領域の規模により高い計算コストが要求される。 本文では, 大規模3次元多孔質媒質中の流体の流れとして圧力変化を予測するための深層学習(DL)ワークフローについて述べる。 特に,最も代表的な情報を抽出し,粗いスケールでDLのトレーニングと予測を行い,さらに2次元立方体補間により微細スケールでの分解能を復元する特徴粗化手法を適用した。 物理シミュレーションデータからトレーニングしたDL手法を用いて,フィールドスケールの3次元地質CO_2貯留層における圧力場を予測する。 我々は,特徴粗化がDL性能に与える影響を評価し,特徴粗化がトレーニング時間を74%削減し,メモリ消費を75%削減するだけでなく,時間誤差を1.5%維持することを示した。 さらに、DLワークフローは物理ベースのシミュレーションに比べて約1400倍のスピードアップで予測効率を提供する。

Physics-based simulation for fluid flow in porous media is a computational technology to predict the temporal-spatial evolution of state variables (e.g. pressure) in porous media, and usually requires high computational expense due to its nonlinearity and the scale of the study domain. This letter describes a deep learning (DL) workflow to predict the pressure evolution as fluid flows in large-scale 3D heterogeneous porous media. In particular, we apply feature coarsening technique to extract the most representative information and perform the training and prediction of DL at the coarse scale, and further recover the resolution at the fine scale by 2D piecewise cubic interpolation. We validate the DL approach that is trained from physics-based simulation data to predict pressure field in a field-scale 3D geologic CO_2 storage reservoir. We evaluate the impact of feature coarsening on DL performance, and observe that the feature coarsening can not only decrease training time by >74% and reduce memory consumption by >75%, but also maintains temporal error <1.5%. Besides, the DL workflow provides predictive efficiency with ~1400 times speedup compared to physics-based simulation.
翻訳日:2021-05-11 15:11:17 公開日:2021-05-08
# NLP-IIS@UT at SemEval-2021 Task 4: Long Document Transformer を用いた機械読解

NLP-IIS@UT at SemEval-2021 Task 4: Machine Reading Comprehension using the Long Document Transformer ( http://arxiv.org/abs/2105.03775v1 )

ライセンス: Link先を確認
Hossein Basafa, Sajad Movahedi, Ali Ebrahimi, Azadeh Shakery and Heshaam Faili(参考訳) 本稿では,SemEval-2021の4番目の課題である「抽象的意味の理解」に関する技術的報告を紹介する。 このタスクでは、状況に応じた質問に基づいて正しい回答を予測したい。 通常、コンテキストは非常に長く、モデルから大きな受容フィールドを必要とする。 したがって、bertのような一般的なコンテキスト化言語モデルは、入力トークンの容量が限られているため、詳細な表現とパフォーマンスを欠いている。 この問題に対処するために、Longformerモデルを使い、シーケンスをよりよく処理しました。 さらに,wikihopデータセットのlongformerベンチマークで提案する手法を用いて,サブタスク1と2のベースラインで達成したタスクデータの精度を23.01%,22.95%から70.30%,64.38%に改善した。

This paper presents a technical report of our submission to the 4th task of SemEval-2021, titled: Reading Comprehension of Abstract Meaning. In this task, we want to predict the correct answer based on a question given a context. Usually, contexts are very lengthy and require a large receptive field from the model. Thus, common contextualized language models like BERT miss fine representation and performance due to the limited capacity of the input tokens. To tackle this problem, we used the Longformer model to better process the sequences. Furthermore, we utilized the method proposed in the Longformer benchmark on Wikihop dataset which improved the accuracy on our task data from 23.01% and 22.95% achieved by the baselines for subtask 1 and 2, respectively, to 70.30% and 64.38%.
翻訳日:2021-05-11 15:10:07 公開日:2021-05-08
# 非定常分布に対する適応潜在空間チューニング

Adaptive Latent Space Tuning for Non-Stationary Distributions ( http://arxiv.org/abs/2105.03584v1 )

ライセンス: Link先を確認
Alexander Scheinker, Frederick Cropp, Sergio Paiagua, Daniele Filippetto(参考訳) 畳み込みニューラルネットワーク(CNN)のような強力なディープラーニングツールは、データから直接大規模な複雑なシステムの入出力関係を学習することができる。 エンコーダデコーダディープcnnは、画像から直接特徴を抽出し、一般的な低次元の潜在空間内でスカラー入力と混合し、複雑な物理現象を表す新しい複雑な2d出力を生成することができる。 ディープラーニング手法が直面する重要な課題の1つは、再学習が不可能な時間とともに特徴が急速に変化する大規模非定常システムである。 本稿では,リアルタイムフィードバックに基づくディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。 電場加速と集束磁界)が時間とともに急速に変化している粒子加速器において、時間変化の粒子ビームの特性を予測するための我々の手法を実証する。

Powerful deep learning tools, such as convolutional neural networks (CNN), are able to learn the input-output relationships of large complicated systems directly from data. Encoder-decoder deep CNNs are able to extract features directly from images, mix them with scalar inputs within a general low-dimensional latent space, and then generate new complex 2D outputs which represent complex physical phenomenon. One important challenge faced by deep learning methods is large non-stationary systems whose characteristics change quickly with time for which re-training is not feasible. In this paper we present a method for adaptive tuning of the low-dimensional latent space of deep encoder-decoder style CNNs based on real-time feedback to quickly compensate for unknown and fast distribution shifts. We demonstrate our approach for predicting the properties of a time-varying charged particle beam in a particle accelerator whose components (accelerating electric fields and focusing magnetic fields) are also quickly changing with time.
翻訳日:2021-05-11 15:09:55 公開日:2021-05-08
# 確率的決定木を学ぶ

Learning stochastic decision trees ( http://arxiv.org/abs/2105.03594v1 )

ライセンス: Link先を確認
Guy Blanc and Jane Lange and Li-Yang Tan(参考訳) 対向雑音に最適な確率的決定木を学習するための準多項式時間アルゴリズムを提案する。 サイズ-s$ 確率的決定木でラベル付けされた一様ランダムなサンプルの$\eta$ が与えられると、アルゴリズムは時間$n^{o(\log(s/\varepsilon)/\varepsilon^2)} で実行され、ベイズの最適値の2\eta + \varepsilon$ 内の誤差を持つ仮説を返す。 追加の$2\eta$は情報理論の最小値である。 以前は、より弱いノイズモデルであっても、$O(\eta) + \varepsilon$を保証する非自明なアルゴリズムは知られていない。 我々のアルゴリズムはさらに適切であり、それ自体が決定木である仮説を返す。

We give a quasipolynomial-time algorithm for learning stochastic decision trees that is optimally resilient to adversarial noise. Given an $\eta$-corrupted set of uniform random samples labeled by a size-$s$ stochastic decision tree, our algorithm runs in time $n^{O(\log(s/\varepsilon)/\varepsilon^2)}$ and returns a hypothesis with error within an additive $2\eta + \varepsilon$ of the Bayes optimal. An additive $2\eta$ is the information-theoretic minimum. Previously no non-trivial algorithm with a guarantee of $O(\eta) + \varepsilon$ was known, even for weaker noise models. Our algorithm is furthermore proper, returning a hypothesis that is itself a decision tree; previously no such algorithm was known even in the noiseless setting.
翻訳日:2021-05-11 15:09:40 公開日:2021-05-08
# 初期停止ミラー降下によるノイズスパース位相検索における準最小最適速度

Nearly Minimax-Optimal Rates for Noisy Sparse Phase Retrieval via Early-Stopped Mirror Descent ( http://arxiv.org/abs/2105.03678v1 )

ライセンス: Link先を確認
Fan Wu, Patrick Rebeschini(参考訳) 本稿では,雑音による2次ガウス測度から$k$sparse信号 $\mathbf{x}^\star\in\mathbb{R}^n$ を復元する問題である雑音のスパース位相探索に適用した初期停止ミラー降下について検討する。 非凸)非正規化経験的リスク最小化問題を考えると、双曲的エントロピーミラーマップと適切な初期化を備えると、サンプルサイズが少なくとも$k^2$ (modulo logarithmic term) であり、信号の最小(モジュラー内)非零入力が$\|\mathbf{x}^\star\|_2/\sqrt{k}$ の順であることから、初期停止ミラー降下は、ほぼ最小の最適収束率を達成する。 我々の理論は、空間性を促進するために明示的な正規化やしきい値化のステップに依存しない単純なアルゴリズムにつながる。 より一般に, 雑音下スパース位相検索の非凸問題におけるミラー降下とスパース性の関係が確立され, 勾配降下による非スパース, ユークリッド, 凸設定に主に焦点をあてた早期停止に関する文献が追加されている。 この証明は、ミラー降下のポテンシャルに基づく解析と、ミラー降下の経路に沿って確立される変動コヒーレンス特性を、所定の停止時間まで定量的に制御することを組み合わせたものである。

This paper studies early-stopped mirror descent applied to noisy sparse phase retrieval, which is the problem of recovering a $k$-sparse signal $\mathbf{x}^\star\in\mathbb{R}^n$ from a set of quadratic Gaussian measurements corrupted by sub-exponential noise. We consider the (non-convex) unregularized empirical risk minimization problem and show that early-stopped mirror descent, when equipped with the hyperbolic entropy mirror map and proper initialization, achieves a nearly minimax-optimal rate of convergence, provided the sample size is at least of order $k^2$ (modulo logarithmic term) and the minimum (in modulus) non-zero entry of the signal is on the order of $\|\mathbf{x}^\star\|_2/\sqrt{k}$. Our theory leads to a simple algorithm that does not rely on explicit regularization or thresholding steps to promote sparsity. More generally, our results establish a connection between mirror descent and sparsity in the non-convex problem of noisy sparse phase retrieval, adding to the literature on early stopping that has mostly focused on non-sparse, Euclidean, and convex settings via gradient descent. Our proof combines a potential-based analysis of mirror descent with a quantitative control on a variational coherence property that we establish along the path of mirror descent, up to a prescribed stopping time.
翻訳日:2021-05-11 15:09:21 公開日:2021-05-08
# 自己拡張と適合性を用いたデータ汚染防止対策

Provable Guarantees against Data Poisoning Using Self-Expansion and Compatibility ( http://arxiv.org/abs/2105.03692v1 )

ライセンス: Link先を確認
Charles Jin, Melinda Sun, Martin Rinard(参考訳) 最近の研究で、ディープネットワークはバックドアデータ中毒の攻撃を受けやすいことが示されている。 具体的には、少数の悪意のあるデータをトレーニング分布に注入することにより、敵は推論中にモデルの振る舞いを制御する能力を得る。 本研究では,このトレーニングセットから有毒データを除去する反復的なトレーニング手順を提案する。 私たちのアプローチは2つのステップからなる。 まず,弱い学習者のアンサンブルを訓練し,学習セットの異なる部分集団を自動的に発見する。 そして、クリーンなデータを復元するためにブースティングフレームワークを利用します。 実験的な方法では,クリーンかつ汚いラベル攻撃を含む,最先端のバックドア攻撃に対する防御に成功している。 また,最近の<textit{adaptive}中毒攻撃を含む,独立した第三者による評価結果も提示する。 その結果,本手法はディープニューラルネットワークにおけるバックドア攻撃に対する既存の防御と競合することを示し,いくつかのシナリオにおいて最先端を著しく上回っている。

A recent line of work has shown that deep networks are highly susceptible to backdoor data poisoning attacks. Specifically, by injecting a small amount of malicious data into the training distribution, an adversary gains the ability to control the model's behavior during inference. In this work, we propose an iterative training procedure for removing poisoned data from the training set. Our approach consists of two steps. We first train an ensemble of weak learners to automatically discover distinct subpopulations in the training set. We then leverage a boosting framework to recover the clean data. Empirically, our method successfully defends against several state-of-the-art backdoor attacks, including both clean and dirty label attacks. We also present results from an independent third-party evaluation including a recent \textit{adaptive} poisoning adversary. The results indicate our approach is competitive with existing defenses against backdoor attacks on deep neural networks, and significantly outperforms the state-of-the-art in several scenarios.
翻訳日:2021-05-11 15:08:47 公開日:2021-05-08
# クラスタ間の個人の関心を保護する - 保証付きスペクトルクラスタリング

Protecting Individual Interests across Clusters: Spectral Clustering with Guarantees ( http://arxiv.org/abs/2105.03714v1 )

ライセンス: Link先を確認
Shubham Gupta and Ambedkar Dukkipati(参考訳) 機械学習における公正性に関する研究は、近年、高い意思決定におけるその絶え間ない役割により、勢いを増している。 例えば、アルゴリズムによって発見された全てのクラスタが、性別の多様性が高いことを保証することが望ましい。 従来、これらの問題は、クラスタ間の多様性を規定する公平性条件が観測可能であると仮定されるため、保護されたグループが容易に利用できるという設定の下で研究されてきた。 ほとんどの場合、これは真実ではないかもしれないし、多様性や個人の興味は、ソーシャルネットワークの本質的または潜伏的な特徴として現れうる。 例えば、潜伏感のある属性に依存すると、個人は相互に相互作用し、互いの興味を表現し、結果としてネットワークとなり、それを表現グラフと呼ぶ。 これを動機として、グラフ $\mathcal{G}$ をクラスタリングする個々の公正度基準を提案し、各クラスタは表現グラフ $\mathcal{R}$ の下で、個人に連結された適切な数のメンバを含む必要がある。 スペクトルクラスタリングアルゴリズムを考案し、与えられた表現グラフの下で公正なクラスターを見つける。 さらに,確率ブロックモデルの変種を提案し,このモデルの下でのアルゴリズムの弱い一貫性を確立する。 最後に, 理論的知見を裏付ける実験結果を示す。

Studies related to fairness in machine learning have recently gained traction due to its ever-expanding role in high-stakes decision making. For example, it may be desirable to ensure that all clusters discovered by an algorithm have high gender diversity. Previously, these problems have been studied under a setting where sensitive attributes, with respect to which fairness conditions impose diversity across clusters, are assumed to be observable; hence, protected groups are readily available. Most often, this may not be true, and diversity or individual interests can manifest as an intrinsic or latent feature of a social network. For example, depending on latent sensitive attributes, individuals interact with each other and represent each other's interests, resulting in a network, which we refer to as a representation graph. Motivated by this, we propose an individual fairness criterion for clustering a graph $\mathcal{G}$ that requires each cluster to contain an adequate number of members connected to the individual under a representation graph $\mathcal{R}$. We devise a spectral clustering algorithm to find fair clusters under a given representation graph. We further propose a variant of the stochastic block model and establish our algorithm's weak consistency under this model. Finally, we present experimental results to corroborate our theoretical findings.
翻訳日:2021-05-11 15:08:33 公開日:2021-05-08
# chameleon:中小企業向け生産対応mlシステムの迅速かつスケーラブルな開発とデプロイを目的とした半自動フレームワーク

Chameleon: A Semi-AutoML framework targeting quick and scalable development and deployment of production-ready ML systems for SMEs ( http://arxiv.org/abs/2105.03669v1 )

ライセンス: Link先を確認
Johannes Otterbach, Thomas Wollmann(参考訳) 現代の機械学習ソリューションの開発、スケーリング、デプロイは、中小企業(SME)にとって依然として困難である。 これは、専用のITチームを構築し維持する上での参入障壁の高さと、標準ベンチマークデータと比較して現実のデータ(RWD)の難しさによるものです。 この課題に対処するために、セミオートMLフレームワークであるChameleonの実装と概念について議論する。 Chameleonの目標は、プロダクション対応機械学習システムの高速でスケーラブルな開発とデプロイを中小企業のワークフローに組み込むことだ。 まず、中小企業が直面するrwdの課題について論じる。 その後、RWD関連デフォルトを持つモデルおよび損失関数動物園であるフレームワークの中心部分について概説する。 次に、実験イテレーションサイクルの自動化と、開発とデプロイメントの間のギャップを縮めるために、テンプレート可能なフレームワークをどのように使用できるかを示す。 最後に、テストフレームワークコンポーネントに触れて、共通のモデル障害モードを調査し、モデルのデプロイメントガバナンスのベストプラクティスをサポートすることができます。

Developing, scaling, and deploying modern Machine Learning solutions remains challenging for small- and middle-sized enterprises (SMEs). This is due to a high entry barrier of building and maintaining a dedicated IT team as well as the difficulties of real-world data (RWD) compared to standard benchmark data. To address this challenge, we discuss the implementation and concepts of Chameleon, a semi-AutoML framework. The goal of Chameleon is fast and scalable development and deployment of production-ready machine learning systems into the workflow of SMEs. We first discuss the RWD challenges faced by SMEs. After, we outline the central part of the framework which is a model and loss-function zoo with RWD-relevant defaults. Subsequently, we present how one can use a templatable framework in order to automate the experiment iteration cycle, as well as close the gap between development and deployment. Finally, we touch on our testing framework component allowing us to investigate common model failure modes and support best practices of model deployment governance.
翻訳日:2021-05-11 15:08:00 公開日:2021-05-08
# アンタングル表現による自己教師付き逆例検出

Self-Supervised Adversarial Example Detection by Disentangled Representation ( http://arxiv.org/abs/2105.03689v1 )

ライセンス: Link先を確認
Zhaoxi Zhang, Leo Yu Zhang, Xufei Zheng, Shengshan Hu, Jinyu Tian, Jiantao Zhou(参考訳) 深層学習モデルは、悪意のある目的のために精巧に設計され、人間の知覚システムには受け入れられない敵の例に弱いことが知られている。 autoencoderは、良質な例だけを訓練すると、敵の例がより大きな再構成エラーをもたらすという仮定に基づいて、(監視された)敵検出に広く使われている。 しかし、訓練における逆例の欠如やオートエンコーダの強大な一般化能力のため、この仮定は実際には必ずしも成り立たない。 この問題を軽減するために,オートエンコーダ構造下の画像の絡み合った表現を用いて,逆例を検出する。 入力画像をクラスの特徴や意味的特徴として切り離すことで,識別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティック特徴と誤ってペア化されたクラス/セマンティック特徴の両方でトレーニングし,良さと反例を再構築する。 これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。 現状の自己監視検出手法と比較して,本手法は,異なるデータセット(MNIST, Fashion-MNIST, CIFAR-10),異なる敵攻撃手法(FGSM, BIM, PGD, DeepFool, CW),および異なる犠牲者モデル(8層CNN, 16層VGG)に対して,より優れた性能を示す。 本手法は, 対人攻撃と異なる被害者モデル(30件の攻撃設定)下での最先端の自己監視検出手法と比較し, 多くの攻撃設定において, 各種測定(AUC, FPR, TPR)において優れた性能を示す。 理想的には、AUCは1ドルであり、我々の方法はすべての攻撃に対してCIFAR-10で0.99+$を達成する。 特に、他のオートエンコーダベースの検出器とは異なり、我々の手法は適応的な敵に対する抵抗を与えることができる。

Deep learning models are known to be vulnerable to adversarial examples that are elaborately designed for malicious purposes and are imperceptible to the human perceptual system. Autoencoder, when trained solely over benign examples, has been widely used for (self-supervised) adversarial detection based on the assumption that adversarial examples yield larger reconstruction error. However, because lacking adversarial examples in its training and the too strong generalization ability of autoencoder, this assumption does not always hold true in practice. To alleviate this problem, we explore to detect adversarial examples by disentangled representations of images under the autoencoder structure. By disentangling input images as class features and semantic features, we train an autoencoder, assisted by a discriminator network, over both correctly paired class/semantic features and incorrectly paired class/semantic features to reconstruct benign and counterexamples. This mimics the behavior of adversarial examples and can reduce the unnecessary generalization ability of autoencoder. Compared with the state-of-the-art self-supervised detection methods, our method exhibits better performance in various measurements (i.e., AUC, FPR, TPR) over different datasets (MNIST, Fashion-MNIST and CIFAR-10), different adversarial attack methods (FGSM, BIM, PGD, DeepFool, and CW) and different victim models (8-layer CNN and 16-layer VGG). We compare our method with the state-of-the-art self-supervised detection methods under different adversarial attacks and different victim models (30 attack settings), and it exhibits better performance in various measurements (AUC, FPR, TPR) for most attacks settings. Ideally, AUC is $1$ and our method achieves $0.99+$ on CIFAR-10 for all attacks. Notably, different from other Autoencoder-based detectors, our method can provide resistance to the adaptive adversary.
翻訳日:2021-05-11 15:07:46 公開日:2021-05-08
# 包括的研究 : 粒度の異なる文脈情報が対話状態追跡に与える影響について

Comprehensive Study: How the Context Information of Different Granularity Affects Dialogue State Tracking? ( http://arxiv.org/abs/2105.03571v1 )

ライセンス: Link先を確認
Puhai Yang and Heyan Huang and Xian-Ling Mao(参考訳) 対話状態追跡(DST)は、ユーザの目標を監視するためにタスク指向の対話システムにおいて重要な役割を果たす。 一般的に、対話状態の追跡には2つの戦略がある: スクラッチから予測し、それ以前の状態から更新する。 スクラッチベースの戦略は、すべての対話履歴を問い合わせて各スロット値を取得し、前回の戦略は、前の対話状態を更新するために現在のターンダイアログに依存する。 しかし、ノイズのため、スクラッチベースの戦略が短距離対話状態を正しく追跡することは困難であり、一方、従来の戦略は長距離対話状態追跡にはあまり役に立たない。 明らかに、異なる粒度のコンテキスト情報に対して異なる役割を演じ、異なる種類の対話状態を追跡する。 そこで,本稿では,粒度の異なるコンテキスト情報が対話状態追跡に与える影響について検討し,議論する。 まず,粒度の違いが対話状態の追跡に与える影響について検討する。 さらに,対話状態追跡に複数の粒度を組み合わせる方法について検討する。 最後に,文脈の粒度に関する知見を少数ショット学習シナリオに適用する。 さらに、私たちはすべてのコード \footnote{\url{https://anonymous}} を公開しました。

Dialogue state tracking (DST) plays a key role in task-oriented dialogue systems to monitor the user's goal. In general, there are two strategies to track a dialogue state: predicting it from scratch and updating it from previous state. The scratch-based strategy obtains each slot value by inquiring all the dialogue history, and the previous-based strategy relies on the current turn dialogue to update the previous dialogue state. However, it is hard for the scratch-based strategy to correctly track short-dependency dialogue state because of noise; meanwhile, the previous-based strategy is not very useful for long-dependency dialogue state tracking. Obviously, it plays different roles for the context information of different granularity to track different kinds of dialogue states. Thus, in this paper, we will study and discuss how the context information of different granularity affects dialogue state tracking. First, we explore how greatly different granularities affect dialogue state tracking. Then, we further discuss how to combine multiple granularities for dialogue state tracking. Finally, we apply the findings about context granularity to few-shot learning scenario. Besides, we have publicly released all codes\footnote{\url{https://anonymous}}.
翻訳日:2021-05-11 15:04:12 公開日:2021-05-08
# ランダム化[MASK]によるテキスト逆攻撃に対する認証ロバスト性

Certified Robustness to Text Adversarial Attacks by Randomized [MASK] ( http://arxiv.org/abs/2105.03743v1 )

ライセンス: Link先を確認
Jiehang Zeng, Xiaoqing Zheng, Jianhan Xu, Linyang Li, Liping Yuan and Xuanjing Huang(参考訳) 近年,テキスト分類器の頑健性を保証するための認証防衛手法が開発されている。 しかし、既存のすべての認証された防御手法は、敵がどのようにシノニムを生成しているのかを被告に知らせるものであると仮定している。 本稿では,上記の非現実的な仮定がもはや不要な入力テキストにおいて,単語の一定割合をランダムにマスキングすることにより,頑健な防御手法を提案する。 提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。 50%以上のテキストの分類はAGNEWS上の5ワード,SST2データセット上の2ワードの摂動に対して堅牢である。 実験の結果, ランダム化平滑化手法は, 最近提案されている複数のデータセットにわたる防御手法を大きく上回ることがわかった。

Recently, few certified defense methods have been developed to provably guarantee the robustness of a text classifier to adversarial synonym substitutions. However, all existing certified defense methods assume that the defenders are informed of how the adversaries generate synonyms, which is not a realistic scenario. In this paper, we propose a certifiably robust defense method by randomly masking a certain proportion of the words in an input text, in which the above unrealistic assumption is no longer necessary. The proposed method can defend against not only word substitution-based attacks, but also character-level perturbations. We can certify the classifications of over 50% texts to be robust to any perturbation of 5 words on AGNEWS, and 2 words on SST2 dataset. The experimental results show that our randomized smoothing method significantly outperforms recently proposed defense methods across multiple datasets.
翻訳日:2021-05-11 15:03:55 公開日:2021-05-08
# 変圧器を用いた要約システムの長寿命依存性

Long-Span Dependencies in Transformer-based Summarization Systems ( http://arxiv.org/abs/2105.03801v1 )

ライセンス: Link先を確認
Potsawee Manakul and Mark J. F. Gales(参考訳) トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。 通常、これらのシステムは、ターゲットタスクに訓練済みの大きなモデルを微調整することで訓練される。 これらのトランスフォーマーベースのモデルの1つの問題は、入力長が大きくなるにつれて、メモリと計算要求の面でうまくスケールしないことである。 したがって、長い文書要約では、これらのモデルの訓練や微調整が難しい場合がある。 本研究では,大規模な事前学習型トランスフォーマーモデルを用いて,局所的自己意識と明示的コンテンツ選択という2つの手法を用いて,抽象的要約における長期依存性に対処する。 これらのアプローチは、さまざまなネットワーク構成で比較される。 Spotify Podcast、arXiv、PubMedデータセットなど、標準的な長期の要約タスクで実験が行われる。 これらの手法を組み合わせることで,ROUGEスコアの3つのタスクすべてに対して,最先端の成果が得られることを示す。 さらに,大規模なgpuカードがなければ,既存のアプローチと同等あるいは優れた結果が得られる。

Transformer-based models have achieved state-of-the-art results in a wide range of natural language processing (NLP) tasks including document summarization. Typically these systems are trained by fine-tuning a large pre-trained model to the target task. One issue with these transformer-based models is that they do not scale well in terms of memory and compute requirements as the input length grows. Thus, for long document summarization, it can be challenging to train or fine-tune these models. In this work, we exploit large pre-trained transformer-based models and address long-span dependencies in abstractive summarization using two methods: local self-attention; and explicit content selection. These approaches are compared on a range of network configurations. Experiments are carried out on standard long-span summarization tasks, including Spotify Podcast, arXiv, and PubMed datasets. We demonstrate that by combining these methods, we can achieve state-of-the-art results on all three tasks in the ROUGE scores. Moreover, without a large-scale GPU card, our approach can achieve comparable or better results than existing approaches.
翻訳日:2021-05-11 15:03:38 公開日:2021-05-08
# 安定ヒートマップ回帰によるポーズ推定のロバスト性向上

Improving Robustness for Pose Estimation via Stable Heatmap Regression ( http://arxiv.org/abs/2105.03569v1 )

ライセンス: Link先を確認
Yumeng Zhang, Li Chen, Yufeng Liu, Xiaoyan Guo, Wen Zheng, Junhai Yong(参考訳) 深層学習法はポーズ推定において優れた性能を達成しているが,頑健性の欠如により,類似画像間でキーポイントが大きく変化する。 この問題を考慮し,ネットワークの脆弱性を小さな摂動に軽減するために,安定な熱マップ回帰法を提案する。 我々は,マルチピーク問題を緩和するために,ヒートマップ内の異なる行と列の相関を利用して,周囲の点からキーポイントを識別する,高度に分化したヒートマップ回帰を設計する。 2つの類似画像の予測ギャップを最小化する際の最適化難易度を最小化するために、最大安定性トレーニング損失を用いる。 提案手法は,2つのベンチマークデータセットに対する最先端アプローチに対するロバスト性を大幅に向上させ,高い性能を維持する。

Deep learning methods have achieved excellent performance in pose estimation, but the lack of robustness causes the keypoints to change drastically between similar images. In view of this problem, a stable heatmap regression method is proposed to alleviate network vulnerability to small perturbations. We utilize the correlation between different rows and columns in a heatmap to alleviate the multi-peaks problem, and design a highly differentiated heatmap regression to make a keypoint discriminative from surrounding points. A maximum stability training loss is used to simplify the optimization difficulty when minimizing the prediction gap of two similar images. The proposed method achieves a significant advance in robustness over state-of-the-art approaches on two benchmark datasets and maintains high performance.
翻訳日:2021-05-11 14:58:28 公開日:2021-05-08
# 畳み込みネットワークの符号非依存最適化による不必要表面再構成の学習

Sign-Agnostic CONet: Learning Implicit Surface Reconstructions by Sign-Agnostic Optimization of Convolutional Occupancy Networks ( http://arxiv.org/abs/2105.03582v1 )

ライセンス: Link先を確認
Jiapeng Tang, Jiabao Lei, Dan Xu, Feiying Ma, Kui Jia, Lei Zhang(参考訳) 点雲からの表面の再構成は、コンピュータビジョンとグラフィックコミュニティの基本的な問題である。 最近の最先端の研究では、推論中に各局所暗黙のフィールドを個別に最適化することでこの問題を解決している。 局所フィールド間の幾何学的関係を考慮せずに、それらは通常、局所フィールドの重複領域における符号競合問題を避けるために正確な正規値を必要とする。 SALはサインに依存しない学習によってこの制限を破るが、このパイプラインを局所的な形状モデリングに拡張する方法はまだ解明されていない。 そこで本研究では,畳み込み占有ネットワークの符号に依存しない最適化により暗黙的な表面再構成を学習し,高度な拡張性,汎用性,適用性を実現することを提案する。 また,本論文では,非符号のバイナリ・クロスエントロピー損失を伴う時間ガラスネットワークアーキテクチャの畳み込み特性に係わる占有場を最適化する,シンプルで効果的な設計により,この目標を効果的に達成できることを示す。 オブジェクトレベルとシーンレベルの両方のデータセットにおける以前の最先端との比較は、非向きのポイントクラウドから表面再構成するアプローチの優れた精度を示している。

Surface reconstruction from point clouds is a fundamental problem in the computer vision and graphics community. Recent state-of-the-arts solve this problem by individually optimizing each local implicit field during inference. Without considering the geometric relationships between local fields, they typically require accurate normals to avoid the sign conflict problem in overlapping regions of local fields, which severely limits their applicability to raw scans where surface normals could be unavailable. Although SAL breaks this limitation via sign-agnostic learning, it is still unexplored that how to extend this pipeline to local shape modeling. To this end, we propose to learn implicit surface reconstruction by sign-agnostic optimization of convolutional occupancy networks, to simultaneously achieve advanced scalability, generality, and applicability in a unified framework. In the paper, we also show this goal can be effectively achieved by a simple yet effective design, which optimizes the occupancy fields that are conditioned on convolutional features from an hourglass network architecture with an unsigned binary cross-entropy loss. Extensive experimental comparison with previous state-of-the-arts on both object-level and scene-level datasets demonstrate the superior accuracy of our approach for surface reconstruction from un-orientated point clouds.
翻訳日:2021-05-11 14:58:14 公開日:2021-05-08
# ABCNet v2: リアルタイムエンドツーエンドテキストスポッティングのためのAdaptive Bezier-Curve Network

ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting ( http://arxiv.org/abs/2105.03620v1 )

ライセンス: Link先を確認
Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu Liu, Hao Chen(参考訳) 統合フレームワークによる検出と認識の統合を目的としたエンドツーエンドテキストスポッティングは,この2つの補完的タスクが単純であることから,注目を集めている。 特に任意の形式のテキストインスタンスを処理する場合、これはオープンな問題である。 従来の手法は、文字ベースとセグメンテーションベースという2つのグループに大別できるが、これは文字レベルのアノテーションや、構造化されていない出力のために複雑な後処理を必要とすることが多い。 本稿では,Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで,エンドツーエンドのテキストスポッティングに取り組む。 1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。 2) 任意の形状のテキストインスタンスの正確な畳み込み特徴を抽出する新しいBezierAlign層を設計し, 従来の手法に比べて認識精度を大幅に向上させる。 3) 複雑な後処理や過度パラメーターに悩まされる従来の方法とは異なり,ABCNet v2は,処理後非最大抑制(NMS)のみを簡単なパイプラインとして維持する。 4) テキスト認識の性能は特徴の整合性に大きく依存するため,ABCNet v2では,畳み込みフィルタの位置を符号化する単純な座標畳み込みも採用している。 様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が非常に高い効率を維持しながら最先端のパフォーマンスを達成できることを示した。

End-to-end text-spotting, which aims to integrate detection and recognition in a unified framework, has attracted increasing attention due to its simplicity of the two complimentary tasks. It remains an open problem especially when processing arbitrarily-shaped text instances. Previous methods can be roughly categorized into two groups: character-based and segmentation-based, which often require character-level annotations and/or complex post-processing due to the unstructured output. Here, we tackle end-to-end text spotting by presenting Adaptive Bezier Curve Network v2 (ABCNet v2). Our main contributions are four-fold: 1) For the first time, we adaptively fit arbitrarily-shaped text by a parameterized Bezier curve, which, compared with segmentation-based methods, can not only provide structured output but also controllable representation. 2) We design a novel BezierAlign layer for extracting accurate convolution features of a text instance of arbitrary shapes, significantly improving the precision of recognition over previous methods. 3) Different from previous methods, which often suffer from complex post-processing and sensitive hyper-parameters, our ABCNet v2 maintains a simple pipeline with the only post-processing non-maximum suppression (NMS). 4) As the performance of text recognition closely depends on feature alignment, ABCNet v2 further adopts a simple yet effective coordinate convolution to encode the position of the convolutional filters, which leads to a considerable improvement with negligible computation overhead. Comprehensive experiments conducted on various bilingual (English and Chinese) benchmark datasets demonstrate that ABCNet v2 can achieve state-of-the-art performance while maintaining very high efficiency.
翻訳日:2021-05-11 14:57:54 公開日:2021-05-08
# CASIA-Face-Africa: 大規模アフリカの顔画像データベース

CASIA-Face-Africa: A Large-scale African Face Image Database ( http://arxiv.org/abs/2105.03632v1 )

ライセンス: Link先を確認
Jawad Muhammad, Yunlong Wang, Caiyong Wang, Kunbo Zhang, and Zhenan Sun(参考訳) 顔認識は、私たちの社会に広く応用され、よく研究されている分野です。 しかし、人種的偏見は、ほとんどの最先端美術(SOTA)顔認識システムに固有のものであることが証明された。 顔認識アルゴリズムに関する多くの調査研究は、他のコホートよりもアフリカの被験者の偽陽性率が高いことを報告している。 パブリックドメインにおける大規模アフリカの顔画像データベースの欠如は、顔認識の人種バイアス問題の研究における主要な制限の1つである。 そこで我々は,アフリカ人1,183人の38,546枚の画像を含む顔画像データベース,CASIA-Face-Africaを収集した。 マルチスペクトルカメラを用いて様々な照明条件下での顔画像のキャプチャを行う。 被験者の年齢属性や表情も慎重に記録されている。 ランドマーク検出には、データベースの各顔画像に68のキーポイントを手動でラベル付けする。 評価プロトコルのグループは、異なるアプリケーション、タスク、パーティション、シナリオに従って構築されます。 再学習のないSOTA顔認識アルゴリズムの性能をベースラインとして報告する。 提案するデータベースは, 顔のランドマークアノテーション, 評価プロトコル, 予備結果とともに, 特に顔画像前処理, 顔の特徴分析とマッチング, 表情認識, 性別・年齢推定, 民族分類, 顔画像生成など, アフリカの被験者の顔バイオメトリックスの本質的な側面を研究するための優れたベンチマークを形成する。 データベースはhttp://www.cripacsir.cn/dataset/からダウンロードできる。

Face recognition is a popular and well-studied area with wide applications in our society. However, racial bias had been proven to be inherent in most State Of The Art (SOTA) face recognition systems. Many investigative studies on face recognition algorithms have reported higher false positive rates of African subjects cohorts than the other cohorts. Lack of large-scale African face image databases in public domain is one of the main restrictions in studying the racial bias problem of face recognition. To this end, we collect a face image database namely CASIA-Face-Africa which contains 38,546 images of 1,183 African subjects. Multi-spectral cameras are utilized to capture the face images under various illumination settings. Demographic attributes and facial expressions of the subjects are also carefully recorded. For landmark detection, each face image in the database is manually labeled with 68 facial keypoints. A group of evaluation protocols are constructed according to different applications, tasks, partitions and scenarios. The performances of SOTA face recognition algorithms without re-training are reported as baselines. The proposed database along with its face landmark annotations, evaluation protocols and preliminary results form a good benchmark to study the essential aspects of face biometrics for African subjects, especially face image preprocessing, face feature analysis and matching, facial expression recognition, sex/age estimation, ethnic classification, face image generation, etc. The database can be downloaded from our http://www.cripacsir.cn/dataset/
翻訳日:2021-05-11 14:57:24 公開日:2021-05-08
# 被写体検出のためのアクティブテラヘルツイメージングデータセット

Active Terahertz Imaging Dataset for Concealed Object Detection ( http://arxiv.org/abs/2105.03677v1 )

ライセンス: Link先を確認
Dong Liang, Fei Xue and Ling Li(参考訳) テラヘルツイメージングにおける物体検出は、公共の安全と対テロの緊急の必要性である。 本稿では,アクティブテラヘルツ画像分解能5mm×5mmのマルチオブジェクト検出アルゴリズムを評価するための公開データセットを提案する。 我々の知る限りでは、これはオブジェクト検出アルゴリズムを評価するために準備された、最初の公開Terahertz画像データセットである。 このデータセットのオブジェクト検出は、画像の品質が劣っているため、標準の公開オブジェクト検出データセットよりもはるかに難しい。 オブジェクト検出およびハードトレーニングサンプルにおける不均衡サンプルの問題に直面し、このデータセット上で、YOLOv3, YOLOv4, FRCN-OHEM, RetinaNetの4つの一般的な検出器を評価する。 実験の結果、RetinaNetは最も高いmAPを達成することが示された。 また,人体の異なる部位に隠れている物体が検出精度に影響を及ぼすことを示した。 データセットはhttps://github.com/LingLIx/THz_Datasetで公開されている。

Concealed object detection in Terahertz imaging is an urgent need for public security and counter-terrorism. In this paper, we provide a public dataset for evaluating multi-object detection algorithms in active Terahertz imaging resolution 5 mm by 5 mm. To the best of our knowledge, this is the first public Terahertz imaging dataset prepared to evaluate object detection algorithms. Object detection on this dataset is much more difficult than on those standard public object detection datasets due to its inferior imaging quality. Facing the problem of imbalanced samples in object detection and hard training samples, we evaluate four popular detectors: YOLOv3, YOLOv4, FRCN-OHEM, and RetinaNet on this dataset. Experimental results indicate that the RetinaNet achieves the highest mAP. In addition, we demonstrate that hiding objects in different parts of the human body affect detection accuracy. The dataset is available at https://github.com/LingLIx/THz_Dataset.
翻訳日:2021-05-11 14:57:03 公開日:2021-05-08
# 不均質なマルチタスク学習のための分布マッチング:大規模顔研究

Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study ( http://arxiv.org/abs/2105.03790v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Viktoriia Sharmanska and Stefanos Zafeiriou(参考訳) マルチタスク学習は、DNNのような共有学習アルゴリズムによって複数のタスクが共同で学習される方法論として登場した。 MTLは、検討中のタスクが関連しているという仮定に基づいており、個々のタスクのパフォーマンスを改善するために共有知識を利用する。 タスクは一般に、同じタイプの問題を参照するために、均質であるとみなされる。 さらに、MTLは通常、タスク間の完全な、または部分的な重複を伴う地上の真理アノテーションに基づいている。 本研究では, 検出, 分類, 回帰問題を同時に扱うヘテロジニアス MTL を扱う。 タスク関連性は、ほとんど含まない、あるいは重複しないアノテーションを含むタスクを、協調トレーニング、弱教師付き方法で探索する。 タスク関連性(task-relatedness)はmtlで導入され、事前の知識を通じて、あるいはデータ駆動の研究を通じて明示的に行われる。 本稿では,タスク間の知識交換を可能にする新しい分布マッチング手法を提案する。 このアプローチに基づいて,顔行動タスクを共同学習することにより,顔分析のための最初のフレームワークであるfacebehaviornetを構築した。 本研究は, 連続的影響推定, 行動単位検出, 基本的な感情認識, 属性検出, 顔識別のためのケーススタディを開発する。 タスク関連性によるコトレーニングが負の伝達を緩和することを示す。 facebehaviornetは、顔の行動のあらゆる側面をカプセル化する特徴を学習するので、複合感情認識のような訓練を受けたもの以外のタスクを実行するためにゼロ/フェウショット学習を行う。 10のデータベースを用いた非常に大規模な実験を行い,そのアプローチが,すべてのタスクやすべてのデータベースにおいて,トレーニングに使用されていないデータベースにおいても,大きなマージンで最先端のデータベースよりも優れていることを証明した。

Multi-Task Learning has emerged as a methodology in which multiple tasks are jointly learned by a shared learning algorithm, such as a DNN. MTL is based on the assumption that the tasks under consideration are related; therefore it exploits shared knowledge for improving performance on each individual task. Tasks are generally considered to be homogeneous, i.e., to refer to the same type of problem. Moreover, MTL is usually based on ground truth annotations with full, or partial overlap across tasks. In this work, we deal with heterogeneous MTL, simultaneously addressing detection, classification & regression problems. We explore task-relatedness as a means for co-training, in a weakly-supervised way, tasks that contain little, or even non-overlapping annotations. Task-relatedness is introduced in MTL, either explicitly through prior expert knowledge, or through data-driven studies. We propose a novel distribution matching approach, in which knowledge exchange is enabled between tasks, via matching of their predictions' distributions. Based on this approach, we build FaceBehaviorNet, the first framework for large-scale face analysis, by jointly learning all facial behavior tasks. We develop case studies for: i) continuous affect estimation, action unit detection, basic emotion recognition; ii) attribute detection, face identification. We illustrate that co-training via task relatedness alleviates negative transfer. Since FaceBehaviorNet learns features that encapsulate all aspects of facial behavior, we conduct zero-/few-shot learning to perform tasks beyond the ones that it has been trained for, such as compound emotion recognition. By conducting a very large experimental study, utilizing 10 databases, we illustrate that our approach outperforms, by large margins, the state-of-the-art in all tasks and in all databases, even in these which have not been used in its training.
翻訳日:2021-05-11 14:56:50 公開日:2021-05-08
# 深部生成モデルの潜在空間における線形補間について

On Linear Interpolation in the Latent Space of Deep Generative Models ( http://arxiv.org/abs/2105.03663v1 )

ライセンス: Link先を確認
Mike Yan Michelis and Quentin Becker(参考訳) 深部生成モデルにおける潜伏空間の基本的な幾何学的構造はユークリッドではない場合が多く、2つのモデルの補間能力を比較する際にバイアスが発生する。 潜在空間における線形補間の滑らかさと妥当性は、基礎となる生成モデルの品質と関連している。 本稿では,測地線が与える最も短い補間曲線から任意に逸脱できるような補間がすべて同等であるわけではないことを示す。 この偏差は、生成モデルのプルバックメトリックで曲線長を計算し、エンドポイント間の直線よりも短い曲線を見つけ、この直線上で非ゼロな相対距離改善を測定することによって明らかにされる。 これにより、2つの生成モデル間の線形補間を比較する戦略が導かれる。 また、短い曲線を計算するのに適切な出力空間を選択する効果と重要性を示す。 この計算のために、プルバック計量の拡張を導出する。

The underlying geometrical structure of the latent space in deep generative models is in most cases not Euclidean, which may lead to biases when comparing interpolation capabilities of two models. Smoothness and plausibility of linear interpolations in latent space are associated with the quality of the underlying generative model. In this paper, we show that not all such interpolations are comparable as they can deviate arbitrarily from the shortest interpolation curve given by the geodesic. This deviation is revealed by computing curve lengths with the pull-back metric of the generative model, finding shorter curves than the straight line between endpoints, and measuring a non-zero relative length improvement on this straight line. This leads to a strategy to compare linear interpolations across two generative models. We also show the effect and importance of choosing an appropriate output space for computing shorter curves. For this computation we derive an extension of the pull-back metric.
翻訳日:2021-05-11 14:48:21 公開日:2021-05-08
# 適応次元低減によるマルチモーダルデータ解析におけるアンサンブル学習と転送学習の強化

Enhancing ensemble learning and transfer learning in multimodal data analysis by adaptive dimensionality reduction ( http://arxiv.org/abs/2105.03682v1 )

ライセンス: Link先を確認
Andrea Marinoni, Saloua Chlaily, Eduard Khachatrian, Torbj{\o}rn Eltoft, Sivasakthy Selvakumaran, Mark Girolami, Christian Jutten(参考訳) 現代のデータ分析では、アンサンブル学習と転送学習のアプローチを利用して、分析モデルのトレーニングに使用するラベル付きデータの欠如、情報のスパーシティ、レコードの非バランス分布など、データ分析の最も関連する問題に対処している。 それでも、マルチモーダルデータセット(つまり、複数のセンシング技術や戦略によって取得されたデータセット)に適用した場合、学習と伝達学習の最先端の手法にはいくつかの制限がある。 実際、マルチモーダルデータ分析では、すべての観測結果が同じレベルの信頼性や情報品質、あるいはエラーや不確実性の均質な分布を示すわけではない。 この条件は、アンサンブル学習と転校学習の方法に依存する古典的な仮定を損なうかもしれない。 本研究では,この問題を克服するために,次元削減のための適応的アプローチを提案する。 グラフ理論に基づくアプローチにより、考慮されたデータセットの可変サイズ部分集合にまたがる最も関連する特徴を識別する。 この情報はアンサンブル学習と転送学習アーキテクチャのセットアップに使用される。 多様な研究分野(リモートセンシング,脳-コンピュータインターフェース,光エネルギー)で得られたマルチモーダルデータセットに対するアプローチを検証した。 実験の結果,本手法の有効性と頑健性を示し,最先端技術よりも優れていた。

Modern data analytics take advantage of ensemble learning and transfer learning approaches to tackle some of the most relevant issues in data analysis, such as lack of labeled data to use to train the analysis models, sparsity of the information, and unbalanced distributions of the records. Nonetheless, when applied to multimodal datasets (i.e., datasets acquired by means of multiple sensing techniques or strategies), the state-of-theart methods for ensemble learning and transfer learning might show some limitations. In fact, in multimodal data analysis, not all observations would show the same level of reliability or information quality, nor an homogeneous distribution of errors and uncertainties. This condition might undermine the classic assumptions ensemble learning and transfer learning methods rely on. In this work, we propose an adaptive approach for dimensionality reduction to overcome this issue. By means of a graph theory-based approach, the most relevant features across variable size subsets of the considered datasets are identified. This information is then used to set-up ensemble learning and transfer learning architectures. We test our approach on multimodal datasets acquired in diverse research fields (remote sensing, brain-computer interfaces, photovoltaic energy). Experimental results show the validity and the robustness of our approach, able to outperform state-of-the-art techniques.
翻訳日:2021-05-11 14:48:08 公開日:2021-05-08
# 進化的アルゴリズムで異父母を一致させるクロスオーバー

A Crossover That Matches Diverse Parents Together in Evolutionary Algorithms ( http://arxiv.org/abs/2105.03680v1 )

ライセンス: Link先を確認
Maciej \'Swiechowski(参考訳) 交叉と突然変異は進化的アプローチにおける新しい解決策をもたらす2つの主要な演算子である。 本稿では、クロスオーバーフェーズを実行する新しい方法を示す。 選択の問題は進化的決定木の構築である。 この方法は、互いに補完し合うような個人を見つけることを目的としている。 したがって、彼らは多種多様な専門性を持っている。 いわゆる相補的適合性を計算する方法を提案する。 いくつかの実証実験において,提案手法の有効性を評価し,適合率に基づくアプローチと比較した。 1つの変種は最良のアプローチとして明らかに現れ、残りの変種はベースライン以下である。

Crossover and mutation are the two main operators that lead to new solutions in evolutionary approaches. In this article, a new method of performing the crossover phase is presented. The problem of choice is evolutionary decision tree construction. The method aims at finding such individuals that together complement each other. Hence we say that they are diversely specialized. We propose the way of calculating the so-called complementary fitness. In several empirical experiments, we evaluate the efficacy of the method proposed in four variants and compare it to a fitness-rank-based approach. One variant emerges clearly as the best approach, whereas the remaining ones are below the baseline.
翻訳日:2021-05-11 14:42:31 公開日:2021-05-08
# 敵対的機械学習のメンタルモデル

Mental Models of Adversarial Machine Learning ( http://arxiv.org/abs/2105.03726v1 )

ライセンス: Link先を確認
Lukas Bieringer, Kathrin Grosse, Michael Backes, Katharina Krombholz(参考訳) 機械学習(ml)は実際に広く使われているが、潜在的なセキュリティ上の課題に対する実践者の実際の理解についてはほとんど知られていない。 この研究は、文献におけるこの実質的なギャップを埋め、MLパイプラインの開発者のメンタルモデルと潜在的に脆弱なコンポーネントに焦点を当てた質的研究に貢献します。 メンタルモデルの研究は、他のセキュリティ分野における根本原因の発見やリスクコミュニケーションの改善に役立っている。 本研究は,産業実践者の精神モデルにおける4つの特徴を明らかにした。 最初の範囲は、敵機械学習(AML)と古典的セキュリティの相互関係に関するものである。 第2の範囲は、構造的および機能的コンポーネントを記述する。 第3の範囲は、個々のメンタルモデルのバリエーションを表しており、アプリケーションによっても、対応する被験者の教育的背景によっても説明されない。 第4の範囲は、技術奥行きの異なるレベルに対応するが、被験者の知識レベルによっては決定されない。 我々の特徴は、企業ワークフローへのAMLの統合、実践者のためのセキュリティ強化ツール、AMLの適切な規制フレームワークの作成に影響を及ぼす。

Although machine learning (ML) is widely used in practice, little is known about practitioners' actual understanding of potential security challenges. In this work, we close this substantial gap in the literature and contribute a qualitative study focusing on developers' mental models of the ML pipeline and potentially vulnerable components. Studying mental models has helped in other security fields to discover root causes or improve risk communication. Our study reveals four characteristic ranges in mental models of industrial practitioners. The first range concerns the intertwined relationship of adversarial machine learning (AML) and classical security. The second range describes structural and functional components. The third range expresses individual variations of mental models, which are neither explained by the application nor by the educational background of the corresponding subjects. The fourth range corresponds to the varying levels of technical depth, which are however not determined by our subjects' level of knowledge. Our characteristic ranges have implications for the integration of AML into corporate workflows, security enhancing tools for practitioners, and creating appropriate regulatory frameworks for AML.
翻訳日:2021-05-11 14:42:24 公開日:2021-05-08
# セルオートマトンを用いた歩行状態予測とelmを用いた分類

Human Gait State Prediction Using Cellular Automata and Classification Using ELM ( http://arxiv.org/abs/2105.03799v1 )

ライセンス: Link先を確認
Vijay Bhaskar Semwal, Neha Gaud and G.C.Nandi(参考訳) 本稿では,エクストリームマシンリーン(ELM)を用いた歩行状態予測と歩行データの分類のための周期的セルオートマトン規則を報告した。 本研究は,二足歩行の複雑さを理解するためにセルオートマトンを用いた最初の試みである。 非線形性, 歩行周期の変動, 二足歩行における片足足接部における受動関節の形状の変化により, ヒト歩行における動的記述や制御則の変化は二足歩行状態の予測を困難にしている。 我々は,前2つの隣接する状態に基づいて,二足歩行の次の歩行状態を予測できるセルオートマトンルールを設計した。 正常歩行のためのセルラーオートマトンルールを設計した。 状態予測は二足歩行を正しく設計するのに役立ちます。 通常の歩行は次の2つの状態に依存し、8つの状態を持つ。 我々は、現在の状態と前の状態が次の状態を予測することを検討した。 セルオートマトンを使って16のルールを定式化し、各脚に8のルールを設定しました。 右脚がスイングフェーズにある場合、左脚がスタンディングフェーズになるという事実を用いて、優先順位が維持される。 モデルを検証するため,EMM[1]を用いて歩行データを分類し,精度60%を達成した。 我々は、軌道を探索し、他の歩行軌跡と比較した。 最後に, 異なる関節に対する誤差解析を行った。

In this research article, we have reported periodic cellular automata rules for different gait state prediction and classification of the gait data using extreme machine Leaning (ELM). This research is the first attempt to use cellular automaton to understand the complexity of bipedal walk. Due to nonlinearity, varying configurations throughout the gait cycle and the passive joint located at the unilateral foot-ground contact in bipedal walk resulting variation of dynamic descriptions and control laws from phase to phase for human gait is making difficult to predict the bipedal walk states. We have designed the cellular automata rules which will predict the next gait state of bipedal steps based on the previous two neighbour states. We have designed cellular automata rules for normal walk. The state prediction will help to correctly design the bipedal walk. The normal walk depends on next two states and has total 8 states. We have considered the current and previous states to predict next state. So we have formulated 16 rules using cellular automata, 8 rules for each leg. The priority order maintained using the fact that if right leg in swing phase then left leg will be in stance phase. To validate the model we have classified the gait Data using ELM [1] and achieved accuracy 60%. We have explored the trajectories and compares with another gait trajectories. Finally we have presented the error analysis for different joints.
翻訳日:2021-05-11 14:42:08 公開日:2021-05-08
# 対話システムにおける意図の連続表現

Continuous representations of intents for dialogue systems ( http://arxiv.org/abs/2105.03716v1 )

ライセンス: Link先を確認
Sindre Andr\'e Jacobsen and Anton Ragni(参考訳) 意図モデリングは現代の対話システムにおいて重要な部分となっている。 Amazon Alexa、Apple Siri、Google Assistantなどの実用的な対話システムやバーチャルアシスタントの急速な拡張により、興味は増している。 しかし、最近まで、焦点は固定された離散的な多くの意図を検出することであった。 近年,ゼロショット学習の文脈において,無意識の意図検出に関するいくつかの研究が行われている。 本稿では,いくつかの利点をもたらす専門的な意図空間に意図を連続的に配置する新しいモデルを提案することにより,先行研究を継続する。 まず、連続表現は、見た意図間の関係を調査できる。 第二に、限られた量のデータに対して、目に見えない意図を確実に表現することができる。 最後に,提案したモデルが,どのモデルも再学習することなく,目に見えない意図で拡張可能であることを示す。 実験により、モデルが目に見えないインテントを高い精度で確実に追加し、そのインテントに対して高いパフォーマンスを維持することができることが示された。

Intent modelling has become an important part of modern dialogue systems. With the rapid expansion of practical dialogue systems and virtual assistants, such as Amazon Alexa, Apple Siri, and Google Assistant, the interest has only increased. However, up until recently the focus has been on detecting a fixed, discrete, number of seen intents. Recent years have seen some work done on unseen intent detection in the context of zero-shot learning. This paper continues the prior work by proposing a novel model where intents are continuous points placed in a specialist Intent Space that yields several advantages. First, the continuous representation enables to investigate relationships between the seen intents. Second, it allows any unseen intent to be reliably represented given limited quantities of data. Finally, this paper will show how the proposed model can be augmented with unseen intents without retraining any of the seen ones. Experiments show that the model can reliably add unseen intents with a high accuracy while retaining a high performance on the seen intents.
翻訳日:2021-05-11 14:40:47 公開日:2021-05-08
# 関心点の再現性を予測するための学習

Learning to Predict Repeatability of Interest Points ( http://arxiv.org/abs/2105.03578v1 )

ライセンス: Link先を確認
Anh-Dzung Doan and Daniyar Turmukhambetov and Yasir Latif and Tat-Jun Chin and Soohyun Bae(参考訳) 多くのロボティクスアプリケーションは、様々な視点や照明条件下で非常に再現可能な興味点を必要とする。 しかし、環境が継続的に無期限に変化し、時間に対する関心点の出現が変化するため、この要件は非常に困難である。 本稿では,時間的機能としての関心点の反復可能性を予測することを提案し,日・季節的変動を考慮した関心点の寿命を示す。 反復可能性予測器(RP)は、長期にわたり複数の視点から繰り返し関心点に基づいて訓練された回帰器として定式化される。 包括的実験により,新たな関心点が繰り返された際にrpが推定できることを示すとともに,この問題に対する洞察に富んだ分析を行った。 さらに比較するために、我々のRPを視覚的局所化フレームワークのマップ要約に適用し、クエリ時間に応じて全コンテキストマップのコンパクトな表現を構築する。 実験の結果,rpが予測する再帰的関心点の慎重な選択は,地図要約による局所化精度の低下を著しく軽減することが示された。

Many robotics applications require interest points that are highly repeatable under varying viewpoints and lighting conditions. However, this requirement is very challenging as the environment changes continuously and indefinitely, leading to appearance changes of interest points with respect to time. This paper proposes to predict the repeatability of an interest point as a function of time, which can tell us the lifespan of the interest point considering daily or seasonal variation. The repeatability predictor (RP) is formulated as a regressor trained on repeated interest points from multiple viewpoints over a long period of time. Through comprehensive experiments, we demonstrate that our RP can estimate when a new interest point is repeated, and also highlight an insightful analysis about this problem. For further comparison, we apply our RP to the map summarization under visual localization framework, which builds a compact representation of the full context map given the query time. The experimental result shows a careful selection of potentially repeatable interest points predicted by our RP can significantly mitigate the degeneration of localization accuracy from map summarization.
翻訳日:2021-05-11 14:38:58 公開日:2021-05-08
# ChaRRNets:RFフィンガープリントのためのチャネルロバスト表現ネットワーク

ChaRRNets: Channel Robust Representation Networks for RF Fingerprinting ( http://arxiv.org/abs/2105.03568v1 )

ライセンス: Link先を確認
Carter N. Brown, Enrico Mattei, Andrew Draganov(参考訳) 本稿では,rfフィンガープリンティングのための複雑値畳み込みニューラルネットワーク(cnns)について,無線信号処理や通信の分野に特有の現象であるマルチパス伝搬チャネルに関する帰納的バイアスを適切に考慮して検討する。 我々は,深層学習(dl)技術を用いた無線iotデバイスの指紋認証の問題に注目する。 これらの実世界の条件下では、列車とテストセットで表されるマルチパス環境が異なる。 これらの違いは、無線信号の伝搬を管理する物理と、実用的なデータ収集キャンペーンの制限によるものである。 提案手法は, 群理論の枠組みを踏襲し, 多様体値データに対するDLの先行処理を活用し, この先行処理を無線信号処理領域に拡張する。 本稿では、信号がマルチパス伝搬モデルの下で経験する変換のリー群を導入し、有限インパルス応答(fir)フィルタの周波数応答に同変かつ不変な演算を定義し、シャーネットを構築する。 合成および実世界のデータセットを用いて,提案手法の有効性を示す強力なベースラインモデルに対してベンチマークを行った。 本結果は、適切な無線領域バイアスをDLモデルに組み込むことの利点を示すものである。 5G革命によってセキュリティメカニズムの強化に対する需要が増大するにつれて、堅牢なRF機械学習分野の新たな取り組みを加速したいと考えています。

We present complex-valued Convolutional Neural Networks (CNNs) for RF fingerprinting that go beyond translation invariance and appropriately account for the inductive bias with respect to multipath propagation channels, a phenomenon that is specific to the fields of wireless signal processing and communications. We focus on the problem of fingerprinting wireless IoT devices in-the-wild using Deep Learning (DL) techniques. Under these real-world conditions, the multipath environments represented in the train and test sets will be different. These differences are due to the physics governing the propagation of wireless signals, as well as the limitations of practical data collection campaigns. Our approach follows a group-theoretic framework, leverages prior work on DL on manifold-valued data, and extends this prior work to the wireless signal processing domain. We introduce the Lie group of transformations that a signal experiences under the multipath propagation model and define operations that are equivariant and invariant to the frequency response of a Finite Impulse Response (FIR) filter to build a ChaRRNet. We present results using synthetic and real-world datasets, and we benchmark against a strong baseline model, that show the efficacy of our approach. Our results provide evidence of the benefits of incorporating appropriate wireless domain biases into DL models. We hope to spur new work in the area of robust RF machine learning, as the 5G revolution increases demand for enhanced security mechanisms.
翻訳日:2021-05-11 14:34:45 公開日:2021-05-08
# MCTG:深部強化学習に基づくGARCHを用いた多周波連続共有取引アルゴリズム

MCTG:Multi-frequency continuous-share trading algorithm with GARCH based on deep reinforcement learning ( http://arxiv.org/abs/2105.03625v1 )

ライセンス: Link先を確認
Zhishun Wang, Wei Lu, Kaixin Zhang, Tianhao Li, Zixi Zhao(参考訳) 株式市場で利益を上げることは、プロの機関投資家と個人トレーダーの両方にとって難しい課題だ。 量的トレーディングと強化学習の組み合わせにより、ベンチマークモデルであるBuy&Hold(B&H)を超えて、より多くのトレーディングアルゴリズムが大幅に向上した。 これらのアルゴリズムと実際の取引決定シナリオの間には、ある程度のギャップがある。 一方、取引数を無視しながら、取引信号のみを考慮する。 一方、これらのアルゴリズムが考慮する情報レベルは十分ではないため、これらのアルゴリズムの性能は制限される。 そこで本稿では,GARCH (MCTG) を用いた多周波連続共有トレーディングアルゴリズム (Multi- frequency Continuous-Share Trading Algorithm) を提案する。 前者は3つの並列ネットワーク層で構成され、それぞれ異なる周波数(5分、1日、1週間)のデータを扱う。 強化学習アルゴリズムの連続的な動作空間を持つ後者は、株式取引の問題を解決するために使用される。 中国株式市場の異なる業界での実験では、基本的なDRL法やベンチモデルと比較して余分な利益が得られている。

Making profits in stock market is a challenging task for both professional institutional investors and individual traders. With the development combination of quantitative trading and reinforcement learning, more trading algorithms have achieved significant gains beyond the benchmark model Buy&Hold (B&H). There is a certain gap between these algorithms and the real trading decision making scenarios. On the one hand, they only consider trading signals while ignoring the number of transactions. On the other hand, the information level considered by these algorithms is not rich enough, which limits the performance of these algorithms. Thus, we propose an algorithm called the Multi-frequency Continuous-share Trading algorithm with GARCH (MCTG) to solve the problems above, which consists of parallel network layers and deep reinforcement learning. The former is composed of three parallel network layers, respectively dealing with different frequencies (five minute, one day, one week) data, and day level considers the volatilities of stocks. The latter with a continuous action space of the reinforcement learning algorithm is used to solve the problem of trading stock shares. Experiments in different industries of Chinese stock market show our method achieves more extra profit comparing with basic DRL methods and bench model.
翻訳日:2021-05-11 14:34:22 公開日:2021-05-08
# ezcrop:ロバストな出力プルーニングのためのエネルギゾンドチャネル

EZCrop: Energy-Zoned Channels for Robust Output Pruning ( http://arxiv.org/abs/2105.03679v1 )

ライセンス: Link先を確認
Rui Lin, Jie Ran and Ngai Wong(参考訳) 近年の研究では、訓練された畳み込みニューラルネットワーク(cnn)において、入力画像にもかかわらず特徴マップチャネル行列のランクが驚くほど一定であり続けるという興味深い観察がなされている。 これにより、効果的なランクベースのチャネルプルーニングアルゴリズムが実現したが、定位現象は謎と説明がつかないままである。 この研究は、周波数領域の観点からそのようなランクの振る舞いを減弱し、解釈することを目的としており、これは、そのランクを明示的に計算することなくチャネルの重要度を測定するための極端に効率的なFFT(Fast Fourier Transform)ベースの計量を示唆している。 本研究では, この解析的かつ計算効率の高い指標に基づいて, 卓越したcnnチャネルの刈り取りを実現し, 反復的刈り取り法に適用し, ロバスト出力プルーニングのためのエネルギゾンドチャネル (ezcrop) という方式によるロバストネスを実証した。

Recent results have revealed an interesting observation in a trained convolutional neural network (CNN), namely, the rank of a feature map channel matrix remains surprisingly constant despite the input images. This has led to an effective rank-based channel pruning algorithm, yet the constant rank phenomenon remains mysterious and unexplained. This work aims at demystifying and interpreting such rank behavior from a frequency-domain perspective, which as a bonus suggests an extremely efficient Fast Fourier Transform (FFT)-based metric for measuring channel importance without explicitly computing its rank. We achieve remarkable CNN channel pruning based on this analytically sound and computationally efficient metric and adopt it for repetitive pruning to demonstrate robustness via our scheme named Energy-Zoned Channels for Robust Output Pruning (EZCrop), which shows consistently better results than other state-of-the-art channel pruning methods.
翻訳日:2021-05-11 14:34:03 公開日:2021-05-08
# オンライン凸最適化のための単純かつ普遍的な戦略

A Simple yet Universal Strategy for Online Convex Optimization ( http://arxiv.org/abs/2105.03681v1 )

ライセンス: Link先を確認
Lijun Zhang, Guanghui Wang, Jinfeng Yi, Tianbao Yang(参考訳) 近年,オンライン凸最適化のための普遍的手法がいくつか提案され,複数種類の凸関数のミニマックス率を同時に達成する手法が提案されている。 しかし、各種類の関数に対して1つのサロゲート損失を設計および最適化する必要があるため、問題の構造を活用し、既存の膨大なアルゴリズムを活用することは困難である。 本稿では,これらの制約を回避するために,ユニバーサルオンライン凸最適化のための簡単な戦略を提案する。 重要なアイデアは、元のオンライン機能を処理する専門家のセットを構築し、専門家からの予測を集約するために \emph{linearized} 損失の上にメタアルゴリズムを配置することだ。 具体的には、最適な専門家を追跡するためにAdapt-ML-Prodを選択します。 このようにして、ブラックボックスの専門家として市販のオンラインソルバをプラグインして、問題に依存した後悔の束縛を提供することができます。 さらに, この戦略は, 強凸関数および指数凸関数のために設計された任意の専門家の理論的保証を, 二重対数因子まで受け継いでいる。 一般凸函数に対しては、ミニマックスの最適性を維持し、小さな損失境界も達成する。

Recently, several universal methods have been proposed for online convex optimization, and attain minimax rates for multiple types of convex functions simultaneously. However, they need to design and optimize one surrogate loss for each type of functions, which makes it difficult to exploit the structure of the problem and utilize the vast amount of existing algorithms. In this paper, we propose a simple strategy for universal online convex optimization, which avoids these limitations. The key idea is to construct a set of experts to process the original online functions, and deploy a meta-algorithm over the \emph{linearized} losses to aggregate predictions from experts. Specifically, we choose Adapt-ML-Prod to track the best expert, because it has a second-order bound and can be used to leverage strong convexity and exponential concavity. In this way, we can plug in off-the-shelf online solvers as black-box experts to deliver problem-dependent regret bounds. Furthermore, our strategy inherits the theoretical guarantee of any expert designed for strongly convex functions and exponentially concave functions, up to a double logarithmic factor. For general convex functions, it maintains the minimax optimality and also achieves a small-loss bound.
翻訳日:2021-05-11 14:33:39 公開日:2021-05-08
# リストベースOMPと非一様配列を用いた方向探索モデルの検討

Study of List-Based OMP and an Enhanced Model for Direction Finding with Non-Uniform Arrays ( http://arxiv.org/abs/2105.03774v1 )

ライセンス: Link先を確認
W. S. Leite and R. C. de Lamare(参考訳) 本稿では,非一様線形アレイ (NLA) を用いた方向推定のための拡張コアレー変換モデル (EDCTM) と,LBML-OMP (List-Based Maximum Likelihood Orthogonal Matching Pursuit) と呼ばれる混合グリーディ最大度アルゴリズムを提案する。 提案手法は,Khatri-Rao 製品に基づくモデルを用いて非相関なソースを仮定して差分コアレイを生成する場合,改良された推定値を得る。 提案するlbml-omp手法では,各イテレーション毎に辞書と残差ベクトルの相関最大化に基づいて候補群を生成する。 lbml-ompは、より複雑で漸近的な最大確率決定規則に基づいて最適な候補を選択する。 LBML-OMPは既存のスパースリカバリアルゴリズムとNLAを用いた空間平滑な多重信号分類よりも優れていた。

This paper proposes an enhanced coarray transformation model (EDCTM) and a mixed greedy maximum likelihood algorithm called List-Based Maximum Likelihood Orthogonal Matching Pursuit (LBML-OMP) for direction-of-arrival estimation with non-uniform linear arrays (NLAs). The proposed EDCTM approach obtains improved estimates when Khatri-Rao product-based models are used to generate difference coarrays under the assumption of uncorrelated sources. In the proposed LBML-OMP technique, for each iteration a set of candidates is generated based on the correlation-maximization between the dictionary and the residue vector. LBML-OMP then chooses the best candidate based on a reduced-complexity asymptotic maximum likelihood decision rule. Simulations show the improved results of EDCTM over existing approaches and that LBML-OMP outperforms existing sparse recovery algorithms as well as Spatial Smoothing Multiple Signal Classification with NLAs.
翻訳日:2021-05-11 14:33:20 公開日:2021-05-08
# De-Pois: データ中毒攻撃に対する無防備な攻撃

De-Pois: An Attack-Agnostic Defense against Data Poisoning Attacks ( http://arxiv.org/abs/2105.03592v1 )

ライセンス: Link先を確認
Jian Chen, Xuxin Zhang, Rui Zhang, Chen Wang, Ling Liu(参考訳) 機械学習技術は様々な応用に広く応用されている。 高度な攻撃者は、少数の悪意のあるサンプルをトレーニングデータセットに注入することで、学習手順を妨害することができる。 既存の防犯技術は、主に攻撃に特化しており、特定の種類の攻撃に対して設計されているが、それらが従う異なる原則のために他の攻撃に対して機能しない。 一般防衛戦略は開発されていない。 本稿では,毒物攻撃に対する攻撃非依存的防御であるde-poisを提案する。 de-poisの基本的な考え方は、クリーンなサンプルでトレーニングされたターゲットモデルの振る舞いを模倣する目的で、模倣モデルをトレーニングすることだ。 我々はGAN(Generative Adversarial Networks)を活用し、情報学習データの拡張と模倣モデル構築を容易にする。 模倣モデルとターゲットモデルとの予測差を比較することで、De-Poisは、MLアルゴリズムや種類の中毒攻撃を明示的に知ることなく、汚染されたサンプルをクリーンなものと区別することができる。 我々は,4種類の毒殺攻撃を実装し,異なる現実的データセット上で5つの典型的な防御手法を用いてDe-Poisを評価する。 以上の結果から,De-Poisは4種類の毒素攻撃に対して有毒なデータを検出するのに有効であり,F1スコアは平均0.9以上であることがわかった。

Machine learning techniques have been widely applied to various applications. However, they are potentially vulnerable to data poisoning attacks, where sophisticated attackers can disrupt the learning procedure by injecting a fraction of malicious samples into the training dataset. Existing defense techniques against poisoning attacks are largely attack-specific: they are designed for one specific type of attacks but do not work for other types, mainly due to the distinct principles they follow. Yet few general defense strategies have been developed. In this paper, we propose De-Pois, an attack-agnostic defense against poisoning attacks. The key idea of De-Pois is to train a mimic model the purpose of which is to imitate the behavior of the target model trained by clean samples. We take advantage of Generative Adversarial Networks (GANs) to facilitate informative training data augmentation as well as the mimic model construction. By comparing the prediction differences between the mimic model and the target model, De-Pois is thus able to distinguish the poisoned samples from clean ones, without explicit knowledge of any ML algorithms or types of poisoning attacks. We implement four types of poisoning attacks and evaluate De-Pois with five typical defense methods on different realistic datasets. The results demonstrate that De-Pois is effective and efficient for detecting poisoned data against all the four types of poisoning attacks, with both the accuracy and F1-score over 0.9 on average.
翻訳日:2021-05-11 14:28:05 公開日:2021-05-08
# バイパスネットワークを用いたナノホールセンシング信号の深層学習

Deep learning of nanopore sensing signals using a bi-path network ( http://arxiv.org/abs/2105.03660v1 )

ライセンス: Link先を確認
Dario Dematties, Chenyu Wen, Mauricio David P\'erez, Dian Zhou, Shi-Li Zhang(参考訳) ターゲットアナライト転位によるナノ孔センサの電気抵抗の一時的な変化を電流跡のパルス列として記録する。 パルス様信号の特徴抽出アルゴリズムは、経験的振幅閾値がノイズ背景からパルスを抽出するためにユーザ定義されているため、客観性に欠ける。 本稿では,双方向ネットワーク(B-Net)に基づく特徴抽出にディープラーニングを用いる。 トレーニング後、B-Netはプリミティブパラメータを指定せずに、原型パルスとパルス認識と特徴抽出の両方の能力を取得する。 B-Netの性能は生成されたデータセット上で評価され、さらにDNAとタンパク質のトランスロケーションの実験データに適用される。 B-Netの結果は比較的小さな相対誤差と安定した傾向を示した。 さらに、B-Netは1と等しい信号対雑音比でデータを処理でき、しきい値ベースのアルゴリズムでは不可能である。 開発されたb-netはパルスナノホール電流以外のパルス状信号に汎用的である。

Temporary changes in electrical resistance of a nanopore sensor caused by translocating target analytes are recorded as a sequence of pulses on current traces. Prevalent algorithms for feature extraction in pulse-like signals lack objectivity because empirical amplitude thresholds are user-defined to single out the pulses from the noisy background. Here, we use deep learning for feature extraction based on a bi-path network (B-Net). After training, the B-Net acquires the prototypical pulses and the ability of both pulse recognition and feature extraction without a priori assigned parameters. The B-Net performance is evaluated on generated datasets and further applied to experimental data of DNA and protein translocation. The B-Net results show remarkably small relative errors and stable trends. The B-Net is further shown capable of processing data with a signal-to-noise ratio equal to one, an impossibility for threshold-based algorithms. The developed B-Net is generic for pulse-like signals beyond pulsed nanopore currents.
翻訳日:2021-05-11 14:27:42 公開日:2021-05-08
# Tensor Programs IIb: Neural Tangent Kernel Training Dynamicsのアーキテクチャ的普遍性

Tensor Programs IIb: Architectural Universality of Neural Tangent Kernel Training Dynamics ( http://arxiv.org/abs/2105.03703v1 )

ライセンス: Link先を確認
Greg Yang, Etai Littwin(参考訳) Yang (2020a) は、最近、初期化時の Neural Tangent Kernel (NTK) が、ResNet や Transformers などの最新のステープルを含む大規模なアーキテクチャの無限幅制限を持つことを示した。 しかし、その分析は訓練には適用されない。 ここでは、トレーニング中の同じニューラルネットワーク(いわゆるNTKパラメトリゼーション)が、カーネルが無限幅NTKである関数空間におけるカーネル勾配降下ダイナミクスに従うことを示す。 これは NTK の振る舞いの *architectural universality* の証明を完成させる。 テンソルプログラムの内部でSGDのダイナミクス全体を記述し、マスター定理を用いて解析する。 この証明を容易にするために,テンソルプログラムのグラフィカル表記法を開発した。

Yang (2020a) recently showed that the Neural Tangent Kernel (NTK) at initialization has an infinite-width limit for a large class of architectures including modern staples such as ResNet and Transformers. However, their analysis does not apply to training. Here, we show the same neural networks (in the so-called NTK parametrization) during training follow a kernel gradient descent dynamics in function space, where the kernel is the infinite-width NTK. This completes the proof of the *architectural universality* of NTK behavior. To achieve this result, we apply the Tensor Programs technique: Write the entire SGD dynamics inside a Tensor Program and analyze it via the Master Theorem. To facilitate this proof, we develop a graphical notation for Tensor Programs.
翻訳日:2021-05-11 14:27:29 公開日:2021-05-08
# 動的ゲーム理論ニューラルオプティマイザ

Dynamic Game Theoretic Neural Optimizer ( http://arxiv.org/abs/2105.03788v1 )

ライセンス: Link先を確認
Guan-Horng Liu, Tianrong Chen, and Evangelos A. Theodorou(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングと最適制御理論(OCT)の関連性は,アルゴリズム設計の原則的ツールとして注目されている。 わずかな試みにもかかわらず、それらは階層伝播がマルコフ力学系に似ているようなアーキテクチャに限定されている。 これは、階層間の非マルコフ的依存関係(例えば)に大きく依存する現代的なネットワークへの柔軟性に疑問を投げかけている。 残余ネットワークの接続をスキップする)。 本研究では,DNN自体を特徴とする動的ゲームにおいて,各レイヤをプレイヤーとして見ることによって,新しい動的ゲーム視点を提案する。 このレンズを通して、異なるクラスのオプティマイザは、各(p)層の暗黙の情報構造によって異なる種類のnash平衡と一致すると見なすことができる。 Dynamic Game Theoretic Neural Optimizer (DGNOpt) と呼ばれるこの手法は、OCTにインスパイアされたオプティマイザをよりリッチなネットワーククラスに一般化するだけでなく、マルチプレイヤー協調ゲーム(英語版)を解くことで新たなトレーニング原理を動機付けている。 DGNOptは、残差ネットワークを用いた画像分類データセットにおいて、既存の手法よりも収束性の向上を示す。 我々の研究は、OCTとゲーム理論の両方の長所をマージし、ロバストな最適制御とバンディットに基づく最適化から新しいアルゴリズムの機会を創り出す。

The connection between training deep neural networks (DNNs) and optimal control theory (OCT) has attracted considerable attention as a principled tool of algorithmic design. Despite few attempts being made, they have been limited to architectures where the layer propagation resembles a Markovian dynamical system. This casts doubts on their flexibility to modern networks that heavily rely on non-Markovian dependencies between layers (e.g. skip connections in residual networks). In this work, we propose a novel dynamic game perspective by viewing each layer as a player in a dynamic game characterized by the DNN itself. Through this lens, different classes of optimizers can be seen as matching different types of Nash equilibria, depending on the implicit information structure of each (p)layer. The resulting method, called Dynamic Game Theoretic Neural Optimizer (DGNOpt), not only generalizes OCT-inspired optimizers to richer network class; it also motivates a new training principle by solving a multi-player cooperative game. DGNOpt shows convergence improvements over existing methods on image classification datasets with residual networks. Our work marries strengths from both OCT and game theory, paving ways to new algorithmic opportunities from robust optimal control and bandit-based optimization.
翻訳日:2021-05-11 14:27:16 公開日:2021-05-08
# (参考訳) 法文における自然言語処理の倫理的限界について

On the Ethical Limits of Natural Language Processing on Legal Text ( http://arxiv.org/abs/2105.02751v2 )

ライセンス: CC BY 4.0
Dimitrios Tsarapatsanis, Nikolaos Aletras(参考訳) 法的テキストを分析する自然言語処理(NLP)手法は、法学者や実践者が大規模に法律を実証的に分析できる様々なツールを提供する。 しかし、研究者は、法律とシステムの予測能力の両方に関する真の洞察を得るために自然言語処理(NLP)システムを使用する倫理的限界を特定することに苦慮しているようだ。 本稿では,このような問題を体系的に考える方法をいくつか紹介する。 A) 学術的自由の重要性、(b) 国内だけでなく、さらに国際的にも幅広い法的・倫理的規範の存在、および(c) 計算法に関連する研究における道徳主義の脅威。 これら3つのパラメータそれぞれについて、法的なnlpコミュニティのための具体的な推奨事項を提供します。 我々の議論は、NLP研究コミュニティにおける最近の議論のきっかけとなった現実シナリオの研究を中心に構成されている。

Natural language processing (NLP) methods for analyzing legal text offer legal scholars and practitioners a range of tools allowing to empirically analyze law on a large scale. However, researchers seem to struggle when it comes to identifying ethical limits to using natural language processing (NLP) systems for acquiring genuine insights both about the law and the systems' predictive capacity. In this paper we set out a number of ways in which to think systematically about such issues. We place emphasis on three crucial normative parameters which have, to the best of our knowledge, been underestimated by current debates: (a) the importance of academic freedom, (b) the existence of a wide diversity of legal and ethical norms domestically but even more so internationally and (c) the threat of moralism in research related to computational law. For each of these three parameters we provide specific recommendations for the legal NLP community. Our discussion is structured around the study of a real-life scenario that has prompted recent debate in the legal NLP research community.
翻訳日:2021-05-11 11:57:24 公開日:2021-05-08
# 顔再建のための逆生成型逆レンダラ

Inverting Generative Adversarial Renderer for Face Reconstruction ( http://arxiv.org/abs/2105.02431v2 )

ライセンス: Link先を確認
Jingtan Piao, Keqiang Sun, KwanYee Lin, Quan Wang, Hongsheng Li(参考訳) 入力として単眼の顔画像が与えられた3次元顔形状再構成は、対応する3次元顔メッシュを復元することを目的としている。 近年,最適化と学習に基づく顔再構成手法は,新たな微分可能レンダラーを活用し,有望な結果を示した。 しかし、主にグラフィックルールに基づく微分可能なレンダラーは、現実世界の照明、反射、および‘etc’の現実的なメカニズムを単純化し、現実的なイメージを生成できない。 これは最適化やトレーニングプロセスに多くのドメインシフトノイズをもたらします。 そこで本研究では,新しい生成型逆向きレンダラ(gar)を導入し,その逆バージョンを汎用フィッティングパイプラインに調整し,この問題に取り組むことを提案する。 具体的には、慎重に設計されたニューラルレンダラーは、顔の正規マップと他の要素を表す潜時符号を入力として取り、リアルな顔画像を表示する。 GARは複雑な実世界のイメージをモデル化することを学ぶが、グラフィックルールを単純化するのではなく、現実的なイメージを生成できるため、トレーニングや最適化においてドメインシフトノイズを本質的に抑制することができる。 より精巧なGARを用いて3次元顔パラメータを予測し,まずRenderer Invertingを用いて精密な初期パラメータを抽出し,勾配に基づくオプティマイザで改良する手法を提案する。 提案する生成逆数レンダラーと,新しい顔再構成フレームワークの有効性を実証するために,広範囲な実験を行った。 本手法は,複数の顔再構成データセットの最先端性能を実現する。

Given a monocular face image as input, 3D face geometry reconstruction aims to recover a corresponding 3D face mesh. Recently, both optimization-based and learning-based face reconstruction methods have taken advantage of the emerging differentiable renderer and shown promising results. However, the differentiable renderer, mainly based on graphics rules, simplifies the realistic mechanism of the illumination, reflection, \etc, of the real world, thus cannot produce realistic images. This brings a lot of domain-shift noise to the optimization or training process. In this work, we introduce a novel Generative Adversarial Renderer (GAR) and propose to tailor its inverted version to the general fitting pipeline, to tackle the above problem. Specifically, the carefully designed neural renderer takes a face normal map and a latent code representing other factors as inputs and renders a realistic face image. Since the GAR learns to model the complicated real-world image, instead of relying on the simplified graphics rules, it is capable of producing realistic images, which essentially inhibits the domain-shift noise in training and optimization. Equipped with the elaborated GAR, we further proposed a novel approach to predict 3D face parameters, in which we first obtain fine initial parameters via Renderer Inverting and then refine it with gradient-based optimizers. Extensive experiments have been conducted to demonstrate the effectiveness of the proposed generative adversarial renderer and the novel optimization-based face reconstruction framework. Our method achieves state-of-the-art performances on multiple face reconstruction datasets.
翻訳日:2021-05-11 11:27:23 公開日:2021-05-08
# 変形可能なグラフリファインメントを用いたカスケード画像マッチング

Cascade Image Matting with Deformable Graph Refinement ( http://arxiv.org/abs/2105.02646v2 )

ライセンス: Link先を確認
Zijian Yu, Xuhui Li, Huijuan Huang, Wen Zheng and Li Chen(参考訳) 画像マッチングとは、前景オブジェクトの不透明度を推定することを指す。 整合結果には正確な輪郭と前景の細部が必要である。 人間の画像のマット化タスクをよりよく達成するために,変形可能なグラフ修正によるカスケード画像マットリングネットワークを提案し,入力を必要とせず,人間の画像から正確なアルファマットを自動で予測する。 ネットワークカスケードアーキテクチャを用いて、粗大な最適化に対応する低解像度から高解像度までのマッチングを行う。 また、畳み込みニューラルネットワーク(CNN)の限界を克服するために、グラフニューラルネットワーク(GNN)に基づく変形可能なグラフリファインメント(DGR)モジュールも導入する。 DGRモジュールは、長距離関係を効果的に捉え、より大域的かつ局所的な情報を得て、より微細なアルファマットを生成する。 また,近傍を動的に予測し,高分解能特徴にdgrモジュールを適用することで,dgrモジュールの計算複雑性を低減する。 実験結果は,casdgrが合成データセットで最先端のパフォーマンスを達成し,実画像で良好な結果が得られることを示す。

Image matting refers to the estimation of the opacity of foreground objects. It requires correct contours and fine details of foreground objects for the matting results. To better accomplish human image matting tasks, we propose the Cascade Image Matting Network with Deformable Graph Refinement, which can automatically predict precise alpha mattes from single human images without any additional inputs. We adopt a network cascade architecture to perform matting from low-to-high resolution, which corresponds to coarse-to-fine optimization. We also introduce the Deformable Graph Refinement (DGR) module based on graph neural networks (GNNs) to overcome the limitations of convolutional neural networks (CNNs). The DGR module can effectively capture long-range relations and obtain more global and local information to help produce finer alpha mattes. We also reduce the computation complexity of the DGR module by dynamically predicting the neighbors and apply DGR module to higher--resolution features. Experimental results demonstrate the ability of our CasDGR to achieve state-of-the-art performance on synthetic datasets and produce good results on real human images.
翻訳日:2021-05-11 11:26:57 公開日:2021-05-08