このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210508となっている論文です。

PDF登録状況(公開日: 20210508)

TitleAuthorsAbstract論文公表日・翻訳日
# Gated Recurrent Units を用いたポーリングダイナミクスの推定

Pouring Dynamics Estimation Using Gated Recurrent Units ( http://arxiv.org/abs/2105.12828v1 )

ライセンス: Link先を確認
Qi Zheng(参考訳) 人間の日常生活における最も一般的な操作の1つは、注ぐことである。 多くの要因がターゲットの精度に影響を与えており、注水速度、回転角、源の幾何学、受信容器などがある。 本稿では, 深部繰り返しニューラルネットワーク, 特にゲートリカレントユニット (GRU) の複数層を用いた注水動作に対する注水カップの水量の変化を推定することにより, ロボットマニピュレータの繰り返し性と精度を向上させるアプローチを提案する。 提案したGRUモデルは,重み f(t) の予測値に対して,1e-4 (lbf) 以下の2乗誤差を検証平均とした。 本稿では、繰り返しニューラルネットワークとハイパーパラメータ微調整の様々な設計による多数の実験の包括的評価と解析を含む。

One of the most commonly performed manipulation in a human's daily life is pouring. Many factors have an effect on target accuracy, including pouring velocity, rotation angle, geometric of the source, and the receiving containers. This paper presents an approach to increase the repeatability and accuracy of the robotic manipulator by estimating the change in the amount of water of the pouring cup to a sequence of pouring actions using multiple layers of the deep recurrent neural network, especially gated recurrent units (GRU). The proposed GRU model achieved a validation mean squared error as low as 1e-4 (lbf) for the predicted value of weight f(t). This paper contains a comprehensive evaluation and analysis of numerous experiments with various designs of recurrent neural networks and hyperparameters fine-tuning.
翻訳日:2021-06-06 11:08:13 公開日:2021-05-08
# (参考訳) 確率グラフモデルによる配電系統のマルチソースデータ融合停止位置 [全文訳有]

Multi-Source Data Fusion Outage Location in Distribution Systems via Probabilistic Graph Models ( http://arxiv.org/abs/2012.02877v2 )

ライセンス: CC BY 4.0
Yuxuan Yuan, Kaveh Dehghanpour, Zhaoyu Wang, Fankun Bu(参考訳) 効率の良い停電位置は配電システムのレジリエンスを高めるために重要である。 しかし、正確な停止位置は、スマートメーター(SM)ラストギャップ信号、顧客のトラブルコール、ソーシャルメディアメッセージ、天気データ、植生情報、ネットワークの物理的パラメータなど、さまざまなデータソースから受け取った膨大な証拠を組み合わせる必要がある。 これは分散グリッドにおけるデータの高次元性に起因する計算学的に複雑なタスクである。 本稿では,ベイズネットワーク(bns)を用いた部分観測可能な分散システムにおいて,停止イベントを探索するためのマルチソースデータ融合手法を提案する。 提案手法の新たな側面は,多元的証拠と分布系の複雑な構造を確率的グラフィカル手法を用いて考慮することである。 提案手法は,高次元空間における停止位置推定の計算量を大幅に削減することができる。 提案したBNのグラフィカルな構造は,ネットワークのトポロジと,分岐・触媒の状態や証拠などのランダム変数間の因果関係に基づいて確立されている。 このグラフィカルモデルを用いることで、ギブスサンプリング(GS)法を利用して正確な停止位置を求め、すべてのブランチに対してデエネルギ化の確率を推定する。 BNの大きさが指数関数的に複雑である一般的な正確な推論法と比較して、GSは目標条件確率分布をタイムリーに定量化する。 提案手法の有効性を検証するために,複数の実世界の流通システムの事例研究を行った。

Efficient outage location is critical to enhancing the resilience of power distribution systems. However, accurate outage location requires combining massive evidence received from diverse data sources, including smart meter (SM) last gasp signals, customer trouble calls, social media messages, weather data, vegetation information, and physical parameters of the network. This is a computationally complex task due to the high dimensionality of data in distribution grids. In this paper, we propose a multi-source data fusion approach to locate outage events in partially observable distribution systems using Bayesian networks (BNs). A novel aspect of the proposed approach is that it takes multi-source evidence and the complex structure of distribution systems into account using a probabilistic graphical method. Our method can radically reduce the computational complexity of outage location inference in high-dimensional spaces. The graphical structure of the proposed BN is established based on the network's topology and the causal relationship between random variables, such as the states of branches/customers and evidence. Utilizing this graphical model, accurate outage locations are obtained by leveraging a Gibbs sampling (GS) method, to infer the probabilities of de-energization for all branches. Compared with commonly-used exact inference methods that have exponential complexity in the size of the BN, GS quantifies the target conditional probability distributions in a timely manner. A case study of several real-world distribution systems is presented to validate the proposed method.
翻訳日:2021-05-22 22:59:57 公開日:2021-05-08
# (参考訳) エンドツーエンド音声認識モデルのロバスト性 -Mozilla DeepSpeech を用いた事例- [全文訳有]

Robustness of end-to-end Automatic Speech Recognition Models -- A Case Study using Mozilla DeepSpeech ( http://arxiv.org/abs/2105.09742v1 )

ライセンス: CC BY 4.0
Aashish Agarwal and Torsten Zesch(参考訳) 音声認識モデルの性能を評価する際には、通常、特定のデータセット内の単語誤り率を用いる。 現実的なパフォーマンス数値を報告するためには、データセットの理解に特に注意する必要がある。 多くの性能数値が予想されるエラー率を過小評価していると我々は主張する。 我々は、選択バイアス、性別、およびコンテンツ、音声、記録条件の重複(トレーニングとテストデータ間の重複)を制御する実験を行う。 コンテンツの重複は最大の影響を与えるが、ジェンダーのような他の要因も重要な役割を果たしている。

When evaluating the performance of automatic speech recognition models, usually word error rate within a certain dataset is used. Special care must be taken in understanding the dataset in order to report realistic performance numbers. We argue that many performance numbers reported probably underestimate the expected error rate. We conduct experiments controlling for selection bias, gender as well as overlap (between training and test data) in content, voices, and recording conditions. We find that content overlap has the biggest impact, but other factors like gender also play a role.
翻訳日:2021-05-22 02:29:21 公開日:2021-05-08
# (参考訳) 近似同期アドバンテージ推定によるマルチエージェントポリシー最適化 [全文訳有]

Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation ( http://arxiv.org/abs/2012.03488v3 )

ライセンス: CC BY 4.0
Lipeng Wan, Xuwei Song, Xuguang Lan, Nanning Zheng(参考訳) 協力型マルチエージェントタスクでは、クレジット割り当ての課題として知られる、グローバルな報酬を共有することで、エージェントが自身の貢献を推測する必要がある。 課題を解決するためのポリシベースマルチエージェント強化学習の一般的な方法は,個々のエージェントに対する価値関数やアドバンテージ関数の違いを導入する。 マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。 警察を同期的に更新するためには、そのような値関数や有利関数も同期評価を必要とする。 しかし、現在の手法では、値関数や有利関数は、非同期に評価される対実関節アクションを使用し、したがって自然な推定バイアスに悩まされる。 本研究では,近似的同期的優位推定法を提案する。 まず、一エージェントの利点関数からマルチエージェントシステムへの拡張である限界優位関数を導出する。 さらに,同期アドバンテージ推定のためのポリシ近似を導入し,マルチエージェント・ポリシー最適化問題を単一エージェント・ポリシー最適化の複数のサブ問題に分割する。 提案手法は,StarCraftマルチエージェント課題のベースラインアルゴリズムと比較し,ほとんどのタスクにおいて最高の性能を示す。

Cooperative multi-agent tasks require agents to deduce their own contributions with shared global rewards, known as the challenge of credit assignment. General methods for policy based multi-agent reinforcement learning to solve the challenge introduce differentiate value functions or advantage functions for individual agents. In multi-agent system, polices of different agents need to be evaluated jointly. In order to update polices synchronously, such value functions or advantage functions also need synchronous evaluation. However, in current methods, value functions or advantage functions use counter-factual joint actions which are evaluated asynchronously, thus suffer from natural estimation bias. In this work, we propose the approximatively synchronous advantage estimation. We first derive the marginal advantage function, an expansion from single-agent advantage function to multi-agent system. Further more, we introduce a policy approximation for synchronous advantage estimation, and break down the multi-agent policy optimization problem into multiple sub-problems of single-agent policy optimization. Our method is compared with baseline algorithms on StarCraft multi-agent challenges, and shows the best performance on most of the tasks.
翻訳日:2021-05-21 05:16:27 公開日:2021-05-08
# (参考訳) IoTにおける無線デバイス識別のためのクラスインクリメンタル学習 [全文訳有]

Class-Incremental Learning for Wireless Device Identification in IoT ( http://arxiv.org/abs/2105.06381v1 )

ライセンス: CC BY 4.0
Yongxin Liu, Jian Wang, Jianqiang Li, Shuteng Niu, Houbing Song(参考訳) ディープラーニング(DL)はIoT(Internet of Things)で広く利用されている。 IoTにおけるDLの典型的な応用の1つは、無線信号、すなわち非暗号化デバイス識別(NDI)からのデバイス識別である。 しかし、NDIシステムの学習コンポーネントは、運用のバリエーションに適応するために進化し、このようなパラダイムをインクリメンタルラーニング(IL)と呼ぶ。 さまざまなILアルゴリズムが提案されており、その多くは履歴データの蓄積に専用のスペースを必要とするため、IoTやモバイルアプリケーションには適さない。 しかし、従来のIL方式では、履歴データが入手できない場合、満足な性能が得られない。 本稿では,NDIにおけるIL問題に対する新しい視点から,DNNモデルのトポロジカル成熟度をクラス固有指紋の衝突度から測定する新しい指標を提案する。 ILにより実現されたNDIの性能劣化の重要な原因は,デバイスの指紋の衝突によるものである。 第2に,従来の IL スキームは,NDI システムにおける DNN モデルの位相的成熟度が低いことを示す。 第3に,過去のデータを用いずに,新たなチャネル分離可能なインクリメンタルラーニング(csil)方式を提案する。 最後に,航空におけるIoTの応用であるADS-B(Automatic Dependent Surveillance-Broadca st)の実データを用いて,提案フレームワークの有効性を評価した。 提案されたフレームワークは、さまざまなIoTアプリケーションやサービスにおけるIoTデバイスの正確な識別に適用される可能性がある。 IEEE Dataport (DOI: 10.21227/1bxc-ke87) および \url{https://github.com/p cwhy/CSIL}} で利用可能なデータとコード

Deep Learning (DL) has been utilized pervasively in the Internet of Things (IoT). One typical application of DL in IoT is device identification from wireless signals, namely Non-cryptographic Device Identification (NDI). However, learning components in NDI systems have to evolve to adapt to operational variations, such a paradigm is termed as Incremental Learning (IL). Various IL algorithms have been proposed and many of them require dedicated space to store the increasing amount of historical data, and therefore, they are not suitable for IoT or mobile applications. However, conventional IL schemes can not provide satisfying performance when historical data are not available. In this paper, we address the IL problem in NDI from a new perspective, firstly, we provide a new metric to measure the degree of topological maturity of DNN models from the degree of conflict of class-specific fingerprints. We discover that an important cause for performance degradation in IL enabled NDI is owing to the conflict of devices' fingerprints. Second, we also show that the conventional IL schemes can lead to low topological maturity of DNN models in NDI systems. Thirdly, we propose a new Channel Separation Enabled Incremental Learning (CSIL) scheme without using historical data, in which our strategy can automatically separate devices' fingerprints in different learning stages and avoid potential conflict. Finally, We evaluated the effectiveness of the proposed framework using real data from ADS-B (Automatic Dependent Surveillance-Broadca st), an application of IoT in aviation. The proposed framework has the potential to be applied to accurate identification of IoT devices in a variety of IoT applications and services. Data and code available at IEEE Dataport (DOI: 10.21227/1bxc-ke87) and \url{https://github.com/p cwhy/CSIL}}
翻訳日:2021-05-15 11:49:30 公開日:2021-05-08
# (参考訳) 話者インフォームドモデル選択によるゼロショット個人化音声強調 [全文訳有]

Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model Selection ( http://arxiv.org/abs/2105.03542v1 )

ライセンス: CC BY 4.0
Aswin Sivaraman, Minje Kim(参考訳) 本稿では,スパースアクティブアンサンブルモデルを用いて,パーソナライズされた音声強調に対するゼロショット学習手法を提案する。 特定のテスト時間話者に向かって音声を発音するシステムを最適化することは、パフォーマンスを改善し、実行時の複雑さを低減できる。 しかし、テストタイム話者からデータを収集できない場合、テストタイムモデル適応は困難である。 そこで,本研究では,各専門家モジュールが学習集合話者の異なる分割から雑音発話を発音するアンサンブルモデルを提案する。 ゲーティングモジュールは、埋め込みベクトルの形でテスト時間スピーカ特性を安価に推定し、テスト信号をデノージする最も適切な専門モジュールを選択する。 トレーニングセットの話者を重複しない意味的に類似したグループにグループ化することは、自明で未定義である。 そこで我々はまず、雑音の多い音声対を用いてシームズネットワークを訓練し、同じ話者から発する発話の有無に応じて出力ベクトルの類似性を最大化または最小化する。 次に、トレーニングセット話者あたりの平均埋め込みベクトルによって形成された潜在空間上でk平均クラスタリングを行う。 このように話者グループを定義し,完全なトレーニングセットの分割を中心に最適化した専門モジュールを訓練する。 実験の結果,低容量スペシャリストによるアンサンブルモデルでは,高容量ジェネリストモデルよりも効率が良く,テストタイムの未確認話者への適応性が向上することがわかった。

This paper presents a novel zero-shot learning approach towards personalized speech enhancement through the use of a sparsely active ensemble model. Optimizing speech denoising systems towards a particular test-time speaker can improve performance and reduce run-time complexity. However, test-time model adaptation may be challenging if collecting data from the test-time speaker is not possible. To this end, we propose using an ensemble model wherein each specialist module denoises noisy utterances from a distinct partition of training set speakers. The gating module inexpensively estimates test-time speaker characteristics in the form of an embedding vector and selects the most appropriate specialist module for denoising the test signal. Grouping the training set speakers into non-overlapping semantically similar groups is non-trivial and ill-defined. To do this, we first train a Siamese network using noisy speech pairs to maximize or minimize the similarity of its output vectors depending on whether the utterances derive from the same speaker or not. Next, we perform k-means clustering on the latent space formed by the averaged embedding vectors per training set speaker. In this way, we designate speaker groups and train specialist modules optimized around partitions of the complete training set. Our experiments show that ensemble models made up of low-capacity specialists can outperform high-capacity generalist models with greater efficiency and improved adaptation towards unseen test-time speakers.
翻訳日:2021-05-14 03:59:20 公開日:2021-05-08
# (参考訳) 個人化音声強調に向けたテスト時間適応:知識蒸留によるゼロショット学習 [全文訳有]

Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot Learning with Knowledge Distillation ( http://arxiv.org/abs/2105.03544v1 )

ライセンス: CC BY 4.0
Sunwoo Kim and Minje Kim(参考訳) エンドユーザーデバイスにおける現実的な音声強調設定では、特定の音響環境において再起しがちな話者やノイズタイプに遭遇することが多い。 本稿では,テスト時間特異性に適応するコンパクトな認知モデルを実現するための,パーソナライズされた音声強調手法を提案する。 このテスト時間適応の目標は、テスト話者のクリーンな音声目標を活用せず、ゼロショット学習の要件を満たすことである。 クリーン発話の欠如を補うため,我々は知識蒸留の枠組みを採用している。 欠落しているクリーンな発話目標の代わりに、非常に大きな教師モデルからより高度な発音結果を抽出し、それを疑似目標として、小学生モデルを訓練します。 このゼロショット学習手順は、プライバシの懸念やクリーン音声の録音が技術的に困難であることから、ユーザのクリーンスピーチの収集プロセスを回避するものだ。 種々の試験時間条件における実験により,提案手法は,大規模話者・雑音に依存しないデータセットからトレーニングした大規模ベースラインネットワークと比較して,大幅な性能向上を実現することが示された。 また,コンパクトなパーソナライズモデルが汎用モデルよりも優れた性能を持つため,提案手法は分散性能を損なうことなくモデル圧縮を行うことができると主張している。

In realistic speech enhancement settings for end-user devices, we often encounter only a few speakers and noise types that tend to reoccur in the specific acoustic environment. We propose a novel personalized speech enhancement method to adapt a compact denoising model to the test-time specificity. Our goal in this test-time adaptation is to utilize no clean speech target of the test speaker, thus fulfilling the requirement for zero-shot learning. To complement the lack of clean utterance, we employ the knowledge distillation framework. Instead of the missing clean utterance target, we distill the more advanced denoising results from an overly large teacher model, and use it as the pseudo target to train the small student model. This zero-shot learning procedure circumvents the process of collecting users' clean speech, a process that users are reluctant to comply due to privacy concerns and technical difficulty of recording clean voice. Experiments on various test-time conditions show that the proposed personalization method achieves significant performance gains compared to larger baseline networks trained from a large speaker- and noise-agnostic datasets. In addition, since the compact personalized models can outperform larger general-purpose models, we claim that the proposed method performs model compression with no loss of denoising performance.
翻訳日:2021-05-14 03:47:40 公開日:2021-05-08
# (参考訳) stigmergy と ant コロニーに触発されたスケーラブルな分散マルチエージェント強化学習法

Scalable, Decentralized Multi-Agent Reinforcement Learning Methods Inspired by Stigmergy and Ant Colonies ( http://arxiv.org/abs/2105.03546v1 )

ライセンス: CC BY 4.0
Austin Anhkhoi Nguyen(参考訳) 複雑なコーディネーションと制御タスクに取り組むためにマルチエージェント学習アルゴリズムを強化することは、現在進行中の研究にとって長年の課題である。 非定常性と非スケーリング性の影響を低減するために多くの方法が提案されている。 本研究では,これら2つの課題に対処する分散型マルチエージェント学習と計画手法について検討する。 特に、この方法はアリコロニーの凝集、協調、行動に触発されている。 その結果、これらのアルゴリズムは多数のエージェントを持つシステムに自然に拡張できるように設計されている。 最適性は保証されていないが、この方法は実際にうまく機能し、他のエージェントよりも有効にスケールすることを目的としている。 このアプローチは、単一エージェントrlとant-colonyにインスパイアされた分散型スティグマ作動性アルゴリズムを組み合わせて、マルチエージェント経路計画と環境修正を行う。 具体的には、このアルゴリズムをエージェントがゴール位置までナビゲートし、矩形箱を穴に押し込んで新たなトラバーサブルパスを生成するように学習する設定に適用する。 このアプローチは、この特定の環境で有望な成功をもたらすが、他人にそれほど簡単に一般化できないことが示されている。 設計されたアルゴリズムは、多くのエージェントに対して特にスケーラブルであるが、比較的単純で規則に基づくアプローチのため、その性能に制限がある。 さらに、RLトレーニングされたポリシーの構成可能性についても疑問視され、トレーニング環境ではポリシーが成功する一方で、大規模でマルチエージェントなフレームワークにトレーニングされたポリシーを適用すると予測不可能な振る舞いが生じる。

Bolstering multi-agent learning algorithms to tackle complex coordination and control tasks has been a long-standing challenge of on-going research. Numerous methods have been proposed to help reduce the effects of non-stationarity and unscalability. In this work, we investigate a novel approach to decentralized multi-agent learning and planning that attempts to address these two challenges. In particular, this method is inspired by the cohesion, coordination, and behavior of ant colonies. As a result, these algorithms are designed to be naturally scalable to systems with numerous agents. While no optimality is guaranteed, the method is intended to work well in practice and scale better in efficacy with the number of agents present than others. The approach combines single-agent RL and an ant-colony-inspired decentralized, stigmergic algorithm for multi-agent path planning and environment modification. Specifically, we apply this algorithm in a setting where agents must navigate to a goal location, learning to push rectangular boxes into holes to yield new traversable pathways. It is shown that while the approach yields promising success in this particular environment, it may not be as easily generalized to others. The algorithm designed is notably scalable to numerous agents but is limited in its performance due to its relatively simplistic, rule-based approach. Furthermore, the composability of RL-trained policies is called into question, where, while policies are successful in their training environments, applying trained policies to a larger-scale, multi-agent framework results in unpredictable behavior.
翻訳日:2021-05-14 03:35:31 公開日:2021-05-08
# (参考訳) クリック詐欺検出のためのマルチモーダル・コントラスト学習 [全文訳有]

Multimodal and Contrastive Learning for Click Fraud Detection ( http://arxiv.org/abs/2105.03567v1 )

ライセンス: CC BY 4.0
Weibin Li, Qiwei Zhong, Qingyang Zhao, Hongchun Zhang, Xiaonan Meng(参考訳) 広告クリックの不正検出は、現在のeコマースウェブサイトにおいて、ビジネスモデルの重要な要素として重要な役割を担っている。 これは、ユーザの人口統計情報やクリックの統計的特徴など、一連の対応する特徴を考慮し、クリックが不正であるか否かをコミュニティ内で予測することを目的としている。 近年,ユーザの複雑な特徴を抽出するための属性付き行動シーケンスとヘテロジニアスネットワークの導入が試みられ,クリック詐欺検出に大きな影響を与えた。 本稿では,Click Fraud Detection (MCCF) のためのマルチモーダル・コントラスト学習ネットワークを提案する。 具体的には,電子商取引プラットフォーム上では,人口統計情報,行動シーケンス,詐欺師と真のユーザ間のメディア関係の相違から動機づけられたMCCFは,幅広い特徴,行動シーケンス,異種ネットワークを共同で利用し,クリック表現を蒸留する。 さらに,これら3つのモジュールは,コントラスト学習によって統合され,最終予測に協調的に寄与する。 Alibabaプラットフォーム上での254万クリックを含む実世界のデータセットを用いて、MCCFの有効性を調査した。 実験の結果,提案手法は最先端手法と比較してAUCを7.2%,F1スコアを15.6%改善できることがわかった。

Advertising click fraud detection plays one of the vital roles in current E-commerce websites as advertising is an essential component of its business model. It aims at, given a set of corresponding features, e.g., demographic information of users and statistical features of clicks, predicting whether a click is fraudulent or not in the community. Recent efforts attempted to incorporate attributed behavior sequence and heterogeneous network for extracting complex features of users and achieved significant effects on click fraud detection. In this paper, we propose a Multimodal and Contrastive learning network for Click Fraud detection (MCCF). Specifically, motivated by the observations on differences of demographic information, behavior sequences and media relationship between fraudsters and genuine users on E-commerce platform, MCCF jointly utilizes wide and deep features, behavior sequence and heterogeneous network to distill click representations. Moreover, these three modules are integrated by contrastive learning and collaboratively contribute to the final predictions. With the real-world datasets containing 2.54 million clicks on Alibaba platform, we investigate the effectiveness of MCCF. The experimental results show that the proposed approach is able to improve AUC by 7.2% and F1-score by 15.6%, compared with the state-of-the-art methods.
翻訳日:2021-05-13 12:07:14 公開日:2021-05-08
# (参考訳) 適応オブジェクト検出のためのドメイン特化抑制 [全文訳有]

Domain-Specific Suppression for Adaptive Object Detection ( http://arxiv.org/abs/2105.03570v1 )

ライセンス: CC BY 4.0
Yu Wang, Rui Zhang, Shuo Zhang, Miao Li, YangYang Xia, XiShan Zhang, ShaoLi Liu(参考訳) ドメイン適応メソッドは、オブジェクト検出においてパフォーマンス低下に直面し、タスクの複雑さはモデルの転送可能性についてより多くを必要とする。 本研究では,cnnモデルが伝達性を得るための新しい視点を提案し,モデルの重みを一連の運動パターンとして捉えた。 重みの方向と勾配はドメイン固有部分とドメイン不変部分に分けられ、ドメイン適応の目的はドメイン固有部分から乱を排除しながらドメイン不変方向に集中することである。 現在のudaオブジェクト検出手法では、2つの方向を最適化しながら全体として見ているため、出力機能が完全に整列していても、ドメイン不変の方向ミスマッチを引き起こす。 本稿では,2つの方向を分離し,ドメイン固有の方向を抑えるために,バックプロパゲーションにおける元の畳み込み勾配に対する例と一般化可能な制約であるドメイン固有抑制を提案する。 さらに,天気,カメラ構成,合成から現実世界への適応など,複数の領域適応オブジェクト検出タスクに関する理論的解析と手法を検証した。 実験の結果,UDAオブジェクト検出分野における最先端手法に対する大きな進歩を示し,これらすべてのドメイン適応シナリオに対して10.2\sim12.2\%$ mAPのプロモーションを行うことができた。

Domain adaptation methods face performance degradation in object detection, as the complexity of tasks require more about the transferability of the model. We propose a new perspective on how CNN models gain the transferability, viewing the weights of a model as a series of motion patterns. The directions of weights, and the gradients, can be divided into domain-specific and domain-invariant parts, and the goal of domain adaptation is to concentrate on the domain-invariant direction while eliminating the disturbance from domain-specific one. Current UDA object detection methods view the two directions as a whole while optimizing, which will cause domain-invariant direction mismatch even if the output features are perfectly aligned. In this paper, we propose the domain-specific suppression, an exemplary and generalizable constraint to the original convolution gradients in backpropagation to detach the two parts of directions and suppress the domain-specific one. We further validate our theoretical analysis and methods on several domain adaptive object detection tasks, including weather, camera configuration, and synthetic to real-world adaptation. Our experiment results show significant advance over the state-of-the-art methods in the UDA object detection field, performing a promotion of $10.2\sim12.2\%$ mAP on all these domain adaptation scenarios.
翻訳日:2021-05-13 11:54:39 公開日:2021-05-08
# (参考訳) マイグレーション画像による非教師なしリモートセンシングスーパーレゾリューション [全文訳有]

Unsupervised Remote Sensing Super-Resolution via Migration Image Prior ( http://arxiv.org/abs/2105.03579v1 )

ライセンス: CC BY 4.0
Jiaming Wang, Zhenfeng Shao, Tao Liu, Xiao Huang, Ruiqian Zhang, Yu Wang(参考訳) 近年,高時間分解能の衛星が様々な実用化に広く注目されている。 しかし、帯域幅の制限とハードウェアコストのため、そのような衛星の空間分解能はかなり低く、空間的に明示的な情報を必要とするシナリオにおいてそのポテンシャルをほとんど制限している。 画像解像度を改善するために,超解像度(sr)タスクに対処するために,低解像度ペアのトレーニングに基づく多数のアプローチが提案されている。 しかし、その成功にもかかわらず、低空間分解能と高空間分解能のペアは通常、高時間分解能の衛星では取得が困難であり、そのようなアプローチはSRでは使用できない。 本稿では,低解像度画像ペアを使わずにSRタスクを実現する,新しい教師なし学習フレームワーク"MIP"を提案する。 まず,ランダムなノイズマップをGAN(Design Generative Adversarial Network)に入力して再構成を行う。 そこで,提案手法では,参照画像を移動画像として遅延空間に変換する。 最後に、暗黙的な方法で入力ノイズを更新し、さらにテクスチャと構造化情報を参照画像から転送する。 Draperデータセットの大規模な実験結果から、MIPは最先端の手法よりも定量的にも質的にも大幅な改善を達成している。 提案されたMIPはhttp://github.com/ji aming-wang/MIPでオープンソース化されている。

Recently, satellites with high temporal resolution have fostered wide attention in various practical applications. Due to limitations of bandwidth and hardware cost, however, the spatial resolution of such satellites is considerably low, largely limiting their potentials in scenarios that require spatially explicit information. To improve image resolution, numerous approaches based on training low-high resolution pairs have been proposed to address the super-resolution (SR) task. Despite their success, however, low/high spatial resolution pairs are usually difficult to obtain in satellites with a high temporal resolution, making such approaches in SR impractical to use. In this paper, we proposed a new unsupervised learning framework, called "MIP", which achieves SR tasks without low/high resolution image pairs. First, random noise maps are fed into a designed generative adversarial network (GAN) for reconstruction. Then, the proposed method converts the reference image to latent space as the migration image prior. Finally, we update the input noise via an implicit method, and further transfer the texture and structured information from the reference image. Extensive experimental results on the Draper dataset show that MIP achieves significant improvements over state-of-the-art methods both quantitatively and qualitatively. The proposed MIP is open-sourced at http://github.com/ji aming-wang/MIP.
翻訳日:2021-05-13 11:41:26 公開日:2021-05-08
# (参考訳) Dynamic-OFA:不均一な組み込みプラットフォーム上でのパフォーマンススケーリングのための実行時DNNアーキテクチャスイッチ [全文訳有]

Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03596v1 )

ライセンス: CC BY 4.0
Wei Lou, Lei Xun, Amin Sabet, Jia Bi, Jonathon Hare, Geoff V. Merrett(参考訳) モバイルおよび組み込みプラットフォームは、不均一な処理要素をまたいだ計算要求のDNNを効率的に実行するためにますます必要となる。 実行時に、DNNに利用可能なハードウェアリソースは、他の並列実行アプリケーションによって大きく異なる可能性がある。 アプリケーションのパフォーマンス要件は、異なるシナリオの下でも変更できる。 所望の性能を達成するために,様々な資源制約の下で異なる要求を満たすために,チャネル/レイヤの数をリアルタイムでスケールできる動的dnnが提案されている。 しかし、このような動的DNNのトレーニングプロセスは、異なるデプロイメントシナリオのプラットフォーム対応モデルを再トレーニングする必要があるため、コストがかかる可能性がある。 本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。 全ネットワーク(OFA)。 dynamic-ofaは静的ofaバックボーンモデルからサブネットワークのファミリーをプリサンプリングし、異なるランタイム環境下で異なるサブネットワークを選択するランタイムマネージャを含む。 そのため、Dynamic-OFAは従来の動的DNNトレーニングパイプラインを必要としない。 最新技術と比較すると、Jetson Xavier NX上でのImageNetを用いた実験結果は、アプローチが類似のImageNet Top-1精度で3.5x(CPU)、2.4x(GPU)、または3.8%(CPU)、同様のレイテンシで5.1%(GPU)の精度であることを示している。

Mobile and embedded platforms are increasingly required to efficiently execute computationally demanding DNNs across heterogeneous processing elements. At runtime, the available hardware resources to DNNs can vary considerably due to other concurrently running applications. The performance requirements of the applications could also change under different scenarios. To achieve the desired performance, dynamic DNNs have been proposed in which the number of channels/layers can be scaled in real time to meet different requirements under varying resource constraints. However, the training process of such dynamic DNNs can be costly, since platform-aware models of different deployment scenarios must be retrained to become dynamic. This paper proposes Dynamic-OFA, a novel dynamic DNN approach for state-of-the-art platform-aware NAS models (i.e. Once-for-all network (OFA)). Dynamic-OFA pre-samples a family of sub-networks from a static OFA backbone model, and contains a runtime manager to choose different sub-networks under different runtime environments. As such, Dynamic-OFA does not need the traditional dynamic DNN training pipeline. Compared to the state-of-the-art, our experimental results using ImageNet on a Jetson Xavier NX show that the approach is up to 3.5x (CPU), 2.4x (GPU) faster for similar ImageNet Top-1 accuracy, or 3.8% (CPU), 5.1% (GPU) higher accuracy at similar latency.
翻訳日:2021-05-13 11:18:10 公開日:2021-05-08
# (参考訳) 全分布に依存する一般報酬関数を用いた純粋探査バンドイット問題 [全文訳有]

Pure Exploration Bandit Problem with General Reward Functions Depending on Full Distributions ( http://arxiv.org/abs/2105.03598v1 )

ライセンス: CC0 1.0
Siwei Wang, Wei Chen(参考訳) 本稿では,一般分布関数の純粋探索バンディットモデルについて検討する。つまり,各アームの報酬関数は,その平均値だけでなく,分布全体に依存する。 この問題を解決するために、レースフレームワークとLUCBフレームワークを適用し、異なる種類の分布で報酬関数の価値を推定するアルゴリズムを設計する。 そして,提案手法が適切なパラメータで正確性を保証することを示し,それらのサンプル複雑性上限を求める。 最後に,学習フレームワーク下で重要なアプリケーションとその対応ソリューションについて論じる。

In this paper, we study the pure exploration bandit model on general distribution functions, which means that the reward function of each arm depends on the whole distribution, not only its mean. We adapt the racing framework and LUCB framework to solve this problem, and design algorithms for estimating the value of the reward functions with different types of distributions. Then we show that our estimation methods have correctness guarantee with proper parameters, and obtain sample complexity upper bounds for them. Finally, we discuss about some important applications and their corresponding solutions under our learning framework.
翻訳日:2021-05-13 11:06:56 公開日:2021-05-08
# (参考訳) デンス検索のための擬似クエリ埋め込み生成による文書表現の改善 [全文訳有]

Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval ( http://arxiv.org/abs/2105.03599v1 )

ライセンス: CC BY 4.0
Hongyin Tang, Xingwu Sun, Beihong Jin, Jingang Wang, Fuzheng Zhang, Wei Wu(参考訳) 近年,高密度表現に基づく検索モデルは文書検索タスクの第1段階で徐々に適用され,従来の疎ベクトル空間モデルよりも優れた性能を示している。 高効率を得るために、これらのモデルの基本的な構造は、ほとんどの場合ビエンコーダである。 しかし、この単純な構造はクエリに依存せず、ドキュメントのエンコーディング中に深刻な情報損失を引き起こす可能性がある。 この問題に対処するために,各文書のクエリを反復的クラスタリングプロセスで模倣し,複数の疑似クエリ(すなわちクラスタセンタロイド)で文書を表現する手法を設計する。 また,近接探索ライブラリを用いて検索処理を高速化するために,2段階のスコア計算手順でマッチング機能を最適化する。 いくつかの人気ランキングとQAデータセットの実験結果から、我々のモデルが最先端の結果を得ることができることが示された。

Recently, the retrieval models based on dense representations have been gradually applied in the first stage of the document retrieval tasks, showing better performance than traditional sparse vector space models. To obtain high efficiency, the basic structure of these models is Bi-encoder in most cases. However, this simple structure may cause serious information loss during the encoding of documents since the queries are agnostic. To address this problem, we design a method to mimic the queries on each of the documents by an iterative clustering process and represent the documents by multiple pseudo queries (i.e., the cluster centroids). To boost the retrieval process using approximate nearest neighbor search library, we also optimize the matching function with a two-step score calculation procedure. Experimental results on several popular ranking and QA datasets show that our model can achieve state-of-the-art results.
翻訳日:2021-05-13 10:42:00 公開日:2021-05-08
# (参考訳) 不均一な組み込みプラットフォーム上での実行時DNNパフォーマンススケーリングのためのインクリメンタルトレーニングとグループ畳み込み [全文訳有]

Incremental Training and Group Convolution Pruning for Runtime DNN Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03600v1 )

ライセンス: CC BY 4.0
Lei Xun, Long Tran-Thanh, Bashir M Al-Hashimi, Geoff V. Merrett(参考訳) Deep Neural Networksの推論は、レイテンシ、プライバシ、接続性の利点から、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。 現代のSystem on Chipsは、通常、異なるワークロードと動的ワークロードの組み合わせを同時に実行するため、DNNで利用可能なローカルコンピューティングリソースが異なるため、実行時に推論時間/エネルギー予算を一貫して満たすことは困難である。 この課題に対処するために、様々な動的DNNが提案された。 しかしながら、これらの作業には大きなメモリオーバーヘッド、ランタイム回復可能な圧縮速度の制限、パフォーマンススケーリングのダイナミックレンジの制限がある。 本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。 dnn畳み込み層のチャネルはグループに分割され、段階的に訓練される。 実行時に、以下のグループは推論時間/エネルギー削減のためにプルーニングしたり、モデルの再トレーニングなしで精度回復のために追加することができる。 さらに、タスクマッピングと動的電圧周波数スケーリング(DVFS)を動的DNNと組み合わせることで、より広いダイナミックレンジでの精度と時間/電力/エネルギーのトレードオフをより細かくする。 我々は、CIFAR10イメージデータセットのためにAlexNetを修正し、Odroid XU3(ARM Big.LITTLE CPU)とNvidia Jetson Nano(CPUとGPU)という2つの異種ハードウェアプラットフォーム上での作業を評価した。 既存の作品と比較して、このアプローチは最大2.36倍(エネルギー)と2.73倍(時間)のダイナミックレンジを提供し、同じ圧縮レートで2.4倍のメモリフットプリントを削減できる。 タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。

Inference for Deep Neural Networks is increasingly being executed locally on mobile and embedded platforms due to its advantages in latency, privacy and connectivity. Since modern System on Chips typically execute a combination of different and dynamic workloads concurrently, it is challenging to consistently meet inference time/energy budget at runtime because of the local computing resources available to the DNNs vary considerably. To address this challenge, a variety of dynamic DNNs were proposed. However, these works have significant memory overhead, limited runtime recoverable compression rate and narrow dynamic ranges of performance scaling. In this paper, we present a dynamic DNN using incremental training and group convolution pruning. The channels of the DNN convolution layer are divided into groups, which are then trained incrementally. At runtime, following groups can be pruned for inference time/energy reduction or added back for accuracy recovery without model retraining. In addition, we combine task mapping and Dynamic Voltage Frequency Scaling (DVFS) with our dynamic DNN to deliver finer trade-off between accuracy and time/power/energy over a wider dynamic range. We illustrate the approach by modifying AlexNet for the CIFAR10 image dataset and evaluate our work on two heterogeneous hardware platforms: Odroid XU3 (ARM big.LITTLE CPUs) and Nvidia Jetson Nano (CPU and GPU). Compared to the existing works, our approach can provide up to 2.36x (energy) and 2.73x (time) wider dynamic range with a 2.4x smaller memory footprint at the same compression rate. It achieved 10.6x (energy) and 41.6x (time) wider dynamic range by combining with task mapping and DVFS.
翻訳日:2021-05-13 10:28:57 公開日:2021-05-08
# (参考訳) トリミングハンドで無休のマルコフアームを検知する学習

Learning to Detect an Odd Restless Markov Arm with a Trembling Hand ( http://arxiv.org/abs/2105.03603v1 )

ライセンス: CC BY 4.0
P. N. Karthik and Rajesh Sundaresan(参考訳) 本稿では, (a) 各アームが有限状態マルコフ過程であり, (b) アームがレストである場合, 多腕のバンディットにおいて異常なアームを見つける問題について検討する。 ここでの異常とは、一方の腕(奇腕)の遷移確率行列(TPM)が他方の腕の共通のTPMとは異なることを意味する。 TPMは、エラー確率の上限を条件として、奇腕の指数をできるだけ早く見つけようとする決定エンティティには未知である。 我々は、異常なアーム指数を見つけるのに必要な期待時間に基づいて、問題のインスタンス固有の漸近的下限を導出する。 さらに, 確実性同値原理に基づく政策を考案し, 連続選択仮定とtpms上の一定の規則性仮定の下で, 政策が任意に下限を満たしていることを示す。 したがって、下限はすべての問題インスタンスに対して示されるが、上限は正規性仮定を満たす問題インスタンスに対してのみ示される。 我々の実現可能性分析は、可算状態制御マルコフ過程の文脈における識別可能性問題の解法に基づいている。

This paper studies the problem of finding an anomalous arm in a multi-armed bandit when (a) each arm is a finite-state Markov process, and (b) the arms are restless. Here, anomaly means that the transition probability matrix (TPM) of one of the arms (the odd arm) is different from the common TPM of each of the non-odd arms. The TPMs are unknown to a decision entity that wishes to find the index of the odd arm as quickly as possible, subject to an upper bound on the error probability. We derive a problem instance specific asymptotic lower bound on the expected time required to find the odd arm index, where the asymptotics is as the error probability vanishes. Further, we devise a policy based on the principle of certainty equivalence, and demonstrate that under a continuous selection assumption and a certain regularity assumption on the TPMs, the policy achieves the lower bound arbitrarily closely. Thus, while the lower bound is shown for all problem instances, the upper bound is shown only for those problem instances satisfying the regularity assumption. Our achievability analysis is based on resolving the identifiability problem in the context of a certain countable-state controlled Markov process.
翻訳日:2021-05-13 10:18:13 公開日:2021-05-08
# (参考訳) 組み込み機械学習のためのリソース管理の最適化 [全文訳有]

Optimising Resource Management for Embedded Machine Learning ( http://arxiv.org/abs/2105.03608v1 )

ライセンス: CC BY 4.0
Lei Xun, Long Tran-Thanh, Bashir M Al-Hashimi, Geoff V. Merrett(参考訳) マシンラーニングの推論は、レイテンシやプライバシ、接続性に明確なメリットがあるため、モバイルおよび組み込みプラットフォーム上でのローカル実行がますます増えている。 本稿では、異種マルチコアシステムにおけるオンラインリソース管理のアプローチを提案し、機械学習ワークロードの性能を最適化する方法を示す。 パフォーマンスはプラットフォームに依存して定義することができる(例)。 スピード、エネルギー)とプラットフォームに依存しない(正確性、信頼性)メトリクス。 特に、ディープニューラルネットワーク(dnn)が動的にスケーラブルになり、これらの様々なパフォーマンス指標をトレードオフできることを示す。 異なるプラットフォーム上で実行する場合の一貫したパフォーマンスを実現するには、提供されるリソースとその能力、他のワークロードと並行して実行する場合の時間的不安定性など、非常に困難である。 利用可能なハードウェアリソース間のインターフェース管理(本質的には多種多様なハードウェアリソース)、ソフトウェア要件、ユーザエクスペリエンスはますます複雑になっています。

Machine learning inference is increasingly being executed locally on mobile and embedded platforms, due to the clear advantages in latency, privacy and connectivity. In this paper, we present approaches for online resource management in heterogeneous multi-core systems and show how they can be applied to optimise the performance of machine learning workloads. Performance can be defined using platform-dependent (e.g. speed, energy) and platform-independent (accuracy, confidence) metrics. In particular, we show how a Deep Neural Network (DNN) can be dynamically scalable to trade-off these various performance metrics. Achieving consistent performance when executing on different platforms is necessary yet challenging, due to the different resources provided and their capability, and their time-varying availability when executing alongside other workloads. Managing the interface between available hardware resources (often numerous and heterogeneous in nature), software requirements, and user experience is increasingly complex.
翻訳日:2021-05-13 10:16:59 公開日:2021-05-08
# (参考訳) 自己学習による言語横断読解の改善 [全文訳有]

Improving Cross-Lingual Reading Comprehension with Self-Training ( http://arxiv.org/abs/2105.03627v1 )

ライセンス: CC BY 4.0
Wei-Cheng Huang, Chien-yu Huang, Hung-yi Lee(参考訳) マシンが与えられたコンテキストに基づいて質問に答える機械読解において、実質的な改善がなされている。 現在の最先端のモデルは、いくつかのベンチマークで人間のパフォーマンスを超えている。 しかし、言語横断のシナリオにおけるそれらの能力はまだ検討されている。 従来の研究は、ゼロショットのクロスリンガル読解のための事前学習された多言語モデルの能力を明らかにしている。 本稿では,ラベルのないデータを利用して性能を向上する。 モデルはまずソース言語コーパスに基づいて教師あり、次にラベルなしのターゲット言語データで自己学習される。 実験の結果,すべての言語が改善され,質的側面から言語間理解に自己学習がどう役立つかを検討した。

Substantial improvements have been made in machine reading comprehension, where the machine answers questions based on a given context. Current state-of-the-art models even surpass human performance on several benchmarks. However, their abilities in the cross-lingual scenario are still to be explored. Previous works have revealed the abilities of pre-trained multilingual models for zero-shot cross-lingual reading comprehension. In this paper, we further utilized unlabeled data to improve the performance. The model is first supervised-trained on source language corpus, and then self-trained with unlabeled target language data. The experiment results showed improvements for all languages, and we also analyzed how self-training benefits cross-lingual reading comprehension in qualitative aspects.
翻訳日:2021-05-13 10:04:22 公開日:2021-05-08
# (参考訳) マルチラベルリモートセンシング画像検索・検索のための新しい三重項サンプリング法 [全文訳有]

A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image Search and Retrieval ( http://arxiv.org/abs/2105.03647v1 )

ライセンス: CC BY 4.0
Tristan Kreuziger, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) リモートセンシング(RS)画像の類似性を学習することは、コンテンツベースRS画像検索(CBIR)の基礎となる。 近年,画像の意味的類似性を埋め込み空間にマッピングするディープメトリック学習手法が,RSで非常に人気がある。 計量空間を学習するための一般的なアプローチは、アンカーと呼ばれる参照画像に対する類似(正)および異(負)の画像の選択に依存する。 特にマルチラベルRS CBIRでは,各トレーニングイメージに複数のクラスラベルがアノテートされるため,トリプレットの選択は難しい課題である。 本稿では,多ラベルRS CBIR問題に対して定義されたディープニューラルネットワーク(DNN)の枠組みにおける新しいトリプルトサンプリング手法を提案する。 提案手法は,2つの主要なステップに基づいて,最も代表的なトリプレットと情報トリプレットの小さなセットを選択する。 第1のステップでは、反復アルゴリズムを用いて現在のミニバッチから、埋め込み空間内で互いに多様なアンカー群を選択する。 第2のステップでは、新たなランキング戦略に基づいて、画像の関連性、硬度、多様性を評価することにより、各アンカーに対して異なる正と負のイメージセットを選択する。 2つのマルチラベルベンチマークで得られた実験結果から,dnnsの文脈における最も有益で代表的な三重項の選択は,(1)性能を損なうことなく,dnnのトレーニングフェーズの計算複雑性を低減すること,(2)有益三重項が高速収束を可能にするため,学習速度が向上すること,という結果が得られた。 提案手法のコードは https://git.tu-berli n.de/rsim/image-retr ieval-from-triplets で公開されている。

Learning the similarity between remote sensing (RS) images forms the foundation for content based RS image retrieval (CBIR). Recently, deep metric learning approaches that map the semantic similarity of images into an embedding space have been found very popular in RS. A common approach for learning the metric space relies on the selection of triplets of similar (positive) and dissimilar (negative) images to a reference image called as an anchor. Choosing triplets is a difficult task particularly for multi-label RS CBIR, where each training image is annotated by multiple class labels. To address this problem, in this paper we propose a novel triplet sampling method in the framework of deep neural networks (DNNs) defined for multi-label RS CBIR problems. The proposed method selects a small set of the most representative and informative triplets based on two main steps. In the first step, a set of anchors that are diverse to each other in the embedding space is selected from the current mini-batch using an iterative algorithm. In the second step, different sets of positive and negative images are chosen for each anchor by evaluating relevancy, hardness, and diversity of the images among each other based on a novel ranking strategy. Experimental results obtained on two multi-label benchmark achieves show that the selection of the most informative and representative triplets in the context of DNNs results in: i) reducing the computational complexity of the training phase of the DNNs without any significant loss on the performance; and ii) an increase in learning speed since informative triplets allow fast convergence. The code of the proposed method is publicly available at https://git.tu-berli n.de/rsim/image-retr ieval-from-triplets.
翻訳日:2021-05-13 09:55:31 公開日:2021-05-08
# (参考訳) プログラムのトレーニング方法 [全文訳有]

How To Train Your Program ( http://arxiv.org/abs/2105.03650v1 )

ライセンス: CC BY 4.0
David Tolpin(参考訳) 確率的プログラムを用いた機械学習に対するベイズ的アプローチを提案する。 本手法では,階層モデルに基づく推論として,利用可能なデータのトレーニングを行う。 モデルパラメータの後続分布は、新しいデータに対する推論が、新しいデータに対応する潜在パラメータの同じ後続分布を、より低い計算コストで、既に利用可能なデータと新しいデータの組み合わせによる階層モデル上の推論として生成する補完モデルであるtextit{stochastically condition} に使用される。 我々は,このアプローチを'stump and fungus'と呼ばれる確率的プログラミングの設計パターンとし,そのパターンの実現をディダクティックなケーススタディで示す。

We present a Bayesian approach to machine learning with probabilistic programs. In our approach, training on available data is implemented as inference on a hierarchical model. The posterior distribution of model parameters is then used to \textit{stochastically condition} a complementary model, such that inference on new data yields the same posterior distribution of latent parameters corresponding to the new data as inference on a hierachical model on the combination of both previously available and new data, at a lower computation cost. We frame the approach as a design pattern of probabilistic programming referred to herein as `stump and fungus', and illustrate realization of the pattern on a didactic case study.
翻訳日:2021-05-13 09:36:39 公開日:2021-05-08
# (参考訳) テキストの論理推論のための論理駆動コンテキスト拡張とデータ拡張 [全文訳有]

Logic-Driven Context Extension and Data Augmentation for Logical Reasoning of Text ( http://arxiv.org/abs/2105.03659v1 )

ライセンス: CC BY 4.0
Siyuan Wang, Wanjun Zhong, Duyu Tang, Zhongyu Wei, Zhihao Fan, Daxin Jiang, Ming Zhou and Nan Duan(参考訳) テキストの論理的推論には、テキスト内の重要な論理情報の理解と推論が必要である。 論理推論のための大規模事前学習モデルは主に、記号論理を捉えるのに苦労しながら、テキストの単語レベルの意味論に焦点を当てている。 本稿では,テキスト中の論理記号と表現を理解して,その答えにたどり着くことを提案する。 このような論理的情報に基づいて,文脈拡張フレームワークを提案するだけでなく,データ拡張アルゴリズムを提案する。 前者は文脈を拡張し、論理同値法則に従って暗黙の論理式をカバーする。 後者は文字通り類似しているが論理的に異なるインスタンスを拡張して、論理情報、特に論理的負関係と条件関係をよりよくキャプチャする。 ReClorデータセット上で実験を行う。 その結果,本手法は最先端性能を実現し,論理駆動型コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度の向上に役立つことがわかった。 そしてマルチモデルアンサンブルシステムは、簡単なセットとハードセットの両方で人間のパフォーマンスを初めて上回ったシステムです。

Logical reasoning of text requires understanding critical logical information in the text and performing inference over them. Large-scale pre-trained models for logical reasoning mainly focus on word-level semantics of text while struggling to capture symbolic logic. In this paper, we propose to understand logical symbols and expressions in the text to arrive at the answer. Based on such logical information, we not only put forward a context extension framework but also propose a data augmentation algorithm. The former extends the context to cover implicit logical expressions following logical equivalence laws. The latter augments literally similar but logically different instances to better capture logical information, especially logical negative and conditional relationships. We conduct experiments on ReClor dataset. The results show that our method achieves the state-of-the-art performance, and both logic-driven context extension framework and data augmentation algorithm can help improve the accuracy. And our multi-model ensemble system is the first to surpass human performance on both EASY set and HARD set of ReClor.
翻訳日:2021-05-13 09:30:25 公開日:2021-05-08
# (参考訳) D2S:クエリベースのテキスト要約による文書からスライド生成 [全文訳有]

D2S: Document-to-Slide Generation Via Query-Based Text Summarization ( http://arxiv.org/abs/2105.03664v1 )

ライセンス: CC BY 4.0
Edward Sun, Yufang Hou, Dakuo Wang, Yunfeng Zhang, Nancy X.R. Wang(参考訳) プレゼンテーションは、私たちの生活のあらゆる領域におけるコミュニケーションに不可欠ですが、スライドデッキの作成は、しばしば退屈で時間がかかります。 document-to-slides生成プロセスの自動化を目的とした限定的な研究が行われており、いずれも重大な課題に直面している。 本研究では,近年のNLPおよびMLカンファレンス(ACLなど)の論文とそれに対応するスライドデッキからなるデータセットSciDuetを,まず最初にコントリビュートする。 次に2段階のアプローチで文書からスライドへのタスクに取り組む新しいシステムであるd2sを提案する。1) スライドタイトルを使用して、関連するテキスト、図形、テーブルを検索する。2) 検索されたコンテキストを長い質問応答で弾丸ポイントにまとめる。 評価の結果,長期QAは自動ROUGE測定値と定性評価値の両方に基づいて,最先端の要約基準よりも優れていた。

Presentations are critical for communication in all areas of our lives, yet the creation of slide decks is often tedious and time-consuming. There has been limited research aiming to automate the document-to-slides generation process and all face a critical challenge: no publicly available dataset for training and benchmarking. In this work, we first contribute a new dataset, SciDuet, consisting of pairs of papers and their corresponding slides decks from recent years' NLP and ML conferences (e.g., ACL). Secondly, we present D2S, a novel system that tackles the document-to-slides task with a two-step approach: 1) Use slide titles to retrieve relevant and engaging text, figures, and tables; 2) Summarize the retrieved context into bullet points with long-form question answering. Our evaluation suggests that long-form QA outperforms state-of-the-art summarization baselines on both automated ROUGE metrics and qualitative human evaluation.
翻訳日:2021-05-12 13:35:22 公開日:2021-05-08
# (参考訳) タグは正しい:フェデレーションデータ強化ラジオフィンガープリントによる大規模RFIDクローン検出 [全文訳有]

The Tags Are Alright: Robust Large-Scale RFID Clone Detection Through Federated Data-Augmented Radio Fingerprinting ( http://arxiv.org/abs/2105.03671v1 )

ライセンス: CC BY 4.0
Mauro Piva, Gaia Maselli, Francesco Restuccia(参考訳) 何百万ものRFIDタグが世界中で広く使われ、さまざまな日常用途のオブジェクトを安価に識別する。 RFIDの重要な問題の1つは、タグがエネルギー不足の暗号を使えないことである。 このような理由から、RFIDクローン検出を実現するために、タグの無線回路に固有の不完全性を利用する、ラジオフィンガープリント(RFP)は魅力的なアプローチである。 しかし,近年の研究により,RFPプロセスの精度が著しく低下することが明らかとなった。 本研究では,動的チャネル条件を持つRFIDタグのRFPに関する大規模研究を提案する。 具体的には,200個の市販RFIDタグとソフトウェア定義無線(SDR)タグリーダによって構成されたテストベッド上で,大規模なデータ収集キャンペーンを行う。 タグリーダ距離の異なるデータを,オーバーザエア構成で収集する。 移植したRFIDタグをエミュレートするために,タグと読者の間に挿入された2種類の豚肉のデータも収集した。 我々は、この豊富なデータセットを使用して、様々なチャネル条件で複数の畳み込みニューラルネットワーク(cnn)ベースの分類器を訓練し、テストする。 本研究は,異なるチャネル条件におけるトレーニングとテストが,分類器の精度を著しく低下させることを明らかにした。 そこで本稿では,FML(Federated Machine Learning)とDAG(Data Augmentation)に基づく新たなトレーニングフレームワークを提案する。 広範な実験結果から, (i) fmlアプローチは精度を最大48%向上させ, (ii) daアプローチはfml性能を最大31%向上させた。 我々の知る限り、大規模なデバイス群に対するFMLとDAの有効性を実験的に実証した最初の論文である。 私たちは研究コミュニティと200gbのrfid波形データセット、コード全体、トレーニングされたモデルを共有しています。

Millions of RFID tags are pervasively used all around the globe to inexpensively identify a wide variety of everyday-use objects. One of the key issues of RFID is that tags cannot use energy-hungry cryptography. For this reason, radio fingerprinting (RFP) is a compelling approach that leverages the unique imperfections in the tag's wireless circuitry to achieve large-scale RFID clone detection. Recent work, however, has unveiled that time-varying channel conditions can significantly decrease the accuracy of the RFP process. We propose the first large-scale investigation into RFP of RFID tags with dynamic channel conditions. Specifically, we perform a massive data collection campaign on a testbed composed by 200 off-the-shelf identical RFID tags and a software-defined radio (SDR) tag reader. We collect data with different tag-reader distances in an over-the-air configuration. To emulate implanted RFID tags, we also collect data with two different kinds of porcine meat inserted between the tag and the reader. We use this rich dataset to train and test several convolutional neural network (CNN)--based classifiers in a variety of channel conditions. Our investigation reveals that training and testing on different channel conditions drastically degrades the classifier's accuracy. For this reason, we propose a novel training framework based on federated machine learning (FML) and data augmentation (DAG) to boost the accuracy. Extensive experimental results indicate that (i) our FML approach improves accuracy by up to 48%; (ii) our DA approach improves the FML performance by up to 31%. To the best of our knowledge, this is the first paper experimentally demonstrating the efficacy of FML and DA on a large device population. We are sharing with the research community our fully-labeled 200-GB RFID waveform dataset, the entirety of our code and trained models.
翻訳日:2021-05-12 13:17:12 公開日:2021-05-08
# (参考訳) 古典データのための量子機械学習

Quantum Machine Learning For Classical Data ( http://arxiv.org/abs/2105.03684v1 )

ライセンス: CC BY-SA 4.0
Leonard Wossnig(参考訳) この論文では、量子コンピューティングと教師あり機械学習アルゴリズムの交点について研究し、古典的データを扱う教師あり機械学習のための量子アルゴリズムについて検討する。 この研究領域は、最近広く注目を集めているコンピュータ科学の研究領域である量子機械学習の傘下にある。 特に,教師付き機械学習アルゴリズムの高速化に量子コンピュータがどの程度使えるかを検討する。 この目的は、教師付き機械学習のための量子アルゴリズム技術の現状の約束と限界を明確に理解することだけでなく、このエキサイティングな分野における将来の研究の方向性を定義することである。 まず、統計学習理論のレンズを通して、教師付き量子機械学習(QML)アルゴリズムを考察する。 このフレームワークでは、最適学習率の要求の下で、教師付きQMLアルゴリズムの大規模集合の計算複雑性に基づいた新しい境界を導出する。 次に、最もよく知られた教師付きQMLアルゴリズムの主要なサブルーチンである高密度ハミルトニアンのハミルトンシミュレーションに新しい境界を与え、それからほぼ同じ複雑さを持つ古典的アルゴリズムを導出する。 次に,最近の量子インスパイアされた結果と並列性を示し,これらの結果が量子機械学習アプリケーションに与える影響を説明する。 QMLアルゴリズムの利点が大きい分野を探すため、量子ボルツマンマシンのための新しいアルゴリズムを提案し、量子データのための量子アルゴリズムは古典的アプローチよりも指数関数的な優位性を持つQMLの最も有望な応用の1つであると論じる。

In this dissertation, we study the intersection of quantum computing and supervised machine learning algorithms, which means that we investigate quantum algorithms for supervised machine learning that operate on classical data. This area of research falls under the umbrella of quantum machine learning, a research area of computer science which has recently received wide attention. In particular, we investigate to what extent quantum computers can be used to accelerate supervised machine learning algorithms. The aim of this is to develop a clear understanding of the promises and limitations of the current state of the art of quantum algorithms for supervised machine learning, but also to define directions for future research in this exciting field. We start by looking at supervised quantum machine learning (QML) algorithms through the lens of statistical learning theory. In this framework, we derive novel bounds on the computational complexities of a large set of supervised QML algorithms under the requirement of optimal learning rates. Next, we give a new bound for Hamiltonian simulation of dense Hamiltonians, a major subroutine of most known supervised QML algorithms, and then derive a classical algorithm with nearly the same complexity. We then draw the parallels to recent "quantum-inspired&quo t; results, and will explain the implications of these results for quantum machine learning applications. Looking for areas which might bear larger advantages for QML algorithms, we finally propose a novel algorithm for Quantum Boltzmann machines, and argue that quantum algorithms for quantum data are one of the most promising applications for QML with potentially exponential advantage over classical approaches.
翻訳日:2021-05-12 12:52:45 公開日:2021-05-08
# (参考訳) HamNet: ハミルトンニューラルネットワークを用いた変換誘導分子表現 [全文訳有]

HamNet: Conformation-Guided Molecular Representation with Hamiltonian Neural Networks ( http://arxiv.org/abs/2105.03688v1 )

ライセンス: CC BY 4.0
Ziyao Li, Shuwen Yang, Guojie Song and Lingsheng Cai(参考訳) 良く設計された分子表現(フィンガープリント)は、医学化学と深層学習を組み合わせるために不可欠である。 一方、分子の3次元幾何学(すなわち)を取り入れている。 コンフォメーション)の表現は有益で、現在の3Dアルゴリズムはまだ初期段階です。 本稿では,分子の3次元配座を分子ハミルトニアンネットワーク(HamNet)で保持する新しい分子表現アルゴリズムを提案する。 ハムネットでは、分子中の原子の位置と運動量がハミルトン方程式に従ってハミルトニアンエンジンで相互作用する。 これらの暗黙的なコーディネーションは、翻訳および回転不変損失と実際のコンフォメーションで監督され、さらにメッセージパッシングニューラルネットワークである指紋生成器への入力として使用される。 実験により、ハミルトニアンエンジンは分子構造を十分に保存でき、HamNetが生成した指紋は標準的な分子機械学習ベンチマークであるMoleculeNetの最先端のパフォーマンスを達成することが示された。

Well-designed molecular representations (fingerprints) are vital to combine medical chemistry and deep learning. Whereas incorporating 3D geometry of molecules (i.e. conformations) in their representations seems beneficial, current 3D algorithms are still in infancy. In this paper, we propose a novel molecular representation algorithm which preserves 3D conformations of molecules with a Molecular Hamiltonian Network (HamNet). In HamNet, implicit positions and momentums of atoms in a molecule interact in the Hamiltonian Engine following the discretized Hamiltonian equations. These implicit coordinations are supervised with real conformations with translation- & rotation-invariant losses, and further used as inputs to the Fingerprint Generator, a message-passing neural network. Experiments show that the Hamiltonian Engine can well preserve molecular conformations, and that the fingerprints generated by HamNet achieve state-of-the-art performances on MoleculeNet, a standard molecular machine learning benchmark.
翻訳日:2021-05-12 12:51:24 公開日:2021-05-08
# (参考訳) logarithm determinant entropy estimatorを用いたニューラルネットワークの理解 [全文訳有]

Understanding Neural Networks with Logarithm Determinant Entropy Estimator ( http://arxiv.org/abs/2105.03705v1 )

ライセンス: CC BY 4.0
Zhanghao Zhouyin, Ding Liu(参考訳) ディープニューラルネットワークの有益な振る舞いを理解することは、誤用された推定値とネットワーク構造の複雑さによって、一貫性のない観察と多様な解釈につながる。 ここでは,シャノン微分エントロピーを近似する信頼性の高い行列系エントロピー推定器logdet estimatorを提案する。 我々は,logdet estimatorに基づく有意な測定値を構築し,それと同等の実験を行い,ニューラルネットワークの動作解析に利用する。 その結果,logdet推定器は,高度に多様な分布から生じる欠点を克服し,ニューラルネットワークのエントロピーを推定できることがわかった。 ネットワーク解析の結果,ニューラルネットワークの情報ボトルネック理論における圧縮現象を理解するのに役立つ浅層層と深層層の機能的区別も見いだされた。

Understanding the informative behaviour of deep neural networks is challenged by misused estimators and the complexity of network structure, which leads to inconsistent observations and diversified interpretation. Here we propose the LogDet estimator -- a reliable matrix-based entropy estimator that approximates Shannon differential entropy. We construct informative measurements based on LogDet estimator, verify our method with comparable experiments and utilize it to analyse neural network behaviour. Our results demonstrate the LogDet estimator overcomes the drawbacks that emerge from highly diverse and degenerated distribution thus is reliable to estimate entropy in neural networks. The Network analysis results also find a functional distinction between shallow and deeper layers, which can help understand the compression phenomenon in the Information bottleneck theory of neural networks.
翻訳日:2021-05-12 12:38:21 公開日:2021-05-08
# (参考訳) ギャップを抜ける: 形態的ルール学習のモデルとしてのニューラルアーキテクチャ [全文訳有]

Falling Through the Gaps: Neural Architectures as Models of Morphological Rule Learning ( http://arxiv.org/abs/2105.03710v1 )

ライセンス: CC BY 4.0
Deniz Beser(参考訳) ニューラル・アーキテクチャの最近の進歩は、形態的規則学習の問題を復活させた。 形態素規則学習のモデルとしてTransformerを評価し,英語,ドイツ語,ロシア語のRecurrent Neural Networks(RNN)と比較した。 我々は,単語の語句の変形が期待できないような形態的ギャップという,見過ごされがちな問題に直面する。 例えば、63のロシア語の動詞は、"*o\v{s}\v{c}u\v{s}\v{c}u" ("i feel") と快適に言えないような一対一の現在形を欠いている。 英語にも「ストライド」の過去分詞のようなギャップがあり、形態的インフレクションの関数は部分的である。 両方のニューラルアーキテクチャは、欠落すべき反射を生み出す。 解析により、Transformerはトレーニングデータ中の反射の統計的分布を再カプセル化することが明らかになった。 英語とドイツ語におけるモデルの成功は、これらの言語の規則が大多数の形式と同一視できるという事実によって引き起こされる。

Recent advances in neural architectures have revived the problem of morphological rule learning. We evaluate the Transformer as a model of morphological rule learning and compare it with Recurrent Neural Networks (RNN) on English, German, and Russian. We bring to the fore a hitherto overlooked problem, the morphological gaps, where the expected inflection of a word is missing. For example, 63 Russian verbs lack a first-person-singula r present form such that one cannot comfortably say "*o\v{s}\v{c}u\v{s}\v{c}u" ("I feel"). Even English has gaps, such as the past participle of "stride": the function of morphological inflection can be partial. Both neural architectures produce inflections that ought to be missing. Analyses reveal that Transformers recapitulate the statistical distribution of inflections in the training data, similar to RNNs. Models' success on English and German is driven by the fact that rules in these languages can be identified with the majority forms, which is not universal.
翻訳日:2021-05-12 12:18:54 公開日:2021-05-08
# (参考訳) PIM-DRAM:DRAM技術に基づくメモリ処理による機械学習ワークロードの高速化 [全文訳有]

PIM-DRAM:Acceleratin g Machine Learning Workloads using Processing in Memory based on DRAM Technology ( http://arxiv.org/abs/2105.03736v1 )

ライセンス: CC BY 4.0
Sourjya Roy, Mustafa Ali and Anand Raghunathan(参考訳) ディープニューラルネットワーク(DNN)は、画像やビデオ分析、言語翻訳、医療診断など、多くの応用において、近年大きな関心を集めている。 大部分のデータがメインメモリに格納されているため、von-Neumannハードウェアアーキテクチャ上で実装される場合、データ集約型DNNアプリケーションのニーズに沿うために、高いメモリ帯域幅が要求される。 したがって、メモリ内の処理は、MLワークロードのメモリ壁ボトルネックに対する有望な解決策を提供することができる。 本研究では,DRAMベースの処理インメモリ(PIM)乗算プリミティブをバンク内蓄積と組み合わせて,MLワークロードにおける行列ベクトル演算を高速化する手法を提案する。 さらに,提案するプリミティブに基づくメモリ内DRAMバンクアーキテクチャ,データマッピング,データフローを提案する。 AlexNet、VGG16、ResNet18などのネットワーク上で実施されたシステム評価では、提案されたアーキテクチャ、マッピング、データフローは、GPUよりも最大で23倍、データフローは6.5倍の利点が得られる。

Deep Neural Networks (DNNs) have gained significant interest in the recent past for plethora of applications such as image and video analytics, language translation, and medical diagnosis. High memory bandwidth is required to keep up with the needs of data-intensive DNN applications when implemented on a von-Neumann hardware architecture as majority of the data resides in the main memory. Therefore, processing in memory can provide a promising solution for the memory wall bottleneck for ML workloads. In this work, we propose a DRAM-based processing-in-memory (PIM) multiplication primitive coupled with intra-bank accumulation to accelerate matrix vector operations in ML workloads. Moreover, we propose a processing-in-memory DRAM bank architecture, data mapping and dataflow based on the proposed primitive. System evaluations performed on networks like AlexNet, VGG16 and ResNet18 show that the proposed architecture, mapping, and data flow can provide up to 23x and 6.5x benefits over a GPU and an ideal conventional (non-PIM) baseline architecture with infinite compute bandwidth, respectively.
翻訳日:2021-05-12 12:07:08 公開日:2021-05-08
# (参考訳) RAIL:Reinforcement-l earning-based Adversarial Imitation Learningのためのモジュラーフレームワーク [全文訳有]

RAIL: A modular framework for Reinforcement-learni ng-based Adversarial Imitation Learning ( http://arxiv.org/abs/2105.03756v1 )

ライセンス: CC BY 4.0
Eddy Hudson and Garrett Warnell and Peter Stone(参考訳) Adversarial Imitation Learning (AIL)アルゴリズムは、最近、様々な模倣学習ベンチマークで最先端の結果をもたらしたが、様々な設計決定がパフォーマンスに与える影響は明らかではない。 そこで本稿では,既存のailアプローチの一般的なサブクラスを包含し,一般化する,強化学習に基づく相反的模倣学習(rail)と呼ばれるモジュール型フレームワークを提案する。 RAILが提案するビューを用いて,SAIfO(SAC-based Adversarial Imitation from Observation)とSILEM(Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch)という2つの新しいifO(Imitation from Observation)アルゴリズムを作成する。 私たちはSILEMについて、別の技術レポートでより深く掘り下げています。 本稿では,SAIfOに着目し,OpenAI Gymのロコモーションタスクのスイートで評価し,FifOを実行する並列RAILアルゴリズムよりも優れていることを示す。

While Adversarial Imitation Learning (AIL) algorithms have recently led to state-of-the-art results on various imitation learning benchmarks, it is unclear as to what impact various design decisions have on performance. To this end, we present here an organizing, modular framework called Reinforcement-learni ng-based Adversarial Imitation Learning (RAIL) that encompasses and generalizes a popular subclass of existing AIL approaches. Using the view espoused by RAIL, we create two new IfO (Imitation from Observation) algorithms, which we term SAIfO: SAC-based Adversarial Imitation from Observation and SILEM (Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch). We go into greater depth about SILEM in a separate technical report. In this paper, we focus on SAIfO, evaluating it on a suite of locomotion tasks from OpenAI Gym, and showing that it outperforms contemporaneous RAIL algorithms that perform IfO.
翻訳日:2021-05-12 11:50:54 公開日:2021-05-08
# (参考訳) 視覚オドメトリーのためのpcaイベントに基づくオティカルフロー [全文訳有]

PCA Event-Based Otical Flow for Visual Odometry ( http://arxiv.org/abs/2105.03760v1 )

ライセンス: CC BY 4.0
Mahmoud Z. Khairallah, Fabien Bonardi, David Roussel and Samia Bouchafa(参考訳) イベントベースカメラのようなニューロモルフィック視覚センサの出現により、ほとんどのコンピュータビジョンアルゴリズムにはパラダイムシフトが必要とされる。 これらのアルゴリズムのうち、オプティカルフロー推定はこの過程の第一候補であり、神経形態的視覚アプローチに関連付けられている。 光流の利用は、その豊かさと正確さのため、ロボット工学の応用で広く使われている。 イベントベース光フロー推定問題に対する主成分分析(PCA)手法を提案する。 そこで本研究では,光学的流れの推定を効果的に向上する様々な正則化手法について検討する。 提案手法の最適変種は,視力計測のリアルタイムな文脈に特化しており,最新の実装に比べて約2倍高速であり,光学的フロー精度は著しく向上している。

With the advent of neuromorphic vision sensors such as event-based cameras, a paradigm shift is required for most computer vision algorithms. Among these algorithms, optical flow estimation is a prime candidate for this process considering that it is linked to a neuromorphic vision approach. Usage of optical flow is widespread in robotics applications due to its richness and accuracy. We present a Principal Component Analysis (PCA) approach to the problem of event-based optical flow estimation. In this approach, we examine different regularization methods which efficiently enhance the estimation of the optical flow. We show that the best variant of our proposed method, dedicated to the real-time context of visual odometry, is about two times faster compared to state-of-the-art implementations while significantly improves optical flow accuracy.
翻訳日:2021-05-12 11:11:18 公開日:2021-05-08
# (参考訳) MetaKernel: 限定ラベルによる変分ランダムな特徴の学習 [全文訳有]

MetaKernel: Learning Variational Random Features with Limited Labels ( http://arxiv.org/abs/2105.03781v1 )

ライセンス: CC BY 4.0
Yingjun Du, Haoliang Sun, Xiantong Zhen, Jun Xu, Yilong Yin, Ling Shao, Cees G. M. Snoek(参考訳) 少数のショット学習は、いくつかの注釈付きサンプルから学習する基礎的かつ困難な問題に対処すると同時に、新しいタスクをうまく一般化することができる。 少数ショット学習の要点は、関連するタスクから事前の知識を抽出し、限られたデータ量で新しいタスクに素早く適応できるようにすることである。 本稿では,メタカーネル(MetaKernel)と呼ぶ,ランダムなフーリエ機能を備えたメタ学習カーネルを提案する。 具体的には,メタラーニング環境において,関連するタスクによって提供される共有知識を活用し,タスク固有のカーネルを得るために,データ駆動方式で変分的ランダム特徴の学習を提案する。 確率的特徴基底を潜在変数として扱い, 変分推論によって推定する。 関連するタスクからの共有知識は、長期記憶モジュールを通じて達成される後部のコンテキスト推論に組み込まれている。 より表現力のあるカーネルを確立するために,結合層に基づく条件付き正規化フローをデプロイし,ランダムなフーリエベース上でよりリッチな後部分布を実現する。 結果として得られるカーネルは、より有益で差別的であり、わずかな学習をさらに改善する。 提案手法を評価するために,少数ショット画像分類と回帰処理の両方について広範な実験を行った。 徹底的なアブレーション研究により,本手法における各成分の有効性が示された。 14のデータセットのベンチマーク結果は、MetaKernelが、最先端の代替よりも、少なくとも同等で、しばしば優れたパフォーマンスを一貫して提供することを示す。

Few-shot learning deals with the fundamental and challenging problem of learning from a few annotated samples, while being able to generalize well on new tasks. The crux of few-shot learning is to extract prior knowledge from related tasks to enable fast adaptation to a new task with a limited amount of data. In this paper, we propose meta-learning kernels with random Fourier features for few-shot learning, we call MetaKernel. Specifically, we propose learning variational random features in a data-driven manner to obtain task-specific kernels by leveraging the shared knowledge provided by related tasks in a meta-learning setting. We treat the random feature basis as the latent variable, which is estimated by variational inference. The shared knowledge from related tasks is incorporated into a context inference of the posterior, which we achieve via a long-short term memory module. To establish more expressive kernels, we deploy conditional normalizing flows based on coupling layers to achieve a richer posterior distribution over random Fourier bases. The resultant kernels are more informative and discriminative, which further improves the few-shot learning. To evaluate our method, we conduct extensive experiments on both few-shot image classification and regression tasks. A thorough ablation study demonstrates that the effectiveness of each introduced component in our method. The benchmark results on fourteen datasets demonstrate MetaKernel consistently delivers at least comparable and often better performance than state-of-the-art alternatives.
翻訳日:2021-05-12 11:01:06 公開日:2021-05-08
# (参考訳) 傾斜ブースト決定木を用いたnli微調整用変圧器 [全文訳有]

Enhancing Transformers with Gradient Boosted Decision Trees for NLI Fine-Tuning ( http://arxiv.org/abs/2105.03791v1 )

ライセンス: CC BY 4.0
Benjamin Minixhofer, Milan Gritta, Ignacio Iacobacci(参考訳) トランスファー学習は多くの自然言語処理タスクにおいて主要なパラダイムとなっている。 大規模なデータセットで事前トレーニングされたモデルに加えて、ターゲットタスクに類似した中間(教師あり)タスクでさらにトレーニングすることができる。 小さな自然言語推論(NLI)データセットの場合、言語モデリングは通常、それぞれのNLIサブタスクで微調整する前に、大きな(ラベル付き)NLIデータセットで事前トレーニングが行われる。 本研究では,多層パーセプトロン(MLP)分類ヘッドの代替として,GBDT(Gradient Boosted Decision Trees)を探索する。 GBDTは、密度の高い数値的特徴に対する優れた性能などの望ましい特性を有し、試料数w.r.tの比率が低い場合に有効である。 次に、微細チューニング中に計算した機能にGBDTヘッドを取り付け、ニューラルネットワークによる計算を必要とせずに性能を向上させるFreeGBDTを紹介する。 強ベースラインモデル (RoBERTa-large with MNLI pretraining) を用いて, 提案手法の有効性を示す。 FreeGBDTは、MPP分類ヘッドよりも一貫した改善を示している。

Transfer learning has become the dominant paradigm for many natural language processing tasks. In addition to models being pretrained on large datasets, they can be further trained on intermediate (supervised) tasks that are similar to the target task. For small Natural Language Inference (NLI) datasets, language modelling is typically followed by pretraining on a large (labelled) NLI dataset before fine-tuning with each NLI subtask. In this work, we explore Gradient Boosted Decision Trees (GBDTs) as an alternative to the commonly used Multi-Layer Perceptron (MLP) classification head. GBDTs have desirable properties such as good performance on dense, numerical features and are effective where the ratio of the number of samples w.r.t the number of features is low. We then introduce FreeGBDT, a method of fitting a GBDT head on the features computed during fine-tuning to increase performance without additional computation by the neural network. We demonstrate the effectiveness of our method on several NLI datasets using a strong baseline model (RoBERTa-large with MNLI pretraining). The FreeGBDT shows a consistent improvement over the MLP classification head.
翻訳日:2021-05-12 10:27:33 公開日:2021-05-08
# (参考訳) minimax問題に対する確率勾配法の安定性と一般化

Stability and Generalization of Stochastic Gradient Methods for Minimax Problems ( http://arxiv.org/abs/2105.03793v1 )

ライセンス: CC BY 4.0
Yunwen Lei, Zhenhuan Yang, Tianbao Yang, Yiming Ying(参考訳) 多くの機械学習問題は、GAN(Generative Adversarial Networks)やAUCの最大化、ロバストな推定といったミニマックス問題として定式化することができる。 多くの研究が確率勾配型アルゴリズムの収束挙動の研究に費やされている。 対照的に、一般化に関する作業は、トレーニング例から構築された学習モデルがテスト例でどのように振る舞うかというように、比較的少ない。 本稿では, アルゴリズム安定性のレンズを用いて, 凸凹および非凸非凸ケースにおけるミニマックス問題に対する確率的勾配法の包括的一般化解析を行う。 安定性といくつかの一般化尺度の間の定量的な関係を期待と高い確率で確立する。 凸凹集合の場合, 確率的勾配降下上昇が滑らかかつ非滑らかなミニマックス問題に対して最適一般化境界に達することを示す。 また,弱凸ウェクリ凸問題と勾配支配問題の両方に対する一般化境界を定式化する。

Many machine learning problems can be formulated as minimax problems such as Generative Adversarial Networks (GANs), AUC maximization and robust estimation, to mention but a few. A substantial amount of studies are devoted to studying the convergence behavior of their stochastic gradient-type algorithms. In contrast, there is relatively little work on their generalization, i.e., how the learning models built from training examples would behave on test examples. In this paper, we provide a comprehensive generalization analysis of stochastic gradient methods for minimax problems under both convex-concave and nonconvex-nonconcave cases through the lens of algorithmic stability. We establish a quantitative connection between stability and several generalization measures both in expectation and with high probability. For the convex-concave setting, our stability analysis shows that stochastic gradient descent ascent attains optimal generalization bounds for both smooth and nonsmooth minimax problems. We also establish generalization bounds for both weakly-convex-weakly -concave and gradient-dominated problems.
翻訳日:2021-05-12 10:14:19 公開日:2021-05-08
# 外部文脈検索と協調学習による名前付きエンティティ認識の改善

Improving Named Entity Recognition by External Context Retrieving and Cooperative Learning ( http://arxiv.org/abs/2105.03654v1 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) 名前付きエンティティ認識(NER)の最近の進歩は、文書レベルのコンテキストがモデルの性能を大幅に改善できることを示している。 しかし、多くのアプリケーションシナリオでは、そのようなコンテキストは利用できない。 本稿では,原文を問合せとして,検索エンジンを通じて意味的関連テキストの集合を検索し,選択することで,文の外部コンテキストを見つけることを提案する。 文章の結合とその外部の文脈によって構築された検索ベースの入力ビューで計算された文脈表現は、文章のみに基づく元の入力ビューに比べて大幅に性能が向上することを示す。 さらに,2つの入力ビューに類似した文脈表現や出力ラベル分布を生成するトレーニング手法であるCooperative Learningにより,両方の入力ビューのモデル性能を向上させることができる。 実験の結果,5つのドメインにわたる8つのnerデータセットにおいて,新たな最先端のパフォーマンスを実現することができた。

Recent advances in Named Entity Recognition (NER) show that document-level contexts can significantly improve model performance. In many application scenarios, however, such contexts are not available. In this paper, we propose to find external contexts of a sentence by retrieving and selecting a set of semantically relevant texts through a search engine, with the original sentence as the query. We find empirically that the contextual representations computed on the retrieval-based input view, constructed through the concatenation of a sentence and its external contexts, can achieve significantly improved performance compared to the original input view based only on the sentence. Furthermore, we can improve the model performance of both input views by Cooperative Learning, a training method that encourages the two input views to produce similar contextual representations or output label distributions. Experiments show that our approach can achieve new state-of-the-art performance on 8 NER data sets across 5 domains.
翻訳日:2021-05-11 15:25:12 公開日:2021-05-08
# e-ViL:視覚言語課題における自然言語説明のためのデータセットとベンチマーク

e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks ( http://arxiv.org/abs/2105.03761v1 )

ライセンス: Link先を確認
Maxime Kayser, Oana-Maria Camburu, Leonard Salewski, Cornelius Emde, Virginie Do, Zeynep Akata, Thomas Lukasiewicz(参考訳) 近年では、視覚言語(vl)タスクの予測のために自然言語説明(nles)を生成できるモデルが導入されている。 このようなモデルは、人間にやさしく包括的な説明を提供できるので魅力的である。 しかし、これらのモデルによって生成された説明に対して統一的な評価アプローチがまだ存在しない。 さらに、現在VLタスク用のNLEのデータセットはごくわずかである。 本稿では,統合評価フレームワークを構築し,VLタスクのためのNLEを生成する既存のアプローチを総合的に比較した,説明可能な視覚言語タスクのベンチマークであるe-ViLを紹介する。 e-ViLは4つのモデルと3つのデータセットにまたがる。 自動測定と人的評価の両方が、モデル生成の説明を評価するために使用される。 また、NLE(430kインスタンス以上)を持つ既存のVLデータセットとしては最大であるe-SNLI-VEを紹介します。 最後に,画像とテキストの共同埋め込みを学習するUNITERと,テキスト生成に適した事前学習型言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。 これまでの最先端のデータを、すべてのデータセットで大きく上回っている。

Recently, an increasing number of works have introduced models capable of generating natural language explanations (NLEs) for their predictions on vision-language (VL) tasks. Such models are appealing because they can provide human-friendly and comprehensive explanations. However, there is still a lack of unified evaluation approaches for the explanations generated by these models. Moreover, there are currently only few datasets of NLEs for VL tasks. In this work, we introduce e-ViL, a benchmark for explainable vision-language tasks that establishes a unified evaluation framework and provides the first comprehensive comparison of existing approaches that generate NLEs for VL tasks. e-ViL spans four models and three datasets. Both automatic metrics and human evaluation are used to assess model-generated explanations. We also introduce e-SNLI-VE, the largest existing VL dataset with NLEs (over 430k instances). Finally, we propose a new model that combines UNITER, which learns joint embeddings of images and text, and GPT-2, a pre-trained language model that is well-suited for text generation. It surpasses the previous state-of-the-art by a large margin across all datasets.
翻訳日:2021-05-11 15:24:59 公開日:2021-05-08
# Facial Emotion Recognition: State of the Art Performance on FER2013

Facial Emotion Recognition: State of the Art Performance on FER2013 ( http://arxiv.org/abs/2105.03588v1 )

ライセンス: Link先を確認
Yousif Khaireddin, Zhuofa Chen(参考訳) 顔の感情認識(FER)は、臨床や行動記述などの人間とコンピュータの相互作用において重要である。 コンピュータモデルによる正確かつ堅牢なFERは、人間の顔の不均一性や、異なる顔のポーズや照明などの画像の変化により、依然として困難である。 FERのすべての技術の中で、ディープラーニングモデル、特に畳み込みニューラルネットワーク(CNN)は、強力な自動特徴抽出と計算効率のために大きな可能性を示している。 本研究では、FER2013データセット上で最も高いシングルネットワーク分類精度を実現する。 我々はvggnetアーキテクチャを採用し,そのハイパーパラメータを厳密に微調整し,様々な最適化手法を実験した。 我々の知る限り、我々のモデルは、追加のトレーニングデータを用いることなく、FER2013において最先端のシングルネットワーク精度73.28 %を達成する。

Facial emotion recognition (FER) is significant for human-computer interaction such as clinical practice and behavioral description. Accurate and robust FER by computer models remains challenging due to the heterogeneity of human faces and variations in images such as different facial pose and lighting. Among all techniques for FER, deep learning models, especially Convolutional Neural Networks (CNNs) have shown great potential due to their powerful automatic feature extraction and computational efficiency. In this work, we achieve the highest single-network classification accuracy on the FER2013 dataset. We adopt the VGGNet architecture, rigorously fine-tune its hyperparameters, and experiment with various optimization methods. To our best knowledge, our model achieves state-of-the-art single-network accuracy of 73.28 % on FER2013 without using extra training data.
翻訳日:2021-05-11 15:24:04 公開日:2021-05-08
# 表現学習のためのコントラスト条件伝達

Contrastive Conditional Transport for Representation Learning ( http://arxiv.org/abs/2105.03746v1 )

ライセンス: Link先を確認
Huangjie Zheng, Xu Chen, Jiangchao Yao, Hongxia Yang, Chunyuan Li, Ya Zhang, Hao Zhang, Ivor Tsang, Jingren Zhou, Mingyuan Zhou(参考訳) コントラスト学習(CL)はラベルの監督なしにデータ表現を学習することで大きな成功を収めた。 しかし、従来のCL損失は、負のサンプルがいくつ含まれ、どのように選択されるかに敏感である。 本稿では,無作為なクエリを描画し,正のサンプルと負のサンプルをランダムに選択し,それらのサンプルをクエリとの距離に応じて比較的に重み付けし,より遠く離れた正のサンプルをクエリにプルし,さらに近い負のサンプルをクエリからプッシュすることで,clロスを定義するコントラスト条件トランスポート(cct)を提案する。 理論的解析により、この一意的な対比的重み付けスキームは、正のサンプルとクエリを整合させ、負のサンプルとクエリの間の相互情報を減らすのに役立つ。 標準的な視覚タスクに関する大規模な実験により、CCTはコントラスト表現学習において、ベンチマークデータセット上の既存のメソッドを一貫して上回るだけでなく、解釈可能なコントラスト重みや潜在表現も提供することが示された。 PyTorchコードは提供される。

Contrastive learning (CL) has achieved remarkable success in learning data representations without label supervision. However, the conventional CL loss is sensitive to how many negative samples are included and how they are selected. This paper proposes contrastive conditional transport (CCT) that defines its CL loss over dependent sample-query pairs, which in practice is realized by drawing a random query, randomly selecting positive and negative samples, and contrastively reweighting these samples according to their distances to the query, exerting a greater force to both pull more distant positive samples towards the query and push closer negative samples away from the query. Theoretical analysis shows that this unique contrastive reweighting scheme helps in the representation space to both align the positive samples with the query and reduce the mutual information between the negative sample and query. Extensive large-scale experiments on standard vision tasks show that CCT not only consistently outperforms existing methods on benchmark datasets in contrastive representation learning but also provides interpretable contrastive weights and latent representations. PyTorch code will be provided.
翻訳日:2021-05-11 15:23:53 公開日:2021-05-08
# NLPモデルに対する最適ロバスト記述の保証について

On Guaranteed Optimal Robust Explanations for NLP Models ( http://arxiv.org/abs/2105.03640v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Agnieszka Zbrzezny, Rhiannon Michelmore, Nicola Paoletti and Marta Kwiatkowska(参考訳) 本研究では,マシーン学習のための推論に基づく説明を構築し,自然言語処理(NLP)におけるニューラルネットワークモデルの局所的説明を計算する手法を開発した。 我々の説明は2つの重要な特徴を満たす出力テキストの単語のサブセットから構成されている。 説明の長さや頑健性といったユーザ定義のコスト関数は、単語の埋め込み空間における任意の有界摂動に対する予測不変性を保証する。 我々は,暗黙の打撃集合と最大普遍部分集合に基づく2つの解法を提示し,ハードインスタンスの収束を高速化するためのアルゴリズム改善を多数導入した。 提案手法は, 組込み空間における異なる摂動集合で構成可能であり, バイアス項に制約を含まないことで予測のバイアスを検出するとともに, アンカーのような既存のヒューリスティックなNLP説明フレームワークを拡張できることを示す。 我々は,SST,Twitter,IMDBデータセットから最大100ワードまでの感情分析タスクとテキストを3つのフレームワークで評価し,提案手法の有効性を実証した。

We build on abduction-based explanations for ma-chine learning and develop a method for computing local explanations for neural network models in natural language processing (NLP). Our explanations comprise a subset of the words of the in-put text that satisfies two key features: optimality w.r.t. a user-defined cost function, such as the length of explanation, and robustness, in that they ensure prediction invariance for any bounded perturbation in the embedding space of the left out words. We present two solution algorithms, respectively based on implicit hitting sets and maximum universal subsets, introducing a number of algorithmic improvements to speed up convergence of hard instances. We show how our method can be con-figured with different perturbation sets in the em-bedded space and used to detect bias in predictions by enforcing include/exclude constraints on biased terms, as well as to enhance existing heuristic-based NLP explanation frameworks such as Anchors. We evaluate our framework on three widely used sentiment analysis tasks and texts of up to100words from SST, Twitter and IMDB datasets,demonstrati ng the effectiveness of the derived explanations.
翻訳日:2021-05-11 15:22:13 公開日:2021-05-08
# 音声ガイドソフトマックスを用いたニューラルテキスト生成

Neural Text Generation with Part-of-Speech Guided Softmax ( http://arxiv.org/abs/2105.03641v1 )

ライセンス: Link先を確認
Zhixian Yang, Xiaojun Wan(参考訳) ニューラルテキスト生成モデルは、低多様性の問題に苦しむ可能性が高い。 様々な復号戦略や訓練に基づく手法が提案されており、文脈的特徴を利用するだけで多様性を促進することができる。 そこで本研究では,テキスト生成の指導に言語アノテーション,すなわちPOS(Part-of-speech)を用いることを提案する。 本報告では,POSガイドソフトマックス (POSG-Softmax) を用いて, (i) next-POS と (ii) next-token の2つの後方確率をモデル化する。 POSの多様性を豊かにすることで、低多様性問題に対処するPOSガイドサンプリング戦略が提案されている。 提案手法は,既存の最先端手法と比較して,同等の品質を維持しつつ,より多様なテキストを生成することができることを示す。

Neural text generation models are likely to suffer from the low-diversity problem. Various decoding strategies and training-based methods have been proposed to promote diversity only by exploiting contextual features, but rarely do they consider incorporating syntactic structure clues. In this work, we propose using linguistic annotation, i.e., part-of-speech (POS), to guide the text generation. In detail, we introduce POS Guided Softmax (POSG-Softmax) to explicitly model two posterior probabilities: (i) next-POS, and (ii) next-token from the vocabulary of the target POS. A POS guided sampling strategy is further proposed to address the low-diversity problem by enriching the diversity of POS. Extensive experiments and human evaluations demonstrate that, compared with existing state-of-the-art methods, our proposed methods can generate more diverse text while maintaining comparable quality.
翻訳日:2021-05-11 15:21:54 公開日:2021-05-08
# AnomalyHop:SSLベースの画像異常ローカライゼーション方法

AnomalyHop: An SSL-based Image Anomaly Localization Method ( http://arxiv.org/abs/2105.03797v1 )

ライセンス: Link先を確認
Kaitai Zhang, Bin Wang, Wei Wang, Fahad Sohrab, Moncef Gabbouj and C.-C. Jay Kuo(参考訳) 本研究では,AnomalyHopと呼ばれる連続的なサブスペース学習(SSL)フレームワークに基づく画像異常ローカライズ手法を提案する。 anomalyhop は,1) 連続部分空間学習(ssl)による特徴抽出,2) ガウスモデルによる正規性特徴分布モデリング,3) 異常マップ生成と融合の3つのモジュールで構成される。 ディープニューラルネットワーク(DNN)に基づく最先端の画像異常ローカライゼーション手法と比較して、AnomalyHopは数学的に透明で、訓練が容易で、推論速度が速い。 さらに、MVTec ADデータセットのROC曲線(ROC-AUC)の領域は95.9%であり、これはいくつかのベンチマーク手法の中でも最高のものである。 私たちのコードはgithubで公開されている。

An image anomaly localization method based on the successive subspace learning (SSL) framework, called AnomalyHop, is proposed in this work. AnomalyHop consists of three modules: 1) feature extraction via successive subspace learning (SSL), 2) normality feature distributions modeling via Gaussian models, and 3) anomaly map generation and fusion. Comparing with state-of-the-art image anomaly localization methods based on deep neural networks (DNNs), AnomalyHop is mathematically transparent, easy to train, and fast in its inference speed. Besides, its area under the ROC curve (ROC-AUC) performance on the MVTec AD dataset is 95.9%, which is among the best of several benchmarking methods. Our codes are publicly available at Github.
翻訳日:2021-05-11 15:21:15 公開日:2021-05-08
# Siamese Graph Convolutional Networksとビジネスエンティティマッチング

Business Entity Matching with Siamese Graph Convolutional Networks ( http://arxiv.org/abs/2105.03701v1 )

ライセンス: Link先を確認
Evgeny Krivosheev, Mattia Atzeni, Katsiaryna Mirylenka, Paolo Scotton, Christoph Miksovic, Anton Zorin(参考訳) データ統合は数十年にわたって広く研究され、異なる角度からアプローチされてきた。 しかし、このドメインは依然としてルール駆動であり、普遍的な自動化がない。 最近の機械学習や特にディープラーニングの発展は、データ統合タスクに対するより汎用的で効率的なソリューションへの道を開いた。 本稿では,それらの関係や文脈情報を活用することによって,エンティティのモデリングと統合を可能にするアプローチを示す。 siameseとgraphニューラルネットワークを組み合わせることで、接続されたエンティティ間の情報を効果的に伝搬し、高いスケーラビリティをサポートする。 我々は、従来のルールベースシステムと他のディープラーニングアプローチよりも優れていることを示すとともに、ビジネスエンティティに関するデータを統合するタスクに対するアプローチを評価した。

Data integration has been studied extensively for decades and approached from different angles. However, this domain still remains largely rule-driven and lacks universal automation. Recent developments in machine learning and in particular deep learning have opened the way to more general and efficient solutions to data-integration tasks. In this paper, we demonstrate an approach that allows modeling and integrating entities by leveraging their relations and contextual information. This is achieved by combining siamese and graph neural networks to effectively propagate information between connected entities and support high scalability. We evaluated our approach on the task of integrating data about business entities, demonstrating that it outperforms both traditional rule-based systems and other deep learning approaches.
翻訳日:2021-05-11 15:19:20 公開日:2021-05-08
# Generative Actor-Critic: Push-forwardモデルを用いたオフポリシーアルゴリズム

Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model ( http://arxiv.org/abs/2105.03733v1 )

ライセンス: Link先を確認
Peng Lingwei(参考訳) モデルなしの深層強化学習は、ビデオゲーム、レコメンデーションシステム、ロボット制御タスクなど、多くの領域で大きな成功を収めている。 連続制御タスクでは、ガウス分布を持つ広く使われるポリシーは、多くの場合、環境の非効率的な探索とアルゴリズムの性能の制限をもたらす。 本稿では,政策の表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズム(GAC)を提案し,また,探索と搾取のバランスをとるためにエントロピー的手法であるMDDエントロピー正規化器を含む。 さらに,このレギュレータを自動スケールする適応機構を考案し,GACの安定性と堅牢性をさらに向上させる。 実験結果から, プッシュフォワードポリシには, 探索効率の向上やアルゴリズムの漸近性能の向上など, 望ましい特徴があることが明らかとなった。

Model-free deep reinforcement learning has achieved great success in many domains, such as video games, recommendation systems and robotic control tasks. In continuous control tasks, widely used policies with Gaussian distributions results in ineffective exploration of environments and limited performance of algorithms in many cases. In this paper, we propose a density-free off-policy algorithm, Generative Actor-Critic(GAC), using the push-forward model to increase the expressiveness of policies, which also includes an entropy-like technique, MMD-entropy regularizer, to balance the exploration and exploitation. Additionnally, we devise an adaptive mechanism to automatically scale this regularizer, which further improves the stability and robustness of GAC. The experiment results show that push-forward policies possess desirable features, such as multi-modality, which can improve the efficiency of exploration and asymptotic performance of algorithms obviously.
翻訳日:2021-05-11 15:19:10 公開日:2021-05-08
# 微分木モジュールを用いた解釈可能な混合密度推定

Interpretable Mixture Density Estimation by use of Differentiable Tree-module ( http://arxiv.org/abs/2105.03616v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Tomu Yanabe(参考訳) 機械学習を用いて信頼性の高いサービスを開発するためには,モデル出力の不確実性を理解することが重要である。 予測対象が従う確率分布は複雑であり、不確実性が従う分布として混合分布が仮定されることが多い。 混合密度推定の出力は複雑であるため、実際のサービスでの利用を考えると、その解釈性が重要となる。 本稿では,解釈可能な木構造を用いた混合密度推定手法を提案する。 さらに、時間不変情報キャッシュに基づく高速推論処理は、高速かつ解釈性の両方を達成する。

In order to develop reliable services using machine learning, it is important to understand the uncertainty of the model outputs. Often the probability distribution that the prediction target follows has a complex shape, and a mixture distribution is assumed as a distribution that uncertainty follows. Since the output of mixture density estimation is complicated, its interpretability becomes important when considering its use in real services. In this paper, we propose a method for mixture density estimation that utilizes an interpretable tree structure. Further, a fast inference procedure based on time-invariant information cache achieves both high speed and interpretability.
翻訳日:2021-05-11 15:17:18 公開日:2021-05-08
# パラメトリックホークスの細粒度$\epsilon$-margin閉形式安定化

Fine-Grained $\epsilon$-Margin Closed-Form Stabilization of Parametric Hawkes Processes ( http://arxiv.org/abs/2105.03800v1 )

ライセンス: Link先を確認
Rafael Lima(参考訳) hawkesプロセスは、連続時間イベントストリームにおける離散イベントの自己および相互にエキサイティングなインタラクションをモデリングするためのデフォルトツールとして人気が高まっている。 MLE(Maximum Likelihood Estimation)は、対応する強度関数のトリガーカーネルをパラメトリックに仮定した形に制限のない最適化手順であり、特に少ないシーケンスや短いシーケンスのデータに向いている。 しかし、MLE最適化には、トリガーカーネルのパラメータに関する強い仮定を除いて保証が欠如しており、その結果のパラメータの不安定性につながる可能性がある。本研究では、これらの過度に制限された仮定を伴わずに、単純な安定化手順によってMLE最適化の性能が向上することを示す。

Hawkes Processes have undergone increasing popularity as default tools for modeling self- and mutually exciting interactions of discrete events in continuous-time event streams. A Maximum Likelihood Estimation (MLE) unconstrained optimization procedure over parametrically assumed forms of the triggering kernels of the corresponding intensity function are a widespread cost-effective modeling strategy, particularly suitable for data with few and/or short sequences. However, the MLE optimization lacks guarantees, except for strong assumptions on the parameters of the triggering kernels, and may lead to instability of the resulting parameters .In the present work, we show how a simple stabilization procedure improves the performance of the MLE optimization without these overly restrictive assumptions.This stabilized version of the MLE is shown to outperform traditional methods over sequences of several different lengths.
翻訳日:2021-05-11 15:17:11 公開日:2021-05-08
# 損失耐性連合学習

Loss Tolerant Federated Learning ( http://arxiv.org/abs/2105.03591v1 )

ライセンス: Link先を確認
Pengyuan Zhou, Pei Fang, Pan Hui(参考訳) 近年,プライバシー保護を伴う分散デバイス上でのデータの協調学習が注目されている。 モバイルとIoTデバイスの限られたネットワーク容量は、デバイス間フェデレーション学習における大きな課題の1つと見なされている。 近年,通信効率を確保するためのしきい値ベースのクライアント選択方式に注目している。 しかし,このアプローチはクライアントの選択に偏りが生じ,性能が低下する可能性がある。 さらに,ネットワーク制限の課題が過大評価されている場合もあり,パケット損失が必ずしも有害であるとは限らない。 本稿では,損失耐性フェデレート学習(LT-FL)について,アグリゲーション,フェアネス,パーソナライゼーションの観点から検討する。 我々はThrowRightAway (TRA) を用いて、パケット損失を意図的に無視することで、低帯域デバイスのデータアップロードを高速化する。 その結果、traと他のアルゴリズムは、一定の割合(10%-30%)以下のパケット損失に直面して、パーソナライズと公平性のパフォーマンスを共に保証できることが示唆された。

Federated learning has attracted attention in recent years for collaboratively training data on distributed devices with privacy-preservation . The limited network capacity of mobile and IoT devices has been seen as one of the major challenges for cross-device federated learning. Recent solutions have been focusing on threshold-based client selection schemes to guarantee the communication efficiency. However, we find this approach can cause biased client selection and results in deteriorated performance. Moreover, we find that the challenge of network limit may be overstated in some cases and the packet loss is not always harmful. In this paper, we explore the loss tolerant federated learning (LT-FL) in terms of aggregation, fairness, and personalization. We use ThrowRightAway (TRA) to accelerate the data uploading for low-bandwidth-device s by intentionally ignoring some packet losses. The results suggest that, with proper integration, TRA and other algorithms can together guarantee the personalization and fairness performance in the face of packet loss below a certain fraction (10%-30%).
翻訳日:2021-05-11 15:11:32 公開日:2021-05-08
# 特徴粗化による大規模多孔質流予測のためのディープラーニング性能の向上

Improving Deep Learning Performance for Predicting Large-Scale Porous-Media Flow through Feature Coarsening ( http://arxiv.org/abs/2105.03752v1 )

ライセンス: Link先を確認
Bicheng Yan, Dylan Robert Harp, Bailian Chen, Rajesh J. Pawar(参考訳) 多孔質媒質中の流体流動の物理シミュレーションは、状態変数の時間空間的進化を予測するための計算技術である。 圧力) 多孔質媒質中では, 通常は非線形性や研究領域の規模により高い計算コストが要求される。 本文では, 大規模3次元多孔質媒質中の流体の流れとして圧力変化を予測するための深層学習(DL)ワークフローについて述べる。 特に,最も代表的な情報を抽出し,粗いスケールでDLのトレーニングと予測を行い,さらに2次元立方体補間により微細スケールでの分解能を復元する特徴粗化手法を適用した。 物理シミュレーションデータからトレーニングしたDL手法を用いて,フィールドスケールの3次元地質CO_2貯留層における圧力場を予測する。 我々は,特徴粗化がDL性能に与える影響を評価し,特徴粗化がトレーニング時間を74%削減し,メモリ消費を75%削減するだけでなく,時間誤差を1.5%維持することを示した。 さらに、DLワークフローは物理ベースのシミュレーションに比べて約1400倍のスピードアップで予測効率を提供する。

Physics-based simulation for fluid flow in porous media is a computational technology to predict the temporal-spatial evolution of state variables (e.g. pressure) in porous media, and usually requires high computational expense due to its nonlinearity and the scale of the study domain. This letter describes a deep learning (DL) workflow to predict the pressure evolution as fluid flows in large-scale 3D heterogeneous porous media. In particular, we apply feature coarsening technique to extract the most representative information and perform the training and prediction of DL at the coarse scale, and further recover the resolution at the fine scale by 2D piecewise cubic interpolation. We validate the DL approach that is trained from physics-based simulation data to predict pressure field in a field-scale 3D geologic CO_2 storage reservoir. We evaluate the impact of feature coarsening on DL performance, and observe that the feature coarsening can not only decrease training time by >74% and reduce memory consumption by >75%, but also maintains temporal error <1.5%. Besides, the DL workflow provides predictive efficiency with ~1400 times speedup compared to physics-based simulation.
翻訳日:2021-05-11 15:11:17 公開日:2021-05-08
# NLP-IIS@UT at SemEval-2021 Task 4: Long Document Transformer を用いた機械読解

NLP-IIS@UT at SemEval-2021 Task 4: Machine Reading Comprehension using the Long Document Transformer ( http://arxiv.org/abs/2105.03775v1 )

ライセンス: Link先を確認
Hossein Basafa, Sajad Movahedi, Ali Ebrahimi, Azadeh Shakery and Heshaam Faili(参考訳) 本稿では,SemEval-2021の4番目の課題である「抽象的意味の理解」に関する技術的報告を紹介する。 このタスクでは、状況に応じた質問に基づいて正しい回答を予測したい。 通常、コンテキストは非常に長く、モデルから大きな受容フィールドを必要とする。 したがって、bertのような一般的なコンテキスト化言語モデルは、入力トークンの容量が限られているため、詳細な表現とパフォーマンスを欠いている。 この問題に対処するために、Longformerモデルを使い、シーケンスをよりよく処理しました。 さらに,wikihopデータセットのlongformerベンチマークで提案する手法を用いて,サブタスク1と2のベースラインで達成したタスクデータの精度を23.01%,22.95%から70.30%,64.38%に改善した。

This paper presents a technical report of our submission to the 4th task of SemEval-2021, titled: Reading Comprehension of Abstract Meaning. In this task, we want to predict the correct answer based on a question given a context. Usually, contexts are very lengthy and require a large receptive field from the model. Thus, common contextualized language models like BERT miss fine representation and performance due to the limited capacity of the input tokens. To tackle this problem, we used the Longformer model to better process the sequences. Furthermore, we utilized the method proposed in the Longformer benchmark on Wikihop dataset which improved the accuracy on our task data from 23.01% and 22.95% achieved by the baselines for subtask 1 and 2, respectively, to 70.30% and 64.38%.
翻訳日:2021-05-11 15:10:07 公開日:2021-05-08
# 非定常分布に対する適応潜在空間チューニング

Adaptive Latent Space Tuning for Non-Stationary Distributions ( http://arxiv.org/abs/2105.03584v1 )

ライセンス: Link先を確認
Alexander Scheinker, Frederick Cropp, Sergio Paiagua, Daniele Filippetto(参考訳) 畳み込みニューラルネットワーク(CNN)のような強力なディープラーニングツールは、データから直接大規模な複雑なシステムの入出力関係を学習することができる。 エンコーダデコーダディープcnnは、画像から直接特徴を抽出し、一般的な低次元の潜在空間内でスカラー入力と混合し、複雑な物理現象を表す新しい複雑な2d出力を生成することができる。 ディープラーニング手法が直面する重要な課題の1つは、再学習が不可能な時間とともに特徴が急速に変化する大規模非定常システムである。 本稿では,リアルタイムフィードバックに基づくディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。 電場加速と集束磁界)が時間とともに急速に変化している粒子加速器において、時間変化の粒子ビームの特性を予測するための我々の手法を実証する。

Powerful deep learning tools, such as convolutional neural networks (CNN), are able to learn the input-output relationships of large complicated systems directly from data. Encoder-decoder deep CNNs are able to extract features directly from images, mix them with scalar inputs within a general low-dimensional latent space, and then generate new complex 2D outputs which represent complex physical phenomenon. One important challenge faced by deep learning methods is large non-stationary systems whose characteristics change quickly with time for which re-training is not feasible. In this paper we present a method for adaptive tuning of the low-dimensional latent space of deep encoder-decoder style CNNs based on real-time feedback to quickly compensate for unknown and fast distribution shifts. We demonstrate our approach for predicting the properties of a time-varying charged particle beam in a particle accelerator whose components (accelerating electric fields and focusing magnetic fields) are also quickly changing with time.
翻訳日:2021-05-11 15:09:55 公開日:2021-05-08
# 確率的決定木を学ぶ

Learning stochastic decision trees ( http://arxiv.org/abs/2105.03594v1 )

ライセンス: Link先を確認
Guy Blanc and Jane Lange and Li-Yang Tan(参考訳) 対向雑音に最適な確率的決定木を学習するための準多項式時間アルゴリズムを提案する。 サイズ-s$ 確率的決定木でラベル付けされた一様ランダムなサンプルの$\eta$ が与えられると、アルゴリズムは時間$n^{o(\log(s/\varepsilon )/\varepsilon^2)} で実行され、ベイズの最適値の2\eta + \varepsilon$ 内の誤差を持つ仮説を返す。 追加の$2\eta$は情報理論の最小値である。 以前は、より弱いノイズモデルであっても、$O(\eta) + \varepsilon$を保証する非自明なアルゴリズムは知られていない。 我々のアルゴリズムはさらに適切であり、それ自体が決定木である仮説を返す。

We give a quasipolynomial-time algorithm for learning stochastic decision trees that is optimally resilient to adversarial noise. Given an $\eta$-corrupted set of uniform random samples labeled by a size-$s$ stochastic decision tree, our algorithm runs in time $n^{O(\log(s/\varepsilon )/\varepsilon^2)}$ and returns a hypothesis with error within an additive $2\eta + \varepsilon$ of the Bayes optimal. An additive $2\eta$ is the information-theoreti c minimum. Previously no non-trivial algorithm with a guarantee of $O(\eta) + \varepsilon$ was known, even for weaker noise models. Our algorithm is furthermore proper, returning a hypothesis that is itself a decision tree; previously no such algorithm was known even in the noiseless setting.
翻訳日:2021-05-11 15:09:40 公開日:2021-05-08
# 初期停止ミラー降下によるノイズスパース位相検索における準最小最適速度

Nearly Minimax-Optimal Rates for Noisy Sparse Phase Retrieval via Early-Stopped Mirror Descent ( http://arxiv.org/abs/2105.03678v1 )

ライセンス: Link先を確認
Fan Wu, Patrick Rebeschini(参考訳) 本稿では,雑音による2次ガウス測度から$k$sparse信号 $\mathbf{x}^\star\in\mathbb{R}^n$ を復元する問題である雑音のスパース位相探索に適用した初期停止ミラー降下について検討する。 非凸)非正規化経験的リスク最小化問題を考えると、双曲的エントロピーミラーマップと適切な初期化を備えると、サンプルサイズが少なくとも$k^2$ (modulo logarithmic term) であり、信号の最小(モジュラー内)非零入力が$\|\mathbf{x}^\star\|_2/\sqrt{k}$ の順であることから、初期停止ミラー降下は、ほぼ最小の最適収束率を達成する。 我々の理論は、空間性を促進するために明示的な正規化やしきい値化のステップに依存しない単純なアルゴリズムにつながる。 より一般に, 雑音下スパース位相検索の非凸問題におけるミラー降下とスパース性の関係が確立され, 勾配降下による非スパース, ユークリッド, 凸設定に主に焦点をあてた早期停止に関する文献が追加されている。 この証明は、ミラー降下のポテンシャルに基づく解析と、ミラー降下の経路に沿って確立される変動コヒーレンス特性を、所定の停止時間まで定量的に制御することを組み合わせたものである。

This paper studies early-stopped mirror descent applied to noisy sparse phase retrieval, which is the problem of recovering a $k$-sparse signal $\mathbf{x}^\star\in\mathbb{R}^n$ from a set of quadratic Gaussian measurements corrupted by sub-exponential noise. We consider the (non-convex) unregularized empirical risk minimization problem and show that early-stopped mirror descent, when equipped with the hyperbolic entropy mirror map and proper initialization, achieves a nearly minimax-optimal rate of convergence, provided the sample size is at least of order $k^2$ (modulo logarithmic term) and the minimum (in modulus) non-zero entry of the signal is on the order of $\|\mathbf{x}^\star\|_2/\sqrt{k}$. Our theory leads to a simple algorithm that does not rely on explicit regularization or thresholding steps to promote sparsity. More generally, our results establish a connection between mirror descent and sparsity in the non-convex problem of noisy sparse phase retrieval, adding to the literature on early stopping that has mostly focused on non-sparse, Euclidean, and convex settings via gradient descent. Our proof combines a potential-based analysis of mirror descent with a quantitative control on a variational coherence property that we establish along the path of mirror descent, up to a prescribed stopping time.
翻訳日:2021-05-11 15:09:21 公開日:2021-05-08
# 自己拡張と適合性を用いたデータ汚染防止対策

Provable Guarantees against Data Poisoning Using Self-Expansion and Compatibility ( http://arxiv.org/abs/2105.03692v1 )

ライセンス: Link先を確認
Charles Jin, Melinda Sun, Martin Rinard(参考訳) 最近の研究で、ディープネットワークはバックドアデータ中毒の攻撃を受けやすいことが示されている。 具体的には、少数の悪意のあるデータをトレーニング分布に注入することにより、敵は推論中にモデルの振る舞いを制御する能力を得る。 本研究では,このトレーニングセットから有毒データを除去する反復的なトレーニング手順を提案する。 私たちのアプローチは2つのステップからなる。 まず,弱い学習者のアンサンブルを訓練し,学習セットの異なる部分集団を自動的に発見する。 そして、クリーンなデータを復元するためにブースティングフレームワークを利用します。 実験的な方法では,クリーンかつ汚いラベル攻撃を含む,最先端のバックドア攻撃に対する防御に成功している。 また,最近の<textit{adaptive}中毒攻撃を含む,独立した第三者による評価結果も提示する。 その結果,本手法はディープニューラルネットワークにおけるバックドア攻撃に対する既存の防御と競合することを示し,いくつかのシナリオにおいて最先端を著しく上回っている。

A recent line of work has shown that deep networks are highly susceptible to backdoor data poisoning attacks. Specifically, by injecting a small amount of malicious data into the training distribution, an adversary gains the ability to control the model's behavior during inference. In this work, we propose an iterative training procedure for removing poisoned data from the training set. Our approach consists of two steps. We first train an ensemble of weak learners to automatically discover distinct subpopulations in the training set. We then leverage a boosting framework to recover the clean data. Empirically, our method successfully defends against several state-of-the-art backdoor attacks, including both clean and dirty label attacks. We also present results from an independent third-party evaluation including a recent \textit{adaptive} poisoning adversary. The results indicate our approach is competitive with existing defenses against backdoor attacks on deep neural networks, and significantly outperforms the state-of-the-art in several scenarios.
翻訳日:2021-05-11 15:08:47 公開日:2021-05-08
# クラスタ間の個人の関心を保護する - 保証付きスペクトルクラスタリング

Protecting Individual Interests across Clusters: Spectral Clustering with Guarantees ( http://arxiv.org/abs/2105.03714v1 )

ライセンス: Link先を確認
Shubham Gupta and Ambedkar Dukkipati(参考訳) 機械学習における公正性に関する研究は、近年、高い意思決定におけるその絶え間ない役割により、勢いを増している。 例えば、アルゴリズムによって発見された全てのクラスタが、性別の多様性が高いことを保証することが望ましい。 従来、これらの問題は、クラスタ間の多様性を規定する公平性条件が観測可能であると仮定されるため、保護されたグループが容易に利用できるという設定の下で研究されてきた。 ほとんどの場合、これは真実ではないかもしれないし、多様性や個人の興味は、ソーシャルネットワークの本質的または潜伏的な特徴として現れうる。 例えば、潜伏感のある属性に依存すると、個人は相互に相互作用し、互いの興味を表現し、結果としてネットワークとなり、それを表現グラフと呼ぶ。 これを動機として、グラフ $\mathcal{G}$ をクラスタリングする個々の公正度基準を提案し、各クラスタは表現グラフ $\mathcal{R}$ の下で、個人に連結された適切な数のメンバを含む必要がある。 スペクトルクラスタリングアルゴリズムを考案し、与えられた表現グラフの下で公正なクラスターを見つける。 さらに,確率ブロックモデルの変種を提案し,このモデルの下でのアルゴリズムの弱い一貫性を確立する。 最後に, 理論的知見を裏付ける実験結果を示す。

Studies related to fairness in machine learning have recently gained traction due to its ever-expanding role in high-stakes decision making. For example, it may be desirable to ensure that all clusters discovered by an algorithm have high gender diversity. Previously, these problems have been studied under a setting where sensitive attributes, with respect to which fairness conditions impose diversity across clusters, are assumed to be observable; hence, protected groups are readily available. Most often, this may not be true, and diversity or individual interests can manifest as an intrinsic or latent feature of a social network. For example, depending on latent sensitive attributes, individuals interact with each other and represent each other's interests, resulting in a network, which we refer to as a representation graph. Motivated by this, we propose an individual fairness criterion for clustering a graph $\mathcal{G}$ that requires each cluster to contain an adequate number of members connected to the individual under a representation graph $\mathcal{R}$. We devise a spectral clustering algorithm to find fair clusters under a given representation graph. We further propose a variant of the stochastic block model and establish our algorithm's weak consistency under this model. Finally, we present experimental results to corroborate our theoretical findings.
翻訳日:2021-05-11 15:08:33 公開日:2021-05-08
# chameleon:中小企業向け生産対応mlシステムの迅速かつスケーラブルな開発とデプロイを目的とした半自動フレームワーク

Chameleon: A Semi-AutoML framework targeting quick and scalable development and deployment of production-ready ML systems for SMEs ( http://arxiv.org/abs/2105.03669v1 )

ライセンス: Link先を確認
Johannes Otterbach, Thomas Wollmann(参考訳) 現代の機械学習ソリューションの開発、スケーリング、デプロイは、中小企業(SME)にとって依然として困難である。 これは、専用のITチームを構築し維持する上での参入障壁の高さと、標準ベンチマークデータと比較して現実のデータ(RWD)の難しさによるものです。 この課題に対処するために、セミオートMLフレームワークであるChameleonの実装と概念について議論する。 Chameleonの目標は、プロダクション対応機械学習システムの高速でスケーラブルな開発とデプロイを中小企業のワークフローに組み込むことだ。 まず、中小企業が直面するrwdの課題について論じる。 その後、RWD関連デフォルトを持つモデルおよび損失関数動物園であるフレームワークの中心部分について概説する。 次に、実験イテレーションサイクルの自動化と、開発とデプロイメントの間のギャップを縮めるために、テンプレート可能なフレームワークをどのように使用できるかを示す。 最後に、テストフレームワークコンポーネントに触れて、共通のモデル障害モードを調査し、モデルのデプロイメントガバナンスのベストプラクティスをサポートすることができます。

Developing, scaling, and deploying modern Machine Learning solutions remains challenging for small- and middle-sized enterprises (SMEs). This is due to a high entry barrier of building and maintaining a dedicated IT team as well as the difficulties of real-world data (RWD) compared to standard benchmark data. To address this challenge, we discuss the implementation and concepts of Chameleon, a semi-AutoML framework. The goal of Chameleon is fast and scalable development and deployment of production-ready machine learning systems into the workflow of SMEs. We first discuss the RWD challenges faced by SMEs. After, we outline the central part of the framework which is a model and loss-function zoo with RWD-relevant defaults. Subsequently, we present how one can use a templatable framework in order to automate the experiment iteration cycle, as well as close the gap between development and deployment. Finally, we touch on our testing framework component allowing us to investigate common model failure modes and support best practices of model deployment governance.
翻訳日:2021-05-11 15:08:00 公開日:2021-05-08
# アンタングル表現による自己教師付き逆例検出

Self-Supervised Adversarial Example Detection by Disentangled Representation ( http://arxiv.org/abs/2105.03689v1 )

ライセンス: Link先を確認
Zhaoxi Zhang, Leo Yu Zhang, Xufei Zheng, Shengshan Hu, Jinyu Tian, Jiantao Zhou(参考訳) 深層学習モデルは、悪意のある目的のために精巧に設計され、人間の知覚システムには受け入れられない敵の例に弱いことが知られている。 autoencoderは、良質な例だけを訓練すると、敵の例がより大きな再構成エラーをもたらすという仮定に基づいて、(監視された)敵検出に広く使われている。 しかし、訓練における逆例の欠如やオートエンコーダの強大な一般化能力のため、この仮定は実際には必ずしも成り立たない。 この問題を軽減するために,オートエンコーダ構造下の画像の絡み合った表現を用いて,逆例を検出する。 入力画像をクラスの特徴や意味的特徴として切り離すことで,識別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティック特徴と誤ってペア化されたクラス/セマンティック特徴の両方でトレーニングし,良さと反例を再構築する。 これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。 現状の自己監視検出手法と比較して,本手法は,異なるデータセット(MNIST, Fashion-MNIST, CIFAR-10),異なる敵攻撃手法(FGSM, BIM, PGD, DeepFool, CW),および異なる犠牲者モデル(8層CNN, 16層VGG)に対して,より優れた性能を示す。 本手法は, 対人攻撃と異なる被害者モデル(30件の攻撃設定)下での最先端の自己監視検出手法と比較し, 多くの攻撃設定において, 各種測定(AUC, FPR, TPR)において優れた性能を示す。 理想的には、AUCは1ドルであり、我々の方法はすべての攻撃に対してCIFAR-10で0.99+$を達成する。 特に、他のオートエンコーダベースの検出器とは異なり、我々の手法は適応的な敵に対する抵抗を与えることができる。

Deep learning models are known to be vulnerable to adversarial examples that are elaborately designed for malicious purposes and are imperceptible to the human perceptual system. Autoencoder, when trained solely over benign examples, has been widely used for (self-supervised) adversarial detection based on the assumption that adversarial examples yield larger reconstruction error. However, because lacking adversarial examples in its training and the too strong generalization ability of autoencoder, this assumption does not always hold true in practice. To alleviate this problem, we explore to detect adversarial examples by disentangled representations of images under the autoencoder structure. By disentangling input images as class features and semantic features, we train an autoencoder, assisted by a discriminator network, over both correctly paired class/semantic features and incorrectly paired class/semantic features to reconstruct benign and counterexamples. This mimics the behavior of adversarial examples and can reduce the unnecessary generalization ability of autoencoder. Compared with the state-of-the-art self-supervised detection methods, our method exhibits better performance in various measurements (i.e., AUC, FPR, TPR) over different datasets (MNIST, Fashion-MNIST and CIFAR-10), different adversarial attack methods (FGSM, BIM, PGD, DeepFool, and CW) and different victim models (8-layer CNN and 16-layer VGG). We compare our method with the state-of-the-art self-supervised detection methods under different adversarial attacks and different victim models (30 attack settings), and it exhibits better performance in various measurements (AUC, FPR, TPR) for most attacks settings. Ideally, AUC is $1$ and our method achieves $0.99+$ on CIFAR-10 for all attacks. Notably, different from other Autoencoder-based detectors, our method can provide resistance to the adaptive adversary.
翻訳日:2021-05-11 15:07:46 公開日:2021-05-08
# 包括的研究 : 粒度の異なる文脈情報が対話状態追跡に与える影響について

Comprehensive Study: How the Context Information of Different Granularity Affects Dialogue State Tracking? ( http://arxiv.org/abs/2105.03571v1 )

ライセンス: Link先を確認
Puhai Yang and Heyan Huang and Xian-Ling Mao(参考訳) 対話状態追跡(DST)は、ユーザの目標を監視するためにタスク指向の対話システムにおいて重要な役割を果たす。 一般的に、対話状態の追跡には2つの戦略がある: スクラッチから予測し、それ以前の状態から更新する。 スクラッチベースの戦略は、すべての対話履歴を問い合わせて各スロット値を取得し、前回の戦略は、前の対話状態を更新するために現在のターンダイアログに依存する。 しかし、ノイズのため、スクラッチベースの戦略が短距離対話状態を正しく追跡することは困難であり、一方、従来の戦略は長距離対話状態追跡にはあまり役に立たない。 明らかに、異なる粒度のコンテキスト情報に対して異なる役割を演じ、異なる種類の対話状態を追跡する。 そこで,本稿では,粒度の異なるコンテキスト情報が対話状態追跡に与える影響について検討し,議論する。 まず,粒度の違いが対話状態の追跡に与える影響について検討する。 さらに,対話状態追跡に複数の粒度を組み合わせる方法について検討する。 最後に,文脈の粒度に関する知見を少数ショット学習シナリオに適用する。 さらに、私たちはすべてのコード \footnote{\url{https://anonymous}} を公開しました。

Dialogue state tracking (DST) plays a key role in task-oriented dialogue systems to monitor the user's goal. In general, there are two strategies to track a dialogue state: predicting it from scratch and updating it from previous state. The scratch-based strategy obtains each slot value by inquiring all the dialogue history, and the previous-based strategy relies on the current turn dialogue to update the previous dialogue state. However, it is hard for the scratch-based strategy to correctly track short-dependency dialogue state because of noise; meanwhile, the previous-based strategy is not very useful for long-dependency dialogue state tracking. Obviously, it plays different roles for the context information of different granularity to track different kinds of dialogue states. Thus, in this paper, we will study and discuss how the context information of different granularity affects dialogue state tracking. First, we explore how greatly different granularities affect dialogue state tracking. Then, we further discuss how to combine multiple granularities for dialogue state tracking. Finally, we apply the findings about context granularity to few-shot learning scenario. Besides, we have publicly released all codes\footnote{\url{https://anonymous}}.
翻訳日:2021-05-11 15:04:12 公開日:2021-05-08
# ランダム化[MASK]によるテキスト逆攻撃に対する認証ロバスト性

Certified Robustness to Text Adversarial Attacks by Randomized [MASK] ( http://arxiv.org/abs/2105.03743v1 )

ライセンス: Link先を確認
Jiehang Zeng, Xiaoqing Zheng, Jianhan Xu, Linyang Li, Liping Yuan and Xuanjing Huang(参考訳) 近年,テキスト分類器の頑健性を保証するための認証防衛手法が開発されている。 しかし、既存のすべての認証された防御手法は、敵がどのようにシノニムを生成しているのかを被告に知らせるものであると仮定している。 本稿では,上記の非現実的な仮定がもはや不要な入力テキストにおいて,単語の一定割合をランダムにマスキングすることにより,頑健な防御手法を提案する。 提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。 50%以上のテキストの分類はAGNEWS上の5ワード,SST2データセット上の2ワードの摂動に対して堅牢である。 実験の結果, ランダム化平滑化手法は, 最近提案されている複数のデータセットにわたる防御手法を大きく上回ることがわかった。

Recently, few certified defense methods have been developed to provably guarantee the robustness of a text classifier to adversarial synonym substitutions. However, all existing certified defense methods assume that the defenders are informed of how the adversaries generate synonyms, which is not a realistic scenario. In this paper, we propose a certifiably robust defense method by randomly masking a certain proportion of the words in an input text, in which the above unrealistic assumption is no longer necessary. The proposed method can defend against not only word substitution-based attacks, but also character-level perturbations. We can certify the classifications of over 50% texts to be robust to any perturbation of 5 words on AGNEWS, and 2 words on SST2 dataset. The experimental results show that our randomized smoothing method significantly outperforms recently proposed defense methods across multiple datasets.
翻訳日:2021-05-11 15:03:55 公開日:2021-05-08
# 変圧器を用いた要約システムの長寿命依存性

Long-Span Dependencies in Transformer-based Summarization Systems ( http://arxiv.org/abs/2105.03801v1 )

ライセンス: Link先を確認
Potsawee Manakul and Mark J. F. Gales(参考訳) トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。 通常、これらのシステムは、ターゲットタスクに訓練済みの大きなモデルを微調整することで訓練される。 これらのトランスフォーマーベースのモデルの1つの問題は、入力長が大きくなるにつれて、メモリと計算要求の面でうまくスケールしないことである。 したがって、長い文書要約では、これらのモデルの訓練や微調整が難しい場合がある。 本研究では,大規模な事前学習型トランスフォーマーモデルを用いて,局所的自己意識と明示的コンテンツ選択という2つの手法を用いて,抽象的要約における長期依存性に対処する。 これらのアプローチは、さまざまなネットワーク構成で比較される。 Spotify Podcast、arXiv、PubMedデータセットなど、標準的な長期の要約タスクで実験が行われる。 これらの手法を組み合わせることで,ROUGEスコアの3つのタスクすべてに対して,最先端の成果が得られることを示す。 さらに,大規模なgpuカードがなければ,既存のアプローチと同等あるいは優れた結果が得られる。

Transformer-based models have achieved state-of-the-art results in a wide range of natural language processing (NLP) tasks including document summarization. Typically these systems are trained by fine-tuning a large pre-trained model to the target task. One issue with these transformer-based models is that they do not scale well in terms of memory and compute requirements as the input length grows. Thus, for long document summarization, it can be challenging to train or fine-tune these models. In this work, we exploit large pre-trained transformer-based models and address long-span dependencies in abstractive summarization using two methods: local self-attention; and explicit content selection. These approaches are compared on a range of network configurations. Experiments are carried out on standard long-span summarization tasks, including Spotify Podcast, arXiv, and PubMed datasets. We demonstrate that by combining these methods, we can achieve state-of-the-art results on all three tasks in the ROUGE scores. Moreover, without a large-scale GPU card, our approach can achieve comparable or better results than existing approaches.
翻訳日:2021-05-11 15:03:38 公開日:2021-05-08
# 安定ヒートマップ回帰によるポーズ推定のロバスト性向上

Improving Robustness for Pose Estimation via Stable Heatmap Regression ( http://arxiv.org/abs/2105.03569v1 )

ライセンス: Link先を確認
Yumeng Zhang, Li Chen, Yufeng Liu, Xiaoyan Guo, Wen Zheng, Junhai Yong(参考訳) 深層学習法はポーズ推定において優れた性能を達成しているが,頑健性の欠如により,類似画像間でキーポイントが大きく変化する。 この問題を考慮し,ネットワークの脆弱性を小さな摂動に軽減するために,安定な熱マップ回帰法を提案する。 我々は,マルチピーク問題を緩和するために,ヒートマップ内の異なる行と列の相関を利用して,周囲の点からキーポイントを識別する,高度に分化したヒートマップ回帰を設計する。 2つの類似画像の予測ギャップを最小化する際の最適化難易度を最小化するために、最大安定性トレーニング損失を用いる。 提案手法は,2つのベンチマークデータセットに対する最先端アプローチに対するロバスト性を大幅に向上させ,高い性能を維持する。

Deep learning methods have achieved excellent performance in pose estimation, but the lack of robustness causes the keypoints to change drastically between similar images. In view of this problem, a stable heatmap regression method is proposed to alleviate network vulnerability to small perturbations. We utilize the correlation between different rows and columns in a heatmap to alleviate the multi-peaks problem, and design a highly differentiated heatmap regression to make a keypoint discriminative from surrounding points. A maximum stability training loss is used to simplify the optimization difficulty when minimizing the prediction gap of two similar images. The proposed method achieves a significant advance in robustness over state-of-the-art approaches on two benchmark datasets and maintains high performance.
翻訳日:2021-05-11 14:58:28 公開日:2021-05-08
# 畳み込みネットワークの符号非依存最適化による不必要表面再構成の学習

Sign-Agnostic CONet: Learning Implicit Surface Reconstructions by Sign-Agnostic Optimization of Convolutional Occupancy Networks ( http://arxiv.org/abs/2105.03582v1 )

ライセンス: Link先を確認
Jiapeng Tang, Jiabao Lei, Dan Xu, Feiying Ma, Kui Jia, Lei Zhang(参考訳) 点雲からの表面の再構成は、コンピュータビジョンとグラフィックコミュニティの基本的な問題である。 最近の最先端の研究では、推論中に各局所暗黙のフィールドを個別に最適化することでこの問題を解決している。 局所フィールド間の幾何学的関係を考慮せずに、それらは通常、局所フィールドの重複領域における符号競合問題を避けるために正確な正規値を必要とする。 SALはサインに依存しない学習によってこの制限を破るが、このパイプラインを局所的な形状モデリングに拡張する方法はまだ解明されていない。 そこで本研究では,畳み込み占有ネットワークの符号に依存しない最適化により暗黙的な表面再構成を学習し,高度な拡張性,汎用性,適用性を実現することを提案する。 また,本論文では,非符号のバイナリ・クロスエントロピー損失を伴う時間ガラスネットワークアーキテクチャの畳み込み特性に係わる占有場を最適化する,シンプルで効果的な設計により,この目標を効果的に達成できることを示す。 オブジェクトレベルとシーンレベルの両方のデータセットにおける以前の最先端との比較は、非向きのポイントクラウドから表面再構成するアプローチの優れた精度を示している。

Surface reconstruction from point clouds is a fundamental problem in the computer vision and graphics community. Recent state-of-the-arts solve this problem by individually optimizing each local implicit field during inference. Without considering the geometric relationships between local fields, they typically require accurate normals to avoid the sign conflict problem in overlapping regions of local fields, which severely limits their applicability to raw scans where surface normals could be unavailable. Although SAL breaks this limitation via sign-agnostic learning, it is still unexplored that how to extend this pipeline to local shape modeling. To this end, we propose to learn implicit surface reconstruction by sign-agnostic optimization of convolutional occupancy networks, to simultaneously achieve advanced scalability, generality, and applicability in a unified framework. In the paper, we also show this goal can be effectively achieved by a simple yet effective design, which optimizes the occupancy fields that are conditioned on convolutional features from an hourglass network architecture with an unsigned binary cross-entropy loss. Extensive experimental comparison with previous state-of-the-arts on both object-level and scene-level datasets demonstrate the superior accuracy of our approach for surface reconstruction from un-orientated point clouds.
翻訳日:2021-05-11 14:58:14 公開日:2021-05-08
# ABCNet v2: リアルタイムエンドツーエンドテキストスポッティングのためのAdaptive Bezier-Curve Network

ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting ( http://arxiv.org/abs/2105.03620v1 )

ライセンス: Link先を確認
Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu Liu, Hao Chen(参考訳) 統合フレームワークによる検出と認識の統合を目的としたエンドツーエンドテキストスポッティングは,この2つの補完的タスクが単純であることから,注目を集めている。 特に任意の形式のテキストインスタンスを処理する場合、これはオープンな問題である。 従来の手法は、文字ベースとセグメンテーションベースという2つのグループに大別できるが、これは文字レベルのアノテーションや、構造化されていない出力のために複雑な後処理を必要とすることが多い。 本稿では,Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで,エンドツーエンドのテキストスポッティングに取り組む。 1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。 2) 任意の形状のテキストインスタンスの正確な畳み込み特徴を抽出する新しいBezierAlign層を設計し, 従来の手法に比べて認識精度を大幅に向上させる。 3) 複雑な後処理や過度パラメーターに悩まされる従来の方法とは異なり,ABCNet v2は,処理後非最大抑制(NMS)のみを簡単なパイプラインとして維持する。 4) テキスト認識の性能は特徴の整合性に大きく依存するため,ABCNet v2では,畳み込みフィルタの位置を符号化する単純な座標畳み込みも採用している。 様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が非常に高い効率を維持しながら最先端のパフォーマンスを達成できることを示した。

End-to-end text-spotting, which aims to integrate detection and recognition in a unified framework, has attracted increasing attention due to its simplicity of the two complimentary tasks. It remains an open problem especially when processing arbitrarily-shaped text instances. Previous methods can be roughly categorized into two groups: character-based and segmentation-based, which often require character-level annotations and/or complex post-processing due to the unstructured output. Here, we tackle end-to-end text spotting by presenting Adaptive Bezier Curve Network v2 (ABCNet v2). Our main contributions are four-fold: 1) For the first time, we adaptively fit arbitrarily-shaped text by a parameterized Bezier curve, which, compared with segmentation-based methods, can not only provide structured output but also controllable representation. 2) We design a novel BezierAlign layer for extracting accurate convolution features of a text instance of arbitrary shapes, significantly improving the precision of recognition over previous methods. 3) Different from previous methods, which often suffer from complex post-processing and sensitive hyper-parameters, our ABCNet v2 maintains a simple pipeline with the only post-processing non-maximum suppression (NMS). 4) As the performance of text recognition closely depends on feature alignment, ABCNet v2 further adopts a simple yet effective coordinate convolution to encode the position of the convolutional filters, which leads to a considerable improvement with negligible computation overhead. Comprehensive experiments conducted on various bilingual (English and Chinese) benchmark datasets demonstrate that ABCNet v2 can achieve state-of-the-art performance while maintaining very high efficiency.
翻訳日:2021-05-11 14:57:54 公開日:2021-05-08
# CASIA-Face-Africa: 大規模アフリカの顔画像データベース

CASIA-Face-Africa: A Large-scale African Face Image Database ( http://arxiv.org/abs/2105.03632v1 )

ライセンス: Link先を確認
Jawad Muhammad, Yunlong Wang, Caiyong Wang, Kunbo Zhang, and Zhenan Sun(参考訳) 顔認識は、私たちの社会に広く応用され、よく研究されている分野です。 しかし、人種的偏見は、ほとんどの最先端美術(SOTA)顔認識システムに固有のものであることが証明された。 顔認識アルゴリズムに関する多くの調査研究は、他のコホートよりもアフリカの被験者の偽陽性率が高いことを報告している。 パブリックドメインにおける大規模アフリカの顔画像データベースの欠如は、顔認識の人種バイアス問題の研究における主要な制限の1つである。 そこで我々は,アフリカ人1,183人の38,546枚の画像を含む顔画像データベース,CASIA-Face-Africaを収集した。 マルチスペクトルカメラを用いて様々な照明条件下での顔画像のキャプチャを行う。 被験者の年齢属性や表情も慎重に記録されている。 ランドマーク検出には、データベースの各顔画像に68のキーポイントを手動でラベル付けする。 評価プロトコルのグループは、異なるアプリケーション、タスク、パーティション、シナリオに従って構築されます。 再学習のないSOTA顔認識アルゴリズムの性能をベースラインとして報告する。 提案するデータベースは, 顔のランドマークアノテーション, 評価プロトコル, 予備結果とともに, 特に顔画像前処理, 顔の特徴分析とマッチング, 表情認識, 性別・年齢推定, 民族分類, 顔画像生成など, アフリカの被験者の顔バイオメトリックスの本質的な側面を研究するための優れたベンチマークを形成する。 データベースはhttp://www.cripacsir .cn/dataset/からダウンロードできる。

Face recognition is a popular and well-studied area with wide applications in our society. However, racial bias had been proven to be inherent in most State Of The Art (SOTA) face recognition systems. Many investigative studies on face recognition algorithms have reported higher false positive rates of African subjects cohorts than the other cohorts. Lack of large-scale African face image databases in public domain is one of the main restrictions in studying the racial bias problem of face recognition. To this end, we collect a face image database namely CASIA-Face-Africa which contains 38,546 images of 1,183 African subjects. Multi-spectral cameras are utilized to capture the face images under various illumination settings. Demographic attributes and facial expressions of the subjects are also carefully recorded. For landmark detection, each face image in the database is manually labeled with 68 facial keypoints. A group of evaluation protocols are constructed according to different applications, tasks, partitions and scenarios. The performances of SOTA face recognition algorithms without re-training are reported as baselines. The proposed database along with its face landmark annotations, evaluation protocols and preliminary results form a good benchmark to study the essential aspects of face biometrics for African subjects, especially face image preprocessing, face feature analysis and matching, facial expression recognition, sex/age estimation, ethnic classification, face image generation, etc. The database can be downloaded from our http://www.cripacsir .cn/dataset/
翻訳日:2021-05-11 14:57:24 公開日:2021-05-08
# 被写体検出のためのアクティブテラヘルツイメージングデータセット

Active Terahertz Imaging Dataset for Concealed Object Detection ( http://arxiv.org/abs/2105.03677v1 )

ライセンス: Link先を確認
Dong Liang, Fei Xue and Ling Li(参考訳) テラヘルツイメージングにおける物体検出は、公共の安全と対テロの緊急の必要性である。 本稿では,アクティブテラヘルツ画像分解能5mm×5mmのマルチオブジェクト検出アルゴリズムを評価するための公開データセットを提案する。 我々の知る限りでは、これはオブジェクト検出アルゴリズムを評価するために準備された、最初の公開Terahertz画像データセットである。 このデータセットのオブジェクト検出は、画像の品質が劣っているため、標準の公開オブジェクト検出データセットよりもはるかに難しい。 オブジェクト検出およびハードトレーニングサンプルにおける不均衡サンプルの問題に直面し、このデータセット上で、YOLOv3, YOLOv4, FRCN-OHEM, RetinaNetの4つの一般的な検出器を評価する。 実験の結果、RetinaNetは最も高いmAPを達成することが示された。 また,人体の異なる部位に隠れている物体が検出精度に影響を及ぼすことを示した。 データセットはhttps://github.com/L ingLIx/THz_Datasetで公開されている。

Concealed object detection in Terahertz imaging is an urgent need for public security and counter-terrorism. In this paper, we provide a public dataset for evaluating multi-object detection algorithms in active Terahertz imaging resolution 5 mm by 5 mm. To the best of our knowledge, this is the first public Terahertz imaging dataset prepared to evaluate object detection algorithms. Object detection on this dataset is much more difficult than on those standard public object detection datasets due to its inferior imaging quality. Facing the problem of imbalanced samples in object detection and hard training samples, we evaluate four popular detectors: YOLOv3, YOLOv4, FRCN-OHEM, and RetinaNet on this dataset. Experimental results indicate that the RetinaNet achieves the highest mAP. In addition, we demonstrate that hiding objects in different parts of the human body affect detection accuracy. The dataset is available at https://github.com/L ingLIx/THz_Dataset.
翻訳日:2021-05-11 14:57:03 公開日:2021-05-08
# 不均質なマルチタスク学習のための分布マッチング:大規模顔研究

Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study ( http://arxiv.org/abs/2105.03790v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Viktoriia Sharmanska and Stefanos Zafeiriou(参考訳) マルチタスク学習は、DNNのような共有学習アルゴリズムによって複数のタスクが共同で学習される方法論として登場した。 MTLは、検討中のタスクが関連しているという仮定に基づいており、個々のタスクのパフォーマンスを改善するために共有知識を利用する。 タスクは一般に、同じタイプの問題を参照するために、均質であるとみなされる。 さらに、MTLは通常、タスク間の完全な、または部分的な重複を伴う地上の真理アノテーションに基づいている。 本研究では, 検出, 分類, 回帰問題を同時に扱うヘテロジニアス MTL を扱う。 タスク関連性は、ほとんど含まない、あるいは重複しないアノテーションを含むタスクを、協調トレーニング、弱教師付き方法で探索する。 タスク関連性(task-relatedness)はmtlで導入され、事前の知識を通じて、あるいはデータ駆動の研究を通じて明示的に行われる。 本稿では,タスク間の知識交換を可能にする新しい分布マッチング手法を提案する。 このアプローチに基づいて,顔行動タスクを共同学習することにより,顔分析のための最初のフレームワークであるfacebehaviornetを構築した。 本研究は, 連続的影響推定, 行動単位検出, 基本的な感情認識, 属性検出, 顔識別のためのケーススタディを開発する。 タスク関連性によるコトレーニングが負の伝達を緩和することを示す。 facebehaviornetは、顔の行動のあらゆる側面をカプセル化する特徴を学習するので、複合感情認識のような訓練を受けたもの以外のタスクを実行するためにゼロ/フェウショット学習を行う。 10のデータベースを用いた非常に大規模な実験を行い,そのアプローチが,すべてのタスクやすべてのデータベースにおいて,トレーニングに使用されていないデータベースにおいても,大きなマージンで最先端のデータベースよりも優れていることを証明した。

Multi-Task Learning has emerged as a methodology in which multiple tasks are jointly learned by a shared learning algorithm, such as a DNN. MTL is based on the assumption that the tasks under consideration are related; therefore it exploits shared knowledge for improving performance on each individual task. Tasks are generally considered to be homogeneous, i.e., to refer to the same type of problem. Moreover, MTL is usually based on ground truth annotations with full, or partial overlap across tasks. In this work, we deal with heterogeneous MTL, simultaneously addressing detection, classification & regression problems. We explore task-relatedness as a means for co-training, in a weakly-supervised way, tasks that contain little, or even non-overlapping annotations. Task-relatedness is introduced in MTL, either explicitly through prior expert knowledge, or through data-driven studies. We propose a novel distribution matching approach, in which knowledge exchange is enabled between tasks, via matching of their predictions' distributions. Based on this approach, we build FaceBehaviorNet, the first framework for large-scale face analysis, by jointly learning all facial behavior tasks. We develop case studies for: i) continuous affect estimation, action unit detection, basic emotion recognition; ii) attribute detection, face identification. We illustrate that co-training via task relatedness alleviates negative transfer. Since FaceBehaviorNet learns features that encapsulate all aspects of facial behavior, we conduct zero-/few-shot learning to perform tasks beyond the ones that it has been trained for, such as compound emotion recognition. By conducting a very large experimental study, utilizing 10 databases, we illustrate that our approach outperforms, by large margins, the state-of-the-art in all tasks and in all databases, even in these which have not been used in its training.
翻訳日:2021-05-11 14:56:50 公開日:2021-05-08
# 深部生成モデルの潜在空間における線形補間について

On Linear Interpolation in the Latent Space of Deep Generative Models ( http://arxiv.org/abs/2105.03663v1 )

ライセンス: Link先を確認
Mike Yan Michelis and Quentin Becker(参考訳) 深部生成モデルにおける潜伏空間の基本的な幾何学的構造はユークリッドではない場合が多く、2つのモデルの補間能力を比較する際にバイアスが発生する。 潜在空間における線形補間の滑らかさと妥当性は、基礎となる生成モデルの品質と関連している。 本稿では,測地線が与える最も短い補間曲線から任意に逸脱できるような補間がすべて同等であるわけではないことを示す。 この偏差は、生成モデルのプルバックメトリックで曲線長を計算し、エンドポイント間の直線よりも短い曲線を見つけ、この直線上で非ゼロな相対距離改善を測定することによって明らかにされる。 これにより、2つの生成モデル間の線形補間を比較する戦略が導かれる。 また、短い曲線を計算するのに適切な出力空間を選択する効果と重要性を示す。 この計算のために、プルバック計量の拡張を導出する。

The underlying geometrical structure of the latent space in deep generative models is in most cases not Euclidean, which may lead to biases when comparing interpolation capabilities of two models. Smoothness and plausibility of linear interpolations in latent space are associated with the quality of the underlying generative model. In this paper, we show that not all such interpolations are comparable as they can deviate arbitrarily from the shortest interpolation curve given by the geodesic. This deviation is revealed by computing curve lengths with the pull-back metric of the generative model, finding shorter curves than the straight line between endpoints, and measuring a non-zero relative length improvement on this straight line. This leads to a strategy to compare linear interpolations across two generative models. We also show the effect and importance of choosing an appropriate output space for computing shorter curves. For this computation we derive an extension of the pull-back metric.
翻訳日:2021-05-11 14:48:21 公開日:2021-05-08
# 適応次元低減によるマルチモーダルデータ解析におけるアンサンブル学習と転送学習の強化

Enhancing ensemble learning and transfer learning in multimodal data analysis by adaptive dimensionality reduction ( http://arxiv.org/abs/2105.03682v1 )

ライセンス: Link先を確認
Andrea Marinoni, Saloua Chlaily, Eduard Khachatrian, Torbj{\o}rn Eltoft, Sivasakthy Selvakumaran, Mark Girolami, Christian Jutten(参考訳) 現代のデータ分析では、アンサンブル学習と転送学習のアプローチを利用して、分析モデルのトレーニングに使用するラベル付きデータの欠如、情報のスパーシティ、レコードの非バランス分布など、データ分析の最も関連する問題に対処している。 それでも、マルチモーダルデータセット(つまり、複数のセンシング技術や戦略によって取得されたデータセット)に適用した場合、学習と伝達学習の最先端の手法にはいくつかの制限がある。 実際、マルチモーダルデータ分析では、すべての観測結果が同じレベルの信頼性や情報品質、あるいはエラーや不確実性の均質な分布を示すわけではない。 この条件は、アンサンブル学習と転校学習の方法に依存する古典的な仮定を損なうかもしれない。 本研究では,この問題を克服するために,次元削減のための適応的アプローチを提案する。 グラフ理論に基づくアプローチにより、考慮されたデータセットの可変サイズ部分集合にまたがる最も関連する特徴を識別する。 この情報はアンサンブル学習と転送学習アーキテクチャのセットアップに使用される。 多様な研究分野(リモートセンシング,脳-コンピュータインターフェース,光エネルギー)で得られたマルチモーダルデータセットに対するアプローチを検証した。 実験の結果,本手法の有効性と頑健性を示し,最先端技術よりも優れていた。

Modern data analytics take advantage of ensemble learning and transfer learning approaches to tackle some of the most relevant issues in data analysis, such as lack of labeled data to use to train the analysis models, sparsity of the information, and unbalanced distributions of the records. Nonetheless, when applied to multimodal datasets (i.e., datasets acquired by means of multiple sensing techniques or strategies), the state-of-theart methods for ensemble learning and transfer learning might show some limitations. In fact, in multimodal data analysis, not all observations would show the same level of reliability or information quality, nor an homogeneous distribution of errors and uncertainties. This condition might undermine the classic assumptions ensemble learning and transfer learning methods rely on. In this work, we propose an adaptive approach for dimensionality reduction to overcome this issue. By means of a graph theory-based approach, the most relevant features across variable size subsets of the considered datasets are identified. This information is then used to set-up ensemble learning and transfer learning architectures. We test our approach on multimodal datasets acquired in diverse research fields (remote sensing, brain-computer interfaces, photovoltaic energy). Experimental results show the validity and the robustness of our approach, able to outperform state-of-the-art techniques.
翻訳日:2021-05-11 14:48:08 公開日:2021-05-08
# 進化的アルゴリズムで異父母を一致させるクロスオーバー

A Crossover That Matches Diverse Parents Together in Evolutionary Algorithms ( http://arxiv.org/abs/2105.03680v1 )

ライセンス: Link先を確認
Maciej \'Swiechowski(参考訳) 交叉と突然変異は進化的アプローチにおける新しい解決策をもたらす2つの主要な演算子である。 本稿では、クロスオーバーフェーズを実行する新しい方法を示す。 選択の問題は進化的決定木の構築である。 この方法は、互いに補完し合うような個人を見つけることを目的としている。 したがって、彼らは多種多様な専門性を持っている。 いわゆる相補的適合性を計算する方法を提案する。 いくつかの実証実験において,提案手法の有効性を評価し,適合率に基づくアプローチと比較した。 1つの変種は最良のアプローチとして明らかに現れ、残りの変種はベースライン以下である。

Crossover and mutation are the two main operators that lead to new solutions in evolutionary approaches. In this article, a new method of performing the crossover phase is presented. The problem of choice is evolutionary decision tree construction. The method aims at finding such individuals that together complement each other. Hence we say that they are diversely specialized. We propose the way of calculating the so-called complementary fitness. In several empirical experiments, we evaluate the efficacy of the method proposed in four variants and compare it to a fitness-rank-based approach. One variant emerges clearly as the best approach, whereas the remaining ones are below the baseline.
翻訳日:2021-05-11 14:42:31 公開日:2021-05-08
# 敵対的機械学習のメンタルモデル

Mental Models of Adversarial Machine Learning ( http://arxiv.org/abs/2105.03726v1 )

ライセンス: Link先を確認
Lukas Bieringer, Kathrin Grosse, Michael Backes, Katharina Krombholz(参考訳) 機械学習(ml)は実際に広く使われているが、潜在的なセキュリティ上の課題に対する実践者の実際の理解についてはほとんど知られていない。 この研究は、文献におけるこの実質的なギャップを埋め、MLパイプラインの開発者のメンタルモデルと潜在的に脆弱なコンポーネントに焦点を当てた質的研究に貢献します。 メンタルモデルの研究は、他のセキュリティ分野における根本原因の発見やリスクコミュニケーションの改善に役立っている。 本研究は,産業実践者の精神モデルにおける4つの特徴を明らかにした。 最初の範囲は、敵機械学習(AML)と古典的セキュリティの相互関係に関するものである。 第2の範囲は、構造的および機能的コンポーネントを記述する。 第3の範囲は、個々のメンタルモデルのバリエーションを表しており、アプリケーションによっても、対応する被験者の教育的背景によっても説明されない。 第4の範囲は、技術奥行きの異なるレベルに対応するが、被験者の知識レベルによっては決定されない。 我々の特徴は、企業ワークフローへのAMLの統合、実践者のためのセキュリティ強化ツール、AMLの適切な規制フレームワークの作成に影響を及ぼす。

Although machine learning (ML) is widely used in practice, little is known about practitioners' actual understanding of potential security challenges. In this work, we close this substantial gap in the literature and contribute a qualitative study focusing on developers' mental models of the ML pipeline and potentially vulnerable components. Studying mental models has helped in other security fields to discover root causes or improve risk communication. Our study reveals four characteristic ranges in mental models of industrial practitioners. The first range concerns the intertwined relationship of adversarial machine learning (AML) and classical security. The second range describes structural and functional components. The third range expresses individual variations of mental models, which are neither explained by the application nor by the educational background of the corresponding subjects. The fourth range corresponds to the varying levels of technical depth, which are however not determined by our subjects' level of knowledge. Our characteristic ranges have implications for the integration of AML into corporate workflows, security enhancing tools for practitioners, and creating appropriate regulatory frameworks for AML.
翻訳日:2021-05-11 14:42:24 公開日:2021-05-08
# セルオートマトンを用いた歩行状態予測とelmを用いた分類

Human Gait State Prediction Using Cellular Automata and Classification Using ELM ( http://arxiv.org/abs/2105.03799v1 )

ライセンス: Link先を確認
Vijay Bhaskar Semwal, Neha Gaud and G.C.Nandi(参考訳) 本稿では,エクストリームマシンリーン(ELM)を用いた歩行状態予測と歩行データの分類のための周期的セルオートマトン規則を報告した。 本研究は,二足歩行の複雑さを理解するためにセルオートマトンを用いた最初の試みである。 非線形性, 歩行周期の変動, 二足歩行における片足足接部における受動関節の形状の変化により, ヒト歩行における動的記述や制御則の変化は二足歩行状態の予測を困難にしている。 我々は,前2つの隣接する状態に基づいて,二足歩行の次の歩行状態を予測できるセルオートマトンルールを設計した。 正常歩行のためのセルラーオートマトンルールを設計した。 状態予測は二足歩行を正しく設計するのに役立ちます。 通常の歩行は次の2つの状態に依存し、8つの状態を持つ。 我々は、現在の状態と前の状態が次の状態を予測することを検討した。 セルオートマトンを使って16のルールを定式化し、各脚に8のルールを設定しました。 右脚がスイングフェーズにある場合、左脚がスタンディングフェーズになるという事実を用いて、優先順位が維持される。 モデルを検証するため,EMM[1]を用いて歩行データを分類し,精度60%を達成した。 我々は、軌道を探索し、他の歩行軌跡と比較した。 最後に, 異なる関節に対する誤差解析を行った。

In this research article, we have reported periodic cellular automata rules for different gait state prediction and classification of the gait data using extreme machine Leaning (ELM). This research is the first attempt to use cellular automaton to understand the complexity of bipedal walk. Due to nonlinearity, varying configurations throughout the gait cycle and the passive joint located at the unilateral foot-ground contact in bipedal walk resulting variation of dynamic descriptions and control laws from phase to phase for human gait is making difficult to predict the bipedal walk states. We have designed the cellular automata rules which will predict the next gait state of bipedal steps based on the previous two neighbour states. We have designed cellular automata rules for normal walk. The state prediction will help to correctly design the bipedal walk. The normal walk depends on next two states and has total 8 states. We have considered the current and previous states to predict next state. So we have formulated 16 rules using cellular automata, 8 rules for each leg. The priority order maintained using the fact that if right leg in swing phase then left leg will be in stance phase. To validate the model we have classified the gait Data using ELM [1] and achieved accuracy 60%. We have explored the trajectories and compares with another gait trajectories. Finally we have presented the error analysis for different joints.
翻訳日:2021-05-11 14:42:08 公開日:2021-05-08
# 対話システムにおける意図の連続表現

Continuous representations of intents for dialogue systems ( http://arxiv.org/abs/2105.03716v1 )

ライセンス: Link先を確認
Sindre Andr\'e Jacobsen and Anton Ragni(参考訳) 意図モデリングは現代の対話システムにおいて重要な部分となっている。 Amazon Alexa、Apple Siri、Google Assistantなどの実用的な対話システムやバーチャルアシスタントの急速な拡張により、興味は増している。 しかし、最近まで、焦点は固定された離散的な多くの意図を検出することであった。 近年,ゼロショット学習の文脈において,無意識の意図検出に関するいくつかの研究が行われている。 本稿では,いくつかの利点をもたらす専門的な意図空間に意図を連続的に配置する新しいモデルを提案することにより,先行研究を継続する。 まず、連続表現は、見た意図間の関係を調査できる。 第二に、限られた量のデータに対して、目に見えない意図を確実に表現することができる。 最後に,提案したモデルが,どのモデルも再学習することなく,目に見えない意図で拡張可能であることを示す。 実験により、モデルが目に見えないインテントを高い精度で確実に追加し、そのインテントに対して高いパフォーマンスを維持することができることが示された。

Intent modelling has become an important part of modern dialogue systems. With the rapid expansion of practical dialogue systems and virtual assistants, such as Amazon Alexa, Apple Siri, and Google Assistant, the interest has only increased. However, up until recently the focus has been on detecting a fixed, discrete, number of seen intents. Recent years have seen some work done on unseen intent detection in the context of zero-shot learning. This paper continues the prior work by proposing a novel model where intents are continuous points placed in a specialist Intent Space that yields several advantages. First, the continuous representation enables to investigate relationships between the seen intents. Second, it allows any unseen intent to be reliably represented given limited quantities of data. Finally, this paper will show how the proposed model can be augmented with unseen intents without retraining any of the seen ones. Experiments show that the model can reliably add unseen intents with a high accuracy while retaining a high performance on the seen intents.
翻訳日:2021-05-11 14:40:47 公開日:2021-05-08
# 関心点の再現性を予測するための学習

Learning to Predict Repeatability of Interest Points ( http://arxiv.org/abs/2105.03578v1 )

ライセンス: Link先を確認
Anh-Dzung Doan and Daniyar Turmukhambetov and Yasir Latif and Tat-Jun Chin and Soohyun Bae(参考訳) 多くのロボティクスアプリケーションは、様々な視点や照明条件下で非常に再現可能な興味点を必要とする。 しかし、環境が継続的に無期限に変化し、時間に対する関心点の出現が変化するため、この要件は非常に困難である。 本稿では,時間的機能としての関心点の反復可能性を予測することを提案し,日・季節的変動を考慮した関心点の寿命を示す。 反復可能性予測器(RP)は、長期にわたり複数の視点から繰り返し関心点に基づいて訓練された回帰器として定式化される。 包括的実験により,新たな関心点が繰り返された際にrpが推定できることを示すとともに,この問題に対する洞察に富んだ分析を行った。 さらに比較するために、我々のRPを視覚的局所化フレームワークのマップ要約に適用し、クエリ時間に応じて全コンテキストマップのコンパクトな表現を構築する。 実験の結果,rpが予測する再帰的関心点の慎重な選択は,地図要約による局所化精度の低下を著しく軽減することが示された。

Many robotics applications require interest points that are highly repeatable under varying viewpoints and lighting conditions. However, this requirement is very challenging as the environment changes continuously and indefinitely, leading to appearance changes of interest points with respect to time. This paper proposes to predict the repeatability of an interest point as a function of time, which can tell us the lifespan of the interest point considering daily or seasonal variation. The repeatability predictor (RP) is formulated as a regressor trained on repeated interest points from multiple viewpoints over a long period of time. Through comprehensive experiments, we demonstrate that our RP can estimate when a new interest point is repeated, and also highlight an insightful analysis about this problem. For further comparison, we apply our RP to the map summarization under visual localization framework, which builds a compact representation of the full context map given the query time. The experimental result shows a careful selection of potentially repeatable interest points predicted by our RP can significantly mitigate the degeneration of localization accuracy from map summarization.
翻訳日:2021-05-11 14:38:58 公開日:2021-05-08
# ChaRRNets:RFフィンガープリントのためのチャネルロバスト表現ネットワーク

ChaRRNets: Channel Robust Representation Networks for RF Fingerprinting ( http://arxiv.org/abs/2105.03568v1 )

ライセンス: Link先を確認
Carter N. Brown, Enrico Mattei, Andrew Draganov(参考訳) 本稿では,rfフィンガープリンティングのための複雑値畳み込みニューラルネットワーク(cnns)について,無線信号処理や通信の分野に特有の現象であるマルチパス伝搬チャネルに関する帰納的バイアスを適切に考慮して検討する。 我々は,深層学習(dl)技術を用いた無線iotデバイスの指紋認証の問題に注目する。 これらの実世界の条件下では、列車とテストセットで表されるマルチパス環境が異なる。 これらの違いは、無線信号の伝搬を管理する物理と、実用的なデータ収集キャンペーンの制限によるものである。 提案手法は, 群理論の枠組みを踏襲し, 多様体値データに対するDLの先行処理を活用し, この先行処理を無線信号処理領域に拡張する。 本稿では、信号がマルチパス伝搬モデルの下で経験する変換のリー群を導入し、有限インパルス応答(fir)フィルタの周波数応答に同変かつ不変な演算を定義し、シャーネットを構築する。 合成および実世界のデータセットを用いて,提案手法の有効性を示す強力なベースラインモデルに対してベンチマークを行った。 本結果は、適切な無線領域バイアスをDLモデルに組み込むことの利点を示すものである。 5G革命によってセキュリティメカニズムの強化に対する需要が増大するにつれて、堅牢なRF機械学習分野の新たな取り組みを加速したいと考えています。

We present complex-valued Convolutional Neural Networks (CNNs) for RF fingerprinting that go beyond translation invariance and appropriately account for the inductive bias with respect to multipath propagation channels, a phenomenon that is specific to the fields of wireless signal processing and communications. We focus on the problem of fingerprinting wireless IoT devices in-the-wild using Deep Learning (DL) techniques. Under these real-world conditions, the multipath environments represented in the train and test sets will be different. These differences are due to the physics governing the propagation of wireless signals, as well as the limitations of practical data collection campaigns. Our approach follows a group-theoretic framework, leverages prior work on DL on manifold-valued data, and extends this prior work to the wireless signal processing domain. We introduce the Lie group of transformations that a signal experiences under the multipath propagation model and define operations that are equivariant and invariant to the frequency response of a Finite Impulse Response (FIR) filter to build a ChaRRNet. We present results using synthetic and real-world datasets, and we benchmark against a strong baseline model, that show the efficacy of our approach. Our results provide evidence of the benefits of incorporating appropriate wireless domain biases into DL models. We hope to spur new work in the area of robust RF machine learning, as the 5G revolution increases demand for enhanced security mechanisms.
翻訳日:2021-05-11 14:34:45 公開日:2021-05-08
# MCTG:深部強化学習に基づくGARCHを用いた多周波連続共有取引アルゴリズム

MCTG:Multi-frequency continuous-share trading algorithm with GARCH based on deep reinforcement learning ( http://arxiv.org/abs/2105.03625v1 )

ライセンス: Link先を確認
Zhishun Wang, Wei Lu, Kaixin Zhang, Tianhao Li, Zixi Zhao(参考訳) 株式市場で利益を上げることは、プロの機関投資家と個人トレーダーの両方にとって難しい課題だ。 量的トレーディングと強化学習の組み合わせにより、ベンチマークモデルであるBuy&Hold(B&H)を超えて、より多くのトレーディングアルゴリズムが大幅に向上した。 これらのアルゴリズムと実際の取引決定シナリオの間には、ある程度のギャップがある。 一方、取引数を無視しながら、取引信号のみを考慮する。 一方、これらのアルゴリズムが考慮する情報レベルは十分ではないため、これらのアルゴリズムの性能は制限される。 そこで本稿では,GARCH (MCTG) を用いた多周波連続共有トレーディングアルゴリズム (Multi- frequency Continuous-Share Trading Algorithm) を提案する。 前者は3つの並列ネットワーク層で構成され、それぞれ異なる周波数(5分、1日、1週間)のデータを扱う。 強化学習アルゴリズムの連続的な動作空間を持つ後者は、株式取引の問題を解決するために使用される。 中国株式市場の異なる業界での実験では、基本的なDRL法やベンチモデルと比較して余分な利益が得られている。

Making profits in stock market is a challenging task for both professional institutional investors and individual traders. With the development combination of quantitative trading and reinforcement learning, more trading algorithms have achieved significant gains beyond the benchmark model Buy&Hold (B&H). There is a certain gap between these algorithms and the real trading decision making scenarios. On the one hand, they only consider trading signals while ignoring the number of transactions. On the other hand, the information level considered by these algorithms is not rich enough, which limits the performance of these algorithms. Thus, we propose an algorithm called the Multi-frequency Continuous-share Trading algorithm with GARCH (MCTG) to solve the problems above, which consists of parallel network layers and deep reinforcement learning. The former is composed of three parallel network layers, respectively dealing with different frequencies (five minute, one day, one week) data, and day level considers the volatilities of stocks. The latter with a continuous action space of the reinforcement learning algorithm is used to solve the problem of trading stock shares. Experiments in different industries of Chinese stock market show our method achieves more extra profit comparing with basic DRL methods and bench model.
翻訳日:2021-05-11 14:34:22 公開日:2021-05-08
# ezcrop:ロバストな出力プルーニングのためのエネルギゾンドチャネル

EZCrop: Energy-Zoned Channels for Robust Output Pruning ( http://arxiv.org/abs/2105.03679v1 )

ライセンス: Link先を確認
Rui Lin, Jie Ran and Ngai Wong(参考訳) 近年の研究では、訓練された畳み込みニューラルネットワーク(cnn)において、入力画像にもかかわらず特徴マップチャネル行列のランクが驚くほど一定であり続けるという興味深い観察がなされている。 これにより、効果的なランクベースのチャネルプルーニングアルゴリズムが実現したが、定位現象は謎と説明がつかないままである。 この研究は、周波数領域の観点からそのようなランクの振る舞いを減弱し、解釈することを目的としており、これは、そのランクを明示的に計算することなくチャネルの重要度を測定するための極端に効率的なFFT(Fast Fourier Transform)ベースの計量を示唆している。 本研究では, この解析的かつ計算効率の高い指標に基づいて, 卓越したcnnチャネルの刈り取りを実現し, 反復的刈り取り法に適用し, ロバスト出力プルーニングのためのエネルギゾンドチャネル (ezcrop) という方式によるロバストネスを実証した。

Recent results have revealed an interesting observation in a trained convolutional neural network (CNN), namely, the rank of a feature map channel matrix remains surprisingly constant despite the input images. This has led to an effective rank-based channel pruning algorithm, yet the constant rank phenomenon remains mysterious and unexplained. This work aims at demystifying and interpreting such rank behavior from a frequency-domain perspective, which as a bonus suggests an extremely efficient Fast Fourier Transform (FFT)-based metric for measuring channel importance without explicitly computing its rank. We achieve remarkable CNN channel pruning based on this analytically sound and computationally efficient metric and adopt it for repetitive pruning to demonstrate robustness via our scheme named Energy-Zoned Channels for Robust Output Pruning (EZCrop), which shows consistently better results than other state-of-the-art channel pruning methods.
翻訳日:2021-05-11 14:34:03 公開日:2021-05-08
# オンライン凸最適化のための単純かつ普遍的な戦略

A Simple yet Universal Strategy for Online Convex Optimization ( http://arxiv.org/abs/2105.03681v1 )

ライセンス: Link先を確認
Lijun Zhang, Guanghui Wang, Jinfeng Yi, Tianbao Yang(参考訳) 近年,オンライン凸最適化のための普遍的手法がいくつか提案され,複数種類の凸関数のミニマックス率を同時に達成する手法が提案されている。 しかし、各種類の関数に対して1つのサロゲート損失を設計および最適化する必要があるため、問題の構造を活用し、既存の膨大なアルゴリズムを活用することは困難である。 本稿では,これらの制約を回避するために,ユニバーサルオンライン凸最適化のための簡単な戦略を提案する。 重要なアイデアは、元のオンライン機能を処理する専門家のセットを構築し、専門家からの予測を集約するために \emph{linearized} 損失の上にメタアルゴリズムを配置することだ。 具体的には、最適な専門家を追跡するためにAdapt-ML-Prodを選択します。 このようにして、ブラックボックスの専門家として市販のオンラインソルバをプラグインして、問題に依存した後悔の束縛を提供することができます。 さらに, この戦略は, 強凸関数および指数凸関数のために設計された任意の専門家の理論的保証を, 二重対数因子まで受け継いでいる。 一般凸函数に対しては、ミニマックスの最適性を維持し、小さな損失境界も達成する。

Recently, several universal methods have been proposed for online convex optimization, and attain minimax rates for multiple types of convex functions simultaneously. However, they need to design and optimize one surrogate loss for each type of functions, which makes it difficult to exploit the structure of the problem and utilize the vast amount of existing algorithms. In this paper, we propose a simple strategy for universal online convex optimization, which avoids these limitations. The key idea is to construct a set of experts to process the original online functions, and deploy a meta-algorithm over the \emph{linearized} losses to aggregate predictions from experts. Specifically, we choose Adapt-ML-Prod to track the best expert, because it has a second-order bound and can be used to leverage strong convexity and exponential concavity. In this way, we can plug in off-the-shelf online solvers as black-box experts to deliver problem-dependent regret bounds. Furthermore, our strategy inherits the theoretical guarantee of any expert designed for strongly convex functions and exponentially concave functions, up to a double logarithmic factor. For general convex functions, it maintains the minimax optimality and also achieves a small-loss bound.
翻訳日:2021-05-11 14:33:39 公開日:2021-05-08
# リストベースOMPと非一様配列を用いた方向探索モデルの検討

Study of List-Based OMP and an Enhanced Model for Direction Finding with Non-Uniform Arrays ( http://arxiv.org/abs/2105.03774v1 )

ライセンス: Link先を確認
W. S. Leite and R. C. de Lamare(参考訳) 本稿では,非一様線形アレイ (NLA) を用いた方向推定のための拡張コアレー変換モデル (EDCTM) と,LBML-OMP (List-Based Maximum Likelihood Orthogonal Matching Pursuit) と呼ばれる混合グリーディ最大度アルゴリズムを提案する。 提案手法は,Khatri-Rao 製品に基づくモデルを用いて非相関なソースを仮定して差分コアレイを生成する場合,改良された推定値を得る。 提案するlbml-omp手法では,各イテレーション毎に辞書と残差ベクトルの相関最大化に基づいて候補群を生成する。 lbml-ompは、より複雑で漸近的な最大確率決定規則に基づいて最適な候補を選択する。 LBML-OMPは既存のスパースリカバリアルゴリズムとNLAを用いた空間平滑な多重信号分類よりも優れていた。

This paper proposes an enhanced coarray transformation model (EDCTM) and a mixed greedy maximum likelihood algorithm called List-Based Maximum Likelihood Orthogonal Matching Pursuit (LBML-OMP) for direction-of-arrival estimation with non-uniform linear arrays (NLAs). The proposed EDCTM approach obtains improved estimates when Khatri-Rao product-based models are used to generate difference coarrays under the assumption of uncorrelated sources. In the proposed LBML-OMP technique, for each iteration a set of candidates is generated based on the correlation-maximiza tion between the dictionary and the residue vector. LBML-OMP then chooses the best candidate based on a reduced-complexity asymptotic maximum likelihood decision rule. Simulations show the improved results of EDCTM over existing approaches and that LBML-OMP outperforms existing sparse recovery algorithms as well as Spatial Smoothing Multiple Signal Classification with NLAs.
翻訳日:2021-05-11 14:33:20 公開日:2021-05-08
# De-Pois: データ中毒攻撃に対する無防備な攻撃

De-Pois: An Attack-Agnostic Defense against Data Poisoning Attacks ( http://arxiv.org/abs/2105.03592v1 )

ライセンス: Link先を確認
Jian Chen, Xuxin Zhang, Rui Zhang, Chen Wang, Ling Liu(参考訳) 機械学習技術は様々な応用に広く応用されている。 高度な攻撃者は、少数の悪意のあるサンプルをトレーニングデータセットに注入することで、学習手順を妨害することができる。 既存の防犯技術は、主に攻撃に特化しており、特定の種類の攻撃に対して設計されているが、それらが従う異なる原則のために他の攻撃に対して機能しない。 一般防衛戦略は開発されていない。 本稿では,毒物攻撃に対する攻撃非依存的防御であるde-poisを提案する。 de-poisの基本的な考え方は、クリーンなサンプルでトレーニングされたターゲットモデルの振る舞いを模倣する目的で、模倣モデルをトレーニングすることだ。 我々はGAN(Generative Adversarial Networks)を活用し、情報学習データの拡張と模倣モデル構築を容易にする。 模倣モデルとターゲットモデルとの予測差を比較することで、De-Poisは、MLアルゴリズムや種類の中毒攻撃を明示的に知ることなく、汚染されたサンプルをクリーンなものと区別することができる。 我々は,4種類の毒殺攻撃を実装し,異なる現実的データセット上で5つの典型的な防御手法を用いてDe-Poisを評価する。 以上の結果から,De-Poisは4種類の毒素攻撃に対して有毒なデータを検出するのに有効であり,F1スコアは平均0.9以上であることがわかった。

Machine learning techniques have been widely applied to various applications. However, they are potentially vulnerable to data poisoning attacks, where sophisticated attackers can disrupt the learning procedure by injecting a fraction of malicious samples into the training dataset. Existing defense techniques against poisoning attacks are largely attack-specific: they are designed for one specific type of attacks but do not work for other types, mainly due to the distinct principles they follow. Yet few general defense strategies have been developed. In this paper, we propose De-Pois, an attack-agnostic defense against poisoning attacks. The key idea of De-Pois is to train a mimic model the purpose of which is to imitate the behavior of the target model trained by clean samples. We take advantage of Generative Adversarial Networks (GANs) to facilitate informative training data augmentation as well as the mimic model construction. By comparing the prediction differences between the mimic model and the target model, De-Pois is thus able to distinguish the poisoned samples from clean ones, without explicit knowledge of any ML algorithms or types of poisoning attacks. We implement four types of poisoning attacks and evaluate De-Pois with five typical defense methods on different realistic datasets. The results demonstrate that De-Pois is effective and efficient for detecting poisoned data against all the four types of poisoning attacks, with both the accuracy and F1-score over 0.9 on average.
翻訳日:2021-05-11 14:28:05 公開日:2021-05-08
# バイパスネットワークを用いたナノホールセンシング信号の深層学習

Deep learning of nanopore sensing signals using a bi-path network ( http://arxiv.org/abs/2105.03660v1 )

ライセンス: Link先を確認
Dario Dematties, Chenyu Wen, Mauricio David P\'erez, Dian Zhou, Shi-Li Zhang(参考訳) ターゲットアナライト転位によるナノ孔センサの電気抵抗の一時的な変化を電流跡のパルス列として記録する。 パルス様信号の特徴抽出アルゴリズムは、経験的振幅閾値がノイズ背景からパルスを抽出するためにユーザ定義されているため、客観性に欠ける。 本稿では,双方向ネットワーク(B-Net)に基づく特徴抽出にディープラーニングを用いる。 トレーニング後、B-Netはプリミティブパラメータを指定せずに、原型パルスとパルス認識と特徴抽出の両方の能力を取得する。 B-Netの性能は生成されたデータセット上で評価され、さらにDNAとタンパク質のトランスロケーションの実験データに適用される。 B-Netの結果は比較的小さな相対誤差と安定した傾向を示した。 さらに、B-Netは1と等しい信号対雑音比でデータを処理でき、しきい値ベースのアルゴリズムでは不可能である。 開発されたb-netはパルスナノホール電流以外のパルス状信号に汎用的である。

Temporary changes in electrical resistance of a nanopore sensor caused by translocating target analytes are recorded as a sequence of pulses on current traces. Prevalent algorithms for feature extraction in pulse-like signals lack objectivity because empirical amplitude thresholds are user-defined to single out the pulses from the noisy background. Here, we use deep learning for feature extraction based on a bi-path network (B-Net). After training, the B-Net acquires the prototypical pulses and the ability of both pulse recognition and feature extraction without a priori assigned parameters. The B-Net performance is evaluated on generated datasets and further applied to experimental data of DNA and protein translocation. The B-Net results show remarkably small relative errors and stable trends. The B-Net is further shown capable of processing data with a signal-to-noise ratio equal to one, an impossibility for threshold-based algorithms. The developed B-Net is generic for pulse-like signals beyond pulsed nanopore currents.
翻訳日:2021-05-11 14:27:42 公開日:2021-05-08
# Tensor Programs IIb: Neural Tangent Kernel Training Dynamicsのアーキテクチャ的普遍性

Tensor Programs IIb: Architectural Universality of Neural Tangent Kernel Training Dynamics ( http://arxiv.org/abs/2105.03703v1 )

ライセンス: Link先を確認
Greg Yang, Etai Littwin(参考訳) Yang (2020a) は、最近、初期化時の Neural Tangent Kernel (NTK) が、ResNet や Transformers などの最新のステープルを含む大規模なアーキテクチャの無限幅制限を持つことを示した。 しかし、その分析は訓練には適用されない。 ここでは、トレーニング中の同じニューラルネットワーク(いわゆるNTKパラメトリゼーション)が、カーネルが無限幅NTKである関数空間におけるカーネル勾配降下ダイナミクスに従うことを示す。 これは NTK の振る舞いの *architectural universality* の証明を完成させる。 テンソルプログラムの内部でSGDのダイナミクス全体を記述し、マスター定理を用いて解析する。 この証明を容易にするために,テンソルプログラムのグラフィカル表記法を開発した。

Yang (2020a) recently showed that the Neural Tangent Kernel (NTK) at initialization has an infinite-width limit for a large class of architectures including modern staples such as ResNet and Transformers. However, their analysis does not apply to training. Here, we show the same neural networks (in the so-called NTK parametrization) during training follow a kernel gradient descent dynamics in function space, where the kernel is the infinite-width NTK. This completes the proof of the *architectural universality* of NTK behavior. To achieve this result, we apply the Tensor Programs technique: Write the entire SGD dynamics inside a Tensor Program and analyze it via the Master Theorem. To facilitate this proof, we develop a graphical notation for Tensor Programs.
翻訳日:2021-05-11 14:27:29 公開日:2021-05-08
# 動的ゲーム理論ニューラルオプティマイザ

Dynamic Game Theoretic Neural Optimizer ( http://arxiv.org/abs/2105.03788v1 )

ライセンス: Link先を確認
Guan-Horng Liu, Tianrong Chen, and Evangelos A. Theodorou(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングと最適制御理論(OCT)の関連性は,アルゴリズム設計の原則的ツールとして注目されている。 わずかな試みにもかかわらず、それらは階層伝播がマルコフ力学系に似ているようなアーキテクチャに限定されている。 これは、階層間の非マルコフ的依存関係(例えば)に大きく依存する現代的なネットワークへの柔軟性に疑問を投げかけている。 残余ネットワークの接続をスキップする)。 本研究では,DNN自体を特徴とする動的ゲームにおいて,各レイヤをプレイヤーとして見ることによって,新しい動的ゲーム視点を提案する。 このレンズを通して、異なるクラスのオプティマイザは、各(p)層の暗黙の情報構造によって異なる種類のnash平衡と一致すると見なすことができる。 Dynamic Game Theoretic Neural Optimizer (DGNOpt) と呼ばれるこの手法は、OCTにインスパイアされたオプティマイザをよりリッチなネットワーククラスに一般化するだけでなく、マルチプレイヤー協調ゲーム(英語版)を解くことで新たなトレーニング原理を動機付けている。 DGNOptは、残差ネットワークを用いた画像分類データセットにおいて、既存の手法よりも収束性の向上を示す。 我々の研究は、OCTとゲーム理論の両方の長所をマージし、ロバストな最適制御とバンディットに基づく最適化から新しいアルゴリズムの機会を創り出す。

The connection between training deep neural networks (DNNs) and optimal control theory (OCT) has attracted considerable attention as a principled tool of algorithmic design. Despite few attempts being made, they have been limited to architectures where the layer propagation resembles a Markovian dynamical system. This casts doubts on their flexibility to modern networks that heavily rely on non-Markovian dependencies between layers (e.g. skip connections in residual networks). In this work, we propose a novel dynamic game perspective by viewing each layer as a player in a dynamic game characterized by the DNN itself. Through this lens, different classes of optimizers can be seen as matching different types of Nash equilibria, depending on the implicit information structure of each (p)layer. The resulting method, called Dynamic Game Theoretic Neural Optimizer (DGNOpt), not only generalizes OCT-inspired optimizers to richer network class; it also motivates a new training principle by solving a multi-player cooperative game. DGNOpt shows convergence improvements over existing methods on image classification datasets with residual networks. Our work marries strengths from both OCT and game theory, paving ways to new algorithmic opportunities from robust optimal control and bandit-based optimization.
翻訳日:2021-05-11 14:27:16 公開日:2021-05-08
# (参考訳) 法文における自然言語処理の倫理的限界について [全文訳有]

On the Ethical Limits of Natural Language Processing on Legal Text ( http://arxiv.org/abs/2105.02751v2 )

ライセンス: CC BY 4.0
Dimitrios Tsarapatsanis, Nikolaos Aletras(参考訳) 法的テキストを分析する自然言語処理(NLP)手法は、法学者や実践者が大規模に法律を実証的に分析できる様々なツールを提供する。 しかし、研究者は、法律とシステムの予測能力の両方に関する真の洞察を得るために自然言語処理(NLP)システムを使用する倫理的限界を特定することに苦慮しているようだ。 本稿では,このような問題を体系的に考える方法をいくつか紹介する。 A) 学術的自由の重要性、(b) 国内だけでなく、さらに国際的にも幅広い法的・倫理的規範の存在、および(c) 計算法に関連する研究における道徳主義の脅威。 これら3つのパラメータそれぞれについて、法的なnlpコミュニティのための具体的な推奨事項を提供します。 我々の議論は、NLP研究コミュニティにおける最近の議論のきっかけとなった現実シナリオの研究を中心に構成されている。

Natural language processing (NLP) methods for analyzing legal text offer legal scholars and practitioners a range of tools allowing to empirically analyze law on a large scale. However, researchers seem to struggle when it comes to identifying ethical limits to using natural language processing (NLP) systems for acquiring genuine insights both about the law and the systems' predictive capacity. In this paper we set out a number of ways in which to think systematically about such issues. We place emphasis on three crucial normative parameters which have, to the best of our knowledge, been underestimated by current debates: (a) the importance of academic freedom, (b) the existence of a wide diversity of legal and ethical norms domestically but even more so internationally and (c) the threat of moralism in research related to computational law. For each of these three parameters we provide specific recommendations for the legal NLP community. Our discussion is structured around the study of a real-life scenario that has prompted recent debate in the legal NLP research community.
翻訳日:2021-05-11 11:57:24 公開日:2021-05-08
# 顔再建のための逆生成型逆レンダラ

Inverting Generative Adversarial Renderer for Face Reconstruction ( http://arxiv.org/abs/2105.02431v2 )

ライセンス: Link先を確認
Jingtan Piao, Keqiang Sun, KwanYee Lin, Quan Wang, Hongsheng Li(参考訳) 入力として単眼の顔画像が与えられた3次元顔形状再構成は、対応する3次元顔メッシュを復元することを目的としている。 近年,最適化と学習に基づく顔再構成手法は,新たな微分可能レンダラーを活用し,有望な結果を示した。 しかし、主にグラフィックルールに基づく微分可能なレンダラーは、現実世界の照明、反射、および‘etc’の現実的なメカニズムを単純化し、現実的なイメージを生成できない。 これは最適化やトレーニングプロセスに多くのドメインシフトノイズをもたらします。 そこで本研究では,新しい生成型逆向きレンダラ(gar)を導入し,その逆バージョンを汎用フィッティングパイプラインに調整し,この問題に取り組むことを提案する。 具体的には、慎重に設計されたニューラルレンダラーは、顔の正規マップと他の要素を表す潜時符号を入力として取り、リアルな顔画像を表示する。 GARは複雑な実世界のイメージをモデル化することを学ぶが、グラフィックルールを単純化するのではなく、現実的なイメージを生成できるため、トレーニングや最適化においてドメインシフトノイズを本質的に抑制することができる。 より精巧なGARを用いて3次元顔パラメータを予測し,まずRenderer Invertingを用いて精密な初期パラメータを抽出し,勾配に基づくオプティマイザで改良する手法を提案する。 提案する生成逆数レンダラーと,新しい顔再構成フレームワークの有効性を実証するために,広範囲な実験を行った。 本手法は,複数の顔再構成データセットの最先端性能を実現する。

Given a monocular face image as input, 3D face geometry reconstruction aims to recover a corresponding 3D face mesh. Recently, both optimization-based and learning-based face reconstruction methods have taken advantage of the emerging differentiable renderer and shown promising results. However, the differentiable renderer, mainly based on graphics rules, simplifies the realistic mechanism of the illumination, reflection, \etc, of the real world, thus cannot produce realistic images. This brings a lot of domain-shift noise to the optimization or training process. In this work, we introduce a novel Generative Adversarial Renderer (GAR) and propose to tailor its inverted version to the general fitting pipeline, to tackle the above problem. Specifically, the carefully designed neural renderer takes a face normal map and a latent code representing other factors as inputs and renders a realistic face image. Since the GAR learns to model the complicated real-world image, instead of relying on the simplified graphics rules, it is capable of producing realistic images, which essentially inhibits the domain-shift noise in training and optimization. Equipped with the elaborated GAR, we further proposed a novel approach to predict 3D face parameters, in which we first obtain fine initial parameters via Renderer Inverting and then refine it with gradient-based optimizers. Extensive experiments have been conducted to demonstrate the effectiveness of the proposed generative adversarial renderer and the novel optimization-based face reconstruction framework. Our method achieves state-of-the-art performances on multiple face reconstruction datasets.
翻訳日:2021-05-11 11:27:23 公開日:2021-05-08
# 変形可能なグラフリファインメントを用いたカスケード画像マッチング

Cascade Image Matting with Deformable Graph Refinement ( http://arxiv.org/abs/2105.02646v2 )

ライセンス: Link先を確認
Zijian Yu, Xuhui Li, Huijuan Huang, Wen Zheng and Li Chen(参考訳) 画像マッチングとは、前景オブジェクトの不透明度を推定することを指す。 整合結果には正確な輪郭と前景の細部が必要である。 人間の画像のマット化タスクをよりよく達成するために,変形可能なグラフ修正によるカスケード画像マットリングネットワークを提案し,入力を必要とせず,人間の画像から正確なアルファマットを自動で予測する。 ネットワークカスケードアーキテクチャを用いて、粗大な最適化に対応する低解像度から高解像度までのマッチングを行う。 また、畳み込みニューラルネットワーク(CNN)の限界を克服するために、グラフニューラルネットワーク(GNN)に基づく変形可能なグラフリファインメント(DGR)モジュールも導入する。 DGRモジュールは、長距離関係を効果的に捉え、より大域的かつ局所的な情報を得て、より微細なアルファマットを生成する。 また,近傍を動的に予測し,高分解能特徴にdgrモジュールを適用することで,dgrモジュールの計算複雑性を低減する。 実験結果は,casdgrが合成データセットで最先端のパフォーマンスを達成し,実画像で良好な結果が得られることを示す。

Image matting refers to the estimation of the opacity of foreground objects. It requires correct contours and fine details of foreground objects for the matting results. To better accomplish human image matting tasks, we propose the Cascade Image Matting Network with Deformable Graph Refinement, which can automatically predict precise alpha mattes from single human images without any additional inputs. We adopt a network cascade architecture to perform matting from low-to-high resolution, which corresponds to coarse-to-fine optimization. We also introduce the Deformable Graph Refinement (DGR) module based on graph neural networks (GNNs) to overcome the limitations of convolutional neural networks (CNNs). The DGR module can effectively capture long-range relations and obtain more global and local information to help produce finer alpha mattes. We also reduce the computation complexity of the DGR module by dynamically predicting the neighbors and apply DGR module to higher--resolution features. Experimental results demonstrate the ability of our CasDGR to achieve state-of-the-art performance on synthetic datasets and produce good results on real human images.
翻訳日:2021-05-11 11:26:57 公開日:2021-05-08