このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210615となっている論文です。

PDF登録状況(公開日: 20210615)

TitleAuthorsAbstract論文公表日・翻訳日
# テキストデータ分布:Kullback Leibler Textual Distributions Contrasts on GPT-2 Generated Texts, with Supervised, Unsupervised Learning on Vaccine & Market Topics & Sentiment

Textual Data Distributions: Kullback Leibler Textual Distributions Contrasts on GPT-2 Generated Texts, with Supervised, Unsupervised Learning on Vaccine & Market Topics & Sentiment ( http://arxiv.org/abs/2107.02025v1 )

ライセンス: Link先を確認
Jim Samuel, Ratnakar Palle and Eduardo Correa Soares(参考訳) テキスト分析とNLPにおける効率的なテキストデータ分散(TDD)アライメントと生成はオープンな研究課題である。 現在、2つ以上の自然言語データセットが類似の分布に属していることの同調的かつ方法論的に確認し、テキストデータがアライメントする範囲を特定することは困難である。 本研究では,複数の教師付きおよび教師なし機械学習(ML)手法を適用し,(i)トピックアライメントによるTDDの振る舞い,(ii)感情アライメントによるTDDの振る舞いを探索することにより,上記の問題の一部に対処することに焦点を当てる。 さらに,質調整gpt-2を含む複数のテキスト生成手法を用いて,話題別および感情別テキストを生成する。 最後に、KL Textual Distributions Contrasts(KL-TDC)と名付けられた、KLL(Kulback-Leibler divergence)アプリケーションからTDDへの独自のプロセス駆動のバリエーションを開発し、自然に発生するテキストコーパスと機械生成テキストコーパスのアライメントを特定する。 そこで本研究では,話題や感情によってTDDを生成し,検証するためのユニークなアプローチを,人工的に生成されたトピックや感情に整合したテキストデータを必要とする場合に,疎結合なデータ問題やその他の研究,実践,教室の状況に対処するために使用することができる。

Efficient textual data distributions (TDD) alignment and generation are open research problems in textual analytics and NLP. It is presently difficult to parsimoniously and methodologically confirm that two or more natural language datasets belong to similar distributions, and to identify the extent to which textual data possess alignment. This study focuses on addressing a segment of the broader problem described above by applying multiple supervised and unsupervised machine learning (ML) methods to explore the behavior of TDD by (i) topical alignment, and (ii) by sentiment alignment. Furthermore we use multiple text generation methods including fine-tuned GPT-2, to generate text by topic and by sentiment. Finally we develop a unique process driven variation of Kullback-Leibler divergence (KLD) application to TDD, named KL Textual Distributions Contrasts(KL-TDC) to identify the alignment of machine generated textual corpora with naturally occurring textual corpora. This study thus identifies a unique approach for generating and validating TDD by topic and sentiment, which can be used to help address sparse data problems and other research, practice and classroom situations in need of artificially generated topic or sentiment aligned textual data.
翻訳日:2021-07-11 11:32:05 公開日:2021-06-15
# Black Box Probabilistic Numerics

Black Box Probabilistic Numerics ( http://arxiv.org/abs/2106.13718v1 )

ライセンス: Link先を確認
Onur Teymur, Christopher N. Foley, Philip G. Breen, Toni Karvonen, Chris. J. Oates(参考訳) 確率的数値は、推論問題として微分方程式の数値解のような数値的なタスクをキャストする。 1つのアプローチは、未知の興味の量をランダム変数としてモデル化し、従来の数値法で生成されたデータを用いてこの変数を制約することである。 しかし、データは興味の量と非線形に関連し、ランダム変数の適切な条件付けを困難にし、対処可能な数値タスクの範囲を制限することができる。 そこで本研究では,従来の手法による最終結果のみに基づく確率的数値解法を構築することを提案する。 利子数への近似の収束列は、リチャードソンの極限への遅延アプローチの確率的類似性において、利子数制限量を外挿することができるデータセットを構成する。 このブラックボックスアプローチ(1)は、確率的数値が適用できるタスクの範囲を大きく拡大し、(2)最先端の数値手法の特徴と性能を継承し、(3)高い収束順序を達成することができる。 非線形常微分方程式や偏微分方程式、固有値問題(確率的数値法がまだ開発されていない設定)に応用する。

Probabilistic numerics casts numerical tasks, such the numerical solution of differential equations, as inference problems to be solved. One approach is to model the unknown quantity of interest as a random variable, and to constrain this variable using data generated during the course of a traditional numerical method. However, data may be nonlinearly related to the quantity of interest, rendering the proper conditioning of random variables difficult and limiting the range of numerical tasks that can be addressed. Instead, this paper proposes to construct probabilistic numerical methods based only on the final output from a traditional method. A convergent sequence of approximations to the quantity of interest constitute a dataset, from which the limiting quantity of interest can be extrapolated, in a probabilistic analogue of Richardson's deferred approach to the limit. This black box approach (1) massively expands the range of tasks to which probabilistic numerics can be applied, (2) inherits the features and performance of state-of-the-art numerical methods, and (3) enables provably higher orders of convergence to be achieved. Applications are presented for nonlinear ordinary and partial differential equations, as well as for eigenvalue problems-a setting for which no probabilistic numerical methods have yet been developed.
翻訳日:2021-07-04 19:39:21 公開日:2021-06-15
# マクロ経済ニュースにおける感情と欧州債券市場への影響

Emotions in Macroeconomic News and their Impact on the European Bond Market ( http://arxiv.org/abs/2106.15698v1 )

ライセンス: Link先を確認
Sergio Consoli and Luca Tiozzo Pezzoli and Elisa Tosetti(参考訳) マクロ経済ニュースから抽出された感情は、イタリアやスペインにおける主権債利回りの将来の行動の説明と予測にどのように役立つかを示す。 私たちは、イベント、言語、トーンのグローバルデータベースとして知られる、大きなオープンソースのデータベースを使用して、債券市場の感情指標を構築しています。 ニュースから抽出した否定的な感情は,テキスト中の否定的な単語の数を制御した後でも,苦しい期間に政府の収量スプレッドモデルの予測能力を向上させる。 さらに、パニックのような強いネガティブな感情は、短期的な地平線におけるスプレッドの変化を予測するのに有用な情報を示す一方、苦痛のような穏やかな感情は、長期的な地平線において有用である。 イタリアの政治的混乱によって生じた感情はこの近隣市場に影響を与えるスペインのニュースに広まる。

We show how emotions extracted from macroeconomic news can be used to explain and forecast future behaviour of sovereign bond yield spreads in Italy and Spain. We use a big, open-source, database known as Global Database of Events, Language and Tone to construct emotion indicators of bond market affective states. We find that negative emotions extracted from news improve the forecasting power of government yield spread models during distressed periods even after controlling for the number of negative words present in the text. In addition, stronger negative emotions, such as panic, reveal useful information for predicting changes in spread at the short-term horizon, while milder emotions, such as distress, are useful at longer time horizons. Emotions generated by the Italian political turmoil propagate to the Spanish news affecting this neighbourhood market.
翻訳日:2021-07-04 19:39:01 公開日:2021-06-15
# (参考訳) 光文字認識法による画像から抽出した文書の分類 [全文訳有]

Classification of Documents Extracted from Images with Optical Character Recognition Methods ( http://arxiv.org/abs/2106.11125v1 )

ライセンス: CC BY 4.0
Omer Aydin(参考訳) 過去10年間で、機械学習の手法によって、無人運転車、音声認識、効果的なweb検索、そして人間のゲノムの理解がより良くなりました。 今日、機械学習は非常に一般的で、1日に何十回も使われている。 何らかのプロセスや状況について機械に教えようとすると、人間の脳では予測が難しい結果を予測することができる。 これらの手法は、短時間で人間の活動を扱うことがしばしば不可能または難しい操作を行うのにも役立ちます。 これらの理由から、今日では機械学習がとても重要です。 本研究では,2つの異なる機械学習手法を組み合わせた。 現実の問題を解決するために、原稿文書はまずコンピュータに転送され、次に分類された。 プロセス全体の実現には3つの基本手法を用いた。 手書きや印刷された文書はスキャナやデジタルカメラでデジタル化されている。 これらの文書は2つの異なる光学文字認識(OCR)操作で処理されている。 その後、naive bayesアルゴリズムを用いて生成したテキストを分類する。 すべてのプロジェクトは、Windowsオペレーティングシステム上のMicrosoft Visual Studio 12プラットフォームでプログラムされた。 C#プログラミング言語は研究のすべての部分に使われた。 また、用意されたコードやDLLも使用された。

Over the past decade, machine learning methods have given us driverless cars, voice recognition, effective web search, and a much better understanding of the human genome. Machine learning is so common today that it is used dozens of times a day, possibly unknowingly. Trying to teach a machine some processes or some situations can make them predict some results that are difficult to predict by the human brain. These methods also help us do some operations that are often impossible or difficult to do with human activities in a short time. For these reasons, machine learning is so important today. In this study, two different machine learning methods were combined. In order to solve a real-world problem, the manuscript documents were first transferred to the computer and then classified. We used three basic methods to realize the whole process. Handwriting or printed documents have been digitalized by a scanner or digital camera. These documents have been processed with two different Optical Character Recognition (OCR) operation. After that generated texts are classified by using Naive Bayes algorithm. All project was programmed in Microsoft Visual Studio 12 platform on Windows operating system. C# programming language was used for all parts of the study. Also, some prepared codes and DLLs were used.
翻訳日:2021-06-27 10:22:13 公開日:2021-06-15
# (参考訳) 個人用表型合成データを用いたモデルの展開に関する分析--予期せぬ驚き [全文訳有]

An Analysis of the Deployment of Models Trained on Private Tabular Synthetic Data: Unexpected Surprises ( http://arxiv.org/abs/2106.10241v1 )

ライセンス: CC BY 4.0
Mayana Pereira, Meghana Kshirsagar, Sumit Mukherjee, Rahul Dodhia, Juan Lavista Ferres(参考訳) 個別プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを尊重しながら機械学習モデルをトレーニングするための強力なアプローチである。 トレーニングしたモデルの公平性に対するDPの影響は、まだよく分かっていない。 本研究は,差分プライベートな合成データ生成が分類に与える影響を系統的に研究する。 アルゴリズム的公平度指標を用いて,合成データセットによるモデルユーティリティとバイアスの相違を分析した。 私たちの最初の結果からは、プライバシーとユーティリティ(よりプライベートで、より正確でない)の間に、私たちが評価したすべてのデータシンセサイザーの間に明確な負の相関があることが示されています。 さらに,モデル学習とモデル評価に合成データセットを用いた効果を評価する。 合成データから得られた結果は,実際のデータにデプロイされた時の実際のモデル性能を過小評価できることを示す。 したがって、モデルトレーニングや評価に差分プライベートな合成データセットを使用するシナリオにおいて、適切なテストプロトコルを定義する必要性を提唱する。

Diferentially private (DP) synthetic datasets are a powerful approach for training machine learning models while respecting the privacy of individual data providers. The effect of DP on the fairness of the resulting trained models is not yet well understood. In this contribution, we systematically study the effects of differentially private synthetic data generation on classification. We analyze disparities in model utility and bias caused by the synthetic dataset, measured through algorithmic fairness metrics. Our first set of results show that although there seems to be a clear negative correlation between privacy and utility (the more private, the less accurate) across all data synthesizers we evaluated, more privacy does not necessarily imply more bias. Additionally, we assess the effects of utilizing synthetic datasets for model training and model evaluation. We show that results obtained on synthetic data can misestimate the actual model performance when it is deployed on real data. We hence advocate on the need for defining proper testing protocols in scenarios where differentially private synthetic datasets are utilized for model training and evaluation.
翻訳日:2021-06-27 10:15:57 公開日:2021-06-15
# rSoccer: 小型・小型ロボットサッカーにおける強化学習の枠組み

rSoccer: A Framework for Studying Reinforcement Learning in Small and Very Small Size Robot Soccer ( http://arxiv.org/abs/2106.12895v1 )

ライセンス: Link先を確認
Felipe B. Martins, Mateus G. Machado, Hansenclever F. Bassani, Pedro H. M. Braga, Edna S. Barros(参考訳) 強化学習はロボティクスに多くの応用がある活発な研究分野であり、robocupコンペティションは強化学習法を研究し評価するための興味深い環境である。 ロボットに強化学習を適用することの難しさは、多数の経験サンプルが必要であり、エージェントのトレーニングにシミュレーション環境を使用し、実世界(sim-to-real)への学習を実行可能な経路に転送することである。 本稿では,強化学習実験に最適化されたIEEE Very Small Size SoccerとSmall Size Leagueのオープンソースシミュレータを紹介する。 また,単一エージェントおよびマルチエージェントロボットサッカースキルを評価するためのベンチマークタスクのセットを用いて,OpenAI Gym環境を作成するためのフレームワークを提案する。 次に,2つの最先端強化学習手法の学習能力と,その限界を,本フレームワークで導入された特定のシナリオで示す。 これによって、エンドツーエンドの強化学習アプローチを使用して、より多くのチームがこれらのカテゴリで簡単に競争できるようになります。

Reinforcement learning is an active research area with a vast number of applications in robotics, and the RoboCup competition is an interesting environment for studying and evaluating reinforcement learning methods. A known difficulty in applying reinforcement learning to robotics is the high number of experience samples required, being the use of simulated environments for training the agents followed by transfer learning to real-world (sim-to-real) a viable path. This article introduces an open-source simulator for the IEEE Very Small Size Soccer and the Small Size League optimized for reinforcement learning experiments. We also propose a framework for creating OpenAI Gym environments with a set of benchmarks tasks for evaluating single-agent and multi-agent robot soccer skills. We then demonstrate the learning capabilities of two state-of-the-art reinforcement learning methods as well as their limitations in certain scenarios introduced in this framework. We believe this will make it easier for more teams to compete in these categories using end-to-end reinforcement learning approaches and further develop this research area.
翻訳日:2021-06-27 09:07:56 公開日:2021-06-15
# ウイルス画像解析のための弱補正セグメンテーションと幾何学的ラベル間関係を用いたCT画像合成

CT Image Synthesis Using Weakly Supervised Segmentation and Geometric Inter-Label Relations For COVID Image Analysis ( http://arxiv.org/abs/2106.10230v1 )

ライセンス: Link先を確認
Dwarikanath Mahapatra, Ankur Singh(参考訳) 医用画像のセグメンテーションはコンピュータ支援診断にとって重要な課題であるが、ピクセルワイド手動アノテーションの高度な専門知識が課題であり、時間を要する。 従来のデータ拡張はトレーニングセットの基本的な分布を完全に表現していないため、トレーニングされたモデルは、異なるソースから取得した画像上でテストした場合、様々なパフォーマンスを持つ。 データ拡張のための画像合成に関するほとんどの先行研究は、異なる解剖学的ラベル間の幾何学的関係を無視している。 解剖学的ラベル間の関係を学習し,GANを用いた医用画像合成法の改良を提案する。 弱教師付きセグメンテーション法を用いて,画像の画素レベルのセグメンテーション・ラベル・マップを取得し,セグメンテーション・ラベル間の幾何学と形状の内在的関係を学習する。 潜在空間変数サンプリングはベース画像から多様な画像を生成することができ、ロバスト性が向上する。 本手法の合成画像を用いて,肺ct画像からcovid-19感染地域を区分するネットワークを訓練する。 提案手法は,公開データセット上での最先端セグメンテーション手法より優れている。 アブレーションの研究は幾何学と多様性を統合する利点も示している。

While medical image segmentation is an important task for computer aided diagnosis, the high expertise requirement for pixelwise manual annotations makes it a challenging and time consuming task. Since conventional data augmentations do not fully represent the underlying distribution of the training set, the trained models have varying performance when tested on images captured from different sources. Most prior work on image synthesis for data augmentation ignore the interleaved geometric relationship between different anatomical labels. We propose improvements over previous GAN-based medical image synthesis methods by learning the relationship between different anatomical labels. We use a weakly supervised segmentation method to obtain pixel level semantic label map of images which is used learn the intrinsic relationship of geometry and shape across semantic labels. Latent space variable sampling results in diverse generated images from a base image and improves robustness. We use the synthetic images from our method to train networks for segmenting COVID-19 infected areas from lung CT images. The proposed method outperforms state-of-the-art segmentation methods on a public dataset. Ablation studies also demonstrate benefits of integrating geometry and diversity.
翻訳日:2021-06-27 09:07:08 公開日:2021-06-15
# Deep Phasor Networks: 従来のニューラルネットワークとスパイクニューラルネットワークの接続

Deep Phasor Networks: Connecting Conventional and Spiking Neural Networks ( http://arxiv.org/abs/2106.11908v1 )

ライセンス: Link先を確認
Wilkie Olin-Ammentorp, Maxim Bazhenov(参考訳) 本研究では,ニューロンの活性化が単位円上に横たわっている複素数の角度に対応するという仮定に基づいて,標準的なニューラルネットワークを拡張する。 このようなネットワークの各層は、前の層の位相を重み付けして新しい位相値を計算することにより、新しい活性化を生成する。 この一般化されたアーキテクチャにより、モデルは高い精度に到達でき、時間変数の有無に関わらず、数学的に等価なバージョンのネットワークを実行できるという特異な利点を持つ。 重要なことに、時間領域における位相角の値は、周期的に繰り返されるデルタ関数や「スパイク」によってスパース的に表現することができる。 我々は,標準的な深層学習課題におけるファサーネットワークの時間的訓練を実演し,それらのネットワークを従来の時間的ドメインで実行したり,変換ステップを必要とせずに時間的ドメインをスパイクしたりすることができることを示す。 これはニューロモルフィックコンピューティングハードウェアに適した時間的スパイクベースの計算によって動作するディープネットワークを構築するための新しい基盤を提供する。

In this work, we extend standard neural networks by building upon an assumption that neuronal activations correspond to the angle of a complex number lying on the unit circle, or 'phasor.' Each layer in such a network produces new activations by taking a weighted superposition of the previous layer's phases and calculating the new phase value. This generalized architecture allows models to reach high accuracy and carries the singular advantage that mathematically equivalent versions of the network can be executed with or without regard to a temporal variable. Importantly, the value of a phase angle in the temporal domain can be sparsely represented by a periodically repeating series of delta functions or 'spikes'. We demonstrate the atemporal training of a phasor network on standard deep learning tasks and show that these networks can then be executed in either the traditional atemporal domain or spiking temporal domain with no conversion step needed. This provides a novel basis for constructing deep networkswhich operate via temporal, spike-based calculations suitable for neuromorphic computing hardware.
翻訳日:2021-06-27 09:06:38 公開日:2021-06-15
# (参考訳) 処理後アンサンブルストリームフロー予測のための機械学習 [全文訳有]

Machine Learning for Postprocessing Ensemble Streamflow Forecasts ( http://arxiv.org/abs/2106.09547v1 )

ライセンス: CC BY 4.0
Sanjib Sharma, Ganesh Raj Ghimire, and Ridwan Siddique(参考訳) 巧みな流れ予測は、水政策と管理の様々な分野の決定を知らせる。 機械学習と動的モデリングを統合して,短時間から中程度の時間スケール(1~7日)でストリームフロー予測の質向上を実証する。 動的モデリングは,数値気象予測モデルによる水文モデルの出力を強制することで,アンサンブルストリームフロー予測を生成する。 我々はLong Short-Term Memory(LSTM)ニューラルネットワークを用いて、動的モデリングから得られた生アンサンブルストリームフロー予測における予測バイアスを補正する。 予測検証には,リードタイム,フローしきい値,季節に応じて,スキルスコアや信頼性図など,さまざまな指標を使用します。 その結果,LSTMは気候,時間的持続性,決定論的,生のアンサンブル予測に比較して,流量予測を改善することができることがわかった。 LSTMは、すべてのリードタイム、フローしきい値、季節にわたって改善を示す。 生のアンサンブルと比較すると,LSTMによる予測スキルの相対的な向上は,初期リード時に比べて中距離時間で,低モデレート流に比べて高流量で,涼しいものは温季節で,比較的高い。 本結果は,ストリームフロー予測のスキルと信頼性の両方を改善する上で,LSTMの利点を強調した。

Skillful streamflow forecasting informs decisions in various areas of water policy and management. We integrate dynamical modeling with machine learning to demonstrate the enhanced quality of streamflow forecasts at short-to medium-range timescales (1 - 7 days). Dynamical modeling generates ensemble streamflow forecasts by forcing a hydrological model with numerical weather prediction model outputs. We employ a Long Short-Term Memory (LSTM) neural network to correct forecast biases in raw ensemble streamflow forecasts obtained from dynamical modeling. For forecast verification, we use different metrics such as skill score and reliability diagram conditioned upon the lead time, flow threshold, and season. The verification results show that the LSTM can improve streamflow forecasts relative to climatological, temporal persistence, deterministic, and raw ensemble forecasts. The LSTM demonstrates improvement across all lead times, flow thresholds, and seasons. As compared to the raw ensembles, relative gain in forecast skill from LSTM is generally higher at medium-range timescales compared to initial lead time; high flows compared to low-moderate flows; and warm-season compared to the cool ones. Overall, our results highlight the benefits of LSTM for improving both the skill and reliability of streamflow forecasts.
翻訳日:2021-06-19 14:17:31 公開日:2021-06-15
# (参考訳) 短文の著者クラスタリングとトピック推定 [全文訳有]

Author Clustering and Topic Estimation for Short Texts ( http://arxiv.org/abs/2106.09533v1 )

ライセンス: CC BY 4.0
Graham Tierney and Christopher Bail and Alexander Volfovsky(参考訳) ソーシャルメディア投稿のような短いテキストの分析は、多くの文書レベルの単語共起ペアの観察に依存するため、非常に難しい。 トピック分布以外にも、モデリングの一般的なダウンストリームタスクは、その後の分析のためにこれらの文書の著者をグループ化することである。 従来のモデルはドキュメントのグルーピングを見積もり、独立したプロシージャでユーザクラスタを特定します。 本稿では,同じ文書中の単語間の強い依存度をユーザレベルのトピック分布でモデル化することにより,遅延ディリクレ割当を拡張できる新しいモデルを提案する。 また、ユーザをクラスタ化し、ポストホッククラスタ推定の必要性を排除し、ノイズの多いユーザレベルのトピック分布を典型的な値に縮小することでトピック推定を改善する。 我々の手法は、短文で生じる問題に対する従来のアプローチよりも -- あるいはそれ以上 -- 機能し、米国上院議員のツイートのデータセットにその有用性を示し、党派イデオロギーを反映した意味のあるトピックとクラスタの両方を復元する。

Analysis of short text, such as social media posts, is extremely difficult because it relies on observing many document-level word co-occurrence pairs. Beyond topic distributions, a common downstream task of the modeling is grouping the authors of these documents for subsequent analyses. Traditional models estimate the document groupings and identify user clusters with an independent procedure. We propose a novel model that expands on the Latent Dirichlet Allocation by modeling strong dependence among the words in the same document, with user-level topic distributions. We also simultaneously cluster users, removing the need for post-hoc cluster estimation and improving topic estimation by shrinking noisy user-level topic distributions towards typical values. Our method performs as well as -- or better -- than traditional approaches to problems arising in short text, and we demonstrate its usefulness on a dataset of tweets from United States Senators, recovering both meaningful topics and clusters that reflect partisan ideology.
翻訳日:2021-06-19 14:00:49 公開日:2021-06-15
# (参考訳) クロス発話コンテキストとマルチタスク言語モデリングを用いたeコマースチャットボットのasr適応 [全文訳有]

ASR Adaptation for E-commerce Chatbots using Cross-Utterance Context and Multi-Task Language Modeling ( http://arxiv.org/abs/2106.09532v1 )

ライセンス: CC BY 4.0
Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff(参考訳) スロットエンティティに対するASR(Automatic Speech Recognition)の堅牢性は、金融取引や購入を含むEコマース音声アシスタントにおいて重要である。 ドメイン適応の有効化とともに、クロス発話の文脈的手がかりが、音声からドメイン固有の内容語を曖昧にするために重要な役割を果たすことは直感的である。 本稿では,ASR N-best仮説の再検討のために,Transformer-XLニューラル言語モデル(NLM)の文脈化,内容語頑健性,ドメイン適応性を改善する様々な手法について検討する。 文脈化を改善するために,対話行動のターンレベルと発話コンテキストの相互変換を併用する。 さらに、ドメインジェネラルなNLMをオンザフライでeコマースに適応させるために、ドメイン内のデータに微調整されたマスク付きLMから派生した埋め込みを使用します。 最後に、ドメイン内コンテンツワードに対するロバスト性を改善するために、コンテンツ単語の検出と言語モデリングを協調的に行うマルチタスクモデルを提案する。 非コンテクストのLSTM LMベースラインと比較して、最高のNLMリスコラは、Eコマースオーディオテストセットで19.2%のコンテンツWER削減と6.4%のスロットラベルF1の改善をもたらす。

Automatic Speech Recognition (ASR) robustness toward slot entities are critical in e-commerce voice assistants that involve monetary transactions and purchases. Along with effective domain adaptation, it is intuitive that cross utterance contextual cues play an important role in disambiguating domain specific content words from speech. In this paper, we investigate various techniques to improve contextualization, content word robustness and domain adaptation of a Transformer-XL neural language model (NLM) to rescore ASR N-best hypotheses. To improve contextualization, we utilize turn level dialogue acts along with cross utterance context carry over. Additionally, to adapt our domain-general NLM towards e-commerce on-the-fly, we use embeddings derived from a finetuned masked LM on in-domain data. Finally, to improve robustness towards in-domain content words, we propose a multi-task model that can jointly perform content word detection and language modeling tasks. Compared to a non-contextual LSTM LM baseline, our best performing NLM rescorer results in a content WER reduction of 19.2% on e-commerce audio test set and a slot labeling F1 improvement of 6.4%.
翻訳日:2021-06-19 13:36:11 公開日:2021-06-15
# STAN:スタブリングセラピー分析ヘルパー

STAN: A stuttering therapy analysis helper ( http://arxiv.org/abs/2106.09545v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Marc Wenninger, Jochen Schmidt, Alexander Wolff von Gudenberg, Korbinian Riedhammer(参考訳) 発声は、繰り返し、音、音節または単語の延長、発話中のブロックによって識別される複雑な音声障害である。 特定の発話行動は強く異なり、パーソナライズされた治療が必要である。 治療セッションは、セラピストによる高い濃度を必要とする。 本稿では, 言語療法士を支援するシステムSTANを紹介する。 このような自動フィードバックシステムは、セラピストに対する認知的負荷を低減し、より簡潔な治療を可能にするとともに、複数のセラピストセッションのスパンをスッタリングする分析を可能にする。

Stuttering is a complex speech disorder identified by repeti-tions, prolongations of sounds, syllables or words and blockswhile speaking. Specific stuttering behaviour differs strongly,thus needing personalized therapy. Therapy sessions requirea high level of concentration by the therapist. We introduceSTAN, a system to aid speech therapists in stuttering therapysessions. Such an automated feedback system can lower thecognitive load on the therapist and thereby enable a more con-sistent therapy as well as allowing analysis of stuttering overthe span of multiple therapy sessions.
翻訳日:2021-06-18 15:42:57 公開日:2021-06-15
# (参考訳) 長期記憶型ニューラルネットワーク(LSTM)による経済情報発信 [全文訳有]

Economic Nowcasting with Long Short-Term Memory Artificial Neural Networks (LSTM) ( http://arxiv.org/abs/2106.08901v1 )

ライセンス: CC BY 4.0
Daniel Hopp(参考訳) 人工ニューラルネットワーク(ANN)は、近年、様々な分野や分野において多くの進歩の触媒となっている。 しかし、経済への影響は相対的に小さかった。 長期記憶ネットワーク(LSTM)の一種であるANNは、特に経済的な時系列を扱うのに適している。 ここで、アーキテクチャの性能と特性は、現在経済の現在キャスティングの分野で人気のあるdynamic factor model(dfm)と比較して評価される。 LSTMは3つの異なる変数、グローバルな輸出価値とボリューム、グローバルなサービス輸出の計上において、DFMよりも優れた結果をもたらす。 その他の利点は、様々な時間周波数で多数の入力特徴を処理できることである。 欠点は、すべてのannに共通する、入力機能のモデル出力への寄与を記述できないことである。 PyTorch, https://pypi.org/pro ject/nowcast-lstm/を使って,ディープラーニングライブラリの知識を必要とせずに,方法論の継続的な応用研究を容易にするために,付属するPythonライブラリを開発した。

Artificial neural networks (ANNs) have been the catalyst to numerous advances in a variety of fields and disciplines in recent years. Their impact on economics, however, has been comparatively muted. One type of ANN, the long short-term memory network (LSTM), is particularly wellsuited to deal with economic time-series. Here, the architecture's performance and characteristics are evaluated in comparison with the dynamic factor model (DFM), currently a popular choice in the field of economic nowcasting. LSTMs are found to produce superior results to DFMs in the nowcasting of three separate variables; global merchandise export values and volumes, and global services exports. Further advantages include their ability to handle large numbers of input features in a variety of time frequencies. A disadvantage is the inability to ascribe contributions of input features to model outputs, common to all ANNs. In order to facilitate continued applied research of the methodology by avoiding the need for any knowledge of deep-learning libraries, an accompanying Python library was developed using PyTorch, https://pypi.org/pro ject/nowcast-lstm/.
翻訳日:2021-06-18 12:28:16 公開日:2021-06-15
# (参考訳) 金融取引記録の深層モデルに対する敵対的攻撃 [全文訳有]

Adversarial Attacks on Deep Models for Financial Transaction Records ( http://arxiv.org/abs/2106.08361v1 )

ライセンス: CC0 1.0
Ivan Fursov, Matvey Morozov, Nina Kaploukhaya, Elizaveta Kovtun, Rodrigo Rivera-Castro, Gleb Gusev, Dmitry Babaev, Ivan Kireev, Alexey Zaytsev, Evgeny Burnaev(参考訳) 取引記録を入力として使用する機械学習モデルは金融機関で人気がある。 最も効率的なモデルは、NLPコミュニティと同様のディープラーニングアーキテクチャを使用し、膨大な数のパラメータと限られたロバスト性のために課題を生んでいる。 特に、ディープラーニングモデルは敵の攻撃に対して脆弱である:入力のわずかな変更がモデルの出力を傷つける。 本研究では,取引記録データに対する敵対的攻撃とこれらの攻撃からの防御について検討する。 トランザクション記録データは、隣接するレコードが文中の単語よりも接続性が低く、各レコードが離散商法と連続取引量の両方からなるため、標準のnlpや時系列データとは異なる構造を有する。 我々は、攻撃が真の決定モデルを理解していないブラックボックス攻撃シナリオを検討し、シーケンスの最後にトランザクショントークンを追加することに特別な注意を払う。 これらの制限は、以前はNLPの世界では探索されなかったより現実的なシナリオを提供する。 提案した敵攻撃と各防衛は、金融業界の関連するデータセットを用いて顕著な性能を示す。 その結果、いくつかの生成したトランザクションはディープラーニングモデルを騙すのに十分であることが分かりました。 さらに, モデルロバスト性は, 対角訓練や別個の対角検出によって向上する。 この研究は、敵攻撃から保護を埋め込むことでモデルロバスト性が向上し、銀行や金融におけるディープモデルがより広く採用されることを示している。

Machine learning models using transaction records as inputs are popular among financial institutions. The most efficient models use deep-learning architectures similar to those in the NLP community, posing a challenge due to their tremendous number of parameters and limited robustness. In particular, deep-learning models are vulnerable to adversarial attacks: a little change in the input harms the model's output. In this work, we examine adversarial attacks on transaction records data and defences from these attacks. The transaction records data have a different structure than the canonical NLP or time series data, as neighbouring records are less connected than words in sentences, and each record consists of both discrete merchant code and continuous transaction amount. We consider a black-box attack scenario, where the attack doesn't know the true decision model, and pay special attention to adding transaction tokens to the end of a sequence. These limitations provide more realistic scenario, previously unexplored in NLP world. The proposed adversarial attacks and the respective defences demonstrate remarkable performance using relevant datasets from the financial industry. Our results show that a couple of generated transactions are sufficient to fool a deep-learning model. Further, we improve model robustness via adversarial training or separate adversarial examples detection. This work shows that embedding protection from adversarial attacks improves model robustness, allowing a wider adoption of deep models for transaction records in banking and finance.
翻訳日:2021-06-18 12:08:03 公開日:2021-06-15
# (参考訳) 背景ストーリーを用いたパーソナライズドダイアログの教師なし濃厚化 [全文訳有]

Unsupervised Enrichment of Persona-grounded Dialog with Background Stories ( http://arxiv.org/abs/2106.08364v1 )

ライセンス: CC BY 4.0
Bodhisattwa Prasad Majumder, Taylor Berg-Kirkpatrick, Julian McAuley, Harsh Jhamtani(参考訳) 人間はしばしば、会話をより魅力的で豊かにするために個人的な物語、生活経験、出来事を参照する。 パーソナライズされたダイアログモデルは、特定のペルソナに従う応答を生成することができるが、ペルソナに関連する詳細な経験やイベントの記述を見逃し、会話を浅く鈍く残すことが多い。 本研究では,既存のストーリーデータセット(例)の物語を活用し,パーソナラに関連する「背景物語」と対話モデルを対応づける。 ROCS)。 現在のダイアログデータセットは応答のような物語を含まないため、勾配に基づく書き換え手法を用いて対話応答を生成するために、検索されたストーリーの教師なし適応を行う。 提案手法では, 生成した応答が対話履歴とほぼ一致し, 検索されたストーリーとは最小限違い, イベント順序を保ち, 元のペルソナと一致させることを推奨する。 提案手法は,既存のダイアログモデルの出力と比較して,より多様な応答を生成でき,人間にとって興味深く,人間らしく評価できることを実証する。

Humans often refer to personal narratives, life experiences, and events to make a conversation more engaging and rich. While persona-grounded dialog models are able to generate responses that follow a given persona, they often miss out on stating detailed experiences or events related to a persona, often leaving conversations shallow and dull. In this work, we equip dialog models with 'background stories' related to a persona by leveraging fictional narratives from existing story datasets (e.g. ROCStories). Since current dialog datasets do not contain such narratives as responses, we perform an unsupervised adaptation of a retrieved story for generating a dialog response using a gradient-based rewriting technique. Our proposed method encourages the generated response to be fluent (i.e., highly likely) with the dialog history, minimally different from the retrieved story to preserve event ordering and consistent with the original persona. We demonstrate that our method can generate responses that are more diverse, and are rated more engaging and human-like by human evaluators, compared to outputs from existing dialog models.
翻訳日:2021-06-18 11:19:26 公開日:2021-06-15
# (参考訳) ポストホック説明器の客観的評価について [全文訳有]

On the Objective Evaluation of Post Hoc Explainers ( http://arxiv.org/abs/2106.08376v1 )

ライセンス: CC BY 4.0
Zachariah Carmichael, Walter J. Scheirer(参考訳) データ駆動型モデルの多くの応用は、特に医療、刑事司法、その他の高度な環境において、決定の透明性を要求する。 機械学習研究の最近の傾向は、それらがブラックボックスであると考えられる程度にますます複雑化しているアルゴリズムにつながっている。 意思決定の不透明度を低減するため、そのようなモデルの内部動作を人間に理解可能な方法で解釈する手法が提案されている。 これらのポストホックテクニックは普遍的な説明であり、アルゴリズム的な洞察で決定を忠実に強化することができる。 残念ながら、何が「良い」説明を構成するかについてはほとんど合意がない。 また、現在の説明評価方法は主観的または代理的手段から導かれる。 本研究では,モデルの加法構造から直接導出される地底真理に基づくポストホック説明器の評価のための枠組みを提案する。 本研究は, 何千もの実世界のタスクにおいて, 一般的な説明者を評価することで, 説明者を理解する上でのフレームワークの有効性を実証する。 このフレームワークは、説明は正確かもしれないが、個々の特徴の重要性を誤解している。

Many applications of data-driven models demand transparency of decisions, especially in health care, criminal justice, and other high-stakes environments. Modern trends in machine learning research have led to algorithms that are increasingly intricate to the degree that they are considered to be black boxes. In an effort to reduce the opacity of decisions, methods have been proposed to construe the inner workings of such models in a human-comprehensible manner. These post hoc techniques are described as being universal explainers - capable of faithfully augmenting decisions with algorithmic insight. Unfortunately, there is little agreement about what constitutes a "good" explanation. Moreover, current methods of explanation evaluation are derived from either subjective or proxy means. In this work, we propose a framework for the evaluation of post hoc explainers on ground truth that is directly derived from the additive structure of a model. We demonstrate the efficacy of the framework in understanding explainers by evaluating popular explainers on thousands of synthetic and several real-world tasks. The framework unveils that explanations may be accurate but misattribute the importance of individual features.
翻訳日:2021-06-18 11:09:30 公開日:2021-06-15
# (参考訳) Spoofing Generalization: いつプライオリティモデルを信頼できないのか? [全文訳有]

Spoofing Generalization: When Can't You Trust Proprietary Models? ( http://arxiv.org/abs/2106.08393v1 )

ライセンス: CC BY 4.0
Ankur Moitra and Elchanan Mossel and Colin Sandon(参考訳) 本研究では,学習データに完全に適合する機械学習モデルが,非知覚データに一般化するかどうかを判断する計算複雑性について検討する。 特に、トレーニングデータに適合するモデルgを構築することが目的であるが、正確なモデルfと区別できない悪意のあるエージェントのパワーについて検討する。 代わりに、ある固定された$c$に対して$n^c$時間で実行されるアルゴリズムを制限するなら、g c-weakly spoofs f である。 暗号の仮定では,強いスプーフィングが可能であり,2。 c>0の場合、c-weakの偽造は無条件で可能である 悪意のあるエージェントの仮定は極端なシナリオである(大きなモデルを訓練する企業が悪意を持っていないことを願う)が、大きなプロプライエタリなモデルやデータを盲目的に信頼する固有の困難に光を当てている、と我々は信じている。

In this work, we study the computational complexity of determining whether a machine learning model that perfectly fits the training data will generalizes to unseen data. In particular, we study the power of a malicious agent whose goal is to construct a model g that fits its training data and nothing else, but is indistinguishable from an accurate model f. We say that g strongly spoofs f if no polynomial-time algorithm can tell them apart. If instead we restrict to algorithms that run in $n^c$ time for some fixed $c$, we say that g c-weakly spoofs f. Our main results are 1. Under cryptographic assumptions, strong spoofing is possible and 2. For any c> 0, c-weak spoofing is possible unconditionally While the assumption of a malicious agent is an extreme scenario (hopefully companies training large models are not malicious), we believe that it sheds light on the inherent difficulties of blindly trusting large proprietary models or data.
翻訳日:2021-06-18 10:51:47 公開日:2021-06-15
# (参考訳) オートエンコーダに基づく音声変換による病的音声適応 [全文訳有]

Pathological voice adaptation with autoencoder-based voice conversion ( http://arxiv.org/abs/2106.08427v1 )

ライセンス: CC BY 4.0
Marc Illa, Bence Mark Halpern, Rob van Son, Laureano Moro-Velazquez, Odette Scharenborg(参考訳) 本稿では,病的音声合成への新しいアプローチを提案する。 音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。 提案手法では,一般的な音声を病的音声に変換する場合,音声変換(VC)モデルは音声の劣化に最適化される必要はなく,話者の変化にのみ適用される。 この最適化の変更により、自然界の劣化は変換過程によるものであって、言語病理の特徴を誇張するモデルによるものではないことが保証される。 本手法のコンセプトを示すために,uaspeechデータベースとオートエンコーダを用いたvc技術を用いて,dysarthric speechを変換する。 主観評価の結果, 難聴者に対して妥当な自然性を示すが, 難聴者では中低中低の自然性スコアが, 地上の真理と比較して低下する傾向がみられた。 低・高信頼度話者に対する話者特性の変換は成功したが、中程度ではない。 異なる知性レベルに対する結果の相違が、知性レベルに起因するか、あるいは話者によるものであるかは、さらに検討する必要がある。

In this paper, we propose a new approach to pathological speech synthesis. Instead of using healthy speech as a source, we customise an existing pathological speech sample to a new speaker's voice characteristics. This approach alleviates the evaluation problem one normally has when converting typical speech to pathological speech, as in our approach, the voice conversion (VC) model does not need to be optimised for speech degradation but only for the speaker change. This change in the optimisation ensures that any degradation found in naturalness is due to the conversion process and not due to the model exaggerating characteristics of a speech pathology. To show a proof of concept of this method, we convert dysarthric speech using the UASpeech database and an autoencoder-based VC technique. Subjective evaluation results show reasonable naturalness for high intelligibility dysarthric speakers, though lower intelligibility seems to introduce a marginal degradation in naturalness scores for mid and low intelligibility speakers compared to ground truth. Conversion of speaker characteristics for low and high intelligibility speakers is successful, but not for mid. Whether the differences in the results for the different intelligibility levels is due to the intelligibility levels or due to the speakers needs to be further investigated.
翻訳日:2021-06-18 10:09:03 公開日:2021-06-15
# (参考訳) 不確かなフィードバックグラフを用いたオンライン学習

Online Learning with Uncertain Feedback Graphs ( http://arxiv.org/abs/2106.08441v1 )

ライセンス: CC0 1.0
Pouya M Ghari, Yanning Shen(参考訳) 専門家のアドバイスによるオンライン学習は、さまざまな機械学習タスクで広く使われている。 学習者が専門家の集まりから1つを選び、アドバイスを受け、決定を下すという問題を考える。 多くの学習問題において、専門家は関連しているため、学習者は選択した専門家のサブセットに関連する損失を観察することができる。 この文脈では、専門家間の関係をフィードバックグラフで捉えることができ、これは学習者の意思決定を支援するのに使うことができる。 しかし、実際には、名目フィードバックグラフにはしばしば不確実性が伴うため、専門家間の実際の関係を明らかにすることは不可能である。 この課題に対処するため、本研究では、潜在的な不確実性の諸事例を調査し、不確実性に対処する新しいオンライン学習アルゴリズムを開発した。 提案アルゴリズムは, 穏やかな条件下でのサブ線形後悔を楽しむことが証明された。 提案アルゴリズムの有効性を示すために,実データセットの実験を行った。

Online learning with expert advice is widely used in various machine learning tasks. It considers the problem where a learner chooses one from a set of experts to take advice and make a decision. In many learning problems, experts may be related, henceforth the learner can observe the losses associated with a subset of experts that are related to the chosen one. In this context, the relationship among experts can be captured by a feedback graph, which can be used to assist the learner's decision making. However, in practice, the nominal feedback graph often entails uncertainties, which renders it impossible to reveal the actual relationship among experts. To cope with this challenge, the present work studies various cases of potential uncertainties, and develops novel online learning algorithms to deal with uncertainties while making use of the uncertain feedback graph. The proposed algorithms are proved to enjoy sublinear regret under mild conditions. Experiments on real datasets are presented to demonstrate the effectiveness of the novel algorithms.
翻訳日:2021-06-18 09:56:25 公開日:2021-06-15
# (参考訳) 定数多並列ラウンドにおける相関クラスタリング [全文訳有]

Correlation Clustering in Constant Many Parallel Rounds ( http://arxiv.org/abs/2106.08448v1 )

ライセンス: CC BY-SA 4.0
Vincent Cohen-Addad, Silvio Lattanzi, Slobodan Mitrovi\'c, Ashkan Norouzi-Fard, Nikos Parotsidis, Jakub Tarnawski(参考訳) 相関クラスタリングは教師なし学習において中心的なトピックであり、MLやデータマイニングに多くの応用がある。 相関クラスタリングでは、符号付きグラフを入力として受信し、不一致の数を最小限に抑えるために分割する。 本研究では,従来よりもかなり高速な超並列計算(MPC)アルゴリズムを提案する。 特に,本アルゴリズムでは,グラフ内のノード数にメモリサブリニアを持つマシンを使用し,一定数のラウンドのみを実行しながら定数近似を返却する。 我々の知る限り、我々のアルゴリズムは、サブ線形メモリシステムにおいて、一定数のMPCラウンドのみを用いてグラフ上のクラスタリング問題を確実に近似できる最初のアルゴリズムである。 我々は、我々の技術の実験的な分析で分析を補完する。

Correlation clustering is a central topic in unsupervised learning, with many applications in ML and data mining. In correlation clustering, one receives as input a signed graph and the goal is to partition it to minimize the number of disagreements. In this work we propose a massively parallel computation (MPC) algorithm for this problem that is considerably faster than prior work. In particular, our algorithm uses machines with memory sublinear in the number of nodes in the graph and returns a constant approximation while running only for a constant number of rounds. To the best of our knowledge, our algorithm is the first that can provably approximate a clustering problem on graphs using only a constant number of MPC rounds in the sublinear memory regime. We complement our analysis with an experimental analysis of our techniques.
翻訳日:2021-06-18 09:55:19 公開日:2021-06-15
# (参考訳) ryanspeech: 会話音声合成のためのコーパス [全文訳有]

RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis ( http://arxiv.org/abs/2106.08468v1 )

ライセンス: CC BY 4.0
Rohola Zandie, Mohammad H. Mahoor, Julia Madsen, and Eshrat S. Emamian(参考訳) 本稿では,自動音声合成(TTS)システムの研究のための新しい音声コーパスであるRyanSpeechを紹介する。 一般に利用可能なTSコーパスは、しばしばノイズが多く、複数の話者で記録される。 音声認識の分野では、高品質で公開可能な男性音声コーパスの必要性を満たすために、現実世界の会話環境からのテキスト素材を含むryanspeechの設計と作成を行った。 これらの資料には、44.1kHzで録音されたプロの男性声優のスピーチの10時間以上が含まれている。 このコーパスの設計とパイプラインにより、RyanSpeechは現実世界のアプリケーションでTSシステムを開発するのに理想的である。 将来の研究、プロトコル、ベンチマークのベースラインを提供するため、RyanSpeech上で4つの最先端音声モデルとボコーダを訓練した。 その結果,ベストモデルでは平均世論スコア(MOS)が3.36であった。 コーパスとトレーニングモデルの両方をパブリック使用用に作成しました。

This paper introduces RyanSpeech, a new speech corpus for research on automated text-to-speech (TTS) systems. Publicly available TTS corpora are often noisy, recorded with multiple speakers, or lack quality male speech data. In order to meet the need for a high quality, publicly available male speech corpus within the field of speech recognition, we have designed and created RyanSpeech which contains textual materials from real-world conversational settings. These materials contain over 10 hours of a professional male voice actor's speech recorded at 44.1 kHz. This corpus's design and pipeline make RyanSpeech ideal for developing TTS systems in real-world applications. To provide a baseline for future research, protocols, and benchmarks, we trained 4 state-of-the-art speech models and a vocoder on RyanSpeech. The results show 3.36 in mean opinion scores (MOS) in our best model. We have made both the corpus and trained models for public use.
翻訳日:2021-06-18 09:31:25 公開日:2021-06-15
# (参考訳) 内因性・外因性不確実性環境における強化学習の基礎的限界 [全文訳有]

Fundamental Limits of Reinforcement Learning in Environment with Endogeneous and Exogeneous Uncertainty ( http://arxiv.org/abs/2106.08477v1 )

ライセンス: CC BY 4.0
Rongpeng Li(参考訳) オンライン強化学習(RL)は情報処理のシナリオに広く適用されており、通常はチャネルやサービス要求の固有のランダム性のために不確実性を示す。 本稿では,一般のマルコフ決定過程(MDP)において,報酬と状態遷移確率がRLエージェントに未知であり,その変動が一定の動的予算(すなわち上限値)を超えない限り,時間とともに進化する不均一かつ不均一な不確実性について考察する。 我々はまず,変分に依存したスケジュールに従って再起動できる変分認識型高信頼強化学習(VB-UCRL)を開発した。 我々は,不均質な不確実性に起因する問題を克服し,最大$\sqrt{S}$または$S^{\frac{1}{6}}T^{\frac{1}{12}}$の保存条件を文献の最新の結果と比較し,$S$はMDPの状態サイズを示し,$T$は学習ステップの反復指標を示す。

Online reinforcement learning (RL) has been widely applied in information processing scenarios, which usually exhibit much uncertainty due to the intrinsic randomness of channels and service demands. In this paper, we consider an un-discounted RL in general Markov decision processes (MDPs) with both endogeneous and exogeneous uncertainty, where both the rewards and state transition probability are unknown to the RL agent and evolve with the time as long as their respective variations do not exceed certain dynamic budget (i.e., upper bound). We first develop a variation-aware Bernstein-based upper confidence reinforcement learning (VB-UCRL), which we allow to restart according to a schedule dependent on the variations. We successfully overcome the challenges due to the exogeneous uncertainty and establish a regret bound of saving at most $\sqrt{S}$ or $S^{\frac{1}{6}}T^{\frac{1}{12}}$ compared with the latest results in the literature, where $S$ denotes the state size of the MDP and $T$ indicates the iteration index of learning steps.
翻訳日:2021-06-18 09:20:52 公開日:2021-06-15
# (参考訳) マルチエージェント強化学習における性能最大化とコミュニケーションの最小化 [全文訳有]

Minimizing Communication while Maximizing Performance in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2106.08482v1 )

ライセンス: CC BY 4.0
Varun Kumar Vijay and Hassam Sheikh and Somdeb Majumdar and Mariano Phielipp(参考訳) エージェント間通信は、共有目標を達成するために協調を必要とするマルチエージェントタスクのパフォーマンスを著しく向上させる。 これまで,マルチエージェント強化学習とメッセージパッシングネットワークアーキテクチャを用いて,エージェント間通信プロトコルの学習が可能であった。 しかしながら、これらのモデルは制約のないブロードキャスト通信モデルを使用し、タスクが不要な場合でも、エージェントは各ステップで他のすべてのエージェントと通信する。 通信が帯域幅や電力、ネットワーク容量といったシステムの制約によって制限される現実世界のアプリケーションでは、送信されるメッセージの数を減らす必要がある。 本研究では,タスク固有の目的とコミュニケーションペナルティを同時に最適化するマルチタスク学習におけるパフォーマンスを最大化しつつ,コミュニケーションを最小化する簡単な方法を検討する。 強化とグンベル・ソフトマックス再パラメータ化を用いて目的を最適化できることを示す。 トレーニングの安定化には,トレーニングの50%とメッセージフォワードの2つのテクニックを導入する。 たった50%のエピソードにおけるコミュニケーションペナルティのトレーニングは、私たちのモデルが発信メッセージをオフにするのを防ぐ。 第二に、以前受信した繰り返しメッセージは、モデルが情報を保持するのに役立つ。 これらの手法により,性能を損なうことなく,コミュニケーションを75%削減できることを示す。

Inter-agent communication can significantly increase performance in multi-agent tasks that require co-ordination to achieve a shared goal. Prior work has shown that it is possible to learn inter-agent communication protocols using multi-agent reinforcement learning and message-passing network architectures. However, these models use an unconstrained broadcast communication model, in which an agent communicates with all other agents at every step, even when the task does not require it. In real-world applications, where communication may be limited by system constraints like bandwidth, power and network capacity, one might need to reduce the number of messages that are sent. In this work, we explore a simple method of minimizing communication while maximizing performance in multi-task learning: simultaneously optimizing a task-specific objective and a communication penalty. We show that the objectives can be optimized using Reinforce and the Gumbel-Softmax reparameterization. We introduce two techniques to stabilize training: 50% training and message forwarding. Training with the communication penalty on only 50% of the episodes prevents our models from turning off their outgoing messages. Second, repeating messages received previously helps models retain information, and further improves performance. With these techniques, we show that we can reduce communication by 75% with no loss of performance.
翻訳日:2021-06-18 08:35:00 公開日:2021-06-15
# 翻訳にコメントするコード: モデルの有効性とエラーの比較研究

Code to Comment Translation: A Comparative Study on Model Effectiveness & Errors ( http://arxiv.org/abs/2106.08415v1 )

ライセンス: Link先を確認
Junayed Mahmud, Fahim Faisal, Raihan Islam Arnob, Antonios Anastasopoulos, Kevin Moran(参考訳) ソースコードの自動要約は、機械翻訳モデルを用いて、コードスニペットを関連する自然言語記述に"翻訳"する一般的なソフトウェアエンジニアリング研究トピックである。 このようなモデルのほとんどの評価は、自動参照ベースメトリクスを用いて行われる。 しかし、プログラミング言語と自然言語の比較的大きな意味的ギャップを考えると、この研究の行は現在の最先端モデルの様々なエラーモードの質的な調査の恩恵を受けるだろうと論じる。 そこで本研究では,最近提案されている3つのソースコード要約モデルの量的・質的比較を行った。 定量的評価では,スムーズなBLEU-4, METEOR, ROUGE-Lの機械翻訳指標に基づくモデルを比較し, 定性的な評価では, モデルが犯す最も一般的な誤りを, 地上の真実のキャプションと比較して手動でオープンコーディングする。 本研究は、将来の研究活動の推進に使用できる経験的導出誤差分類法に基づくモデル予測誤差とメトリックベースパフォーマンスの関係に関する新たな知見を明らかにする。

Automated source code summarization is a popular software engineering research topic wherein machine translation models are employed to "translate" code snippets into relevant natural language descriptions. Most evaluations of such models are conducted using automatic reference-based metrics. However, given the relatively large semantic gap between programming languages and natural language, we argue that this line of research would benefit from a qualitative investigation into the various error modes of current state-of-the-art models. Therefore, in this work, we perform both a quantitative and qualitative comparison of three recently proposed source code summarization models. In our quantitative evaluation, we compare the models based on the smoothed BLEU-4, METEOR, and ROUGE-L machine translation metrics, and in our qualitative evaluation, we perform a manual open-coding of the most common errors committed by the models when compared to ground truth captions. Our investigation reveals new insights into the relationship between metric-based performance and model prediction errors grounded in an empirically derived error taxonomy that can be used to drive future research efforts
翻訳日:2021-06-17 17:49:25 公開日:2021-06-15
# ニューラルネットワークの揺らぎによる信頼できない予測

Predicting Unreliable Predictions by Shattering a Neural Network ( http://arxiv.org/abs/2106.08365v1 )

ライセンス: Link先を確認
Xu Ji, Razvan Pascanu, Devon Hjelm, Andrea Vedaldi, Balaji Lakshminarayanan, Yoshua Bengio(参考訳) 線形ニューラルネットワークは、それぞれが独自のアクティベーションパターン、ドメイン、経験的エラーを持つサブファンクションに分割することができる。 完全なネットワークに対する経験的エラーは、サブファンクションの経験的エラーに対する期待として記述できる。 劣函数経験誤差に束縛された一般化を構成することは、より密集した劣函数が表現空間の訓練サンプルに囲まれていることを示す。 さらに、活性化領域が小さいモデルはより一般化し、知識をより大きい程度に抽象化するモデルはより一般化し、その他は全て等しいことを示唆している。 我々は,部分関数の誤差境界を推論するための理論的な枠組みだけでなく,ネットワークの一般化に成功しないサンプルの予測にも応用する,実用的手法を提案する。 本手法は,誤分類と分布外サンプルの検出においてテストを行い,両事例で競合性があることを確認した。 要するに、いくつかのネットワークアクティベーションパターンは、他のものよりも高い信頼性と関連付けられており、サブファンクションエラー境界を用いて識別することができる。

Piecewise linear neural networks can be split into subfunctions, each with its own activation pattern, domain, and empirical error. Empirical error for the full network can be written as an expectation over empirical error of subfunctions. Constructing a generalization bound on subfunction empirical error indicates that the more densely a subfunction is surrounded by training samples in representation space, the more reliable its predictions are. Further, it suggests that models with fewer activation regions generalize better, and models that abstract knowledge to a greater degree generalize better, all else equal. We propose not only a theoretical framework to reason about subfunction error bounds but also a pragmatic way of approximately evaluating it, which we apply to predicting which samples the network will not successfully generalize to. We test our method on detection of misclassification and out-of-distribution samples, finding that it performs competitively in both cases. In short, some network activation patterns are associated with higher reliability than others, and these can be identified using subfunction error bounds.
翻訳日:2021-06-17 17:47:49 公開日:2021-06-15
# 自動切開診断のための機械学習によるハイパースペクトル画像の解析

Machine learning-based analysis of hyperspectral images for automated sepsis diagnosis ( http://arxiv.org/abs/2106.08445v1 )

ライセンス: Link先を確認
Maximilian Dietrich (1) and Silvia Seidlitz (2, 3), Nicholas Schreck (4), Manuel Wiesenfarth (4), Patrick Godau (2, 3), Minu Tizabi (2), Jan Sellner (2, 3), Sebastian Marx (1), Samuel Kn\"odler (5), Michael M. Allers (5), Leonardo Ayala (2, 7), Karsten Schmidt (8), Thorsten Brenner (8), Alexander Studier-Fischer (5), Felix Nickel (5), Beat P. M\"uller-Stich (5), Annette Kopp-Schneider (4), Markus A. Weigand (1) and Lena Maier-Hein (2, 6, 7) ((1) Department of Anesthesiology, Heidelberg University Hospital, Heidelberg, Germany, (2) Division of Computer Assisted Medical Interventions, German Cancer Research Center (DKFZ), Heidelberg, Germany, (3) HIDSS4Health - Helmholtz Information and Data Science School for Health, Karlsruhe/Heidelberg , Germany (4) Division of Biostatistics, German Cancer Research Center (DKFZ), Heidelberg, Germany, (5) Department of General, Visceral, and Transplantation Surgery, Heidelberg University Hospital, Heidelberg, Germany, (6) Faculty of Mathematics and Computer Science, Heidelberg University, Heidelberg, Germany, (7) Medical Faculty, Heidelberg University, Heidelberg, Germany, (8) Department of Anesthesiology and Intensive Care Medicine, University Hospital Essen, University Duisburg-Essen, Essen, Germany)(参考訳) セプシスは世界中で死亡率と致命的な病気の主な原因である。 早期診断のためのロバストなバイオマーカーはいまだに欠けているが、最近の研究は、ハイパースペクトルイメージング(HSI)が微小循環の変化を監視することでこのボトルネックを克服する可能性を示唆している。 しかし、HSIデータに基づく自動機械学習による敗血症診断は、これまで検討されていない。 文献上のこのギャップを考慮すると,(1)hsiベースの敗血症自動診断が可能か,(2)hsiベースの組織分類に関連する共同創設者の一覧を作成するために,既存のデータセットを活用した。 既存のデータを用いて9,8\,\%以上の精度で敗血症を分類することができたが、本研究では、患者グループ間でバランスがとれないとアルゴリズムのパフォーマンスが過大評価される可能性がある、いくつかの主題、セラピー、画像関連共同創設者も明らかにした。 本研究で得られた予備的な結果を確認するためには,これらの共同設立者に対して慎重に設計された今後の研究が必要であると結論づける。

Sepsis is a leading cause of mortality and critical illness worldwide. While robust biomarkers for early diagnosis are still missing, recent work indicates that hyperspectral imaging (HSI) has the potential to overcome this bottleneck by monitoring microcirculatory alterations. Automated machine learning-based diagnosis of sepsis based on HSI data, however, has not been explored to date. Given this gap in the literature, we leveraged an existing data set to (1) investigate whether HSI-based automated diagnosis of sepsis is possible and (2) put forth a list of possible confounders relevant for HSI-based tissue classification. While we were able to classify sepsis with an accuracy of over $98\,\%$ using the existing data, our research also revealed several subject-, therapy- and imaging-related confounders that may lead to an overestimation of algorithm performance when not balanced across the patient groups. We conclude that further prospective studies, carefully designed with respect to these confounders, are necessary to confirm the preliminary results obtained in this study.
翻訳日:2021-06-17 17:47:07 公開日:2021-06-15
# 連続制御における重み付き政策探索の複雑さとメタスタビリティについて

On the Sample Complexity and Metastability of Heavy-tailed Policy Search in Continuous Control ( http://arxiv.org/abs/2106.08414v1 )

ライセンス: Link先を確認
Amrit Singh Bedi, Anjaly Parayil, Junyu Zhang, Mengdi Wang, Alec Koppel(参考訳) 強化学習はインタラクティブな意思決定のためのフレームワークであり、インセンティブはシステムダイナミクスモデルなしで時系列に現れる。 連続空間へのスケーリングにより、確率的ポリシー勾配(PG)更新を伴うパラメータ化ポリシーを反復的に改善するポリシー探索に焦点を当てる。 表形式のマルコフ決定問題(MDP)では、永続的な探索と適切なパラメータ化の下で、大域的最適性が得られる。 対照的に、連続空間において、非凸性は、既存の収束結果によって証明されるように、主に定常性または任意の局所極限に制限されるような、病理的な挑戦を引き起こす。 このギャップを埋めるために、我々は、テール・インデックスパラメータαによって定義される重み付きテールの分布によって定義されるポリシーパラメータ化を通じて、連続空間における永続的な探索を進める。 そのため、PGと共通するスコア関数の滑らかさ条件が無効になる。 そこで, 定常性への収束率は, ポリシーのテール指数アルファ, ホルダー連続性パラメータ, 可積分性条件, および, 初めて導入された探索耐性パラメータにどのように依存するかを定式化する。 さらに,局所極大集合のテール指数への依存性を,適切に定義されたマルコフ連鎖の出口および遷移時間解析を通じて特徴付け,より重いテールのレヴィ過程に関連するポリシーがより広いピークに収束することを示す。 この現象により教師付き学習における摂動に対する安定性が向上し、特に近視的および遠視的インセンティブが不一致である場合には、政策探索のパフォーマンスも向上する。

Reinforcement learning is a framework for interactive decision-making with incentives sequentially revealed across time without a system dynamics model. Due to its scaling to continuous spaces, we focus on policy search where one iteratively improves a parameterized policy with stochastic policy gradient (PG) updates. In tabular Markov Decision Problems (MDPs), under persistent exploration and suitable parameterization, global optimality may be obtained. By contrast, in continuous space, the non-convexity poses a pathological challenge as evidenced by existing convergence results being mostly limited to stationarity or arbitrary local extrema. To close this gap, we step towards persistent exploration in continuous space through policy parameterizations defined by distributions of heavier tails defined by tail-index parameter alpha, which increases the likelihood of jumping in state space. Doing so invalidates smoothness conditions of the score function common to PG. Thus, we establish how the convergence rate to stationarity depends on the policy's tail index alpha, a Holder continuity parameter, integrability conditions, and an exploration tolerance parameter introduced here for the first time. Further, we characterize the dependence of the set of local maxima on the tail index through an exit and transition time analysis of a suitably defined Markov chain, identifying that policies associated with Levy Processes of a heavier tail converge to wider peaks. This phenomenon yields improved stability to perturbations in supervised learning, which we corroborate also manifests in improved performance of policy search, especially when myopic and farsighted incentives are misaligned.
翻訳日:2021-06-17 17:45:33 公開日:2021-06-15
# ハードウェアエミュレーションのための量子化DNNライブラリの開発

Development of Quantized DNN Library for Exact Hardware Emulation ( http://arxiv.org/abs/2106.08892v1 )

ライセンス: Link先を確認
Masato Kiyama and Motoki Amagasaki and Masahiro Iida(参考訳) 量子化は、AIチップのようなエッジデバイス上でDeep Neural Network(DNN)を実行する際の実行時間の短縮と省電力に使用される。 量子化の効果を調べるには,32ビット浮動小数点精度でdnnの重みを数ビット幅で量子化し,それを32ビット浮動小数点精度に量子化した後,推定を行う必要がある。 これはDNNライブラリが浮動小数点数しか処理できないためである。 しかし、エミュレーションの精度は正確な精度を与えていない。 MAC操作のオーバーフローの検出やエッジデバイス操作の検証には,正確な精度が必要である。 我々は、ハードウェアと全く同じ振る舞いで量子化されたDNN(QNN)を実行するDNNライブラリであるPyParchを開発した。 本稿では,PyParchの新たな提案と実装について述べる。 評価の結果,任意のビット幅を持つQNNとYOLOv5のような複雑なDNNの精度を推定でき,オーバーフローを検出することができる。 我々はエミュレーション時間のオーバーヘッドを評価し,QNNでは5.6倍,QNNでは42倍,オーバーフロー検出では通常のDNNの実行時間よりも42倍遅かった。

Quantization is used to speed up execution time and save power when runnning Deep neural networks (DNNs) on edge devices like AI chips. To investigate the effect of quantization, we need performing inference after quantizing the weights of DNN with 32-bit floating-point precision by a some bit width, and then quantizing them back to 32-bit floating-point precision. This is because the DNN library can only handle floating-point numbers. However, the accuracy of the emulation does not provide accurate precision. We need accurate precision to detect overflow in MAC operations or to verify the operation on edge de vices. We have developed PyParch, a DNN library that executes quantized DNNs (QNNs) with exactly the same be havior as hardware. In this paper, we describe a new proposal and implementation of PyParch. As a result of the evaluation, the accuracy of QNNs with arbitrary bit widths can be estimated for la rge and complex DNNs such as YOLOv5, and the overflow can be detected. We evaluated the overhead of the emulation time and found that it was 5.6 times slower for QNN and 42 times slower for QNN with overflow detection compared to the normal DNN execution time.
翻訳日:2021-06-17 17:40:40 公開日:2021-06-15
# 確率的最短経路に対する暗黙的有限ホリゾン近似と効率的な最適アルゴリズム

Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path ( http://arxiv.org/abs/2106.08377v1 )

ライセンス: Link先を確認
Liyu Chen, Mehdi Jafarnia-Jahromi, Rahul Jain, Haipeng Luo(参考訳) 本稿では,SSP(Stochastic Shortest Path)モデルにおいて,特定の特性が確保される限り,最小限の後悔を実現するため,後悔最小化アルゴリズムを開発するための汎用テンプレートを提案する。 我々の分析の鍵は暗黙的有限水平近似と呼ばれる新しい手法であり、これは明示的な実装なしに解析においてのみ有限水平近似によってSSPモデルを近似する。 このテンプレートを用いて, モデルフリー(第1報) とミニマックス(第2報) を厳密な正のコストで最適とし, モデルベースとミニマックス(第2報) をゼロコストのステートアクションペアでも最適とし, [Tarbouriech et al., 2021b] から得られる最良の結果に適合するアルゴリズムを開発した。 重要なことに、両方のアルゴリズムは高度にスパースな更新を認めており、既存のアルゴリズムよりも計算効率が良い。 さらに、どちらもパラメータフリーにすることもできる。

We introduce a generic template for developing regret minimization algorithms in the Stochastic Shortest Path (SSP) model, which achieves minimax optimal regret as long as certain properties are ensured. The key of our analysis is a new technique called implicit finite-horizon approximation, which approximates the SSP model by a finite-horizon counterpart only in the analysis without explicit implementation. Using this template, we develop two new algorithms: the first one is model-free (the first in the literature to our knowledge) and minimax optimal under strictly positive costs; the second one is model-based and minimax optimal even with zero-cost state-action pairs, matching the best existing result from [Tarbouriech et al., 2021b]. Importantly, both algorithms admit highly sparse updates, making them computationally more efficient than all existing algorithms. Moreover, both can be made completely parameter-free.
翻訳日:2021-06-17 17:39:36 公開日:2021-06-15
# 広層ニューラルネットワークにおける勾配学習重み付けと誤差スケール入力相関

Gradient-trained Weights in Wide Neural Networks Align Layerwise to Error-scaled Input Correlations ( http://arxiv.org/abs/2106.08453v1 )

ライセンス: Link先を確認
Akhilan Boopathy, Ila Fiete(参考訳) 近年の研究では、さまざまな困難を解決できるディープニューラルネットワークが、トレーニングデータの統計を取り入れて、その成功を達成している。 しかし、既存の結果は限られた設定でのみ確立されている。 本研究では,勾配降下によって学習された非線形アクティベーションを持つ無限幅ニューラルネットワークの層間重み付けダイナミクスを導出する。 重み更新は, 誤差によって重み付けられた中間層からの入力相関に一致し, 有限幅幅の広帯域ネットワークでも有効であることを示す。 このアライメントの結果、理論上はバックプロパゲーションと同じアライメントを達成するバックプロパゲーションフリー学習ルールを定式化できる。 最後に、これらの学習ルールをfeedforwardおよびrecurrentニューラルネットワークのベンチマーク問題でテストし、幅広いネットワークにおいて、バックプロパゲーションに匹敵するパフォーマンスを示す。

Recent works have examined how deep neural networks, which can solve a variety of difficult problems, incorporate the statistics of training data to achieve their success. However, existing results have been established only in limited settings. In this work, we derive the layerwise weight dynamics of infinite-width neural networks with nonlinear activations trained by gradient descent. We show theoretically that weight updates are aligned with input correlations from intermediate layers weighted by error, and demonstrate empirically that the result also holds in finite-width wide networks. The alignment result allows us to formulate backpropagation-free learning rules, named Align-zero and Align-ada, that theoretically achieve the same alignment as backpropagation. Finally, we test these learning rules on benchmark problems in feedforward and recurrent neural networks and demonstrate, in wide networks, comparable performance to backpropagation.
翻訳日:2021-06-17 17:39:18 公開日:2021-06-15
# マルチエージェント確率的リニアバンディットにおける協調学習とパーソナライズ

Collaborative Learning and Personalization in Multi-Agent Stochastic Linear Bandits ( http://arxiv.org/abs/2106.08902v1 )

ライセンス: Link先を確認
Avishek Ghosh, Abishek Sankararaman and Kannan Ramchandran(参考訳) エージェント(ユーザ)が似ているが、すべて同一ではないような、N$エージェントの不均一な確率的線形包帯フレームワークにおける後悔を最小限に抑える問題を考える。 我々は,2つの一般的なアイデアを用いて,ユーザ不均一性をモデル化する。 (i) 同一グループ内のユーザ同士が同一であるが,グループ間で異なるグループに分割されたクラスタリングフレームワーク, (ii) 2人のユーザが必ずしも同一ではないが,ユーザのパラメータが人口平均に近いパーソナライズフレームワーク。 クラスタ化ユーザの設定において,クラスタのアイデンティティの連続的改善と後悔の最小化に基づく新しいアルゴリズムを提案する。 任意のエージェントに対して、後悔のスケールが $\mathcal{O}(\sqrt{T/N})$、エージェントが 'well separated' クラスタにある場合、または $\mathcal{O}(T^{\frac{1}{2} + \varepsilon}/(N)^{\frac{1}{2} -\varepsilon})$、クラスタが十分に分離されていない場合、$\varepsilon$は正で、任意に$0$である。 私たちのアルゴリズムはクラスタ分離に適応しており、パラメータフリーです -- クラスタの数や分離、クラスタサイズを知る必要はありませんが、後悔の保証は固有の複雑さに適応します。 パーソナライズフレームワークでは,グローバル平均モデルの推定値に基づいて,個人的帯域幅のインスタンスを初期化する自然なアルゴリズムを導入する。 パラメータが$\epsilon_i$から$\epsilon_i$にずれたエージェント$i$は、$\widetilde{O}(\epsilon_i\sqrt{T})$の後悔のスケーリングを実現する。 これは、ユーザ表現が近い場合(小さな$\epsilon_i)$、結果として生じる後悔は低く、逆であることを示している。 その結果は実証的に検証され,非適応ベースラインに対する適応アルゴリズムの優れた性能が観察される。

We consider the problem of minimizing regret in an $N$ agent heterogeneous stochastic linear bandits framework, where the agents (users) are similar but not all identical. We model user heterogeneity using two popularly used ideas in practice; (i) A clustering framework where users are partitioned into groups with users in the same group being identical to each other, but different across groups, and (ii) a personalization framework where no two users are necessarily identical, but a user's parameters are close to that of the population average. In the clustered users' setup, we propose a novel algorithm, based on successive refinement of cluster identities and regret minimization. We show that, for any agent, the regret scales as $\mathcal{O}(\sqrt{T/N})$, if the agent is in a `well separated' cluster, or scales as $\mathcal{O}(T^{\frac{1}{2} + \varepsilon}/(N)^{\frac{1}{2} -\varepsilon})$ if its cluster is not well separated, where $\varepsilon$ is positive and arbitrarily close to $0$. Our algorithm is adaptive to the cluster separation, and is parameter free -- it does not need to know the number of clusters, separation and cluster size, yet the regret guarantee adapts to the inherent complexity. In the personalization framework, we introduce a natural algorithm where, the personal bandit instances are initialized with the estimates of the global average model. We show that, an agent $i$ whose parameter deviates from the population average by $\epsilon_i$, attains a regret scaling of $\widetilde{O}(\epsilon_i\sqrt{T})$. This demonstrates that if the user representations are close (small $\epsilon_i)$, the resulting regret is low, and vice-versa. The results are empirically validated and we observe superior performance of our adaptive algorithms over non-adaptive baselines.
翻訳日:2021-06-17 17:37:47 公開日:2021-06-15
# ショートカット学習の除去によるステレオマッチングネットワークにおけるドメインロバスト性獲得

Achieving Domain Robustness in Stereo Matching Networks by Removing Shortcut Learning ( http://arxiv.org/abs/2106.08486v1 )

ライセンス: Link先を確認
WeiQin Chuah, Ruwan Tennakoon, Alireza Bab-Hadiashar, David Suter(参考訳) 学習ベースのステレオマッチングと深さ推定ネットワークは、現在、目覚ましい結果で公開ベンチマークを抜いている。 しかし、最先端のネットワークはしばしば合成画像からより困難な実データ領域への一般化に失敗している。 本稿では,実データ性能に対する合成画像学習の効果を分析し,ステレオマッチングネットワークの一般化成功の重要な要因を明らかにすることを目的としている。 ステレオマッチングネットワークによる合成領域の特徴の学習は,(1)合成ステレオ画像中のマッチング画素間の同一局所統計(RGB色特徴)と(2)ゲームエンジンでシミュレートされた3Dオブジェクトの合成テクスチャにおけるリアリズムの欠如の2つの「ショートカット」の影響を強く受けていることを示す証拠を提供する。 このようなショートカットを除去することで、最先端のステレオマッチングフレームワークにおけるドメインの堅牢性を達成でき、ネットワークが合成データのみに基づいてトレーニングされたという事実にもかかわらず、複数の現実的なデータセット上で顕著なパフォーマンスが得られることを示す。 実験結果は,合成データからショートカットを除去することが,合成データ領域と実データ領域とのドメイン不変の一般化を実現する鍵となることを示唆している。

Learning-based stereo matching and depth estimation networks currently excel on public benchmarks with impressive results. However, state-of-the-art networks often fail to generalize from synthetic imagery to more challenging real data domains. This paper is an attempt to uncover hidden secrets of achieving domain robustness and in particular, discovering the important ingredients of generalization success of stereo matching networks by analyzing the effect of synthetic image learning on real data performance. We provide evidence that demonstrates that learning of features in the synthetic domain by a stereo matching network is heavily influenced by two "shortcuts" presented in the synthetic data: (1) identical local statistics (RGB colour features) between matching pixels in the synthetic stereo images and (2) lack of realism in synthetic textures on 3D objects simulated in game engines. We will show that by removing such shortcuts, we can achieve domain robustness in the state-of-the-art stereo matching frameworks and produce a remarkable performance on multiple realistic datasets, despite the fact that the networks were trained on synthetic data, only. Our experimental results point to the fact that eliminating shortcuts from the synthetic data is key to achieve domain-invariant generalization between synthetic and real data domains.
翻訳日:2021-06-17 17:36:34 公開日:2021-06-15
# グリーンセキュリティのためのMinimaxレグレスト下でのロバスト強化学習

Robust Reinforcement Learning Under Minimax Regret for Green Security ( http://arxiv.org/abs/2106.08413v1 )

ライセンス: Link先を確認
Lily Xu, Andrew Perrault, Fei Fang, Haipeng Chen, Milind Tambe(参考訳) グリーン・セキュリティ・ドメインは、密猟者、違法なロガー、違法な漁師の敵対行動の不確実さに直面してパトロールを計画する被告を特徴としている。 重要なことに、敵の将来の行動に対するパトロールの抑止効果は、パトロール計画が逐次的な意思決定問題となる。 そこで本研究では,未検討のミニマックス後悔基準に従って,グリーンセキュリティのための堅牢なシーケンシャルパトロール計画に焦点を当てた。 我々は,敵行動のパラメータ値を制御するディフェンダーと自然とのゲームとして問題を定式化し,ロバストな方針を見つけるためのアルゴリズムミラーを設計する。 MIRRORは2つの強化学習に基づくオラクルを使用し、限定的なディフェンダー戦略とパラメータ値を考慮して制限されたゲームを解決する。 実世界のポーチデータに基づいてMIRRORを評価する。

Green security domains feature defenders who plan patrols in the face of uncertainty about the adversarial behavior of poachers, illegal loggers, and illegal fishers. Importantly, the deterrence effect of patrols on adversaries' future behavior makes patrol planning a sequential decision-making problem. Therefore, we focus on robust sequential patrol planning for green security following the minimax regret criterion, which has not been considered in the literature. We formulate the problem as a game between the defender and nature who controls the parameter values of the adversarial behavior and design an algorithm MIRROR to find a robust policy. MIRROR uses two reinforcement learning-based oracles and solves a restricted game considering limited defender strategies and parameter values. We evaluate MIRROR on real-world poaching data.
翻訳日:2021-06-17 17:35:06 公開日:2021-06-15
# Kernel Hilbert Space, Mercer's Theorem, Eigenfunctions, Nystr\"om Method, and use of Kernels in Machine Learning: Tutorial and Survey

Reproducing Kernel Hilbert Space, Mercer's Theorem, Eigenfunctions, Nystr\"om Method, and Use of Kernels in Machine Learning: Tutorial and Survey ( http://arxiv.org/abs/2106.08443v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) これはカーネル、カーネルメソッド、および関連する分野に関するチュートリアルおよび調査論文である。 機能分析と機械学習におけるカーネルの歴史のレビューから始めます。 次に、マーサー核、ヒルベルトおよびバナッハ空間、再現するケルネルヒルベルト空間(RKHS)、マーサーの定理とその証明、頻繁に使われるカーネル、距離計量からのカーネル構成、カーネルの重要なクラス(有界、積分正定値、普遍的、定常的、特徴的核を含む)、カーネル中心と正規化、固有函数を詳細に説明する。 次に、カーネルメソッド(カーネルサポートベクターマシンなど)、半定値プログラミングによるカーネル学習、ヒルベルト・シュミット独立基準、最大平均偏差、カーネル平均埋め込み、カーネル次元減少を含む、機械学習におけるカーネルの使用の種類を紹介する。 また,nystr{\"o}m法による固有関数とカーネルの近似と同様に,カーネル行列の階数と因子分解もカバーする。 本論文は, 機械学習, 次元減少, 数学の関数解析, 量子力学の数学物理学など, 様々な科学分野に有用である。

This is a tutorial and survey paper on kernels, kernel methods, and related fields. We start with reviewing the history of kernels in functional analysis and machine learning. Then, Mercer kernel, Hilbert and Banach spaces, Reproducing Kernel Hilbert Space (RKHS), Mercer's theorem and its proof, frequently used kernels, kernel construction from distance metric, important classes of kernels (including bounded, integrally positive definite, universal, stationary, and characteristic kernels), kernel centering and normalization, and eigenfunctions are explained in detail. Then, we introduce types of use of kernels in machine learning including kernel methods (such as kernel support vector machines), kernel learning by semi-definite programming, Hilbert-Schmidt independence criterion, maximum mean discrepancy, kernel mean embedding, and kernel dimensionality reduction. We also cover rank and factorization of kernel matrix as well as the approximation of eigenfunctions and kernels using the Nystr{\"o}m method. This paper can be useful for various fields of science including machine learning, dimensionality reduction, functional analysis in mathematics, and mathematical physics in quantum mechanics.
翻訳日:2021-06-17 17:34:21 公開日:2021-06-15
# 自律運転におけるレーダ知覚のシミュレーション-現実間ギャップ測定のための多層的アプローチ

A Multi-Layered Approach for Measuring the Simulation-to-Realit y Gap of Radar Perception for Autonomous Driving ( http://arxiv.org/abs/2106.08372v1 )

ライセンス: Link先を確認
Anthony Ngo, Max Paul Bauer and Michael Resch(参考訳) 自動運転車のリリースに対する安全性検証要件の増大に伴い、従来の実世界のテストに加えて、シミュレーションベースのテストなどの代替手法が登場している。 仮想テストに依存するためには、使用するセンサモデルを検証する必要がある。 そのため,特定の忠実度が所望の用途に十分かどうかを判断するためには,シミュレーションと現実の相違を定量化する必要がある。 このレーダ知覚のシミュレーションから現実へのギャップを自律運転で測定する方法は存在しない。 本稿では,明示的なセンサモデルと暗黙的なセンサモデルを組み合わせた多層評価手法を導入することで,この問題に対処する。 前者は合成されたセンサデータの現実性を直接評価し、後者は下流ターゲットアプリケーションの評価を指す。 本手法を実証するために,3種類のレーダモデル(理想的,データ駆動,レイトレーシングベース)の信頼性と,レーダベースマルチオブジェクトトラッキングの仮想テストへの適用性を評価した。 提案手法の有効性を,既存の不一致を可視化し,異なるシナリオにわたるモデル全体の忠実度を現実的に推定する,詳細なセンサモデルアセスメントを提供することで実証した。

With the increasing safety validation requirements for the release of a self-driving car, alternative approaches, such as simulation-based testing, are emerging in addition to conventional real-world testing. In order to rely on virtual tests the employed sensor models have to be validated. For this reason, it is necessary to quantify the discrepancy between simulation and reality in order to determine whether a certain fidelity is sufficient for a desired intended use. There exists no sound method to measure this simulation-to-realit y gap of radar perception for autonomous driving. We address this problem by introducing a multi-layered evaluation approach, which consists of a combination of an explicit and an implicit sensor model evaluation. The former directly evaluates the realism of the synthetically generated sensor data, while the latter refers to an evaluation of a downstream target application. In order to demonstrate the method, we evaluated the fidelity of three typical radar model types (ideal, data-driven, ray tracing-based) and their applicability for virtually testing radar-based multi-object tracking. We have shown the effectiveness of the proposed approach in terms of providing an in-depth sensor model assessment that renders existing disparities visible and enables a realistic estimation of the overall model fidelity across different scenarios.
翻訳日:2021-06-17 17:33:11 公開日:2021-06-15
# Scene Transformer:行動予測と計画のための統合マルチタスクモデル

Scene Transformer: A unified multi-task model for behavior prediction and planning ( http://arxiv.org/abs/2106.08417v1 )

ライセンス: Link先を確認
Jiquan Ngiam, Benjamin Caine, Vijay Vasudevan, Zhengdong Zhang, Hao-Tien Lewis Chiang, Jeffrey Ling, Rebecca Roelofs, Alex Bewley, Chenxi Liu, Ashish Venugopal, David Weiss, Ben Sapp, Zhifeng Chen, Jonathon Shlens(参考訳) 動的環境下での計画には,複数エージェントの今後の動きを予測する必要がある。 このタスクは、エージェント(例えば、車と歩行者)とその関連行動が多様性を持ち、相互に影響を及ぼすため、自律運転には困難である。 ほとんどの先行研究は、まず、過去のすべての動きに基づいて各エージェントの独立した未来を予測し、それからこれらの独立した予測に対して計画することに焦点を当てている。 しかしながら、固定予測に対する計画は、異なるエージェント間の将来の相互作用可能性を表現できないことに悩まされ、準最適計画につながる。 本研究では,実世界の運転環境におけるすべてのエージェントの挙動を統一的に予測するモデルを構築した。 近年の言語モデリングのアプローチに触発されて、我々はモデルに対するクエリとしてマスキング戦略を使用し、自動運転車の目標や将来の軌道、環境における他のエージェントの行動など、エージェントの振る舞いを予測するための単一のモデルの実行を可能にした。 我々のモデルアーキテクチャは、道路要素、エージェントの相互作用、時間ステップに注意を払って、統一トランスフォーマーアーキテクチャにおいて異種世界状態を融合させる。 我々は,行動予測のための自律走行データセットに対するアプローチを評価し,最先端の性能を実現する。 本研究は,マスキング戦略を用いた統一アーキテクチャにおける行動予測の問題を定式化することで,複数の動作予測と関連するタスクの計画を効果的に行うことができる1つのモデルを持つことを実証する。

Predicting the future motion of multiple agents is necessary for planning in dynamic environments. This task is challenging for autonomous driving since agents (e.g., vehicles and pedestrians) and their associated behaviors may be diverse and influence each other. Most prior work has focused on first predicting independent futures for each agent based on all past motion, and then planning against these independent predictions. However, planning against fixed predictions can suffer from the inability to represent the future interaction possibilities between different agents, leading to sub-optimal planning. In this work, we formulate a model for predicting the behavior of all agents jointly in real-world driving environments in a unified manner. Inspired by recent language modeling approaches, we use a masking strategy as the query to our model, enabling one to invoke a single model to predict agent behavior in many ways, such as potentially conditioned on the goal or full future trajectory of the autonomous vehicle or the behavior of other agents in the environment. Our model architecture fuses heterogeneous world state in a unified Transformer architecture by employing attention across road elements, agent interactions and time steps. We evaluate our approach on autonomous driving datasets for behavior prediction, and achieve state-of-the-art performance. Our work demonstrates that formulating the problem of behavior prediction in a unified architecture with a masking strategy may allow us to have a single model that can perform multiple motion prediction and planning related tasks effectively.
翻訳日:2021-06-17 17:32:51 公開日:2021-06-15
# 多解連続正規化流れ

Multi-Resolution Continuous Normalizing Flows ( http://arxiv.org/abs/2106.08462v1 )

ライセンス: Link先を確認
Vikram Voleti, Chris Finlay, Adam Oberman, Christopher Pal(参考訳) 近年の研究では、連続正規化フロー(CNF)の観点から、ニューラル正規微分方程式(ODE)が画像の生成モデルとして機能することが示されている。 そのようなモデルは正確な確率計算と可逆生成/密度推定を提供する。 本研究では,粗画像と整合する微細画像を生成するのに必要な追加情報に対する条件分布を特徴付けることにより,そのようなモデルのマルチレゾリューションモデル(mrcnf)を提案する。 ログの可能性を変更できないような解像度間の変換を導入します。 このアプローチは,GPUを1つだけ使用して,高解像度で性能を向上し,パラメータが少なく,様々な画像データセットに対して同等の値が得られることを示す。

Recent work has shown that Neural Ordinary Differential Equations (ODEs) can serve as generative models of images using the perspective of Continuous Normalizing Flows (CNFs). Such models offer exact likelihood calculation, and invertible generation/density estimation. In this work we introduce a Multi-Resolution variant of such models (MRCNF), by characterizing the conditional distribution over the additional information required to generate a fine image that is consistent with the coarse image. We introduce a transformation between resolutions that allows for no change in the log likelihood. We show that this approach yields comparable likelihood values for various image datasets, with improved performance at higher resolutions, with fewer parameters, using only 1 GPU.
翻訳日:2021-06-17 17:32:28 公開日:2021-06-15
# トランスフォーマー言語モデルで使えるコンテキスト機能は何か?

What Context Features Can Transformer Language Models Use? ( http://arxiv.org/abs/2106.08367v1 )

ライセンス: Link先を確認
Joe O'Connor and Jacob Andreas(参考訳) トランスフォーマーベースの言語モデルは、数百から数千の以前のトークンのコンテキストのコンディショニングの恩恵を受ける。 これらのコンテキストのどの側面が正確なモデル予測に寄与するのか? 英語wikipediaで学習したトランスフォーマー言語モデルにおいて,語彙情報と構造情報を選択的にアブレーションすることにより,有用な情報を測定する一連の実験について述べる。 中・長距離両方の文脈において、文中の単語順のシャッフルや名詞以外のすべての単語の削除など、非常に破壊的な文脈操作が、使用可能な情報の15%未満を除去している。 以上の結果から,従来のトランスフォーマー言語モデルの低難易度化には,長いコンテキストが重要であることが示唆された。

Transformer-based language models benefit from conditioning on contexts of hundreds to thousands of previous tokens. What aspects of these contexts contribute to accurate model prediction? We describe a series of experiments that measure usable information by selectively ablating lexical and structural information in transformer language models trained on English Wikipedia. In both mid- and long-range contexts, we find that several extremely destructive context manipulations -- including shuffling word order within sentences and deleting all words other than nouns -- remove less than 15% of the usable information. Our results suggest that long contexts, but not their detailed syntactic and propositional content, are important for the low perplexity of current transformer language models.
翻訳日:2021-06-17 17:31:29 公開日:2021-06-15
# Rinascimento: Splendorの行動空間の探索

Rinascimento: searching the behaviour space of Splendor ( http://arxiv.org/abs/2106.08371v1 )

ライセンス: Link先を確認
Ivan Bravi and Simon Lucas(参考訳) プレイテストにおける人工知能(AI)の使用は、パフォーマンス指向のゲームプレイと比較して、ゲームにおけるAIの主な応用の傍らにある。 ゲームのプレイテストの主な目的の1つは、ゲームプレイに関するデータを収集し、ゲームの設計の良し悪しの特徴を強調し、デザインを改善するためにゲームデザイナーに有用な洞察を提供することである。 AIエージェントを使用すると、プロセスが劇的にスピードアップする可能性がある。 本研究の目的は,ゲームの動作空間(bspace)を一般的な方法を用いてマッピングすることである。 MAP-Elitesアルゴリズムを用いて、ハイパーパラメータ空間Rinascimento AIエージェントを検索し、いくつかの行動メトリクスで定義されたBSpaceにマップする。 この手法は、スプレンドールのオリジナルのゲームデザインと2つのバリエーションにおいて、模範的および退化した動作の両方を強調することができた。 特に、イベント値関数の使用は、古典的なスコアベースの報酬信号に基づくエージェントと比較して、BSpaceのカバレッジが著しく改善されている。

The use of Artificial Intelligence (AI) for play-testing is still on the sidelines of main applications of AI in games compared to performance-oriented game-playing. One of the main purposes of play-testing a game is gathering data on the gameplay, highlighting good and bad features of the design of the game, providing useful insight to the game designers for improving the design. Using AI agents has the potential of speeding the process dramatically. The purpose of this research is to map the behavioural space (BSpace) of a game by using a general method. Using the MAP-Elites algorithm we search the hyperparameter space Rinascimento AI agents and map it to the BSpace defined by several behavioural metrics. This methodology was able to highlight both exemplary and degenerated behaviours in the original game design of Splendor and two variations. In particular, the use of event-value functions has generally shown a remarkable improvement in the coverage of the BSpace compared to agents based on classic score-based reward signals.
翻訳日:2021-06-17 17:29:13 公開日:2021-06-15
# テキスト書き起こし付きミームのベンチマークデータセットによるマルチモーダルな擬似的コンテンツの自動検出

Benchmark dataset of memes with text transcriptions for automatic detection of multi-modal misogynistic content ( http://arxiv.org/abs/2106.08409v1 )

ライセンス: Link先を確認
Francesca Gasparini, Giulia Rizzi, Aurora Saibene, Elisabetta Fersini(参考訳) 本稿では,特にミームに着目したオンラインコンテンツ中の誤認識を自動的に識別するプロジェクトの一環として,ベンチマークデータセットを提案する。 このベンチマークは、Facebook、Twitter、Instagram、Redditなどのソーシャルメディアプラットフォームから収集された800のミームと、ミームの収集と作成に特化したコンサルティングサイトで構成されている。 ミソグミズム的なミームを集めるために、ミソグミズム的なコンテンツを参照する特定のキーワードは、身体のシェーピング、ステレオタイプ、客観化、暴力など、女性に対する憎悪の異なる表現を考慮し、検索基準とみなされている。 並行して、misogynistコンテンツのないミームは、同じwebソースから手動でダウンロードされている。 収集されたミームのうち、3つのドメインの専門家が800のミームのデータセットを選択した。 このデータセットはクラウドソーシングプラットフォームを通じて検証され、各インスタンスの3つの評価を収集するために、ラベリングプロセスに60の被験者を含む。 専門家とクラウドソーシングプラットフォームの両方から、さらに2つのバイナリレーベルが収集されている。 最後に、各ミームについて、テキストは手書きで書き起こされている。 提供されるデータセットは800のミーム、専門家によるラベル、クラウドソーシングによる検証によって得られたラベル、および転写されたテキストから構成される。 このデータは、サイバーセクシズムや技術に精通した暴力など毎日成長している現象に直面する、テキストと視覚の両方に依存したWeb上の偽造コンテンツの自動検出の問題に対処するために使用できる。

In this paper we present a benchmark dataset generated as part of a project for automatic identification of misogyny within online content, which focuses in particular on memes. The benchmark here described is composed of 800 memes collected from the most popular social media platforms, such as Facebook, Twitter, Instagram and Reddit, and consulting websites dedicated to collection and creation of memes. To gather misogynistic memes, specific keywords that refer to misogynistic content have been considered as search criterion, considering different manifestations of hatred against women, such as body shaming, stereotyping, objectification and violence. In parallel, memes with no misogynist content have been manually downloaded from the same web sources. Among all the collected memes, three domain experts have selected a dataset of 800 memes equally balanced between misogynistic and non-misogynistic ones. This dataset has been validated through a crowdsourcing platform, involving 60 subjects for the labelling process, in order to collect three evaluations for each instance. Two further binary labels have been collected from both the experts and the crowdsourcing platform, for memes evaluated as misogynistic, concerning aggressiveness and irony. Finally for each meme, the text has been manually transcribed. The dataset provided is thus composed of the 800 memes, the labels given by the experts and those obtained by the crowdsourcing validation, and the transcribed texts. This data can be used to approach the problem of automatic detection of misogynistic content on the Web relying on both textual and visual cues, facing phenomenons that are growing every day such as cybersexism and technology-facilitat ed violence.
翻訳日:2021-06-17 17:28:56 公開日:2021-06-15
# C-SPARQLを用いたストリーム推論の近似のためのディープニューラルネットワーク

Deep Neural Networks for Approximating Stream Reasoning with C-SPARQL ( http://arxiv.org/abs/2106.08452v1 )

ライセンス: Link先を確認
Ricardo Ferreira, Carolina Lopes, Ricardo Gon\c{c}alves, Matthias Knorr, Ludwig Krippahl, Jo\~ao Leite(参考訳) 新聞、ブログ、ソーシャルネットワーク、監視システムなどによって生成される情報の量は急速に増加している。 問題領域に関する高度な知識を考慮しながら、これらのデータをリアルタイムで処理することは難しいが、潜在的リスクをタイムリーに評価するシナリオでは必要である。 RDFデータのストリーム上での継続的クエリのための言語であるC-SPARQLは、ストリーム推論において、単なるストリーム処理以上の動的データに対して、このような継続的推論機能を提供する、より顕著なアプローチの1つである。 しかし、大量のデータが存在する場合、c-sparqlは、特にデータに対する推論に要する時間よりも入ってくるデータの頻度が高い場合に、時間内にクエリに応答できない可能性があることが示されている。 本稿では,C-SPARQLを用いた推論が,時系列予測や時系列分類に適していることを示す2つのニューラルネットワークアーキテクチャであるRecurrent Neural NetworksとConvolutional Neural Networksを用いて近似可能かどうかを検討する。 様々な種類のクエリを考慮し、高い精度で全体的な肯定的な結果を得るとともに、処理時間を桁違いに改善する。

The amount of information produced, whether by newspapers, blogs and social networks, or by monitoring systems, is increasing rapidly. Processing all this data in real-time, while taking into consideration advanced knowledge about the problem domain, is challenging, but required in scenarios where assessing potential risks in a timely fashion is critical. C-SPARQL, a language for continuous queries over streams of RDF data, is one of the more prominent approaches in stream reasoning that provides such continuous inference capabilities over dynamic data that go beyond mere stream processing. However, it has been shown that, in the presence of huge amounts of data, C-SPARQL may not be able to answer queries in time, in particular when the frequency of incoming data is higher than the time required for reasoning with that data. In this paper, we investigate whether reasoning with C-SPARQL can be approximated using Recurrent Neural Networks and Convolutional Neural Networks, two neural network architectures that have been shown to be well-suited for time series forecasting and time series classification, to leverage on their higher processing speed once the network has been trained. We consider a variety of different kinds of queries and obtain overall positive results with high accuracies while improving processing time often by several orders of magnitude.
翻訳日:2021-06-17 17:28:27 公開日:2021-06-15
# LASERより高速 - ディープニューラルネットワークによるストリーム推論に向けて

Faster than LASER -- Towards Stream Reasoning with Deep Neural Networks ( http://arxiv.org/abs/2106.08457v1 )

ライセンス: Link先を確認
Jo\~ao Ferreira, Diogo Lavado, Ricardo Gon\c{c}alves, Matthias Knorr, Ludwig Krippahl, and Jo\~ao Leite(参考訳) モノのインターネット、ソーシャルネットワーク、スマートシティなど、さまざまな領域で利用可能なデータが継続的に増えているため、エージェントがそのようなデータをリアルタイムで処理し、推論できることが基本になっている。 背景知識を持つタイムアノテートデータに対する推論は困難であるが、そのようなデータが生成される量と速度のため、エージェントが潜在的な問題を発見する必要があるシナリオではそのような複雑な推論が必要である。 Stream Reasonerは、推論とストリーム処理のギャップを埋めることを目的としており、LASERはデータのストリームを解析し、複雑な推論を実行するように設計されている。 回答セットプログラミングを拡張するルールベースの論理言語であるlarsをベースとしており、他の最先端ストリーム推論システムよりも優れたランタイム結果を示している。 それでも高いレベルのデータスループットでは、レーザーでさえタイムリーに答えを計算できない可能性がある。 本稿では,時系列予測や分類に特に適していることを示す畳み込みニューラルネットワークとリカレントニューラルネットワークを,レーザーによる推論の近似化に訓練することで,エージェントの処理速度の向上を実現した。

With the constant increase of available data in various domains, such as the Internet of Things, Social Networks or Smart Cities, it has become fundamental that agents are able to process and reason with such data in real time. Whereas reasoning over time-annotated data with background knowledge may be challenging, due to the volume and velocity in which such data is being produced, such complex reasoning is necessary in scenarios where agents need to discover potential problems and this cannot be done with simple stream processing techniques. Stream Reasoners aim at bridging this gap between reasoning and stream processing and LASER is such a stream reasoner designed to analyse and perform complex reasoning over streams of data. It is based on LARS, a rule-based logical language extending Answer Set Programming, and it has shown better runtime results than other state-of-the-art stream reasoning systems. Nevertheless, for high levels of data throughput even LASER may be unable to compute answers in a timely fashion. In this paper, we study whether Convolutional and Recurrent Neural Networks, which have shown to be particularly well-suited for time series forecasting and classification, can be trained to approximate reasoning with LASER, so that agents can benefit from their high processing speed.
翻訳日:2021-06-17 17:28:08 公開日:2021-06-15
# 予測からモデルの決定を説明する

Explaining decision of model from its prediction ( http://arxiv.org/abs/2106.08366v1 )

ライセンス: Link先を確認
Dipesh Tamboli(参考訳) 本稿では,CAM,Grad-CAM,Locali zation using Multiple Instance Learning, Saliency-based Method, Saliency-driven Class-Impressions, Muting pixels in input imageAdversarial Method, Activation Visualization, Convolution filter Visualization, Feature-based Methodなどの視覚的説明手法を要約する。 また,異なる手法による結果とcam,gradcam,ガイド付きバックプロパゲーションの比較を行った。

This document summarizes different visual explanations methods such as CAM, Grad-CAM, Localization using Multiple Instance Learning - Saliency-based methods, Saliency-driven Class-Impressions, Muting pixels in input image - Adversarial methods and Activation visualization, Convolution filter visualization - Feature-based methods. We have also shown the results produced by different methods and a comparison between CAM, GradCAM, and Guided Backpropagation.
翻訳日:2021-06-17 17:26:31 公開日:2021-06-15
# TextStyleBrush: 単一例からのテキスト美学の移行

TextStyleBrush: Transfer of Text Aesthetics from a Single Example ( http://arxiv.org/abs/2106.08385v1 )

ライセンス: Link先を確認
Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, Tal Hassner(参考訳) 本稿では,その外観のあらゆる面からテキスト画像の内容を切り離すための新しいアプローチを提案する。 次に、私たちが導出した外観表現を新しいコンテンツに適用し、ソーススタイルを新しいコンテンツにワンショット転送する。 我々はこの混乱を自己管理的に学ぶ。 本手法では,テキストのセグメンテーションや文字単位の処理,文字列長の仮定を必要とせず,単語ボックス全体を処理する。 従来,シーンテキストや手書きテキストなど,特殊な手法で処理されていた異なるテキストドメインで結果を示す。 1) テキスト画像のスタイルと内容を非パラメトリックな固定次元ベクトルに分解する。 2) スタイルガンに触発された新しいアプローチを提案するが, 異なる解像度と内容のサンプルスタイルを条件とした。 3) 事前学習されたフォント分類器とテキスト認識器を用いて, ソーススタイルとターゲットコンテンツの両方を保存できる新しい自己教師付き学習基準を提案する。 最後に,手書き語画像のための新しい挑戦的データセットImgur5Kを紹介する。 提案手法の定性的なフォトリアリスティックな結果を多数提示する。 さらに,本手法は,シーンテキストや手書きデータセットの定量的テストやユーザスタディにおいて,従来よりも優れていることを示す。

We present a novel approach for disentangling the content of a text image from all aspects of its appearance. The appearance representation we derive can then be applied to new content, for one-shot transfer of the source style to new content. We learn this disentanglement in a self-supervised manner. Our method processes entire word boxes, without requiring segmentation of text from background, per-character processing, or making assumptions on string lengths. We show results in different text domains which were previously handled by specialized methods, e.g., scene text, handwritten text. To these ends, we make a number of technical contributions: (1) We disentangle the style and content of a textual image into a non-parametric, fixed-dimensional vector. (2) We propose a novel approach inspired by StyleGAN but conditioned over the example style at different resolution and content. (3) We present novel self-supervised training criteria which preserve both source style and target content using a pre-trained font classifier and text recognizer. Finally, (4) we also introduce Imgur5K, a new challenging dataset for handwritten word images. We offer numerous qualitative photo-realistic results of our method. We further show that our method surpasses previous work in quantitative tests on scene text and handwriting datasets, as well as in a user study.
翻訳日:2021-06-17 17:26:20 公開日:2021-06-15
# 衛星画像における雲の観察

Seeing Through Clouds in Satellite Images ( http://arxiv.org/abs/2106.08408v1 )

ライセンス: Link先を確認
Mingmin Zhao, Peder A. Olsen, Ranveer Chandra(参考訳) 本稿では,衛星画像中の雲に隠されたピクセルを回復するためのニューラルネットワークベースのソリューションを提案する。 我々は、雲を貫通する超高周波数帯の電波周波数(RF)信号を活用し、マルチスペクトル画像における閉塞領域の再構成を支援する。 マルチモーダル型マルチテンポラルクラウド除去モデルについて紹介する。 我々のモデルは、公開衛星観測と毎日の雲のない画像を生成する。 実験の結果,PSNRではベースラインが8dBより有意に優れていた。 また, デジタル農業, 洪水モニタリング, および山火事検出におけるシステムの利用例を示した。 今後の研究を促進するために、処理されたデータセットをリリースします。

This paper presents a neural-network-based solution to recover pixels occluded by clouds in satellite images. We leverage radio frequency (RF) signals in the ultra/super-high frequency band that penetrate clouds to help reconstruct the occluded regions in multispectral images. We introduce the first multi-modal multi-temporal cloud removal model. Our model uses publicly available satellite observations and produces daily cloud-free images. Experimental results show that our system significantly outperforms baselines by 8dB in PSNR. We also demonstrate use cases of our system in digital agriculture, flood monitoring, and wildfire detection. We will release the processed dataset to facilitate future research.
翻訳日:2021-06-17 17:25:59 公開日:2021-06-15
# 生成型会話ネットワーク

Generative Conversational Networks ( http://arxiv.org/abs/2106.08484v1 )

ライセンス: Link先を確認
Alexandros Papangelis and Karthik Gopalakrishnan and Aishwarya Padmakumar and Seokhwan Kim and Gokhan Tur and Dilek Hakkani-Tur(参考訳) メタラーニングと生成学習ネットワークの最近の研究に触発されて,会話エージェントが独自のラベル付きトレーニングデータ(シードデータ)を生成して,そのデータから学習してタスクを実行する,ジェネレーティブ会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。 我々は、報酬信号がタスクにおけるエージェントのパフォーマンスであるデータ生成プロセスの最適化に強化学習を用いる。 タスクは、インテント検出からタスク指向の会話まで、言語に関連するあらゆるタスクである。 本研究では,本手法がシードデータから一般化し,限られたデータと限られた計算条件で良好に動作できることを示し,複数のデータセット(ATIS,TOD,SNIPS,Rest aurants8k)にまたがるインテント検出とスロットタグの大幅な向上を示す。 シードデータからトレーニングしたベースラインモデルに対して,インテント検出では35%,スロットタグ付けでは21%の平均改善が見られた。 また、生成されたデータの新規性の分析を行い、意図検出、スロットタグ付け、非ゴール指向会話などの生成例を提供する。

Inspired by recent work in meta-learning and generative teaching networks, we propose a framework called Generative Conversational Networks, in which conversational agents learn to generate their own labelled training data (given some seed data) and then train themselves from that data to perform a given task. We use reinforcement learning to optimize the data generation process where the reward signal is the agent's performance on the task. The task can be any language-related task, from intent detection to full task-oriented conversations. In this work, we show that our approach is able to generalise from seed data and performs well in limited data and limited computation settings, with significant gains for intent detection and slot tagging across multiple datasets: ATIS, TOD, SNIPS, and Restaurants8k. We show an average improvement of 35% in intent detection and 21% in slot tagging over a baseline model trained from the seed data. We also conduct an analysis of the novelty of the generated data and provide generated examples for intent detection, slot tagging, and non-goal oriented conversations.
翻訳日:2021-06-17 17:19:34 公開日:2021-06-15
# CODA: インスタンス依存のドロップアウトアーキテクチャ構築のための構成学習

CODA: Constructivism Learning for Instance-Dependent Dropout Architecture Construction ( http://arxiv.org/abs/2106.08444v1 )

ライセンス: Link先を確認
Xiaoli Li(参考訳) dropoutは、過剰フィットを防ぐための効率的なアプローチとして、ディープラーニングに対する集中的な研究関心を集めている。 近年,どのユニットをドロップアウトするかを決めると,構造情報を無視する手法と比較して有望な結果が得られた。 しかし、既存の作業で大きな問題は、ドロップアウトアーキテクチャを構築する際にインスタンス間で区別がつかなかったことだ。 これは多くのアプリケーションにとって重大な欠陥となる可能性がある。 この問題を解決するために,本論文では,構成主義学習という哲学理論から着想を得た,インスタンス依存ドロップアウトアーキテクチャ(coda)のための構成主義学習を提案する。 特に, この理論に基づき, ベイズ非パラメトリック法の一様過程を用いて, より優れたドロップアウト法, 一様過程混合モデルを設計した。 提案手法を実世界の5つのデータセット上で評価し,他の最先端のドロップアウト手法と比較した。 実験結果はCODAの有効性を示した。

Dropout is attracting intensive research interest in deep learning as an efficient approach to prevent overfitting. Recently incorporating structural information when deciding which units to drop out produced promising results comparing to methods that ignore the structural information. However, a major issue of the existing work is that it failed to differentiate among instances when constructing the dropout architecture. This can be a significant deficiency for many applications. To solve this issue, we propose Constructivism learning for instance-dependent Dropout Architecture (CODA), which is inspired from a philosophical theory, constructivism learning. Specially, based on the theory we have designed a better drop out technique, Uniform Process Mixture Models, using a Bayesian nonparametric method Uniform process. We have evaluated our proposed method on 5 real-world datasets and compared the performance with other state-of-the-art dropout techniques. The experimental results demonstrated the effectiveness of CODA.
翻訳日:2021-06-17 17:19:13 公開日:2021-06-15
# 橋梁網

Bridge Networks ( http://arxiv.org/abs/2106.08446v1 )

ライセンス: Link先を確認
Wilkie Olin-Ammentorp, Maxim Bazhenov(参考訳) 急速な進歩にもかかわらず、現在のディープラーニング手法は多くの重要な課題に直面している。 これには、高エネルギー消費、破滅的な忘れ込み、世界的な損失への依存、象徴的な推論ができないことなどが含まれる。 情報ボトルネック理論とベクトル記号型アーキテクチャの概念を組み合わせることで,新しい情報処理アーキテクチャ「ブリッジネットワーク」を提案し,実装する。 このアーキテクチャは、グローバルな損失と破滅的な忘れの問題に対処できるユニークなアドバンテージを提供する。 さらに、実行のエネルギー効率の向上と象徴的に推論する能力のさらなる基礎を提供していると論じている。

Despite rapid progress, current deep learning methods face a number of critical challenges. These include high energy consumption, catastrophic forgetting, dependance on global losses, and an inability to reason symbolically. By combining concepts from information bottleneck theory and vector-symbolic architectures, we propose and implement a novel information processing architecture, the 'Bridge network.' We show this architecture provides unique advantages which can address the problem of global losses and catastrophic forgetting. Furthermore, we argue that it provides a further basis for increasing energy efficiency of execution and the ability to reason symbolically.
翻訳日:2021-06-17 17:18:59 公開日:2021-06-15
# 身体リハビリテーション療法のためのAIとロボットコーチの育成--セラピストとポストストロークサバイバルによる反復設計と評価

Enabling AI and Robotic Coaches for Physical Rehabilitation Therapy: Iterative Design and Evaluation with Therapists and Post-Stroke Survivors ( http://arxiv.org/abs/2106.08458v1 )

ライセンス: Link先を確認
Min Hun Lee, Daniel P. Siewiorek, Asim Smailagic, Alexandre Bernardino, Sergi Berm\'udez i Badia(参考訳) ai(artificial intelligence)とロボットコーチ(robotic coach)は、リハビリテーションエクササイズにおける患者の関与を改善することを約束する。 以前の研究では、AIとロボットコーチの運動を自動的に監視する可能性を探っていたが、これらのシステムの展開は依然として課題である。 以前の作業では、利害関係者がそのような機能を設計することの欠如が大きな原因の1つだと説明されていた。 本稿では,4人のセラピストと5人のストローク後の生存者に対して,aiとロボットコーチが患者のエクササイズとどのように相互作用し,効果的かつ許容できる方法で指導できるかに関する詳細な設計仕様を提示する。 反復質問紙やインタビューを通じて,AIとロボティクスコーチがより体系的な管理を達成し,リハビリテーション療法における自己効力感とモチベーションを向上させることのメリットを,後ストロークの生存者とセラピストの両方が評価した。 さらに,評価は,いくつかの実践的懸念(例)に光を当てる。 認知障害、システム障害などの人々との相互作用が困難である可能性があること。 システム障害を補完する利害関係者の早期関与の価値とインタラクティブなテクニックについて論じるとともに、AIとロボット運動コーチの配置を改善するためのパーソナライズされたセラピーセッションもサポートする。

Artificial intelligence (AI) and robotic coaches promise the improved engagement of patients on rehabilitation exercises through social interaction. While previous work explored the potential of automatically monitoring exercises for AI and robotic coaches, the deployment of these systems remains a challenge. Previous work described the lack of involving stakeholders to design such functionalities as one of the major causes. In this paper, we present our efforts on eliciting the detailed design specifications on how AI and robotic coaches could interact with and guide patient's exercises in an effective and acceptable way with four therapists and five post-stroke survivors. Through iterative questionnaires and interviews, we found that both post-stroke survivors and therapists appreciated the potential benefits of AI and robotic coaches to achieve more systematic management and improve their self-efficacy and motivation on rehabilitation therapy. In addition, our evaluation sheds light on several practical concerns (e.g. a possible difficulty with the interaction for people with cognitive impairment, system failures, etc.). We discuss the value of early involvement of stakeholders and interactive techniques that complement system failures, but also support a personalized therapy session for the better deployment of AI and robotic exercise coaches.
翻訳日:2021-06-17 17:12:24 公開日:2021-06-15
# トランスダクティブラーニングによる対人ロバストネスを目指して

Towards Adversarial Robustness via Transductive Learning ( http://arxiv.org/abs/2106.08387v1 )

ライセンス: Link先を確認
Jiefeng Chen, Yang Guo, Xi Wu, Tianqi Li, Qicheng Lao, Yingyu Liang, Somesh Jha(参考訳) 対向的堅牢性(Goldwasser et al., NeurIPS 2020; Wu et al., ICML 2020)にトランスダクティブラーニングを使うことへの関心が高まっている。 従来の「テストタイム」ディフェンスと比較すると、これらの防御メカニズムは、トランスダクティブラーニングによるテストタイムインプットに基づくモデルを「動的に再トレーニング」し、理論的には、これらのディフェンスを攻撃することは二段階の最適化につながり、適応攻撃の難しさを増すと考えられる。 本稿では,まずトランスダクティブロバストネスのモデリング側面を形式化し,解析する。 次に,二段階攻撃目標を解決するためのモデル空間攻撃の原理を提案し,先行するトランスダクティブ防御を破る原理のインスタンス化を提案する。 これらの攻撃は、対向的堅牢性を改善するためにトランスダクティブラーニングを使用することにおいて重大な困難を示唆している。 そこで本研究では,トランスダクティブ・ラーニングの有用性を裏付ける新たな理論的,実証的な証拠を提案する。

There has been emerging interest to use transductive learning for adversarial robustness (Goldwasser et al., NeurIPS 2020; Wu et al., ICML 2020). Compared to traditional "test-time" defenses, these defense mechanisms "dynamically retrain" the model based on test time input via transductive learning; and theoretically, attacking these defenses boils down to bilevel optimization, which seems to raise the difficulty for adaptive attacks. In this paper, we first formalize and analyze modeling aspects of transductive robustness. Then, we propose the principle of attacking model space for solving bilevel attack objectives, and present an instantiation of the principle which breaks previous transductive defenses. These attacks thus point to significant difficulties in the use of transductive learning to improve adversarial robustness. To this end, we present new theoretical and empirical evidence in support of the utility of transductive learning.
翻訳日:2021-06-17 17:12:01 公開日:2021-06-15
# circa: プライベートディープラーニングのための確率的relus

Circa: Stochastic ReLUs for Private Deep Learning ( http://arxiv.org/abs/2106.08475v1 )

ライセンス: Link先を確認
Zahra Ghodsi, Nandan Kumar Jha, Brandon Reagen, Siddharth Garg(参考訳) サービスとしての機械学習とユーザのプライバシに対する懸念が同時に高まり、プライベート推論(pi)の必要性がますます高まっている。 最近の研究は、PIが暗号プリミティブを使って可能であることを実証している。 PIの減速の原因はReLU演算子にあるのに対して、平文推論の最適化はFLOPの最適化に重点を置いている。 本稿では,relu計算を再考し,ニューラルネットワークの特性に合わせたpiの最適化を提案する。 具体的には,reluを近似的な符号テストとして再構成し,reluあたりのコストを大幅に削減する新しい符号テストの切り換え手法を導入する。 これらの最適化は、特定のタイプの確率的再帰をもたらす。 重要な観察は、確率的欠陥挙動がニューラルネットワーク推論のフォールトトレラント特性によく適していることである。 これにより、精度を損なうことなく大幅な節約が可能となる。 本稿では,Circaの最適化を総称して,最大4.7倍のストレージと3倍のランタイムをベースライン実装で実現した。

The simultaneous rise of machine learning as a service and concerns over user privacy have increasingly motivated the need for private inference (PI). While recent work demonstrates PI is possible using cryptographic primitives, the computational overheads render it impractical. The community is largely unprepared to address these overheads, as the source of slowdown in PI stems from the ReLU operator whereas optimizations for plaintext inference focus on optimizing FLOPs. In this paper we re-think the ReLU computation and propose optimizations for PI tailored to properties of neural networks. Specifically, we reformulate ReLU as an approximate sign test and introduce a novel truncation method for the sign test that significantly reduces the cost per ReLU. These optimizations result in a specific type of stochastic ReLU. The key observation is that the stochastic fault behavior is well suited for the fault-tolerant properties of neural network inference. Thus, we provide significant savings without impacting accuracy. We collectively call the optimizations Circa and demonstrate improvements of up to 4.7x storage and 3x runtime over baseline implementations; we further show that Circa can be used on top of recent PI optimizations to obtain 1.8x additional speedup.
翻訳日:2021-06-17 17:11:43 公開日:2021-06-15
# テンソルネットワークを用いた量子インスピレーション型イベント再構成:マトリックス製品状態

Quantum-inspired event reconstruction with Tensor Networks: Matrix Product States ( http://arxiv.org/abs/2106.08334v1 )

ライセンス: Link先を確認
Jack Y. Araz and Michael Spannowsky(参考訳) テンソルネットワークは、元来量子多体系を記述するために設計された高次元テンソルの非自明な表現である。 テンソルネットワークは、量子力学の概念を機械学習技術に結びつけ、ニューラルネットワークの解釈性を向上させるのに理想的な手段であることを示す。 本研究では, 行列生成状態分類器を用いてQCD背景過程におけるトップクォーク信号の識別を行う。 エンタングルメントのエントロピーは,ネットワークの学習内容の解釈に利用でき,一般性や性能を損なうことなく,ネットワークと特徴空間の複雑さを低減できることを示す。 ネットワークの最適化のために、密度行列再正規化グループ(DMRG)アルゴリズムを確率勾配降下(SGD)アルゴリズムと比較し、DMRGの説明可能性とSGDの効率性を利用するための合同トレーニングアルゴリズムを提案する。

Tensor Networks are non-trivial representations of high-dimensional tensors, originally designed to describe quantum many-body systems. We show that Tensor Networks are ideal vehicles to connect quantum mechanical concepts to machine learning techniques, thereby facilitating an improved interpretability of neural networks. This study presents the discrimination of top quark signal over QCD background processes using a Matrix Product State classifier. We show that entanglement entropy can be used to interpret what a network learns, which can be used to reduce the complexity of the network and feature space without loss of generality or performance. For the optimisation of the network, we compare the Density Matrix Renormalization Group (DMRG) algorithm to stochastic gradient descent (SGD) and propose a joined training algorithm to harness the explainability of DMRG with the efficiency of SGD.
翻訳日:2021-06-17 17:09:14 公開日:2021-06-15
# Ctrl-P:音声合成のための韻律変化の時間制御

Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis ( http://arxiv.org/abs/2106.08352v1 )

ライセンス: Link先を確認
Devang S Ram Mohan, Vivian Hu, Tian Huey Teh, Alexandra Torresquintero, Christopher G. R. Wallis, Marlene Staib, Lorenzo Foglianti, Jiameng Gao, Simon King(参考訳) テキストは音声形式を完全に指定していないため、テキスト対音声モデルは、対応するテキストで説明されない方法で異なる音声データから学習しなくてはならない。 トレーニングデータにおける説明できない変動の量を減らす方法の1つは、付加的な学習信号として音響情報を提供することである。 音声を生成する場合、この音響情報を変更することで、複数の異なるテキストのレンドレーションを生成することができる。 説明不能な変化の多くは韻律内にあるため,本論文では,韻律の3つの一次音響相関式に明示的に条件付けされた音声を生成するモデルを提案する。 モデルは、これらの機能の値がどのように指定されるかに柔軟で、外部から提供したり、テキストから予測したり、その後修正されたりすることができる。 教師なしの潜在特徴を学習するために変分自動エンコーダを用いるモデルと比較して、我々のモデルはより解釈しやすく、時間的に正確で、絡み合った制御を提供する。 テキストから音響特徴を自動的に予測すると、参照エンコーダを備えたタコトロン2モデルより自然な音声を生成する。 その後、予測された音響特性のループ修正により、自然性が大幅に向上する。

Text does not fully specify the spoken form, so text-to-speech models must be able to learn from speech data that vary in ways not explained by the corresponding text. One way to reduce the amount of unexplained variation in training data is to provide acoustic information as an additional learning signal. When generating speech, modifying this acoustic information enables multiple distinct renditions of a text to be produced. Since much of the unexplained variation is in the prosody, we propose a model that generates speech explicitly conditioned on the three primary acoustic correlates of prosody: $F_{0}$, energy and duration. The model is flexible about how the values of these features are specified: they can be externally provided, or predicted from text, or predicted then subsequently modified. Compared to a model that employs a variational auto-encoder to learn unsupervised latent features, our model provides more interpretable, temporally-precise, and disentangled control. When automatically predicting the acoustic features from text, it generates speech that is more natural than that from a Tacotron 2 model with reference encoder. Subsequent human-in-the-loop modification of the predicted acoustic features can significantly further increase naturalness.
翻訳日:2021-06-17 17:08:57 公開日:2021-06-15
# サブ線形時間における学習に基づく支援推定

Learning-based Support Estimation in Sublinear Time ( http://arxiv.org/abs/2106.08396v1 )

ライセンス: Link先を確認
Talya Eden, Piotr Indyk, Shyam Narayanan, Ronitt Rubinfeld, Sandeep Silwal, Tal Wagner(参考訳) 本研究では,その要素のランダムなサンプルから,大きなデータセット内の個別の要素数(あるいは,データセットによって引き起こされる分布の支持サイズ)を推定する問題を考える。 この問題は生物学、ゲノム学、コンピュータシステム、言語学など多くの応用で発生する。 過去10年間にわたる一連の研究の結果、最大で$_pm \varepsilon n$ のサポートを、データセットサイズが$n$である$o(\log^2(1/\varepsilon) \cdot n/\log n)$ のサンプルから見積もるアルゴリズムが得られた。 残念ながら、この境界は厳密であることが知られており、この問題の複雑さをさらに改善している。 本稿では、任意の要素が与えられた場合、その周波数を推定する機械学習ベースの予測器を付加した推定アルゴリズムを検討する。 予測因子が定数近似係数まで正しければ、サンプルの複雑性は \[ \log (1/\varepsilon) \cdot n^{1-\Theta(1/\log(1/\v arepsilon))} に著しく減少する。 目的〕提案アルゴリズムをデータセットの集合上で評価し,Hsu et al, ICLR'19} のニューラルネットワークに基づく推定器を予測器として利用した。 本実験は,artアルゴリズムの状態を比較検討した結果,推定精度が最大3倍向上したことを示す。

We consider the problem of estimating the number of distinct elements in a large data set (or, equivalently, the support size of the distribution induced by the data set) from a random sample of its elements. The problem occurs in many applications, including biology, genomics, computer systems and linguistics. A line of research spanning the last decade resulted in algorithms that estimate the support up to $ \pm \varepsilon n$ from a sample of size $O(\log^2(1/\varepsilon) \cdot n/\log n)$, where $n$ is the data set size. Unfortunately, this bound is known to be tight, limiting further improvements to the complexity of this problem. In this paper we consider estimation algorithms augmented with a machine-learning-bas ed predictor that, given any element, returns an estimation of its frequency. We show that if the predictor is correct up to a constant approximation factor, then the sample complexity can be reduced significantly, to \[ \ \log (1/\varepsilon) \cdot n^{1-\Theta(1/\log(1/\v arepsilon))}. \] We evaluate the proposed algorithms on a collection of data sets, using the neural-network based estimators from {Hsu et al, ICLR'19} as predictors. Our experiments demonstrate substantial (up to 3x) improvements in the estimation accuracy compared to the state of the art algorithm.
翻訳日:2021-06-17 17:08:38 公開日:2021-06-15
# 新型コロナウイルスワクチン:Twitter上での誤情報キャンペーンとワクチン不足を特徴付ける

COVID-19 Vaccines: Characterizing Misinformation Campaigns and Vaccine Hesitancy on Twitter ( http://arxiv.org/abs/2106.08423v1 )

ライセンス: Link先を確認
Karishma Sharma, Yizhou Zhang, Yan Liu(参考訳) ソーシャルメディア上でのワクチンの忌避や誤報は、集団免疫の達成とパンデミック克服に必要な新型コロナウイルスのワクチン摂取に関する懸念を高めている。 しかし、反科学、政治的誤報、陰謀はパンデミックを通じて急増している。 新型コロナウイルス(covid-19)ワクチンについては、誤情報や陰謀キャンペーンとその行動について調査する。 我々は,ワクチンに関する議論において誤情報を促進するために協調的努力が用いられているかどうかを特定し,ワクチン関連誤情報やボイコットワクチンパスポート,ロックダウンやマスクなどの強力なアンチ・ソーシャルメッセージを促進する「グレート・リセット」陰謀集団を協調的に促進するアカウントを見つける。 情報拡散構造から他の誤情報コミュニティを特徴付け、極右反ワクチン陰謀グループを含む大規模な反ワクチン誤情報コミュニティとより小さな反ワクチンコミュニティを調査した。 主流派や健康派に比べ、左派は予防接種を推進し、右派は予防接種や極右の誤情報・陰謀のコミュニティの影響を受けやすい。 誤った情報コミュニティは、ワクチンに関する議論や政治的議論に特有な声が強く、異なるコミュニティの特徴的な行動に違いが見られる。 最後に, 話題モデリングと報告ワクチン副作用(vaers)との比較を用いて, ワクチンの忌避性を高める情報歪の誤情報物語と戦術について検討し, より稀な副作用がソーシャルメディア上で議論されることが多かった。

Vaccine hesitancy and misinformation on social media has increased concerns about COVID-19 vaccine uptake required to achieve herd immunity and overcome the pandemic. However anti-science and political misinformation and conspiracies have been rampant throughout the pandemic. For COVID-19 vaccines, we investigate misinformation and conspiracy campaigns and their characteristic behaviours. We identify whether coordinated efforts are used to promote misinformation in vaccine related discussions, and find accounts coordinately promoting a `Great Reset' conspiracy group promoting vaccine related misinformation and strong anti-vaccine and anti-social messages such as boycott vaccine passports, no lock-downs and masks. We characterize other misinformation communities from the information diffusion structure, and study the large anti-vaccine misinformation community and smaller anti-vaccine communities, including a far-right anti-vaccine conspiracy group. In comparison with the mainstream and health news, left-leaning group, which are more pro-vaccine, the right-leaning group is influenced more by the anti-vaccine and far-right misinformation/consp iracy communities. The misinformation communities are more vocal either specific to the vaccine discussion or political discussion, and we find other differences in the characteristic behaviours of different communities. Lastly, we investigate misinformation narratives and tactics of information distortion that can increase vaccine hesitancy, using topic modeling and comparison with reported vaccine side-effects (VAERS) finding rarer side-effects are more frequently discussed on social media.
翻訳日:2021-06-17 17:08:09 公開日:2021-06-15
# (参考訳) 最適化と遅延によるオンライン学習

Online Learning with Optimism and Delay ( http://arxiv.org/abs/2106.06885v2 )

ライセンス: CC BY 4.0
Genevieve Flaspohler, Francesco Orabona, Judah Cohen, Soukayna Mouatadid, Miruna Oprescu, Paulo Orenstein and Lester Mackey(参考訳) リアルタイムの気候や天気予報の需要に触発されて,パラメータチューニングを必要としない楽観的なオンライン学習アルゴリズムを開発し,遅延フィードバックの下で最適な後悔の保証を行う。 我々のアルゴリズム(DORM、DORM+、AdaHedgeD)は、遅延したオンライン学習から楽観的なオンライン学習への新たな還元から始まり、遅延による後悔の罰をいかに楽観的に緩和するかを明らかにします。 この遅延・アズ・オプティミズムの観点と,新しい楽観的学習の分析とを組み合わせることで,その頑健さをヒントの誤りにさらし,遅延の存在下で効果的なヒント戦略を学習する新しいメタアルゴリズムを提案する。 我々は,4つの季節下気候予測課題について,我々のアルゴリズムをベンチマークすることで,最先端の予測モデルと比較して低い後悔を示す。

Inspired by the demands of real-time climate and weather forecasting, we develop optimistic online learning algorithms that require no parameter tuning and have optimal regret guarantees under delayed feedback. Our algorithms -- DORM, DORM+, and AdaHedgeD -- arise from a novel reduction of delayed online learning to optimistic online learning that reveals how optimistic hints can mitigate the regret penalty caused by delay. We pair this delay-as-optimism perspective with a new analysis of optimistic learning that exposes its robustness to hinting errors and a new meta-algorithm for learning effective hinting strategies in the presence of delay. We conclude by benchmarking our algorithms on four subseasonal climate forecasting tasks, demonstrating low regret relative to state-of-the-art forecasting models.
翻訳日:2021-06-17 15:59:35 公開日:2021-06-15
# (参考訳) 多言語社会のためのコード混合NLPの課題と考察 [全文訳有]

Challenges and Considerations with Code-Mixed NLP for Multilingual Societies ( http://arxiv.org/abs/2106.07823v1 )

ライセンス: CC BY 4.0
Vivek Srivastava, Mayank Singh(参考訳) 多言語主義(multilingualism)とは、2つ以上の言語において、文章や口頭でのコミュニケーションモードにおいて高い熟練度を示す用語である。 a.k.a.は言語混合を引き起こすことが多い。 コードミキシング(code-mixing)は、多言語話者がテキストや音声の単一発話で複数の言語を切り替える場合である。 本稿は,NLP研究の現状と問題点を考察し,社会危機管理,医療,政治キャンペーン,フェイクニュース,多言語社会におけるヘイトスピーチの5つの現実的応用に対処する上での落とし穴について論じる。 また,多言語nlpアプリケーションにおける現在の研究を社会善に進めるための未来的データセット,モデル,ツールを提案する。 代表的な例として、イングリッシュ・ヒンディー語のコードミキシングを考えるが、他の言語対についても同様の推論を行う。

Multilingualism refers to the high degree of proficiency in two or more languages in the written and oral communication modes. It often results in language mixing, a.k.a. code-mixing, when a multilingual speaker switches between multiple languages in a single utterance of a text or speech. This paper discusses the current state of the NLP research, limitations, and foreseeable pitfalls in addressing five real-world applications for social good crisis management, healthcare, political campaigning, fake news, and hate speech for multilingual societies. We also propose futuristic datasets, models, and tools that can significantly advance the current research in multilingual NLP applications for the societal good. As a representative example, we consider English-Hindi code-mixing but draw similar inferences for other language pairs
翻訳日:2021-06-17 05:59:35 公開日:2021-06-15
# (参考訳) 等価なスタイン変分勾配勾配をもつ学習同変エネルギーに基づくモデル [全文訳有]

Learning Equivariant Energy Based Models with Equivariant Stein Variational Gradient Descent ( http://arxiv.org/abs/2106.07832v1 )

ライセンス: CC BY 4.0
Priyank Jaini, Lars Holdijk and Max Welling(参考訳) 確率モデルに対称性を組み込むことにより,確率密度の効率的なサンプリングと学習の問題に焦点をあてる。 まず,同変 stein 変分勾配降下アルゴリズム -- 対称性を持つ密度からサンプリングする stein の恒等性に基づく同変なサンプリング法について紹介する。 同変SVGDは、サンプルの複雑さと生成されたサンプルの品質の両面において、結果のサンプルを効率よくする等変カーネルを通じて、密度の対称性情報を明示的に組み込む。 その後、等価エネルギーに基づくモデルを定義し、対比的発散を用いて学習される不変密度をモデル化する。 同変SVGDを同変EMMのトレーニングに利用することにより、エネルギーベースモデルのトレーニングを改善し、スケールアップする新しい方法を提案する。 画像データセット,多体粒子系,分子構造生成の回帰および分類タスクにおける結合密度のモデル化に,これら同変エネルギーモデルを適用する。

We focus on the problem of efficient sampling and learning of probability densities by incorporating symmetries in probabilistic models. We first introduce Equivariant Stein Variational Gradient Descent algorithm -- an equivariant sampling method based on Stein's identity for sampling from densities with symmetries. Equivariant SVGD explicitly incorporates symmetry information in a density through equivariant kernels which makes the resultant sampler efficient both in terms of sample complexity and the quality of generated samples. Subsequently, we define equivariant energy based models to model invariant densities that are learned using contrastive divergence. By utilizing our equivariant SVGD for training equivariant EBMs, we propose new ways of improving and scaling up training of energy based models. We apply these equivariant energy models for modelling joint densities in regression and classification tasks for image datasets, many-body particle systems and molecular structure generation.
翻訳日:2021-06-17 05:39:08 公開日:2021-06-15
# (参考訳) 自動運転車のLiDAR攻撃検出のための時間的一貫性チェック [全文訳有]

Temporal Consistency Checks to Detect LiDAR Spoofing Attacks on Autonomous Vehicle Perception ( http://arxiv.org/abs/2106.07833v1 )

ライセンス: CC BY 4.0
Chengzeng You, Zhongyuan Hau, Soteris Demetriou(参考訳) LiDARセンサーは、より安全な運転決定を可能にする環境をよりよく知覚するために、Autonomous Vehiclesで広く使用されている。 最近の研究は、深刻なLiDARスプーフィング攻撃と警告的な結果を示している。 特にモデルレベルのlidarスプーフィング攻撃は、3dオブジェクト検出器によって誤って検出されたゴーストオブジェクトに偽の深さ測定を注入することを目的としている。 本研究では,そのような攻撃を検出するために,実物体の物理的不変量としての運動の利用について検討する。 そこで本研究では,動作予測から時空間情報を利用して3次元物体検出器によって検出された物体の検証を行う3次元時間一貫性チェック(3D-TC2)を提案する。 3D-TC2プロトタイプの予備設計と実装は、非常に有望な性能を示し、98%以上の攻撃検出率を提供し、スプーフされた車両(Car)物体を91%リコールし、41Hzでリアルタイムに検出できる。

LiDAR sensors are used widely in Autonomous Vehicles for better perceiving the environment which enables safer driving decisions. Recent work has demonstrated serious LiDAR spoofing attacks with alarming consequences. In particular, model-level LiDAR spoofing attacks aim to inject fake depth measurements to elicit ghost objects that are erroneously detected by 3D Object Detectors, resulting in hazardous driving decisions. In this work, we explore the use of motion as a physical invariant of genuine objects for detecting such attacks. Based on this, we propose a general methodology, 3D Temporal Consistency Check (3D-TC2), which leverages spatio-temporal information from motion prediction to verify objects detected by 3D Object Detectors. Our preliminary design and implementation of a 3D-TC2 prototype demonstrates very promising performance, providing more than 98% attack detection rate with a recall of 91% for detecting spoofed Vehicle (Car) objects, and is able to achieve real-time detection at 41Hz
翻訳日:2021-06-17 05:16:02 公開日:2021-06-15
# (参考訳) 一般値関数近似を用いた強化学習のためのランダム化探索

Randomized Exploration for Reinforcement Learning with General Value Function Approximation ( http://arxiv.org/abs/2106.07841v1 )

ライセンス: CC0 1.0
Haque Ishfaq, Qiwen Cui, Viet Nguyen, Alex Ayoub, Zhuoran Yang, Zhaoran Wang, Doina Precup, Lin F. Yang(参考訳) 本稿では,ランダム化最小二乗値反復法(RLSVI)と最適化原理に着想を得たモデルレス強化学習アルゴリズムを提案する。 既存のuper-confidence-boun d (ucb) ベースのアプローチとは異なり、アルゴリズムは単にトレーニングデータを不当に選択されたi.i.dで摂動させることで探索を促進する。 スカラーノイズ。 ucb型ボーナスに頼らずに楽観的価値関数推定を実現するため、楽観的報酬サンプリング手順を導入する。 値関数が$\mathcal{f}$という関数クラスで表現できるとき、このアルゴリズムは$\widetilde{o}(\mathrm{poly}(d_eh)\sqrt{t})$という最悪の場合の後悔を成す(ここで$t$は時間経過、$h$は計画の地平線、$d_e$は$\textit{eluder dimension}$ of $\mathcal{f}$である)。 線形設定では、アルゴリズムはLSVIの変種であるLSVI-PHEに還元され、$\widetilde{\mathcal{O}}(\sqrt{d^3H^3T})が後悔される。 我々はこの理論を、既知の難解な探索タスクにおける経験的評価で補完する。

We propose a model-free reinforcement learning algorithm inspired by the popular randomized least squares value iteration (RLSVI) algorithm as well as the optimism principle. Unlike existing upper-confidence-bou nd (UCB) based approaches, which are often computationally intractable, our algorithm drives exploration by simply perturbing the training data with judiciously chosen i.i.d. scalar noises. To attain optimistic value function estimation without resorting to a UCB-style bonus, we introduce an optimistic reward sampling procedure. When the value functions can be represented by a function class $\mathcal{F}$, our algorithm achieves a worst-case regret bound of $\widetilde{O}(\mathrm{poly}(d_EH)\sqrt{T})$ where $T$ is the time elapsed, $H$ is the planning horizon and $d_E$ is the $\textit{eluder dimension}$ of $\mathcal{F}$. In the linear setting, our algorithm reduces to LSVI-PHE, a variant of RLSVI, that enjoys an $\widetilde{\mathcal{O}}(\sqrt{d^3H^3T})$ regret. We complement the theory with an empirical evaluation across known difficult exploration tasks.
翻訳日:2021-06-17 05:06:10 公開日:2021-06-15
# (参考訳) クラスタ誘導型非対称コントラスト学習 [全文訳有]

Cluster-guided Asymmetric Contrastive Learning for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2106.07846v1 )

ライセンス: CC BY 4.0
Mingkun Li, Chun-Guang Li, Jun Guo(参考訳) Re-ID(unsupervised person re-identification)は、異なるカメラビューからの歩行者イメージを教師なし環境でマッチングすることを目的としている。 unsupervised person re-idの既存のメソッドは、通常、クラスタリングから疑似ラベルで構築される。 しかしながら、クラスタリングの品質は学習した特徴の品質に大きく依存しており、特に教師なしの設定では画像の色が圧倒的に優位である。 本稿では,クラスタ構造を利用して適切に設計された非対称コントラスト学習フレームワークで特徴学習を導く,教師なし人物再識別のためのクラスタ誘導型非対称コントラスト学習(cacl)手法を提案する。 具体的には,異なるデータ拡張ビュー間のクラスタ構造に対する特徴学習の不均一性を効果的にマイニングするために,新たなクラスタレベルのコントラスト損失を提案する。 3つのベンチマークデータセットで行った大規模な実験は、提案手法の優れた性能を示す。

Unsupervised person re-identification (Re-ID) aims to match pedestrian images from different camera views in unsupervised setting. Existing methods for unsupervised person Re-ID are usually built upon the pseudo labels from clustering. However, the quality of clustering depends heavily on the quality of the learned features, which are overwhelmingly dominated by the colors in images especially in the unsupervised setting. In this paper, we propose a Cluster-guided Asymmetric Contrastive Learning (CACL) approach for unsupervised person Re-ID, in which cluster structure is leveraged to guide the feature learning in a properly designed asymmetric contrastive learning framework. To be specific, we propose a novel cluster-level contrastive loss to help the siamese network effectively mine the invariance in feature learning with respect to the cluster structure within and between different data augmentation views, respectively. Extensive experiments conducted on three benchmark datasets demonstrate superior performance of our proposal.
翻訳日:2021-06-17 05:04:35 公開日:2021-06-15
# (参考訳) 不安定特徴の伝達による安定分類器の学習 [全文訳有]

Learning Stable Classifiers by Transferring Unstable Features ( http://arxiv.org/abs/2106.07847v1 )

ライセンス: CC BY 4.0
Yujia Bao, Shiyu Chang, Regina Barzilay(参考訳) 我々は,スプリアス相関の存在下での転校学習について検討する。 提案手法は,ソースタスクで学習した安定な特徴抽出器を直接転送しても,対象タスクのバイアスを排除できないことを示す。 しかし、本研究では、ソースタスクとターゲットタスクの不安定な特徴が直接関連していると仮定する。 ソースタスクの不安定な機能のターゲット分類器を明示的に通知することで、ターゲットタスクのバイアスを正規化することができる。 具体的には、ソースタスク内の異なるデータ環境を対比することにより、不安定な特徴をエンコードする表現を導出する。 対象のタスクでは、この表現からデータをクラスタ化し、すべてのクラスタで最悪のリスクを最小限にすることで堅牢性を達成する。 本手法はテキスト分類と画像分類の両方で評価する。 実験結果から,本アルゴリズムは目標タスクのロバスト性を維持し,12の転送設定における絶対精度を22.9%向上させることができた。 私たちのコードはhttps://github.com/y ujiabao/tofuで利用可能です。

We study transfer learning in the presence of spurious correlations. We experimentally demonstrate that directly transferring the stable feature extractor learned on the source task may not eliminate these biases for the target task. However, we hypothesize that the unstable features in the source task and those in the target task are directly related. By explicitly informing the target classifier of the source task's unstable features, we can regularize the biases in the target task. Specifically, we derive a representation that encodes the unstable features by contrasting different data environments in the source task. On the target task, we cluster data from this representation, and achieve robustness by minimizing the worst-case risk across all clusters. We evaluate our method on both text and image classifications. Empirical results demonstrate that our algorithm is able to maintain robustness on the target task, outperforming the best baseline by 22.9% in absolute accuracy across 12 transfer settings. Our code is available at https://github.com/Y ujiaBao/Tofu.
翻訳日:2021-06-17 04:46:51 公開日:2021-06-15
# (参考訳) 強化学習のための集団符号化と動的ニューロン改良スパイキングアクターネットワーク

Population-coding and Dynamic-neurons improved Spiking Actor Network for Reinforcement Learning ( http://arxiv.org/abs/2106.07854v1 )

ライセンス: CC0 1.0
Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Xiang Cheng and Bo Xu(参考訳) Deep Neural Networks (DNN) を強力な関数近似器として、Deep Reinforcement Learning (DRL) はロボット制御タスクにおいて優れた実証がなされている。 バニラ人工ニューロンのDNNと比較して、生物学的にプラウチブルなスパイキングニューラルネットワーク(SNN)は多様なスパイキングニューロンを含み、空間的および時間的情報による状態表現に自然に強力である。 スパイクアクターネットワークが状態からアクションを推測し、深い批評家ネットワークがアクターを評価するハイブリッド学習フレームワークに基づいて、入力符号化とニューラルコーディングの2つの異なる尺度から効率的な状態表現を実現するために、PDSAN(Population-cod ing and Dynamic-neurons improve Spiking Actor Network)を提案する。 入力符号化では,各入力状態成分を直接符号化するために動的受容場を用いた集団符号化を適用する。 ニューロン符号化では、より複雑なニューロン力学を記述するために、異なる種類の動的ニューロン(第1次および第2次神経力学を含む)を提案する。 最後に、PDSANは、TD3-PDSAN(Twin Delayed Deep Deterministic Policy gradient algorithm)を用いて、深い批判ネットワークと共に訓練される。 総合的な実験結果から,我々のTD3-PDSANモデルは,4つのOpenAI体育館ベンチマークタスクの最先端モデルよりも優れた性能が得られることが示された。 SNNによるRL向上のための重要な試みであり、生物学的な妥当性を満たす効果的な計算方法である。

With the Deep Neural Networks (DNNs) as a powerful function approximator, Deep Reinforcement Learning (DRL) has been excellently demonstrated on robotic control tasks. Compared to DNNs with vanilla artificial neurons, the biologically plausible Spiking Neural Network (SNN) contains a diverse population of spiking neurons, making it naturally powerful on state representation with spatial and temporal information. Based on a hybrid learning framework, where a spike actor-network infers actions from states and a deep critic network evaluates the actor, we propose a Population-coding and Dynamic-neurons improved Spiking Actor Network (PDSAN) for efficient state representation from two different scales: input coding and neuronal coding. For input coding, we apply population coding with dynamically receptive fields to directly encode each input state component. For neuronal coding, we propose different types of dynamic-neurons (containing 1st-order and 2nd-order neuronal dynamics) to describe much more complex neuronal dynamics. Finally, the PDSAN is trained in conjunction with deep critic networks using the Twin Delayed Deep Deterministic policy gradient algorithm (TD3-PDSAN). Extensive experimental results show that our TD3-PDSAN model achieves better performance than state-of-the-art models on four OpenAI gym benchmark tasks. It is an important attempt to improve RL with SNN towards the effective computation satisfying biological plausibility.
翻訳日:2021-06-17 04:03:27 公開日:2021-06-15
# (参考訳) 長距離深度イメージングのためのハイブリッドmm波・カメラシステム [全文訳有]

A Hybrid mmWave and Camera System for Long-Range Depth Imaging ( http://arxiv.org/abs/2106.07856v1 )

ライセンス: CC BY 4.0
Diana Zhang, Akarsh Prabhakara, Sirajum Munir, Aswin Sankaranarayanan, Swarun Kumar(参考訳) mmwaveレーダは、mmwave無線周波数の帯域幅が高いため、深度分解能に優れる。 しかし、それらはカメラシステムよりも桁違いに悪い角度分解能に本質的に苦しめられているため、孤立した3dイメージングソリューションには適していない。 本研究では,レーダーとカメラシステムの補完的強みを組み合わせたシステムであるmetamoranを提案する。 Metamoranは、道路沿いの安全インフラ、監視、広域マッピングに応用した、屋外の豊富な長距離深度イメージングを可能にする。 我々の重要な洞察は、画像分割や単眼深度推定を含むコンピュータビジョン技術を用いて、カメラからの高方位分解能を用いて物体形状を求め、これらを新しい鏡面ビームフォーミングアルゴリズムの前駆体として用いることである。 また, このアルゴリズムは, 弱い反射を伴う乱雑な環境や, 部分的に遮蔽されたシナリオで動作するように設計する。 我々は,米国の主要都市の200の多様なシーンにおいて,メタモランの深度イメージングとセンシング能力の詳細な評価を行う。 評価の結果,Metamoranは物体の深さを最大60~mまで推定し,平均誤差は28~cmであり,レーダーカメラベースラインに比べて13$\times$,モノクロ深度推定では23$\times$であることがわかった。

mmWave radars offer excellent depth resolution owing to their high bandwidth at mmWave radio frequencies. Yet, they suffer intrinsically from poor angular resolution, that is an order-of-magnitude worse than camera systems, and are therefore not a capable 3-D imaging solution in isolation. We propose Metamoran, a system that combines the complimentary strengths of radar and camera systems to obtain depth images at high azimuthal resolutions at distances of several tens of meters with high accuracy, all from a single fixed vantage point. Metamoran enables rich long-range depth imaging outdoors with applications to roadside safety infrastructure, surveillance and wide-area mapping. Our key insight is to use the high azimuth resolution from cameras using computer vision techniques, including image segmentation and monocular depth estimation, to obtain object shapes and use these as priors for our novel specular beamforming algorithm. We also design this algorithm to work in cluttered environments with weak reflections and in partially occluded scenarios. We perform a detailed evaluation of Metamoran's depth imaging and sensing capabilities in 200 diverse scenes at a major U.S. city. Our evaluation shows that Metamoran estimates the depth of an object up to 60~m away with a median error of 28~cm, an improvement of 13$\times$ compared to a naive radar+camera baseline and 23$\times$ compared to monocular depth estimation.
翻訳日:2021-06-17 04:02:12 公開日:2021-06-15
# (参考訳) 正しい答えに投票する: 話者検証のための敵対的防御 [全文訳有]

Voting for the right answer: Adversarial defense for speaker verification ( http://arxiv.org/abs/2106.07868v1 )

ライセンス: CC BY 4.0
Haibin Wu, Yang Zhang, Zhiyong Wu, Dong Wang, Hung-yi Lee(参考訳) 自動話者検証(ASV)は生体認証技術としてよく開発されており、銀行やアクセス制御といったセキュリティクリティカルなアプリケーションに広く実装されている。 しかし、以前の研究では、ASVは敵の攻撃のレーダー下にあることが示されており、これは人間の認識による本来の攻撃と非常によく似ているが、ASVを間違った予測で操作する。 ASVに対する敵対的攻撃の出現が極めて遅いため、それらに対する効果的な対策は限られている。 本研究では, ASV の安全性が優先されていることを踏まえ, ランダムサンプリングと投票を用いて, 盲点領域における ASV のリスク決定を防ぐための「正しい回答を求める」という考え方を提案する。 実験結果から,本手法は,無作為性を導入し,攻撃者の予算を増大させることで,相手検体を盲点から取り出すことにより,双方に対する堅牢性を向上することが示された。 主な結果を再現するコードはhttps://github.com/t huhcsi/adsv_votingで入手できる。

Automatic speaker verification (ASV) is a well developed technology for biometric identification, and has been ubiquitous implemented in security-critic applications, such as banking and access control. However, previous works have shown that ASV is under the radar of adversarial attacks, which are very similar to their original counterparts from human's perception, yet will manipulate the ASV render wrong prediction. Due to the very late emergence of adversarial attacks for ASV, effective countermeasures against them are limited. Given that the security of ASV is of high priority, in this work, we propose the idea of "voting for the right answer" to prevent risky decisions of ASV in blind spot areas, by employing random sampling and voting. Experimental results show that our proposed method improves the robustness against both the limited-knowledge attackers by pulling the adversarial samples out of the blind spots, and the perfect-knowledge attackers by introducing randomness and increasing the attackers' budgets. The code for reproducing main results is available at https://github.com/t huhcsi/adsv_voting.
翻訳日:2021-06-17 03:41:56 公開日:2021-06-15
# (参考訳) S-LIME: モデル記述のための安定化LIME [全文訳有]

S-LIME: Stabilized-LIME for Model Explanation ( http://arxiv.org/abs/2106.07875v1 )

ライセンス: CC BY 4.0
Zhengze Zhou, Giles Hooker, Fei Wang(参考訳) 金融やヘルスケアといった高い利害を持つ領域に機械学習モデルが展開されている。 優れたパフォーマンスにもかかわらず、多くのモデルは本質的に説明が難しいブラックボックスである。 研究者がこれらのブラックボックスモデルを解釈する手法を開発する努力が増えている。 LIMEのような摂動に基づくポストホックの説明は、機械学習モデルの構築後に解釈するために広く使われているアプローチである。 このタイプのメソッドは大きな不安定性を示し、メソッド自体の有効性に深刻な課題を生じさせ、ユーザの信頼を損なうことが示されている。 本稿では,中央極限定理に基づく仮説検定フレームワークを用いて,解の安定性を保証するのに必要な摂動点数を決定するs-limeを提案する。 本手法の有効性を示すため,シミュレーションと実世界の両方のデータセットの実験を行った。

An increasing number of machine learning models have been deployed in domains with high stakes such as finance and healthcare. Despite their superior performances, many models are black boxes in nature which are hard to explain. There are growing efforts for researchers to develop methods to interpret these black-box models. Post hoc explanations based on perturbations, such as LIME, are widely used approaches to interpret a machine learning model after it has been built. This class of methods has been shown to exhibit large instability, posing serious challenges to the effectiveness of the method itself and harming user trust. In this paper, we propose S-LIME, which utilizes a hypothesis testing framework based on central limit theorem for determining the number of perturbation points needed to guarantee stability of the resulting explanation. Experiments on both simulated and real world data sets are provided to demonstrate the effectiveness of our method.
翻訳日:2021-06-17 03:29:16 公開日:2021-06-15
# (参考訳) スケッチとランダム特徴によるニューラルタンジェントカーネルのスケーリング

Scaling Neural Tangent Kernels via Sketching and Random Features ( http://arxiv.org/abs/2106.07880v1 )

ライセンス: CC BY 4.0
Amir Zandieh, Insu Han, Haim Avron, Neta Shoham, Chaewon Kim, Jinwoo Shin(参考訳) neural tangent kernel(ntk)は、勾配降下によって最小二乗損失下で訓練された無限大ニューラルネットワークの挙動を特徴付ける。 近年の研究では、ntk回帰は、小規模データセットでトレーニングされた有限幅のニューラルネットワークよりも優れていると報告されている。 しかしながら、カーネルメソッドの計算複雑性は、大規模学習タスクでの使用を制限している。 ntkを用いた学習を高速化するため,我々は,arc-cosineカーネルの多項式展開をスケッチすることにより,ntkの入力スパーシティ時間近似アルゴリズムを設計する。 さらに,arc-cosineカーネルのランダム特徴(スコアサンプリングに基づく)とスケッチアルゴリズムを組み合わせることで,ntk行列に対するスペクトル近似の保証を証明した。 我々は,CNTK特徴量に基づいて訓練された線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現し,大規模回帰および分類タスクのベンチマークを行った。

The Neural Tangent Kernel (NTK) characterizes the behavior of infinitely-wide neural networks trained under least squares loss by gradient descent. Recent works also report that NTK regression can outperform finitely-wide neural networks trained on small-scale datasets. However, the computational complexity of kernel methods has limited its use in large-scale learning tasks. To accelerate learning with NTK, we design a near input-sparsity time approximation algorithm for NTK, by sketching the polynomial expansions of arc-cosine kernels: our sketch for the convolutional counterpart of NTK (CNTK) can transform any image using a linear runtime in the number of pixels. Furthermore, we prove a spectral approximation guarantee for the NTK matrix, by combining random features (based on leverage score sampling) of the arc-cosine kernels with a sketching algorithm. We benchmark our methods on various large-scale regression and classification tasks and show that a linear regressor trained on our CNTK features matches the accuracy of exact CNTK on CIFAR-10 dataset while achieving 150x speedup.
翻訳日:2021-06-17 03:12:04 公開日:2021-06-15
# (参考訳) 確率最適化による拡張テンソル分解

Augmented Tensor Decomposition with Stochastic Optimization ( http://arxiv.org/abs/2106.07900v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Cheng Qian, Navjot Singh, Cao Xiao, M Brandon Westover, Edgar Solomonik, Jimeng Sun(参考訳) テンソル分解は、信号などの多次元データの次元減少と特徴解釈のための強力なツールである。 既存のテンソル分解目標(例えばフロベニウスノルム)は、下流の分類タスクと一致しないような統計的仮定の下で生データを適合させるように設計されている。 また、現実世界のテンソルデータは、通常高次で、数百万から数十億のエントリを持つ大きな次元を持つ。 したがって、従来のアルゴリズムでテンソル全体を分解するのは費用がかかる。 実際には、生のテンソルデータは冗長な情報も含んでいるが、データ拡張技術はサンプルのノイズを平滑化するために使うことができる。 本稿では,データ拡張を効果的に組み込んで下流分類を促進する拡張テンソル分解(augmented tensor decomposition, atd)を提案する。 本稿では,分解のメモリフットプリントを削減するために,行列をバッチ形式で更新する確率的アルゴリズムを提案する。 複数の信号データセット上でATDを評価する。 モデルパラメータの5%未満で、自己教師付きおよびオートエンコーダベースラインよりも同等または優れたパフォーマンス(例えば、15%の精度)を示し、他のテンソルベースラインよりも0.6%以上精度が向上し、標準テンソル分解アルゴリズムと比較してメモリフットプリントを9倍削減する。

Tensor decompositions are powerful tools for dimensionality reduction and feature interpretation of multidimensional data such as signals. Existing tensor decomposition objectives (e.g., Frobenius norm) are designed for fitting raw data under statistical assumptions, which may not align with downstream classification tasks. Also, real-world tensor data are usually high-ordered and have large dimensions with millions or billions of entries. Thus, it is expensive to decompose the whole tensor with traditional algorithms. In practice, raw tensor data also contains redundant information while data augmentation techniques may be used to smooth out noise in samples. This paper addresses the above challenges by proposing augmented tensor decomposition (ATD), which effectively incorporates data augmentations to boost downstream classification. To reduce the memory footprint of the decomposition, we propose a stochastic algorithm that updates the factor matrices in a batch fashion. We evaluate ATD on multiple signal datasets. It shows comparable or better performance (e.g., up to 15% in accuracy) over self-supervised and autoencoder baselines with less than 5% of model parameters, achieves 0.6% ~ 1.3% accuracy gain over other tensor-based baselines, and reduces the memory footprint by 9X when compared to standard tensor decomposition algorithms.
翻訳日:2021-06-17 03:10:06 公開日:2021-06-15
# (参考訳) LPへのオプティカルプランナコンパイルにおける状態情報の利用による検索の改善 [全文訳有]

Improving Search by Utilizing State Information in OPTIC Planners Compilation to LP ( http://arxiv.org/abs/2106.07924v1 )

ライセンス: CC BY 4.0
Elad Denenberg, Amanda Coles, and Derek Long(参考訳) 自動プランナー(automated planner)は、自律的なエージェントが、与えられた初期状態から所望の目標状態までシステムを運ぶエージェントの一連のアクションを決定することによって、戦略や意思決定を行うことができるコンピュータツールである。 多くのプランナーはドメイン非依存で、様々なドメインにデプロイできる。 これがオプティカルプランナーの幅広い家系である。 これらのプランナーは前方探索を行い、一貫性をチェックし、数値変数の境界を設定するために、各状態において線形プログラミング(lp)ソルバを複数回呼び出す。 これらのチェックは計算コストがかかる可能性がある。 本稿では, 評価中の特定の状態に関する情報を同定し, 方程式の定式化により, より優れた解法選択と高速なLP解法を実現する方法を提案する。 本手法の有用性は6つの領域で示され,性能が著しく向上することが示されている。

Automated planners are computer tools that allow autonomous agents to make strategies and decisions by determining a set of actions for the agent that to take, which will carry a system from a given initial state to the desired goal state. Many planners are domain-independent, allowing their deployment in a variety of domains. Such is the broad family of OPTIC planners. These planners perform Forward Search and call a Linear Programming (LP) solver multiple times at every state to check for consistency and to set bounds on the numeric variables. These checks can be computationally costly, especially in real-life applications. This paper suggests a method for identifying information about the specific state being evaluated, allowing the formulation of the equations to facilitate better solver selection and faster LP solving. The usefulness of the method is demonstrated in six domains and is shown to enhance performance significantly.
翻訳日:2021-06-17 03:08:27 公開日:2021-06-15
# (参考訳) ReS2tAC -- 組み込みARMとCUDAデバイス向けに最適化されたUAVボーンリアルタイムSGMステレオ

ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and CUDA Devices ( http://arxiv.org/abs/2106.07927v1 )

ライセンス: CC BY 4.0
Boitumelo Ruf, Jonas Mohrs, Martin Weinmann, Stefan Hinz, J\"urgen Beyerer(参考訳) 無人航空機などの低コストなロボットシステムの出現に伴い、組み込み高性能画像処理の重要性が高まっている。 長い間、FPGAは高性能コンピューティングが可能な唯一の処理ハードウェアであり、同時に組み込みシステムに不可欠な低消費電力を保っていた。 しかし最近、ARM CPUとNVIDIA Tegra GPUで構成されたNVIDIA Jetsonシリーズのような組み込みGPUベースのシステムが利用可能になったことで、グラフィックスハードウェア上で非常に並列な組み込みコンピューティングが可能になる。 そこで本研究では,ARM と CUDA 対応デバイス上でリアルタイムなステレオ処理を実現する手法を提案する。 本稿では,超並列計算とneonインテラルを用いて,組込みarmcpu上でのベクトル化simd処理のためのアルゴリズムを最適化することにより,組込みcuda gpuのためのアルゴリズムの最適化を提案する。 2つのパブリックステレオベンチマークデータセットで異なる構成でこのアプローチを評価し、エラー率を3.3%まで低くできることを実証した。 さらに,本手法の高速構成はvga画像解像度で最大46fpsに達することを示した。 最後に,本手法の消費電力を評価し,dji行列210v2 rtk無人航空機(uav)に取り付けられたdji多様体2-gに配置し,実時間ステレオ処理に適した性能を示す。

With the emergence of low-cost robotic systems, such as unmanned aerial vehicle, the importance of embedded high-performance image processing has increased. For a long time, FPGAs were the only processing hardware that were capable of high-performance computing, while at the same time preserving a low power consumption, essential for embedded systems. However, the recently increasing availability of embedded GPU-based systems, such as the NVIDIA Jetson series, comprised of an ARM CPU and a NVIDIA Tegra GPU, allows for massively parallel embedded computing on graphics hardware. With this in mind, we propose an approach for real-time embedded stereo processing on ARM and CUDA-enabled devices, which is based on the popular and widely used Semi-Global Matching algorithm. In this, we propose an optimization of the algorithm for embedded CUDA GPUs, by using massively parallel computing, as well as using the NEON intrinsics to optimize the algorithm for vectorized SIMD processing on embedded ARM CPUs. We have evaluated our approach with different configurations on two public stereo benchmark datasets to demonstrate that they can reach an error rate as low as 3.3%. Furthermore, our experiments show that the fastest configuration of our approach reaches up to 46 FPS on VGA image resolution. Finally, in a use-case specific qualitative evaluation, we have evaluated the power consumption of our approach and deployed it on the DJI Manifold 2-G attached to a DJI Matrix 210v2 RTK unmanned aerial vehicle (UAV), demonstrating its suitability for real-time stereo processing onboard a UAV.
翻訳日:2021-06-17 02:48:27 公開日:2021-06-15
# (参考訳) 可読性評価のための知識リッチBERT埋め込み [全文訳有]

Knowledge-Rich BERT Embeddings for Readability Assessment ( http://arxiv.org/abs/2106.07935v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial(参考訳) 自動可読性評価(ARA)は、対象読者に対するテキスト文書の読みやすさや難易度を評価するタスクである。 研究者にとって、この分野における多くのオープンな問題の1つは、低リソース言語においても、タスクのためにトレーニングされたモデルが有効性を示すことである。 本研究では,BERTモデルの情報豊富な埋め込みを,手作業による言語的特徴と組み合わせて,可読性評価を行う手法を提案する。 提案手法は、英語とフィリピンのデータセットを用いた可読性評価における古典的手法よりも優れており、F1の性能は最大12.4%向上している。 また、BERT埋め込みに符号化された知識は、フィリピンのような低リソース言語において、タスクの特徴値を明示的に抽出するためのセマンティックおよび構文的NLPツールの代替機能セットとして使用できることを示す。

Automatic readability assessment (ARA) is the task of evaluating the level of ease or difficulty of text documents for a target audience. For researchers, one of the many open problems in the field is to make such models trained for the task show efficacy even for low-resource languages. In this study, we propose an alternative way of utilizing the information-rich embeddings of BERT models through a joint-learning method combined with handcrafted linguistic features for readability assessment. Results show that the proposed method outperforms classical approaches in readability assessment using English and Filipino datasets, and obtaining as high as 12.4% increase in F1 performance. We also show that the knowledge encoded in BERT embeddings can be used as a substitute feature set for low-resource languages like Filipino with limited semantic and syntactic NLP tools to explicitly extract feature values for the task.
翻訳日:2021-06-17 02:47:11 公開日:2021-06-15
# (参考訳) 線形判別学習によるモデル形態:考察と設計選択

Modeling morphology with Linear Discriminative Learning: considerations and design choices ( http://arxiv.org/abs/2106.07936v1 )

ライセンス: CC BY 4.0
Maria Heitmeier, Yu-Ying Chuang, R. Harald Baayen(参考訳) 本研究は,線形判別学習を用いた帰納的形態をモデル化する際に生じる一連の方法論的問題を扱う。 半生産的なドイツ語の名詞体系を例にとると、形式と意味の表現がモデルのパフォーマンスにどのように影響するかを示す。 学習の頻度効果をモデル化するには,学習のエンドステートよりもインクリメンタルな学習が不可欠であることを明らかにした。 また、文脈における屈折語学習を近似するためにモデルをどのように設定するかについても論じる。 さらに、このアプローチにおいて、wugタスクをかなり詳細にモデル化する方法について説明する。 一般に、このモデルは既知の単語に対して優れたメモリを提供するが、ドイツ語話者のドイツ語名詞の半生産性と一般化性能に応じて、見知らぬデータに対してより限られた性能を示す。

This study addresses a series of methodological questions that arise when modeling inflectional morphology with Linear Discriminative Learning. Taking the semi-productive German noun system as example, we illustrate how decisions made about the representation of form and meaning influence model performance. We clarify that for modeling frequency effects in learning, it is essential to make use of incremental learning rather than the endstate of learning. We also discuss how the model can be set up to approximate the learning of inflected words in context. In addition, we illustrate how in this approach the wug task can be modeled in considerable detail. In general, the model provides an excellent memory for known words, but appropriately shows more limited performance for unseen data, in line with the semi-productivity of German noun inflection and generalization performance of native German speakers.
翻訳日:2021-06-17 02:37:49 公開日:2021-06-15
# (参考訳) 単一画像レイニングのための方向認識型特徴レベル周波数分解 [全文訳有]

Direction-aware Feature-level Frequency Decomposition for Single Image Deraining ( http://arxiv.org/abs/2106.07941v1 )

ライセンス: CC BY 4.0
Sen Deng, Yidan Feng, Mingqiang Wei, Haoran Xie, Yiping Chen, Jonathan Li, Xiao-Ping Zhang and Jing Qin(参考訳) 単一画像デライニングのための方向対応特徴レベル周波数分解ネットワークを提案する。 既存のソリューションと比較して,提案するネットワークには3つの魅力的な特徴がある。 まず、従来のアルゴリズムとは異なり、画像レベルではなく特徴レベルでの周波数分解を行い、構造を含む低周波マップと詳細を含む高周波マップの両方をトレーニング手順中に連続的に改善することを提案する。 第2に、低周波マップと高周波マップ間の通信チャネルを確立し、高周波マップから構造をインタラクティブに捉えて低周波マップに追加するとともに、低周波マップから詳細を抽出して高周波マップに送信することで、入力画像のより繊細な特徴を維持しながら雨のストレークを除去する。 第3に,すべての方向で整合した畳み込みフィルタを用いた既存アルゴリズムと異なり,雨天の入力画像をより効果的かつ徹底的に浄化するために,雨天の向きを捉える方向対応フィルタを提案する。 提案手法を3つの代表的なデータセットで広範囲に評価し、実験結果により、我々のアプローチは最先端のデラリニングアルゴリズムを一貫して上回っている。

We present a novel direction-aware feature-level frequency decomposition network for single image deraining. Compared with existing solutions, the proposed network has three compelling characteristics. First, unlike previous algorithms, we propose to perform frequency decomposition at feature-level instead of image-level, allowing both low-frequency maps containing structures and high-frequency maps containing details to be continuously refined during the training procedure. Second, we further establish communication channels between low-frequency maps and high-frequency maps to interactively capture structures from high-frequency maps and add them back to low-frequency maps and, simultaneously, extract details from low-frequency maps and send them back to high-frequency maps, thereby removing rain streaks while preserving more delicate features in the input image. Third, different from existing algorithms using convolutional filters consistent in all directions, we propose a direction-aware filter to capture the direction of rain streaks in order to more effectively and thoroughly purge the input images of rain streaks. We extensively evaluate the proposed approach in three representative datasets and experimental results corroborate our approach consistently outperforms state-of-the-art deraining algorithms.
翻訳日:2021-06-17 02:36:50 公開日:2021-06-15
# (参考訳) 意味フィードバックニューラルネットワークを用いたゼロサンプル表面欠陥検出と分類 [全文訳有]

Zero-sample surface defect detection and classification based on semantic feedback neural network ( http://arxiv.org/abs/2106.07959v1 )

ライセンス: CC BY 4.0
Yibo Guo, Yiming Fan, Zhiyang Xiang, Haidi Wang, Wenhua Meng, Mingliang Xu(参考訳) 欠陥検出と分類技術は従来の人工視覚検査から現在の知的自動検査へと変化してきたが、現在の欠陥検出手法のほとんどは、産業分野におけるサンプルデータ収集の難しさを考慮して、データ駆動アプローチに基づく関連する検出モデルを訓練している。 ゼロショット学習技術を産業分野に適用する。 既存の"latent feature guide attribute attention" (lfgaa) ゼロショット画像分類ネットワークの問題に目を向けると、出力潜在属性と人工的に定義された属性は意味空間で異なるため、モデル性能の低下が問題となり、セマンティックフィードバックに基づくlgfaaネットワークを提案し、セマンティック組み込みモジュールとフィードバックメカニズムを構築してモデル性能を改善した。 同時に、ゼロショット学習における共通領域シフト問題に対して、異なるデータビュー間の差分情報を用いたコトレーニングアルゴリズムの考え方に基づき、複数の角度から画像タグ埋め込みにおける予測誤差を適応的に低減するアンサンブルコトレーニングアルゴリズムを提案する。 産業分野におけるゼロショットデータセットとシリンダーライナーデータセットを用いた各種実験により,競争結果が得られた。

Defect detection and classification technology has changed from traditional artificial visual inspection to current intelligent automated inspection, but most of the current defect detection methods are training related detection models based on a data-driven approach, taking into account the difficulty of collecting some sample data in the industrial field. We apply zero-shot learning technology to the industrial field. Aiming at the problem of the existing "Latent Feature Guide Attribute Attention" (LFGAA) zero-shot image classification network, the output latent attributes and artificially defined attributes are different in the semantic space, which leads to the problem of model performance degradation, proposed an LGFAA network based on semantic feedback, and improved model performance by constructing semantic embedded modules and feedback mechanisms. At the same time, for the common domain shift problem in zero-shot learning, based on the idea of co-training algorithm using the difference information between different views of data to learn from each other, we propose an Ensemble Co-training algorithm, which adaptively reduces the prediction error in image tag embedding from multiple angles. Various experiments conducted on the zero-shot dataset and the cylinder liner dataset in the industrial field provide competitive results.
翻訳日:2021-06-17 02:25:02 公開日:2021-06-15
# (参考訳) ネットワーク侵入検出のための逐次機械学習の評価について [全文訳有]

On the Evaluation of Sequential Machine Learning for Network Intrusion Detection ( http://arxiv.org/abs/2106.07961v1 )

ライセンス: CC BY 4.0
Andrea Corsini, Shanchieh Jay Yang, Giovanni Apruzzese(参考訳) 近年,ネットワーク侵入検知システム(NIDS)における機械学習研究への関心が高まっている。 具体的には、ネットワークトラフィックフロー(NetFlows)の時間的特性を抽出し、NIDSタスクに使用する能力から、シーケンシャルな学習モデルに注意が向けられている。 しかし、これらのシーケンシャルモデルの適用は、サイバーセキュリティシナリオの特定の状況をどのように活用するかを深く調査することなく、他の分野から直接方法論を移行し、適用することであり、さらに、netflowデータに依存するシーケンシャルモデルに関する包括的な研究が欠如しており、従来のフルパケットキャプチャよりも大きな利点がある。 本論文ではこの問題に対処する。 本稿では,悪質な活動パターンを示すNetFlowの時間的シーケンスを抽出するための詳細な手法を提案する。 そこで本手法を適用し,従来の静的学習モデルと逐次学習モデルの有効性を比較した。 特に、NIDS用のよく知られた2つのデータセットであるCICIDS2017とCTU13で表される異なる環境下で、'sequential' Long Short-Term Memory(LSTM)と'static' Feedforward Neural Networks(FNN)を公正に比較する。 LSTMはCICIDS2017で99.5\%のF1スコアでFNNに匹敵する性能を示したが、CTU13では95.7\%のF1スコアで91.5\%と優れていた。 そこで本稿は,nidsの逐次学習モデルの今後の応用への道を開く。

Recent advances in deep learning renewed the research interests in machine learning for Network Intrusion Detection Systems (NIDS). Specifically, attention has been given to sequential learning models, due to their ability to extract the temporal characteristics of Network traffic Flows (NetFlows), and use them for NIDS tasks. However, the applications of these sequential models often consist of transferring and adapting methodologies directly from other fields, without an in-depth investigation on how to leverage the specific circumstances of cybersecurity scenarios; moreover, there is a lack of comprehensive studies on sequential models that rely on NetFlow data, which presents significant advantages over traditional full packet captures. We tackle this problem in this paper. We propose a detailed methodology to extract temporal sequences of NetFlows that denote patterns of malicious activities. Then, we apply this methodology to compare the efficacy of sequential learning models against traditional static learning models. In particular, we perform a fair comparison of a `sequential' Long Short-Term Memory (LSTM) against a `static' Feedforward Neural Networks (FNN) in distinct environments represented by two well-known datasets for NIDS: the CICIDS2017 and the CTU13. Our results highlight that LSTM achieves comparable performance to FNN in the CICIDS2017 with over 99.5\% F1-score; while obtaining superior performance in the CTU13, with 95.7\% F1-score against 91.5\%. This paper thus paves the way to future applications of sequential learning models for NIDS.
翻訳日:2021-06-17 02:04:38 公開日:2021-06-15
# (参考訳) ニューラル言語モデルにおける単語センスの曖昧化 [全文訳有]

Incorporating Word Sense Disambiguation in Neural Language Models ( http://arxiv.org/abs/2106.07967v1 )

ライセンス: CC BY-SA 4.0
Jan Philip Wahle and Terry Ruas and Norman Meuschke and Bela Gipp(参考訳) 本稿では,語彙資源からの用語定義をニューラルネットワークモデル(lms)に組み込むための教師付き(事前)学習手法を提案する。 このトレーニングは、Word Sense Disambiguation(WSD)のモデルの性能を改善するとともに、パラメータをほとんど追加することなく、一般的な言語理解タスクにも役立ちます。 我々は7つの異なるニューラルlmmを用いてこの技術を評価し、xlnetがbertよりもwsdに適していることを発見した。 SemCor 3.0データセットの最新のWSDテクニックを0.5%F1で上回り、GLUEベンチマークでのBERTのパフォーマンスを平均1.1%向上させました。

We present two supervised (pre-)training methods to incorporate gloss definitions from lexical resources into neural language models (LMs). The training improves our models' performance for Word Sense Disambiguation (WSD) but also benefits general language understanding tasks while adding almost no parameters. We evaluate our techniques with seven different neural LMs and find that XLNet is more suitable for WSD than BERT. Our best-performing methods exceeds state-of-the-art WSD techniques on the SemCor 3.0 dataset by 0.5% F1 and increase BERT's performance on the GLUE benchmark by 1.1% on average.
翻訳日:2021-06-17 01:47:11 公開日:2021-06-15
# (参考訳) 雑音正規化による超深層グラフニューラルネットワーク [全文訳有]

Very Deep Graph Neural Networks Via Noise Regularisation ( http://arxiv.org/abs/2106.07971v1 )

ライセンス: CC BY 4.0
Jonathan Godwin and Michael Schaarschmidt and Alexander Gaunt and Alvaro Sanchez-Gonzalez and Yulia Rubanova and Petar Veli\v{c}kovi\'c and James Kirkpatrick and Peter Battaglia(参考訳) グラフニューラルネットワーク(GNN)は、入力グラフを介して学習したメッセージパッシングを実行するが、従来の知恵によれば、少数のステップを実行することでトレーニングが難しくなり、パフォーマンスが向上しない。 ここでは反対を示す。 最大100のメッセージパッシングステップを持つ深層GNNをトレーニングし、2つの挑戦的な分子特性予測ベンチマークであるOpen Catalyst 2020 IS2REとQM9の最先端結果を達成する。 提案手法は,入力グラフをノイズで破壊し,タスクがグラフ特性予測である場合,補助ノードのオートエンコーダ損失を付加する,新しい単純な正規化法に大きく依存する。 以上の結果から,この正規化手法により,メッセージパッシングステップの増大による単調な性能向上が可能となった。 我々の研究は、グラフやその他の構造化予測問題におけるディープニューラルネットワークの利点を享受する新たな機会を開く。

Graph Neural Networks (GNNs) perform learned message passing over an input graph, but conventional wisdom says performing more than handful of steps makes training difficult and does not yield improved performance. Here we show the contrary. We train a deep GNN with up to 100 message passing steps and achieve several state-of-the-art results on two challenging molecular property prediction benchmarks, Open Catalyst 2020 IS2RE and QM9. Our approach depends crucially on a novel but simple regularisation method, which we call ``Noisy Nodes'', in which we corrupt the input graph with noise and add an auxiliary node autoencoder loss if the task is graph property prediction. Our results show this regularisation method allows the model to monotonically improve in performance with increased message passing steps. Our work opens new opportunities for reaping the benefits of deep neural networks in the space of graph and other structured prediction problems.
翻訳日:2021-06-17 01:37:00 公開日:2021-06-15
# (参考訳) モノのインターネットのためのフェデレーション学習: デバイス上の異常データ検出のためのフェデレーション学習フレームワーク [全文訳有]

Federated Learning for Internet of Things: A Federated Learning Framework for On-device Anomaly Data Detection ( http://arxiv.org/abs/2106.07976v1 )

ライセンス: CC BY 4.0
Tuo Zhang, Chaoyang He, Tianhao Ma, Mark Ma, Salman Avestimehr(参考訳) フェデレーション学習は、IoTサイバーセキュリティ(すなわちIoT環境における異常検出)を可能にする上で、データプライバシの保護と、集中的なクラウド上のアプローチによる高い通信/ストレージオーバーヘッド(例えば、時系列センサーからの高周波データ)の軽減を実現する上で、有望なソリューションである。 本稿では,アルゴリズムとシステム設計の両方に関する包括的な研究により,この方向性をさらに推し進めるため,N-BaIoT,FedDetectアルゴリズム,IoTデバイス用システム設計を用いた合成データセットを含むFedIoTプラットフォームを構築した。 さらに、FedDetect学習フレームワークは、適応最適化器(例えばAdam)とクロスラウンド学習率スケジューラを利用して、性能を向上させる。 現実的なIoTデバイス(Raspberry PI)のネットワークにおいて,FedIoTプラットフォームとFedDetectアルゴリズムをモデルおよびシステムパフォーマンスの両方で評価する。 本研究は,多種多様な攻撃型の検出におけるフェデレート学習の有効性を示すものである。 システム効率分析は、エンドツーエンドのトレーニング時間とメモリコストの両方が安価で、リソース制約のあるIoTデバイスに有望であることを示している。 ソースコードは公開されている。

Federated learning can be a promising solution for enabling IoT cybersecurity (i.e., anomaly detection in the IoT environment) while preserving data privacy and mitigating the high communication/storag e overhead (e.g., high-frequency data from time-series sensors) of centralized over-the-cloud approaches. In this paper, to further push forward this direction with a comprehensive study in both algorithm and system design, we build FedIoT platform that contains a synthesized dataset using N-BaIoT, FedDetect algorithm, and a system design for IoT devices. Furthermore, the proposed FedDetect learning framework improves the performance by utilizing an adaptive optimizer (e.g., Adam) and a cross-round learning rate scheduler. In a network of realistic IoT devices (Raspberry PI), we evaluate FedIoT platform and FedDetect algorithm in both model and system performance. Our results demonstrate the efficacy of federated learning in detecting a large range of attack types. The system efficiency analysis indicates that both end-to-end training time and memory cost are affordable and promising for resource-constrained IoT devices. The source code is publicly available.
翻訳日:2021-06-17 01:17:49 公開日:2021-06-15
# (参考訳) 非凸biレベル最適化のための値関数型内部点法 [全文訳有]

A Value-Function-based Interior-point Method for Non-convex Bi-level Optimization ( http://arxiv.org/abs/2106.07991v1 )

ライセンス: CC BY 4.0
Risheng Liu, Xuan Liu, Xiaoming Yuan, Shangzhi Zeng, Jin Zhang(参考訳) バイレベル最適化モデルは、実用的な関心を持って、幅広い複雑な学習タスクを捉えることができる。 バイレベルプログラムの解法における効率性の確認により、勾配に基づく手法が機械学習コミュニティで人気を集めている。 本研究では,BVFIM(Bi-level Value-Function-based interior-point Method)という,勾配に基づく新たな解法を提案する。 対数バリア内点スキームの主な考え方に従い、下位レベル問題の正規化値関数を上位レベル目標にペナライズする。 さらに、微分不可能な近似問題の列を解くことにより、逐次プログラミングスキームを導出する。 この手法の数値的な利点は、近似問題を解くために勾配法を適用すると、高価なヘッセンベクトルやヤコビベクトル積の計算をうまく回避できるという事実に依存する。 我々は、上階または下階の目的に対して凸性仮定を必要とせずに収束を証明する。 非凸二レベル問題に対するBVFIMの有効性を示す実験を行った。

Bi-level optimization model is able to capture a wide range of complex learning tasks with practical interest. Due to the witnessed efficiency in solving bi-level programs, gradient-based methods have gained popularity in the machine learning community. In this work, we propose a new gradient-based solution scheme, namely, the Bi-level Value-Function-based Interior-point Method (BVFIM). Following the main idea of the log-barrier interior-point scheme, we penalize the regularized value function of the lower level problem into the upper level objective. By further solving a sequence of differentiable unconstrained approximation problems, we consequently derive a sequential programming scheme. The numerical advantage of our scheme relies on the fact that, when gradient methods are applied to solve the approximation problem, we successfully avoid computing any expensive Hessian-vector or Jacobian-vector product. We prove the convergence without requiring any convexity assumption on either the upper level or the lower level objective. Experiments demonstrate the efficiency of the proposed BVFIM on non-convex bi-level problems.
翻訳日:2021-06-17 01:01:14 公開日:2021-06-15
# (参考訳) スパイク時間依存塑性とグラディエントDescenceによるスパイクニューラルネットワークに基づくSAR画像分類

SAR Image Classification Based on Spiking Neural Network through Spike-Time Dependent Plasticity and Gradient Descent ( http://arxiv.org/abs/2106.08005v1 )

ライセンス: CC BY 4.0
Jiankun Chen, Xiaolan Qiu, Chibiao Ding, Yirong Wu(参考訳) 現在,畳み込みニューラルネットワーク(cnn)に基づく合成開口レーダ(sar)画像分類手法は,ノイズ耐性の低下や一般化能力の低下といった問題に直面している。 スパイキングニューラルネットワーク(SNN)は、脳のような知能のコアコンポーネントの1つであり、優れた応用可能性を持っている。 本稿では、複雑な時空間情報を持つスパイクシーケンスを用いて、SNNの教師なしおよび教師なし学習に基づく完全なSAR画像分類器を構築する。 まず、スパイクニューロンモデル、SNNの受容野、スパイクシーケンスの構築について述べる。 次に,stdpに基づく教師なし学習アルゴリズムと,勾配降下に基づく教師なし学習アルゴリズムを提案する。 mstarデータセット上の3つのカテゴリ画像における単層学習と二層学習snの平均分類精度は、それぞれ80.8\%と85.1\%である。 さらに、教師なし学習の収束出力スパイクシーケンスを教示信号として使用することができる。 TensorFlowフレームワークに基づいて、下位から単一のレイヤで教師付き学習SNNを構築し、分類精度は90.05\%に達する。 ノイズ抵抗とモデルパラメータをSNNとCNNで比較することにより,SNNの有効性と利点を検証した。 実験を再現するコードは \url{https://github.com/J iankun-chen/Supervis ed-SNN-with-GD} で公開されている。

At present, the Synthetic Aperture Radar (SAR) image classification method based on convolution neural network (CNN) has faced some problems such as poor noise resistance and generalization ability. Spiking neural network (SNN) is one of the core components of brain-like intelligence and has good application prospects. This article constructs a complete SAR image classifier based on unsupervised and supervised learning of SNN by using spike sequences with complex spatio-temporal information. We firstly expound the spiking neuron model, the receptive field of SNN, and the construction of spike sequence. Then we put forward an unsupervised learning algorithm based on STDP and a supervised learning algorithm based on gradient descent. The average classification accuracy of single layer and bilayer unsupervised learning SNN in three categories images on MSTAR dataset is 80.8\% and 85.1\%, respectively. Furthermore, the convergent output spike sequences of unsupervised learning can be used as teaching signals. Based on the TensorFlow framework, a single layer supervised learning SNN is built from the bottom, and the classification accuracy reaches 90.05\%. By comparing noise resistance and model parameters between SNNs and CNNs, the effectiveness and outstanding advantages of SNN are verified. Code to reproduce our experiments is available at \url{https://github.com/J iankun-chen/Supervis ed-SNN-with-GD}.
翻訳日:2021-06-17 00:37:54 公開日:2021-06-15
# (参考訳) 木構造トピック誘導による文生成による教師なし抽象的意見要約 [全文訳有]

Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree-Structured Topic Guidance ( http://arxiv.org/abs/2106.08007v1 )

ライセンス: CC BY 4.0
Masaru Isonuma, Junichiro Mori, Danushka Bollegala, Ichiro Sakata(参考訳) 本稿では,意見文の教師なし抽象要約手法を提案する。 基本変分オートエンコーダに基づくモデルは、文の潜在コードに先立って一様ガウス型を仮定するが、各混合成分がトピック文の潜在コードに対応し、木構造されたトピック分布によって混合される再帰ガウス型混合型に置き換える。 それぞれのガウス成分を復号化することにより、ルート文が一般的な内容を伝達し、葉文が特定のトピックを記述する木構造的なトピックガイダンスを持つ文を生成する。 実験の結果,生成した話題文は,近年の教師なし要約モデル (Bra\v{z}inskas et al., 2020) で生成されたものよりも,より情報的かつ多くの入力内容をカバーする,意見文の要約として適切であることが確認された。 さらに, 潜在ガウス語の分散は文の粒度を表しており, ガウス語の単語埋め込み(vilnis and mccallum, 2015)と類似している。

This paper presents a novel unsupervised abstractive summarization method for opinionated texts. While the basic variational autoencoder-based models assume a unimodal Gaussian prior for the latent code of sentences, we alternate it with a recursive Gaussian mixture, where each mixture component corresponds to the latent code of a topic sentence and is mixed by a tree-structured topic distribution. By decoding each Gaussian component, we generate sentences with tree-structured topic guidance, where the root sentence conveys generic content, and the leaf sentences describe specific topics. Experimental results demonstrate that the generated topic sentences are appropriate as a summary of opinionated texts, which are more informative and cover more input contents than those generated by the recent unsupervised summarization model (Bra\v{z}inskas et al., 2020). Furthermore, we demonstrate that the variance of latent Gaussians represents the granularity of sentences, analogous to Gaussian word embedding (Vilnis and McCallum, 2015).
翻訳日:2021-06-17 00:36:52 公開日:2021-06-15
# (参考訳) オーバーザ・エア分散連合学習 [全文訳有]

Over-the-Air Decentralized Federated Learning ( http://arxiv.org/abs/2106.08011v1 )

ライセンス: CC BY 4.0
Yandong Shi, Yong Zhou, and Yuanming Shi(参考訳) 本稿では,デバイス間通信(d2d)方式のローカルモデルのコンセンサスを促進するために,aircomp(over-the-ai r computation)を採用する無線ネットワーク上での分散フェデレーション学習(fl)について検討する。 しかし、aircompベースのコンセンサスフェーズは、各アルゴリズムの加算ノイズを反復させ、無線ネットワークトポロジーの変更に対して、コンセンサスは堅牢でなければならない。 コンセンサスフェーズの容易化を目的として,D2D通信のための事前符号化と復号化を両立させる,勾配追従型DSGD(DSGT-VR)アルゴリズムを提案する。 さらに,提案アルゴリズムは線形に収束し,チャネルのフェージングとノイズを考慮した,強い凸関数と滑らかな損失関数の最適性ギャップを確立する。 理論的な結果は、最適性ギャップに束縛された追加の誤差がデバイス数に依存することを示している。 広範にシミュレーションを行い,提案手法が無線ネットワーク上の他のベンチマーク分散flアルゴリズムよりも優れていることを示す。

In this paper, we consider decentralized federated learning (FL) over wireless networks, where over-the-air computation (AirComp) is adopted to facilitate the local model consensus in a device-to-device (D2D) communication manner. However, the AirComp-based consensus phase brings the additive noise in each algorithm iterate and the consensus needs to be robust to wireless network topology changes, which introduce a coupled and novel challenge of establishing the convergence for wireless decentralized FL algorithm. To facilitate consensus phase, we propose an AirComp-based DSGD with gradient tracking and variance reduction (DSGT-VR) algorithm, where both precoding and decoding strategies are developed for D2D communication. Furthermore, we prove that the proposed algorithm converges linearly and establish the optimality gap for strongly convex and smooth loss functions, taking into account the channel fading and noise. The theoretical result shows that the additional error bound in the optimality gap depends on the number of devices. Extensive simulations verify the theoretical results and show that the proposed algorithm outperforms other benchmark decentralized FL algorithms over wireless networks.
翻訳日:2021-06-16 23:52:57 公開日:2021-06-15
# (参考訳) メラノーマ分類に対する臨床インスパイアアプローチ [全文訳有]

A Clinically Inspired Approach for Melanoma classification ( http://arxiv.org/abs/2106.08021v1 )

ライセンス: CC BY-SA 4.0
Prathyusha Akundi, Soumyasis Gun, Jayanthi Sivaswamy(参考訳) メラノーマは皮膚がんの死亡による主な死因であり、それゆえメラノーマの早期かつ効果的な診断が注目されている。 メラノーマの自動診断への現在のアプローチは、ABCDE (asymmetric, border, color, diameter and evolution) のようなパターン認識または解析的認識を使用する。 しかし、実際には、外れ値(急激なダックリング)を検出し、ネビ/レセオンを評価するための微分アプローチが用いられる。 コンピュータ支援診断(cad)システムにおける差分認識の導入は検討されていないが、導出判定の臨床的正当性を提供するため有用である。 近隣のネビのIPCA(Intra-Patient Comparison Analysis)を用いて,アヒルの識別と定量化を行う手法を提案する。 その後、メラノーマ検出のためのCADシステム設計に組み込まれる。 この設計により、IPCAが不可能なケースを扱う柔軟性が保証される。 公開データセットを用いた実験により, 検出感度を少なくとも4.1 %, 特異度を4.0 %から8.9 %向上させることができた。

Melanoma is a leading cause of deaths due to skin cancer deaths and hence, early and effective diagnosis of melanoma is of interest. Current approaches for automated diagnosis of melanoma either use pattern recognition or analytical recognition like ABCDE (asymmetry, border, color, diameter and evolving) criterion. In practice however, a differential approach wherein outliers (ugly duckling) are detected and used to evaluate nevi/lesions. Incorporation of differential recognition in Computer Aided Diagnosis (CAD) systems has not been explored but can be beneficial as it can provide a clinical justification for the derived decision. We present a method for identifying and quantifying ugly ducklings by performing Intra-Patient Comparative Analysis (IPCA) of neighboring nevi. This is then incorporated in a CAD system design for melanoma detection. This design ensures flexibility to handle cases where IPCA is not possible. Our experiments on a public dataset show that the outlier information helps boost the sensitivity of detection by at least 4.1 % and specificity by 4.0 % to 8.9 %, depending on the use of a strong (EfficientNet) or moderately strong (VGG or ResNet) classifier.
翻訳日:2021-06-16 23:07:21 公開日:2021-06-15
# (参考訳) 分割グラフプロトタイプネットワークを用いたゼロショットノード分類 [全文訳有]

Zero-shot Node Classification with Decomposed Graph Prototype Network ( http://arxiv.org/abs/2106.08022v1 )

ライセンス: CC BY 4.0
Zheng Wang, Jialong Wang, Yuchen Guo, Zhiguo Gong(参考訳) ノード分類はグラフデータ分析の中心的なタスクである。 新興クラスのラベル付きデータやラベル付きデータさえも、既存のメソッドでは大きな課題です。 自然の疑問が生じる: これまで見たことのないクラスからノードを分類できますか? 本稿では,2段階の性質を持つゼロショットノード分類(ZNC)問題について,(1)知識伝達のための高品質なクラス意味記述(CSD)の獲得,(2)グラフベース学習モデルの設計について検討する。 第1段階では,実クラス関係を推定し,その「ベスト」なCSDを完全自動で取得するための定量的CSD評価戦略を新たに提案する。 第2段階では、ゼロショットモデル一般化のための局所性と構成性の原理に従い、DGPN(Decomposed Graph Prototype Network)法を提案する。 最後に,ソリューションの有効性を示すために,広範な実験を行った。

Node classification is a central task in graph data analysis. Scarce or even no labeled data of emerging classes is a big challenge for existing methods. A natural question arises: can we classify the nodes from those classes that have never been seen? In this paper, we study this zero-shot node classification (ZNC) problem which has a two-stage nature: (1) acquiring high-quality class semantic descriptions (CSDs) for knowledge transfer, and (2) designing a well generalized graph-based learning model. For the first stage, we give a novel quantitative CSDs evaluation strategy based on estimating the real class relationships, so as to get the "best" CSDs in a completely automatic way. For the second stage, we propose a novel Decomposed Graph Prototype Network (DGPN) method, following the principles of locality and compositionality for zero-shot model generalization. Finally, we conduct extensive experiments to demonstrate the effectiveness of our solutions.
翻訳日:2021-06-16 22:59:09 公開日:2021-06-15
# (参考訳) グラミアン角場と畳み込みニューラルネットワークを用いた多変量ビジネスプロセス表現学習 [全文訳有]

Multivariate Business Process Representation Learning utilizing Gramian Angular Fields and Convolutional Neural Networks ( http://arxiv.org/abs/2106.08027v1 )

ライセンス: CC BY 4.0
Peter Pfeiffer, Johannes Lahann and Peter Fettke(参考訳) データの有意義な表現を学ぶことは機械学習の重要な側面であり、最近では言語理解やコンピュータビジョンといった多くの領域にうまく適用されている。 ある特定のタスクのためにモデルをトレーニングする代わりに、表現学習は、基礎となるデータ内のすべての有用な情報をキャプチャし、予測者にアクセスできるようにモデルをトレーニングすることです。 予測的プロセス分析では、将来の予測を行う際には、クラスタリングや異常検出と同様に、プロセスインスタンスのすべての説明的特性を持つことが不可欠である。 ビジネスプロセスデータ内の様々な視点と型のため、良い表現を生成することは困難なタスクです。 本稿では、イベントログにおけるほとんどの視点を処理し、結合できるビジネスプロセスインスタンスの表現学習のための新しいアプローチを提案する。 自己教師付き事前学習手法と合わせて,表現空間の可視化とケース検索によるアプローチの能力を示す。 さらに、事前学習したモデルは、複数のプロセス予測タスクに微調整され、既存のアプローチと比較してその効果を示す。

Learning meaningful representations of data is an important aspect of machine learning and has recently been successfully applied to many domains like language understanding or computer vision. Instead of training a model for one specific task, representation learning is about training a model to capture all useful information in the underlying data and make it accessible for a predictor. For predictive process analytics, it is essential to have all explanatory characteristics of a process instance available when making predictions about the future, as well as for clustering and anomaly detection. Due to the large variety of perspectives and types within business process data, generating a good representation is a challenging task. In this paper, we propose a novel approach for representation learning of business process instances which can process and combine most perspectives in an event log. In conjunction with a self-supervised pre-training method, we show the capabilities of the approach through a visualization of the representation space and case retrieval. Furthermore, the pre-trained model is fine-tuned to multiple process prediction tasks and demonstrates its effectiveness in comparison with existing approaches.
翻訳日:2021-06-16 22:41:13 公開日:2021-06-15
# (参考訳) 表現の組み立てのためのテスト時間データ拡張による平均埋め込み [全文訳有]

Mean Embeddings with Test-Time Data Augmentation for Ensembling of Representations ( http://arxiv.org/abs/2106.08038v1 )

ライセンス: CC BY 4.0
Arsenii Ashukha, Andrei Atanov, Dmitry Vetrov(参考訳) 一連のモデル(アンサンブル)上の平均予測は、ディープラーニングモデルの予測性能と不確実性推定を改善するために広く使われている。 同時に、検索、マッチング、レコメンデーションシステムといった多くの機械学習システムは、埋め込みに大きく依存している。 残念なことに、独立に訓練されたモデルの特徴の不一致のために、埋め込みは、ナイーブな深層アンサンブルアプローチでは改善できない。 本稿では,表現のアンサンブルを考察し,テスト時間拡張(MeTTA)を用いた平均埋め込みを提案する。 MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetにおける線形評価の質を大幅に向上させることを示した。 さらにエキサイティングに、MeTTA、画像検索、変換不変モデル間の接続を描画する。 アンサンブルの成功を高い品質の表現の推論に広めることが、多くの新しい応用法を開く重要なステップであると信じています。

Averaging predictions over a set of models -- an ensemble -- is widely used to improve predictive performance and uncertainty estimation of deep learning models. At the same time, many machine learning systems, such as search, matching, and recommendation systems, heavily rely on embeddings. Unfortunately, due to misalignment of features of independently trained models, embeddings, cannot be improved with a naive deep ensemble like approach. In this work, we look at the ensembling of representations and propose mean embeddings with test-time augmentation (MeTTA) simple yet well-performing recipe for ensembling representations. Empirically we demonstrate that MeTTA significantly boosts the quality of linear evaluation on ImageNet for both supervised and self-supervised models. Even more exciting, we draw connections between MeTTA, image retrieval, and transformation invariant models. We believe that spreading the success of ensembles to inference higher-quality representations is the important step that will open many new applications of ensembling.
翻訳日:2021-06-16 22:25:22 公開日:2021-06-15
# (参考訳) 潜在画像埋め込みによるホテル認識 [全文訳有]

Hotel Recognition via Latent Image Embedding ( http://arxiv.org/abs/2106.08042v1 )

ライセンス: CC BY 4.0
Boris Tseytlin and Ilya Makarov(参考訳) 我々は,ディープメトリック学習によるホテル認識の問題にアプローチする。 我々は,既存のアプローチを概観し,コントラスト三重項損失と呼ばれるコントラスト損失の修正を提案する。 メトリクス学習モデルをベンチマークし,Hotels-50KおよびCUB200データセット上で実験を行うための堅牢なパイプラインを構築した。 対照的なTriplet損失は、Hotels-50kでよりよく検索できることを示す。 コードをオープンソースにしています。

We approach the problem of hotel recognition with deep metric learning. We overview the existing approaches and propose a modification to Contrastive loss called Contrastive-Triplet loss. We construct a robust pipeline for benchmarking metric learning models and perform experiments on Hotels-50K and CUB200 datasets. Contrastive-Triplet loss is shown to achieve better retrieval on Hotels-50k. We open-source our code.
翻訳日:2021-06-16 22:19:32 公開日:2021-06-15
# (参考訳) 複数のウイルス株の疫学的モデリング:モスクワにおけるSARS-CoV-2 B.1.7の事例 [全文訳有]

Epidemic modelling of multiple virus strains:a case study of SARS-CoV-2 B.1.1.7 in Moscow ( http://arxiv.org/abs/2106.08048v1 )

ライセンス: CC BY 4.0
Boris Tseytlin and Ilya Makarov(参考訳) 長期にわたるパンデミックの間、病原体は変異し、異なる疫学的パラメータを持つ新しい株を生成する。 既存の流行モデルへのアプローチは1つのウイルス株しか考慮していない。 我々は同じ集団内で複数のウイルス株をシミュレートするSEIRモデルを開発した。 ケーススタディとして,SARS-CoV-2株B.1.1.7がモスクワ市に与える影響について検討した。 分析の結果,2021年9月から10月にかけては1日当たり35万件の感染が確認された。 コードとデータをオープンソースにしています。

During a long-running pandemic a pathogen can mutate, producing new strains with different epidemiological parameters. Existing approaches to epidemic modelling only consider one virus strain. We have developed a modified SEIR model to simulate multiple virus strains within the same population. As a case study, we investigate the potential effects of SARS-CoV-2 strain B.1.1.7 on the city of Moscow. Our analysis indicates a high risk of a new wave of infections in September-October 2021 with up to 35 000 daily infections at peak. We open-source our code and data.
翻訳日:2021-06-16 22:11:36 公開日:2021-06-15
# (参考訳) 離散潜在変数に対する結合勾配推定器 [全文訳有]

Coupled Gradient Estimators for Discrete Latent Variables ( http://arxiv.org/abs/2106.08056v1 )

ライセンス: CC BY 4.0
Zhe Dong, Andriy Mnih, George Tucker(参考訳) 非バイアス勾配推定器の高分散のため、離散潜伏変数を持つ訓練モデルは困難である。 連続緩和の低分散再パラメータ化勾配は有効な解を与えることができるが、連続緩和が常に利用可能であるとは限らない。 Dong et al. (2020年)とYin et al。 (2020) は連続緩和に依存しない性能推定器を導入したが、これは二進確率変数に限定されている。 本稿では,重要サンプリングと統計的結合に基づく新しい推定器の導出を行い,分類的設定にまで拡張する。 スティック破壊結合の構築に動機づけられ,二項変数の列とrao-ブラックウェル化としてカテゴリ変数の再パラメータ化に基づく勾配推定器を導入する。 系統的な実験では,提案した分類的勾配推定器が最先端の性能を提供するのに対し,Rao-Blackwellizatio nを付加しても,従来の推定器 (Yin et al., 2019) はベースライン推定器(Kool et al。

Training models with discrete latent variables is challenging due to the high variance of unbiased gradient estimators. While low-variance reparameterization gradients of a continuous relaxation can provide an effective solution, a continuous relaxation is not always available or tractable. Dong et al. (2020) and Yin et al. (2020) introduced a performant estimator that does not rely on continuous relaxations; however, it is limited to binary random variables. We introduce a novel derivation of their estimator based on importance sampling and statistical couplings, which we extend to the categorical setting. Motivated by the construction of a stick-breaking coupling, we introduce gradient estimators based on reparameterizing categorical variables as sequences of binary variables and Rao-Blackwellization . In systematic experiments, we show that our proposed categorical gradient estimators provide state-of-the-art performance, whereas even with additional Rao-Blackwellization , previous estimators (Yin et al., 2019) underperform a simpler REINFORCE with a leave-one-out-baseli ne estimator (Kool et al., 2019).
翻訳日:2021-06-16 22:01:46 公開日:2021-06-15
# (参考訳) 時空間行動定位における関係モデリング [全文訳有]

Relation Modeling in Spatio-Temporal Action Localization ( http://arxiv.org/abs/2106.08061v1 )

ライセンス: CC BY 4.0
Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Shiwei Zhang, Mingqian Tang, Yue Gao(参考訳) 本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。 提案手法では,複数種類の関係モデリング手法を時空間行動検出に利用し,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用する。 メモリバンクによる学習やロングテール分布の微調整も研究され、さらに性能が向上した。 本稿では,提案手法の実装を詳述し,実験結果と対応する議論について述べる。 AVA-Kineticsのテストセットで40.67 mAPを達成した。

This paper presents our solution to the AVA-Kinetics Crossover Challenge of ActivityNet workshop at CVPR 2021. Our solution utilizes multiple types of relation modeling methods for spatio-temporal action detection and adopts a training strategy to integrate multiple relation modeling in end-to-end training over the two large-scale video datasets. Learning with memory bank and finetuning for long-tailed distribution are also investigated to further improve the performance. In this paper, we detail the implementations of our solution and provide experiments results and corresponding discussions. We finally achieve 40.67 mAP on the test set of AVA-Kinetics.
翻訳日:2021-06-16 21:35:23 公開日:2021-06-15
# (参考訳) リーフ画像分類のためのコンピュータ支援解釈機能

Computer-aided Interpretable Features for Leaf Image Classification ( http://arxiv.org/abs/2106.08077v1 )

ライセンス: CC BY 4.0
Jayani P. G. Lakshika, Thiyanga S. Talagala(参考訳) 植物種の識別には時間と費用がかかり、多くの努力と専門知識が必要である。 近年,多くの研究者が植物画像を直接分類するために深層学習手法を採用している。 ディープラーニングモデルは大きな成功を収めていますが、解釈可能性の欠如は、その広範にわたる適用を制限しています。 そこで本研究では,植物葉画像から抽出した解釈可能,測定可能,コンピュータ支援機能の利用について検討する。 画像処理は、機能抽出における最も困難で重要なステップの1つです。 画像処理の目的は、望ましくない歪みを除去して葉画像を改善することである。 アルゴリズムの主な画像処理ステップは, i) オリジナル画像を rgb (red-green-blue) 画像に変換する, ii) グレースケーリング, iii) ガウス平滑化, iv) バイナリしきい値化, v) ストーク除去, vi) 閉孔, vii) リサイズ画像に変換する。 画像処理の次のステップは、植物葉画像から特徴を抽出することである。 植物種を分類するために52個の計算効率の良い特徴を導入した。 これらの特徴は主に4つのグループに分類される: i) 形状に基づく特徴、ii) 色に基づく特徴、iii) テクスチャに基づく特徴、および iv) 不可視な特徴。 長さ、幅、面積、テクスチャの相関、単調性、発癌性は少ない。 本研究では,教師付き学習と教師なし学習環境下での関心のクラスを識別する機能について検討する。 そのため、デジタル画像空間から特徴空間への画像を変換・可視化するために、教師付き次元減少技術、線形判別分析(LDA)、教師なし次元減少技術、主成分分析(PCA)を用いる。 その結果,教師なし学習と教師なし学習の両方において,興味のあるクラスを識別するのに十分な特徴が得られた。

Plant species identification is time consuming, costly, and requires lots of efforts, and expertise knowledge. In recent, many researchers use deep learning methods to classify plants directly using plant images. While deep learning models have achieved a great success, the lack of interpretability limit their widespread application. To overcome this, we explore the use of interpretable, measurable and computer-aided features extracted from plant leaf images. Image processing is one of the most challenging, and crucial steps in feature-extraction. The purpose of image processing is to improve the leaf image by removing undesired distortion. The main image processing steps of our algorithm involves: i) Convert original image to RGB (Red-Green-Blue) image, ii) Gray scaling, iii) Gaussian smoothing, iv) Binary thresholding, v) Remove stalk, vi) Closing holes, and vii) Resize image. The next step after image processing is to extract features from plant leaf images. We introduced 52 computationally efficient features to classify plant species. These features are mainly classified into four groups as: i) shape-based features, ii) color-based features, iii) texture-based features, and iv) scagnostic features. Length, width, area, texture correlation, monotonicity and scagnostics are to name few of them. We explore the ability of features to discriminate the classes of interest under supervised learning and unsupervised learning settings. For that, supervised dimensionality reduction technique, Linear Discriminant Analysis (LDA), and unsupervised dimensionality reduction technique, Principal Component Analysis (PCA) are used to convert and visualize the images from digital-image space to feature space. The results show that the features are sufficient to discriminate the classes of interest under both supervised and unsupervised learning settings.
翻訳日:2021-06-16 21:27:13 公開日:2021-06-15
# (参考訳) 自然な継続的学習:成功は目的地ではなく旅である

Natural continual learning: success is a journey, not (just) a destination ( http://arxiv.org/abs/2106.08085v1 )

ライセンス: CC BY 4.0
Ta-Chu Kao, Kristopher T. Jensen, Alberto Bernacchia, Guillaume Hennequin(参考訳) 生物学的エージェントは、人生を通じて多くの異なるタスクを学習し、パフォーマンスをほとんど損なうことなく、以前のタスクや動作を再検討できることが知られている。 対照的に、人工エージェントは「破滅的な忘れる」傾向にあり、新しいエージェントを取得すると、以前のタスクのパフォーマンスは急速に低下する。 この欠点は、最近、パラメーターが以前のタスクで使われるパラメータに近づき続けるよう促すメソッドを使用して対処された。 これは、(i)パラメータ空間の適切な宛先をマッピングする特定のパラメータ正規化器、または(ii)前のタスクに干渉しない部分空間に勾配を投影することで最適化経路を導くことで実現できる。 しかし、パラメータ正則化は、生物学的連続学習をサポートする神経力学の研究に関連する設定であるリカレントニューラルネットワーク(RNN)において比較的効果が低いことが示されている。 同様に、プロジェクションベースのメソッドはキャパシティに到達し、タスク数が増えるにつれてそれ以上学習できない。 これらの制約に対処するために、重み正規化と射影勾配降下を統一する新しい手法であるNature Continual Learning (NCL)を提案する。 NCLはベイズ量正則化を用いて収束時の全てのタスクの性能を向上させるとともに、最適化時の破滅的な忘れ込みを防ぐために設計された勾配射影と組み合わせている。 NCLは、フィッシャー情報量に基づく信頼領域アルゴリズムとして勾配予測を定式化し、新しいKronecker-factored approximation戦略によりスケーラビリティを実現する。 提案手法は,RNNにおける連続学習問題に適用した場合,標準重み正規化手法とプロジェクションベースアプローチの両方に優れる。 トレーニングされたネットワークは、生体回路の実験的な発見と同様に、新しいタスクが学習されると強く保存されるタスク固有ダイナミクスを進化させる。

Biological agents are known to learn many different tasks over the course of their lives, and to be able to revisit previous tasks and behaviors with little to no loss in performance. In contrast, artificial agents are prone to 'catastrophic forgetting' whereby performance on previous tasks deteriorates rapidly as new ones are acquired. This shortcoming has recently been addressed using methods that encourage parameters to stay close to those used for previous tasks. This can be done by (i) using specific parameter regularizers that map out suitable destinations in parameter space, or (ii) guiding the optimization journey by projecting gradients into subspaces that do not interfere with previous tasks. However, parameter regularization has been shown to be relatively ineffective in recurrent neural networks (RNNs), a setting relevant to the study of neural dynamics supporting biological continual learning. Similarly, projection based methods can reach capacity and fail to learn any further as the number of tasks increases. To address these limitations, we propose Natural Continual Learning (NCL), a new method that unifies weight regularization and projected gradient descent. NCL uses Bayesian weight regularization to encourage good performance on all tasks at convergence and combines this with gradient projections designed to prevent catastrophic forgetting during optimization. NCL formalizes gradient projection as a trust region algorithm based on the Fisher information metric, and achieves scalability via a novel Kronecker-factored approximation strategy. Our method outperforms both standard weight regularization techniques and projection based approaches when applied to continual learning problems in RNNs. The trained networks evolve task-specific dynamics that are strongly preserved as new tasks are learned, similar to experimental findings in biological circuits.
翻訳日:2021-06-16 21:25:57 公開日:2021-06-15
# (参考訳) ダイレクト・アソシエーション・コンポーネント(dedact)へのグローバル特徴の重要性の分解 [全文訳有]

Decomposition of Global Feature Importance into Direct and Associative Components (DEDACT) ( http://arxiv.org/abs/2106.08086v1 )

ライセンス: CC BY-SA 4.0
Gunnar K\"onig, Timo Freiesleben, Bernd Bischl, Giuseppe Casalicchio, Moritz Grosse-Wentrup(参考訳) グローバルなモデル非依存の特徴重要度は、機能がモデルの予測(直接重要度)に直接使用されるか、予測関連情報を含むか(関連重要度)を定量化する。 直接的な重要性は、モデルのメカニズムに対する因果的洞察を提供するが、関連するが直接使用されていない変数からの情報の漏洩を暴露することができない。 対照的に、連想的重要性は情報漏洩を露呈するが、モデルのメカニズムに関する因果的な洞察を与えない。 DEDACT - 確立された直接的・連想的重要度をそれぞれの連想的・直接的要素に分解するフレームワーク。 DEDACTは、データ内の予測関連情報のソースと、その情報がモデルに入る直接的および間接的特徴経路の両方について洞察を提供する。 本手法の有用性をシミュレーション例で示す。

Global model-agnostic feature importance measures either quantify whether features are directly used for a model's predictions (direct importance) or whether they contain prediction-relevant information (associative importance). Direct importance provides causal insight into the model's mechanism, yet it fails to expose the leakage of information from associated but not directly used variables. In contrast, associative importance exposes information leakage but does not provide causal insight into the model's mechanism. We introduce DEDACT - a framework to decompose well-established direct and associative importance measures into their respective associative and direct components. DEDACT provides insight into both the sources of prediction-relevant information in the data and the direct and indirect feature pathways by which the information enters the model. We demonstrate the method's usefulness on simulated examples.
翻訳日:2021-06-16 21:24:34 公開日:2021-06-15
# (参考訳) 時空間深層学習による腹部癒着のシネMRIによる検出 [全文訳有]

Cine-MRI detection of abdominal adhesions with spatio-temporal deep learning ( http://arxiv.org/abs/2106.08094v1 )

ライセンス: CC BY 4.0
Bram de Wilde, Richard P. G. ten Broek, Henkjan Huisman(参考訳) 癒着は腹部手術後の慢性痛の重要な原因である。 近年の腹部シネMRIの進歩により,非侵襲的接着診断が可能となった。 cine-mriでは移動中のすべり運動の欠如により癒着が同定される。 接着の診断とマッピングは、痛みのある患者の管理を改善する。 放射線学および深層学習の観点から,シネMRIによる腹部接着の検出は困難である。 今回われわれは,矢状腹部MRIにおける接着の有無の分類に焦点をあてた。 convgruアーキテクチャを中心に,時空間的ディープラーニングアーキテクチャを実験した。 ResNetとConvGRUモデルを組み合わせたハイブリッドアーキテクチャは、全時系列を分類することができる。 2つのタイムポイント入力を持つスタンドアローンのResNetと比較して、分類性能(AUROC)は0.74から0.83(p<0.05$)に向上している。 完全な時間的分類アプローチでは、アーキテクチャ全体にわずかなパラメータ(5%)を追加するだけで、時間的次元を持つ他の医療画像問題に有用です。

Adhesions are an important cause of chronic pain following abdominal surgery. Recent developments in abdominal cine-MRI have enabled the non-invasive diagnosis of adhesions. Adhesions are identified on cine-MRI by the absence of sliding motion during movement. Diagnosis and mapping of adhesions improves the management of patients with pain. Detection of abdominal adhesions on cine-MRI is challenging from both a radiological and deep learning perspective. We focus on classifying presence or absence of adhesions in sagittal abdominal cine-MRI series. We experimented with spatio-temporal deep learning architectures centered around a ConvGRU architecture. A hybrid architecture comprising a ResNet followed by a ConvGRU model allows to classify a whole time-series. Compared to a stand-alone ResNet with a two time-point (inspiration/expirat ion) input, we show an increase in classification performance (AUROC) from 0.74 to 0.83 ($p<0.05$). Our full temporal classification approach adds only a small amount (5%) of parameters to the entire architecture, which may be useful for other medical imaging problems with a temporal dimension.
翻訳日:2021-06-16 21:08:09 公開日:2021-06-15
# (参考訳) ResDepth:高解像度衛星画像の3D再構成に先駆けて [全文訳有]

ResDepth: A Deep Prior For 3D Reconstruction From High-resolution Satellite Images ( http://arxiv.org/abs/2106.08107v1 )

ライセンス: CC BY 4.0
Corinne Stucker, Konrad Schindler(参考訳) 現代の光学衛星センサーは、宇宙からの高解像度ステレオ再構成を可能にする。 しかし、地球を宇宙から観測する際の困難な撮像条件は、ステレオマッチングをその限界に近づける。 実際のデジタルサーフェスモデル(DSM)はかなりノイズが多く、しばしば3Dシティモデリングのような高解像度のアプリケーションに必要な精度を達成できない。 おそらく、低レベルの画像類似性に基づくステレオ対応は不十分であり、基本的な局所的滑らか性を超えた表面形状に関する予想される知識と補完されるべきである。 そこで本稿では,サンプルデータからこのような表現幾何学を学習する畳み込みニューラルネットワークResDepthを紹介する。 ResDepthは、画像のリファインメントを調整しながら、初期の生のステレオDSMを洗練する。 すなわち、スマートで学習された後処理フィルタとして機能し、任意のステレオマッチングパイプラインをシームレスに補完することができる。 一連の実験において,提案手法はステレオDSMを定量的かつ定性的に継続的に改善することがわかった。 ネットワーク重みに符号化された前者は都市デザインの意義ある幾何学的特徴を捉えており、また、地域によっても、ある都市から別の都市へも一般化していることを示す。 さらに,様々なステレオペアのトレーニングにより,ResDepthは画像条件や取得幾何学の変動に対して十分な不変性を得ることができることを示した。

Modern optical satellite sensors enable high-resolution stereo reconstruction from space. But the challenging imaging conditions when observing the Earth from space push stereo matching to its limits. In practice, the resulting digital surface models (DSMs) are fairly noisy and often do not attain the accuracy needed for high-resolution applications such as 3D city modeling. Arguably, stereo correspondence based on low-level image similarity is insufficient and should be complemented with a-priori knowledge about the expected surface geometry beyond basic local smoothness. To that end, we introduce ResDepth, a convolutional neural network that learns such an expressive geometric prior from example data. ResDepth refines an initial, raw stereo DSM while conditioning the refinement on the images. I.e., it acts as a smart, learned post-processing filter and can seamlessly complement any stereo matching pipeline. In a series of experiments, we find that the proposed method consistently improves stereo DSMs both quantitatively and qualitatively. We show that the prior encoded in the network weights captures meaningful geometric characteristics of urban design, which also generalize across different districts and even from one city to another. Moreover, we demonstrate that, by training on a variety of stereo pairs, ResDepth can acquire a sufficient degree of invariance against variations in imaging conditions and acquisition geometry.
翻訳日:2021-06-16 21:04:32 公開日:2021-06-15
# (参考訳) NLPにおける意味表現と推論

Semantic Representation and Inference for NLP ( http://arxiv.org/abs/2106.08117v1 )

ライセンス: CC0 1.0
Dongsheng Wang(参考訳) 意味表現と推論は自然言語処理(NLP)に不可欠である。 意味表現と推論のための技術の現状は、ディープラーニング、特にRecurrent Neural Networks(RNN)、Convolutional Neural Networks(CNN)、およびTransformer Self-Attention Modelである。 この論文は、新しい意味表現と推論のためのディープラーニングの利用を調査し、トレーニングデータの作成、意味表現の改善、推論学習の拡張という3つの領域に寄与する。 トレーニングデータの作成に関して,我々は,自動クレーム検証(multifc)を目的として,実生活事実クレームの最大公開データセットを寄贈し,外部ソースから学習し,事実チェックラベルを推測する,カーネルサイズが異なるマルチスケールcnnからなる新しい推論モデルを提案する。 セマンティクス表現の改善の観点からは,非コンポジション的セマンティクス指標を捉えた新しいモデルを提案する。 定義上、非構成語句の意味は、その構成語(例えば、ホットドッグ)の個々の意味から推測することはできない。 そこで我々は,語句表現を外部単語埋め込みと知識グラフで強化することにより,句の構成性を文脈的に操作する。 最後に, 推論学習の観点からは, 役割誘導型注意ヘッドの感覚化, ゲーティング層の導入, 複数頭部を新規かつ効果的に結合することにより, 構文依存を用いて推論を改善する, 一連の新しいディープラーニングアーキテクチャを提案する。 この論文は7つの出版物(5冊、レビュー中の2冊)からなる。

Semantic representation and inference is essential for Natural Language Processing (NLP). The state of the art for semantic representation and inference is deep learning, and particularly Recurrent Neural Networks (RNNs), Convolutional Neural Networks (CNNs), and transformer Self-Attention models. This thesis investigates the use of deep learning for novel semantic representation and inference, and makes contributions in the following three areas: creating training data, improving semantic representations and extending inference learning. In terms of creating training data, we contribute the largest publicly available dataset of real-life factual claims for the purpose of automatic claim verification (MultiFC), and we present a novel inference model composed of multi-scale CNNs with different kernel sizes that learn from external sources to infer fact checking labels. In terms of improving semantic representations, we contribute a novel model that captures non-compositional semantic indicators. By definition, the meaning of a non-compositional phrase cannot be inferred from the individual meanings of its composing words (e.g., hot dog). Motivated by this, we operationalize the compositionality of a phrase contextually by enriching the phrase representation with external word embeddings and knowledge graphs. Finally, in terms of inference learning, we propose a series of novel deep learning architectures that improve inference by using syntactic dependencies, by ensembling role guided attention heads, incorporating gating layers, and concatenating multiple heads in novel and effective ways. This thesis consists of seven publications (five published and two under review).
翻訳日:2021-06-16 20:32:46 公開日:2021-06-15
# (参考訳) ドイツ語の方言音声認識と標準ドイツ語テキストへの翻訳:MicrosoftのSwissText 2021への提出 [全文訳有]

Dialectal Speech Recognition and Translation of Swiss German Speech to Standard German Text: Microsoft's Submission to SwissText 2021 ( http://arxiv.org/abs/2106.08126v1 )

ライセンス: CC BY 4.0
Yuriy Arabskyy, Aashish Agarwal, Subhadeep Dey, Oscar Koller(参考訳) 本稿では,スイスドイツ語の標準ドイツ語文への方言認識と翻訳に関する公用語SwissText 2021コンペティションにおける勝利のアプローチについて述べる。 スイスドイツ語(Swiss German)は、スイスのドイツ語圏で話されるアレマン語の方言。 スイスドイツ語は、発音、単語の在庫、文法において標準ドイツ語と大きく異なる。 主にドイツ語話者には理解できない。 さらに、標準化されたスクリプトが欠けている。 この課題を解決するために,スイスドイツ語の特殊性を扱う第1パス言語モデル,トランスファー学習音響モデル,第2パス再構成のための強力なニューラル言語モデルを含む辞書を用いたハイブリッド音声認識システムを提案する。 我々の応募は盲目の会話テストセットで46.04% BLEUに達し、第2位の競争相手を12%の差で上回っている。

This paper describes the winning approach in the public SwissText 2021 competition on dialect recognition and translation of Swiss German speech to standard German text. Swiss German refers to the multitude of Alemannic dialects spoken in the German-speaking parts of Switzerland. Swiss German differs significantly from standard German in pronunciation, word inventory and grammar. It is mostly incomprehensible to native German speakers. Moreover, it lacks a standardized written script. To solve the challenging task, we propose a hybrid automatic speech recognition system with a lexicon that incorporates translations, a 1st pass language model that deals with Swiss German particularities, a transfer-learned acoustic model and a strong neural language model for 2nd pass rescoring. Our submission reaches 46.04% BLEU on a blind conversational test set and outperforms the second best competitor by a 12% relative margin.
翻訳日:2021-06-16 20:31:33 公開日:2021-06-15
# (参考訳) ニューラルネットワークはいかにしてシステム一般化に必要か? [全文訳有]

How Modular Should Neural Module Networks Be for Systematic Generalization? ( http://arxiv.org/abs/2106.08170v1 )

ライセンス: CC BY 4.0
Vanessa D'Amario, Tomotake Sasaki, Xavier Boix(参考訳) neural module networks(nmns)は,サブタスクに取り組むモジュールの構成を通じて,vqa(visual question answering)を目標とする。 NMNは体系的な一般化を達成するための有望な戦略である。 トレーニング分布のバイアス要因を克服します しかし、体系的な一般化を促進するNMNの側面は、完全には理解されていない。 本稿では,モジュラリティが定義される段階と程度が,体系的な一般化に大きな影響を与えることを示す。 複数の属性を持つ3つのVQAデータセット(MNIST、SQOOP、CLEVR-CoGenT)の一連の実験において、この結果は、特に画像エンコーダの段階で、ネットワーク内のモジュラリティの度合いを調整できることを明らかにした。 これらの発見は、体系的な一般化の観点から、以前のアーキテクチャよりも優れた新しいNMNアーキテクチャをもたらす。

Neural Module Networks (NMNs) aim at Visual Question Answering (VQA) via composition of modules that tackle a sub-task. NMNs are a promising strategy to achieve systematic generalization, i.e. overcoming biasing factors in the training distribution. However, the aspects of NMNs that facilitate systematic generalization are not fully understood. In this paper, we demonstrate that the stage and the degree at which modularity is defined has large influence on systematic generalization. In a series of experiments on three VQA datasets (MNIST with multiple attributes, SQOOP, and CLEVR-CoGenT), our results reveal that tuning the degree of modularity in the network, especially at the image encoder stage, reaches substantially higher systematic generalization. These findings lead to new NMN architectures that outperform previous ones in terms of systematic generalization.
翻訳日:2021-06-16 20:25:17 公開日:2021-06-15
# (参考訳) グラフコントラスト学習におけるモジュールの評価 [全文訳有]

Evaluating Modules in Graph Contrastive Learning ( http://arxiv.org/abs/2106.08171v1 )

ライセンス: CC BY 4.0
Ganqu Cui, Yufeng Du, Cheng Yang, Jie Zhou, Liang Xu, Lifeng Wang, Zhiyuan Liu(参考訳) 近年のコントラスト学習アプローチの出現は,グラフ表現学習(grl)の研究を促進し,グラフコントラスト学習(gcl)を文献に導入する。 これらの手法は、意味をノードやグラフにエンベッドするために、意味的に類似した異なるサンプルペアを対比する。 しかし、既存のほとんどの研究はモデルレベルの評価のみを行い、より包括的で体系的な研究のためにモジュールの組み合わせ空間を探索しなかった。 効果的なモジュールレベルの評価のために、gclモデルを4つのモジュールに分解するフレームワークを提案する。(1)アンカー、正および負のデータサンプル(ノードまたはグラフ)を生成するスプリマー、(2)エンコーダおよびサンプル埋め込みを得る読み出し関数、(3)各サンプルペア(アンカー正およびアンカー負)をスコアする判別器、(4)損失関数を定義する推定器である。 この枠組みに基づいて,ノードとグラフの分類タスクにおいて,幅広いアーキテクチャ設計とハイパーパラメータ設定に関する制御実験を行う。 具体的には、単一モジュールの影響を定量化し、モジュール間の相互作用を調査し、全体的なパフォーマンスを現在のモデルアーキテクチャと比較する。 例えば、 line や deepwalk の単純なスプライマーは強力で堅牢である。 sum readout に関連付けられた mlp エンコーダは、グラフ分類の競争的パフォーマンスを達成することができる。 最後に、我々は実装と成果をOpenGCLとしてリリースします。OpenGCLは、便利な再現、標準モデルとモジュール評価、簡単拡張を可能にするモジュール化されたツールキットです。

The recent emergence of contrastive learning approaches facilitates the research on graph representation learning (GRL), introducing graph contrastive learning (GCL) into the literature. These methods contrast semantically similar and dissimilar sample pairs to encode the semantics into node or graph embeddings. However, most existing works only performed model-level evaluation, and did not explore the combination space of modules for more comprehensive and systematic studies. For effective module-level evaluation, we propose a framework that decomposes GCL models into four modules: (1) a sampler to generate anchor, positive and negative data samples (nodes or graphs); (2) an encoder and a readout function to get sample embeddings; (3) a discriminator to score each sample pair (anchor-positive and anchor-negative); and (4) an estimator to define the loss function. Based on this framework, we conduct controlled experiments over a wide range of architectural designs and hyperparameter settings on node and graph classification tasks. Specifically, we manage to quantify the impact of a single module, investigate the interaction between modules, and compare the overall performance with current model architectures. Our key findings include a set of module-level guidelines for GCL, e.g., simple samplers from LINE and DeepWalk are strong and robust; an MLP encoder associated with Sum readout could achieve competitive performance on graph classification. Finally, we release our implementations and results as OpenGCL, a modularized toolkit that allows convenient reproduction, standard model and module evaluation, and easy extension.
翻訳日:2021-06-16 20:04:00 公開日:2021-06-15
# (参考訳) 医用画像分割における教師なし領域適応のための最適潜在ベクトルアライメント [全文訳有]

Optimal Latent Vector Alignment for Unsupervised Domain Adaptation in Medical Image Segmentation ( http://arxiv.org/abs/2106.08188v1 )

ライセンス: CC BY 4.0
Dawood Al Chanti and Diana Mateus(参考訳) 本稿ではセグメンテーションにおける領域シフト問題に対処する。 そこで本研究では,変分オートエンコーダ(VAE)と最適輸送(OT)理論に基づく,新規で軽量なドメイン適応手法であるOLVAを提案する。 VAEのおかげで、我々のモデルは、正規分布に従う共有ドメイン潜在空間を学習し、ドメインシフトを減少させる。 有効セグメンテーションを保証するため、我々の共有潜在空間は、強度変化ではなく形状をモデル化するように設計されている。 さらに、潜在空間における2つのドメイン間の残りの不一致を一致させ調整するために、ot損失に頼る。 本研究は,3D MR 画像と3D CT の非標識対象領域から構成される3D MR データセット上で,OLVA が多重心構造セグメント化に有効であることを示すものである。 以上の結果から,同時生成型トレーニングアプローチよりも12.5\%diceスコアのマージンが向上した。

This paper addresses the domain shift problem for segmentation. As a solution, we propose OLVA, a novel and lightweight unsupervised domain adaptation method based on a Variational Auto-Encoder (VAE) and Optimal Transport (OT) theory. Thanks to the VAE, our model learns a shared cross-domain latent space that follows a normal distribution, which reduces the domain shift. To guarantee valid segmentations, our shared latent space is designed to model the shape rather than the intensity variations. We further rely on an OT loss to match and align the remaining discrepancy between the two domains in the latent space. We demonstrate OLVA's effectiveness for the segmentation of multiple cardiac structures on the public Multi-Modality Whole Heart Segmentation (MM-WHS) dataset, where the source domain consists of annotated 3D MR images and the unlabelled target domain of 3D CTs. Our results show remarkable improvements with an additional margin of 12.5\% dice score over concurrent generative training approaches.
翻訳日:2021-06-16 19:49:12 公開日:2021-06-15
# (参考訳) 新型コロナウイルス情報検索と抽出のための自己指導型マルチタスク学習の解釈 [全文訳有]

Interpretable Self-supervised Multi-task Learning for COVID-19 Information Retrieval and Extraction ( http://arxiv.org/abs/2106.08252v1 )

ライセンス: CC BY 4.0
Nima Ebadi and Peyman Najafirad(参考訳) 新型コロナウイルス関連記事の急速に発展している文献は、現在のパンデミックの分布に従うラベル付きデータを用いて、NLPモデルを情報検索と抽出のために効果的に訓練することが困難である。 一方で、状況の不確実性から、人間の専門家の監督は、解釈可能性の重要性を強調するこれらのモデルの意思決定を二重にチェックする必要がある。 本研究は,これらの課題を踏まえ,情報検索(ir)と抽出(ie)の課題を,現在の危機時の協調的かつ効果的に取り組むための,解釈可能な自己教師付きマルチタスク学習モデルを提案する。 その結果,本モデルではマルチタスクと自己教師型学習を効果的に活用し,データセットシフト問題に対する一般化,データ効率,堅牢性の向上を実現している。 このモデルでは,IE および IR タスクのベースラインをそれぞれ0.08(LCA-F スコア0.05),MAP 平均0.05 で上回っている。 IEでは、ゼロショットと少数ショットの学習性能は平均0.32と0.19マイクロフのスコアがベースラインよりも高い。

The rapidly evolving literature of COVID-19 related articles makes it challenging for NLP models to be effectively trained for information retrieval and extraction with the corresponding labeled data that follows the current distribution of the pandemic. On the other hand, due to the uncertainty of the situation, human experts' supervision would always be required to double check the decision making of these models highlighting the importance of interpretability. In the light of these challenges, this study proposes an interpretable self-supervised multi-task learning model to jointly and effectively tackle the tasks of information retrieval (IR) and extraction (IE) during the current emergency health crisis situation. Our results show that our model effectively leverage the multi-task and self-supervised learning to improve generalization, data efficiency and robustness to the ongoing dataset shift problem. Our model outperforms baselines in IE and IR tasks, respectively by micro-f score of 0.08 (LCA-F score of 0.05), and MAP of 0.05 on average. In IE the zero- and few-shot learning performances are on average 0.32 and 0.19 micro-f score higher than those of the baselines.
翻訳日:2021-06-16 19:38:34 公開日:2021-06-15
# (参考訳) ニューラルプログラム修復のための構文誘導編集デコーダ [全文訳有]

A Syntax-Guided Edit Decoder for Neural Program Repair ( http://arxiv.org/abs/2106.08253v1 )

ライセンス: CC BY 4.0
Qihao Zhu, Zeyu Sun, Yuan-an Xiao, Wenjie Zhang, Kang Yuan, Yingfei Xiong, Lu Zhang(参考訳) 自動プログラム修復(APR)は、ソフトウェア開発とメンテナンスの効率を改善するのに役立つ。 最近のAPR技術では、ディープラーニング、特にエンコーダ・デコーダアーキテクチャを使ってパッチを生成する。 既存のDLベースのAPRアプローチでは、異なるエンコーダアーキテクチャが提案されているが、デコーダは標準であり、欠陥文を置き換えるためにトークンのシーケンスをひとつずつ生成する。 このデコーダには複数の制限がある: 1)構文的に不正確なプログラムを生成することを可能にすること、2)小さな編集を非効率に表現すること、3)プロジェクト固有の識別子を生成できないこと。 本稿では,プレースホルダ生成を伴う構文誘導編集デコーダであるRecoderを提案する。 Recoderは、修正されたコードではなく編集を生成し、小さな編集の効率的な表現を可能にする。 2) Recoderは、パッチされたプログラムの構文的正しさと正確な生成を保証するために、新しいプロバイダ/決定器アーキテクチャで構文誘導される。 Defects4J v1.2の395のバグ、Defects4J v2.0の420のバグ、IntroClassJavaの297のバグ、QuixBugsの40のバグについてRecoderを評価する実験を行った。 その結果、recoderは欠陥4j v1.2の53のバグを修復し、単一ハンクバグ(tbar)に対する以前の最先端アプローチよりも26.2%(11のバグ)の改善を達成した。 私たちの知る限りでは、RecoderはDLベースのAPRアプローチとしては初めてのもので、このベンチマークにおける従来のAPRアプローチよりも優れています。

Automated Program Repair (APR) helps improve the efficiency of software development and maintenance. Recent APR techniques use deep learning, particularly the encoder-decoder architecture, to generate patches. Though existing DL-based APR approaches have proposed different encoder architectures, the decoder remains to be the standard one, which generates a sequence of tokens one by one to replace the faulty statement. This decoder has multiple limitations: 1) allowing to generate syntactically incorrect programs, 2) inefficiently representing small edits, and 3) not being able to generate project-specific identifiers. In this paper, we propose Recoder, a syntax-guided edit decoder with placeholder generation. Recoder is novel in multiple aspects: 1) Recoder generates edits rather than modified code, allowing efficient representation of small edits; 2) Recoder is syntax-guided, with the novel provider/decider architecture to ensure the syntactic correctness of the patched program and accurate generation; 3) Recoder generates placeholders that could be instantiated as project-specific identifiers later. We conduct experiments to evaluate Recoder on 395 bugs from Defects4J v1.2, 420 additional bugs from Defects4J v2.0, 297 bugs from IntroClassJava and 40 bugs from QuixBugs. Our results show that Recoder repairs 53 bugs on Defects4J v1.2, which achieves 26.2% (11 bugs) improvement over the previous state-of-the-art approach for single-hunk bugs (TBar). Importantly, to our knowledge, Recoder is the first DL-based APR approach that has outperformed the traditional APR approaches on this benchmark.
翻訳日:2021-06-16 19:23:52 公開日:2021-06-15
# (参考訳) 機会平等としての公正--政治哲学からの規範的指導 [全文訳有]

Fairness as Equality of Opportunity: Normative Guidance from Political Philosophy ( http://arxiv.org/abs/2106.08259v1 )

ライセンス: CC BY-SA 4.0
Falaah Arif Khan, Eleni Manis, Julia Stoyanovich(参考訳) ADS(Automated Decision Systems)における公正性の体系化に対する近年の関心は、アルゴリズムシステムが公正であることの意味を広く定式化している。 これらの命題の多くは、政治哲学の奨学金に着想を得ているが、不十分である。 本稿は,その赤字を是正することを目的とする。 本稿では、政治哲学から機会平等主義(EOP)を用いた公正理想の分類を導入し、哲学の概念と公正機械学習における提案された体系化を明確にする。 フェアネスの理想をEOPスペクトルに配置し、与えられたコンテキストにおけるフェアADSの設計を導くのに有用なフレームとして機能する。 フェアネス・アズ・エOPフレームワークを用いて、哲学的な観点から、異なる価値システム間の非互換性として、不合理な結果を再解釈し、実世界の実例と仮説的な例でフレームワークの有用性を実証する。 EOPの枠組みを通じて、ADSが道徳的、政治的哲学の観点から公正であることの意味に答え、倫理学や法学の専門家から同様の奨学金を得る道を開いたいと考えています。

Recent interest in codifying fairness in Automated Decision Systems (ADS) has resulted in a wide range of formulations of what it means for an algorithmic system to be fair. Most of these propositions are inspired by, but inadequately grounded in, political philosophy scholarship. This paper aims to correct that deficit. We introduce a taxonomy of fairness ideals using doctrines of Equality of Opportunity (EOP) from political philosophy, clarifying their conceptions in philosophy and the proposed codification in fair machine learning. We arrange these fairness ideals onto an EOP spectrum, which serves as a useful frame to guide the design of a fair ADS in a given context. We use our fairness-as-EOP framework to re-interpret the impossibility results from a philosophical perspective, as the in-compatibility between different value systems, and demonstrate the utility of the framework with several real-world and hypothetical examples. Through our EOP-framework we hope to answer what it means for an ADS to be fair from a moral and political philosophy standpoint, and to pave the way for similar scholarship from ethics and legal experts.
翻訳日:2021-06-16 18:59:38 公開日:2021-06-15
# (参考訳) 生理学:人間と機械の視覚から物理予測を評価する [全文訳有]

Physion: Evaluating Physical Prediction from Vision in Humans and Machines ( http://arxiv.org/abs/2106.08261v1 )

ライセンス: CC BY 4.0
Daniel M. Bear, Elias Wang, Damian Mrowca, Felix J. Binder, Hsiau-Yu Fish Tung, R.T. Pramod, Cameron Holdaway, Sirui Tao, Kevin Smith, Li Fei-Fei, Nancy Kanwisher, Joshua B. Tenenbaum, Daniel L.K. Yamins, Judith E. Fan(参考訳) 機械学習アルゴリズムは、多くの難易度の高いビジュアルタスクに優れているが、現実世界の物理イベントの共通点を予測できるかどうかは不明だ。 本稿では,この性能を正確に測定する視覚的および物理的予測ベンチマークを提案する。 剛体とソフトボディの衝突、安定したマルチオブジェクト構成、ローリングとスライディング、投射運動など、さまざまな物理現象を現実的にシミュレートする私たちのデータセットは、既存のベンチマークよりも包括的な課題を提示しています。 さらに,人間の判断とモデル予測を直接比較できるように,刺激に対する人間の反応を収集した。 アーキテクチャや学習目標,入力出力構造,トレーニングデータなど,さまざまな物理予測を行うアルゴリズムの配列を比較した。 物理状態にアクセス可能なグラフニューラルネットワークが人間の行動を最もよく捉えているのに対して、視覚的な入力のみを受け取るモデルでは、オブジェクト中心の表現や事前学習が最善であるが、人間の正確性には程遠い。 これは、シーンの物理的に意味のある表現を抽出することが、人間のような視覚的予測を達成するための主要なボトルネックであることを示している。 したがって、この物理理解の重要な側面において、我々のベンチマークが改善の領域を特定し、進捗を測定する方法を実証する。

While machine learning algorithms excel at many challenging visual tasks, it is unclear that they can make predictions about commonplace real world physical events. Here, we present a visual and physical prediction benchmark that precisely measures this capability. In realistically simulating a wide variety of physical phenomena -- rigid and soft-body collisions, stable multi-object configurations, rolling and sliding, projectile motion -- our dataset presents a more comprehensive challenge than existing benchmarks. Moreover, we have collected human responses for our stimuli so that model predictions can be directly compared to human judgments. We compare an array of algorithms -- varying in their architecture, learning objective, input-output structure, and training data -- on their ability to make diverse physical predictions. We find that graph neural networks with access to the physical state best capture human behavior, whereas among models that receive only visual input, those with object-centric representations or pretraining do best but fall far short of human accuracy. This suggests that extracting physically meaningful representations of scenes is the main bottleneck to achieving human-like visual prediction. We thus demonstrate how our benchmark can identify areas for improvement and measure progress on this key aspect of physical understanding.
翻訳日:2021-06-16 18:43:42 公開日:2021-06-15
# (参考訳) マルチタスク学習を用いたマルチスクリプト手書きディジット認識 [全文訳有]

Multi-script Handwritten Digit Recognition Using Multi-task Learning ( http://arxiv.org/abs/2106.08267v1 )

ライセンス: CC BY 4.0
Mesay Samuel Gondere, Lars Schmidt-Thieme, Durga Prasad Sharma, Randolf Scholz(参考訳) 手書き文字認識は、機械学習において広く研究されている分野の1つである。 MNISTデータセットにおける手書き文字認識に関する広範な研究とは別に、様々なスクリプト認識に関する多くの研究がある。 しかし、堅牢で多目的なシステムの開発を促進するマルチスクリプト桁認識では、あまり一般的ではない。 さらに、例えば、スクリプト分類を関連するタスクとして考慮し、マルチタスク学習を可能にする。 マルチタスク学習は、関連するタスクに含まれる情報を用いて帰納的伝達によってモデル性能を向上させることが明らかである。 そこで本研究では,マルチタスク学習を用いた手書き文字認識について検討する。 この問題に対する解の具体例として、Amharicの手書き文字認識も実験される。 ラテン文字、アラビア語、カンナダ文字を含む3文字の手書き文字を用いて、個々のタスクを再構成したマルチタスクモデルが有望な結果を示していることを示す。 そこで本研究では,個々のタスクの予測手法を考案し,タスクの分類に役立て,タスクの目的に応じて異なる損失を正規化する手法を提案する。 この発見はベースラインと従来のマルチタスク学習モデルより優れている。 さらに重要なのは、タスクのさまざまな損失を重み付けする必要がなくなり、これはマルチタスク学習における課題の1つである。

Handwritten digit recognition is one of the extensively studied area in machine learning. Apart from the wider research on handwritten digit recognition on MNIST dataset, there are many other research works on various script recognition. However, it is not very common for multi-script digit recognition which encourage the development of robust and multipurpose systems. Additionally working on multi-script digit recognition enables multi-task learning, considering the script classification as a related task for instance. It is evident that multi-task learning improves model performance through inductive transfer using the information contained in related tasks. Therefore, in this study multi-script handwritten digit recognition using multi-task learning will be investigated. As a specific case of demonstrating the solution to the problem, Amharic handwritten character recognition will also be experimented. The handwritten digits of three scripts including Latin, Arabic and Kannada are studied to show that multi-task models with reformulation of the individual tasks have shown promising results. In this study a novel way of using the individual tasks predictions was proposed to help classification performance and regularize the different loss for the purpose of the main task. This finding has outperformed the baseline and the conventional multi-task learning models. More importantly, it avoided the need for weighting the different losses of the tasks, which is one of the challenges in multi-task learning.
翻訳日:2021-06-16 18:14:12 公開日:2021-06-15
# (参考訳) 保全判断のための深層強化学習 [全文訳有]

Deep Reinforcement Learning for Conservation Decisions ( http://arxiv.org/abs/2106.08272v1 )

ライセンス: CC BY 4.0
Marcus Lapeyrolerie, Melissa S. Chapman, Kari E. A. Norman, Carl Boettiger(参考訳) 機械学習は、惑星の変化に関するより良い意思決定に役立つだろうか? 本稿では、最も困難な保存的意思決定問題に取り組むために、_reinforcement learning_(rl)と呼ばれる有望な機械学習のコーナーの可能性を説明し、議論する。 RLは, 動的かつ不確実な環境下で, _interacts_を設計すること, (2) RLアプローチは大量のデータを必要としないこと, 3) RLアプローチは既存のモデルやシミュレーション, それらに含まれる知識を置き換えるよりも活用すること,の3つの理由から, 保全的かつグローバルな変更課題に適している。 本研究は,水産クオータの設定や生態的転換点の管理に問題のある事例を含む,rlの概念的・技術的導入とその生態的・保全的課題との関連性について述べる。 注釈付きコードを持つ4つの付録は、これらのアプローチの採用、評価、拡張を探している研究者に具体的な紹介を提供する。

Can machine learning help us make better decisions about a changing planet? In this paper, we illustrate and discuss the potential of a promising corner of machine learning known as _reinforcement learning_ (RL) to help tackle the most challenging conservation decision problems. RL is uniquely well suited to conservation and global change challenges for three reasons: (1) RL explicitly focuses on designing an agent who _interacts_ with an environment which is dynamic and uncertain, (2) RL approaches do not require massive amounts of data, (3) RL approaches would utilize rather than replace existing models, simulations, and the knowledge they contain. We provide a conceptual and technical introduction to RL and its relevance to ecological and conservation challenges, including examples of a problem in setting fisheries quotas and in managing ecological tipping points. Four appendices with annotated code provide a tangible introduction to researchers looking to adopt, evaluate, or extend these approaches.
翻訳日:2021-06-16 18:07:19 公開日:2021-06-15
# (参考訳) KDDカップ2021OGB大規模チャレンジレベルグラフトラックの受賞解 [全文訳有]

Awardee Solution of KDD Cup 2021 OGB Large-Scale Challenge Graph-Level Track ( http://arxiv.org/abs/2106.08279v1 )

ライセンス: CC BY 4.0
Chengxuan Ying, Mingqi Yang, Shuxin Zheng, Guolin Ke, Shengjie Luo, Tianle Cai, Chenglin Wu, Yuxin Wang, Yanming Shen, Di He(参考訳) 本稿では,KDD Cup 2021 OGB Large-Scale Challenge - PCQM4M-LSC Trackについて述べる。 GraphormerとExpCを基本モデルとして採用しています。 各モデルを8倍のクロスバリデーションでトレーニングし、さらにランダムシードの異なるトレーニングセットと検証セットの組み合わせで2つのグラフマーモデルをトレーニングします。 最後に、これらの18モデルに対して、出力の平均を取ることで、ナイーブアンサンブルを使用します。 私たちのチームでは,テストセットで0.1200 MAEを達成した。

In this technical report, we present our solution of KDD Cup 2021 OGB Large-Scale Challenge - PCQM4M-LSC Track. We adopt Graphormer and ExpC as our basic models. We train each model by 8-fold cross-validation, and additionally train two Graphormer models on the union of training and validation sets with different random seeds. For final submission, we use a naive ensemble for these 18 models by taking average of their outputs. Using our method, our team MachineLearning achieved 0.1200 MAE on test set.
翻訳日:2021-06-16 17:50:24 公開日:2021-06-15
# (参考訳) ロシア語のための三部的意味変化データセット [全文訳有]

Three-part diachronic semantic change dataset for Russian ( http://arxiv.org/abs/2106.08294v1 )

ライセンス: CC BY 4.0
Andrey Kutuzov, Lidia Pivovarova(参考訳) 本稿では,ロシア語の字句的意味変化データセット rushifteval を提案する。 その斬新さは、3つの時間的意味変化に注釈を付けた1組のターゲット語によって保証されるが、以前の研究では2つの時間的あるいは異なるターゲット語のセットしか使用されなかった。 本稿では,データセットの構成とアノテーション手順について述べる。 また, ルシチエヴァルの3次性質が, 「特定の期間に変化し, その後に安定している」, 「すべての期間にわたって変化した」という, 特定のダイアクロニカル軌跡を追跡できることを示す。 ロシアの意味的変化検出に関する最近の共有タスクに対する提案の分析に基づいて、そのような軌跡を正しく同定することは、興味深いサブタスクである可能性があると論じる。

We present a manually annotated lexical semantic change dataset for Russian: RuShiftEval. Its novelty is ensured by a single set of target words annotated for their diachronic semantic shifts across three time periods, while the previous work either used only two time periods, or different sets of target words. The paper describes the composition and annotation procedure for the dataset. In addition, it is shown how the ternary nature of RuShiftEval allows to trace specific diachronic trajectories: `changed at a particular time period and stable afterwards' or `was changing throughout all time periods'. Based on the analysis of the submissions to the recent shared task on semantic change detection for Russian, we argue that correctly identifying such trajectories can be an interesting sub-task itself.
翻訳日:2021-06-16 17:44:59 公開日:2021-06-15
# (参考訳) ニューラルネットワーク量子化に関する白書 [全文訳有]

A White Paper on Neural Network Quantization ( http://arxiv.org/abs/2106.08295v1 )

ライセンス: CC BY 4.0
Markus Nagel, Marios Fournarakis, Rana Ali Amjad, Yelysei Bondarenko, Mart van Baalen, Tijmen Blankevoort(参考訳) ニューラルネットワークは多くのアプリケーションにおいてフロンティアを進歩させてきたが、しばしば計算コストが高い。 厳格なパワーと計算要件を備えたエッジデバイスに現代的なネットワークを統合するためには、ニューラルネットワーク推論のパワーとレイテンシの削減が重要です。 ニューラルネットワークの量子化は、これらの節約を達成する最も効果的な方法の1つであるが、それが引き起こす追加ノイズは、精度の低下につながる。 本稿では,低ビット重みとアクティベーションを維持しつつ,量子化ノイズがネットワーク性能に与える影響を緩和する最新アルゴリズムを提案する。 まず、量子化の導入を動機とするハードウェアから始め、次に2つのアルゴリズム、PTQ(Post-Training Quantization)とQAT(Quantization-Awa re-Training)を検討します。 PTQは再トレーニングやラベル付きデータを必要としないため、量子化に対する軽量なプッシュボタンアプローチである。 ほとんどの場合、PTQは浮動小数点精度に近い8ビット量子化を達成するのに十分である。 QATは、ラベル付きトレーニングデータへの微調整とアクセスを必要とするが、競合する結果の少ないビット量子化を可能にする。 どちらのソリューションも、既存の文献に基づいたテストパイプラインと、一般的なディープラーニングモデルとタスクの最先端のパフォーマンスにつながる広範な実験を提供する。

While neural networks have advanced the frontiers in many applications, they often come at a high computational cost. Reducing the power and latency of neural network inference is key if we want to integrate modern networks into edge devices with strict power and compute requirements. Neural network quantization is one of the most effective ways of achieving these savings but the additional noise it induces can lead to accuracy degradation. In this white paper, we introduce state-of-the-art algorithms for mitigating the impact of quantization noise on the network's performance while maintaining low-bit weights and activations. We start with a hardware motivated introduction to quantization and then consider two main classes of algorithms: Post-Training Quantization (PTQ) and Quantization-Aware-T raining (QAT). PTQ requires no re-training or labelled data and is thus a lightweight push-button approach to quantization. In most cases, PTQ is sufficient for achieving 8-bit quantization with close to floating-point accuracy. QAT requires fine-tuning and access to labeled training data but enables lower bit quantization with competitive results. For both solutions, we provide tested pipelines based on existing literature and extensive experimentation that lead to state-of-the-art performance for common deep learning models and tasks.
翻訳日:2021-06-16 17:32:50 公開日:2021-06-15
# (参考訳) StockBabble: 株式市場投資家を支援する対話型金融エージェント [全文訳有]

StockBabble: A Conversational Financial Agent to support Stock Market Investors ( http://arxiv.org/abs/2106.08298v1 )

ライセンス: CC BY 4.0
Suraj Sharma and Joseph Brennan and Jason R. C. Nurse(参考訳) 我々は,株式市場に対する理解と関与を支援する対話型エージェントであるstockbabbleを紹介する。 StockBabbleの価値とノベルティは、小売投資家(多くは投資を初めて行う)に力を与え、ユーザーフレンドリーなエージェントを使って情報ニーズを補う能力にある。 ユーザーは、企業に関する情報を問い合わせて、最新のニュースやトレーディングレコメンデーションへのアクセスを含む、株式の一般および財務的な概要を検索することができる。 また、ライブ価格や技術的投資指標を含むチャートをリクエストしたり、個人ポートフォリオに株式を追加してパフォーマンス監視を行うこともできる。 エージェントの可能性を評価するために,15名を対象にユーザ調査を行った。 回答者の73%(11/15)は、StockBabbleの使用後に投資に自信を感じており、15人全員がそれを他の人に推奨することを検討している。 これらの結果は、そのようなエージェントに対するより広範なアピールを奨励し示唆している。 さらに、この研究は将来のインテリジェントで財務的なパーソナルアシスタントの設計と開発に役立てることができると信じている。

We introduce StockBabble, a conversational agent designed to support understanding and engagement with the stock market. StockBabble's value and novelty is in its ability to empower retail investors -- many of which may be new to investing -- and supplement their informational needs using a user-friendly agent. Users have the ability to query information on companies to retrieve a general and financial overview of a stock, including accessing the latest news and trading recommendations. They can also request charts which contain live prices and technical investment indicators, and add shares to a personal portfolio to allow performance monitoring over time. To evaluate our agent's potential, we conducted a user study with 15 participants. In total, 73% (11/15) of respondents said that they felt more confident in investing after using StockBabble, and all 15 would consider recommending it to others. These results are encouraging and suggest a wider appeal for such agents. Moreover, we believe this research can help to inform the design and development of future intelligent, financial personal assistants.
翻訳日:2021-06-16 17:04:22 公開日:2021-06-15
# (参考訳) 大規模テンポラルビデオモデリングのためのグラディエントフォワードプロパゲーション

Gradient Forward-Propagation for Large-Scale Temporal Video Modelling ( http://arxiv.org/abs/2106.08318v1 )

ライセンス: CC BY 4.0
Mateusz Malinowski and Dimitrios Vytiniotis and Grzegorz Swirszcz and Viorica Patraucean and Joao Carreira(参考訳) 大容量の時間データに対して、ニューラルネットワークを効率的にトレーニングする方法? パラメータの更新に必要な勾配を計算するために、前方および後方通過が完了するまでバックプロパゲーションブロック計算を行う。 時間信号の場合、これはレイテンシが高く、リアルタイム学習を妨げる。 また、連続するレイヤ間の結合も生成し、モデル並列性を制限し、メモリ消費を増加させる。 本稿では,先行的に近似勾配を伝播させることによるブロッキングを回避し,スキップ接続の異なる変種に基づく情報の時間的統合のメカニズムを提案する。 また、計算を分離し、個々の神経モジュールを異なるデバイスに委譲する方法を示し、分散および並列トレーニングを可能にした。 提案したSkip-Sidewaysは低レイテンシトレーニング,モデル並列化を実現し,時間的特徴を抽出し,HMDB51やUCF101,大規模Kineetics-600といった実世界のアクション認識ビデオデータセットの性能向上を実現している。 最後に,Sidewaysモデルよりも,Skip-Sidewaysでトレーニングしたモデルの方が,将来のフレームをより良く生成できることを示す。

How can neural networks be trained on large-volume temporal data efficiently? To compute the gradients required to update parameters, backpropagation blocks computations until the forward and backward passes are completed. For temporal signals, this introduces high latency and hinders real-time learning. It also creates a coupling between consecutive layers, which limits model parallelism and increases memory consumption. In this paper, we build upon Sideways, which avoids blocking by propagating approximate gradients forward in time, and we propose mechanisms for temporal integration of information based on different variants of skip connections. We also show how to decouple computation and delegate individual neural modules to different devices, allowing distributed and parallel training. The proposed Skip-Sideways achieves low latency training, model parallelism, and, importantly, is capable of extracting temporal features, leading to more stable training and improved performance on real-world action recognition video datasets such as HMDB51, UCF101, and the large-scale Kinetics-600. Finally, we also show that models trained with Skip-Sideways generate better future frames than Sideways models, and hence they can better utilize motion cues.
翻訳日:2021-06-16 16:56:49 公開日:2021-06-15
# (参考訳) dynamic head: オブジェクト検出ヘッドを注意して統一する [全文訳有]

Dynamic Head: Unifying Object Detection Heads with Attentions ( http://arxiv.org/abs/2106.08322v1 )

ライセンス: CC BY 4.0
Xiyang Dai, Yinpeng Chen, Bin Xiao, Dongdong Chen, Mengchen Liu, Lu Yuan, Lei Zhang(参考訳) 物体検出における局所化と分類の組み合わせによる複雑な性質は、手法の発達に発展をもたらした。 以前の作業では、様々な物体検出ヘッドの性能向上を試みたが、統一されたビューを提示できなかった。 本稿では,オブジェクト検出ヘッドを注意をもって統一する新しい動的ヘッドフレームワークを提案する。 空間認識のための空間的位置とタスク認識のための出力チャネルの間で、スケール認識のための特徴レベル間の複数の自己認識機構をコヒーレントに結合することにより、提案手法は、計算オーバーヘッドなしにオブジェクト検出ヘッドの表現能力を大幅に向上させる。 さらなる実験により,COCOベンチマークにおける動的ヘッドの有効性と効率が示された。 標準のResNeXt-101-DCNバックボーンでは、一般的な物体検出器よりも性能が大幅に向上し、54.0 APで新しい最先端を実現する。 さらに、最新のトランスフォーマーバックボーンと余分なデータにより、現在の最高のCOCO結果を60.6 APで新しいレコードにプッシュすることができる。 コードはhttps://github.com/m icrosoft/dynamichead でリリースされる。

The complex nature of combining localization and classification in object detection has resulted in the flourished development of methods. Previous works tried to improve the performance in various object detection heads but failed to present a unified view. In this paper, we present a novel dynamic head framework to unify object detection heads with attentions. By coherently combining multiple self-attention mechanisms between feature levels for scale-awareness, among spatial locations for spatial-awareness, and within output channels for task-awareness, the proposed approach significantly improves the representation ability of object detection heads without any computational overhead. Further experiments demonstrate that the effectiveness and efficiency of the proposed dynamic head on the COCO benchmark. With a standard ResNeXt-101-DCN backbone, we largely improve the performance over popular object detectors and achieve a new state-of-the-art at 54.0 AP. Furthermore, with latest transformer backbone and extra data, we can push current best COCO result to a new record at 60.6 AP. The code will be released at https://github.com/m icrosoft/DynamicHead .
翻訳日:2021-06-16 16:45:04 公開日:2021-06-15
# (参考訳) これは有害か? ビデオから有害評価を予測するための学習 [全文訳有]

Is this Harmful? Learning to Predict Harmfulness Ratings from Video ( http://arxiv.org/abs/2106.08323v1 )

ライセンス: CC BY 4.0
Johan Edstedt, Johan Karlsson, Francisca Benavente, Anette Novak, Amanda Berg, Michael Felsberg(参考訳) ビデオ中の有害なコンテンツを自動的に識別することは、幅広いアプリケーションで重要なタスクである。 しかし、高品質なラベルの収集が困難であり、計算要求も要求されるため、このタスクは一般的なアプローチを満たしていない。 典型的には、暴力的内容の特定など、問題の小さなサブセットのみが考慮される。 一般的な問題に取り組む場合、ラベルの欠如と計算の複雑さに対処するために、粗い近似と単純化が行われる。 本研究では,2つの主要な障害を特定し,対処する。 まず、現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。 第2に,映像認識の進歩により,シーンのフルコンテキストを考慮したデータセットのトレーニングモデルが実現できることを実証する。 モデル選択に関する詳細な調査を行い,視覚と音声のモダリティの組み合わせと,大規模ビデオ認識データセットとクラスバランスサンプリングの事前学習により,パフォーマンスがさらに向上することを示す。 さらに,データセットのマルチモーダルな性質を明らかにする質的研究も行っています。 データセットは公開時に公開します。

Automatically identifying harmful content in video is an important task with a wide range of applications. However, due to the difficulty of collecting high-quality labels as well as demanding computational requirements, the task has not had a satisfying general approach. Typically, only small subsets of the problem are considered, such as identifying violent content. In cases where the general problem is tackled, rough approximations and simplifications are made to deal with the lack of labels and computational complexity. In this work, we identify and tackle the two main obstacles. First, we create a dataset of approximately 4000 video clips, annotated by professionals in the field. Secondly, we demonstrate that advances in video recognition enable training models on our dataset that consider the full context of the scene. We conduct an in-depth study on our modeling choices and find that we greatly benefit from combining the visual and audio modality and that pretraining on large-scale video recognition datasets and class balanced sampling further improves performance. We additionally perform a qualitative study that reveals the heavily multi-modal nature of our dataset. Our dataset will be made available upon publication.
翻訳日:2021-06-16 16:24:41 公開日:2021-06-15
# (参考訳) 連続時間ニューラルネットワークによる因果ナビゲーション [全文訳有]

Causal Navigation by Continuous-time Neural Networks ( http://arxiv.org/abs/2106.08314v1 )

ライセンス: CC BY-SA 4.0
Charles Vorbach, Ramin Hasani, Alexander Amini, Mathias Lechner, Daniela Rus(参考訳) 模倣学習は、リッチでフォトリアリスティックな環境におけるポリシーの高忠実で視覚に基づく学習を可能にする。 しかしながら、そのような手法は伝統的な離散時間ニューラルモデルに依存し、エージェントと環境の間の因果関係を考慮せず、ドメインシフトを一般化する際の困難に直面している。 本稿では,連続時間ニューラルネットワークを用いて因果表現を学習するための理論的,実験的枠組みを提案する。 本手法は,短期および長期のナビゲーションから,フォトリアリスティックな環境を通じて静的および動的物体の追跡まで,複雑なタスクを通してドローンの視覚制御学習の文脈で評価する。 その結果、因果的連続時間深度モデルでは、先進的な再帰モデルが失敗する堅牢なナビゲーションタスクが実行可能であることが示された。 これらのモデルは、生の視覚入力から直接複雑な因果制御表現を学習し、模倣学習を用いて様々なタスクを解く。

Imitation learning enables high-fidelity, vision-based learning of policies within rich, photorealistic environments. However, such techniques often rely on traditional discrete-time neural models and face difficulties in generalizing to domain shifts by failing to account for the causal relationships between the agent and the environment. In this paper, we propose a theoretical and experimental framework for learning causal representations using continuous-time neural networks, specifically over their discrete-time counterparts. We evaluate our method in the context of visual-control learning of drones over a series of complex tasks, ranging from short- and long-term navigation, to chasing static and dynamic objects through photorealistic environments. Our results demonstrate that causal continuous-time deep models can perform robust navigation tasks, where advanced recurrent models fail. These models learn complex causal control representations directly from raw visual inputs and scale to solve a variety of tasks using imitation learning.
翻訳日:2021-06-16 15:57:29 公開日:2021-06-15
# カーネル依存最大化による自己教師付き学習

Self-Supervised Learning with Kernel Dependence Maximization ( http://arxiv.org/abs/2106.08320v1 )

ライセンス: Link先を確認
Yazhe Li and Roman Pogodin and Danica J. Sutherland and Arthur Gretton(参考訳) 我々は,統計的依存の観点からイメージ表現の自己教師型学習にアプローチし,Hilbert-Schmidt Independence Criterion (SSL-HSIC)による自己監督型学習を提案する。 SSL-HSICは、画像の変換されたバージョンの表現と画像の同一性の間の依存を最大化し、これらの特徴のカーネル化された分散を最小化する。 この自己教師型学習フレームワークは、異なる変換間の相互情報(MI)の変動的下限であるInfoNCEを新たに理解する。 mi自体が無意味な表現を学習できる病理を持っていることは知られているが、その境界はよりよく振る舞う: 暗黙的にssl-hsicに近似している(若干異なる正規化子を持つ)。 SSL-HSICも同様にサンプルの近傍を学習するため,BYOLに関する洞察も得られる。 SSL-HSICにより、制約のあるデータ仮定や間接的な相互情報推定装置を使わずに、バッチサイズで線形な時間における統計的依存を直接最適化できる。 SSL-HSICは、ターゲットネットワークの有無にかかわらず、ImageNetの標準的な線形評価、半教師付き学習、セマンティックセグメンテーション、深さ推定、オブジェクト認識などの他の分類および視覚タスクへの転送のための現在の最先端技術と一致する。

We approach self-supervised learning of image representations from a statistical dependence perspective, proposing Self-Supervised Learning with the Hilbert-Schmidt Independence Criterion (SSL-HSIC). SSL-HSIC maximizes dependence between representations of transformed versions of an image and the image identity, while minimizing the kernelized variance of those features. This self-supervised learning framework yields a new understanding of InfoNCE, a variational lower bound on the mutual information (MI) between different transformations. While the MI itself is known to have pathologies which can result in meaningless representations being learned, its bound is much better behaved: we show that it implicitly approximates SSL-HSIC (with a slightly different regularizer). Our approach also gives us insight into BYOL, since SSL-HSIC similarly learns local neighborhoods of samples. SSL-HSIC allows us to directly optimize statistical dependence in time linear in the batch size, without restrictive data assumptions or indirect mutual information estimators. Trained with or without a target network, SSL-HSIC matches the current state-of-the-art for standard linear evaluation on ImageNet, semi-supervised learning and transfer to other classification and vision tasks such as semantic segmentation, depth estimation and object recognition.
翻訳日:2021-06-16 15:37:14 公開日:2021-06-15
# SSMix:Saliencyベースのテキスト分類用Span Mixup

SSMix: Saliency-Based Span Mixup for Text Classification ( http://arxiv.org/abs/2106.08062v1 )

ライセンス: Link先を確認
Soyoung Yoon, Gyuwan Kim, Kyumin Park(参考訳) mixupによるデータ拡張は、様々なコンピュータビジョンタスクに有効であることが示されている。 その大きな成功にもかかわらず、テキストは可変長の離散トークンからなるため、NLPタスクにミックスアップを適用するハードルがあった。 本研究では,従来の手法のような隠れベクトルではなく,入力テキスト上で操作を行う新しい混合手法であるSSMixを提案する。 ssmixは、スパンベースの混合によって2つの原文の局所性を保ちながら文を合成し、給与情報に依存する予測に関連するトークンを多く保持する。 広範にわたる実験により,本手法は,テキストの包含,感情分類,質問型分類など,幅広いテキスト分類ベンチマークにおいて,隠れレベル混合手法よりも優れていることを示す。 私たちのコードはhttps://github.com/c lovaai/ssmixで利用可能です。

Data augmentation with mixup has shown to be effective on various computer vision tasks. Despite its great success, there has been a hurdle to apply mixup to NLP tasks since text consists of discrete tokens with variable length. In this work, we propose SSMix, a novel mixup method where the operation is performed on input text rather than on hidden vectors like previous approaches. SSMix synthesizes a sentence while preserving the locality of two original texts by span-based mixing and keeping more tokens related to the prediction relying on saliency information. With extensive experiments, we empirically validate that our method outperforms hidden-level mixup methods on a wide range of text classification benchmarks, including textual entailment, sentiment classification, and question-type classification. Our code is available at https://github.com/c lovaai/ssmix.
翻訳日:2021-06-16 15:36:50 公開日:2021-06-15
# 連続状態空間におけるサンプル効率的強化学習--線形性を超えて

Sample Efficient Reinforcement Learning In Continuous State Spaces: A Perspective Beyond Linearity ( http://arxiv.org/abs/2106.07814v1 )

ライセンス: Link先を確認
Dhruv Malik, Aldo Pacchiano, Vishwak Srinivasan, Yuanzhi Li(参考訳) 強化学習(RL)は、連続状態空間を持つ複雑な非線形マルコフ決定過程(MDP)において経験的に成功している。 対照的に、理論的なRL文献の大部分は、サンプル効率のよいRLを保証するために、MDPがある種の線形構造を満たす必要がある。 このような取り組みは、通常、MDPの遷移力学や値関数は状態特徴の線形関数によって記述される。 理論と実践のこの相違を解決するために,線形性を仮定しないMDP上の構造条件であるエフェクトプランニングウインドウ(EPW)条件を導入する。 EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。 本アルゴリズムでは,非線形活性化関数を持つ多層ニューラルネットワークを含むポリシクラスを最小限に設定する。 特に、EPW条件は人気のあるゲームベンチマークによって直接動機付けられており、多くの古典的なアタリゲームがこの条件を満たすことを示す。 また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。

Reinforcement learning (RL) is empirically successful in complex nonlinear Markov decision processes (MDPs) with continuous state spaces. By contrast, the majority of theoretical RL literature requires the MDP to satisfy some form of linear structure, in order to guarantee sample efficient RL. Such efforts typically assume the transition dynamics or value function of the MDP are described by linear functions of the state features. To resolve this discrepancy between theory and practice, we introduce the Effective Planning Window (EPW) condition, a structural condition on MDPs that makes no linearity assumptions. We demonstrate that the EPW condition permits sample efficient RL, by providing an algorithm which provably solves MDPs satisfying this condition. Our algorithm requires minimal assumptions on the policy class, which can include multi-layer neural networks with nonlinear activation functions. Notably, the EPW condition is directly motivated by popular gaming benchmarks, and we show that many classic Atari games satisfy this condition. We additionally show the necessity of conditions like EPW, by demonstrating that simple MDPs with slight nonlinearities cannot be solved sample efficiently.
翻訳日:2021-06-16 15:36:37 公開日:2021-06-15
# Simon氏が語る: ニューラルネットワークの知識蒸留によるバイアスの評価と緩和

Simon Says: Evaluating and Mitigating Bias in Pruned Neural Networks with Knowledge Distillation ( http://arxiv.org/abs/2106.07849v1 )

ライセンス: Link先を確認
Cody Blakeney, Nathaniel Huish, Yan Yan, Ziliang Zong(参考訳) 近年、AIのユビキタス展開は、アルゴリズムバイアス、差別、公平性に関する大きな懸念を提起している。 人間による従来の偏見や差別と比較すると、AIによって生成されるアルゴリズム的偏見はより抽象的で直観的であるため、説明や緩和は困難である。 プルーニングニューラルネットワークのバイアスの評価と緩和に関する現在の文献には明確なギャップがある。 本研究では,刈り取られたニューラルネットワークにおける誘導バイアスの評価,緩和,説明という課題に対処する。 私たちの論文には3つの貢献がある。 まず,複合誤差変動(CEV)とSDE(Symmetric Distance Error)の2つの簡易かつ効果的な指標を提案する。 第2に, 知識蒸留は, 不均衡なデータセットであっても, プルーニングニューラルネットワークにおいて誘導バイアスを軽減できることを示す。 第3に,モデル類似性はプルーニング誘発バイアスと強い相関を持ち,プルーニングニューラルネットワークにおいてバイアスが発生する理由を説明する強力な方法であることを明らかにした。 私たちのコードはhttps://github.com/c odestar12/pruning-di stilation-biasで利用可能です。

In recent years the ubiquitous deployment of AI has posed great concerns in regards to algorithmic bias, discrimination, and fairness. Compared to traditional forms of bias or discrimination caused by humans, algorithmic bias generated by AI is more abstract and unintuitive therefore more difficult to explain and mitigate. A clear gap exists in the current literature on evaluating and mitigating bias in pruned neural networks. In this work, we strive to tackle the challenging issues of evaluating, mitigating, and explaining induced bias in pruned neural networks. Our paper makes three contributions. First, we propose two simple yet effective metrics, Combined Error Variance (CEV) and Symmetric Distance Error (SDE), to quantitatively evaluate the induced bias prevention quality of pruned models. Second, we demonstrate that knowledge distillation can mitigate induced bias in pruned neural networks, even with unbalanced datasets. Third, we reveal that model similarity has strong correlations with pruning induced bias, which provides a powerful method to explain why bias occurs in pruned neural networks. Our code is available at https://github.com/c odestar12/pruning-di stilation-bias
翻訳日:2021-06-16 15:35:46 公開日:2021-06-15
# 生成モデルのリバースエンジニアリング:生成画像からモデルハイパーパラメータを推定する

Reverse Engineering of Generative Models: Inferring Model Hyperparameters from Generated Images ( http://arxiv.org/abs/2106.07873v1 )

ライセンス: Link先を確認
Vishal Asnani, Xi Yin, Tal Hassner, Xiaoming Liu(参考訳) State-of-the-art (SOTA) Generative Models (GM)は、人間が本物の写真と区別するのが難しい写真リアルな画像を合成することができる。 これらのモデルによって生成された画像からモデルハイパーパラメータを推定するためにgmsのリバースエンジニアリングを行う。 我々は、gmネットワークアーキテクチャの推定と、生成された画像を調べることで損失関数のトレーニングとして「モデル解析」という新しい問題を定義している。 この問題に対処するために、生成画像からGM指紋を推定するFEN(Fingerprint Estimation Network)と、推定された指紋からネットワークアーキテクチャと損失関数を予測するPN(Parsing Network)の2つのコンポーネントからなるフレームワークを提案する。 当社のアプローチを評価するために、私たちは、gmsが生成する100ドルのイメージを含む偽の画像データセットを収集します。 広範な実験により、未発見のモデルのハイパーパラメータ解析の結果が奨励されている。 最後に,最近のceleb-df と image attribution ベンチマークの両方で sota 結果を報告することにより,我々の指紋推定をdeepfake 検出と画像アトリビューションに活用できることを示した。

State-of-the-art (SOTA) Generative Models (GMs) can synthesize photo-realistic images that are hard for humans to distinguish from genuine photos. We propose to perform reverse engineering of GMs to infer the model hyperparameters from the images generated by these models. We define a novel problem, "model parsing", as estimating GM network architectures and training loss functions by examining their generated images -- a task seemingly impossible for human beings. To tackle this problem, we propose a framework with two components: a Fingerprint Estimation Network (FEN), which estimates a GM fingerprint from a generated image by training with four constraints to encourage the fingerprint to have desired properties, and a Parsing Network (PN), which predicts network architecture and loss functions from the estimated fingerprints. To evaluate our approach, we collect a fake image dataset with $100$K images generated by $100$ GMs. Extensive experiments show encouraging results in parsing the hyperparameters of the unseen models. Finally, our fingerprint estimation can be leveraged for deepfake detection and image attribution, as we show by reporting SOTA results on both the recent Celeb-DF and image attribution benchmarks.
翻訳日:2021-06-16 15:35:27 公開日:2021-06-15
# 非勾配マニフォールドニューラルネットワーク

Non-Gradient Manifold Neural Network ( http://arxiv.org/abs/2106.07905v1 )

ライセンス: Link先を確認
Rui Zhang and Ziheng Jiao and Hongyuan Zhang and Xuelong Li(参考訳) ディープニューラルネットワーク(DNN)は一般的に、勾配降下による最適化に数千のイテレーションを必要とするため、収束が遅い。 さらに、決定層としてのソフトマックスは、分類中のデータの分布情報を無視することができる。 上記の問題に取り組むために,非次最適化に基づく新しい多様体ニューラルネットワーク,すなわち閉形式解を提案する。 アクティベーション関数が一般に可逆であることを考慮すると、前方リッジ回帰と低ランク後方近似によりネットワークを再構築し、高速収束を実現する。 さらに、フレキシブルスティーフェル多様体と適応支持ベクターマシンを一体化することにより、データおよびラベル情報の多様体構造に効率的に適合する新たな決定層を考案する。 その結果, 閉じた結果のネットワークを生成するために, 非漸進最適化法が設計されている。 最終的に、広範囲な実験がモデルの優れた性能を検証する。

Deep neural network (DNN) generally takes thousands of iterations to optimize via gradient descent and thus has a slow convergence. In addition, softmax, as a decision layer, may ignore the distribution information of the data during classification. Aiming to tackle the referred problems, we propose a novel manifold neural network based on non-gradient optimization, i.e., the closed-form solutions. Considering that the activation function is generally invertible, we reconstruct the network via forward ridge regression and low rank backward approximation, which achieve the rapid convergence. Moreover, by unifying the flexible Stiefel manifold and adaptive support vector machine, we devise the novel decision layer which efficiently fits the manifold structure of the data and label information. Consequently, a jointly non-gradient optimization method is designed to generate the network with closed-form results. Eventually, extensive experiments validate the superior performance of the model.
翻訳日:2021-06-16 15:35:07 公開日:2021-06-15
# ニューラルネットワーク圧縮のための高効率マイクロ構造重み統一

Efficient Micro-Structured Weight Unification for Neural Network Compression ( http://arxiv.org/abs/2106.08301v1 )

ライセンス: Link先を確認
Sheng Lin, Wei Jiang, Wei Wang, Kaidi Xu, Yanzhi Wang, Shan Liu and Songnan Li(参考訳) ストレージと計算要件を緩和するためにディープニューラルネットワーク(dnn)モデルを圧縮することは、実用的なアプリケーション、特にリソース制限されたデバイスには不可欠である。 モデルパラメータの妥当な量を削減できるが、非構造的あるいは構造的ウェイトプルーニング手法は、非構造的スパーシティのハードウェア互換性の低さや、構造的プルーニングネットワークのスパースレートの低さのために、推論を真に加速することはほとんどできない。 ストレージと計算の双方を削減し、元のタスク性能を維持することを目的として、ハードウェア互換のマイクロ構造レベルで一般化された重み統一フレームワークを提案し、高い圧縮と加速度を実現する。 選択されたマイクロ構造ブロックの重み係数を統一して、ニューロン接続を変更することなくブロックの記憶と計算を低減し、すべての統一係数がゼロに設定された場合、ニューロン接続(ストレージと計算)を完全に除去するマイクロ構造プルーニング特別ケースに変換する。 さらに,複雑な制約付き最適化を個別に解けるサブプロブレムに変換する乗算器の交互方向法(ADMM)に基づく効果的なトレーニングフレームワークを開発した。 サブプロブレムを反復的に最適化することで、所望のマイクロ構造を高い圧縮比と低い性能劣化で確保することができる。 様々なアプリケーションのためのベンチマークモデルとデータセットを用いて,本手法を広範囲に評価した。 実験結果は最先端の性能を示す。

Compressing Deep Neural Network (DNN) models to alleviate the storage and computation requirements is essential for practical applications, especially for resource limited devices. Although capable of reducing a reasonable amount of model parameters, previous unstructured or structured weight pruning methods can hardly truly accelerate inference, either due to the poor hardware compatibility of the unstructured sparsity or due to the low sparse rate of the structurally pruned network. Aiming at reducing both storage and computation, as well as preserving the original task performance, we propose a generalized weight unification framework at a hardware compatible micro-structured level to achieve high amount of compression and acceleration. Weight coefficients of a selected micro-structured block are unified to reduce the storage and computation of the block without changing the neuron connections, which turns to a micro-structured pruning special case when all unified coefficients are set to zero, where neuron connections (hence storage and computation) are completely removed. In addition, we developed an effective training framework based on the alternating direction method of multipliers (ADMM), which converts our complex constrained optimization into separately solvable subproblems. Through iteratively optimizing the subproblems, the desired micro-structure can be ensured with high compression ratio and low performance degradation. We extensively evaluated our method using a variety of benchmark models and datasets for different applications. Experimental results demonstrate state-of-the-art performance.
翻訳日:2021-06-16 15:34:54 公開日:2021-06-15
# マルチスタイルGAN:タイムラプスライブセル顕微鏡のイメージベースシミュレーションに向けて

Multi-StyleGAN: Towards Image-Based Simulation of Time-Lapse Live-Cell Microscopy ( http://arxiv.org/abs/2106.08285v1 )

ライセンス: Link先を確認
Tim Prangemeier, Christoph Reich, Christian Wildner and Heinz Koeppl(参考訳) TLFM(Time-lapse fluorescent microscopy)と予測数学的モデリングを組み合わせることで、単細胞レベルでの生命の自然な動的な過程を研究する強力なツールとなる。 このような実験は費用がかかり、複雑で、労働集約的です。 完全なシリコ実験への補完的なアプローチと一歩は、画像自体を合成することである。 本稿では, 生体細胞の時間分解蛍光顕微鏡像をシミュレーションするための記述的アプローチとしてMulti-StyleGANを提案する。 この新規な生成逆ネットワークは連続した時間ステップのマルチドメイン配列を合成する。 微小な環境下での複数の生きた酵母細胞の画像にMulti-StyleGANを導入し,実験室で記録されたデータセットにトレーニングを行った。 このシミュレーションは、細胞の形態、成長、物理的相互作用、蛍光レポータータンパク質の強度など、基礎となる生理的要因と時間的依存を捉えている。 直接の用途は、特徴抽出アルゴリズムのための追加のトレーニングと検証データを生成するか、オンライン監視やセルの制御のような高度な実験技術の開発を支援することである。 コードとデータセットはhttps://git.rwth-aac hen.de/bcs/projects/ tp/multi-styleganで入手できる。

Time-lapse fluorescent microscopy (TLFM) combined with predictive mathematical modelling is a powerful tool to study the inherently dynamic processes of life on the single-cell level. Such experiments are costly, complex and labour intensive. A complimentary approach and a step towards completely in silico experiments, is to synthesise the imagery itself. Here, we propose Multi-StyleGAN as a descriptive approach to simulate time-lapse fluorescence microscopy imagery of living cells, based on a past experiment. This novel generative adversarial network synthesises a multi-domain sequence of consecutive timesteps. We showcase Multi-StyleGAN on imagery of multiple live yeast cells in microstructured environments and train on a dataset recorded in our laboratory. The simulation captures underlying biophysical factors and time dependencies, such as cell morphology, growth, physical interactions, as well as the intensity of a fluorescent reporter protein. An immediate application is to generate additional training and validation data for feature extraction algorithms or to aid and expedite development of advanced experimental techniques such as online monitoring or control of cells. Code and dataset is available at https://git.rwth-aac hen.de/bcs/projects/ tp/multi-stylegan.
翻訳日:2021-06-16 15:34:27 公開日:2021-06-15
# 動的ペルソナ・アウェア融合によるバイラテラルパーソナライズド対話生成

Bilateral Personalized Dialogue Generation with Dynamic Persona-Aware Fusion ( http://arxiv.org/abs/2106.07857v1 )

ライセンス: Link先を確認
Bin Li, Bin Sun (Member, IEEE) and Shutao Li (Fellow, IEEE)(参考訳) パーソナライズされた応答の生成は、自然な人間とロボットの相互作用における大きな課題の1つである。 この分野での最近の研究は、主に、ユーザのペルソナを無視しながら、ロボットの指定したペルソナと一致した応答を生成することに焦点を当てている。 このような反応は不適切あるいは攻撃的であり、ユーザエクスペリエンスの悪さにつながる可能性がある。 そこで本研究では,マルチタスク転送学習による動的ペルソナ認識融合を用いた双方向パーソナライズ対話生成(bpdg)手法を提案する。 提案手法は,(1)エンコーダに固有属性と相対位置(言語モデルタスク)を加えた対話発話を付加し,2)動的ペルソナ認識融合モジュールがペルソナ存在を予測し,文脈と左右のペルソナエンコーディングを適応的に融合させる(ペルソナ予測タスク),3)デコーダが自然で流速でパーソナライズされた応答を生成する(ダイアログ生成タスク),の3つの学習課題を実現する。 生成した応答をよりパーソナライズし、二者間一貫性を持たせるために、生成した候補から最終応答を選択する条件付き相互情報最大化(cmim)基準を採用する。 実験の結果,提案手法は自動評価と手動評価の両面で,いくつかの最先端手法よりも優れていた。

Generating personalized responses is one of the major challenges in natural human-robot interaction. Current researches in this field mainly focus on generating responses consistent with the robot's pre-assigned persona, while ignoring the user's persona. Such responses may be inappropriate or even offensive, which may lead to the bad user experience. Therefore, we propose a bilateral personalized dialogue generation (BPDG) method with dynamic persona-aware fusion via multi-task transfer learning to generate responses consistent with both personas. The proposed method aims to accomplish three learning tasks: 1) an encoder is trained with dialogue utterances added with corresponded personalized attributes and relative position (language model task), 2) a dynamic persona-aware fusion module predicts the persona presence to adaptively fuse the contextual and bilateral personas encodings (persona prediction task) and 3) a decoder generates natural, fluent and personalized responses (dialogue generation task). To make the generated responses more personalized and bilateral persona-consistent, the Conditional Mutual Information Maximum (CMIM) criterion is adopted to select the final response from the generated candidates. The experimental results show that the proposed method outperforms several state-of-the-art methods in terms of both automatic and manual evaluations.
翻訳日:2021-06-16 15:34:08 公開日:2021-06-15
# Canonical Face Embeddings

Canonical Face Embeddings ( http://arxiv.org/abs/2106.07822v1 )

ライセンス: Link先を確認
David McNeely-White, Ben Sattelberg, Nathaniel Blanchard, Ross Beveridge(参考訳) フェース検証のために訓練された多くの共通畳み込みニューラルネットワーク(CNN)は、回転下でほぼ等価な関数を学習する。 より具体的には、1つの顔検証モデルの埋め込み(つまり)を実証する。 最後の層アクティベーション)は、ローテーションや線形変換だけで、パフォーマンスのペナルティが少なく、他のモデルの埋め込みと直接比較することができる。 この発見は、トレーニングデータセット、CNNアーキテクチャ、角損失の使用方法、または3の組み合わせによって異なる10種類の近代的なCNNベースの顔検証モデルの組み合わせに対して、IJB-C 1:1検証を行い、0.01の誤受率で平均0.96の真受率を得る。 1つのCNNの埋め込みを線形変換でマッピングする2つのCNNから生成された埋め込みを評価する場合、平均真受け入れ率は、同じ検証パラダイムを用いて0.95に低下する。 これらの線型写像を回転のみに制限すると、平均真受率 0.91 となる。 これらのマッピングの存在は、共通の表現が訓練や構造の変化のあるモデルによって学習されることを示唆している。 このような発見は幅広い意味を持つ可能性があり、限られた数のサンプルを用いて顔埋め込みを匿名化できるアプリケーションを提供する。

We present evidence that many common convolutional neural networks (CNNs) trained for face verification learn functions that are nearly equivalent under rotation. More specifically, we demonstrate that one face verification model's embeddings (i.e. last--layer activations) can be compared directly to another model's embeddings after only a rotation or linear transformation, with little performance penalty. This finding is demonstrated using IJB-C 1:1 verification across the combinations of ten modern off-the-shelf CNN-based face verification models which vary in training dataset, CNN architecture, way of using angular loss, or some combination of the 3, and achieve a mean true accept rate of 0.96 at a false accept rate of 0.01. When instead evaluating embeddings generated from two CNNs, where one CNN's embeddings are mapped with a linear transformation, the mean true accept rate drops to 0.95 using the same verification paradigm. Restricting these linear maps to only perform rotation produces a mean true accept rate of 0.91. These mappings' existence suggests that a common representation is learned by models with variation in training or structure. A discovery such as this likely has broad implications, and we provide an application in which face embeddings can be de-anonymized using a limited number of samples.
翻訳日:2021-06-16 15:33:42 公開日:2021-06-15
# CausalNLP: テキストによる因果推論のための実用的なツールキット

CausalNLP: A Practical Toolkit for Causal Inference with Text ( http://arxiv.org/abs/2106.08043v1 )

ライセンス: Link先を確認
Arun S. Maiya(参考訳) 因果推論のための既存の方法やシステムは、すべての変数がカテゴリーや数値(性別、価格、血圧、登録など)であると仮定している。 本稿では,従来の数値および分類変数に加えて,テキストを含む観測データから因果関係を推定するツールキットCausalNLPを提案する。 CausalNLPは治療効果推定にメタラーナーを使用し、生のテキストとその言語特性を治療と「制御された」変数(例えば、共同設立者)の両方として使用する。 ライブラリはオープンソースで、https://github.com/a maiya/causalnlp.com/ で入手できる。

The vast majority of existing methods and systems for causal inference assume that all variables under consideration are categorical or numerical (e.g., gender, price, blood pressure, enrollment). In this paper, we present CausalNLP, a toolkit for inferring causality from observational data that includes text in addition to traditional numerical and categorical variables. CausalNLP employs the use of meta-learners for treatment effect estimation and supports using raw text and its linguistic properties as both a treatment and a "controlled-for" variable (e.g., confounder). The library is open-source and available at: https://github.com/a maiya/causalnlp.
翻訳日:2021-06-16 15:32:59 公開日:2021-06-15
# 非自己回帰型ニューラルマシン翻訳のためのシーケンスレベルトレーニング

Sequence-Level Training for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2106.08122v1 )

ライセンス: Link先を確認
Chenze Shao, Yang Feng, Jinchao Zhang, Fandong Meng, Jie Zhou(参考訳) 近年、ニューラルマシン翻訳(nmt)は様々な翻訳タスクで顕著な結果を得ている。 しかし、自己回帰機構によって決定されるワードバイワード生成法はnmtの翻訳レイテンシを高くし、低レイテンシのアプリケーションを制限する。 non-autoregressive neural machine translation (nat) は自己回帰機構を取り除き、ターゲット単語を独立かつ同時に生成することで、大幅な復号速度向上を実現する。 それでも、NATは単語レベルのクロスエントロピー損失をトレーニング目標としており、マルチモーダリティの問題によりNATの出力が適切に評価できないため、最適ではない。 本稿では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。 まず,nat用にカスタマイズされた新しい強化アルゴリズムに基づいて,シーケンスレベルの評価指標(例えばbleu)を最適化するためのnatモデルのトレーニングを提案する。 次に,モデル出力と参照文のバガオブngram(bon)差を最小限に抑えることを目的とした,natモデルの新たな学習目標を提案する。 BoNトレーニングの目標は微分可能であり、近似をせずに効率的に計算することができる。 最後に,これら2つの手法を組み合わせてnatモデルを訓練するために,3段階のトレーニング戦略を適用する。 我々は,4つの翻訳タスク(WMT14 En$\leftrightarrow$D e,WMT16 En$\leftrightarrow$R o)に対するアプローチを検証する。

In recent years, Neural Machine Translation (NMT) has achieved notable results in various translation tasks. However, the word-by-word generation manner determined by the autoregressive mechanism leads to high translation latency of the NMT and restricts its low-latency applications. Non-Autoregressive Neural Machine Translation (NAT) removes the autoregressive mechanism and achieves significant decoding speedup through generating target words independently and simultaneously. Nevertheless, NAT still takes the word-level cross-entropy loss as the training objective, which is not optimal because the output of NAT cannot be properly evaluated due to the multimodality problem. In this paper, we propose using sequence-level training objectives to train NAT models, which evaluate the NAT outputs as a whole and correlates well with the real translation quality. Firstly, we propose training NAT models to optimize sequence-level evaluation metrics (e.g., BLEU) based on several novel reinforcement algorithms customized for NAT, which outperforms the conventional method by reducing the variance of gradient estimation. Secondly, we introduce a novel training objective for NAT models, which aims to minimize the Bag-of-Ngrams (BoN) difference between the model output and the reference sentence. The BoN training objective is differentiable and can be calculated efficiently without doing any approximations. Finally, we apply a three-stage training strategy to combine these two methods to train the NAT model. We validate our approach on four translation tasks (WMT14 En$\leftrightarrow$D e, WMT16 En$\leftrightarrow$R o), which shows that our approach largely outperforms NAT baselines and achieves remarkable performance on all translation tasks.
翻訳日:2021-06-16 15:32:47 公開日:2021-06-15
# PairConnect: 注意の代替となる計算効率の良いMLP

PairConnect: A Compute-Efficient MLP Alternative to Attention ( http://arxiv.org/abs/2106.08235v1 )

ライセンス: Link先を確認
Zhaozhuo Xu, Minghao Yan, Junyan Zhang, Anshumali Shrivastava(参考訳) トランスフォーマーモデルは自然言語処理において優れた性能を示している。 Transformerのドット製品は、単語間の相互作用をモデル化することができる。 しかし、このモデリングにはかなりの計算オーバーヘッドが伴う。 本稿では,Transformerに関連するメモリ計算トレードオフ,特にマルチヘッドアテンションを再検討し,Transformerのメモリ重大だが計算効率のよい代替手段を示す。 提案手法は多層パーセプトロン (mlp) である pairconnect と呼ばれ, 明示的なペアワイズワード埋め込みによって単語間のペアワイズ相互作用をモデル化する。 その結果、PairConnectはシンプルな埋め込みルックアップでセルフドット製品を置き換える。 MLPであるにもかかわらず、計算効率のよいPairConnectはTransformerよりも厳密に表現可能であることを示す。 言語モデリングタスクの実験から,PairConnect は Transformer と同等な結果が得られる一方で,推論に伴う計算コストを大幅に削減できる可能性が示唆された。

Transformer models have demonstrated superior performance in natural language processing. The dot product self-attention in Transformer allows us to model interactions between words. However, this modeling comes with significant computational overhead. In this work, we revisit the memory-compute trade-off associated with Transformer, particularly multi-head attention, and show a memory-heavy but significantly more compute-efficient alternative to Transformer. Our proposal, denoted as PairConnect, a multilayer perceptron (MLP), models the pairwise interaction between words by explicit pairwise word embeddings. As a result, PairConnect substitutes self dot product with a simple embedding lookup. We show mathematically that despite being an MLP, our compute-efficient PairConnect is strictly more expressive than Transformer. Our experiment on language modeling tasks suggests that PairConnect could achieve comparable results with Transformer while reducing the computational cost associated with inference significantly.
翻訳日:2021-06-16 15:32:19 公開日:2021-06-15
# 電子健康記録による機械学習は、バックドアトリガー攻撃に弱い

Machine Learning with Electronic Health Records is vulnerable to Backdoor Trigger Attacks ( http://arxiv.org/abs/2106.07925v1 )

ライセンス: Link先を確認
Byunggill Joe, Akshay Mehra, Insik Shin, and Jihun Hamm(参考訳) EHR(Electronic Health Records)は、診断情報、バイタルシグナル、ラボテスト、薬物管理、人口統計情報を含むデータから患者の結果を予測するための機械学習アルゴリズムのための豊富な情報を提供する。 例えば、予測死亡率や死亡率に基づいて患者を評価し、病院の効率的な資源管理に必要なリソースを予測する機械学習モデルを構築することができる。 本稿では,攻撃者がEHRによる機械学習予測を容易にかつ選択的に操作できることを,有毒なトレーニングデータを用いたバックドアアタックによって実証する。 さらに、私たちが生成する毒は、検出が難しい元のデータと統計的に類似した特徴を持ち、モデルに関する知識のない複数の機械学習モデルを攻撃することもできる。 生のERHデータの5%未満で,MIMIC-IIIデータベースによるロジスティック回帰,多層パーセプトロン,長短期記憶モデルによる死亡予測タスクにおいて,平均97%の攻撃成功率を達成した。

Electronic Health Records (EHRs) provide a wealth of information for machine learning algorithms to predict the patient outcome from the data including diagnostic information, vital signals, lab tests, drug administration, and demographic information. Machine learning models can be built, for example, to evaluate patients based on their predicted mortality or morbidity and to predict required resources for efficient resource management in hospitals. In this paper, we demonstrate that an attacker can manipulate the machine learning predictions with EHRs easily and selectively at test time by backdoor attacks with the poisoned training data. Furthermore, the poison we create has statistically similar features to the original data making it hard to detect, and can also attack multiple machine learning models without any knowledge of the models. With less than 5% of the raw EHR data poisoned, we achieve average attack success rates of 97% on mortality prediction tasks with MIMIC-III database against Logistic Regression, Multilayer Perceptron, and Long Short-term Memory models simultaneously.
翻訳日:2021-06-16 15:31:18 公開日:2021-06-15
# 線形MDPにおけるマルチタスク表現学習の力について

On the Power of Multitask Representation Learning in Linear MDP ( http://arxiv.org/abs/2106.08053v1 )

ライセンス: Link先を確認
Rui Lu, Gao Huang, Simon S. Du(参考訳) マルチタスク表現学習は強化学習(RL)において一般的なアプローチとなっているが、その理由と時期に関する理論的理解は依然として限られている。 本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的利点を生成モデルで解析する。 本稿では、エージェントが関数クラスから$\phi$を学習し、1タスクあたり$n$のデータを持つ$t$ソースタスクから$\phi$を学習し、学習した$\hat{\phi}$を使用して新しいタスクに必要なサンプル数を削減する。 まず、簡単な最小二乗アルゴリズムが $\tilde{O}(H^2\sqrt {\frac{\mathcal{C}(\Phi)^2 \kappa d}{NT}+\frac {\kappa d}{n}})$ sub-optimal というポリシーを学ぶことを証明する。 ここで$h$は計画の地平線であり、$\mathcal{c}(\phi)$は$\phi$の複雑性測度であり、$d$は表現の次元(通常$d\ll \mathcal{c}(\phi)$)であり、$n$は新しいタスクのサンプル数である。 したがって、必須の$n$ は 0 に近い部分最適性に対して $o(\kappa d h^4)$ であり、これはマルチタスク表現学習なしでは $o(\mathcal{c}(\phi)^2\kappa d h^4)$ よりもずっと小さく、その部分最適性ギャップは $\tilde{o}(h^2\sqrt{\frac{\kappa \mathcal{c}(\phi)^2d}{n}})$ である。 この理論は、サンプルの複雑さを減らすことにおけるマルチタスク表現学習の力を説明する。 さらに,高い試料効率を確保するため,LAFA基準の$\kappa$は小さくすべきである。 実際、$\kappa$は、新しいタスクのサンプリング分布によって大きく異なる。 これは、$\kappa$を$d$にのみ依存させることが、適応サンプリング技術の重要性を示している。 最後に,我々の理論的知見を裏付けるために,ノイズの多いグリッドワールド環境の実証結果を提供する。

While multitask representation learning has become a popular approach in reinforcement learning (RL), theoretical understanding of why and when it works remains limited. This paper presents analyses for the statistical benefit of multitask representation learning in linear Markov Decision Process (MDP) under a generative model. In this paper, we consider an agent to learn a representation function $\phi$ out of a function class $\Phi$ from $T$ source tasks with $N$ data per task, and then use the learned $\hat{\phi}$ to reduce the required number of sample for a new task. We first discover a \emph{Least-Activated-Feat ure-Abundance} (LAFA) criterion, denoted as $\kappa$, with which we prove that a straightforward least-square algorithm learns a policy which is $\tilde{O}(H^2\sqrt{\frac{\mathcal{C}(\Phi)^2 \kappa d}{NT}+\frac{\kappa d}{n}})$ sub-optimal. Here $H$ is the planning horizon, $\mathcal{C}(\Phi)$ is $\Phi$'s complexity measure, $d$ is the dimension of the representation (usually $d\ll \mathcal{C}(\Phi)$) and $n$ is the number of samples for the new task. Thus the required $n$ is $O(\kappa d H^4)$ for the sub-optimality to be close to zero, which is much smaller than $O(\mathcal{C}(\Phi)^2\kappa d H^4)$ in the setting without multitask representation learning, whose sub-optimality gap is $\tilde{O}(H^2\sqrt{\frac{\kappa \mathcal{C}(\Phi)^2d}{n}})$. This theoretically explains the power of multitask representation learning in reducing sample complexity. Further, we note that to ensure high sample efficiency, the LAFA criterion $\kappa$ should be small. In fact, $\kappa$ varies widely in magnitude depending on the different sampling distribution for new task. This indicates adaptive sampling technique is important to make $\kappa$ solely depend on $d$. Finally, we provide empirical results of a noisy grid-world environment to corroborate our theoretical findings.
翻訳日:2021-06-16 15:31:02 公開日:2021-06-15
# 近似ミスアプローチに基づく帰納的論理プログラミングのための対比的説明の生成

Generating Contrastive Explanations for Inductive Logic Programming Based on a Near Miss Approach ( http://arxiv.org/abs/2106.08064v1 )

ライセンス: Link先を確認
Johannes Rabold, Michael Siebers, Ute Schmid(参考訳) 最近の研究では、機械学習モデルの人間の理解可能な説明が注目を集めている。 しばしば、モデルの単純化や視覚化の形で説明される。 しかし、認知科学や初期のAI研究で示されているように、概念理解は、同じ反例を持つ概念に対して与えられたインスタンスのアライメントによって改善することもできる。 概念に属さない構造的に類似した例と、あるインスタンスを対比すると、概念メンバーシップに必要な特徴が強調される。 このような近距離ミスは、関係領域での学習のための効率的なガイダンスとしてWinston (1970) によって提案されている。 Inductive Logic Programming (\textsc{GeNME}) を用いて学習した関係概念に対する説明生成アルゴリズムを提案する。 このアルゴリズムは与えられたインスタンスの集合から近いミス例を特定し、これらの例を特定の正のインスタンスに近接度でランク付けする。 近いミスをカバーするが、元のインスタンスではない修正されたルールが説明として与えられる。 我々は、親族関係、視覚関係winston archesドメイン、ファイル管理を扱う実世界のドメインからなるよく知られたファミリードメインで \textsc{genme} を示す。 また,ルールベース,例に基づく人間の嗜好と,家族やアーチ領域におけるミスに近い説明を比較検討した心理実験を行った。

In recent research, human-understandable explanations of machine learning models have received a lot of attention. Often explanations are given in form of model simplifications or visualizations. However, as shown in cognitive science as well as in early AI research, concept understanding can also be improved by the alignment of a given instance for a concept with a similar counterexample. Contrasting a given instance with a structurally similar example which does not belong to the concept highlights what characteristics are necessary for concept membership. Such near misses have been proposed by Winston (1970) as efficient guidance for learning in relational domains. We introduce an explanation generation algorithm for relational concepts learned with Inductive Logic Programming (\textsc{GeNME}). The algorithm identifies near miss examples from a given set of instances and ranks these examples by their degree of closeness to a specific positive instance. A modified rule which covers the near miss but not the original instance is given as an explanation. We illustrate \textsc{GeNME} with the well known family domain consisting of kinship relations, the visual relational Winston arches domain and a real-world domain dealing with file management. We also present a psychological experiment comparing human preferences of rule-based, example-based, and near miss explanations in the family and the arches domains.
翻訳日:2021-06-16 15:30:16 公開日:2021-06-15
# ユニモーダルバンディットに対するトンプソンサンプリング

Thompson Sampling for Unimodal Bandits ( http://arxiv.org/abs/2106.08187v1 )

ライセンス: Link先を確認
Long Yang, Zhao Li, Zehong Hu, Shasha Ruan, Shijian Li, Gang Pan, Hongyang Chen(参考訳) 本稿では,半順序の腕に対して期待される報酬が一様である「emph{unimodal} bandits」に対するトンプソンサンプリングアルゴリズムを提案する。 各ステップにおいて、決定空間全体から探索するのではなく、一様構造をよりうまく活用するために、我々のアルゴリズムは、最も経験的平均推定値の高い腕の近傍にのみ後部分布に従って決定を行う。 理論上、ベルヌーイの報酬に対して、我々のアルゴリズムの後悔はユニモーダル・バンディットの下限に達することを証明し、漸近的に最適である。 ガウスの報酬に対して、我々のアルゴリズムの後悔は$\mathcal{O}(\log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。 大規模な実験は、合成データセットと実世界の応用の両方において提案アルゴリズムの有効性を示す。

In this paper, we propose a Thompson Sampling algorithm for \emph{unimodal} bandits, where the expected reward is unimodal over the partially ordered arms. To exploit the unimodal structure better, at each step, instead of exploration from the entire decision space, our algorithm makes decision according to posterior distribution only in the neighborhood of the arm that has the highest empirical mean estimate. We theoretically prove that, for Bernoulli rewards, the regret of our algorithm reaches the lower bound of unimodal bandits, thus it is asymptotically optimal. For Gaussian rewards, the regret of our algorithm is $\mathcal{O}(\log T)$, which is far better than standard Thompson Sampling algorithms. Extensive experiments demonstrate the effectiveness of the proposed algorithm on both synthetic data sets and the real-world applications.
翻訳日:2021-06-16 15:29:56 公開日:2021-06-15
# 差分プライバシーを用いたディープラーニングの収束性について

On the Convergence of Deep Learning with Differential Privacy ( http://arxiv.org/abs/2106.07830v1 )

ライセンス: Link先を確認
Zhiqi Bu, Hua Wang, Qi Long, Weijie J. Su(参考訳) 差分プライバシ(DP)を用いたディープラーニングでは、ニューラルネットワークは通常、非プライベートプライバシよりも収束の遅い(つまりパフォーマンスの低下)コストでプライバシを実現する。 この研究は、トレーニングダイナミクスのレンズとニューラルタンジェントカーネル(NTK)を通して、DPディープラーニングの最初の収束解析を提供する。 我々の収束理論は,DPトレーニングにおける2つの重要な要素 – サンプルごとのクリッピング(平らあるいは層単位で)とノイズ付加 – の効果をうまく特徴づける。 我々の分析は、DPディープラーニングをネットワークアーキテクチャや損失関数で理解するための一般的なフレームワークを開始するだけでなく、既存のローカルクリッピングと同じプライバシー保証を維持しながら、収束を大幅に改善する新たなクリッピング手法である、グローバルクリッピングを動機付けています。 理論的な結果の観点からは、サンプル単位のクリップングとntk行列の正確な接続を確立する。 勾配流,すなわち無限小学習率では,DPオプティマイザの雑音レベルが収束に影響を及ぼさないことを示す。 我々は,グローバルクリッピングによるDP勾配降下(GD)が,局所クリッピングによる既存のDP-GDに反するモノトン収束をゼロ損失に保証することを証明する。 特に、分析フレームワークは、DP-Adamなど、他のオプティマイザにも容易に拡張できます。 経験的に言えば、グローバルクリッピングを備えたDPオプティマイザは、広範囲の分類および回帰タスクで強く機能する。 特に、我々のグローバルクリッピングは、しばしば自信過剰で信頼性の低い既存のDP分類器とは対照的に、校正分類器の学習に驚くほど効果的である。 実装面では、Opacusライブラリに1行のコードを追加することで、新しいクリッピングを実現することができる。

In deep learning with differential privacy (DP), the neural network achieves the privacy usually at the cost of slower convergence (and thus lower performance) than its non-private counterpart. This work gives the first convergence analysis of the DP deep learning, through the lens of training dynamics and the neural tangent kernel (NTK). Our convergence theory successfully characterizes the effects of two key components in the DP training: the per-sample clipping (flat or layerwise) and the noise addition. Our analysis not only initiates a general principled framework to understand the DP deep learning with any network architecture and loss function, but also motivates a new clipping method -- the global clipping, that significantly improves the convergence while preserving the same privacy guarantee as the existing local clipping. In terms of theoretical results, we establish the precise connection between the per-sample clipping and NTK matrix. We show that in the gradient flow, i.e., with infinitesimal learning rate, the noise level of DP optimizers does not affect the convergence. We prove that DP gradient descent (GD) with global clipping guarantees the monotone convergence to zero loss, which can be violated by the existing DP-GD with local clipping. Notably, our analysis framework easily extends to other optimizers, e.g., DP-Adam. Empirically speaking, DP optimizers equipped with global clipping perform strongly on a wide range of classification and regression tasks. In particular, our global clipping is surprisingly effective at learning calibrated classifiers, in contrast to the existing DP classifiers which are oftentimes over-confident and unreliable. Implementation-wise, the new clipping can be realized by adding one line of code into the Opacus library.
翻訳日:2021-06-16 15:28:31 公開日:2021-06-15
# 生成モデルにおける分岐フロンティア:サンプル複雑性、量子化レベル、フロンティア積分

Divergence Frontiers for Generative Models: Sample Complexity, Quantization Level, and Frontier Integral ( http://arxiv.org/abs/2106.07898v1 )

ライセンス: Link先を確認
Lang Liu, Krishna Pillutla, Sean Welleck, Sewoong Oh, Yejin Choi, Zaid Harchaoui(参考訳) 深層生成モデルの壮大な成功は、その統計性能を測定するための定量的ツールを求めている。 ダイバージェンスフロンティアは、深層生成モデルに固有の品質多様性のトレードオフを測定する能力があるため、生成モデルの評価フレームワークとして最近提案されている。 しかし、データから推定される分岐フロンティアの統計的な挙動は今日まで不明である。 本稿では,分岐フロンティアのプラグイン推定器のサンプル複雑性の非漸近的境界を確立する。 その過程で,発散フロンティアの新たな統合要約を紹介する。 対応する非漸近境界を導出し、その計算から生じる2種類の近似誤差のバランスをとることにより、量子化レベルの選択について議論する。 また,good-turing estimatorのような平滑化分布推定器の統計性能を調べることにより,分岐フロンティアの枠組みを補強する。 自然言語処理とコンピュータビジョンの数値例を用いて理論的結果を示す。

The spectacular success of deep generative models calls for quantitative tools to measure their statistical performance. Divergence frontiers have recently been proposed as an evaluation framework for generative models, due to their ability to measure the quality-diversity trade-off inherent to deep generative modeling. However, the statistical behavior of divergence frontiers estimated from data remains unknown to this day. In this paper, we establish non-asymptotic bounds on the sample complexity of the plug-in estimator of divergence frontiers. Along the way, we introduce a novel integral summary of divergence frontiers. We derive the corresponding non-asymptotic bounds and discuss the choice of the quantization level by balancing the two types of approximation errors arisen from its computation. We also augment the divergence frontier framework by investigating the statistical performance of smoothed distribution estimators such as the Good-Turing estimator. We illustrate the theoretical results with numerical examples from natural language processing and computer vision.
翻訳日:2021-06-16 15:28:01 公開日:2021-06-15
# 類似した特徴を有するデータセットに適合するマルチクリトリアモデルに対する安定化尺度の適用

Employing an Adjusted Stability Measure for Multi-Criteria Model Fitting on Data Sets with Similar Features ( http://arxiv.org/abs/2106.08105v1 )

ライセンス: Link先を確認
Andrea Bommert, J\"org Rahnenf\"uhrer, Michel Lang(参考訳) 関連するすべての機能や冗長な機能は含まないが、予測精度の高いモデルに適合することは、同様の(例えば)データセットで難しい作業である。 非常に相関した)特徴です 本稿では,予測精度と特徴選択安定性に関して,予測モデルのハイパーパラメータを多基準でチューニングする手法を提案する。 本手法はシミュレーションと実データの両方に基づいて評価し,ハイパーパラメータの単一基準チューニングの標準手法と,最先端技術である「安定性選択」との比較を行った。 提案手法は,確立した2つのアプローチと比較して,同じあるいはより良い予測性能を実現する。 チューニング中の安定性を考えると、結果のモデルの予測精度は低下しない。 このアプローチでは、関係のない機能や冗長な機能を避けながら、関連する機能を選択することに成功しています。 単一分離アプローチは無関係あるいは冗長な特徴を避けることに失敗し、安定性選択アプローチは許容可能な予測精度を達成するのに十分な特徴の選択に失敗する。 提案手法では,多くの類似した特徴を持つデータセットに対して,特徴の選択安定性を調整された安定性尺度,すなわち特徴間の類似性を考慮した尺度で評価する必要がある。 類似した機能が少ないデータセットの場合、不調整の安定性は十分であり、計算が速くなる。

Fitting models with high predictive accuracy that include all relevant but no irrelevant or redundant features is a challenging task on data sets with similar (e.g. highly correlated) features. We propose the approach of tuning the hyperparameters of a predictive model in a multi-criteria fashion with respect to predictive accuracy and feature selection stability. We evaluate this approach based on both simulated and real data sets and we compare it to the standard approach of single-criteria tuning of the hyperparameters as well as to the state-of-the-art technique "stability selection". We conclude that our approach achieves the same or better predictive performance compared to the two established approaches. Considering the stability during tuning does not decrease the predictive accuracy of the resulting models. Our approach succeeds at selecting the relevant features while avoiding irrelevant or redundant features. The single-criteria approach fails at avoiding irrelevant or redundant features and the stability selection approach fails at selecting enough relevant features for achieving acceptable predictive accuracy. For our approach, for data sets with many similar features, the feature selection stability must be evaluated with an adjusted stability measure, that is, a measure that considers similarities between features. For data sets with only few similar features, an unadjusted stability measure suffices and is faster to compute.
翻訳日:2021-06-16 15:27:46 公開日:2021-06-15
# トランスフォーマによるカーネル識別

Kernel Identification Through Transformers ( http://arxiv.org/abs/2106.08185v1 )

ライセンス: Link先を確認
Fergus Simpson, Ian Davies, Vidhi Lalchand, Alessandro Vullo, Nicolas Durrande, Carl Rasmussen(参考訳) 核選択はガウス過程(gp)モデルの性能を決定する上で中心的な役割を担っており、選択された核はインダクティブバイアスとgpプリミティブの下での関数の事前サポートの両方を決定する。 この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。 ディープラーニングの最近の進歩からインスピレーションを得て、kitt: kernel identification through transformersという新しいアプローチを紹介します。 KITTはトランスフォーマーベースのアーキテクチャを用いて0.1秒未満でカーネルレコメンデーションを生成する。 我々は、既知のカーネルの語彙上で事前から生成された合成データを用いてモデルを訓練する。 KITTは自己認識機構の性質を活用することで、任意の次元の入力でデータセットを処理できる。 KITTによって選択されたカーネルは、様々な回帰ベンチマークのコレクションよりも高い性能を示す。

Kernel selection plays a central role in determining the performance of Gaussian Process (GP) models, as the chosen kernel determines both the inductive biases and prior support of functions under the GP prior. This work addresses the challenge of constructing custom kernel functions for high-dimensional GP regression models. Drawing inspiration from recent progress in deep learning, we introduce a novel approach named KITT: Kernel Identification Through Transformers. KITT exploits a transformer-based architecture to generate kernel recommendations in under 0.1 seconds, which is several orders of magnitude faster than conventional kernel search algorithms. We train our model using synthetic data generated from priors over a vocabulary of known kernels. By exploiting the nature of the self-attention mechanism, KITT is able to process datasets with inputs of arbitrary dimension. We demonstrate that kernels chosen by KITT yield strong performance over a diverse collection of regression benchmarks.
翻訳日:2021-06-16 15:27:28 公開日:2021-06-15
# RFpred Interval:ランダム林と隆起林との交点予測のためのRパッケージ

RFpredInterval: An R Package for Prediction Intervals with Random Forests and Boosted Forests ( http://arxiv.org/abs/2106.08217v1 )

ライセンス: Link先を確認
Cansu Alakus, Denis Larocque, Aurelie Labbe(参考訳) 多くの予測モデルと同様に、ランダム森林は新しい観測のポイント予測を提供する。 点予測の他に、予測の不確かさの定量化が重要である。 予測間隔は、ポイント予測の信頼性に関する情報を提供する。 我々は、ランダムな森林や森林の増生を伴う予測区間を構築するために、16の手法を統合した包括的RパッケージRFpredIntervalを開発した。 このパッケージに実装された手法は,Roy と Larocque (2020) が提案したランダムな森林で予測間隔を生成するために,PRBFと15の異なる変種で予測間隔を構築する新しい方法である。 本研究では,広範にシミュレーションを行い,実データ解析を適用して,提案手法の性能を10の既存手法と比較し,ランダムな森林で予測区間を構築する。 その結果,提案手法は競争力が高く,世界規模では競合手法よりも優れていた。

Like many predictive models, random forests provide a point prediction for a new observation. Besides the point prediction, it is important to quantify the uncertainty in the prediction. Prediction intervals provide information about the reliability of the point predictions. We have developed a comprehensive R package, RFpredInterval, that integrates 16 methods to build prediction intervals with random forests and boosted forests. The methods implemented in the package are a new method to build prediction intervals with boosted forests (PIBF) and 15 different variants to produce prediction intervals with random forests proposed by Roy and Larocque (2020). We perform an extensive simulation study and apply real data analyses to compare the performance of the proposed method to ten existing methods to build prediction intervals with random forests. The results show that the proposed method is very competitive and, globally, it outperforms the competing methods.
翻訳日:2021-06-16 15:27:13 公開日:2021-06-15
# 標準相関に基づく高速特徴選択

Canonical-Correlatio n-Based Fast Feature Selection ( http://arxiv.org/abs/2106.08247v1 )

ライセンス: Link先を確認
Sikai Zhang, Tingna Wang, Keith Worden, Elizabeth J. Cross(参考訳) 本稿では,特徴選択のための標準相関に基づくフィルタ手法を提案する。 2乗正準相関係数の和を特徴ランキング基準として採用する。 提案手法は,グリージー検索におけるランキング基準の計算速度を向上する。 特徴選択法のために開発された支持定理は、正準相関解析の理解の基礎となる。 実験研究では,提案手法の高速化を示すために合成データセットを用い,分類と回帰の両方において,提案する特徴ランキング基準の有効性を示すために8つの実データセットを適用した。 その結果,提案手法は定義に基づく手法よりもかなり高速であり,提案手法のランク付け基準は7つの相互情報に基づく基準と競合することがわかった。

This paper proposes a canonical-correlatio n-based filter method for feature selection. The sum of squared canonical correlation coefficients is adopted as the feature ranking criterion. The proposed method boosts the computational speed of the ranking criterion in greedy search. The supporting theorems developed for the feature selection method are fundamental to the understanding of the canonical correlation analysis. In empirical studies, a synthetic dataset is used to demonstrate the speed advantage of the proposed method, and eight real datasets are applied to show the effectiveness of the proposed feature ranking criterion in both classification and regression. The results show that the proposed method is considerably faster than the definition-based method, and the proposed ranking criterion is competitive compared with the seven mutual-information-b ased criteria.
翻訳日:2021-06-16 15:26:58 公開日:2021-06-15
# 深部確率生成モデルにおけるロバスト分布外検出

Robust Out-of-Distribution Detection on Deep Probabilistic Generative Models ( http://arxiv.org/abs/2106.07903v1 )

ライセンス: Link先を確認
Jaemoo Choi, Changyeon Yoon, Jeongwoo Bae, Myungjoo Kang(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、信頼性と安全性を確保するための機械学習システムにおいて重要なタスクである。 深い確率的生成モデルは、データサンプルの可能性を推定することでOODの検出を容易にする。 しかし、そのようなモデルは、しばしば不審に高い確率を特定の外れ値に割り当てる。 いくつかの最近の研究は、入力データの摂動によって生成される補助的なアウトリーチを持つニューラルネットワークをトレーニングすることでこの問題に対処している。 本稿では,特定のOODデータセットに対してこれらのアプローチが失敗することを明らかにする。 そこで我々は,外周露光を伴わない新しい検出基準を提案する。 我々は,従来の外乱露光法と比較して,画像の多様性に頑健であることが観察された。 さらに,提案手法では補助モデルも追加訓練も必要としない。 その代わり,本論文では,与えられた単一深度確率的生成モデルから真の特性を抽出するために,新しい視点で確率比統計を利用する。 また,高速な実装を実現するために,新しい数値近似を適用した。 最後に,様々な確率的生成モデルに関する包括的実験を行い,本手法が最先端の性能を実現することを示す。

Out-of-distribution (OOD) detection is an important task in machine learning systems for ensuring their reliability and safety. Deep probabilistic generative models facilitate OOD detection by estimating the likelihood of a data sample. However, such models frequently assign a suspiciously high likelihood to a specific outlier. Several recent works have addressed this issue by training a neural network with auxiliary outliers, which are generated by perturbing the input data. In this paper, we discover that these approaches fail for certain OOD datasets. Thus, we suggest a new detection metric that operates without outlier exposure. We observe that our metric is robust to diverse variations of an image compared to the previous outlier-exposing methods. Furthermore, our proposed score requires neither auxiliary models nor additional training. Instead, this paper utilizes the likelihood ratio statistic in a new perspective to extract genuine properties from the given single deep probabilistic generative model. We also apply a novel numerical approximation to enable fast implementation. Finally, we demonstrate comprehensive experiments on various probabilistic generative models and show that our method achieves state-of-the-art performance.
翻訳日:2021-06-16 15:26:22 公開日:2021-06-15
# 逆コントラスト損失によるクラス内多様性の促進による単一ソース領域の一般化

Encouraging Intra-Class Diversity Through a Reverse Contrastive Loss for Better Single-Source Domain Generalization ( http://arxiv.org/abs/2106.07916v1 )

ライセンス: Link先を確認
Thomas Duboudin (imagine), Emmanuel Dellandr\'ea, Corentin Abgrall, Gilles H\'enaff, Liming Chen(参考訳) 従来のディープラーニングアルゴリズムは、トレーニングデータの領域外でテストされると、一般化に失敗することが多い。 学習モデルがデプロイされると,データの分散がリアルタイムアプリケーションで動的に変化する可能性があるため,本論文では,テストドメインに関する情報が得られない単一トレーニング領域から,ディープラーニングアルゴリズムを一般化することを目的とした,単一ソースドメイン一般化(SDG)に関心がある。 まず、MNIST Color SDG-MPとMNIST Color SDG-UPという2つの単純なMNISTベースのSDGベンチマークを設計する。 これは、dgアルゴリズムのベンチマークにおいて、異なる相関係数と変動係数を混合し、成功や失敗要因を区別することの難しい現在のドメイン一般化(dg)ベンチマークとは対照的である。 我々は、MNIST Color SDG-MPという単純なベンチマークを用いて、最先端のSDGアルゴリズムをいくつか評価し、DGアルゴリズムの開発に10年を要したにもかかわらず、SDG-MPの問題はほとんど解決されていないことを示した。 また,SDG-MPに対処するため,クラス内多様性の促進と相関の少ないパターンの発見を目的としたコントラッシブ・ロスも提案し,本手法がMNIST Color SDG-MPベンチマークにおいて非常に有効であることを示す。

Traditional deep learning algorithms often fail to generalize when they are tested outside of the domain of training data. Because data distributions can change dynamically in real-life applications once a learned model is deployed, in this paper we are interested in single-source domain generalization (SDG) which aims to develop deep learning algorithms able to generalize from a single training domain where no information about the test domain is available at training time. Firstly, we design two simple MNISTbased SDG benchmarks, namely MNIST Color SDG-MP and MNIST Color SDG-UP, which highlight the two different fundamental SDG issues of increasing difficulties: 1) a class-correlated pattern in the training domain is missing (SDG-MP), or 2) uncorrelated with the class (SDG-UP), in the testing data domain. This is in sharp contrast with the current domain generalization (DG) benchmarks which mix up different correlation and variation factors and thereby make hard to disentangle success or failure factors when benchmarking DG algorithms. We further evaluate several state-of-the-art SDG algorithms through our simple benchmark, namely MNIST Color SDG-MP, and show that the issue SDG-MP is largely unsolved despite of a decade of efforts in developing DG algorithms. Finally, we also propose a partially reversed contrastive loss to encourage intra-class diversity and find less strongly correlated patterns, to deal with SDG-MP and show that the proposed approach is very effective on our MNIST Color SDG-MP benchmark.
翻訳日:2021-06-16 15:26:08 公開日:2021-06-15
# Cascading Convolutional Temporal Colour Constancy

Cascading Convolutional Temporal Colour Constancy ( http://arxiv.org/abs/2106.07955v1 )

ライセンス: Link先を確認
Matteo Rizzo, Cristina Conati, Daesik Jang, Hui Hu(参考訳) CCC(Computational Colour Constancy)は、1つ以上の照明器具の色を推定し、不要な彩色歪みを除去する。 多くの研究は、単一の画像上のCCCの照度推定に重点を置いており、相関画像(例えばビデオのフレーム)のシーケンスに固有の時間的情報を活用する試みは、TCC(Temporal Colour Constancy)と呼ばれるタスクにほとんどない。 TCCの最先端技術であるTCCNetは、CNNサブモジュールが生成したエンコーディングをシーケンス毎に集約するためにConvLSTMを使用するディープラーニングアーキテクチャである。 本アーキテクチャは, (i) CCCターゲティング画像の最先端手法である C4 を TCCNet サブモジュールに置換し, (ii) イルミネート推定の反復的改善を行うカスケード戦略を追加することにより, 異なるモデルで拡張する。 私たちは最近リリースされたTCCベンチマークでモデルをテストし、最先端を超える結果を得た。 照度推定にかかわるフレーム数の影響を解析した結果,数個の選択されたフレームでモデルを訓練し,同等の精度を維持して推定時間を短縮できることがわかった。

Computational Colour Constancy (CCC) consists of estimating the colour of one or more illuminants in a scene and using them to remove unwanted chromatic distortions. Much research has focused on illuminant estimation for CCC on single images, with few attempts of leveraging the temporal information intrinsic in sequences of correlated images (e.g., the frames in a video), a task known as Temporal Colour Constancy (TCC). The state-of-the-art for TCC is TCCNet, a deep-learning architecture that uses a ConvLSTM for aggregating the encodings produced by CNN submodules for each image in a sequence. We extend this architecture with different models obtained by (i) substituting the TCCNet submodules with C4, the state-of-the-art method for CCC targeting images; (ii) adding a cascading strategy to perform an iterative improvement of the estimate of the illuminant. We tested our models on the recently released TCC benchmark and achieved results that surpass the state-of-the-art. Analyzing the impact of the number of frames involved in illuminant estimation on performance, we show that it is possible to reduce inference time by training the models on few selected frames from the sequences while retaining comparable accuracy.
翻訳日:2021-06-16 15:25:29 公開日:2021-06-15
# 現代のニューラルネットワークの校正の再検討

Revisiting the Calibration of Modern Neural Networks ( http://arxiv.org/abs/2106.07998v1 )

ライセンス: Link先を確認
Matthias Minderer, Josip Djolonga, Rob Romijnders, Frances Hubis, Xiaohua Zhai, Neil Houlsby, Dustin Tran, Mario Lucic(参考訳) ニューラルネットワークの安全な適用には,予測不確実性(モデルキャリブレーション)の正確な推定が不可欠である。 現代のニューラルネットワークにおけるミスカバリレーションの例が数多く報告されており、より正確で新しいモデルが不正確な校正予測を生成する傾向が示唆されている。 本稿では,最新の画像分類モデルについて再考する。 モデルキャリブレーションと精度を体系的に関連付け,最新のモデル,特に畳み込みを使わないモデルが最適キャリブレーションであることを確認した。 分布シフトやモデルサイズによるキャリブレーションの減衰などの先行モデル世代で観測される傾向は、最近のアーキテクチャではあまり顕著ではない。 また,モデルサイズと事前学習量の差が完全には説明できないことを示し,アーキテクチャがキャリブレーション特性の主要な決定要因であることを示唆した。

Accurate estimation of predictive uncertainty (model calibration) is essential for the safe application of neural networks. Many instances of miscalibration in modern neural networks have been reported, suggesting a trend that newer, more accurate models produce poorly calibrated predictions. Here, we revisit this question for recent state-of-the-art image classification models. We systematically relate model calibration and accuracy, and find that the most recent models, notably those not using convolutions, are among the best calibrated. Trends observed in prior model generations, such as decay of calibration with distribution shift or model size, are less pronounced in recent architectures. We also show that model size and amount of pretraining do not fully explain these differences, suggesting that architecture is a major determinant of calibration properties.
翻訳日:2021-06-16 15:25:04 公開日:2021-06-15
# 分解学習による複数タスクのコンテキスト化

Contextualizing Multiple Tasks via Learning to Decompose ( http://arxiv.org/abs/2106.08112v1 )

ライセンス: Link先を確認
Han-Jia Ye, Da-Wei Zhou, Lanqing Hong, Zhenguo Li, Xiu-Shen Wei, De-Chuan Zhan(参考訳) 1つの例は複数の肖像を持ち、異なる文脈で他の人物との多様な関係を明らかにすることができる。 これらの曖昧さは、タスクの中にひとつの概念や混合概念が存在する場合、一般化可能なモデルを学ぶのが困難になる。 本稿では,概念発見のためのメタラーニング複数マップを通じてモデルを文脈化し,そのコンテキストに基づいてインスタンスの表現を分解し,適応する2つのケースに対する学習ネットワーク(LeadNet)の一般的なアプローチを提案する。 サンプルされた疑似タスクのインスタンス上の複数の潜在コンポーネントに対する包括的なビューを取ることで、leadnetはオブジェクト内とオブジェクト間のリッチなセマンティクスを組み込むことで、正しい概念を自動的に選択することを学びます。 leadnetは様々なアプリケーションにおいてその優位性を示しており、混乱したタスクの複数のビューの探索、配布外認識、少数ショットの画像分類などがある。

One single instance could possess multiple portraits and reveal diverse relationships with others according to different contexts. Those ambiguities increase the difficulty of learning a generalizable model when there exists one concept or mixed concepts in a task. We propose a general approach Learning to Decompose Network (LeadNet) for both two cases, which contextualizes a model through meta-learning multiple maps for concepts discovery -- the representations of instances are decomposed and adapted conditioned on the contexts. Through taking a holistic view over multiple latent components over instances in a sampled pseudo task, LeadNet learns to automatically select the right concept via incorporating those rich semantics inside and between objects. LeadNet demonstrates its superiority in various applications, including exploring multiple views of confusing tasks, out-of-distribution recognition, and few-shot image classification.
翻訳日:2021-06-16 15:24:51 公開日:2021-06-15
# beit: 画像トランスフォーマーのbertプリトレーニング

BEiT: BERT Pre-Training of Image Transformers ( http://arxiv.org/abs/2106.08254v1 )

ライセンス: Link先を確認
Hangbo Bao, Li Dong, Furu Wei(参考訳) 本稿では,画像変換器の双方向エンコーダ表現を表す自己教師型視覚表現モデルBEiTを紹介する。 自然言語処理領域で開発されたBERTに続いて,視覚変換器を事前訓練するためのマスク付き画像モデリングタスクを提案する。 具体的には、各画像はトレーニング前の2つのビュー、すなわち画像パッチ(16x16ピクセルなど)と視覚トークン(すなわち離散トークン)を持つ。 まず最初にオリジナル画像を視覚トークンに"トークン"します。 その後、画像パッチをランダムにマスクして、背骨トランスフォーマーに入力します。 事前トレーニングの目的は、破損した画像パッチに基づいて元のビジュアルトークンを復元することである。 BEiTを事前訓練した後、トレーニング済みエンコーダにタスク層を付加することにより、下流タスクのモデルパラメータを直接微調整する。 画像分類とセマンティックセグメンテーションの実験結果から,従来の事前学習手法と競合する結果が得られた。 例えば、ベースサイズのBEiTはImageNet-1Kで83.2%のTop-1精度を達成し、同じ設定でDeiTトレーニング(81.8%)で大幅に上回っている。 さらに、大型のBEiTは、ImageNet-1Kのみを使用して86.3%を獲得し、ImageNet-22K(85.2%)の教師付き事前トレーニングでViT-Lを上回っている。 コードと事前訓練されたモデルはhttps://aka.ms/beit. com/で入手できる。

We introduce a self-supervised vision representation model BEiT, which stands for Bidirectional Encoder representation from Image Transformers. Following BERT developed in the natural language processing area, we propose a masked image modeling task to pretrain vision Transformers. Specifically, each image has two views in our pre-training, i.e, image patches (such as 16x16 pixels), and visual tokens (i.e., discrete tokens). We first "tokenize" the original image into visual tokens. Then we randomly mask some image patches and fed them into the backbone Transformer. The pre-training objective is to recover the original visual tokens based on the corrupted image patches. After pre-training BEiT, we directly fine-tune the model parameters on downstream tasks by appending task layers upon the pretrained encoder. Experimental results on image classification and semantic segmentation show that our model achieves competitive results with previous pre-training methods. For example, base-size BEiT achieves 83.2% top-1 accuracy on ImageNet-1K, significantly outperforming from-scratch DeiT training (81.8%) with the same setup. Moreover, large-size BEiT obtains 86.3% only using ImageNet-1K, even outperforming ViT-L with supervised pre-training on ImageNet-22K (85.2%). The code and pretrained models are available at https://aka.ms/beit.
翻訳日:2021-06-16 15:24:36 公開日:2021-06-15
# 合成地震画像データセットにおける塩類セマンティックセグメンテーションのためのデータ拡張サンプルの生成

Generating Data Augmentation samples for Semantic Segmentation of Salt Bodies in a Synthetic Seismic Image Dataset ( http://arxiv.org/abs/2106.08269v1 )

ライセンス: Link先を確認
Luis Felipe Henriques, S\'ergio Colcher, Ruy Luiz Milidi\'u, Andr\'e Bulc\~ao, Pablo Barros(参考訳) 今日では、塩類のセマンティックセグメンテーション(セマンティックセグメンテーション)とも呼ばれ、地球物理学の最も困難な課題となっている。 したがって、大きな塩分を識別することは難しいことで知られており、炭化水素貯水池の特定や掘削経路の計画に不可欠である。 本研究では,2つの生成モデルを訓練し,ソルト体のセグメンテーションのための地震画像データセットにおけるサンプル数を増加させるデータ拡張法を提案する。 提案手法では, 深層学習モデルを用いて, データ拡張のための2組の地震画像パッチと各ソルトマスクを生成する。 最初のモデルは変分オートエンコーダで、ソルトボディマスクのパッチを生成する。 2つ目は条件正規化フローモデルであり、生成したマスクを入力として受信し、関連する地震画像パッチを生成する。 提案手法は, 2つの合成地震画像から得られたデータセットを用いて, セマンティックセグメンテーションのための10種類の最先端モデルの性能を比較して評価する。 提案手法では, 比較モデル全体のIoU平均値が8.57%向上した。 最善の結果はdeeplabv3+モデルで、トレーニング時にiouスコア95.17%を示します。 さらに, 提案手法は6つのデータ拡張法より優れており, 弾性変換によるDAの構成により, 比較において最も重要な9.77%の改善が達成された。 最後に,提案手法は,より小さなコンテキストサイズで得られた結果に匹敵する結果を得ることにより,より広いコンテキストサイズに適応できることを示す。

Nowadays, subsurface salt body localization and delineation, also called semantic segmentation of salt bodies, are among the most challenging geophysicist tasks. Thus, identifying large salt bodies is notoriously tricky and is crucial for identifying hydrocarbon reservoirs and drill path planning. This work proposes a Data Augmentation method based on training two generative models to augment the number of samples in a seismic image dataset for the semantic segmentation of salt bodies. Our method uses deep learning models to generate pairs of seismic image patches and their respective salt masks for the Data Augmentation. The first model is a Variational Autoencoder and is responsible for generating patches of salt body masks. The second is a Conditional Normalizing Flow model, which receives the generated masks as inputs and generates the associated seismic image patches. We evaluate the proposed method by comparing the performance of ten distinct state-of-the-art models for semantic segmentation, trained with and without the generated augmentations, in a dataset from two synthetic seismic images. The proposed methodology yields an average improvement of 8.57% in the IoU metric across all compared models. The best result is achieved by a DeeplabV3+ model variant, which presents an IoU score of 95.17% when trained with our augmentations. Additionally, our proposal outperformed six selected data augmentation methods, and the most significant improvement in the comparison, of 9.77%, is achieved by composing our DA with augmentations from an elastic transformation. At last, we show that the proposed method is adaptable for a larger context size by achieving results comparable to the obtained on the smaller context size.
翻訳日:2021-06-16 15:24:13 公開日:2021-06-15
# 半教師付き話者識別のためのグラフベースラベル伝搬

Graph-based Label Propagation for Semi-Supervised Speaker Identification ( http://arxiv.org/abs/2106.08207v1 )

ライセンス: Link先を確認
Long Chen, Venkatesh Ravichandran, Andreas Stolcke(参考訳) 家庭のシナリオ(例えばスマートスピーカー)における話者識別は、典型的にはわずかに登録された発話に基づいているが、ラベルなしデータのより大きなセットに基づいている。 本研究では,家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。 話者識別埋め込みに焦点を当てた話者認識におけるほとんどの作業とは対照的に、本研究は話者ラベル推論(scoring)に焦点を当てている。 事前学習した埋め込み抽出器により、グラフベースの学習により、ラベル付きおよびラベルなし両方の発話に関する情報を統合できる。 それぞれの発話をグラフノードとして考慮し,対関係の発話類似度スコアをエッジウェイトとして表現する。 グラフは家庭ごとに構築され、話者アイデンティティはグローバルな一貫性基準を最適化するためにラベルのないノードに伝播される。 我々は,VoxCelebデータセット上で実験を行い,この手法が未ラベルデータを有効に活用し,擬似ラベルに基づく半教師付き変種と2つの最先端評価手法と比較して話者識別精度を向上させることを示した。

Speaker identification in the household scenario (e.g., for smart speakers) is typically based on only a few enrollment utterances but a much larger set of unlabeled data, suggesting semisupervised learning to improve speaker profiles. We propose a graph-based semi-supervised learning approach for speaker identification in the household scenario, to leverage the unlabeled speech samples. In contrast to most of the works in speaker recognition that focus on speaker-discriminati ve embeddings, this work focuses on speaker label inference (scoring). Given a pre-trained embedding extractor, graph-based learning allows us to integrate information about both labeled and unlabeled utterances. Considering each utterance as a graph node, we represent pairwise utterance similarity scores as edge weights. Graphs are constructed per household, and speaker identities are propagated to unlabeled nodes to optimize a global consistency criterion. We show in experiments on the VoxCeleb dataset that this approach makes effective use of unlabeled data and improves speaker identification accuracy compared to two state-of-the-art scoring methods as well as their semi-supervised variants based on pseudo-labels.
翻訳日:2021-06-16 15:23:23 公開日:2021-06-15
# ディープラーニングニューラルネットワークを用いたサイト非依存3次元線量分布予測

Site-Agnostic 3D Dose Distribution Prediction with Deep Learning Neural Networks ( http://arxiv.org/abs/2106.07825v1 )

ライセンス: Link先を確認
Maryam Mashayekhi, Itzel Ramirez Tapia, Anjali Balagopal, Xinran Zhong, Azar Sadeghnejad Barkousaraie, Rafe McBeth, Mu-Han Lin, Steve Jiang, Dan Nguyen(参考訳) 典型的には、現在の線量予測モデルは少量のデータに限られており、特定の場所で再訓練する必要があるため、しばしば準最適性能をもたらす。 そこで我々は,どの治療現場からのデータも活用できるディープラーニングを用いた3次元線量分布予測モデルを提案する。 提案したモデルを新しいターゲット治療サイトに適用するには,モデルを新しいデータに簡単に微調整するだけで,モデル入力チャネルやパラメータの変更は不要である。 これにより、小さなトレーニングデータセットであっても、別の治療現場に効率的に適応することができる。

Typically, the current dose prediction models are limited to small amounts of data and require re-training for a specific site, often leading to suboptimal performance. We propose a site-agnostic, 3D dose distribution prediction model using deep learning that can leverage data from any treatment site, thus increasing the total data available to train the model. Applying our proposed model to a new target treatment site requires only a brief fine-tuning of the model to the new data and involves no modifications to the model input channels or its parameters. Thus, it can be efficiently adapted to a different treatment site, even with a small training dataset.
翻訳日:2021-06-16 15:22:37 公開日:2021-06-15
# プライベートパーソナライズ層を用いた連合学習のプライバシー評価

Privacy Assessment of Federated Learning using Private Personalized Layers ( http://arxiv.org/abs/2106.08060v1 )

ライセンス: Link先を確認
Th\'eo Jourdan, Antoine Boutet, Carole Frindel(参考訳) Federated Learning(FL)は、データを共有することなく、複数の参加者にまたがって学習モデルをトレーニングするコラボレーティブスキームである。 FLはユーザのプライバシーを強化するための明確な一歩だが、異なる推論攻撃が開発されている。 本稿では,プライベートパーソナライズ層を用いたfl方式の実用性とプライバシーのトレードオフを定量化する。 この方式は局所的パーソナライズによりモデルの精度を向上させるための局所的適応として提案されているが、サーバと交換したモデルに関する情報を最小限に抑えるという利点もある。 しかし、そのようなスキームのプライバシーは決して定量化されていない。 動作センサを用いた評価では,モデルの収束を高速化し,標準FL方式と比較して全ユーザの精度をわずかに向上すると同時に,局所微分プライバシーを用いたFL方式に比べて属性推定とメンバシップ推論の両方を防止できることがわかった。

Federated Learning (FL) is a collaborative scheme to train a learning model across multiple participants without sharing data. While FL is a clear step forward towards enforcing users' privacy, different inference attacks have been developed. In this paper, we quantify the utility and privacy trade-off of a FL scheme using private personalized layers. While this scheme has been proposed as local adaptation to improve the accuracy of the model through local personalization, it has also the advantage to minimize the information about the model exchanged with the server. However, the privacy of such a scheme has never been quantified. Our evaluations using motion sensor dataset show that personalized layers speed up the convergence of the model and slightly improve the accuracy for all users compared to a standard FL scheme while better preventing both attribute and membership inferences compared to a FL scheme using local differential privacy.
翻訳日:2021-06-16 15:22:27 公開日:2021-06-15
# 超関係知識グラフ上のクエリ埋め込み

Query Embedding on Hyper-relational Knowledge Graphs ( http://arxiv.org/abs/2106.08166v1 )

ライセンス: Link先を確認
Dimitrios Alivanistos and Max Berrendorf and Michael Cochez and Mikhail Galkin(参考訳) マルチホップ論理推論は知識グラフ(KG)における表現学習の分野で確立された問題である。 これは、ワンホップリンク予測と、他のより複雑な論理クエリの両方を仮定する。 既存のアルゴリズムは古典的な三重項グラフのみで動作するが、現代のkgはハイパーリレーショナルモデリングパラダイムを採用していることが多い。 このパラダイムでは、型付きエッジは、事実に対してきめ細かいコンテキストを提供する修飾子として知られるいくつかのキー-値対を持つ。 クエリでは、このコンテキストは関係の意味を修飾し、通常、応答集合を減少させる。 ハイパーリレーショナルクエリは実世界のkgアプリケーションでしばしば観察されるが、既存の近似クエリ応答のアプローチでは修飾子ペアは使用できない。 本研究では,このギャップを埋めてマルチホップ推論問題をハイパーリレーショナルなKGに拡張し,新しいタイプの複雑なクエリに対処する。 グラフニューラルネットワークの最近の進歩とクエリ埋め込み技術に基づき,ハイパーリレーショナルな結合クエリの埋め込みと応答方法について検討する。 さらに,このような問合せに応答する手法を提案するとともに,各問合せパターンの多様さに対して,問合せ応答を改善する方法を提案する。

Multi-hop logical reasoning is an established problem in the field of representation learning on knowledge graphs (KGs). It subsumes both one-hop link prediction as well as other more complex types of logical queries. Existing algorithms operate only on classical, triple-based graphs, whereas modern KGs often employ a hyper-relational modeling paradigm. In this paradigm, typed edges may have several key-value pairs known as qualifiers that provide fine-grained context for facts. In queries, this context modifies the meaning of relations, and usually reduces the answer set. Hyper-relational queries are often observed in real-world KG applications, and existing approaches for approximate query answering cannot make use of qualifier pairs. In this work, we bridge this gap and extend the multi-hop reasoning problem to hyper-relational KGs allowing to tackle this new type of complex queries. Building upon recent advancements in Graph Neural Networks and query embedding techniques, we study how to embed and answer hyper-relational conjunctive queries. Besides that, we propose a method to answer such queries and demonstrate in our experiments that qualifiers improve query answering on a diverse set of query patterns.
翻訳日:2021-06-16 15:22:08 公開日:2021-06-15
# オンラインサブモジュラー最大化のための後悔の限界の改善

Improved Regret Bounds for Online Submodular Maximization ( http://arxiv.org/abs/2106.07836v1 )

ライセンス: Link先を確認
Omid Sadeghi, Prasanna Raut and Maryam Fazel(参考訳) 本稿では、各ステップ $t\in[t]$ において、固定凸およびコンパクトな領域セット $\mathcal{k}$ から、アルゴリズムがアクション $x_t$ を選択することで、$t$ ラウンドを超えるオンライン最適化問題を考える。 ユーティリティ関数 $f_t(\cdot)$ が明らかになり、アルゴリズムはペイオフ $f_t(x_t)$ を受け取る。 この問題は以前、ユーティリティが反対に選択された単調のdr-サブモジュラー関数であり、$\mathcal{o}(\sqrt{t})$ regret boundsが導かれるという仮定の下で研究されてきた。 まず、強いDR-部分モジュラ函数のクラスを特徴付け、次に、次の新しいオンライン設定に対する後悔境界を導出する:$(1)$\{f_t\}_{t=1}^T$ is monotone strong DR-submodular and selected adversarially, $(2)$$$\{f_t\}_{t=1}^T$ are monotone submodular (一方平均$$\frac{1}{T}\sum_{t=1}^T f_t$ is strong DR-submodular) は、逆数によって選択されるが、$(3)$\{f_t\}_{t=1}^T$は、一様ランダム順序で現れる。 未知の分布 $f_t\sim \mathcal{d}$ ここで期待される関数 $f(\cdot)=\mathbb{e}_{f_t\sim\mathcal{d}}[f_t(\cdot)]$ は単調 dr-submodular である。 $(1) の場合、最初の対数的後悔境界を得る。 第2の枠組みに関して、高い確率で同様の対数境界を得ることができることを示す。 最後に i. i. d. モデルでは、期待と高い確率の両方において、確率的後悔の束縛を$\tilde{\mathcal{o}}(\sqrt{t})$というアルゴリズムを提供する。 実験の結果, 上記の3つの設定において, 従来の手法よりも優れたアルゴリズムが得られた。

In this paper, we consider an online optimization problem over $T$ rounds where at each step $t\in[T]$, the algorithm chooses an action $x_t$ from the fixed convex and compact domain set $\mathcal{K}$. A utility function $f_t(\cdot)$ is then revealed and the algorithm receives the payoff $f_t(x_t)$. This problem has been previously studied under the assumption that the utilities are adversarially chosen monotone DR-submodular functions and $\mathcal{O}(\sqrt{T})$ regret bounds have been derived. We first characterize the class of strongly DR-submodular functions and then, we derive regret bounds for the following new online settings: $(1)$ $\{f_t\}_{t=1}^T$ are monotone strongly DR-submodular and chosen adversarially, $(2)$ $\{f_t\}_{t=1}^T$ are monotone submodular (while the average $\frac{1}{T}\sum_{t=1}^T f_t$ is strongly DR-submodular) and chosen by an adversary but they arrive in a uniformly random order, $(3)$ $\{f_t\}_{t=1}^T$ are drawn i.i.d. from some unknown distribution $f_t\sim \mathcal{D}$ where the expected function $f(\cdot)=\mathbb{E}_{f_t\sim\mathcal{D}}[f_t(\cdot)]$ is monotone DR-submodular. For $(1)$, we obtain the first logarithmic regret bounds. In terms of the second framework, we show that it is possible to obtain similar logarithmic bounds with high probability. Finally, for the i.i.d. model, we provide algorithms with $\tilde{\mathcal{O}}(\sqrt{T})$ stochastic regret bound, both in expectation and with high probability. Experimental results demonstrate that our algorithms outperform the previous techniques in the aforementioned three settings.
翻訳日:2021-06-16 15:21:14 公開日:2021-06-15
# ニューラルネットワーク同定とベイズフィルタによるサイバー物理システムの時系列異常検出

Time Series Anomaly Detection for Cyber-physical Systems via Neural System Identification and Bayesian Filtering ( http://arxiv.org/abs/2106.07992v1 )

ライセンス: Link先を確認
Cheng Feng, Pengwei Tian(参考訳) AIoT技術の最近の進歩は、サイバー物理システム(CPS)の運用障害を検出するために機械学習アルゴリズムを活用する人気が高まっている。 基本的な形態では、異常検出モジュールは物理プラントからセンサ計測とアクチュエータ状態を監視し、これらの測定の異常を検出して異常動作状態を特定する。 にもかかわらず、CPSの効果的な異常検出モデルの構築は、非常に複雑なシステムダイナミクスと未知のセンサノイズの存在下で、正確に異常を検出する必要があるため、かなり難しい。 In this work, we propose a novel time series anomaly detection method called Neural System Identification and Bayesian Filtering (NSIBF) in which a specially crafted neural network architecture is posed for system identification, i.e., capturing the dynamics of CPS in a dynamical state-space model; then a Bayesian filtering algorithm is naturally applied on top of the "identified" state-space model for robust anomaly detection by tracking the uncertainty of the hidden state of the system recursively over time. 提案手法を実世界の3つのCPSデータセットで定性的かつ定量的に評価した結果,NSIBFは最先端の手法と良好に比較でき,CPSにおける異常検出の大幅な改善を示す。

Recent advances in AIoT technologies have led to an increasing popularity of utilizing machine learning algorithms to detect operational failures for cyber-physical systems (CPS). In its basic form, an anomaly detection module monitors the sensor measurements and actuator states from the physical plant, and detects anomalies in these measurements to identify abnormal operation status. Nevertheless, building effective anomaly detection models for CPS is rather challenging as the model has to accurately detect anomalies in presence of highly complicated system dynamics and unknown amount of sensor noise. In this work, we propose a novel time series anomaly detection method called Neural System Identification and Bayesian Filtering (NSIBF) in which a specially crafted neural network architecture is posed for system identification, i.e., capturing the dynamics of CPS in a dynamical state-space model; then a Bayesian filtering algorithm is naturally applied on top of the "identified" state-space model for robust anomaly detection by tracking the uncertainty of the hidden state of the system recursively over time. We provide qualitative as well as quantitative experiments with the proposed method on a synthetic and three real-world CPS datasets, showing that NSIBF compares favorably to the state-of-the-art methods with considerable improvements on anomaly detection in CPS.
翻訳日:2021-06-16 15:20:25 公開日:2021-06-15
# 教師・学生ネットワークにおけるカリキュラム学習の分析理論

An Analytical Theory of Curriculum Learning in Teacher-Student Networks ( http://arxiv.org/abs/2106.08068v1 )

ライセンス: Link先を確認
Luca Saglietti, Stefano Sarao Mannelli, and Andrew Saxe(参考訳) 人間や動物では、カリキュラムの学習 -- キュレートされた順序でデータを提示する -- が、迅速な学習と効果的な教育に不可欠である。 しかし機械学習では、カリキュラムは広く使われておらず、経験上は適度な利益しか得られない。 カリキュラムの重要性に対するこの重大な違いは、基本的な理論的疑問を提起する: カリキュラム学習がいつ、なぜ役に立つのか? 本研究では,統計物理学的手法を用いて,カリキュラム学習のプロトタイプ的ニューラルネットワークモデルを高次元で解析する。 カリキュラムは原則としてモデルの学習速度と漸近性能の両方を変えることができる。 前者について,オンライン学習環境の詳細な説明を行い,カリキュラムが学習を緩やかに高速化できるという長年の実験的な観察を確認した。 後者を学習するために,ネットワークは,様々な難易度のあるデータセットスライスに基づく連続的な学習段階の収束を訓練するバッチ学習環境での性能を導出する。 通常の訓練損失では、カリキュラムは経験的な観察に従って一般化の恩恵を与えない。 しかし, 学習段階を単純なガウス前処理で結びつけることで, カリキュラムがテスト性能に大きな改善をもたらすことを示した。 分析的記述の削減は、明らかに実証的な結果と、カリキュラムの学習が最大の利益をもたらす痕跡体制の整合に役立ちます。 より広範に,カリキュラムの完全活用には,カリキュラム境界における損失関数の明示的な変更が必要である可能性が示唆された。

In humans and animals, curriculum learning -- presenting data in a curated order - is critical to rapid learning and effective pedagogy. Yet in machine learning, curricula are not widely used and empirically often yield only moderate benefits. This stark difference in the importance of curriculum raises a fundamental theoretical question: when and why does curriculum learning help? In this work, we analyse a prototypical neural network model of curriculum learning in the high-dimensional limit, employing statistical physics methods. Curricula could in principle change both the learning speed and asymptotic performance of a model. To study the former, we provide an exact description of the online learning setting, confirming the long-standing experimental observation that curricula can modestly speed up learning. To study the latter, we derive performance in a batch learning setting, in which a network trains to convergence in successive phases of learning on dataset slices of varying difficulty. With standard training losses, curriculum does not provide generalisation benefit, in line with empirical observations. However, we show that by connecting different learning phases through simple Gaussian priors, curriculum can yield a large improvement in test performance. Taken together, our reduced analytical descriptions help reconcile apparently conflicting empirical results and trace regimes where curriculum learning yields the largest gains. More broadly, our results suggest that fully exploiting a curriculum may require explicit changes to the loss function at curriculum boundaries.
翻訳日:2021-06-16 15:20:06 公開日:2021-06-15
# 反現実的推論・データ統合・公正性のための後方のコントラスト混合

Contrastive Mixture of Posteriors for Counterfactual Inference, Data Integration and Fairness ( http://arxiv.org/abs/2106.08161v1 )

ライセンス: Link先を確認
Adam Foster, \'Arpi Vez\'er, Craig A Glastonbury, P\'aid\'i Creed, Sam Abujudeh, Aaron Sim(参考訳) バッチ効果補正、データ統合、反ファクト推論といった課題に対処できるデータの意味的な表現を学習することは、計算生物学を含む多くの領域において中心的な問題である。 本研究では,条件変数に依存しない表現の学習という,これらの課題を統一する数学的原理を考察する。 そこで我々は,この独立を強制するために,新規な不正調整ペナルティを用いたContrastive Mixture of Posteriors (CoMP)法を提案する。 このペナルティは、MDDのような外部の不一致対策を用いて潜伏空間の独立性を確保する以前の研究とは異なり、変分後部自体の混合によって定義される。 特に潜在空間に複雑な大域構造が存在する場合、comp は以前のアプローチと比較して魅力的な理論的性質を持つ。 さらに,ヒト腫瘍サンプルを癌細胞株と整列させ,単一細胞RNAシークエンシングデータに対する反実的推論を行うという課題を含む,現実的な課題に対する技術パフォーマンスの実態を実証する。 同時に、公正表現学習の文献と類似点を見つけ、公正かつ表現力のある潜在表現の学習において、CoMPが競争力を持つことを示す。

Learning meaningful representations of data that can address challenges such as batch effect correction, data integration and counterfactual inference is a central problem in many domains including computational biology. Adopting a Conditional VAE framework, we identify the mathematical principle that unites these challenges: learning a representation that is marginally independent of a condition variable. We therefore propose the Contrastive Mixture of Posteriors (CoMP) method that uses a novel misalignment penalty to enforce this independence. This penalty is defined in terms of mixtures of the variational posteriors themselves, unlike prior work which uses external discrepancy measures such as MMD to ensure independence in latent space. We show that CoMP has attractive theoretical properties compared to previous approaches, especially when there is complex global structure in latent space. We further demonstrate state of the art performance on a number of real-world problems, including the challenging tasks of aligning human tumour samples with cancer cell-lines and performing counterfactual inference on single-cell RNA sequencing data. Incidentally, we find parallels with the fair representation learning literature, and demonstrate CoMP has competitive performance in learning fair yet expressive latent representations.
翻訳日:2021-06-16 15:19:43 公開日:2021-06-15
# 画像からの連続制御のためのキーポイント表現のエンドツーエンド学習

End-to-End Learning of Keypoint Representations for Continuous Control from Images ( http://arxiv.org/abs/2106.07995v1 )

ライセンス: Link先を確認
Rinu Boney, Alexander Ilin, Juho Kannala(参考訳) 視覚を含む多くの制御問題では、シーン内のオブジェクトの位置から最適な制御を推測することができる。 この情報は入力画像内の空間的位置のリストであるキーポイントを使って表現することができる。 これまでの研究によると、エンコーダ-デコーダアーキテクチャを使用した教師なし事前トレーニングで学んだキーポイント表現は、制御タスクに優れた機能を提供する。 本稿では,教師なしの事前学習やデコーダ,あるいは追加の損失を必要とせずに,エンドツーエンドで効率的なキーポイント表現を学習できることを示す。 提案アーキテクチャは,推定キーポイントの座標を直接ソフトアクター批判エージェントに供給する,可変キーポイント抽出器で構成されている。 提案アルゴリズムはDeepMind Control Suiteタスクの最先端技術に競争力を与える。

In many control problems that include vision, optimal controls can be inferred from the location of the objects in the scene. This information can be represented using keypoints, which is a list of spatial locations in the input image. Previous works show that keypoint representations learned during unsupervised pre-training using encoder-decoder architectures can provide good features for control tasks. In this paper, we show that it is possible to learn efficient keypoint representations end-to-end, without the need for unsupervised pre-training, decoders, or additional losses. Our proposed architecture consists of a differentiable keypoint extractor that feeds the coordinates of the estimated keypoints directly to a soft actor-critic agent. The proposed algorithm yields performance competitive to the state-of-the art on DeepMind Control Suite tasks.
翻訳日:2021-06-16 15:19:22 公開日:2021-06-15
# 圧縮ビデオの知覚的インスパイアによる超解像

Perceptually-inspire d super-resolution of compressed videos ( http://arxiv.org/abs/2106.08147v1 )

ライセンス: Link先を確認
Di Ma, Mariana Afonso, Fan Zhang and David R. Bull(参考訳) 空間分解能適応は、符号化効率を高めるためにしばしばビデオ圧縮に用いられている技法である。 このアプローチは、入力ビデオの低解像度バージョンを符号化し、復号時に元の解像度を再構成する。 従来のアップサンプリングフィルタの代わりに、近年の研究では、畳み込みニューラルネットワーク(cnns)に基づく高度な超解像法を用いて、再構成品質をさらに向上している。 これらのアプローチは通常、このタイプの損失メトリックが主観的な意見とうまく相関しないにもかかわらず、平均二乗誤差(mse)のようなピクセルベースの損失を最小化するために訓練される。 本稿では, 知覚損失機能を有する圧縮コンテンツに対して, 生成的逆ネットワーク(gan)を用いて訓練された修正cnnモデルを用いて, 圧縮映像の空間的アップサンプリングを行うための知覚的にインスパイアされた超解像法(m-srgan)を提案する。 提案手法はHEVC HM 16.20と統合され,Random Access 構成を用いて JVET Common Test Conditions (UHD test sequences) で評価されている。 その結果,従来のHM 16.20よりも知覚品質が向上し,平均ビットレートは35.6%(Bj{\o}ntegaard Delta測定)であった。

Spatial resolution adaptation is a technique which has often been employed in video compression to enhance coding efficiency. This approach encodes a lower resolution version of the input video and reconstructs the original resolution during decoding. Instead of using conventional up-sampling filters, recent work has employed advanced super-resolution methods based on convolutional neural networks (CNNs) to further improve reconstruction quality. These approaches are usually trained to minimise pixel-based losses such as Mean-Squared Error (MSE), despite the fact that this type of loss metric does not correlate well with subjective opinions. In this paper, a perceptually-inspire d super-resolution approach (M-SRGAN) is proposed for spatial up-sampling of compressed video using a modified CNN model, which has been trained using a generative adversarial network (GAN) on compressed content with perceptual loss functions. The proposed method was integrated with HEVC HM 16.20, and has been evaluated on the JVET Common Test Conditions (UHD test sequences) using the Random Access configuration. The results show evident perceptual quality improvement over the original HM 16.20, with an average bitrate saving of 35.6% (Bj{\o}ntegaard Delta measurement) based on a perceptual quality metric, VMAF.
翻訳日:2021-06-16 15:19:10 公開日:2021-06-15
# SUPER-ADAM: 適応勾配の高速で普遍的なフレームワーク

SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients ( http://arxiv.org/abs/2106.08208v1 )

ライセンス: Link先を確認
Feihu Huang, Junyi Li and Heng Huang(参考訳) 適応勾配法は多くの機械学習問題を解くのに優れた性能を示した。 近年、複数の適応手法が研究されているが、主に経験的あるいは理論的側面に焦点を当てており、特定の適応学習率を用いて特定の問題にのみ対応している。 一般問題を解くための理論的保証を伴う適応勾配の実用的アルゴリズムのための普遍的枠組みの設計が望まれる。 このギャップを埋めるために,既存の適応勾配形式をほとんど含む普遍的適応行列を導入することにより,適応勾配(すなわちスーパーアダム)の高速で普遍的な枠組みを提案する。 さらに,本フレームワークは運動量と分散低減技術を柔軟に統合することができる。 特に,新しいフレームワークは,非凸設定下で適応勾配法に対する収束解析サポートを提供する。 理論的解析において、新しいアルゴリズムは、確率的滑らかな非凸最適化の下限に一致する非凸最適化の$\epsilon$-stationar y pointを求めるために、最もよく知られた$\tilde{o}(\epsilon^{-3})$の複雑性を実現できることを証明します。 数値実験では,既存の適応アルゴリズムを一貫して上回っていることを検証するために,様々な深層学習タスクを用いる。

Adaptive gradient methods have shown excellent performance for solving many machine learning problems. Although multiple adaptive methods were recently studied, they mainly focus on either empirical or theoretical aspects and also only work for specific problems by using specific adaptive learning rates. It is desired to design a universal framework for practical algorithms of adaptive gradients with theoretical guarantee to solve general problems. To fill this gap, we propose a faster and universal framework of adaptive gradients (i.e., SUPER-ADAM) by introducing a universal adaptive matrix that includes most existing adaptive gradient forms. Moreover, our framework can flexibly integrates the momentum and variance reduced techniques. In particular, our novel framework provides the convergence analysis support for adaptive gradient methods under the nonconvex setting. In theoretical analysis, we prove that our new algorithm can achieve the best known complexity of $\tilde{O}(\epsilon^{-3})$ for finding an $\epsilon$-stationar y point of nonconvex optimization, which matches the lower bound for stochastic smooth nonconvex optimization. In numerical experiments, we employ various deep learning tasks to validate that our algorithm consistently outperforms the existing adaptive algorithms.
翻訳日:2021-06-16 15:18:29 公開日:2021-06-15
# 機械学習に基づく条件付き平均フィルタ:非線形データ同化のためのアンサンブルカルマンフィルタの一般化

Machine learning-based conditional mean filter: a generalization of the ensemble Kalman filter for nonlinear data assimilation ( http://arxiv.org/abs/2106.07908v1 )

ライセンス: Link先を確認
Truong-Vinh Hoang (1), Sebastian Krumscheid (1), Hermann G. Matthies (2) and Ra\'ul Tempone (1 and 3) ((1) Chair of Mathematics for Uncertainty Quantification, RWTH Aachen University, (2) Technische Universit\"at Braunschweig (3) Computer, Electrical and Mathematical Sciences and Engineering, KAUST, and Alexander von Humboldt professor in Mathematics of Uncertainty Quantification, RWTH Aachen University)(参考訳) フィルタリングは、ノイズ観測から力学系の状態の逐次推論を実行するデータ同化手法である。 本稿では,スパース観測に基づく非線形ダイナミクスを持つ高次元非ガウス状態モデルを追跡するための機械学習に基づくアンサンブル条件付き平均フィルタ(ML-EnCMF)を提案する。 提案手法は条件付き予測に基づいて開発され,機械学習(ML)技術とアンサンブル法を組み合わせて数値的に実装されている。 この作品の貢献は2つある。 まず,アンサンブル条件平均フィルタ(EnCMF)を用いて同調したアンサンブルがベイズ平均の偏りのない推定器となり,その分散が期待される条件分散と一致することを示した。 第2に, ニューラルネットワークを用いたEnCMFを実装し, 条件平均などの高次元領域上での非線形関数の表現に大きな利点がある。 最後に,ML-EnCMFによるロレンツ-63系とロレンツ-96系のカオス状態の追跡の有効性を示した。 その結果,ML-EnCMFはアンサンブルカルマンフィルタよりも優れていた。

Filtering is a data assimilation technique that performs the sequential inference of dynamical systems states from noisy observations. Herein, we propose a machine learning-based ensemble conditional mean filter (ML-EnCMF) for tracking possibly high-dimensional non-Gaussian state models with nonlinear dynamics based on sparse observations. The proposed filtering method is developed based on the conditional expectation and numerically implemented using machine learning (ML) techniques combined with the ensemble method. The contribution of this work is twofold. First, we demonstrate that the ensembles assimilated using the ensemble conditional mean filter (EnCMF) provide an unbiased estimator of the Bayesian posterior mean, and their variance matches the expected conditional variance. Second, we implement the EnCMF using artificial neural networks, which have a significant advantage in representing nonlinear functions over high-dimensional domains such as the conditional mean. Finally, we demonstrate the effectiveness of the ML-EnCMF for tracking the states of Lorenz-63 and Lorenz-96 systems under the chaotic regime. Numerical results show that the ML-EnCMF outperforms the ensemble Kalman filter.
翻訳日:2021-06-16 15:18:10 公開日:2021-06-15
# ゼロショットニューラルマシン翻訳のための言語タグ

Language Tags Matter for Zero-Shot Neural Machine Translation ( http://arxiv.org/abs/2106.07930v1 )

ライセンス: Link先を確認
Liwei Wu, Shanbo Cheng, Mingxuan Wang, Lei Li(参考訳) MNMT(Multilingual Neural Machine Translation)はその効率性から広く関心を集めている。 MNMTモデルのエキサイティングな利点は、教師なし(ゼロショット)言語の方向を翻訳できる点である。 言語タグ(LT)戦略は、MNMTの翻訳方向を示すためにしばしば採用される。 本稿では,LTが翻訳方向の指標であるだけでなく,ゼロショット翻訳の品質にも重要であることを示す。 残念ながら、以前の研究はLT戦略の重要性を無視する傾向にある。 我々は、適切なLT戦略が意味表現の一貫性を高め、ゼロショット方向のターゲット外問題を軽減することを実証した。 実験結果から,ソース言語タグ(SLT)を無視し,対象言語タグ(TLT)をエンコーダに追加することにより,IWSLT17,Europarl,TE Dトーク翻訳タスクの他のLT戦略に比べて,ゼロショット翻訳が+8BLEUスコア差を達成できることが示唆された。

Multilingual Neural Machine Translation (MNMT) has aroused widespread interest due to its efficiency. An exciting advantage of MNMT models is that they could also translate between unsupervised (zero-shot) language directions. Language tag (LT) strategies are often adopted to indicate the translation directions in MNMT. In this paper, we demonstrate that the LTs are not only indicators for translation directions but also crucial to zero-shot translation qualities. Unfortunately, previous work tends to ignore the importance of LT strategies. We demonstrate that a proper LT strategy could enhance the consistency of semantic representations and alleviate the off-target issue in zero-shot directions. Experimental results show that by ignoring the source language tag (SLT) and adding the target language tag (TLT) to the encoder, the zero-shot translations could achieve a +8 BLEU score difference over other LT strategies in IWSLT17, Europarl, TED talks translation tasks.
翻訳日:2021-06-16 15:17:34 公開日:2021-06-15
# トピック・アウェア・メンション選択を用いた文脈言語モデルからの単語ベクトルの導出

Deriving Word Vectors from Contextualized Language Models using Topic-Aware Mention Selection ( http://arxiv.org/abs/2106.07947v1 )

ライセンス: Link先を確認
Yixiao Wang, Zied Bouraoui, Luis Espinosa Anke, Steven Schockaert(参考訳) 語彙意味論における長年の課題の1つは、その意味的特性を反映した単語の学習である。 単語埋め込みの顕著な成功は、単語参照の文文脈を要約することで高品質な表現が得られることを示唆している。 本稿では,この基本戦略に従うが,標準的な単語埋め込みとは2つの重要な方法で異なる単語表現の学習法を提案する。 まず、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。 第二に、単語ベクトルを直接学習するのではなく、話題モデルを用いて単語が現れるコンテキストを分割し、各単語について異なるトピック固有ベクトルを学習する。 最後に、タスク固有の監視信号を用いて、結果のベクトルをソフトに選択する。 この単純な戦略は、単語埋め込みや既存のclmベースの戦略よりも意味的特性をより予測する高品質な単語ベクトルをもたらす。

One of the long-standing challenges in lexical semantics consists in learning representations of words which reflect their semantic properties. The remarkable success of word embeddings for this purpose suggests that high-quality representations can be obtained by summarizing the sentence contexts of word mentions. In this paper, we propose a method for learning word representations that follows this basic strategy, but differs from standard word embeddings in two important ways. First, we take advantage of contextualized language models (CLMs) rather than bags of word vectors to encode contexts. Second, rather than learning a word vector directly, we use a topic model to partition the contexts in which words appear, and then learn different topic-specific vectors for each word. Finally, we use a task-specific supervision signal to make a soft selection of the resulting vectors. We show that this simple strategy leads to high-quality word vectors, which are more predictive of semantic properties than word embeddings and existing CLM-based strategies.
翻訳日:2021-06-16 15:17:16 公開日:2021-06-15
# ARTA:曖昧な要求と思慮行動の収集と分類

ARTA: Collection and Classification of Ambiguous Requests and Thoughtful Actions ( http://arxiv.org/abs/2106.07999v1 )

ライセンス: Link先を確認
Shohei Tanaka, Koichiro Yoshino, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 対話システムのようなヒューマンアシストシステムは、明確で曖昧なユーザリクエストだけでなく、ユーザ自身が潜在的な要求を認識していなくても、あいまいなユーザリクエストに対しても、思慮深い適切なアクションを取らなければならない。 このような対話エージェントを構築するために,コーパスを収集し,曖昧なユーザ要求を対応するシステムアクションに分類するモデルを開発した。 高品質コーパスの収集のために,事前定義されたアクションを考慮すべきユーザ要求の入力を作業者に依頼した。 複数のアクションは単一のユーザリクエストに対して慎重に識別できるが、ユーザリクエストとシステムアクションのすべての組み合わせに注釈をつけることは現実的ではない。 そのため、テストデータのみに完全にアノテーションを付け、トレーニングデータのアノテーションを不完全に残しました。 このような学習データに対して分類モデルを訓練するために,データの一部のみが正の例でラベル付けされていることを前提に,p/unlabeled(pu)学習法を適用した。 実験の結果,PU学習法は,不明瞭なユーザ要求に対する思考行動の分類を行う一般正負学習法よりも優れた性能を示した。

Human-assisting systems such as dialogue systems must take thoughtful, appropriate actions not only for clear and unambiguous user requests, but also for ambiguous user requests, even if the users themselves are not aware of their potential requirements. To construct such a dialogue agent, we collected a corpus and developed a model that classifies ambiguous user requests into corresponding system actions. In order to collect a high-quality corpus, we asked workers to input antecedent user requests whose pre-defined actions could be regarded as thoughtful. Although multiple actions could be identified as thoughtful for a single user request, annotating all combinations of user requests and system actions is impractical. For this reason, we fully annotated only the test data and left the annotation of the training data incomplete. In order to train the classification model on such training data, we applied the positive/unlabeled (PU) learning method, which assumes that only a part of the data is labeled with positive examples. The experimental results show that the PU learning method achieved better performance than the general positive/negative (PN) learning method to classify thoughtful actions given an ambiguous user request.
翻訳日:2021-06-16 15:17:00 公開日:2021-06-15
# 言語処理におけるイベントベースモダリティ検出の可能性, 可能性, 可能性, 望ましく

The Possible, the Plausible, and the Desirable: Event-Based Modality Detection for Language Processing ( http://arxiv.org/abs/2106.08037v1 )

ライセンス: Link先を確認
Valentina Pyatkin, Shoval Sadde, Aynat Rubinstein, Paul Portner, Reut Tsarfaty(参考訳) モダリティ(modality)とは、イベントがどの程度望ましいか、妥当か、あるいは実現可能かといった追加情報によって記述する言語能力である。 モダリティは、ヘッジの検出、不確実性、憶測など、多くのNLP下流タスクにおいて重要である。 NLPにおけるモダリティ検出に対処する以前の研究は、しばしばモーダル表現を閉じた構文クラスに制限し、モーダルセンスラベルは、受け入れられた標準を欠いた様々な研究で大きく異なる。 さらに、これらの感覚は、変更した事象とは独立して分析されることが多い。 この研究はGeorgetown Gradable Modal Expressions (GME) のルービンシュタインらによる理論的基礎に基づいている。 (2013) 異なる研究で得られたモダリティ概念を調和させる包括的分類法から、モーダル表現を任意の構文クラスとセンスラベルの単語とすることができるイベントベースモダリティ検出タスクを提案する。 本研究は,GMEコーパスにおいて,微細なモーダル概念を検出・分類し,修正イベントと関連付けることを目的とした実験である。 モーダル表現の検出と分類は可能であるだけでなく,モーダルイベントの検出性も向上することを示す。

Modality is the linguistic ability to describe events with added information such as how desirable, plausible, or feasible they are. Modality is important for many NLP downstream tasks such as the detection of hedging, uncertainty, speculation, and more. Previous studies that address modality detection in NLP often restrict modal expressions to a closed syntactic class, and the modal sense labels are vastly different across different studies, lacking an accepted standard. Furthermore, these senses are often analyzed independently of the events that they modify. This work builds on the theoretical foundations of the Georgetown Gradable Modal Expressions (GME) work by Rubinstein et al. (2013) to propose an event-based modality detection task where modal expressions can be words of any syntactic class and sense labels are drawn from a comprehensive taxonomy which harmonizes the modal concepts contributed by the different studies. We present experiments on the GME corpus aiming to detect and classify fine-grained modal concepts and associate them with their modified events. We show that detecting and classifying modal expressions is not only feasible, but also improves the detection of modal events in their own right.
翻訳日:2021-06-16 15:16:41 公開日:2021-06-15
# CBLUE: 中国のバイオメディカル言語理解評価ベンチマーク

CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark ( http://arxiv.org/abs/2106.08087v1 )

ライセンス: Link先を確認
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Lei Li, Xiang Chen, Shumin Deng, Luoqiu Li, Xin Xie, Hongbin Ye, Xin Shang, Kangping Yin, Chuanqi Tan, Jian Xu, Mosha Chen, Fei Huang, Luo Si, Yuan Ni, Guotong Xie, Zhifang Sui, Baobao Chang, Hui Zong, Zheng Yuan, Linfeng Li, Jun Yan, Hongying Zan, Kunli Zhang, Huajun Chen, Buzhou Tang, Qingcai Chen(参考訳) 人工知能(AI)は、最近のバイオメディカル言語理解の進歩とともに、徐々に医療実践を変えつつある。 バイオメディカル言語理解ベンチマークの開発により、AIアプリケーションは医療分野で広く利用されている。 しかし、ほとんどのベンチマークは英語に限られており、他の言語での成功の多くを複製することは困難である。 そこで本研究では,実世界のバイオメディカルデータを集め,中国初のバイオメディカル言語理解評価(cblue)ベンチマークを提示する。名前付きエンティティ認識,情報抽出,臨床診断の正規化,single-sentence/sen tence-pair分類,モデル評価,比較,分析のための関連オンラインプラットフォームなど,自然言語理解タスクのコレクションである。 これらの課題に対する評価を確立するために,現在の11種類の中国語モデルを用いて実験結果を報告し,その実験結果から,最先端のニューラルモデルの方が人間の天井よりもはるかに悪い結果が得られた。 私たちのベンチマークは \url{https://tianchi.aliy un.com/dataset/datad etail?dataid=95414&lang=en-us}でリリースされています。

Artificial Intelligence (AI), along with the recent progress in biomedical language understanding, is gradually changing medical practice. With the development of biomedical language understanding benchmarks, AI applications are widely used in the medical field. However, most benchmarks are limited to English, which makes it challenging to replicate many of the successes in English for other languages. To facilitate research in this direction, we collect real-world biomedical data and present the first Chinese Biomedical Language Understanding Evaluation (CBLUE) benchmark: a collection of natural language understanding tasks including named entity recognition, information extraction, clinical diagnosis normalization, single-sentence/sent ence-pair classification, and an associated online platform for model evaluation, comparison, and analysis. To establish evaluation on these tasks, we report empirical results with the current 11 pre-trained Chinese models, and experimental results show that state-of-the-art neural models perform by far worse than the human ceiling. Our benchmark is released at \url{https://tianchi.aliy un.com/dataset/dataD etail?dataId=95414&lang=en-us}.
翻訳日:2021-06-16 15:16:21 公開日:2021-06-15
# グラフベース依存構文解析における最大スパンディングツリーは温度スケーリングに不変である

Maximum Spanning Trees Are Invariant to Temperature Scaling in Graph-based Dependency Parsing ( http://arxiv.org/abs/2106.08159v1 )

ライセンス: Link先を確認
Stefan Gr\"unewald(参考訳) 現代のグラフベースの構文依存構文解析器は、文内の各トークンに対して、その可能な構文ヘッド(すなわち、他のすべてのトークン)上の確率分布を予測し、結果のログ確率から最大スパンディングツリーを抽出することで動作する。 今日、事実上全てのそのようなパーサーはディープニューラルネットワークを使用しており、誤解(特に自信過剰な予測)の影響を受けやすい。 本稿では,ニューラルネットワークの保温後校正手法である温度スケーリングが,上記の手順の出力を変化させることができないことを示す。 解析精度を向上させるために,グラフベースの依存パーサの誤校正に対処するためには,他の手法が必要であると結論付けている。

Modern graph-based syntactic dependency parsers operate by predicting, for each token within a sentence, a probability distribution over its possible syntactic heads (i.e., all other tokens) and then extracting a maximum spanning tree from the resulting log-probabilities. Nowadays, virtually all such parsers utilize deep neural networks and may thus be susceptible to miscalibration (in particular, overconfident predictions). In this paper, we prove that temperature scaling, a popular technique for post-hoc calibration of neural networks, cannot change the output of the aforementioned procedure. We conclude that other techniques are needed to tackle miscalibration in graph-based dependency parsers in a way that improves parsing accuracy.
翻訳日:2021-06-16 15:16:02 公開日:2021-06-15
# 方向性とは何か:大規模言語モデルにおける単語埋め込み圧縮の改善

Direction is what you need: Improving Word Embedding Compression in Large Language Models ( http://arxiv.org/abs/2106.08181v1 )

ライセンス: Link先を確認
Klaudia Ba{\l}azy, Mohammadreza Banaei, R\'emi Lebret, Jacek Tabor, Karl Aberer(参考訳) 自然言語処理(nlp)におけるトランスフォーマティブベースのモデルの採用は、大量のパラメータを用いて大きな成功を収めた。 しかし、エッジデバイスにおけるデプロイメントの制約により、推論時間とメモリフットプリントを改善するため、これらのモデルの圧縮に対する関心が高まっている。 本稿では,AutoEncoderアーキテクチャを利用して,トランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。 より具体的には、オリジナルの非圧縮埋め込みに関して圧縮埋め込みの方向の重要性を強調している。 提案手法はタスク非依存であり,言語モデリングの事前学習は不要である。 提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも優れている。 さらに、SQuAD v1.1データセットに対する提案したアプローチと、GLUEベンチマークからのダウンストリームタスクを評価し、ほとんどのシナリオでベースラインよりも優れています。 私たちのコードは公開されています。

The adoption of Transformer-based models in natural language processing (NLP) has led to great success using a massive number of parameters. However, due to deployment constraints in edge devices, there has been a rising interest in the compression of these models to improve their inference time and memory footprint. This paper presents a novel loss objective to compress token embeddings in the Transformer-based models by leveraging an AutoEncoder architecture. More specifically, we emphasize the importance of the direction of compressed embeddings with respect to original uncompressed embeddings. The proposed method is task-agnostic and does not require further language modeling pre-training. Our method significantly outperforms the commonly used SVD-based matrix-factorization approach in terms of initial language model Perplexity. Moreover, we evaluate our proposed approach over SQuAD v1.1 dataset and several downstream tasks from the GLUE benchmark, where we also outperform the baseline in most scenarios. Our code is public.
翻訳日:2021-06-16 15:15:49 公開日:2021-06-15
# 汎用文脈化表現の融合事前学習に対する質問応答

Question Answering Infused Pre-training of General-Purpose Contextualized Representations ( http://arxiv.org/abs/2106.08190v1 )

ライセンス: Link先を確認
Robin Jia, Mike Lewis, Luke Zettlemoyer(参考訳) 本稿では,文中の句の表現が文脈で答えられるすべての質問をエンコードすべきという直感に動機づけられた,汎用的な文脈表現を学習するための質問応答(QA)に基づく事前学習目的を提案する。 この目標を達成するために,800万組の合成QAペア上で,より正確なクロスエンコーダモデルの予測に一致させるために,個別にパスと質問を符号化するバイエンコーダQAモデルを訓練する。 QA関連情報を符号化することにより、バイエンコーダのトークンレベル表現は、広範囲(または場合によっては)微調整なしで、非QA下流タスクに有用である。 4つのデータセットでゼロショットと少数ショットのパラフレーズを検出し、2つのデータセットで少数ショットのエンティティ認識を行い、3つのデータセットでゼロショットの感情分析を行った。

This paper proposes a pre-training objective based on question answering (QA) for learning general-purpose contextual representations, motivated by the intuition that the representation of a phrase in a passage should encode all questions that the phrase can answer in context. We accomplish this goal by training a bi-encoder QA model, which independently encodes passages and questions, to match the predictions of a more accurate cross-encoder model on 80 million synthesized QA pairs. By encoding QA-relevant information, the bi-encoder's token-level representations are useful for non-QA downstream tasks without extensive (or in some cases, any) fine-tuning. We show large improvements over both RoBERTa-large and previous state-of-the-art results on zero-shot and few-shot paraphrase detection on four datasets, few-shot named entity recognition on two datasets, and zero-shot sentiment analysis on three datasets.
翻訳日:2021-06-16 15:15:36 公開日:2021-06-15
# 言語横断ファインチューニングのための一貫性規則化

Consistency Regularization for Cross-Lingual Fine-Tuning ( http://arxiv.org/abs/2106.08226v1 )

ライセンス: Link先を確認
Bo Zheng, Li Dong, Shaohan Huang, Wenhui Wang, Zewen Chi, Saksham Singhal, Wanxiang Che, Ting Liu, Xia Song, Furu Wei(参考訳) 微調整された事前訓練された言語間言語モデルは、タスク固有の監督をある言語から他の言語に転送することができる。 本稿では,一貫性の規則化による言語間微調整の改善を提案する。 具体的には、予測感度を4種類のデータ拡張(サブワードサンプリング、ガウスノイズ、コードスウィッチ置換、機械翻訳)にペナリゼーションするために、例の一貫性正規化を用いる。 さらに,同じトレーニングセットの2つの拡張バージョンでトレーニングされたモデルを規則化するために,モデルの一貫性も採用しています。 XTREMEベンチマークによる実験結果から,テキスト分類,質問応答,シーケンスラベリングなど,さまざまなタスクの言語間微調整が大幅に改善された。

Fine-tuning pre-trained cross-lingual language models can transfer task-specific supervision from one language to the others. In this work, we propose to improve cross-lingual fine-tuning with consistency regularization. Specifically, we use example consistency regularization to penalize the prediction sensitivity to four types of data augmentations, i.e., subword sampling, Gaussian noise, code-switch substitution, and machine translation. In addition, we employ model consistency to regularize the models trained with two augmented versions of the same training set. Experimental results on the XTREME benchmark show that our method significantly improves cross-lingual fine-tuning across various tasks, including text classification, question answering, and sequence labeling.
翻訳日:2021-06-16 15:15:16 公開日:2021-06-15
# 自然プログラムを人間や機械に伝える

Communicating Natural Programs to Humans and Machines ( http://arxiv.org/abs/2106.07824v1 )

ライセンス: Link先を確認
Samuel Acquaviva, Yewen Pu, Marta Kryven, Catherine Wong, Gabrielle E Ecanow, Maxwell Nye, Theodoros Sechopoulos, Michael Henry Tessler, Joshua B. Tenenbaum(参考訳) ARC(Abstraction and Reasoning Corpus)は、エージェントが新しい問題を柔軟に解く能力をテストする一連のタスクである。 ほとんどのARCタスクは人間にとって簡単だが、最先端のAIでは難しい。 ARCのような領域において、新しい状況に一般化し、人間の指示を理解するインテリジェントシステムをどのように構築するか。 我々は,これらの課題を解決する上で,人間同士のコミュニケーションの方法を研究することによって,その答えを見出すことができると仮定する。 LARC(Language-annota ted ARC: 自然言語記述のコレクション)は、ARCと相互になじみのない、ARCタスクの解法を互いに教える、人間のグループによる自然言語記述のコレクションである。 LARC には 88 % の ARC タスクを成功させる命令が含まれている。 収集した命令を「自然プログラム」として解析し、ほとんどの自然なプログラム概念が典型的なコンピュータプログラムに類似していることを示す。 しかし、コンピュータを正確にプログラムする方法とは違って、人間はあいまいさを予測し、効果的にコミュニケーションする。 追加の言語アノテーションを利用する最先端のプログラム合成技術が、言語に依存しない言語よりも優れていることを示す。

The Abstraction and Reasoning Corpus (ARC) is a set of tasks that tests an agent's ability to flexibly solve novel problems. While most ARC tasks are easy for humans, they are challenging for state-of-the-art AI. How do we build intelligent systems that can generalize to novel situations and understand human instructions in domains such as ARC? We posit that the answer may be found by studying how humans communicate to each other in solving these tasks. We present LARC, the Language-annotated ARC: a collection of natural language descriptions by a group of human participants, unfamiliar both with ARC and with each other, who instruct each other on how to solve ARC tasks. LARC contains successful instructions for 88\% of the ARC tasks. We analyze the collected instructions as `natural programs', finding that most natural program concepts have analogies in typical computer programs. However, unlike how one precisely programs a computer, we find that humans both anticipate and exploit ambiguities to communicate effectively. We demonstrate that a state-of-the-art program synthesis technique, which leverages the additional language annotations, outperforms its language-free counterpart.
翻訳日:2021-06-16 15:15:04 公開日:2021-06-15
# 中国の放射線医学におけるaiの影響の診断

Diagnosing the Impact of AI on Radiology in China ( http://arxiv.org/abs/2106.07921v1 )

ライセンス: Link先を確認
Niklas Muennighoff(参考訳) 人工知能は放射線学者の作業環境に大きな影響を与える。 2021年の放射線科医の仕事の最大50%は2025年にaiモデルによって行われると提案する。 しかし、放射線科医が人間中心の仕事の鍵を握っているため、50%以上は上昇しないだろう。 2021年に既存の放射線学サービスの供給不足のため、中国では放射線技師が解雇されることは少ないと思います。 放射線学におけるAIの応用は、2025年の中国のGDPに17億米ドルの貢献が期待できる。 放射線科医は4年ほど前に生産作業を開始することができる。 放射線学におけるAIは、患者や放射線技師自身の健康に良い影響を与える。

Artificial Intelligence will significantly impact the work environment of radiologists. I suggest that up to 50% of a radiologists work in 2021 will be performed by AI-models in 2025. However, it won't increase beyond that 50% level, as radiologists remain key for human-centered aspects of their job. I project that few to no radiologists will be laid off in China due to the existing supply shortage of radiology services in 2021. The application of AI in radiology could contribute 1.7 billion USD to China's GDP in 2025. It will further allow radiologists to start productive work up to four years earlier. AI in radiology will positively impact the health of patients and radiologists themselves.
翻訳日:2021-06-16 15:14:46 公開日:2021-06-15
# 公開概要からの医療コード予測:シーケンスアテンションを用いたBERTの文書化

Medical Code Prediction from Discharge Summary: Document to Sequence BERT using Sequence Attention ( http://arxiv.org/abs/2106.07932v1 )

ライセンス: Link先を確認
Tak-Sung Heo, Yongmin Yoo, Yeongjoon Park, Byeong-Cheol Jo(参考訳) 臨床ノートは、患者遭遇時に臨床医が生成する非構造化テキストである。 臨床ノートには、通常、国際疾患分類(ICD)のメタデータコードのセットが添付されている。 ICDコードは、保険、返済、診断など、さまざまな業務で使用される重要なコードである。 したがって、ICD符号を迅速かつ正確に分類することが重要である。 しかし、これらのコードに注釈をつけるのはコストと時間を要する。 そこで本研究では,自動ICD符号割り当てのためのシーケンスアテンション手法を用いて,変換器(BERT)からの双方向エンコーダ表現に基づくモデルを提案する。 我々はMIMIC-IIIベンチマークデータセットのap-proachを評価する。 我々のモデルは,マクロ平均F1: 0.62898 およびマイクロ平均F1: 0.68555 の性能を達成し,従来の最先端モデルよりも性能が向上している。 本研究の貢献は、文書に適用可能なbertの使用方法と、文書に現れる不適合なシーケンス情報をキャプチャできるシーケンス注意手法を提案する。

Clinical notes are unstructured text generated by clinicians during patient encounters. Clinical notes are usually accompanied by a set of metadata codes from the international classification of diseases (ICD). ICD code is an important code used in a variety of operations, including insurance, reimbursement, medical diagnosis, etc. Therefore, it is important to classify ICD codes quickly and accurately. However, annotating these codes is costly and time-consuming. So we propose a model based on bidirectional encoder representations from transformer (BERT) using the sequence attention method for automatic ICD code assignment. We evaluate our ap-proach on the MIMIC-III benchmark dataset. Our model achieved performance of Macro-aver-aged F1: 0.62898 and Micro-averaged F1: 0.68555, and is performing better than a performance of the previous state-of-the-art model. The contribution of this study proposes a method of using BERT that can be applied to documents and a sequence attention method that can capture im-portant sequence information appearing in documents.
翻訳日:2021-06-16 15:14:38 公開日:2021-06-15
# G$^2$DA:RGB赤外線人物再同定のための幾何誘導デュアルアライメント学習

G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2106.07853v1 )

ライセンス: Link先を確認
Lin Wan, Zongyuan Sun, Qianyan Jing, Yehansen Chen, Lijing Lu, and Zhihang Li(参考訳) rgb-infrared (ir) person re-identificationは、異なる感覚装置によって引き起こされる大きなモダリティの不一致に苦しむ異質なモダリティ間の興味の人格を検索することを目的としている。 既存の手法は主にグローバルレベルのモダリティアライメントに重点を置いているが、サンプルレベルのモダリティはある程度の相違が無視され、パフォーマンスが低下する。 本稿では,サンプルレベルのモダリティ差からrgb-irのreid解を見つけ出し,モダリティ不変性(modality-invariance )を強化し,人間の位相構造との識別性を強化し,全体的なマッチング性能を向上させる幾何ガイド付きデュアルアリゲーション学習フレームワーク(g$^2$da)を提案する。 具体的には、G$^2$DAは、グローバルディスクリプタの欠落したローカル詳細を補完するセマンティックブリッジとして機能するポーズ推定器で正確な身体部分の特徴を抽出する。 抽出された局所的および大域的な特徴に基づき、最適輸送に由来する新しい分布制約を導入し、細粒度サンプルレベルでのモーダリティギャップを緩和する。 2つのモダリティをまたいだ対関係を超えて、異なる部分の構造的類似性も測定するので、多レベル特徴とそれらの関係は共通の特徴空間で一貫して保たれる。 固有な人間-トポロジ情報を考慮して,各部分の特徴を洗練するための幾何誘導型グラフ学習モジュールをさらに前進させ,無意味な特徴を抑圧しながら関連領域を強調し,堅牢な特徴学習を効果的に促進する。 2つの標準ベンチマークデータセットに関する広範囲な実験により,提案手法の優位性が検証された。

RGB-Infrared (IR) person re-identification aims to retrieve person-of-interest between heterogeneous modalities, suffering from large modality discrepancy caused by different sensory devices. Existing methods mainly focus on global-level modality alignment, whereas neglect sample-level modality divergence to some extent, leading to performance degradation. This paper attempts to find RGB-IR ReID solutions from tackling sample-level modality difference, and presents a Geometry-Guided Dual-Alignment learning framework (G$^2$DA), which jointly enhances modality-invariance and reinforces discriminability with human topological structure in features to boost the overall matching performance. Specifically, G$^2$DA extracts accurate body part features with a pose estimator, serving as a semantic bridge complementing the missing local details in global descriptor. Based on extracted local and global features, a novel distribution constraint derived from optimal transport is introduced to mitigate the modality gap in a fine-grained sample-level manner. Beyond pair-wise relations across two modalities, it additionally measures the structural similarity of different parts, thus both multi-level features and their relations are kept consistent in the common feature space. Considering the inherent human-topology information, we further advance a geometry-guided graph learning module to refine each part features, where relevant regions can be emphasized while meaningless ones are suppressed, effectively facilitating robust feature learning. Extensive experiments on two standard benchmark datasets validate the superiority of our proposed method, yielding competitive performance over the state-of-the-art approaches.
翻訳日:2021-06-16 15:14:04 公開日:2021-06-15
# CALMを維持し、視覚的特徴属性を改善する

Keep CALM and Improve Visual Feature Attribution ( http://arxiv.org/abs/2106.07861v1 )

ライセンス: Link先を確認
Jae Myung Kim, Junsuk Choe, Zeynep Akata, and Seong Joon Oh(参考訳) クラスアクティベーションマッピング(クラスアクティベーションマッピング、CAM)は、複数の視覚タスクのための特徴属性法の基礎となっている。 その単純さと有効性は、視覚的予測と弱い教師付きローカライゼーションタスクの説明に幅広い応用をもたらした。 しかし、CAMには独自の欠点がある。 属性マップの計算は、トレーニング計算グラフの一部ではないアドホックキャリブレーションステップに依存しており、属性値の真の意味を理解することは困難である。 本稿では,定式化における認識のためのキューの位置を符号化する潜時変数を明示的に組み込んでCAMを改善することにより,帰属写像をトレーニング計算グラフに仮定する。 結果のモデルであるクラスアクティベーション潜在マッピング(CALM)は期待最大化アルゴリズムを用いて訓練される。 画像分類器の識別特性をcamや他の視覚的帰属ベースラインよりも精度良く識別できることを示す。 CALMはまた、弱教師付きオブジェクトローカライゼーションベンチマークにおいて、先行技術よりもパフォーマンスが向上したことを示している。 私たちのコードはhttps://github.com/n aver-ai/calmで利用可能です。

The class activation mapping, or CAM, has been the cornerstone of feature attribution methods for multiple vision tasks. Its simplicity and effectiveness have led to wide applications in the explanation of visual predictions and weakly-supervised localization tasks. However, CAM has its own shortcomings. The computation of attribution maps relies on ad-hoc calibration steps that are not part of the training computational graph, making it difficult for us to understand the real meaning of the attribution values. In this paper, we improve CAM by explicitly incorporating a latent variable encoding the location of the cue for recognition in the formulation, thereby subsuming the attribution map into the training computational graph. The resulting model, class activation latent mapping, or CALM, is trained with the expectation-maximiza tion algorithm. Our experiments show that CALM identifies discriminative attributes for image classifiers more accurately than CAM and other visual attribution baselines. CALM also shows performance improvements over prior arts on the weakly-supervised object localization benchmarks. Our code is available at https://github.com/n aver-ai/calm.
翻訳日:2021-06-16 15:13:30 公開日:2021-06-15
# Domain Adaptive SiamRPN++ for Object Tracking in the Wild

Domain Adaptive SiamRPN++ for Object Tracking in the Wild ( http://arxiv.org/abs/2106.07862v1 )

ライセンス: Link先を確認
Zhongzhou Zhang, Lei Zhang(参考訳) 大規模トレーニングデータの恩恵を受けることにより、シャム語に基づくオブジェクト追跡の最近の進歩は、通常のシーケンスで説得力のある結果を得た。 siameseベースのトラッカーはトレーニングとテストのデータは同じディストリビューションに従っている。 霧や雨の連続したテストシーケンスが存在すると仮定すると、通常の画像で訓練されたトラッカーが他のドメインに属するデータに対して良好に動作することを保証できない。 トレーニングデータとテストデータ間のドメインシフトの問題は、オブジェクト検出やセマンティックセグメンテーション領域で既に議論されているが、視覚的追跡については検討されていない。 この目的のために,SiamRPN++をベースとしたDomain Adaptive SiamRPN++,すなわちDASiamRPN++を導入し,トラッカーのクロスドメイン転送性とロバスト性を改善する。 A-距離理論に着想を得て,Pixel Domain Adaptation (PDA) と Semantic Domain Adaptation (SDA) の2つのドメイン適応モジュールを提案する。 PDAモジュールはテンプレートと検索領域の画像の特徴マップを整列して、天気や照明などによる画素レベルの領域シフトを除去する。 SDAモジュールは、セマンティックレベルのドメインシフトを排除するために、トラッキングターゲットの外観の特徴表現を整列する。 PDAとSDAモジュールは、ドメイン分類器を敵の訓練方法で学習することで、ドメインの格差を低減する。 ドメイン分類器はネットワークにドメイン不変の特徴表現を学習させる。 提案するトラッカの転送性とドメイン適応性を示す合成フォギーとtir配列を含む2つの異なるドメインの標準データセットについて,広範な実験を行った。

Benefit from large-scale training data, recent advances in Siamese-based object tracking have achieved compelling results on the normal sequences. Whilst Siamese-based trackers assume training and test data follow an identical distribution. Suppose there is a set of foggy or rainy test sequences, it cannot be guaranteed that the trackers trained on the normal images perform well on the data belonging to other domains. The problem of domain shift among training and test data has already been discussed in object detection and semantic segmentation areas, which, however, has not been investigated for visual tracking. To this end, based on SiamRPN++, we introduce a Domain Adaptive SiamRPN++, namely DASiamRPN++, to improve the cross-domain transferability and robustness of a tracker. Inspired by A-distance theory, we present two domain adaptive modules, Pixel Domain Adaptation (PDA) and Semantic Domain Adaptation (SDA). The PDA module aligns the feature maps of template and search region images to eliminate the pixel-level domain shift caused by weather, illumination, etc. The SDA module aligns the feature representations of the tracking target's appearance to eliminate the semantic-level domain shift. PDA and SDA modules reduce the domain disparity by learning domain classifiers in an adversarial training manner. The domain classifiers enforce the network to learn domain-invariant feature representations. Extensive experiments are performed on the standard datasets of two different domains, including synthetic foggy and TIR sequences, which demonstrate the transferability and domain adaptability of the proposed tracker.
翻訳日:2021-06-16 15:13:12 公開日:2021-06-15
# ランダム環境ミックスアップを用いた視覚言語ナビゲーション

Vision-Language Navigation with Random Environmental Mixup ( http://arxiv.org/abs/2106.07876v1 )

ライセンス: Link先を確認
Chong Liu and Fengda Zhu and Xiaojun Chang and Xiaodan Liang and Yi-Dong Shen(参考訳) 視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。 大規模なデータバイアスは、小さなデータスケールと大きなナビゲーションスペースの相違によるものであり、VLNタスクを困難にしている。 従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。 しかし、これらの作業は、異なる家のシーン間でのデータバイアスを明示的に減らすものではない。 そのため、エージェントは見えないシーンに過度に適合し、目に見えないシーンではナビゲーション性能が劣る。 この問題に対処するため,混在環境による住宅シーンを付加データとして生成するRandom Environmental Mixup (REM)法を提案する。 具体的には、まず各シーンの部屋接続グラフに応じてキー視点を選択する。 そして、さまざまなシーンのキービューをクロス接続して、拡張シーンを構築します。 最後に,クロスコネクテッドシーンに拡張命令パスペアを生成する。 ベンチマークデータセットを用いた実験結果から,REMによる拡張データは,観測環境と見えない環境の間の性能ギャップを低減し,全体的な性能向上に役立ち,我々のモデルを標準VLNベンチマーク上で最高の既存アプローチとすることを示す。

Vision-language Navigation (VLN) tasks require an agent to navigate step-by-step while perceiving the visual observations and comprehending a natural language instruction. Large data bias, which is caused by the disparity ratio between the small data scale and large navigation space, makes the VLN task challenging. Previous works have proposed various data augmentation methods to reduce data bias. However, these works do not explicitly reduce the data bias across different house scenes. Therefore, the agent would overfit to the seen scenes and achieve poor navigation performance in the unseen scenes. To tackle this problem, we propose the Random Environmental Mixup (REM) method, which generates cross-connected house scenes as augmented data via mixuping environment. Specifically, we first select key viewpoints according to the room connection graph for each scene. Then, we cross-connect the key views of different scenes to construct augmented scenes. Finally, we generate augmented instruction-path pairs in the cross-connected scenes. The experimental results on benchmark datasets demonstrate that our augmentation data via REM help the agent reduce its performance gap between the seen and unseen environment and improve the overall performance, making our model the best existing approach on the standard VLN benchmark.
翻訳日:2021-06-16 15:12:47 公開日:2021-06-15
# 既定認識と微調整のための歴史的なラテン文字の混合モデルocr訓練

Mixed Model OCR Training on Historical Latin Script for Out-of-the-Box Recognition and Finetuning ( http://arxiv.org/abs/2106.07881v1 )

ライセンス: Link先を確認
Christian Reul, Christoph Wick, Maximilian N\"oth, Andreas B\"uttner, Maximilian Wehner, Uwe Springmann(参考訳) 我々は,ラテン文字の歴史印刷に光学的文字認識(ocr)を完全自動適用するために,文字誤り率 (cer) が約2%のテキストを生成する広範に適用可能なポリフォント認識モデルを構築した。 さらに,本モデルは,手作業や計算作業の少ない印刷の特定のクラスにさらに微調整できることを示す。 混合または多形モデルは、年齢(15世紀から19世紀)、タイポグラフィー(様々なタイプのフラクトゥルとアンティクア)、言語(他の言語、ドイツ語、ラテン語、フランス語)といった様々な材料で訓練されている。 結果の最適化には,事前学習やデータ拡張,投票といったOCRトレーニングの確立したテクニックを併用した。 さらに,トレーニングデータを強化し,より堅牢なモデルを得るために,様々な前処理手法を用いた。 また,まず利用可能なデータをすべてトレーニングし,さらにバランスの取れたサブセットをトレーニングすることで出力を改良する2段階の手法を実装した。 29冊の未確認本の評価の結果、CERは1.73%となり、CERが2.84%、ほぼ40%と広く使われている標準モデルを上回った。 私たちの混合モデルから始まった、未発見の初期のラテン系書籍のより専門的なモデルをトレーニングすると、cerは1.47%となり、前述した標準モデルのトレーニングに比べて、スクラッチから最大50%、最大30%改善されました。 当社の新しい混合モデルは、コミュニティに公開されています。

In order to apply Optical Character Recognition (OCR) to historical printings of Latin script fully automatically, we report on our efforts to construct a widely-applicable polyfont recognition model yielding text with a Character Error Rate (CER) around 2% when applied out-of-the-box. Moreover, we show how this model can be further finetuned to specific classes of printings with little manual and computational effort. The mixed or polyfont model is trained on a wide variety of materials, in terms of age (from the 15th to the 19th century), typography (various types of Fraktur and Antiqua), and languages (among others, German, Latin, and French). To optimize the results we combined established techniques of OCR training like pretraining, data augmentation, and voting. In addition, we used various preprocessing methods to enrich the training data and obtain more robust models. We also implemented a two-stage approach which first trains on all available, considerably unbalanced data and then refines the output by training on a selected more balanced subset. Evaluations on 29 previously unseen books resulted in a CER of 1.73%, outperforming a widely used standard model with a CER of 2.84% by almost 40%. Training a more specialized model for some unseen Early Modern Latin books starting from our mixed model led to a CER of 1.47%, an improvement of up to 50% compared to training from scratch and up to 30% compared to training from the aforementioned standard model. Our new mixed model is made openly available to the community.
翻訳日:2021-06-16 15:12:29 公開日:2021-06-15
# 興味点検出のための画像特徴情報抽出:包括的レビュー

Image Feature Information Extraction for Interest Point Detection: A Comprehensive Review ( http://arxiv.org/abs/2106.07929v1 )

ライセンス: Link先を確認
Junfeng Jing, Tian Gao, Weichuan Zhang, Yongsheng Gao, Changming Sun(参考訳) 関心点検出は、コンピュータビジョンと画像処理における最も基本的かつ重要な問題の1つである。 本稿では,関心点検出のための画像特徴情報(IFI)抽出手法の総合的なレビューを行う。 既存の関心点検出手法が入力画像からIFIを抽出する方法を体系的に紹介するために,関心点検出のためのIFI抽出手法の分類法を提案する。 本分類では,興味点検出のための異なるタイプのIFI抽出手法について議論する。 さらに、既存の関心点検出のためのIFI抽出技術と、これまで議論されていない関心点検出方法に関する未解決の課題を明らかにした。 既存の一般的なデータセットと評価基準を提供し、18の最先端アプローチのパフォーマンスを評価し、議論する。 さらに、興味点検出のためのIFI抽出技術に関する今後の研究の方向性を詳述する。

Interest point detection is one of the most fundamental and critical problems in computer vision and image processing. In this paper, we carry out a comprehensive review on image feature information (IFI) extraction techniques for interest point detection. To systematically introduce how the existing interest point detection methods extract IFI from an input image, we propose a taxonomy of the IFI extraction techniques for interest point detection. According to this taxonomy, we discuss different types of IFI extraction techniques for interest point detection. Furthermore, we identify the main unresolved issues related to the existing IFI extraction techniques for interest point detection and any interest point detection methods that have not been discussed before. The existing popular datasets and evaluation standards are provided and the performances for eighteen state-of-the-art approaches are evaluated and discussed. Moreover, future research directions on IFI extraction techniques for interest point detection are elaborated.
翻訳日:2021-06-16 15:11:58 公開日:2021-06-15
# 合成スケッチ検索

Compositional Sketch Search ( http://arxiv.org/abs/2106.08009v1 )

ライセンス: Link先を確認
Alexander Black, Tu Bui, Long Mai, Hailin Jin, John Collomosse(参考訳) 本稿では,複数物体の出現と相対位置を記述したフリーハンドスケッチを用いて画像集合を探索するアルゴリズムを提案する。 スケッチベース画像検索(sbir)メソッドは、画像内のその位置に対して単一の支配的オブジェクトを含むクエリを主にマッチさせる。 本研究は,絵を簡潔で直感的な表現として活用し,シーン全体の構成を特定する。 我々は、畳み込みニューラルネットワーク(CNN)を訓練し、スケッチされたオブジェクトからマスクされた視覚特徴を符号化し、それらを合成中のオブジェクトの空間的関係と外観を符号化する空間記述子にプールする。 三重項損失の下でシームネットワークとしてcnnバックボーンをトレーニングすると、構成的類似度を測定するためのメトリック検索埋め込みが得られる。

We present an algorithm for searching image collections using free-hand sketches that describe the appearance and relative positions of multiple objects. Sketch based image retrieval (SBIR) methods predominantly match queries containing a single, dominant object invariant to its position within an image. Our work exploits drawings as a concise and intuitive representation for specifying entire scene compositions. We train a convolutional neural network (CNN) to encode masked visual features from sketched objects, pooling these into a spatial descriptor encoding the spatial relationships and appearances of objects in the composition. Training the CNN backbone as a Siamese network under triplet loss yields a metric search embedding for measuring compositional similarity which may be efficiently leveraged for visual search by applying product quantization.
翻訳日:2021-06-16 15:11:46 公開日:2021-06-15
# 物体検出とオートエンコーダを用いた高精度ビンピッキングのための6次元ポーズ推定

Object detection and Autoencoder-based 6D pose estimation for highly cluttered Bin Picking ( http://arxiv.org/abs/2106.08045v1 )

ライセンス: Link先を確認
Timon H\"ofer, Faranak Shamsafar, Nuri Benbarka and Andreas Zell(参考訳) Bin Pickは産業環境とロボティクスの中核的な問題であり、メインモジュールは6Dポーズ推定である。 しかし、工業用深度センサーは小さな物体に関しては精度が不足している。 そこで本研究では,RGBデータに大きく依存し,ポーズ修正にのみ深度情報を利用する,狭い物体を散らかしたシーンにおけるポーズ推定フレームワークを提案する。 本研究では,物体検出とポーズ推定のための合成データ生成手法を比較し,最も正確な推定ポーズを決定するポーズフィルタリングアルゴリズムを提案する。 私たちは

Bin picking is a core problem in industrial environments and robotics, with its main module as 6D pose estimation. However, industrial depth sensors have a lack of accuracy when it comes to small objects. Therefore, we propose a framework for pose estimation in highly cluttered scenes with small objects, which mainly relies on RGB data and makes use of depth information only for pose refinement. In this work, we compare synthetic data generation approaches for object detection and pose estimation and introduce a pose filtering algorithm that determines the most accurate estimated poses. We will make our
翻訳日:2021-06-16 15:11:33 公開日:2021-06-15
# 単一深度カメラを用いた2つのハンドの実時間姿勢と形状復元

Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera ( http://arxiv.org/abs/2106.08059v1 )

ライセンス: Link先を確認
Franziska Mueller, Micah Davis, Florian Bernard, Oleksandr Sotnychenko, Mickeal Verschoor, Miguel A. Otaduy, Dan Casas, Christian Theobalt(参考訳) 本稿では,2つの強く相互作用する手のリアルタイムポーズと形状復元のための新しい手法を提案する。 提案手法は, マーカーレス, 1台の消費者レベルの深度カメラを使用し, リアルタイムに動作し, 手の衝突を処理し, ユーザの手形に自動的に適応する, 幅広い特性を組み合わせる, 初の双方向追跡ソリューションである。 これを実現するために,最近のパラメトリックハンドポーズ・シェイプモデルと,ディープニューラルネットワークに基づく高密度対応予測器を,適切なエネルギー最小化フレームワークに組み込む。 対応予測ネットワークを訓練するために,手の位置と形状のアノテーションを含む物理シミュレーションに基づいて,手間の侵入を回避しながら,両手データセットを合成する。 実時間レートを達成するために、非線形最小二乗問題の観点からモデル適合を表現し、高効率なGPUベースガウスニュートン最適化器に基づいてエネルギーを最適化する。 両手握り,有意な咬合,ジェスチャーインタラクションなど,従来の作業で示されていた複雑性レベルを超える場面で,最先端の結果を示す。

We present a novel method for real-time pose and shape reconstruction of two strongly interacting hands. Our approach is the first two-hand tracking solution that combines an extensive list of favorable properties, namely it is marker-less, uses a single consumer-level depth camera, runs in real time, handles inter- and intra-hand collisions, and automatically adjusts to the user's hand shape. In order to achieve this, we embed a recent parametric hand pose and shape model and a dense correspondence predictor based on a deep neural network into a suitable energy minimization framework. For training the correspondence prediction network, we synthesize a two-hand dataset based on physical simulations that includes both hand pose and shape annotations while at the same time avoiding inter-hand penetrations. To achieve real-time rates, we phrase the model fitting in terms of a nonlinear least-squares problem so that the energy can be optimized based on a highly efficient GPU-based Gauss-Newton optimizer. We show state-of-the-art results in scenes that exceed the complexity level demonstrated by previous work, including tight two-hand grasps, significant inter-hand occlusions, and gesture interaction.
翻訳日:2021-06-16 15:11:23 公開日:2021-06-15
# 熱センサ補助ラベルを用いた生体評価のための熱人間の顔の生成

Generating Thermal Human Faces for Physiological Assessment Using Thermal Sensor Auxiliary Labels ( http://arxiv.org/abs/2106.08091v1 )

ライセンス: Link先を確認
Catherine Ordun, Edward Raff, Sanjay Purushotham(参考訳) 熱画像は、人間のストレス、炎症の兆候、および目に見えない画像では見えない感情に関する医学的に重要な生理的情報を明らかにする。 可視画像から熱顔を生成する方法は、この医療情報を示すために遠隔医療コミュニティにとって非常に価値があるだろう。 我々の知る限りでは、視覚から熱まで(VT)の顔の翻訳は限られており、現在の多くの研究は、法執行機関の応用のためのサーマル監視画像(TV)から目に見える顔を生成するために反対方向に進んでいる。 その結果,favtganはpix2pix画像翻訳モデルを用いて,可視画像から熱顔を生成する補助センサラベル予測ネットワークを備えたvtganである。 ほとんどのtv手法は1つのサーマルセンサから引き出されたデータソースのみに基づいてトレーニングされるため、顔と都市の景観からのデータセットを組み合わせることができる。 これらの組み合わせデータは、トレーニングおよび転送学習タスクをブートストラップするために、同様のセンサーから取得される。 これらの組み合わせデータセットの実験により、favtGANは単一の顔データセットでのトレーニングと比較して、生成された熱面のSSIMとPSNRスコアの増加を示す。

Thermal images reveal medically important physiological information about human stress, signs of inflammation, and emotional mood that cannot be seen on visible images. Providing a method to generate thermal faces from visible images would be highly valuable for the telemedicine community in order to show this medical information. To the best of our knowledge, there are limited works on visible-to-thermal (VT) face translation, and many current works go the opposite direction to generate visible faces from thermal surveillance images (TV) for law enforcement applications. As a result, we introduce favtGAN, a VT GAN which uses the pix2pix image translation model with an auxiliary sensor label prediction network for generating thermal faces from visible images. Since most TV methods are trained on only one data source drawn from one thermal sensor, we combine datasets from faces and cityscapes. These combined data are captured from similar sensors in order to bootstrap the training and transfer learning task, especially valuable because visible-thermal face datasets are limited. Experiments on these combined datasets show that favtGAN demonstrates an increase in SSIM and PSNR scores of generated thermal faces, compared to training on a single face dataset alone.
翻訳日:2021-06-16 15:11:02 公開日:2021-06-15
# 検出、セグメンテーション、部品認識のための宇宙船データセット

A Spacecraft Dataset for Detection, Segmentation and Parts Recognition ( http://arxiv.org/abs/2106.08186v1 )

ライセンス: Link先を確認
Dung Anh Hoang and Bo Chen and Tat-Jun Chin(参考訳) 現代の生活のあらゆる側面は宇宙技術に依存している。 一般のコンピュータビジョンの進歩と深層学習に基づく技術のおかげで、世界は数十年にわたって、自律型ロボット、トレーサ、宇宙での昆虫のようなロボット、宇宙船の健康モニタリングといった宇宙用途の問題解決にディープラーニングの利用が増えているのを目撃した。 これらは、深層学習の助けを借りた先進的な宇宙産業の例である。 しかし、ディープラーニングモデルの成功には、適切なパフォーマンスを得るために多くのトレーニングデータが必要であるが、一方で、ディープラーニングモデルのトレーニングのための公開スペースデータセットは、非常に限られている。 現在、空間ベースのオブジェクト検出やインスタンスセグメンテーションのためのパブリックデータセットは存在しないが、それは部分的には、オブジェクトセグメンテーションマスクを手動でアノテートするのに非常に時間がかかるためである。 本稿では,宇宙機検出,インスタンス分割,部分認識のためのデータセットをリリースすることにより,このギャップを埋めることを目的とする。 この研究の主な貢献は、宇宙ステーションや衛星の画像を用いたデータセットの開発であり、自動的なプロセスと手動の作業の混合によって得られる、物体部分のレベルへの宇宙船やマスクのバウンディングボックスを含む、豊富なアノテーションを備えている。 また、データセットのベンチマークとして、オブジェクト検出やインスタンスセグメンテーションにおける最先端手法による評価も提供する。 提案されたデータセットをダウンロードするリンクはhttps://github.com/Y urushia1998/Satellit eDatasetにある。

Virtually all aspects of modern life depend on space technology. Thanks to the great advancement of computer vision in general and deep learning-based techniques in particular, over the decades, the world witnessed the growing use of deep learning in solving problems for space applications, such as self-driving robot, tracers, insect-like robot on cosmos and health monitoring of spacecraft. These are just some prominent examples that has advanced space industry with the help of deep learning. However, the success of deep learning models requires a lot of training data in order to have decent performance, while on the other hand, there are very limited amount of publicly available space datasets for the training of deep learning models. Currently, there is no public datasets for space-based object detection or instance segmentation, partly because manually annotating object segmentation masks is very time consuming as they require pixel-level labelling, not to mention the challenge of obtaining images from space. In this paper, we aim to fill this gap by releasing a dataset for spacecraft detection, instance segmentation and part recognition. The main contribution of this work is the development of the dataset using images of space stations and satellites, with rich annotations including bounding boxes of spacecrafts and masks to the level of object parts, which are obtained with a mixture of automatic processes and manual efforts. We also provide evaluations with state-of-the-art methods in object detection and instance segmentation as a benchmark for the dataset. The link for downloading the proposed dataset can be found on https://github.com/Y urushia1998/Satellit eDataset.
翻訳日:2021-06-16 15:10:21 公開日:2021-06-15
# 産業異常検出におけるトータルリコールに向けて

Towards Total Recall in Industrial Anomaly Detection ( http://arxiv.org/abs/2106.08265v1 )

ライセンス: Link先を確認
Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Sch\"olkopf, Thomas Brox, Peter Gehler(参考訳) 欠陥部分を見つけることは、大規模な工業生産において重要な要素である。 名目(非定義)の例イメージのみを使用してモデルに適合させること。 クラスごとの手作りのソリューションは可能だが、目標は多数の異なるタスクで同時に動作するシステムを構築することだ。 最高のペフォーミングアプローチは、ImageNetモデルからの埋め込みと、外れ値検出モデルを組み合わせたものだ。 本稿では,この一連の作業を拡張し,名目上のパッチ機能を持つ最大代表型メモリバンクであるPatchCoreを提案する。 PatchCoreは、検出とローカライゼーションの両方で最先端のパフォーマンスを達成しながら、競合する推論時間を提供します。 標準データセットMVTec ADでは、PatchCoreはイメージレベルの異常検出AUROCスコアを99.1\%$で達成し、次の競合に比べてエラーを半減させる。 さらに,2つの追加データセットの競合結果を報告するとともに,少数のサンプルシステムにおける競合結果も報告する。

Being able to spot defective parts is a critical component in large-scale industrial manufacturing. A particular challenge that we address in this work is the cold-start problem: fit a model using nominal (non-defective) example images only. While handcrafted solutions per class are possible, the goal is to build systems that work well simultaneously on many different tasks automatically. The best peforming approaches combine embeddings from ImageNet models with an outlier detection model. In this paper, we extend on this line of work and propose PatchCore, which uses a maximally representative memory bank of nominal patch-features. PatchCore offers competitive inference times while achieving state-of-the-art performance for both detection and localization. On the standard dataset MVTec AD, PatchCore achieves an image-level anomaly detection AUROC score of $99.1\%$, more than halving the error compared to the next best competitor. We further report competitive results on two additional datasets and also find competitive results in the few samples regime.
翻訳日:2021-06-16 15:09:54 公開日:2021-06-15
# 言語の強化されたカテゴリー理論:構文から意味論へ

An enriched category theory of language: from syntax to semantics ( http://arxiv.org/abs/2106.07890v1 )

ライセンス: Link先を確認
Tai-Danae Bradley, John Terilla, Yiannis Vlassopoulos(参考訳) テキストが与えられたら、そのコヒーレントな拡張を生成する能力は、文法や意味論の知識を含む、ある程度の洗練を意味する。 本稿では,与えられたテキストの拡張に関する確率分布から意味情報を含む拡張カテゴリへ渡す数学的枠組みを提案する。 大まかに言えば、我々はテキストの確率分布を単位区間に富むカテゴリとしてモデル化する。 このカテゴリのオブジェクトは言語の式であり、homオブジェクトは条件付き確率であり、ある式は別の式の拡張である。 このカテゴリは構文的であり、何が何が起こっているかを記述する。 次に,この統語的カテゴリーにおける単位区間値コプレシーブの豊富なカテゴリに渡して意味情報を求める。

Given a piece of text, the ability to generate a coherent extension of it implies some sophistication, including a knowledge of grammar and semantics. In this paper, we propose a mathematical framework for passing from probability distributions on extensions of given texts to an enriched category containing semantic information. Roughly speaking, we model probability distributions on texts as a category enriched over the unit interval. Objects of this category are expressions in language and hom objects are conditional probabilities that one expression is an extension of another. This category is syntactical: it describes what goes with what. We then pass to the enriched category of unit interval-valued copresheaves on this syntactical category to find semantic information.
翻訳日:2021-06-16 15:09:23 公開日:2021-06-15
# 地域品質推定を用いた心理療法会話の自動品質評価フレームワーク

An Automated Quality Evaluation Framework of Psychotherapy Conversations with Local Quality Estimates ( http://arxiv.org/abs/2106.07922v1 )

ライセンス: Link先を確認
Zhuohao Chen, Nikolaos Flemotomos, Karan Singla, Torrey A. Creed, David C. Atkins, Shrikanth Narayanan(参考訳) CBT(Cognitive Behavioral Therapy)やMI(Motivational Interviewing)といった,会話に基づく心理療法の質を評価するための計算手法が近年開発され,品質保証と臨床研修が支援されている。 しかしながら、長いセッションの長さと限られたモデリングリソースのため、計算手法は主に周波数ベースの語彙的特徴や対話行為の分布に依存する。 本研究では,cbtインタラクションの品質を自動的に評価する階層的フレームワークを提案する。 各心理療法セッションを会話セグメントに分割し、BERTベースのモデルに入力し、セグメント埋め込みを生成する。 まず、セグメントレベルの(局所的な)品質スコアを予測し、次に、双方向LSTMベースのニューラルネットワークへの下位レベルの入力としてセグメント埋め込みを使用してセッションレベルの(グローバルな)品質推定を予測する。 特に,セグメントレベルの品質スコアはセッションレベルのスコアで初期化され,グローバル品質を局所的な品質スコアの関数としてモデル化し,正確なセグメントレベルの品質推定を行う。 これらの推定セグメントレベルスコアは、BERTの微調整とより良いセグメント埋め込みの学習の恩恵を受ける。 実世界のCBT臨床セッション記録から得られたデータに基づいて,複数のセッションレベルの行動コードを予測する。 その結果,回帰処理と分類処理の両方において,ほとんどの符号の評価精度が向上することが示唆された。

Computational approaches for assessing the quality of conversation-based psychotherapy, such as Cognitive Behavioral Therapy (CBT) and Motivational Interviewing (MI), have been developed recently to support quality assurance and clinical training. However, due to the long session lengths and limited modeling resources, computational methods largely rely on frequency-based lexical features or distribution of dialogue acts. In this work, we propose a hierarchical framework to automatically evaluate the quality of a CBT interaction. We divide each psychotherapy session into conversation segments and input those into a BERT-based model to produce segment embeddings. We first fine-tune BERT for predicting segment-level (local) quality scores and then use segment embeddings as lower-level input to a Bidirectional LSTM-based neural network to predict session-level (global) quality estimates. In particular, the segment-level quality scores are initialized with the session-level scores and we model the global quality as a function of the local quality scores to achieve the accurate segment-level quality estimates. These estimated segment-level scores benefit theBERT fine-tuning and in learning better segment embeddings. We evaluate the proposed framework on data drawn from real-world CBT clinical session recordings to predict multiple session-level behavior codes. The results indicate that our approach leads to improved evaluation accuracy for most codes in both regression and classification tasks.
翻訳日:2021-06-16 15:09:12 公開日:2021-06-15
# 医療問題におけるルールベース機械学習の精度・解釈可能性・個人化の妥協

Improving the compromise between accuracy, interpretability and personalization of rule-based machine learning in medical problems ( http://arxiv.org/abs/2106.07827v1 )

ライセンス: Link先を確認
Francisco Valente, Simao Paredes, Jorge Henriques(参考訳) 予測モデルを開発する際の重要な課題の1つは、ドメイン知識と因果関係を単純な方法で記述できる能力である。 決定規則はこの文脈において有用かつ重要な方法論であり、いくつかの分野、特に臨床における応用を正当化する。 いくつかの機械学習分類器は、決定規則の有利な特性を利用して、インテリジェントな予測モデルを構築している。 しかし、そのような手法は通常、解釈可能性と予測性能のトレードオフに悩まされる。 いくつかの手順はETの単純化を考慮し、ヒューリスティックなアプローチを用いて最適な決定規則のセットを選択する。 本稿では,これらの方法論に新たなステップを導入する。 我々は、特定の患者に対して所定のルールが正しいかどうかを予測するための新しいコンポーネントを作成し、その手順にパーソナライズを導入する。 さらに, 3つの臨床データセットを用いた検証結果から, 選択したルールセットの予測性能を向上し, 上記のトレードオフを改善した。

One of the key challenges when developing a predictive model is the capability to describe the domain knowledge and the cause-effect relationships in a simple way. Decision rules are a useful and important methodology in this context, justifying their application in several areas, in particular in clinical practice. Several machine-learning classifiers have exploited the advantageous properties of decision rules to build intelligent prediction models, namely decision trees and ensembles of trees (ETs). However, such methodologies usually suffer from a trade-off between interpretability and predictive performance. Some procedures consider a simplification of ETs, using heuristic approaches to select an optimal reduced set of decision rules. In this paper, we introduce a novel step to those methodologies. We create a new component to predict if a given rule will be correct or not for a particular patient, which introduces personalization into the procedure. Furthermore, the validation results using three public clinical datasets show that it also allows to increase the predictive performance of the selected set of rules, improving the mentioned trade-off.
翻訳日:2021-06-16 15:08:16 公開日:2021-06-15
# ディープフィードバック制御によるニューラルネットワークのクレジット割り当て

Credit Assignment in Neural Networks through Deep Feedback Control ( http://arxiv.org/abs/2106.07887v1 )

ライセンス: Link先を確認
Alexander Meulemans, Matilde Tristany Farinha, Javier Garc\'ia Ord\'o\~nez, Pau Vilimelis Aceituno, Jo\~ao Sacramento, Benjamin F. Grewe(参考訳) 深層学習の成功は、脳がネットワーク出力への貢献のために各シナプス重みにクレジットを割り当てる同様の手法を用いて学習するかどうかという関心を喚起した。 しかし、生物学的に証明可能な学習手法のほとんどの試みは、時間的に非局所的であるか、非常に特定の接続モチベーションを必要とするか、あるいは既知の数学的最適化手法に明確なリンクを持たないかのいずれかである。 本稿では,Deep Feedback Control(DFC)について紹介する。これは,フィードバックコントローラを用いて,所望の出力ターゲットにマッチするディープニューラルネットワークを駆動し,その制御信号を信用代入に使用できる新しい学習方法である。 学習規則は空間と時間において完全に局所的であり、幅広いフィードバック接続パターンに対するガウス・ニュートンの最適化を近似する。 さらに,dfcを局所的な電位依存性シナプス可塑性則を持つ皮質錐体ニューロンの多成分モデルと結びつけ,最近の樹状突起処理の理論と一致させた。 力学系理論と数理最適化理論を組み合わせることにより,dfcの強力な理論的基礎を提供し,玩具実験と標準コンピュータビジョンベンチマークの詳細な結果と照合する。

The success of deep learning sparked interest in whether the brain learns by using similar techniques for assigning credit to each synaptic weight for its contribution to the network output. However, the majority of current attempts at biologically-plausib le learning methods are either non-local in time, require highly specific connectivity motives, or have no clear link to any known mathematical optimization method. Here, we introduce Deep Feedback Control (DFC), a new learning method that uses a feedback controller to drive a deep neural network to match a desired output target and whose control signal can be used for credit assignment. The resulting learning rule is fully local in space and time and approximates Gauss-Newton optimization for a wide range of feedback connectivity patterns. To further underline its biological plausibility, we relate DFC to a multi-compartment model of cortical pyramidal neurons with a local voltage-dependent synaptic plasticity rule, consistent with recent theories of dendritic processing. By combining dynamical system theory with mathematical optimization theory, we provide a strong theoretical foundation for DFC that we corroborate with detailed results on toy experiments and standard computer-vision benchmarks.
翻訳日:2021-06-16 15:08:00 公開日:2021-06-15
# 対向訓練における再重み付けの確率的マージン

Probabilistic Margins for Instance Reweighting in Adversarial Training ( http://arxiv.org/abs/2106.07904v1 )

ライセンス: Link先を確認
Qizhou Wang, Feng Liu, Bo Han, Tongliang Liu, Chen Gong, Gang Niu, Mingyuan Zhou, Masashi Sugiyama(参考訳) トレーニング中の敵データの重み付けは、現在の決定境界に近いデータがより重要で、重み付けが大きいと見なされる、敵のロバスト性を改善することが最近示されている。 それらは離散的であり、数個の値しか取ることができず、経路に依存しており、攻撃経路の異なる同じ開始点と終了点によって変更される可能性がある。 本稿では,上記の近接性の測定と逆データの再重み付けのために,連続的かつ経路非依存な3種類の確率的マージン(pm)を提案する。 具体的には、pmを2つの推定されたクラス後確率の差として定義する(例えば、真のラベルの確率は、ある自然データから与えられた最も紛らわしいラベルの確率を最小にする)。 異なる pm は異なる幾何学的性質を捉えるが、3つの pm はデータの脆弱性と負の相関関係を持つ: より大きい/小さい pm を持つデータはより安全/リスクであり、より小さい/大きい重みを持つべきである。 実験により、PMは信頼性の高い測定であり、PMに基づく再重み付け法は最先端の手法より優れていることが示された。

Reweighting adversarial data during training has been recently shown to improve adversarial robustness, where data closer to the current decision boundaries are regarded as more critical and given larger weights. However, existing methods measuring the closeness are not very reliable: they are discrete and can take only a few values, and they are path-dependent, i.e., they may change given the same start and end points with different attack paths. In this paper, we propose three types of probabilistic margin (PM), which are continuous and path-independent, for measuring the aforementioned closeness and reweighting adversarial data. Specifically, a PM is defined as the difference between two estimated class-posterior probabilities, e.g., such the probability of the true label minus the probability of the most confusing label given some natural data. Though different PMs capture different geometric properties, all three PMs share a negative correlation with the vulnerability of data: data with larger/smaller PMs are safer/riskier and should have smaller/larger weights. Experiments demonstrate that PMs are reliable measurements and PM-based reweighting methods outperform state-of-the-art methods.
翻訳日:2021-06-16 15:07:41 公開日:2021-06-15
# Compression Implies Generalization

Compression Implies Generalization ( http://arxiv.org/abs/2106.07989v1 )

ライセンス: Link先を確認
Allan Gr{\o}nlund, Mikael H{\o}gsgaard, Lior Kamma, Kasper Green Larsen(参考訳) ディープニューラルネットワークの驚くべき一般化性能を説明することは、理論的機械学習における活発で重要な研究分野である。 Aroraらによるインフルエンシャルな作品。 (icml'18) は,実際に発生する深層網のノイズ安定性特性をモデル表現の圧縮に有効であることを示した。 彼らは、圧縮されたネットワークの小さな表現は、圧縮されたネットのみに対して優れた一般化性能を示すと論じた。 圧縮フレームワークを拡張して、オリジナルの非圧縮ネットワークの一般化境界を与えるのは、いまだに不可能である。 我々の主な貢献は、一般化境界を証明するための圧縮ベースのフレームワークの確立である。 このフレームワークは単純で強力で、Aroraらによる一般化境界を拡張するのに十分である。 元のネットワークも保持する。 フレームワークの柔軟性を示すために、ベクターマシンのサポートやブースティングなど、他の一般的な機械学習モデルでもっともよく知られた一般化境界を簡単に証明できることも示しています。

Explaining the surprising generalization performance of deep neural networks is an active and important line of research in theoretical machine learning. Influential work by Arora et al. (ICML'18) showed that, noise stability properties of deep nets occurring in practice can be used to provably compress model representations. They then argued that the small representations of compressed networks imply good generalization performance albeit only of the compressed nets. Extending their compression framework to yield generalization bounds for the original uncompressed networks remains elusive. Our main contribution is the establishment of a compression-based framework for proving generalization bounds. The framework is simple and powerful enough to extend the generalization bounds by Arora et al. to also hold for the original network. To demonstrate the flexibility of the framework, we also show that it allows us to give simple proofs of the strongest known generalization bounds for other popular machine learning models, namely Support Vector Machines and Boosting.
翻訳日:2021-06-16 15:07:21 公開日:2021-06-15
# デモからの残留強化学習

Residual Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2106.08050v1 )

ライセンス: Link先を確認
Minttu Alakuijala (WILLOW, Thoth), Gabriel Dulac-Arnold, Julien Mairal (Thoth), Jean Ponce (WILLOW), Cordelia Schmid(参考訳) 報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(RL)が提案されている。 視覚入力から学習するために残留定式化を拡張し,実演を用いてスパース報酬を得る。 画像、プロプレプティブ入力、スパースタスク補完報酬から学ぶことで、オブジェクトやターゲット位置などの完全な状態特徴にアクセスする必要が緩和される。 さらに、ベースコントローラをデモから学んだポリシーに置き換えることで、非専門家が提供できるデモのデータセットに賛成して、手作業によるコントローラへの依存を排除できる。 6-DoF UR5 アームと28-DoF dexterous ハンドのシミュレーション操作に関する実験的評価は、デモからの残留 RL が、行動的クローニングやRL微調整よりも柔軟で、RL をスクラッチから切り離した高次元のスパース・リワードタスクを解くことができることを示す。

Residual reinforcement learning (RL) has been proposed as a way to solve challenging robotic tasks by adapting control actions from a conventional feedback controller to maximize a reward signal. We extend the residual formulation to learn from visual inputs and sparse rewards using demonstrations. Learning from images, proprioceptive inputs and a sparse task-completion reward relaxes the requirement of accessing full state features, such as object and target positions. In addition, replacing the base controller with a policy learned from demonstrations removes the dependency on a hand-engineered controller in favour of a dataset of demonstrations, which can be provided by non-experts. Our experimental evaluation on simulated manipulation tasks on a 6-DoF UR5 arm and a 28-DoF dexterous hand demonstrates that residual RL from demonstrations is able to generalize to unseen environment conditions more flexibly than either behavioral cloning or RL fine-tuning, and is capable of solving high-dimensional, sparse-reward tasks out of reach for RL from scratch.
翻訳日:2021-06-16 15:07:05 公開日:2021-06-15
# ハイパーグラフ異質性尺度

Hypergraph Dissimilarity Measures ( http://arxiv.org/abs/2106.08206v1 )

ライセンス: Link先を確認
Amit Surana, Can Chen and Indika Rajapakse(参考訳) 本稿では,ハイパーグラフ比較のための2つの新しい手法を提案する。 第1のアプローチは、ハイパーグラフを標準グラフの相似性尺度を使用するためのグラフ表現に変換する。 第二のアプローチはテンソルの数学を利用して、本質的に多方向関係を捉える。 各手法について,ハイパーグラフの差分性を評価するか,より総合的なマルチスケール比較を行う手法を提案する。 合成ハイパーグラフ上でこれらの測定を検証し,生物学的データセットに適用する。

In this paper, we propose two novel approaches for hypergraph comparison. The first approach transforms the hypergraph into a graph representation for use of standard graph dissimilarity measures. The second approach exploits the mathematics of tensors to intrinsically capture multi-way relations. For each approach, we present measures that assess hypergraph dissimilarity at a specific scale or provide a more holistic multi-scale comparison. We test these measures on synthetic hypergraphs and apply them to biological datasets.
翻訳日:2021-06-16 15:06:43 公開日:2021-06-15
# CRFL: バックドア攻撃に対するフェデレーション・ラーニング

CRFL: Certifiably Robust Federated Learning against Backdoor Attacks ( http://arxiv.org/abs/2106.08283v1 )

ライセンス: Link先を確認
Chulin Xie, Minghao Chen, Pin-Yu Chen, Bo Li(参考訳) さまざまなクライアントから情報を集約して共有グローバルモデルをトレーニングする分散学習パラダイムであるフェデレートラーニング(FL)は、大きな成功を収めています。 しかし、悪意のあるクライアントは毒殺攻撃やモデル置換を行い、トレーニングされたグローバルモデルにバックドアを導入することができる。 強固なアグリゲーション手法と経験的強固な連合トレーニングプロトコルをバックドアに対して設計する集中的な研究があったが、既存のアプローチは強固さの証明を欠いている。 本稿では,第1の汎用フレームワークであるCertifiably Robust Federated Learning (CRFL) を用いて,バックドアに対する堅牢なFLモデルをトレーニングする。 本手法は,モデルパラメータのクリップングと平滑化を利用してグローバルモデルの平滑性を制御する。 また,本認定では,インスタンスレベルの中毒率,攻撃者数,反復訓練など,フェデレーション学習パラメータとの関係も明らかにしている。 実際、フェデレーションデータセットの広範囲にわたる包括的な実験を行い、フェデレーション学習におけるバックドア攻撃に対する認定ロバスト性に関する最初のベンチマークを提供する。 私たちのコードはhttps://github.com/a i-secure/crflで利用可能です。

Federated Learning (FL) as a distributed learning paradigm that aggregates information from diverse clients to train a shared global model, has demonstrated great success. However, malicious clients can perform poisoning attacks and model replacement to introduce backdoors into the trained global model. Although there have been intensive studies designing robust aggregation methods and empirical robust federated training protocols against backdoors, existing approaches lack robustness certification. This paper provides the first general framework, Certifiably Robust Federated Learning (CRFL), to train certifiably robust FL models against backdoors. Our method exploits clipping and smoothing on model parameters to control the global model smoothness, which yields a sample-wise robustness certification on backdoors with limited magnitude. Our certification also specifies the relation to federated learning parameters, such as poisoning ratio on instance level, number of attackers, and training iterations. Practically, we conduct comprehensive experiments across a range of federated datasets, and provide the first benchmark for certified robustness against backdoor attacks in federated learning. Our code is available at https://github.com/A I-secure/CRFL.
翻訳日:2021-06-16 15:06:37 公開日:2021-06-15
# スイッチングパワー情報を用いたニューラルネットワークのモデル抽出と逆攻撃

Model Extraction and Adversarial Attacks on Neural Networks using Switching Power Information ( http://arxiv.org/abs/2106.08299v1 )

ライセンス: Link先を確認
Tommy Li and Cory Merkel(参考訳) 人工ニューラルネットワーク(ANN)は、医療、輸送、防衛といった分野において、狭いAI問題を解決することで、過去10年間で大きな人気を集めている。 ANNがよりユビキタスになるにつれて、関連する安全性、セキュリティ、プライバシの脆弱性を理解することが不可欠である。 近年、ネットワークのトレーニングやテストに使用されるデータとほとんど区別がつかないにもかかわらず、annが高信頼の誤分類を引き起こす多くの敵対的回避攻撃に影響を受けやすいことが示されている。 この研究は、ANNのハードウェア実装のサイドチャネル情報、特に電力消費の切り替えによって、これらの例がどの程度役立つかを調べる。 攻撃者がANNハードウェアの入力、出力、トポロジーにアクセスするブラックボックスの脅威シナリオが想定されるが、訓練されたモデルパラメータは未知である。 次に、サロゲートモデルが同様の機能(すなわち)を持つように訓練される。 入出力マッピング)とoracle(ブラックボックス)モデルとしての電力特性の切り替え。 結果から,オラクルとサロゲート重みの平均二乗誤差比較により,消費電力データの導入により,モデル抽出の忠実度が最大30%向上することが示唆された。 しかし,サロゲートからオラクルモデルへの逆転例の移動性には大きな影響はなかった。

Artificial neural networks (ANNs) have gained significant popularity in the last decade for solving narrow AI problems in domains such as healthcare, transportation, and defense. As ANNs become more ubiquitous, it is imperative to understand their associated safety, security, and privacy vulnerabilities. Recently, it has been shown that ANNs are susceptible to a number of adversarial evasion attacks--inputs that cause the ANN to make high-confidence misclassifications despite being almost indistinguishable from the data used to train and test the network. This work explores to what degree finding these examples maybe aided by using side-channel information, specifically switching power consumption, of hardware implementations of ANNs. A black-box threat scenario is assumed, where an attacker has access to the ANN hardware's input, outputs, and topology, but the trained model parameters are unknown. Then, a surrogate model is trained to have similar functional (i.e. input-output mapping) and switching power characteristics as the oracle (black-box) model. Our results indicate that the inclusion of power consumption data increases the fidelity of the model extraction by up to 30 percent based on a mean square error comparison of the oracle and surrogate weights. However, transferability of adversarial examples from the surrogate to the oracle model was not significantly affected.
翻訳日:2021-06-16 15:06:14 公開日:2021-06-15
# 緊急対応システムのための大規模地域におけるインシデント予測モデル

Learning Incident Prediction Models Over Large Geographical Areas for Emergency Response Systems ( http://arxiv.org/abs/2106.08307v1 )

ライセンス: Link先を確認
Sayyed Mohsen Vazirizade and Ayan Mukhopadhyay and Geoffrey Pettet and Said El Said and Hiba Baroud and Abhishek Dubey(参考訳) 緊急対応管理における原則的意思決定は、事故発生の時空間的確率を予測する統計モデルを使用する必要がある。 これらの統計モデルは、全体の応答時間を短縮するために、空間領域を横断する第1の応答器を割り当てる積極的位置決めに使用される。 空間領域が大きく、州間高速道路網のようなきめ細かい空間構造に焦点を絞った場合、過去の出来事を単に空間と時間に集約する伝統的な手法は、短期的な予測に役立ちません。 これは一部、地域に関して事件が広範囲に及んでいるためである。 さらに、事故は複数の共変種の影響を受け、様々なソースからの複数のデータストリームの収集、クリーニング、管理は、大きな空間領域において困難である。 本稿では,米国テネシー州の総面積が10万平方平方メートルを超える州に対して,この問題がどのように解決されているかを強調した。 km 合成再サンプリング,非空間クラスタリング,およびデータからの学習を組み合わせたパイプラインは,ばらばらな条件下においても事故発生の空間的および時間的ダイナミクスを効率的に予測することができる。 本稿では,道路の地形,気象,歴史的事故,リアルタイム交通渋滞に関するデータを用いて,事故予測を支援するパイプラインについて述べる。 予測モデルがアロケーションやディスパッチにどのように影響するかを理解するため,従来のリソースアロケーションアプローチを改善した。 実験の結果, 本手法は, 現場での応答時間を大幅に削減できることがわかった。

Principled decision making in emergency response management necessitates the use of statistical models that predict the spatial-temporal likelihood of incident occurrence. These statistical models are then used for proactive stationing which allocates first responders across the spatial area in order to reduce overall response time. Traditional methods that simply aggregate past incidents over space and time fail to make useful short-term predictions when the spatial region is large and focused on fine-grained spatial entities like interstate highway networks. This is partially due to the sparsity of incidents with respect to the area in consideration. Further, accidents are affected by several covariates, and collecting, cleaning, and managing multiple streams of data from various sources is challenging for large spatial areas. In this paper, we highlight how this problem is being solved for the state of Tennessee, a state in the USA with a total area of over 100,000 sq. km. Our pipeline, based on a combination of synthetic resampling, non-spatial clustering, and learning from data can efficiently forecast the spatial and temporal dynamics of accident occurrence, even under sparse conditions. In the paper, we describe our pipeline that uses data related to roadway geometry, weather, historical accidents, and real-time traffic congestion to aid accident forecasting. To understand how our forecasting model can affect allocation and dispatch, we improve upon a classical resource allocation approach. Experimental results show that our approach can significantly reduce response times in the field in comparison with current approaches followed by first responders.
翻訳日:2021-06-16 15:05:54 公開日:2021-06-15
# 教師と教師の混合による教師なし・半教師なし音声分離

Teacher-Student MixIT for Unsupervised and Semi-supervised Speech Separation ( http://arxiv.org/abs/2106.07843v1 )

ライセンス: Link先を確認
Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker(参考訳) 本稿では,エンドツーエンド音声分離のための半教師付き学習フレームワークを提案する。 提案手法はまず,教師モデルを訓練するために,未分離音源と混合不変訓練基準(MixIT)を用いた。 教師モデルは、標準変分不変訓練(PIT)で学生モデルを訓練するために使用される分離された情報源を推定する。 学生モデルは、教師付きデータ、すなわちペア人工混合物とクリーン音声源で微調整することができ、さらにモデルの蒸留により改善される。 単一チャネルと複数チャネルの混合実験により,MixIT法で観測されたオーバーセパレーション問題を教師と学生の学習で解決することを示した。 さらに、半教師付き性能は、教師付きデータの10倍の量で訓練された完全教師付き分離システムに匹敵する。

In this paper, we introduce a novel semi-supervised learning framework for end-to-end speech separation. The proposed method first uses mixtures of unseparated sources and the mixture invariant training (MixIT) criterion to train a teacher model. The teacher model then estimates separated sources that are used to train a student model with standard permutation invariant training (PIT). The student model can be fine-tuned with supervised data, i.e., paired artificial mixtures and clean speech sources, and further improved via model distillation. Experiments with single and multi channel mixtures show that the teacher-student training resolves the over-separation problem observed in the original MixIT method. Further, the semisupervised performance is comparable to a fully-supervised separation system trained using ten times the amount of supervised data.
翻訳日:2021-06-16 15:05:27 公開日:2021-06-15
# 話者検証のための適応マージン円損失

Adaptive Margin Circle Loss for Speaker Verification ( http://arxiv.org/abs/2106.08004v1 )

ライセンス: Link先を確認
Runqiu Xiao(参考訳) deep-neural-network (dnn) ベースの話者検証システムsys-temは、スピーカー埋め込みのクラス内コンパクト性を高めるマージンペナルティを持つ角ソフトマックス損失を使用する。 本稿では,話者検証のための適応余剰サークル損失という新しい角損失関数を提案する。 ステージベースマージンとチャンクベースマージンを用いて、トレーニングセットにおける円損失の角偏差を改善する。 グラディエントの解析は、アダディティブ・マージン・ソフトマックス(Am-Softmax)のような以前の角損失と比較して、円損失はフレキシブル最適化と定収束状態を持つことを示した。 voxceleb と sitw で実験が行われている。 SITWコアコアでは1.31%EERをVoxceleb1で、2.13%を達成している。

Deep-Neural-Network (DNN) based speaker verification sys-tems use the angular softmax loss with margin penalties toenhance the intra-class compactness of speaker embeddings,which achieved remarkable performance. In this paper, we pro-pose a novel angular loss function called adaptive margin cir-cle loss for speaker verification. The stage-based margin andchunk-based margin are applied to improve the angular discrim-ination of circle loss on the training set. The analysis on gradi-ents shows that, compared with the previous angular loss likeAdditive Margin Softmax(Am-Softmax), circle loss has flexi-ble optimization and definite convergence status. Experimentsare carried out on the Voxceleb and SITW. By applying adap-tive margin circle loss, our best system achieves 1.31%EER onVoxceleb1 and 2.13% on SITW core-core.
翻訳日:2021-06-16 15:05:14 公開日:2021-06-15
# tree-values:回帰木に対する選択的推論

Tree-Values: selective inference for regression trees ( http://arxiv.org/abs/2106.07816v1 )

ライセンス: Link先を確認
Anna C. Neufeld, Lucy L. Gao, Daniela M. Witten(参考訳) 我々は分類・回帰木(CART) [Breiman et al., 1984] アルゴリズムの出力を推定する。 推論に対するナイーブなアプローチは、データから推定されたツリーがタイプ1のエラー率制御や名目カバレッジといった標準保証を達成できないという事実を考慮しない。 そこで本研究では,適応したCARTツリー上での推論を行うための選択推論フレームワークを提案する。 一言で言えば、木がデータから推定されたという事実を条件とします。 本稿では,選択型1エラー率を制御する一対の端末ノード間の平均応答の差と,名目選択カバレッジを達成する単一端末ノード内の平均応答に対する信頼区間とを比較検討する。 必要な条件セットを効率的に計算するアルゴリズムが提供される。 これらの手法をシミュレーションおよび部分制御介入とカロリー摂取との関連性に関するデータセットに適用する。

We consider conducting inference on the output of the Classification and Regression Tree (CART) [Breiman et al., 1984] algorithm. A naive approach to inference that does not account for the fact that the tree was estimated from the data will not achieve standard guarantees, such as Type 1 error rate control and nominal coverage. Thus, we propose a selective inference framework for conducting inference on a fitted CART tree. In a nutshell, we condition on the fact that the tree was estimated from the data. We propose a test for the difference in the mean response between a pair of terminal nodes that controls the selective Type 1 error rate, and a confidence interval for the mean response within a single terminal node that attains the nominal selective coverage. Efficient algorithms for computing the necessary conditioning sets are provided. We apply these methods in simulation and to a dataset involving the association between portion control interventions and caloric intake.
翻訳日:2021-06-16 15:04:57 公開日:2021-06-15
# 点雲を用いたワッサースタイン近似の非漸近収束境界

Non-asymptotic convergence bounds for Wasserstein approximation using point clouds ( http://arxiv.org/abs/2106.07911v1 )

ライセンス: Link先を確認
Quentin Merigot (LMO, IUF), Filippo Santambrogio (ICJ, IUF), Cl\'ement Sarrazin (LMO)(参考訳) 機械学習と逆問題におけるいくつかの問題は、モデル確率分布からサンプリングされたような離散データを生成する必要がある。 そのような方法の一般的な方法は、モデル分布へのワッサーシュタイン距離を最小化する$N$点の集合上の一様確率分布の構成に依存する。 未知が原子の位置であるこの最小化問題は非凸である。 しかし、ほとんどの場合、ヴォロノイ細胞をパワーセルに置き換えるロイドのアルゴリズムの適度に調整されたバージョンは、小さなワッサーシュタイン誤差を伴う構成に導かれる。 これは、再び、この問題の凸でない性質と、散発的な臨界点の存在について、驚きである。 我々は、このロイド型アルゴリズムの収束速度について、十分遠く離れた点の雲から明らかな上限を与える。 これはすでにイテレーション手順の1ステップ後に動作し、対応する勾配降下に対して同様の境界を推論できる。 これらの境界は自然に、離散分布におけるディラック質量間の距離に依存する誤差項を持つ、ワッサーシュタイン距離コストに対するポリアク・ロジャシェヴィチの不等式修正につながる。

Several issues in machine learning and inverse problems require to generate discrete data, as if sampled from a model probability distribution. A common way to do so relies on the construction of a uniform probability distribution over a set of $N$ points which minimizes the Wasserstein distance to the model distribution. This minimization problem, where the unknowns are the positions of the atoms, is non-convex. Yet, in most cases, a suitably adjusted version of Lloyd's algorithm -- in which Voronoi cells are replaced by Power cells -- leads to configurations with small Wasserstein error. This is surprising because, again, of the non-convex nature of the problem, as well as the existence of spurious critical points. We provide explicit upper bounds for the convergence speed of this Lloyd-type algorithm, starting from a cloud of points sufficiently far from each other. This already works after one step of the iteration procedure, and similar bounds can be deduced, for the corresponding gradient descent. These bounds naturally lead to a modified Poliak-Lojasiewicz inequality for the Wasserstein distance cost, with an error term depending on the distances between Dirac masses in the discrete distribution.
翻訳日:2021-06-16 15:04:44 公開日:2021-06-15
# 幾何学的特徴を用いた次元的影響認識のための効率的な表情解析

Efficient Facial Expression Analysis For Dimensional Affect Recognition Using Geometric Features ( http://arxiv.org/abs/2106.07817v1 )

ライセンス: Link先を確認
Vassilios Vonikakis and Stefan Winkler(参考訳) 人気が続いているにもかかわらず、認識に影響を与えるカテゴリー的アプローチには、特に現実の状況において制限がある。 影響の次元モデルは、微妙な表現の認識とよりきめ細かい分析に重要な利点をもたらす。 本稿では,幾何学的特徴と部分最小方形回帰(PLS)に基づく,次元的影響を考慮した簡易かつ効果的な表情解析(FEA)システムを提案する。 このシステムは、一連の顔画像からArousalとValenceの評価を評価することを共同で学習する。 提案手法は堅牢で効率的であり、計算資源のごく一部を必要としながら、現代のディープラーニングモデルに匹敵する性能を示す。

Despite their continued popularity, categorical approaches to affect recognition have limitations, especially in real-life situations. Dimensional models of affect offer important advantages for the recognition of subtle expressions and more fine-grained analysis. We introduce a simple but effective facial expression analysis (FEA) system for dimensional affect, solely based on geometric features and Partial Least Squares (PLS) regression. The system jointly learns to estimate Arousal and Valence ratings from a set of facial images. The proposed approach is robust, efficient, and exhibits comparable performance to contemporary deep learning models, while requiring a fraction of the computational resources.
翻訳日:2021-06-16 15:04:27 公開日:2021-06-15
# 写真収集から3d顔を集約・パーソナライズする学習

Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection ( http://arxiv.org/abs/2106.07852v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Yanhao Ge, Renwang Chen, Ying Tai, Yan Yan, Jian Yang, Chengjie Wang, Jilin Li, Feiyue Huang(参考訳) 非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。 正確な顔の詳細は予測されるが、モデルは局所的な色調に過度に依存し、あいまいなノイズに苦しむ傾向がある。 このような問題に対処するために,非教師付き堅牢な3次元顔モデリングのためのLAPフレームワークを提案する。 制御された環境を使用する代わりに、提案手法は、制約のない写真集合からIDとシーン固有の顔を暗黙的に切り離す。 具体的には、ID一貫性のある顔を学ぶために、LAPは、リラックスした一貫性損失を伴う新しいカリキュラム学習アプローチに基づいて、アイデンティティの固有の顔要素を適応的に集約する。 パーソナライズされたシーンに顔を適用するために,id一貫性のある顔をターゲット属性と詳細で修正する新しい属性改善ネットワークを提案する。 提案手法に基づき,有意義な顔構造と高精細度を生かして,教師なしの3次元顔モデリングを実現する。 ベンチマークによる大規模な実験により、LAPは、最先端のSOTA(State-of-the-ar t)手法と比較して、優れた顔の形やテクスチャを回復することが示された。

Non-parametric face modeling aims to reconstruct 3D face only from images without shape assumptions. While plausible facial details are predicted, the models tend to over-depend on local color appearance and suffer from ambiguous noise. To address such problem, this paper presents a novel Learning to Aggregate and Personalize (LAP) framework for unsupervised robust 3D face modeling. Instead of using controlled environment, the proposed method implicitly disentangles ID-consistent and scene-specific face from unconstrained photo set. Specifically, to learn ID-consistent face, LAP adaptively aggregates intrinsic face factors of an identity based on a novel curriculum learning approach with relaxed consistency loss. To adapt the face for a personalized scene, we propose a novel attribute-refining network to modify ID-consistent face with target attribute and details. Based on the proposed method, we make unsupervised 3D face modeling benefit from meaningful image facial structure and possibly higher resolutions. Extensive experiments on benchmarks show LAP recovers superior or competitive face shape and texture, compared with state-of-the-art (SOTA) methods with or without prior and supervision.
翻訳日:2021-06-16 15:04:17 公開日:2021-06-15
# 航空シーン分類のための軽量ReLU機能融合

A Lightweight ReLU-Based Feature Fusion for Aerial Scene Classification ( http://arxiv.org/abs/2106.07879v1 )

ライセンス: Link先を確認
Md Adnan Arefeen, Sumaiya Tabassum Nimi, Md Yusuf Sarwar Uddin, Zhu Li(参考訳) 本稿では,航空シーン分類問題に対する移動学習に基づくモデル構築手法を提案する。 提案手法のコアとなるのはReLU-Based Feature Fusion (RBFF) と呼ばれる層選択戦略であり,事前訓練されたCNNベース単一対象画像分類モデル,すなわちMobileNetV2から特徴マップを抽出し,空中シーン分類作業のためのモデルを構築する。 RBFFスタックは、いくつかの選択されたMobileNetV2ブロックのバッチ正規化層から抽出され、これらのブロックに存在するReLU活性化層の特性に基づいて候補ブロックが選択される。 特徴ベクトルを次元還元アルゴリズムを用いて低次元特徴空間に圧縮し,航空画像の分類のための低コストなSVM分類器を訓練する。 抽出した特徴の分類パイプラインにおける意義に基づいて,選択した特徴の選択を検証する。 RBFFは、分類器のいくつかのパラメータを除いて、ベースCNNモデルのトレーニングを著しく含まないため、実用的な展開に非常に費用対効果がある。 軽量であるにもかかわらず構築されたモデルは、いくつかの航空シーンデータセットの精度において、最近提案されたモデルより優れている。

In this paper, we propose a transfer-learning based model construction technique for the aerial scene classification problem. The core of our technique is a layer selection strategy, named ReLU-Based Feature Fusion (RBFF), that extracts feature maps from a pretrained CNN-based single-object image classification model, namely MobileNetV2, and constructs a model for the aerial scene classification task. RBFF stacks features extracted from the batch normalization layer of a few selected blocks of MobileNetV2, where the candidate blocks are selected based on the characteristics of the ReLU activation layers present in those blocks. The feature vector is then compressed into a low-dimensional feature space using dimension reduction algorithms on which we train a low-cost SVM classifier for the classification of the aerial images. We validate our choice of selected features based on the significance of the extracted features with respect to our classification pipeline. RBFF remarkably does not involve any training of the base CNN model except for a few parameters for the classifier, which makes the technique very cost-effective for practical deployments. The constructed model despite being lightweight outperforms several recently proposed models in terms of accuracy for a number of aerial scene datasets.
翻訳日:2021-06-16 15:03:56 公開日:2021-06-15
# 波長依存型深層ニューラルネットワークによる水中画像復元

Wavelength-based Attributed Deep Neural Network for Underwater Image Restoration ( http://arxiv.org/abs/2106.07910v1 )

ライセンス: Link先を確認
Prasen Kumar Sharma, Ira Bisht, Arijit Sur(参考訳) 水中画像は、一般的に低コントラストと高色の歪みに悩まされ、水中を伝播するにつれて光の均一な減衰が減少する。 加えて、減衰の度合いは波長によって変化し、色が非対称になる。 深層学習による水中画像復元(uir)は多岐にわたるが,これらの非対称性はネットワーク工学では解決されていない。 第1のノベルティとして,カラーチャネルのトラバース範囲に基づく右受容野サイズ(コンテキスト)の帰属は,uirのタスクにおいて実質的な性能向上をもたらす可能性があることを示す。 さらに、無関係なマルチコンテキストの特徴を抑え、モデルの表現力を高めることが重要である。 そこで,第2のノベルティとして,学習したマルチコンテキスト特徴を適応的に洗練するために注意深いスキップ機構を組み込んだ。 提案するフレームワークはDeep WaveNetと呼ばれ、従来のピクセル単位で機能ベースのコスト関数を使って最適化されている。 ベンチマークデータセット上で、既存のベストパブリッシュ文献に対する提案手法の有効性を示すため、広範な実験が実施されている。 さらに,水中画像セマンティックセグメンテーションやダイバーの2次元ポーズ推定など,様々なハイレベルな視覚タスクにおける拡張画像の総合的検証を行った。 実世界のパフォーマンスを示すサンプルビデオは、 \url{https://www.youtube. com/watch?v=8qtuegbdfac}で見ることができる。

Underwater images, in general, suffer from low contrast and high color distortions due to the non-uniform attenuation of the light as it propagates through the water. In addition, the degree of attenuation varies with the wavelength resulting in the asymmetric traversing of colors. Despite the prolific works for underwater image restoration (UIR) using deep learning, the above asymmetricity has not been addressed in the respective network engineering. As the first novelty, this paper shows that attributing the right receptive field size (context) based on the traversing range of the color channel may lead to a substantial performance gain for the task of UIR. Further, it is important to suppress the irrelevant multi-contextual features and increase the representational power of the model. Therefore, as a second novelty, we have incorporated an attentive skip mechanism to adaptively refine the learned multi-contextual features. The proposed framework, called Deep WaveNet, is optimized using the traditional pixel-wise and feature-based cost functions. An extensive set of experiments have been carried out to show the efficacy of the proposed scheme over existing best-published literature on benchmark datasets. More importantly, we have demonstrated a comprehensive validation of enhanced images across various high-level vision tasks, e.g., underwater image semantic segmentation, and diver's 2D pose estimation. A sample video to exhibit our real-world performance is available at \url{https://www.youtube. com/watch?v=8qtuegBdfac}.
翻訳日:2021-06-16 15:03:38 公開日:2021-06-15
# Color2Style: 自己参照学習とDeep Feature Modulationによる実時間模擬画像のカラー化

Color2Style: Real-Time Exemplar-Based Image Colorization with Self-Reference Learning and Deep Feature Modulation ( http://arxiv.org/abs/2106.08017v1 )

ライセンス: Link先を確認
Hengyuan Zhao, Wenhao Wu, Yihao Liu, Dongliang He(参考訳) 古き良き白黒の写真は、人々の懐かしさと過去の栄光に満ちています。 そこで,本論文では,色鮮やかな色で満たして,これらのグレースケールの画像媒体を再現する,Color2Styleという画像カラー化手法を提案する。 一般に、例示ベースの色付けでは、入力と基底の真理のペアを得るのが困難であるため、教師なし・ペアなしの訓練が採用されることが多い。 模範的なカラー化モデルを訓練するために、現在のアルゴリズムは通常、2つの手順を達成しようと試みている: i) 事前に高い類似性を持つ多数の参照画像を取得すること; i) 参照画像の色をグレースケール画像に転送するために複雑なモジュールを設計し、それら間の深い意味的対応(例えば、非局所操作)を計算し、活用すること。 従来の方法とは対照的に,1つのエンドツーエンド学習手順において,上記の2つのステップを解いて単純化する。 まず,原色からグラフィカルな変換によって参照画像を生成する自己表現型自己参照型学習方式を採用し,ペア方式でトレーニングを定式化する。 第2に,複雑な対応マップを演算する代わりに,入力されたグレースケール画像の奥行き表現に基準画像から抽出された色埋め込みを注入する,単純で効果的なdfm(deep feature modulation)モジュールを利用する。 このような設計はより軽量で知性が高く、リアルタイム処理速度で魅力的な性能を実現している。 さらに, 本モデルは, 多元的損失関数や既存手法のような正規化項を必要としないが, 広く用いられている損失関数は2つしかない。 コードとモデルはhttps://github.com/z haohengyuan1/Color2S tyleで入手できる。

Legacy black-and-white photos are riddled with people's nostalgia and glorious memories of the past. To better relive the elapsed frozen moments, in this paper, we present a deep exemplar-based image colorization approach named Color2Style to resurrect these grayscale image media by filling them with vibrant colors. Generally, for exemplar-based colorization, unsupervised and unpaired training are usually adopted, due to the difficulty of obtaining input and ground truth image pairs. To train an exemplar-based colorization model, current algorithms usually strive to achieve two procedures: i) retrieving a large number of reference images with high similarity in advance, which is inevitably time-consuming and tedious; ii) designing complicated modules to transfer the colors of the reference image to the grayscale image, by calculating and leveraging the deep semantic correspondence between them (e.g., non-local operation). Contrary to the previous methods, we solve and simplify the above two steps in one end-to-end learning procedure. First, we adopt a self-augmented self-reference training scheme, where the reference image is generated by graphical transformations from the original colorful one whereby the training can be formulated in a paired manner. Second, instead of computing complex and inexplicable correspondence maps, our method exploits a simple yet effective deep feature modulation (DFM) module, which injects the color embeddings extracted from the reference image into the deep representations of the input grayscale image. Such design is much more lightweight and intelligible, achieving appealing performance with real-time processing speed. Moreover, our model does not require multifarious loss functions and regularization terms like existing methods, but only two widely used loss functions. Codes and models will be available at https://github.com/z haohengyuan1/Color2S tyle.
翻訳日:2021-06-16 15:03:15 公開日:2021-06-15
# 顔識別におけるデモグラフィックフェアネス:ウォッチリストの不均衡効果

Demographic Fairness in Face Identification: The Watchlist Imbalance Effect ( http://arxiv.org/abs/2106.08049v1 )

ライセンス: Link先を確認
Pawel Drozdowski, Christian Rathgeb, Christoph Busch(参考訳) 近年、顔データベースのギャラリー構成は、プローブ画像がすべての記憶されている参照画像に対して比較された顔識別システムの性能差を誘導し、生体的決定に達することが判明している。 この負の効果は「ウォッチリストの不均衡効果」と呼ばれる。 本研究では,人口統計学的グループ間での検証性能と使用済みギャラリーの構成から,生体認証システムにおけるその効果を理論的に推定する手法を提案する。 さらに, 異なる構成の分類群, すなわち, 識別実験の結果について報告する。 オープンソースの顔認証システムであるArcFaceを使用して、公開学術MORPHデータベースの女性と男性。 また, データベース構成は, 検証シナリオにおいて性能差があまり発音されない場合でも, 生体認証システムの性能差に大きな影響を与えることが示された。 本研究は、顔認識の分野での今後の研究に高い関心を持つであろうウォッチリストの不均衡効果の、最初の詳細な分析である。

Recently, different researchers have found that the gallery composition of a face database can induce performance differentials to facial identification systems in which a probe image is compared against up to all stored reference images to reach a biometric decision. This negative effect is referred to as "watchlist imbalance effect". In this work, we present a method to theoretically estimate said effect for a biometric identification system given its verification performance across demographic groups and the composition of the used gallery. Further, we report results for identification experiments on differently composed demographic subsets, i.e. females and males, of the public academic MORPH database using the open-source ArcFace face recognition system. It is shown that the database composition has a huge impact on performance differentials in biometric identification systems, even if performance differentials are less pronounced in the verification scenario. This study represents the first detailed analysis of the watchlist imbalance effect which is expected to be of high interest for future research in the field of facial recognition.
翻訳日:2021-06-16 15:02:44 公開日:2021-06-15
# 適応型ハイブリッドラベルを用いた実時間UAV追跡のための突然変異感度相関フィルタ

Mutation Sensitive Correlation Filter for Real-Time UAV Tracking with Adaptive Hybrid Label ( http://arxiv.org/abs/2106.08073v1 )

ライセンス: Link先を確認
Guangze Zheng, Changhong Fu, Junjie Ye, Fuling Lin, and Fangqiang Ding(参考訳) 無人航空機(uav)ベースの視覚追跡は、物体の動きや閉塞など、多くの課題に直面している。 これらの課題は一般に、目標の外観の予期せぬ変異をもたらし、結果として追跡障害を引き起こす。 しかしながら、dcf(prevalent discriminative correlation filter)ベースのトラッカーは、トレーニング領域の中心のみに集中する予め定義されたラベルのため、ターゲットの突然変異に敏感ではない。 一方、排他的または類似の物体によって引き起こされる外観突然変異は、通常、間違った情報を必然的に学習する。 そこで本研究では, 適応型ハイブリッドラベル(MSCF)を用いて, 変異に対する感受性と耐性を高めるための新しいDCFベースの手法を提案する。 理想ラベルは相関フィルタと共同で最適化され、時間的一貫性が保たれる。 さらに、変異脅威因子 (MTF) と呼ばれる新しい突然変異の測定を行い、ラベルを動的に修正する。 評価実験はUAVベンチマークで行われている。 その結果,MSCFトラッカーの性能は他の26の最先端DCFトラッカーとディープベーストラッカーを上回ることがわかった。 リアルタイム速度は _38 フレーム/s であり、提案手法は uav 追跡に十分である。

Unmanned aerial vehicle (UAV) based visual tracking has been confronted with numerous challenges, e.g., object motion and occlusion. These challenges generally introduce unexpected mutations of target appearance and result in tracking failure. However, prevalent discriminative correlation filter (DCF) based trackers are insensitive to target mutations due to a predefined label, which concentrates on merely the centre of the training region. Meanwhile, appearance mutations caused by occlusion or similar objects usually lead to the inevitable learning of wrong information. To cope with appearance mutations, this paper proposes a novel DCF-based method to enhance the sensitivity and resistance to mutations with an adaptive hybrid label, i.e., MSCF. The ideal label is optimized jointly with the correlation filter and remains temporal consistency. Besides, a novel measurement of mutations called mutation threat factor (MTF) is applied to correct the label dynamically. Considerable experiments are conducted on widely used UAV benchmarks. The results indicate that the performance of MSCF tracker surpasses other 26 state-of-the-art DCF-based and deep-based trackers. With a real-time speed of _38 frames/s, the proposed approach is sufficient for UAV tracking commissions.
翻訳日:2021-06-16 15:02:29 公開日:2021-06-15
# 深部神経回路を用いたMRIを用いた胎児脳の線形自動計測

Automatic linear measurements of the fetal brain on MRI with deep neural networks ( http://arxiv.org/abs/2106.08174v1 )

ライセンス: Link先を確認
Netanell Avisdris, Bossmat Yehuda, Ori Ben-Zvi, Daphna Link-Sourani, Liat Ben-Sira, Elka Miller, Elena Zharkov, Dafna Ben Bashat and Leo Joskowicz(参考訳) 胎児の脳発達の時間的、正確かつ信頼性の高い評価は、胎児と母親に対する短期的および長期のリスクを軽減するために不可欠である。 胎児MRIは胎児脳アセスメントにますます用いられる。 胎児の脳評価に重要な3つの重要な生体計測的線形測定は、脳二頭径計(CBD)、骨二頭径計(BBD)、および経脳小脳径計(TCD)である。 本研究の目的は,胎児脳mriを用いたcbd,bbd,tcd測定値の完全自動計算法を開発することである。 入力は胎児脳MRIボリュームで、胎児体と母親の腹部を含む可能性がある。 出力は測定値と、測定値が計算された基準スライスである。 手動測定原理に従い、1)異方性3d u-net分類器による胎児脳を含む関心領域の計算、2)畳み込みニューラルネットワークによる参照スライス選択、3)マルチクラスu-net分類器を用いたスライスワイズ胎児脳構造分割、4)胎児脳中指線および胎児脳方位の計算、5)測定値の計算、の5段階からなる。 CBD, BBD, TCDの214巻実験の結果, 平均L_1$差は1.55mm, 1.45mm, 1.23mmであり, Bland-Altman 95%信頼区間は3.92mm, 3.98mm, 2.25mmであった。 これらの結果は手動のobserver間可変性に似ている。 MR画像から胎児の脳の生体計測を自動計算する手法は,人体レベルの性能を実現する。 正常および病理症例における胎児脳バイオメトリーの評価方法として有用であり、定期的な臨床実践の改善に有用である可能性がある。

Timely, accurate and reliable assessment of fetal brain development is essential to reduce short and long-term risks to fetus and mother. Fetal MRI is increasingly used for fetal brain assessment. Three key biometric linear measurements important for fetal brain evaluation are Cerebral Biparietal Diameter (CBD), Bone Biparietal Diameter (BBD), and Trans-Cerebellum Diameter (TCD), obtained manually by expert radiologists on reference slices, which is time consuming and prone to human error. The aim of this study was to develop a fully automatic method computing the CBD, BBD and TCD measurements from fetal brain MRI. The input is fetal brain MRI volumes which may include the fetal body and the mother's abdomen. The outputs are the measurement values and reference slices on which the measurements were computed. The method, which follows the manual measurements principle, consists of five stages: 1) computation of a Region Of Interest that includes the fetal brain with an anisotropic 3D U-Net classifier; 2) reference slice selection with a Convolutional Neural Network; 3) slice-wise fetal brain structures segmentation with a multiclass U-Net classifier; 4) computation of the fetal brain midsagittal line and fetal brain orientation, and; 5) computation of the measurements. Experimental results on 214 volumes for CBD, BBD and TCD measurements yielded a mean $L_1$ difference of 1.55mm, 1.45mm and 1.23mm respectively, and a Bland-Altman 95% confidence interval ($CI_{95}$) of 3.92mm, 3.98mm and 2.25mm respectively. These results are similar to the manual inter-observer variability. The proposed automatic method for computing biometric linear measurements of the fetal brain from MR imaging achieves human level performance. It has the potential of being a useful method for the assessment of fetal brain biometry in normal and pathological cases, and of improving routine clinical practice.
翻訳日:2021-06-16 15:02:12 公開日:2021-06-15
# 畳み込みニューラルネットワークを用いた頭部MRI検査の自動トリアージ

Automated triaging of head MRI examinations using convolutional neural networks ( http://arxiv.org/abs/2106.08176v1 )

ライセンス: Link先を確認
David A. Wood, Sina Kafiabadi, Ayisha Al Busaidi, Emily Guilhem, Antanas Montvila, Siddharth Agarwal, Jeremy Lynch, Matthew Townend, Gareth Barker, Sebastien Ourselin, James H. Cole, Thomas C. Booth(参考訳) 頭磁気共鳴画像検査(MRI)の需要が増加し、世界中の放射線技師が不足しているため、頭部MRI検査の報告に要する時間が増加した。 多くの神経疾患では、この遅延は死亡率と死亡率を増加させる。 自動トリージングツールは、画像診断時に異常を識別し、これらのスキャンの報告を優先順位付けすることで、異常検査の報告時間を短縮できる。 本研究では,$\text{T}_2$-weighted head MRIで臨床関連異常を検出する畳み込みニューラルネットワークを提案する。 検証された神経放射線学レポート分類器を用いて,2つの大規模英国病院から43,754件の画像のラベル付きデータセットを作成し,神経放射線学チームがラベル付けした800件のテストセット上で,正確な分類(受信者動作曲線(auc) = 0.943)を実証した。 重要なことに、単一の病院からスキャンを訓練する場合、モデルは他の病院からスキャンするように一般化される($\delta$auc$\leq$ 0.02)。 シミュレーション実験により, 2施設における異常診査の平均報告期間を28日から14日, 9日から5日に短縮し, 臨床トリアージ環境での使用可能性を示した。

The growing demand for head magnetic resonance imaging (MRI) examinations, along with a global shortage of radiologists, has led to an increase in the time taken to report head MRI scans around the world. For many neurological conditions, this delay can result in increased morbidity and mortality. An automated triaging tool could reduce reporting times for abnormal examinations by identifying abnormalities at the time of imaging and prioritizing the reporting of these scans. In this work, we present a convolutional neural network for detecting clinically-relevant abnormalities in $\text{T}_2$-weighted head MRI scans. Using a validated neuroradiology report classifier, we generated a labelled dataset of 43,754 scans from two large UK hospitals for model training, and demonstrate accurate classification (area under the receiver operating curve (AUC) = 0.943) on a test set of 800 scans labelled by a team of neuroradiologists. Importantly, when trained on scans from only a single hospital the model generalized to scans from the other hospital ($\Delta$AUC $\leq$ 0.02). A simulation study demonstrated that our model would reduce the mean reporting time for abnormal examinations from 28 days to 14 days and from 9 days to 5 days at the two hospitals, demonstrating feasibility for use in a clinical triage environment.
翻訳日:2021-06-16 15:01:30 公開日:2021-06-15
# シールド型マルチエージェント強化学習による連続マニピュレータの安全制御に向けて

Towards Safe Control of Continuum Manipulator Using Shielded Multiagent Reinforcement Learning ( http://arxiv.org/abs/2106.07892v1 )

ライセンス: Link先を確認
Guanglin Ji, Junyan Yan, Jingxin Du, Wanquan Yan, Jibiao Chen, Yongkang Lu, Juan Rojas, and Shing Shin Cheng(参考訳) 連続ロボットマニピュレータは、最小侵襲手術においてますます採用されている。 しかし、その非線形挙動は、特に外部相互作用の対象となる場合、正確にモデル化することが困難であり、制御性能が低下する可能性がある。 本稿では,モデルフリーのマルチエージェント強化学習(rl),すなわちマルチエージェントディープqネットワーク(madqn)を採用し,2自由度ケーブル駆動型連続体手術マニピュレータ(dof)を制御できることについて検討する。 ロボットの制御は、MADQNフレームワークにおける1つのエージェント問題である1-DoFとして定式化され、学習効率が向上する。 アクションセット境界の動的変動を可能にする遮蔽スキームと組み合わせることで、madqnは効率的でより安全なロボットの制御に繋がる。 シールドされたMADQNは、手術用マニピュレータが遭遇する一般的な相互作用シナリオである外負荷、ソフト障害物、剛性衝突の下で、サブミリのルート平均二乗誤差でポイントと軌道追跡を行うことができる。 さらに、制御器は構造的非線形性の高い小型連続ロボットに有効であることが証明され、外部ペイロード下ではサブミリ精度で軌道追跡が達成された。

Continuum robotic manipulators are increasingly adopted in minimal invasive surgery. However, their nonlinear behavior is challenging to model accurately, especially when subject to external interaction, potentially leading to poor control performance. In this letter, we investigate the feasibility of adopting a model-free multiagent reinforcement learning (RL), namely multiagent deep Q network (MADQN), to control a 2-degree of freedom (DoF) cable-driven continuum surgical manipulator. The control of the robot is formulated as a one-DoF, one agent problem in the MADQN framework to improve the learning efficiency. Combined with a shielding scheme that enables dynamic variation of the action set boundary, MADQN leads to efficient and importantly safer control of the robot. Shielded MADQN enabled the robot to perform point and trajectory tracking with submillimeter root mean square errors under external loads, soft obstacles, and rigid collision, which are common interaction scenarios encountered by surgical manipulators. The controller was further proven to be effective in a miniature continuum robot with high structural nonlinearitiy, achieving trajectory tracking with submillimeter accuracy under external payload.
翻訳日:2021-06-16 15:01:08 公開日:2021-06-15
# 連合学習のための大規模コーホート学習について

On Large-Cohort Training for Federated Learning ( http://arxiv.org/abs/2106.07820v1 )

ライセンス: Link先を確認
Zachary Charles, Zachary Garrett, Zhouyuan Huo, Sergei Shmulyian, Virginia Smith(参考訳) 連合学習法は通常、多数のクライアントから更新を反復的にサンプリングしてモデルを学ぶ。 本研究では,各ラウンドにサンプリングされたクライアント数(コホートサイズ)が,学習モデルの品質とフェデレーション学習アルゴリズムのトレーニングダイナミクスに与える影響について検討する。 私たちの仕事は3つの基本的な疑問を提起する。 第一に、連合学習をより大きなコホートにスケールしようとすると、どんな課題が発生するのか? 第二に、連合学習におけるコホートサイズと集中学習におけるバッチサイズとの間には、どのような類似性があるのか? 最後に、より大きなコホートサイズを効果的に活用するフェデレーション学習手法をどう設計するか。 広範な経験的評価に基づいて,これらの質問に対して部分的な回答を与える。 私たちの研究は、より大きなコホートの使用による多くの課題を浮き彫りにしている。 これらのいくつか(一般化問題やリターンの減少など)は大規模なバッチトレーニング課題の類推であるが、他(トレーニング失敗やフェアネスの問題を含む)は連邦学習に特有のものである。

Federated learning methods typically learn a model by iteratively sampling updates from a population of clients. In this work, we explore how the number of clients sampled at each round (the cohort size) impacts the quality of the learned model and the training dynamics of federated learning algorithms. Our work poses three fundamental questions. First, what challenges arise when trying to scale federated learning to larger cohorts? Second, what parallels exist between cohort sizes in federated learning and batch sizes in centralized learning? Last, how can we design federated learning methods that effectively utilize larger cohort sizes? We give partial answers to these questions based on extensive empirical evaluation. Our work highlights a number of challenges stemming from the use of larger cohorts. While some of these (such as generalization issues and diminishing returns) are analogs of large-batch training challenges, others (including training failures and fairness concerns) are unique to federated learning.
翻訳日:2021-06-16 14:59:52 公開日:2021-06-15
# black box neural network predictionsを用いたplcのコード完全性検証

Code Integrity Attestation for PLCs using Black Box Neural Network Predictions ( http://arxiv.org/abs/2106.07851v1 )

ライセンス: Link先を確認
Yuqi Chen, Christopher M. Poskitt, Jun Sun(参考訳) サイバー物理システム(CPS)はクリティカルドメインに広く普及しており、攻撃者がプログラム可能なロジックコントローラ(PLC)のコードを変更することができれば、重大なダメージが生じる可能性がある。 残念なことに、コードの整合性(すなわち)を証明する従来のテクニックです。 修正されていないことを確認する) ファームウェアアクセスやルート・オブ・トラストに依存しており、どちらのプロプライエタリなPLCもレガシーなPLCも提供しない。 本稿では,プライバシ保護ブラックボックスモデルに基づく実用的なコード整合性チェックソリューションを提案し,その代わりにPLCプログラムの入出力動作を検証した。 PLCプログラムの忠実なオフラインコピーを使用して、情報フロー分析を通じて最も重要な入力を識別し、複数の組み合わせで実行してデータを収集し、PLC出力を予測するニューラルネットワークを訓練する。 アクチュエータコマンド) 入力から。 このモデルのブラックボックスの性質を利用して、我々のソリューションは元のplcコードのプライバシーを維持し、攻撃者がその存在を知らないと仮定しない。 その代わり、信頼はPLCコードとニューラルネットワークを同時に攻撃し、一貫した結果をもたらすことが極めて難しいという事実から来ている。 筆者らは, 現代の6段水処理プラント試験場において, PLC入力からアクチュエータ状態をほぼ100%精度で予測し, 有効コード変異を120個検出できることを確認した。 最後に,PLCコードを同時に修正し,不整合(ミス-)予測につながるような離散逆ノイズを検査者に適用することは事実上不可能であることがわかった。

Cyber-physical systems (CPSs) are widespread in critical domains, and significant damage can be caused if an attacker is able to modify the code of their programmable logic controllers (PLCs). Unfortunately, traditional techniques for attesting code integrity (i.e. verifying that it has not been modified) rely on firmware access or roots-of-trust, neither of which proprietary or legacy PLCs are likely to provide. In this paper, we propose a practical code integrity checking solution based on privacy-preserving black box models that instead attest the input/output behaviour of PLC programs. Using faithful offline copies of the PLC programs, we identify their most important inputs through an information flow analysis, execute them on multiple combinations to collect data, then train neural networks able to predict PLC outputs (i.e. actuator commands) from their inputs. By exploiting the black box nature of the model, our solution maintains the privacy of the original PLC code and does not assume that attackers are unaware of its presence. The trust instead comes from the fact that it is extremely hard to attack the PLC code and neural networks at the same time and with consistent outcomes. We evaluated our approach on a modern six-stage water treatment plant testbed, finding that it could predict actuator states from PLC inputs with near-100% accuracy, and thus could detect all 120 effective code mutations that we subjected the PLCs to. Finally, we found that it is not practically possible to simultaneously modify the PLC code and apply discreet adversarial noise to our attesters in a way that leads to consistent (mis-)predictions.
翻訳日:2021-06-16 14:59:38 公開日:2021-06-15
# モンテカルロ変異体発見によるマルウェア分類器の回避

Evading Malware Classifiers via Monte Carlo Mutant Feature Discovery ( http://arxiv.org/abs/2106.07860v1 )

ライセンス: Link先を確認
John Boutsikas, Maksim E. Eren, Charles Varga, Edward Raff, Cynthia Matuszek, Charles Nicholas(参考訳) 機械学習の利用は、新しいマルウェアの流入、絶えず変化する脅威環境、悪意のあるソフトウェアと良質なソフトウェアの間の有意義な区別を見つける機械学習手法の能力によって、マルウェア検出活動の重要な部分となっている。 アンチウイルスベンダーはまた、動的および静的なマルウェア分析機能に基づくマルウェア分類器を広く利用し始めた。 したがって、マルウェアの作者は、マルウェア開発ライフサイクルの一部として機械学習モデルに対して回避可能なバイナリ変更を行い、攻撃を成功させる可能性がある。 これにより、分類器回避戦略の研究は、悪意に対するサイバー防衛の重要な部分となる。 本研究では,マルウェアの作者がターゲットの分類器アルゴリズムを知らない,分類器の判断にアクセスできない,訓練に使用する特徴を知っているシナリオを分析するために,グレイボックスのセットアップを行う。 この実験では、悪意のあるアクターがEMBER-2018データセットを使用して代理モデルを訓練し、インスタンスがモンテカルロ木探索によって誤分類される原因となるバイナリ変異を発見する。 そして、変異したマルウェアが、抗ウイルスAPIの代わりとなる被害者モデルに送られ、検出を回避できるかどうかをテストする。

The use of Machine Learning has become a significant part of malware detection efforts due to the influx of new malware, an ever changing threat landscape, and the ability of Machine Learning methods to discover meaningful distinctions between malicious and benign software. Antivirus vendors have also begun to widely utilize malware classifiers based on dynamic and static malware analysis features. Therefore, a malware author might make evasive binary modifications against Machine Learning models as part of the malware development life cycle to execute an attack successfully. This makes the studying of possible classifier evasion strategies an essential part of cyber defense against malice. To this extent, we stage a grey box setup to analyze a scenario where the malware author does not know the target classifier algorithm, and does not have access to decisions made by the classifier, but knows the features used in training. In this experiment, a malicious actor trains a surrogate model using the EMBER-2018 dataset to discover binary mutations that cause an instance to be misclassified via a Monte Carlo tree search. Then, mutated malware is sent to the victim model that takes the place of an antivirus API to test whether it can evade detection.
翻訳日:2021-06-16 14:59:08 公開日:2021-06-15
# 異なるマッチングによる収益最大化オークションの学習

Learning Revenue-Maximizing Auctions With Differentiable Matching ( http://arxiv.org/abs/2106.07877v1 )

ライセンス: Link先を確認
Michael J. Curry and Uro Lyi and Tom Goldstein and John Dickerson(参考訳) 我々は,サンプル評価からインセンティブ互換で収益を最大化するオークションを学習するための新しいアーキテクチャを提案する。 我々のアーキテクチャは、Sinkhornアルゴリズムを用いて、従来のRegretNetアーキテクチャでは学べないような環境で、ネットワークが防御的な収益最大化メカニズムを学習できるようにする、微分可能な二部マッチングを実行する。 特に、我々のアーキテクチャは、各入札者が正確にいくつかのアイテムを割り当てなければならない自由な処分なしに、設定でメカニズムを学習することができる。 実験では, 最適機構が不明な大規模環境で, 複数の既知最適機構と高レバレッジ, 低レグレット機構の回復に成功した。

We propose a new architecture to approximately learn incentive compatible, revenue-maximizing auctions from sampled valuations. Our architecture uses the Sinkhorn algorithm to perform a differentiable bipartite matching which allows the network to learn strategyproof revenue-maximizing mechanisms in settings not learnable by the previous RegretNet architecture. In particular, our architecture is able to learn mechanisms in settings without free disposal where each bidder must be allocated exactly some number of items. In experiments, we show our approach successfully recovers multiple known optimal mechanisms and high-revenue, low-regret mechanisms in larger settings where the optimal mechanism is unknown.
翻訳日:2021-06-16 14:58:50 公開日:2021-06-15
# CAN-LOC:電圧信号の深い特徴に基づく車載CANバスのスポーフィング検出と物理的侵入位置決定

CAN-LOC: Spoofing Detection and Physical Intrusion Localization on an In-Vehicle CAN Bus Based on Deep Features of Voltage Signals ( http://arxiv.org/abs/2106.07895v1 )

ライセンス: Link先を確認
Efrat Levy and Asaf Shabtai and Bogdan Groza and Pal-Stefan Murvay and Yuval Elovici(参考訳) コントローラエリアネットワーク(CAN)は車載機器間の通信に使用される。 CANバスは遠隔攻撃に弱いことが示されている。 このような攻撃に対抗するため、車両メーカーは車載ネットワークをサブネットワークに分割し、重要なデバイスを論理的に分離した。 しかし、攻撃者は悪意のあるデバイスを接続できる様々なサブネットワークに物理的にアクセスすることができる。 この脅威は、物理的侵入点を決定する方法が弱い結果を示し、より高度な技術開発の必要性を強調しているため、適切に対処されていない。 この種の脅威に対処するため,車載ネットワークのセキュリティ強化システムを提案する。 提案システムは,CANバスで測定した電圧信号から抽出した深い特徴を処理する2つの機構を含む。 第1のメカニズムは、データ拡張とディープラーニングを使用して、車両の開始時に物理的侵入を検出し、検出する。 この機構の有効性(100%精度)は、CANバスのプロトタイプ上で様々な挿入シナリオで実証される。 第2のメカニズムは、深層学習に基づく継続的デバイス認証機構であり、このメカニズムの堅牢性(99.8%の精度)は、実動車上で実証される。

The Controller Area Network (CAN) is used for communication between in-vehicle devices. The CAN bus has been shown to be vulnerable to remote attacks. To harden vehicles against such attacks, vehicle manufacturers have divided in-vehicle networks into sub-networks, logically isolating critical devices. However, attackers may still have physical access to various sub-networks where they can connect a malicious device. This threat has not been adequately addressed, as methods proposed to determine physical intrusion points have shown weak results, emphasizing the need to develop more advanced techniques. To address this type of threat, we propose a security hardening system for in-vehicle networks. The proposed system includes two mechanisms that process deep features extracted from voltage signals measured on the CAN bus. The first mechanism uses data augmentation and deep learning to detect and locate physical intrusions when the vehicle starts; this mechanism can detect and locate intrusions, even when the connected malicious devices are silent. This mechanism's effectiveness (100% accuracy) is demonstrated in a wide variety of insertion scenarios on a CAN bus prototype. The second mechanism is a continuous device authentication mechanism, which is also based on deep learning; this mechanism's robustness (99.8% accuracy) is demonstrated on a real moving vehicle.
翻訳日:2021-06-16 14:58:37 公開日:2021-06-15
# スレートオフポリシー評価のための制御変動

Control Variates for Slate Off-Policy Evaluation ( http://arxiv.org/abs/2106.07914v1 )

ライセンス: Link先を確認
Nikos Vlassis, Ashok Chandrashekar, Fernando Amat Gil, Nathan Kallus(参考訳) 本研究は,多次元動作を伴うバッチ・コンテクスト・バンディット・データを用いたオフ・ポリシー評価の問題点について検討する。 この問題はシステムとユーザインタフェースの最適化に共通しており、特に組合せ的な大きさのアクション空間のため困難である。 スワミナサンとアル。 (2017) では, 条件付き平均報酬が付加的な作用であると仮定して, 擬似逆数(PI)推定器を提案した。 制御変数を用いて、PI推定器と(漸近的に)自己正規化された変種を含む、大きな非バイアス推定器を考察する。 このクラスを最適化することにより、PIおよび自己正規化PI推定器の両方に対して、リスク改善の保証のある新しい推定器を得る。 実世界のレコメンデータデータと合成データによる実験は、これらの改善を実際に検証する。

We study the problem of off-policy evaluation from batched contextual bandit data with multidimensional actions, often termed slates. The problem is common to recommender systems and user-interface optimization, and it is particularly challenging because of the combinatorially-size d action space. Swaminathan et al. (2017) have proposed the pseudoinverse (PI) estimator under the assumption that the conditional mean rewards are additive in actions. Using control variates, we consider a large class of unbiased estimators that includes as specific cases the PI estimator and (asymptotically) its self-normalized variant. By optimizing over this class, we obtain new estimators with risk improvement guarantees over both the PI and self-normalized PI estimators. Experiments with real-world recommender data as well as synthetic data validate these improvements in practice.
翻訳日:2021-06-16 14:58:18 公開日:2021-06-15
# learning to compensation: 5gパワーアンプ補償のためのディープニューラルネットワークフレームワーク

Learning to Compensate: A Deep Neural Network Framework for 5G Power Amplifier Compensation ( http://arxiv.org/abs/2106.07953v1 )

ライセンス: Link先を確認
Po-Yu Chen, Hao Chen, Yi-Min Tsai, Hsien-Kai Kuo, Hantao Huang, Hsin-Hung Chen, Sheng-Hong Yan, Wei-Lun Ou, Chia-Ming Cheng(参考訳) 5G通信システムの複雑な特徴から,数理モデリングによるRF部品の設計は難題となっている。 さらに、このような数学的モデルは様々な仕様要求に対して多数の手動調整を必要とする。 本稿では,5G通信における電力増幅器(PA)をモデル化・補償するための学習ベースフレームワークを提案する。 提案フレームワークでは,ディープニューラルネットワーク(DNN)を用いてPAの特性を学習し,対応するディジタル事前歪み(DPD)もPAの非線形およびメモリ効果を補うように学習する。 さらに,学習過程において目標を最適化するための2つの周波数領域の損失を,naive time domain mean square error(mse)と比較して提案する。 提案するフレームワークは,従来のアプローチの代替として機能する。 提案手法は, 非線形およびメモリ効果の平均56.7%の低減を実現し, 慎重に設計した数学的モデルよりも平均16.3%向上し, 厳しい歪みのシナリオでは34%向上した。

Owing to the complicated characteristics of 5G communication system, designing RF components through mathematical modeling becomes a challenging obstacle. Moreover, such mathematical models need numerous manual adjustments for various specification requirements. In this paper, we present a learning-based framework to model and compensate Power Amplifiers (PAs) in 5G communication. In the proposed framework, Deep Neural Networks (DNNs) are used to learn the characteristics of the PAs, while, correspondent Digital Pre-Distortions (DPDs) are also learned to compensate for the nonlinear and memory effects of PAs. On top of the framework, we further propose two frequency domain losses to guide the learning process to better optimize the target, compared to naive time domain Mean Square Error (MSE). The proposed framework serves as a drop-in replacement for the conventional approach. The proposed approach achieves an average of 56.7% reduction of nonlinear and memory effects, which converts to an average of 16.3% improvement over a carefully-designed mathematical model, and even reaches 34% enhancement in severe distortion scenarios.
翻訳日:2021-06-16 14:58:06 公開日:2021-06-15
# 合成特徴をもつキャットブースモデルによる中小企業のローンリスク評価

CatBoost model with synthetic features in application to loan risk assessment of small businesses ( http://arxiv.org/abs/2106.07954v1 )

ライセンス: Link先を確認
Liexing Cheng, Haoxue Wang(参考訳) 小さなビジネスに対するローンのリスクは、探究する価値のある複雑な問題でした。 ローンリスクの予測は、社会のためにより多くの仕事を開発することで、起業にほぼ貢献できる。 CatBoost(Categorical Boosting)は強力な機械学習アルゴリズムで、ローンリスクを予測するためにデータセットのような多くのカテゴリ変数を持つデータセットに適している。 本稿では,ローン状況の分類問題に寄与する重要なリスク要因を同定する。 次に、ブーピング型アルゴリズム(特にCatBoost)と従来の人気の高いアルゴリズムのパフォーマンスを比較します。 調査で採用したデータセットは、米国中小企業管理局(SBA)が提供し、非常に大きなサンプルサイズ(899,164の観測と27の特徴)を持っている。 関連研究の文献と比較すると,95.74%の精度,98.59%の良好なAUCが得られる。 データセットの重要な特徴を最大限に活用するために,算術演算に基づく複合機能を開発するための「合成生成」という手法を提案し,その結果,元のcatboostモデルの精度とaucを向上させる。

Loan risk for small business has long been a complex problem worthy of exploring. Predicting the loan risk approximately can benefit entrepreneurship by developing more jobs for the society. CatBoost (Categorical Boosting) is a powerful machine learning algorithm that is suitable for dataset with many categorical variables like the dataset for forecasting loan risk. In this paper, we identify the important risk factors that contribute to loan status classification problem. Then we compare the the performance between boosting-type algorithms(especiall y CatBoost) with other traditional yet popular ones. The dataset we adopt in the research comes from the U.S. Small Business Administration (SBA) and holds a very large sample size (899,164 observations and 27 features). We obtain a high accuracy of 95.74% and well-performed AUC of 98.59% compared with the existent literature of related research. In order to make best use of the important features in the dataset, we propose a technique named "synthetic generation" to develop more combined features based on arithmetic operation, which ends up improving the accuracy and AUC of original CatBoost model.
翻訳日:2021-06-16 14:57:49 公開日:2021-06-15
# 物理関係学習における深層学習モデルの能力:LSTMを用いた降雨流出モデルの場合

Capabilities of Deep Learning Models on Learning Physical Relationships: Case of Rainfall-Runoff Modeling with LSTM ( http://arxiv.org/abs/2106.07963v1 )

ライセンス: Link先を確認
Kazuki Yokoo, Kei Ishida, Ali Ercan, Tongbi Tu, Takeyoshi Nagasato, Masato Kiyama, and Motoki Amagasaki(参考訳) 本研究では,深層学習手法が入力データと出力データとを識別できる関係について検討する。 ケーススタディとして,長期記憶(LSTM)ネットワークを用いた豪雪流域における降雨流出モデルを選択した。 日降水量と平均気温をモデル入力として毎日の流量を推定した。 モデルトレーニングと検証の後, 気象観測データの代わりに仮説入力を用いて2つの実験実験を行い, 実験結果に対するモデルの効果を明らかにした。 最初の数値実験では, 入力降水がなくても, 訓練されたモデルでは, 融雪期間の冬季低流量, 高流量の流出が生じた。 また, 降水のないモデルを用いて, 温暖条件および寒冷条件が流量に及ぼす影響を再現した。 また, 年間降雪量の17~39%の降雪量しか反映せず, 水塊の保存が不十分であった。 本研究の結果から,入力変数と対象変数の明示的な物理的関係を学習する深層学習法は,相変わらず有効性を維持しつつも,適切に学習できないことが示唆された。

This study investigates the relationships which deep learning methods can identify between the input and output data. As a case study, rainfall-runoff modeling in a snow-dominated watershed by means of a long- and short-term memory (LSTM) network is selected. Daily precipitation and mean air temperature were used as model input to estimate daily flow discharge. After model training and verification, two experimental simulations were conducted with hypothetical inputs instead of observed meteorological data to clarify the response of the trained model to the inputs. The first numerical experiment showed that even without input precipitation, the trained model generated flow discharge, particularly winter low flow and high flow during the snow-melting period. The effects of warmer and colder conditions on the flow discharge were also replicated by the trained model without precipitation. Additionally, the model reflected only 17-39% of the total precipitation mass during the snow accumulation period in the total annual flow discharge, revealing a strong lack of water mass conservation. The results of this study indicated that a deep learning method may not properly learn the explicit physical relationships between input and target variables, although they are still capable of maintaining strong goodness-of-fit results.
翻訳日:2021-06-16 14:57:32 公開日:2021-06-15
# 強化学習ツールとしての多目的政策最適化について

On Multi-objective Policy Optimization as a Tool for Reinforcement Learning ( http://arxiv.org/abs/2106.08199v1 )

ライセンス: Link先を確認
Abbas Abdolmaleki, Sandy H. Huang, Giulia Vezzani, Bobak Shahriari, Jost Tobias Springenberg, Shruti Mishra, Dhruva TB, Arunkumar Byravan, Konstantinos Bousmalis, Andras Gyorgy, Csaba Szepesvari, Raia Hadsell, Nicolas Heess, Martin Riedmiller(参考訳) ディープ強化学習(RL)アルゴリズムの堅牢性と効率を改善した多くの進歩は、政策最適化ステップにおいて、追加の目的や制約を導入するものとして理解することができる。 これには、探究ボーナス、エントロピーの正規化、専門家やオフラインのRLから学ぶ教師やデータ事前に対する正規化など、幅広いアイデアが含まれている。 多くの場合、タスク報酬と補助目的は互いに矛盾しており、これらの例を多目的最適化問題(MO)の例として扱うことは自然である。 我々はMORLの基礎となる原理を研究し、いくつかの条件下では直感的でスケール不変な新しいアルゴリズムDistillation of a Mixture of Experts (DiME)を導入する。 我々は、標準MOベンチマーク問題にその強みを強調し、オフラインRLをリキャストし、専門家からMO問題として学ぶケーススタディを検討する。 これにより、既存のアプローチ間の接続に光を当てる自然アルゴリズムの定式化に繋がる。 オフラインのRLでは、MOパースペクティブを使用して、標準のRL目的と行動的クローン項を最適化する単純なアルゴリズムを導出する。 これにより、2つの確立されたオフラインRLベンチマークで最先端のパフォーマンスが向上する。

Many advances that have improved the robustness and efficiency of deep reinforcement learning (RL) algorithms can, in one way or another, be understood as introducing additional objectives, or constraints, in the policy optimization step. This includes ideas as far ranging as exploration bonuses, entropy regularization, and regularization toward teachers or data priors when learning from experts or in offline RL. Often, task reward and auxiliary objectives are in conflict with each other and it is therefore natural to treat these examples as instances of multi-objective (MO) optimization problems. We study the principles underlying MORL and introduce a new algorithm, Distillation of a Mixture of Experts (DiME), that is intuitive and scale-invariant under some conditions. We highlight its strengths on standard MO benchmark problems and consider case studies in which we recast offline RL and learning from experts as MO problems. This leads to a natural algorithmic formulation that sheds light on the connection between existing approaches. For offline RL, we use the MO perspective to derive a simple algorithm, that optimizes for the standard RL objective plus a behavioral cloning term. This outperforms state-of-the-art on two established offline RL benchmarks.
翻訳日:2021-06-16 14:57:14 公開日:2021-06-15
# 単一細胞mRNA-seqデータを用いた細胞型と疾患状態の最小限の遺伝子セットの探索

Active feature selection discovers minimal gene-sets for classifying cell-types and disease states in single-cell mRNA-seq data ( http://arxiv.org/abs/2106.08317v1 )

ライセンス: Link先を確認
Xiaoqiao Chen, Sisi Chen, Matt Thomson(参考訳) 現在、シークエンシングコストは、多くの生物学的および臨床的タスクに対する単一細胞mRNA-seqの使用を禁止している。 本稿では,細胞型と生理状態の高精度な分類を可能にする圧縮遺伝子セットを構築するアクティブラーニングフレームワークについて紹介する。 能動的特徴選択法は,各ラウンドで誤分類された細胞を検査する反復型細胞型分類タスクを通じて遺伝子セットを構築し,"能動的"支援ベクターマシン(SVM)分類器を通じて最大情報的遺伝子を同定する。 当社のアクティブSVMプロシージャは,Tabula Murisマウス組織調査において,$>90\%$細胞型分類精度を実現する遺伝子セットと,$>95\%$精度で多発性骨髄腫患者サンプルの分類を可能にする$\sim 40$遺伝子セットを自動的に識別する。 広くは、コンパクトだが高情報性の高い遺伝子セットの発見は、単一細胞mRNA-seqの応用に対するシークエンシング要求の劇的な削減を可能にする可能性がある。

Sequencing costs currently prohibit the application of single cell mRNA-seq for many biological and clinical tasks of interest. Here, we introduce an active learning framework that constructs compressed gene sets that enable high accuracy classification of cell-types and physiological states while analyzing a minimal number of gene transcripts. Our active feature selection procedure constructs gene sets through an iterative cell-type classification task where misclassified cells are examined at each round to identify maximally informative genes through an `active' support vector machine (SVM) classifier. Our active SVM procedure automatically identifies gene sets that enables $>90\%$ cell-type classification accuracy in the Tabula Muris mouse tissue survey as well as a $\sim 40$ gene set that enables classification of multiple myeloma patient samples with $>95\%$ accuracy. Broadly, the discovery of compact but highly informative gene sets might enable drastic reductions in sequencing requirements for applications of single-cell mRNA-seq.
翻訳日:2021-06-16 14:56:54 公開日:2021-06-15
# 生成型adversarial networkを用いたアクティブな敵からのタッチベースの連続認証システム

Defending Touch-based Continuous Authentication Systems from Active Adversaries Using Generative Adversarial Networks ( http://arxiv.org/abs/2106.07867v1 )

ライセンス: Link先を確認
Mohit Agrawal and Pragyan Mehrotra and Rajesh Kumar and Rajiv Ratn Shah(参考訳) これまでの研究では、一般的に研究されている(Vanilla)タッチベースの連続認証システム(V-TCAS)が集団攻撃の影響を受けることが示されている。 本稿では, 集団攻撃に対する耐性を向上した, TCAS (G-TCAS) フレームワークを提案する。 G-TCASフレームワークは、スマートフォンとタブレットのペアと対話する117人のユーザのデータセットでテストされた。 V-TCASの偽受入率(FAR)の上昇はスマートフォンのG-TCAS(13%)よりもはるかに高い(22%)。 同様に、V-TCASのFARの増加率は、タブレットのG-TCAS(6%)と比較して25%であった。

Previous studies have demonstrated that commonly studied (vanilla) touch-based continuous authentication systems (V-TCAS) are susceptible to population attack. This paper proposes a novel Generative Adversarial Network assisted TCAS (G-TCAS) framework, which showed more resilience to the population attack. G-TCAS framework was tested on a dataset of 117 users who interacted with a smartphone and tablet pair. On average, the increase in the false accept rates (FARs) for V-TCAS was much higher (22%) than G-TCAS (13%) for the smartphone. Likewise, the increase in the FARs for V-TCAS was 25% compared to G-TCAS (6%) for the tablet.
翻訳日:2021-06-16 14:56:33 公開日:2021-06-15
# S2Engine: スパース畳み込みニューラルネットワークのための新しいシステリックアーキテクチャ

S2Engine: A Novel Systolic Architecture for Sparse Convolutional Neural Networks ( http://arxiv.org/abs/2106.07894v1 )

ライセンス: Link先を確認
Jianlei Yang, Wenzhi Fu, Xingzhou Cheng, Xucheng Ye, Pengcheng Dai, and Weisheng Zhao(参考訳) 畳み込みニューラルネットワーク(CNN)は認知タスクの実行において大きな成功を収めている。 しかし、CNNの実行には大量のコンピューティングリソースが必要であり、大量のメモリトラフィックが発生するため、コンピュータシステム設計に深刻な課題が生じる。 並列実行とデータの再利用を畳み込みで最適化することで、シストリックアーキテクチャはCNN計算を高速化する大きな利点を示す。 しかし、従来のシストリックアーキテクチャにおける通常の内部データ伝送パスは、シストリックアーキテクチャがニューラルネットワークの間隔によってもたらされる利点を完全に活用するのを防ぐ。 既存のシストリックアーキテクチャへのきめ細かい粒度の展開は、計算オーバーヘッドの増大によって著しく妨げられる。 本研究では,データ再利用の最大化により,CNNの空間性を完全に活用できる新しいシステムであるS2Engine $-$を提案する。 S2Engineは圧縮されたデータを内部で送信し、各処理要素が圧縮されたデータフローから整列したデータを畳み込みで動的に選択できるようにする。 単純なsystolic配列と比較して、s2engineは、それぞれ3.2\times$と約3.0\times$のスピードとエネルギー効率の改善を達成している。

Convolutional neural networks (CNNs) have achieved great success in performing cognitive tasks. However, execution of CNNs requires a large amount of computing resources and generates heavy memory traffic, which imposes a severe challenge on computing system design. Through optimizing parallel executions and data reuse in convolution, systolic architecture demonstrates great advantages in accelerating CNN computations. However, regular internal data transmission path in traditional systolic architecture prevents the systolic architecture from completely leveraging the benefits introduced by neural network sparsity. Deployment of fine-grained sparsity on the existing systolic architectures is greatly hindered by the incurred computational overheads. In this work, we propose S2Engine $-$ a novel systolic architecture that can fully exploit the sparsity in CNNs with maximized data reuse. S2Engine transmits compressed data internally and allows each processing element to dynamically select an aligned data from the compressed dataflow in convolution. Compared to the naive systolic array, S2Engine achieves about $3.2\times$ and about $3.0\times$ improvements on speed and energy efficiency, respectively.
翻訳日:2021-06-16 14:55:35 公開日:2021-06-15
# 周期同変ニューラルデコーダのリスト復号版の改良

Improving the List Decoding Version of the Cyclically Equivariant Neural Decoder ( http://arxiv.org/abs/2106.07964v1 )

ライセンス: Link先を確認
Xiangyu Chen and Min Ye(参考訳) 循環同変ニューラルデコーダは,最近[chen-ye, international conference on machine learning, 2021]で提案されている。 同じ論文では、BCH符号とRM符号という2つの広く使われている巡回符号のクラスに対してリスト復号手順が導入された。 リスト復号処理は、循環同変ニューラル復号器のフレーム誤り率(FER)を著しく向上させるが、リスト復号処理のビット誤り率(BER)は、リストサイズが小さい場合には、一意復号アルゴリズムよりもさらに劣る。 本稿では,BCH符号と句読取RM符号のためのリスト復号アルゴリズムの改良版を提案する。 我々の新しい提案は、同じ(場合によってはもっと小さい)FERを維持しながらBERを大幅に削減します。 具体的には、BERによって測定されたリストデコーダに対して、当社の新しいデコーダは最大$2dBのゲインを提供し、新しいデコーダの実行時間は$15\%以下になります。 https://github.com/i mprovedlistdecoder/c odeで利用可能なコード

The cyclically equivariant neural decoder was recently proposed in [Chen-Ye, International Conference on Machine Learning, 2021] to decode cyclic codes. In the same paper, a list decoding procedure was also introduced for two widely used classes of cyclic codes -- BCH codes and punctured Reed-Muller (RM) codes. While the list decoding procedure significantly improves the Frame Error Rate (FER) of the cyclically equivariant neural decoder, the Bit Error Rate (BER) of the list decoding procedure is even worse than the unique decoding algorithm when the list size is small. In this paper, we propose an improved version of the list decoding algorithm for BCH codes and punctured RM codes. Our new proposal significantly reduces the BER while maintaining the same (in some cases even smaller) FER. More specifically, our new decoder provides up to $2$dB gain over the previous list decoder when measured by BER, and the running time of our new decoder is $15\%$ smaller. Code available at https://github.com/i mprovedlistdecoder/c ode
翻訳日:2021-06-16 14:55:18 公開日:2021-06-15
# 無線ランダムネットワーク管理における自律性学習

Learning Autonomy in Management of Wireless Random Networks ( http://arxiv.org/abs/2106.07984v1 )

ライセンス: Link先を確認
Hoon Lee, Sang Hyun Lee, Tony Q. S. Quek(参考訳) 本稿では,任意の数のランダム接続ノードを持つ無線ネットワークにおいて,分散最適化タスクに取り組む機械学習戦略を提案する。 個々のノードはランダムに変化するバックホールリンクを通じて、他のノード間で分散協調して最適な状態を決定する。 このことは、無線ネットワークのランダムトポロジに頑健な分散ユニバーサル最適化ポリシーにおいて技術的な課題を生じさせる。 我々は,ネットワークトポロジとは無関係に前方および後方の計算を行う分散メッセージパスニューラルネットワーク(DMPNN)と呼ばれる柔軟なDNN形式を開発した。 このアプローチの重要な実現要因は、任意に接続されたバックホールリンクを通じて、反復的なメッセージ共有戦略である。 DMPNNは、多数のランダムバックホール相互作用を学習することで反復的調整のための収束解を提供する。 DMPNNは、無線ネットワークにおける電力制御の様々な構成について検討し、従来の最適化やDNNアプローチと比較して、その普遍性と生存性を証明する。

This paper presents a machine learning strategy that tackles a distributed optimization task in a wireless network with an arbitrary number of randomly interconnected nodes. Individual nodes decide their optimal states with distributed coordination among other nodes through randomly varying backhaul links. This poses a technical challenge in distributed universal optimization policy robust to a random topology of the wireless network, which has not been properly addressed by conventional deep neural networks (DNNs) with rigid structural configurations. We develop a flexible DNN formalism termed distributed message-passing neural network (DMPNN) with forward and backward computations independent of the network topology. A key enabler of this approach is an iterative message-sharing strategy through arbitrarily connected backhaul links. The DMPNN provides a convergent solution for iterative coordination by learning numerous random backhaul interactions. The DMPNN is investigated for various configurations of the power control in wireless networks, and intensive numerical results prove its universality and viability over conventional optimization and DNN approaches.
翻訳日:2021-06-16 14:54:57 公開日:2021-06-15
# ウェアラブル脳波デバイスによるてんかんの長期非侵襲的モニタリングに向けて

Towards Long-term Non-invasive Monitoring for Epilepsy via Wearable EEG Devices ( http://arxiv.org/abs/2106.08008v1 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Andrea Cossettini, Xiaying Wang, Enrico Tabanelli, Guiseppe Tagliavini, Philippe Ryvlin, Luca Benini(参考訳) 並列超低消費電力組込みプラットフォーム上での最小数の脳波チャンネルに基づく発作検出アルゴリズムの実装について述べる。 この分析はCHB-MITデータセットに基づいており、異なる分類手法(Support Vector Machines、Random Forest、Extra Trees、AdaBoost)と、誤報を保証しながら感度を最大化するための様々な前処理技術の調査を含んでいる。 全23電極または4チャネルのみを考慮した,グローバルおよび主題固有のアプローチを分析する。 8sウィンドウサイズと主観的アプローチでは,偽陽性はゼロ,感度は100%であった。 これらのアルゴリズムは並列化され、並列超低電力(PULP)プラットフォームに最適化され、300mAhのバッテリーで300hの連続的なモニタリングを可能にする。 これらの結果は、患者と介護者の両方の要件を満たす、安価でウェアラブルで、偽陽性率と高感度の長期的なてんかんモニタリングソリューションの実装への道を開いた。

We present the implementation of seizure detection algorithms based on a minimal number of EEG channels on a parallel ultra-low-power embedded platform. The analyses are based on the CHB-MIT dataset, and include explorations of different classification approaches (Support Vector Machines, Random Forest, Extra Trees, AdaBoost) and different pre/post-processing techniques to maximize sensitivity while guaranteeing no false alarms. We analyze global and subject-specific approaches, considering all 23-electrodes or only 4 temporal channels. For 8s window size and subject-specific approach, we report zero false positives and 100% sensitivity. These algorithms are parallelized and optimized for a parallel ultra-low power (PULP) platform, enabling 300h of continuous monitoring on a 300 mAh battery, in a wearable form factor and power budget. These results pave the way for the implementation of affordable, wearable, long-term epilepsy monitoring solutions with low false-positive rates and high sensitivity, meeting both patient and caregiver requirements.
翻訳日:2021-06-16 14:54:40 公開日:2021-06-15
# 生成逆ネットワークによる深部ニューラルネットワークの透かしの検出と除去

Detect and remove watermark in deep neural networks via generative adversarial networks ( http://arxiv.org/abs/2106.08104v1 )

ライセンス: Link先を確認
Haoqi Wang, Mingfu Xue, Shichang Sun, Yushu Zhang, Jian Wang, Weiqiang Liu(参考訳) ディープニューラルネットワーク(DNN)は様々な分野で顕著な性能を発揮している。 しかし、DNNモデルをゼロからトレーニングするには、多くのコンピューティングリソースとトレーニングデータが必要である。 ほとんどの個人ユーザがそのような計算リソースやトレーニングデータを取得することは困難である。 近年,モデル著作権侵害が問題となっている。 例えば、事前訓練されたモデルは、モデル所有者の許可なしに違法なユーザーによって盗まれたり悪用されることがある。 近年,DNNモデルの知的財産権保護に関する多くの研究が提案されている。 これらの研究において、バックドアに基づくDNNに透かしを埋め込むことは、広く使われている手法の1つである。 しかし、DNNモデルが盗まれた場合、バックドアベースの透かしは敵によって検出され削除されるリスクに直面する可能性がある。 本稿では,gan(generative adversarial networks)を用いた深層ニューラルネットワークにおける透かしの検出と除去を行う手法を提案する。 バックドアベースのDNN透かしは,提案したGANベースの透かし除去攻撃に対して脆弱であることを示す。 提案手法は2つのフェーズを含む。 第1フェーズでは、DNNモデルの透かしを検出・反転するために、GANとほとんどクリーンな画像を使用しません。 第2フェーズでは、逆バックドア画像に基づいて透かしDNNを微調整する。 mnistおよびcifar10データセットの実験的評価により,提案手法はdnnモデルにおける透かしの約98%を効果的に除去できることが示された。 一方、提案した攻撃はモデルの性能にはほとんど影響しない。 MNISTとCIFAR10データセットにおける透かしDNNのテスト精度はそれぞれ1%未満と3%以下に低下する。

Deep neural networks (DNN) have achieved remarkable performance in various fields. However, training a DNN model from scratch requires a lot of computing resources and training data. It is difficult for most individual users to obtain such computing resources and training data. Model copyright infringement is an emerging problem in recent years. For instance, pre-trained models may be stolen or abuse by illegal users without the authorization of the model owner. Recently, many works on protecting the intellectual property of DNN models have been proposed. In these works, embedding watermarks into DNN based on backdoor is one of the widely used methods. However, when the DNN model is stolen, the backdoor-based watermark may face the risk of being detected and removed by an adversary. In this paper, we propose a scheme to detect and remove watermark in deep neural networks via generative adversarial networks (GAN). We demonstrate that the backdoor-based DNN watermarks are vulnerable to the proposed GAN-based watermark removal attack. The proposed attack method includes two phases. In the first phase, we use the GAN and few clean images to detect and reverse the watermark in the DNN model. In the second phase, we fine-tune the watermarked DNN based on the reversed backdoor images. Experimental evaluations on the MNIST and CIFAR10 datasets demonstrate that, the proposed method can effectively remove about 98% of the watermark in DNN models, as the watermark retention rate reduces from 100% to less than 2% after applying the proposed attack. In the meantime, the proposed attack hardly affects the model's performance. The test accuracy of the watermarked DNN on the MNIST and the CIFAR10 datasets drops by less than 1% and 3%, respectively.
翻訳日:2021-06-16 14:54:23 公開日:2021-06-15
# レドックスフローバッテリにおける有機分子の水溶性自由エネルギー予測のためのグラフィカルガウス過程回帰モデル

Graphical Gaussian Process Regression Model for Aqueous Solvation Free Energy Prediction of Organic Molecules in Redox Flow Battery ( http://arxiv.org/abs/2106.08146v1 )

ライセンス: Link先を確認
Peiyuan Gao, Xiu Yang, Yu-Hang Tang, Muqing Zheng, Amity Anderson, Vijayakumar Murugesan, Aaron Hollas, Wei Wang(参考訳) 有機分子の溶媒和自由エネルギーは、有機酸化還元フロー電池における溶解度、液相平衡定数、pkaおよびレドックスポテンシャルなどの創発的性質を決定する上で重要なパラメータである。 本研究では,新しい分子グラフカーネルに基づくガウス過程回帰法を用いて,有機分子の水溶液自由エネルギーを学習し,予測する機械学習(ML)モデルを提案する。 静電気相互作用におけるMLモデルの性能, 溶媒の非極的相互作用寄与, 溶媒自由エネルギーにおける溶質のコンホメーションエントロピー, 暗黙的あるいは明示的な水溶媒モデルを用いた3つのデータセット, 溶質のコンホメーションエントロピーの寄与について検討した。 我々のMLモデルは,QM9データセットとFreesolvデータベースのサブセットに対して,平均絶対誤差が1kcal/mol未満で,化学精度で分子の解離自由エネルギーを予測できることを実証した。 グラフベースmlモデルの一般データ不足問題を解決するために,分子データセットの多様性を調べるために使用できる分子グラフ間の距離に基づく次元縮小アルゴリズムを提案する。 分子構造の空間が定められた特定のテストセットの予測を改善するため、最小限のトレーニングセットを構築するための有望な方法を提供する。

The solvation free energy of organic molecules is a critical parameter in determining emergent properties such as solubility, liquid-phase equilibrium constants, and pKa and redox potentials in an organic redox flow battery. In this work, we present a machine learning (ML) model that can learn and predict the aqueous solvation free energy of an organic molecule using Gaussian process regression method based on a new molecular graph kernel. To investigate the performance of the ML model on electrostatic interaction, the nonpolar interaction contribution of solvent and the conformational entropy of solute in solvation free energy, three data sets with implicit or explicit water solvent models, and contribution of conformational entropy of solute are tested. We demonstrate that our ML model can predict the solvation free energy of molecules at chemical accuracy with a mean absolute error of less than 1 kcal/mol for subsets of the QM9 dataset and the Freesolv database. To solve the general data scarcity problem for a graph-based ML model, we propose a dimension reduction algorithm based on the distance between molecular graphs, which can be used to examine the diversity of the molecular data set. It provides a promising way to build a minimum training set to improve prediction for certain test sets where the space of molecular structures is predetermined.
翻訳日:2021-06-16 14:53:57 公開日:2021-06-15
# 変分不等式に対する分散局所確率外勾配

Decentralized Local Stochastic Extra-Gradient for Variational Inequalities ( http://arxiv.org/abs/2106.08315v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Pavel Dvurechensky, Anastasia Koloskova, Valentin Samokhin, Sebastian U Stich, Alexander Gasnikov(参考訳) 問題データを多数のデバイス(異種、非IIDデータ設定)に分散する分散確率的変動不等式について考察する。 そこで本稿では,ネットワークトポロジ上で任意の通信を行うことのできる,確率的超勾配に基づく新しい手法を提案する。 これは完全な分散最適化設定と、連合学習で一般的に使用される集中型トポロジの両方をカバーする。 さらに,作業者間の通信頻度を低減するために,複数のローカル更新をサポートする。 提案手法を,強い単調,単調,非単調で理論的に解析する。 特に,本手法と解析は,Deep Learning への関心を高めつつ研究されている分散確率的 min-max 問題に適用される。 例えば、GAN(Generative Adversarial Networks)のトレーニング目標は通常、サドルポイントの問題であり、GANの分散トレーニングは非常に難しいと報告されている。 SOTA技術は繰り返し発生するゴシップラウンドや近位更新に依存するが、これらの要件を緩和する。 分散GAN実験の結果,提案アルゴリズムの有効性が示された。

We consider decentralized stochastic variational inequalities where the problem data is distributed across many participating devices (heterogeneous, or non-IID data setting). We propose a novel method - based on stochastic extra-gradient - where participating devices can communicate over arbitrary, possibly time-varying network topologies. This covers both the fully decentralized optimization setting and the centralized topologies commonly used in Federated Learning. Our method further supports multiple local updates on the workers for reducing the communication frequency between workers. We theoretically analyze the proposed scheme in the strongly monotone, monotone and non-monotone setting. As a special case, our method and analysis apply in particular to decentralized stochastic min-max problems which are being studied with increased interest in Deep Learning. For example, the training objective of Generative Adversarial Networks (GANs) are typically saddle point problems and the decentralized training of GANs has been reported to be extremely challenging. While SOTA techniques rely on either repeated gossip rounds or proximal updates, we alleviate both of these requirements. Experimental results for decentralized GAN demonstrate the effectiveness of our proposed algorithm.
翻訳日:2021-06-16 14:53:34 公開日:2021-06-15
# (参考訳) GANのゲーム: 生成的敵ネットワークのためのゲーム理論モデル [全文訳有]

Game of GANs: Game Theoretical Models for Generative Adversarial Networks ( http://arxiv.org/abs/2106.06976v2 )

ライセンス: CC BY 4.0
Monireh Mohebbi Moghadam, Bahar Boroomand, Mohammad Jalali, Arman Zareian, Alireza DaeiJavad, and Mohammad Hossein Manshaei(参考訳) AIコミュニティにおける有望な研究方向としてのジェネレーティブ・アドバイサル・ネットワークは、最近、高品質な現実データを生成する能力によって、かなりの注目を集めている。 GANは、ナッシュ均衡に達するために敵対的に訓練された2つのニューラルネットワーク間の競合ゲームである。 ここ数年のGANの改善にもかかわらず、解決すべき問題がいくつか残っている。 このようにして、これらの問題にどのように取り組み、進歩していくかは、研究の関心の高まりに繋がる。 本稿では, GANにおけるゲーム理論を活用する文献をレビューし, ゲームモデルが特定の生成モデルの課題を緩和し, GANの性能を向上させる方法について述べる。 特に,基本的なGANモデルやゲーム理論の背景など,いくつかの前提条件について概観する。 その後、最先端のソリューションを3つの重要なカテゴリにまとめる分類法を提示する: 修正ゲームモデル、修正アーキテクチャ、修正学習方法。 本分類は,ゲーム理論的な観点からのアプローチによる基本モデルの修正に基づくものである。 さらに,各カテゴリをいくつかのサブカテゴリに分類する。 提案する分類法に従い,各クラスの主な目的を考察し,各グループにおける最近の研究を概観する。 最後に,本分野における課題について考察し,今後の研究課題について述べる。

Generative Adversarial Network, as a promising research direction in the AI community, recently attracts considerable attention due to its ability to generating high-quality realistic data. GANs are a competing game between two neural networks trained in an adversarial manner to reach a Nash equilibrium. Despite the improvement accomplished in GANs in the last years, there remain several issues to solve. In this way, how to tackle these issues and make advances leads to rising research interests. This paper reviews literature that leverages the game theory in GANs and addresses how game models can relieve specific generative models' challenges and improve the GAN's performance. In particular, we firstly review some preliminaries, including the basic GAN model and some game theory backgrounds. After that, we present our taxonomy to summarize the state-of-the-art solutions into three significant categories: modified game model, modified architecture, and modified learning method. The classification is based on the modifications made in the basic model by the proposed approaches from the game-theoretic perspective. We further classify each category into several subcategories. Following the proposed taxonomy, we explore the main objective of each class and review the recent work in each group. Finally, we discuss the remaining challenges in this field and present the potential future research topics.
翻訳日:2021-06-16 12:18:24 公開日:2021-06-15
# (参考訳) 線形鎖CRFを正規言語に制約する [全文訳有]

Constraining Linear-chain CRFs to Regular Languages ( http://arxiv.org/abs/2106.07306v2 )

ライセンス: CC BY-SA 4.0
Sean Papay, Roman Klinger and Sebastian Pad\'o(参考訳) 構造化予測では、モデルの主な課題は、出力構造内の相互依存を表現することである。 出力がシーケンスとして構造化される一般的な場合、線形鎖条件付きランダムフィールド(CRF)は、出力シーケンスの局所的依存関係を学習できる広く使われているモデルクラスである。 しかし、CRFのマルコフの仮定は、これらのモデルが非局所的な依存関係をキャプチャすることは不可能であり、標準のCRFはデータ(例えば出力ラベルのグローバルアリティ制約)の非局所的な制約を尊重することができない。 出力構造の空間を正規言語 $\mathcal{L}$ として指定することにより、非局所構造を含む幅広い制約を強制できる CRF の一般化を提案する。 結果として得られる正則制約 CRF (RegCCRF) は標準 CRF と同じ形式的性質を持つが、$\mathcal{L}$ でないすべてのラベル列にゼロ確率を割り当てる。 特に、RegCCRFはトレーニング中に制約を組み込むことができ、関連するモデルはデコード時にのみ制約を強制する。 制約付きトレーニングが制約付き復号化よりも悪くないことを証明し、実際にかなり良い結果が得られることを合成データを用いて示す。 さらに,RegCCRFをセマンティックロールラベリングのためのディープニューラルモデルに組み込むことで,ダウンストリームタスクに実用的なメリットを実証する。

In structured prediction, a major challenge for models is to represent the interdependencies within their output structures. For the common case where outputs are structured as a sequence, linear-chain conditional random fields (CRFs) are a widely used model class which can learn local dependencies in output sequences. However, the CRF's Markov assumption makes it impossible for these models to capture nonlocal dependencies, and standard CRFs are unable to respect nonlocal constraints of the data (such as global arity constraints on output labels). We present a generalization of CRFs that can enforce a broad class of constraints, including nonlocal ones, by specifying the space of possible output structures as a regular language $\mathcal{L}$. The resulting regular-constrained CRF (RegCCRF) has the same formal properties as a standard CRF, but assigns zero probability to all label sequences not in $\mathcal{L}$. Notably, RegCCRFs can incorporate their constraints during training, while related models only enforce constraints during decoding. We prove that constrained training is never worse than constrained decoding, and show using synthetic data that it can be substantially better in practice. Additionally, we demonstrate a practical benefit on downstream tasks by incorporating a RegCCRF into a deep neural model for semantic role labeling, exceeding state-of-the-art results on a standard dataset.
翻訳日:2021-06-16 11:15:44 公開日:2021-06-15
# (参考訳) 脳磁気共鳴画像マルチクラス分類のための深層伝達学習 [全文訳有]

Deep Transfer Learning for Brain Magnetic Resonance Image Multi-class Classification ( http://arxiv.org/abs/2106.07333v2 )

ライセンス: CC BY 4.0
Yusuf Brima, Mossadek Hossain Kamal Tushar, Upama Kabir, Tariqul Islam(参考訳) MRI(Magnetic Resonance Imaging)は、患者の解剖学的および生理学的構造の画像を作成するために、放射線学の分野で使用される主要な診断手法である。 MRIは軟部組織の異常を見つけるための医用画像撮影法として一般的である。 伝統的に、それらは軟部組織、特に脳の異常を検出するために放射線科医によって分析される。 大量の患者のMRIを解釈する過程は困難である。 したがって、機械学習手法を用いることで、軟部組織の異常をかなり正確に検出することができる。 本研究では、新しいデータセットをキュレートし、Deep Transfer Learningを用いて脳MRI画像中の腫瘍の多重分類を行うフレームワークを開発した。 本稿では,実験にDeep Residual Convolutional Neural Network (ResNet50) アーキテクチャを導入し,モデルを学習するための識別学習手法を提案する。 このアプローチでは、新しいデータセットと2つのmri脳データセットを用いて、キュレートされたデータセットの86.40%、ハーバード全脳アトラスデータセットの93.80%、バイオメディカルエンジニアリングデータセットの97.05%の精度を達成した。 提案するトランスファーラーニングの枠組みは,脳腫瘍のマルチクラス化タスクにおいて有望かつ効果的な手法であることを示す。

Magnetic Resonance Imaging (MRI) is a principal diagnostic approach used in the field of radiology to create images of the anatomical and physiological structure of patients. MRI is the prevalent medical imaging practice to find abnormalities in soft tissues. Traditionally they are analyzed by a radiologist to detect abnormalities in soft tissues, especially the brain. The process of interpreting a massive volume of patient's MRI is laborious. Hence, the use of Machine Learning methodologies can aid in detecting abnormalities in soft tissues with considerable accuracy. In this research, we have curated a novel dataset and developed a framework that uses Deep Transfer Learning to perform a multi-classification of tumors in the brain MRI images. In this paper, we adopted the Deep Residual Convolutional Neural Network (ResNet50) architecture for the experiments along with discriminative learning techniques to train the model. Using the novel dataset and two publicly available MRI brain datasets, this proposed approach attained a classification accuracy of 86.40% on the curated dataset, 93.80% on the Harvard Whole Brain Atlas dataset, and 97.05% accuracy on the School of Biomedical Engineering dataset. Results of our experiments significantly demonstrate our proposed framework for transfer learning is a potential and effective method for brain tumor multi-classification tasks.
翻訳日:2021-06-16 10:58:14 公開日:2021-06-15
# エンコーダデコーダ変換器を用いたゼロショット制御生成

Zero-Shot Controlled Generation with Encoder-Decoder Transformers ( http://arxiv.org/abs/2106.06411v2 )

ライセンス: Link先を確認
Devamanyu Hazarika, Mahdi Namazifar, Dilek Hakkani-T\"ur(参考訳) 自然言語生成のためのニューラルネットワークモデル(NLG)の制御は、機械翻訳、文書要約、ダイアログシステムなど、多くの分野で広く応用されている。 ゼロショット方式でそのような制御を可能にするアプローチは、いくつかの理由から、追加の注釈付きデータとトレーニングの必要性をなくすため、非常に重要である。 本研究では,エンコーダ・デコーダ変換器を用いたnlgモデルをゼロショットで制御する新しい手法を提案する。 これは、3つの制御ノブ(注意バイアス、デコーダ混合、コンテキスト拡張)を導入し、これらモデルに生成時に適用される。 これらのノブは、トレーニングされたNLGモデル(例えば、クロスアテンション層をバイアスするなど)を直接操作することで生成プロセスを制御する。 これらのNLGモデルは,このような操作に対して堅牢であるだけでなく,生成性能に影響を与えることなく制御可能であることを示す。 これらの結果は、私たちの知る限りでは、彼らにとって最初のものです。 これらの制御ノブを通して、トランスフォーマーデコーダの自己照準モジュールの役割を検証し、これらのモデルによって生成された文のフルーエンシーを維持することが主な役割であることを示す。 この仮説に基づき、トランスフォーマーデコーダの代替アーキテクチャが実行可能な選択肢であることを示す。 また,この仮説がエンコーダ・デコーダトランスフォーマモデルをより効率的にトレーニングする方法につながる可能性についても検討した。

Controlling neural network-based models for natural language generation (NLG) has broad applications in numerous areas such as machine translation, document summarization, and dialog systems. Approaches that enable such control in a zero-shot manner would be of great importance as, among other reasons, they remove the need for additional annotated data and training. In this work, we propose novel approaches for controlling encoder-decoder transformer-based NLG models in zero-shot. This is done by introducing three control knobs, namely, attention biasing, decoder mixing, and context augmentation, that are applied to these models at generation time. These knobs control the generation process by directly manipulating trained NLG models (e.g., biasing cross-attention layers) to realize the desired attributes in the generated outputs. We show that not only are these NLG models robust to such manipulations, but also their behavior could be controlled without an impact on their generation performance. These results, to the best of our knowledge, are the first of their kind. Through these control knobs, we also investigate the role of transformer decoder's self-attention module and show strong evidence that its primary role is maintaining fluency of sentences generated by these models. Based on this hypothesis, we show that alternative architectures for transformer decoders could be viable options. We also study how this hypothesis could lead to more efficient ways for training encoder-decoder transformer models.
翻訳日:2021-06-16 10:37:05 公開日:2021-06-15
# 事前学習モデル:過去・現在・未来

Pre-Trained Models: Past, Present and Future ( http://arxiv.org/abs/2106.07139v2 )

ライセンス: Link先を確認
Xu Han, Zhengyan Zhang, Ning Ding, Yuxian Gu, Xiao Liu, Yuqi Huo, Jiezhong Qiu, Liang Zhang, Wentao Han, Minlie Huang, Qin Jin, Yanyan Lan, Yang Liu, Zhiyuan Liu, Zhiwu Lu, Xipeng Qiu, Ruihua Song, Jie Tang, Ji-Rong Wen, Jinhui Yuan, Wayne Xin Zhao, Jun Zhu(参考訳) BERTやGPTのような大規模事前学習モデル(PTM)は、最近大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。 高度な事前学習目標と巨大なモデルパラメータにより、大規模PTMは大量のラベル付きおよびラベルなしデータから知識を効果的に取得することができる。 知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的に符号化された豊富な知識は、様々な下流タスクの恩恵を受けることができる。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今や合意されている。 本稿では,プレトレーニングの歴史,特にトランスファーラーニングと自己教師型学習との関係を深く考察し,AI開発スペクトルにおけるPTMの重要位置を明らかにする。 さらに, PTMの最新のブレークスルーを概観する。 これらのブレークスルーは、効率的なアーキテクチャの設計、リッチなコンテキストの利用、計算効率の向上、解釈と理論解析の実行の4つの重要な方向に向かって、計算能力の急上昇とデータの可用性の向上によって引き起こされる。 最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに, PTM の今後の研究に刺激を与え, 進展を期待する。

Large-scale pre-trained models (PTMs) such as BERT and GPT have recently achieved great success and become a milestone in the field of artificial intelligence (AI). Owing to sophisticated pre-training objectives and huge model parameters, large-scale PTMs can effectively capture knowledge from massive labeled and unlabeled data. By storing knowledge into huge parameters and fine-tuning on specific tasks, the rich knowledge implicitly encoded in huge parameters can benefit a variety of downstream tasks, which has been extensively demonstrated via experimental verification and empirical analysis. It is now the consensus of the AI community to adopt PTMs as backbone for downstream tasks rather than learning models from scratch. In this paper, we take a deep look into the history of pre-training, especially its special relation with transfer learning and self-supervised learning, to reveal the crucial position of PTMs in the AI development spectrum. Further, we comprehensively review the latest breakthroughs of PTMs. These breakthroughs are driven by the surge of computational power and the increasing availability of data, towards four important directions: designing effective architectures, utilizing rich contexts, improving computational efficiency, and conducting interpretation and theoretical analysis. Finally, we discuss a series of open problems and research directions of PTMs, and hope our view can inspire and advance the future study of PTMs.
翻訳日:2021-06-16 10:36:40 公開日:2021-06-15
# ndpnet : 数発細粒画像分類のための新しい非線形データ投影ネットワーク

NDPNet: A novel non-linear data projection network for few-shot fine-grained image classification ( http://arxiv.org/abs/2106.06988v2 )

ライセンス: Link先を確認
Weichuan Zhang, Xuefang Liu, Zhe Xue, Yongsheng Gao, Changming Sun(参考訳) fsfgicは,クエリ画像とサポートクラス間の類似性を,ごく少数の例から推定することで,転送可能な機能埋め込みネットワークを学習することを目的としている。 本研究では,FSFGICアーキテクチャの設計に非線形データプロジェクションの概念を導入して,有限ショット学習における限られたサンプル問題に対処すると同時に,きめ細かい画像分類のためのモデルの識別性を高めることを提案する。 具体的には, 効果的なメトリック学習に必要な意味的特徴を得るだけでなく, 入力画像から細部まで細部まで, 特徴を再エンハンスする機能を持つ, 特徴再抽象埋め込みネットワークの設計を行った。 次に,提案する類似度メトリック学習ネットワークにおいて,問合せ画像の記述子と支援クラスを異なる非線形空間に投影し,識別的投影因子を学習する。 この設計は、同一クラス内のサンプル間の距離を小さくし、異なるクラスからのサンプル間の距離を小さくし、異なるカテゴリからのサンプル間の結合関係を減らすために、FSFGICタスクの挑戦的で制限された条件で効果的に操作できる。 さらに,提案した非線形データプロジェクトに基づく新たな類似度尺度を提案し,クエリ画像とサポートセットの特徴情報の関連性を評価する。 提案したアーキテクチャは,任意のエピソードトレーニング機構にスクラッチからエンド・ツー・エンド・トレーニングに簡単に組み込むことができる。 FSFGICタスクに関する大規模な実験は、提案手法が最先端のベンチマークよりも優れていることを示す。

Metric-based few-shot fine-grained image classification (FSFGIC) aims to learn a transferable feature embedding network by estimating the similarities between query images and support classes from very few examples. In this work, we propose, for the first time, to introduce the non-linear data projection concept into the design of FSFGIC architecture in order to address the limited sample problem in few-shot learning and at the same time to increase the discriminability of the model for fine-grained image classification. Specifically, we first design a feature re-abstraction embedding network that has the ability to not only obtain the required semantic features for effective metric learning but also re-enhance such features with finer details from input images. Then the descriptors of the query images and the support classes are projected into different non-linear spaces in our proposed similarity metric learning network to learn discriminative projection factors. This design can effectively operate in the challenging and restricted condition of a FSFGIC task for making the distance between the samples within the same class smaller and the distance between samples from different classes larger and for reducing the coupling relationship between samples from different categories. Furthermore, a novel similarity measure based on the proposed non-linear data project is presented for evaluating the relationships of feature information between a query image and a support set. It is worth to note that our proposed architecture can be easily embedded into any episodic training mechanisms for end-to-end training from scratch. Extensive experiments on FSFGIC tasks demonstrate the superiority of the proposed methods over the state-of-the-art benchmarks.
翻訳日:2021-06-16 10:36:16 公開日:2021-06-15
# 乳癌診断のための弱教師付き高分解能マンモグラフィ画像分割

Weakly-supervised High-resolution Segmentation of Mammography Images for Breast Cancer Diagnosis ( http://arxiv.org/abs/2106.07049v2 )

ライセンス: Link先を確認
Kangning Liu, Yiqiu Shen, Nan Wu, Jakub Ch{\l}\k{e}dowski, Carlos Fernandez-Granda, Krzysztof J. Geras(参考訳) 近年,深層学習分類器は画像に基づく診断において有望な結果を示した。 しかし、これらのモデルの出力を解釈することは依然として困難である。 がん診断において、入力画像の領域、すなわち出力に責任を持つ領域を局在させることにより、解釈可能性を達成することができる。 病変の場所。 または、セグメンテーションまたは検出モデルは、悪性病変の位置を示すピクセルワイズアノテーションで訓練することができる。 残念ながら、そのようなラベルの取得は労働集約的であり、医療の専門知識を必要とする。 この困難を克服するために、弱教師付きローカライゼーションを利用することができる。 これらの手法により、ニューラルネットワーク分類器は、分類タスクに最も関係のある入力の領域(例えば、)をハイライトした有能マップを出力することができる。 マンモグラムの悪性病変) 画像レベルのラベル(例)のみを使用する。 訓練中、患者ががんを患っているかどうか。 高解像度画像に適用すると、既存の手法は低解像度の塩分マップを生成する。 これは画像サイズに関して不審な病変が小さいアプリケーションでは問題となる。 本研究では,高分解能画像の弱教師付きセグメンテーションを行うニューラルネットワークアーキテクチャを提案する。 提案モデルでは、粗いレベルの局所化により興味のある領域を選択し、その領域のきめ細かいセグメンテーションを行う。 このモデルを乳がん検診に応用し, 臨床的に現実的な大規模データセットで検証した。 Dice類似度スコアを用いて,良性病変および悪性病変の局所化性能において既存手法よりも高い成績を示し,それぞれ39.6%,20.0%の改善率を示した。 コードとモデルの重み付けはhttps://github.com/n yukat/GLAMで確認できる。

In the last few years, deep learning classifiers have shown promising results in image-based medical diagnosis. However, interpreting the outputs of these models remains a challenge. In cancer diagnosis, interpretability can be achieved by localizing the region of the input image responsible for the output, i.e. the location of a lesion. Alternatively, segmentation or detection models can be trained with pixel-wise annotations indicating the locations of malignant lesions. Unfortunately, acquiring such labels is labor-intensive and requires medical expertise. To overcome this difficulty, weakly-supervised localization can be utilized. These methods allow neural network classifiers to output saliency maps highlighting the regions of the input most relevant to the classification task (e.g. malignant lesions in mammograms) using only image-level labels (e.g. whether the patient has cancer or not) during training. When applied to high-resolution images, existing methods produce low-resolution saliency maps. This is problematic in applications in which suspicious lesions are small in relation to the image size. In this work, we introduce a novel neural network architecture to perform weakly-supervised segmentation of high-resolution images. The proposed model selects regions of interest via coarse-level localization, and then performs fine-grained segmentation of those regions. We apply this model to breast cancer diagnosis with screening mammography, and validate it on a large clinically-realistic dataset. Measured by Dice similarity score, our approach outperforms existing methods by a large margin in terms of localization performance of benign and malignant lesions, relatively improving the performance by 39.6% and 20.0%, respectively. Code and the weights of some of the models are available at https://github.com/n yukat/GLAM
翻訳日:2021-06-16 10:35:51 公開日:2021-06-15
# 効率的な意味セグメンテーションモデルの半教師あり学習のためのベースライン

A baseline for semi-supervised learning of efficient semantic segmentation models ( http://arxiv.org/abs/2106.07075v2 )

ライセンス: Link先を確認
Ivan Grubi\v{s}i\'c, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 半教師付き学習は、ピクセルレベルの基底真理のコストが高いため、密集した予測コンテキストで特に興味深い。 残念なことに、そのようなアプローチのほとんどは、非常に遅いトレーニングとGPU RAMに対する高い要求のために研究を妨げる古いアーキテクチャで評価されている。 標準アーキテクチャと効率的なアーキテクチャの両方で非常にうまく機能する、シンプルで効果的なベースラインを提供することで、この懸念に対処します。 我々のベースラインは、一方向の一貫性と非線形幾何学的および測光的摂動に基づく。 我々は,学生の分枝のみを摂動させることの利点を示し,そのような行動のもっともらしい説明を示す。 CityscapesとCIFAR-10の実験は、以前の作業に関して競争力のある性能を示した。

Semi-supervised learning is especially interesting in the dense prediction context due to high cost of pixel-level ground truth. Unfortunately, most such approaches are evaluated on outdated architectures which hamper research due to very slow training and high requirements on GPU RAM. We address this concern by presenting a simple and effective baseline which works very well both on standard and efficient architectures. Our baseline is based on one-way consistency and non-linear geometric and photometric perturbations. We show advantage of perturbing only the student branch and present a plausible explanation of such behaviour. Experiments on Cityscapes and CIFAR-10 demonstrate competitive performance with respect to prior work.
翻訳日:2021-06-16 10:35:27 公開日:2021-06-15
# GDI: 強化学習と教師付き学習との違いを再考する

GDI: Rethinking What Makes Reinforcement Learning Different From Supervised Learning ( http://arxiv.org/abs/2106.06232v2 )

ライセンス: Link先を確認
Jiajun Fan, Changnan Xiao, Yue Huang(参考訳) 深部Qネットワーク(DQN)は, 深部学習(DL)と強化学習(RL)を組み合わせることで, 深部強化学習(DRL)の扉を蹴り上げた。 DQNは、この特性がトレーニングの不安定性を引き起こす可能性があると判断し、プロパティの欠点を扱う効果的な方法を提案した。 予測されたデータ分布と地上の真理データ分布とのギャップを緩和すると同時に,教師あり学習(SL)の失敗を解消することが,RLにとって極めて重要である。 この新たな視点から、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムをより一般化されたバージョンに拡張し、これを一般化データ分散イテレーション(GDI)と呼ぶ。 我々は,大規模RLアルゴリズムと手法をGDIパラダイムに統合し,GDIの特殊な事例の一つとみなすことができると考えている。 GDI が GPI よりも優れている理由と動作方法の理論的証明を提供する。 GDIに基づくいくつかの実用的なアルゴリズムが提案され、その有効性と拡張性を検証する。 実験により、アーケード学習環境(ALE)におけるSOTA(State-of-the-ar t)のパフォーマンスが実証され、このアルゴリズムは9620.98%の平均正規化スコア(HNS)、1146.39%の中央値HNS、22の人的世界記録ブレークスルー(HWRB)をわずか200フレームで達成した。 我々の研究は、RL研究を先導し、人間の世界記録を征服し、パフォーマンスと効率の両面で真のスーパーヒューマンエージェントを追求することを目的としています。

Deep Q Network (DQN) firstly kicked the door of deep reinforcement learning (DRL) via combining deep learning (DL) with reinforcement learning (RL), which has noticed that the distribution of the acquired data would change during the training process. DQN found this property might cause instability for training, so it proposed effective methods to handle the downside of the property. Instead of focusing on the unfavourable aspects, we find it critical for RL to ease the gap between the estimated data distribution and the ground truth data distribution while supervised learning (SL) fails to do so. From this new perspective, we extend the basic paradigm of RL called the Generalized Policy Iteration (GPI) into a more generalized version, which is called the Generalized Data Distribution Iteration (GDI). We see massive RL algorithms and techniques can be unified into the GDI paradigm, which can be considered as one of the special cases of GDI. We provide theoretical proof of why GDI is better than GPI and how it works. Several practical algorithms based on GDI have been proposed to verify the effectiveness and extensiveness of it. Empirical experiments prove our state-of-the-art (SOTA) performance on Arcade Learning Environment (ALE), wherein our algorithm has achieved 9620.98% mean human normalized score (HNS), 1146.39% median HNS and 22 human world record breakthroughs (HWRB) using only 200 training frames. Our work aims to lead the RL research to step into the journey of conquering the human world records and seek real superhuman agents on both performance and efficiency.
翻訳日:2021-06-16 10:35:18 公開日:2021-06-15
# 行列式ビーム探索

Determinantal Beam Search ( http://arxiv.org/abs/2106.07400v2 )

ライセンス: Link先を確認
Clara Meister, Martina Forster, Ryan Cotterell(参考訳) ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。 このアルゴリズムは、対応する集合関数が候補間の相互作用を反映しないにもかかわらず、自然に部分最適化問題と見なすことができる。 経験上、これはしばしば高い重なりを示す集合に繋がる、例えば、文字列は1つの単語だけによって異なるかもしれない。 しかし、複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットが望まれることが多い。 この問題に対処するために,我々は行列式ビーム探索と呼ぶビーム探索の再構成を提案する。 決定的ビーム探索は、本質的にセット内相互作用を符号化する集合上のモデルである決定的ポイントプロセス(DPP)と自然な関係を持つ。 ビームサーチを一連の行列式最大化問題として繰り返すことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。 ケーススタディでは、文字列サブシーケンスカーネルを使用して、シーケンスモデルから生成されたテキストのn-gramカバレッジを明示的に奨励する。 我々のアルゴリズムは、言語生成の文脈において、他の多様な集合生成戦略と競合する性能を提供し、多様性を最適化するためのより一般的なアプローチを提供する。

Beam search is a go-to strategy for decoding neural sequence models. The algorithm can naturally be viewed as a subset optimization problem, albeit one where the corresponding set function does not reflect interactions between candidates. Empirically, this leads to sets often exhibiting high overlap, e.g., strings may differ by only a single word. Yet in use-cases that call for multiple solutions, a diverse or representative set is often desired. To address this issue, we propose a reformulation of beam search, which we call determinantal beam search. Determinantal beam search has a natural relationship to determinantal point processes (DPPs), models over sets that inherently encode intra-set interactions. By posing iterations in beam search as a series of subdeterminant maximization problems, we can turn the algorithm into a diverse subset selection process. In a case study, we use the string subsequence kernel to explicitly encourage n-gram coverage in text generated from a sequence model. We observe that our algorithm offers competitive performance against other diverse set generation strategies in the context of language generation, while providing a more general approach to optimizing for diversity.
翻訳日:2021-06-16 10:34:42 公開日:2021-06-15
# コントラスト型コンテキストマッチングを用いたバイオメディカルエンティティリンク

Biomedical Entity Linking with Contrastive Context Matching ( http://arxiv.org/abs/2106.07583v2 )

ライセンス: Link先を確認
Shogo Ujiie, Hayate Iso, Eiji Aramaki(参考訳) バイオコムは,小型辞書と生の生の生物医学記事という2つの資源のみを用いた,生物医学的エンティティリンクのための対比学習フレームワークである。 具体的には、辞書マッチングによって生のPubMed記事からトレーニングインスタンスを構築し、コンテクスト対応エンティティリンクモデルとコントラスト学習のトレーニングに使用する。 最寄りのサーチにより,生物医学の正規化を推論時に予測する。 その結果、BioCoMは、特に低リソース環境において、エンティティのコンテキストを効果的に利用することにより、最先端モデルを大幅に上回ることがわかった。

We introduce BioCoM, a contrastive learning framework for biomedical entity linking that uses only two resources: a small-sized dictionary and a large number of raw biomedical articles. Specifically, we build the training instances from raw PubMed articles by dictionary matching and use them to train a context-aware entity linking model with contrastive learning. We predict the normalized biomedical entity at inference time through a nearest-neighbor search. Results found that BioCoM substantially outperforms state-of-the-art models, especially in low-resource settings, by effectively using the context of the entities.
翻訳日:2021-06-16 10:34:23 公開日:2021-06-15
# nlhd:低光度画像強調のための画素レベル非局所レチネックスモデル

NLHD: A Pixel-Level Non-Local Retinex Model for Low-Light Image Enhancement ( http://arxiv.org/abs/2106.06971v2 )

ライセンス: Link先を確認
Hao Hou, Yingkun Hou, Yuxuan Shi, Benzheng Wei, Jun Xu(参考訳) 多くの既存手法で低照度画像強調にレチネックスモデルを適用している。 低照度画像のより適切な分解は、より良い画像強調を実現するのに役立つ。 本稿では,新しい画素レベル非局所ハール変換に基づく照明・反射分解法(nlhd)を提案する。 各類似画素群上のハール変換の特異な低周波係数を用いて照明成分を再構成し、残りの高周波係数を用いて反射率成分を再構成する。 マッチングされた類似画素群における画素の完全類似性と単純な分離可能なhaar変換は、より適切な画像分解を得るのに役立つため、画像輝度向上手順において画像のシャープ化が困難となる。 指数変換と対数変換はそれぞれ照明成分に実装される。 そして、これら2つの変換の結果に対する最小の融合戦略を用いて、より自然な照明成分の強化を実現する。 ガンマ値が1未満の指数変換により暗黒領域で生成されたモザイクアーティファクトを緩和し、対数変換による明るい領域の過剰な強化による情報損失を低減することができる。 最後に、強化された照明と反射率にretinexモデルを適用して画像強調を行う。 また、局所雑音レベル推定に基づく雑音抑圧法と非局所飽和低減に基づく色偏差補正法を開発した。 これらの2つの方法は、極暗い低照度画像の強化結果に通常示されるノイズや色差を減衰させることができる。 ベンチマークデータセットを用いた実験により,提案手法は従来の手法よりも主観的および客観的な評価において,低照度画像強調結果が得られることがわかった。

Retinex model has been applied to low-light image enhancement in many existing methods. More appropriate decomposition of a low-light image can help achieve better image enhancement. In this paper, we propose a new pixel-level non-local Haar transform based illumination and reflectance decomposition method (NLHD). The unique low-frequency coefficient of Haar transform on each similar pixel group is used to reconstruct the illumination component, and the rest of all high-frequency coefficients are employed to reconstruct the reflectance component. The complete similarity of pixels in a matched similar pixel group and the simple separable Haar transform help to obtain more appropriate image decomposition; thus, the image is hardly sharpened in the image brightness enhancement procedure. The exponential transform and logarithmic transform are respectively implemented on the illumination component. Then a minimum fusion strategy on the results of these two transforms is utilized to achieve more natural illumination component enhancement. It can alleviate the mosaic artifacts produced in the darker regions by the exponential transform with a gamma value less than 1 and reduce information loss caused by excessive enhancement of the brighter regions due to the logarithmic transform. Finally, the Retinex model is applied to the enhanced illumination and reflectance to achieve image enhancement. We also develop a local noise level estimation based noise suppression method and a non-local saturation reduction based color deviation correction method. These two methods can respectively attenuate noise or color deviation usually presented in the enhanced results of the extremely dark low-light images. Experiments on benchmark datasets show that the proposed method can achieve better low-light image enhancement results on subjective and objective evaluations than most existing methods.
翻訳日:2021-06-16 10:34:13 公開日:2021-06-15
# 会話音声認識のためのクロスセンスニューラルネットワークモデル

Cross-sentence Neural Language Models for Conversational Speech Recognition ( http://arxiv.org/abs/2106.06922v2 )

ライセンス: Link先を確認
Shih-Hsuan Chiu, Tien-Hong Lo and Berlin Chen(参考訳) 自動音声認識(ASR)における重要な研究の方向性は、より洗練された言語モデル(LM)を用いたASRシステムの出力仮説を再現する効果的な手法の開発である。 ASR N-best仮説の現在の主流の考え方は、リカレントニューラルネットワーク(RNN)ベースのLMまたはその変種を採用することであり、従来のn-gram LMよりも様々なASRタスクで性能が優れている。 長い会話のような実際のシナリオでは、連続した文の連続は、話題のコヒーレンス、語彙のエントレインメント、隣接ペアといった会話レベルの情報を豊富に含んでいるが、未検討のままである。 そこで我々はまず, ASR N-best を予測問題として定式化し, 先行文の単語使用法を考慮し, 今後の文の ASR N-best 仮説を再帰的に再帰する, 効果的な横断型ニューラルネットワーク LM アプローチを提案する。 さらに,asr性能を向上させるために,クロスセンテンス履歴のタスク固有のグローバルトピック情報を抽出することも検討した。 AMI対話型ベンチマークコーパスで実施した広範囲な実験により,提案手法の有効性と妥当性が示唆された。

An important research direction in automatic speech recognition (ASR) has centered around the development of effective methods to rerank the output hypotheses of an ASR system with more sophisticated language models (LMs) for further gains. A current mainstream school of thoughts for ASR N-best hypothesis reranking is to employ a recurrent neural network (RNN)-based LM or its variants, with performance superiority over the conventional n-gram LMs across a range of ASR tasks. In real scenarios such as a long conversation, a sequence of consecutive sentences may jointly contain ample cues of conversation-level information such as topical coherence, lexical entrainment and adjacency pairs, which however remains to be underexplored. In view of this, we first formulate ASR N-best reranking as a prediction problem, putting forward an effective cross-sentence neural LM approach that reranks the ASR N-best hypotheses of an upcoming sentence by taking into consideration the word usage in its precedent sentences. Furthermore, we also explore to extract task-specific global topical information of the cross-sentence history in an unsupervised manner for better ASR performance. Extensive experiments conducted on the AMI conversational benchmark corpus indicate the effectiveness and feasibility of our methods in comparison to several state-of-the-art reranking methods.
翻訳日:2021-06-16 10:33:49 公開日:2021-06-15